您的位置: 专家智库 > >

霍英东青年教师基金(114005)

作品数:3 被引量:23H指数:2
相关作者:徐昕吴军王凯沈栋李兆斌更多>>
相关机构:国防科学技术大学亚利桑那大学中国科学院自动化研究所更多>>
发文基金:霍英东青年教师基金国家自然科学基金湖南省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 1篇动态系统
  • 1篇多机器人
  • 1篇学习算法
  • 1篇增强学习算法
  • 1篇值函数
  • 1篇智能体
  • 1篇自适应控制
  • 1篇近似动态规划
  • 1篇控制研究
  • 1篇机器人
  • 1篇函数
  • 1篇多智能
  • 1篇多智能体
  • 1篇仿真
  • 1篇仿真环境
  • 1篇半实物
  • 1篇半实物仿真
  • 1篇MARKOV...

机构

  • 3篇国防科学技术...
  • 1篇中国科学院自...
  • 1篇亚利桑那大学

作者

  • 3篇徐昕
  • 2篇吴军
  • 1篇贺汉根
  • 1篇宋金泽
  • 1篇刘春明
  • 1篇连传强
  • 1篇沈栋
  • 1篇李兆斌
  • 1篇王凯

传媒

  • 1篇自动化学报
  • 1篇计算机应用研...
  • 1篇系统仿真学报

年份

  • 1篇2012
  • 1篇2010
  • 1篇2009
3 条 记 录,以下是 1-3
排序方式:
基于马氏决策过程模型的动态系统学习控制:研究前沿与展望被引量:20
2012年
基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨。
徐昕沈栋高岩青王凯
关键词:MARKOV决策过程近似动态规划自适应控制
增强学习算法的性能测试与对比分析被引量:2
2010年
研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,重点针对Markov决策问题(MDP)的值函数平滑特性对算法性能的影响进行了研究。分别利用值函数非平滑的组合优化问题——旅行商问题(TSP)和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析。分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性能更优。通过分析实验结果表明,MDP值函数的平滑程度是影响近似策略迭代算法性能表现的重要因素。
李兆斌徐昕吴军连传强
关键词:值函数
面向分布协同控制研究的仿真环境设计与实现被引量:1
2009年
针对分布式系统,尤其是多机器人系统中协同控制问题的研究需要,提出了一种具有分层嵌套结构的多Agent仿真环境设计方案,以克服现有仿真环境存在的兼容性差和算法移植困难的问题。设计方案在系统总体结构中引入了层次多Agent的设计思想;在子系统中采用Acromovi结构框架设计;在个体Agent中采用了混合型的内部结构设计。具体应用于多机器人仿真环境设计中,通过不同的实验配置方案,逐步实现多机器人系统的虚拟仿真和半实物仿真。最终的多机器人编队控制实验表明了设计方案的有效性。
吴军徐昕宋金泽刘春明贺汉根
关键词:多智能体多机器人半实物仿真
共1页<1>
聚类工具0