霍英东青年教师基金(114005)
- 作品数:3 被引量:23H指数:2
- 相关作者:徐昕吴军王凯沈栋李兆斌更多>>
- 相关机构:国防科学技术大学亚利桑那大学中国科学院自动化研究所更多>>
- 发文基金:霍英东青年教师基金国家自然科学基金湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于马氏决策过程模型的动态系统学习控制:研究前沿与展望被引量:20
- 2012年
- 基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨。
- 徐昕沈栋高岩青王凯
- 关键词:MARKOV决策过程近似动态规划自适应控制
- 增强学习算法的性能测试与对比分析被引量:2
- 2010年
- 研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,重点针对Markov决策问题(MDP)的值函数平滑特性对算法性能的影响进行了研究。分别利用值函数非平滑的组合优化问题——旅行商问题(TSP)和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析。分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性能更优。通过分析实验结果表明,MDP值函数的平滑程度是影响近似策略迭代算法性能表现的重要因素。
- 李兆斌徐昕吴军连传强
- 关键词:值函数
- 面向分布协同控制研究的仿真环境设计与实现被引量:1
- 2009年
- 针对分布式系统,尤其是多机器人系统中协同控制问题的研究需要,提出了一种具有分层嵌套结构的多Agent仿真环境设计方案,以克服现有仿真环境存在的兼容性差和算法移植困难的问题。设计方案在系统总体结构中引入了层次多Agent的设计思想;在子系统中采用Acromovi结构框架设计;在个体Agent中采用了混合型的内部结构设计。具体应用于多机器人仿真环境设计中,通过不同的实验配置方案,逐步实现多机器人系统的虚拟仿真和半实物仿真。最终的多机器人编队控制实验表明了设计方案的有效性。
- 吴军徐昕宋金泽刘春明贺汉根
- 关键词:多智能体多机器人半实物仿真