连传强
- 作品数:6 被引量:39H指数:2
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金霍英东青年教师基金湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术交通运输工程机械工程更多>>
- 多智能体增强学习算法及应用研究
- 随着物理机器人和软件智能体的不断普及,对于多智能体的需求和应用,如足球机器人、搜索和营救等变得越来越普遍。多智能体系统的增强学习(REINFORCEMENT LEARNING:RL)在近年来吸引了越来越多研究者的注意力。...
- 连传强
- 关键词:多智能体增强学习算法协作控制
- 文献传递网络资源链接
- 增强学习算法的性能测试与对比分析被引量:2
- 2010年
- 研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,重点针对Markov决策问题(MDP)的值函数平滑特性对算法性能的影响进行了研究。分别利用值函数非平滑的组合优化问题——旅行商问题(TSP)和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析。分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性能更优。通过分析实验结果表明,MDP值函数的平滑程度是影响近似策略迭代算法性能表现的重要因素。
- 李兆斌徐昕吴军连传强
- 关键词:值函数
- 面向资源分配问题的Q-CF多智能体强化学习被引量:1
- 2011年
- 多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真结果表明,和已有的多智能体Q-学习算法相比,该方法具有更加快速的收敛速度,同时保证了协同策略的性能优化.
- 连传强徐昕吴军李兆斌
- 关键词:多智能体系统资源分配协同控制
- 基于近似动态规划的优化控制方法及在自主驾驶车辆中的应用
- 近年来,随着工程应用范围的扩大,近似动态规划(Approximate dynamic programming,ADP)方法越来越多的被用于求解各种复杂的优化决策问题。如何提高近似动态规划方法的泛化能力和实时优化能力是本文...
- 连传强
- 关键词:运动控制近似动态规划
- 文献传递
- 协作多机器人系统研究进展综述被引量:31
- 2011年
- 协作多机器人系统是近年来机器人研究的热点,具有良好的应用前景.针对开展相关研究的迫切需要,总结了协作多机器人系统研究的国内外发展现状,并分别对无意识协作的仿生多机器人系统和有意识协作的异构多机器人系统研究进行论述.重点从系统构建和优化控制的宏观角度出发,对有意识协作异构多机器人系统的体系结构、环境感知以及优化控制3个方面的研究进展分别展开论述;对典型的多机器人验证任务和软硬件实验平台进行了总结;最后对协作多机器人系统的研究方向进行了展望.
- 吴军徐昕连传强贺汉根
- 关键词:多机器人系统优化控制环境感知
- 采用核增强学习方法的多机器人编队控制被引量:3
- 2011年
- 提出一种分布式的核增强学习方法来优化多机器人编队控制性能.首先,通过添加虚拟领队机器人,结合分布式的跟随控制策略,实现基本的多机器人编队控制;其次,提出结合最小二乘策略迭代和策略评测的核增强学习方法,即利用基于核的最小二乘策略迭代算法离线获取初始的编队优化控制策略,再利用基于核的最小二乘策略评测算法实现编队控制策略的在线优化.最后,编队实验结果显示算法能够实现自适应优化控制,提高多机器人的编队控制性能.
- 吴军徐昕连传强黄岩
- 关键词:多机器人编队控制策略迭代核方法