国家自然科学基金(60404009) 作品数:17 被引量:205 H指数:5 相关作者: 唐昊 周雷 韩江洪 程文娟 吴玉华 更多>> 相关机构: 合肥工业大学 教育部 安徽财经大学 更多>> 发文基金: 国家自然科学基金 安徽省自然科学基金 安徽高校省级自然科学研究基金 更多>> 相关领域: 自动化与计算机技术 更多>>
CSPS模型基于Q学习的Look-Ahead控制 探讨基于 Look-Ahead 控制的传送带服务生产加工站(Conveyor-Serviced Production Station,CSPS)的优化控制问题。通过建模为半 Markov 决策过程(SMDP),基于性能势... 吴慧 唐昊 周雷关键词:LOOK-AHEAD Q学习 文献传递 半Markov决策过程的数值迭代优化 被引量:4 2006年 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。 唐昊 吴玉华 周雷关键词:计算机应用 半MARKOV决策过程 SMDP基于性能势的M步向前策略迭代 被引量:1 2006年 运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。 吴玉华 唐昊 周雷关键词:计算机应用 半MARKOV决策过程 性能势 离散事件控制系统规则化描述方法的研究 被引量:19 2005年 离散事件控制系统(DECS)是离散事件系统(DES)在控制领域的一个应用类别,具有并发性、多值性、时序性和需求易变等特点。文章分析了现有的各类逻辑层DES建模方法在DECS建模和分析方面存在的缺陷,在此基础上,运用专家系统中的规则表达方法和递阶DECS简约技术,从逻辑层角度,建立了一套规范、简洁、贴近自然语言和易于理解的DECS规则化描述方法。 韩江洪 郑淑丽 陆阳 魏振春 于筑国关键词:离散事件系统 搬运系统作业分配问题的小脑模型关节控制器Q学习算法 被引量:4 2009年 研究两机器人高速搬运系统的作业分配问题.在系统的Markov决策过程(MDP)模型中,状态变量具有连续取值和离散取值的混杂性,状态空间复杂且存在"维数灾"问题,传统的数值优化难以进行.根据小脑模型关节控制器(CMAC)具有收敛速度快和适应性强的特点,运用该结构作为Q值函数的逼近器,并与Q学习和性能势概念相结合,给出了一种适用于平均或折扣性能准则的CMAC-Q学习优化算法.仿真结果说明,这种神经元动态规划方法比常规的Q学习算法具有节省存储空间,优化精度高和优化速度快的优势. 唐昊 丁丽洁 程文娟 周雷关键词:MARKOV决策过程 Q学习 CMAC 基于OSGi的多Agent家庭网络系统的研究 从家庭网络目前发展中存在的问题出发,将Agent技术引入到家庭网络的研究中,建立了多Agent家庭网络系统的三层混合式体系结构。讨论了中间件技术,分析了利用中间件实现多Agent家庭网络系统的技术优势,在此基础上提出了家... 王跃飞 韩江洪 张利 张建军 毕翔关键词:家庭网络 AGENT 多AGENT OSGI 文献传递 平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:12 2006年 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 唐昊 周雷 袁继彬关键词:MARKOV决策过程 性能势 神经元动态规划 网络速率控制的博弈模型 被引量:3 2007年 传统的网络速率控制方案需要端系统用户合作以达到最优的网络性能.但是,当存在不合作端系统用户时,这些方案不可避免地会出现拥塞崩溃.为此,提出了一种非合作博弈网络速率控制框架,该方案基于非合作博弈论的Nash解的思想,博弈的各用户支付网络使用费并选择愿付价格以最大化自己的净收益.文中还设计了一种网络带宽定价机制,驱使自私用户流向社会最优解操作,并证明了该速率控制博弈可达惟一的Nash均衡点且带宽分配是有效与公平的. 钟伯成 韩江洪关键词:博弈论 NASH均衡 网络 速率控制 带宽分配 基于对等SAP的Q学习在机器人作业分配中的应用 基于强化学习,文章讨论了高速搬运系统中多个机器人的作业分配问题。针对状态空间随机器人个数增加呈指数增大这一难题,提出对等状态-行动对(State-Action Pair)概念,设计了一种改进的Q学习算法。在该算法中,每次... 丁丽洁 唐昊 周雷关键词:Q学习 文献传递 多链MDP的鲁棒控制策略求解 2008年 马尔可夫决策过程(MDP)的许多优化算法一般依赖系统的转移速率,而系统参数的不确定性使得MDP的转移速率往往很难精确得知。针对一类不确定多链MDP模型,基于性能势对参数不相关和相关两种情况下的鲁棒控制问题进行了探讨,并分别给出求解系统最优鲁棒性能的策略迭代和并行遗传算法。最后,通过一个数值例子分析相关算法的有效性。 周雷 唐昊 程燕关键词:性能势 鲁棒控制 并行遗传算法