江苏省自然科学基金(BK2012616) 作品数:29 被引量:268 H指数:7 相关作者: 刘全 傅启明 朱斐 伏玉琛 孙洪坤 更多>> 相关机构: 苏州大学 吉林大学 常熟理工学院 更多>> 发文基金: 江苏省自然科学基金 国家自然科学基金 江苏省高校自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 更多>>
基于凸多面体抽象域的自适应强化学习技术研究 被引量:5 2018年 表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状� 陈冬火 刘全 朱斐 金海东基于云计算的公交OD矩阵构建方法 被引量:8 2016年 OD矩阵作为交通客流数据可视化的重要方法,是公交系统评价和优化的重要依据.提出了一种基于云计算的OD矩阵构建框架,在此框架下利用云计算优异的存取速度及计算性能,实现了对公交历史数据的筛选、预处理、变换、数据挖掘、解释评价等操作.此外,还提出一种综合了追踪乘客出行行为规律和估计站点热度的OD矩阵构建模型来实现对乘客下车站点较为精确的估计.算例分析表明,根据该模型计算得到的各站点下车人数结果能较好地拟合实际出行OD矩阵. 孙慈嘉 李嘉伟 凌兴宏关键词:云计算 数据挖掘 基于符号执行和LTL公式重写的测试用例产生方法 被引量:3 2013年 基于模型检验等形式化方法的测试用例自动产生技术成为测试自动化领域一项重要的进展.对于输入和输出为无界抽象数据类型的无限状态系统,利用传统模型检验技术难以有效地产生测试用例集合,提出基于符号执行和公式重写的测试用例产生方法.通过建立程序的符号化执行模型,避免输入和输出变量数值化枚举而导致的无限状态系统的建模和状态爆炸问题;建立基于符号化执行模型的时序公式重写规则,并根据线性时序逻辑(linear temporal logic,LTL)公式的反例模式求取复杂属性及行为约束关系,利用约束求解的方法自动产生测试用例集合.这种方法集成了符号执行技术和时序公式状态重写——一种轻量级模型检验技术,成为基于复杂抽象数据类型系统与属性相关的测试用例自动产生的有效方法. 陈冬火 刘全关键词:线性时序逻辑 基于两层模糊划分的时间差分算法 被引量:1 2013年 针对传统的基于查询表或函数逼近的Q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题,提出了一种基于两层模糊划分的在策略时间差分算法——DFP-OPTD,并从理论上分析其收敛性。算法中第一层模糊划分作用于状态空间,第二层模糊划分作用于动作空间,并结合两层模糊划分计算出Q值函数。根据所得的Q值函数,使用梯度下降方法更新模糊规则中的后件参数。将DFP-OPTD应用于经典强化学习问题中,实验结果表明,该算法有较好的收敛性能,且可以求解连续行为策略。 穆翔 刘全 傅启明 孙洪坤 周鑫关键词:梯度下降 一种基于独立任务的POMDP问题的解决方法 2016年 通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。将该方法应用到两个不同规模的岩石采样问题中,实验结果表明,该方法能够获得很好的策略。 房俊恒 朱斐 刘全 伏玉琛 凌兴宏关键词:POMDP 支持合并的自适应tile coding算法 2015年 针对自适应tile coding算法会产生多余划分的问题,提出一种支持合并的自适应tile coding算法——MATC。该算法能够消除传统自适应tile coding算法中产生的多余划分,进一步解决连续状态空间离散化的问题。将MATC算法应用于离散动作连续状态的Mountain Car问题上,实验结果表明,该算法在学习过程中能消除传统tile coding算法的误划分所产生的不良影响,更准确地自动调整划分的精度,并更快地收敛到最佳策略。 施梦宇 刘全 傅启明关键词:离散化 自适应 TILE CODING 一种最大集合期望损失的多目标Sarsa(λ)算法 被引量:3 2013年 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 刘全 李瑾 傅启明 崔志明 伏玉琛关键词:多目标 机器人足球 一种近似模型表示的启发式Dyna优化算法 被引量:4 2015年 针对基于查询表的Dyna优化算法在大规模状态空间中收敛速度慢、环境模型难以表征以及对变化环境的学习滞后性等问题,提出一种新的基于近似模型表示的启发式Dyna优化算法(a heuristic Dyna optimization algorithm using approximate model representation,HDyna-AMR),其利用线性函数近似逼近Q值函数,采用梯度下降方法求解最优值函数.HDyna-AMR算法可以分为学习阶段和规划阶段.在学习阶段,利用agent与环境的交互样本近似表示环境模型并记录特征出现频率;在规划阶段,基于近似环境模型进行值函数的规划学习,并根据模型逼近过程中记录的特征出现频率设定额外奖赏.从理论的角度证明了HDyna-AMR的收敛性.将算法用于扩展的Boyan chain问题和Mountain car问题.实验结果表明,HDyna-AMR在离散状态空间和连续状态空间问题中能学习到最优策略,同时与Dyna-LAPS(Dyna-style planning with linear approximation and prioritized sweeping)和Sarsa(λ)相比,HDyna-AMR具有收敛速度快以及对变化环境的近似模型修正及时的优点. 钟珊 刘全 傅启明 章宗长 朱斐 龚声蓉关键词:函数逼近 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法 被引量:6 2013年 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。 肖飞 刘全 傅启明 孙洪坤 高龙关键词:梯度下降 势函数 一种用于基于方面情感分析的深度分层网络模型 被引量:47 2018年 近年来,基于方面情感分析已成为自然语言处理领域的研究热点之一.结合注意力机制的深度网络模型在基于方面情感分析任务中取得了令人瞩目的成功,针对以独立句子作为网络模型输入的方法无法获取句子间相互关系,以及仅使用词语层注意力机制难以充分获取同一评论中句子间的相互联系等问题,提出一种结合区域卷积神经网络和分层长短期记忆网络(Regional Convolutional Neural Network-Hierarchical Long Short-Term Memory,RCNN-HLSTM)的深度分层网络模型用在基于方面情感分析任务中.该模型通过区域CNN既可以保留不同句子在评论中的时序关系也可以大大降低仅使用LSTM网络的时间代价.此外,该模型利用一个分层LSTM网络来获取待分类句子内部词语之间的相互联系,以及待分类句子和评论中其他句子之间的情感特征信息.通过词语层和句子层注意力机制能有效获取特定方面在句子中的局部特征和整个评论中的长距离依赖关系,弥补了仅使用词语层注意力机制的不足.最后在多种语言的不同领域数据集上进行实验,取得了比传统的深度网络模型、结合注意力机制的深度网络模型以及考虑句子间关系的双向分层LSTM网络模型更好的分类效果. 刘全 梁斌 梁斌 徐进关键词:循环神经网络 卷积神经网络