刘宇鹏
- 作品数:4 被引量:32H指数:2
- 供职机构:哈尔滨工程大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金中国博士后科学基金黑龙江省教育厅科学技术研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 统计机器翻译中大规模特征的深度融合被引量:4
- 2017年
- 对循环神经网络和递归神经网络进行改进,提出深度融合的神经网络(DNN)模型,在训练过程中加入大规模特征.该模型有很强的泛化能力,适合于现在主流的自底向上解码样式,融合了2种经典的机器翻译模型:基于短语的层次化文法(HPG)和括号转录文法(BTG).使用改进的循环神经网络,生成适合短语生成过程的短语/规则对语义向量,并在生成过程中使用了自编码器以提高循环神经网络的性能.使用改进的递归神经网络,使它在翻译过程中指导解码,考虑到另一个解码器在解码过程中的信息,互相影响共同提高翻译性能.提出的深度融合模型不仅适合于异类翻译系统,也适合于异类语料.相对于经典的基线系统,在异类系统上该模型的实验结果获得1.0~1.9倍的BLEU分数提高,在异类语料上该模型的实验结果获得1.05~1.58的BLEU分数提高,且进行了统计显著性检验.
- 刘宇鹏乔秀明赵石磊马春光
- 大规模特征集翻译系统判别式训练方法综述被引量:1
- 2014年
- 由于传统机器翻译是在小规模的开发集上进行训练的,这样不能很好的拟合数据.为了更好的完成机器翻译任务,需要在大规模数据特征集合上进行训练,而且现在主流的机器翻译训练算法是判别式的训练方法,本文从这两个角度出发,在更大机器学习的框架下对于机器翻译任务进行建模,克服了原有机器翻译模型进行建模的时候数学抽象能力不够的问题,并从四个大的方面分析了大规模特征集机器翻译系统判别式训练算法所面临的问题进行了分析,并从文献上给出了相关问题的解决方法.
- 刘宇鹏马春光刘水刘乐茂赵石磊
- 关键词:损失函数正则化
- 深度递归的层次化机器翻译模型被引量:28
- 2017年
- 深度学习在自然语言处理中有很多的应用.深度网络的主要作用是捕获隐藏在语言结构中更深的语义信息.该文出发点为根据原有句子中的对齐作为深度网络生成结构的指导,并融合原有深度翻译模型的优点,提出了深度递归的层次化机器翻译模型.相对于已有的神经翻译模型来说,更好地结合了层次化的翻译过程,同时这种方法结合循环神经网络和递归神经网络的优点.层次化规则的归纳包含两个部分:短语的归纳和形式化规则的归纳,而在该文的建模过程中模拟了这两个部分且符合归纳过程.该文在训练中采用单词级语义错误、单语短语/规则语义错误和双语短语/规则语义错误构造目标函数,训练中能够更好平衡语义中3个部分的影响,同时考虑到对齐信息以指导层次化深度神经网络的训练.在解码过程中通过生成部分翻译结果的语义向量,最终得到句子间的语义关系,这样可以在语法结构中加入语义信息,克服了原有层次化模型语义信息缺乏的问题.该模型的实验结果说明了深度递归的层次化机器翻译模型的有效性,相对于经典的基线系统提高了1.49~1.84BLEU分数.
- 刘宇鹏马春光张亚楠
- 关键词:循环神经网络递归神经网络自然语言处理
- 多领域机器翻译中的非参贝叶斯短语归纳被引量:1
- 2017年
- 多领域机器翻译一直以来都是机器翻译领域研究的重点,而短语归纳是重中之重。传统加权的方法并没有考虑到整个归约过程,本文提出了一种使用层次化的Pitman Yor过程进行短语归约,同时把多通道引入到模型中,使得在短语归约的过程中平衡各领域的影响;从模型角度,本文的方法为生成式模型,模型更有表现力,且把对齐和短语抽取一起建模,克服了错误对齐对原有短语抽取性能的影响。从复杂度上来说,该模型独立于解码,更易于训练;从多领域融合来说,对短语归约过程中进行融合,更好地考虑到整个归约过程。在两种不同类型的语料上验证了机器翻译的性能,相对于传统的单领域启发式短语抽取和多领域加权,BLEU分数有所提高。
- 刘宇鹏刘宇鹏马春光乔秀明