张家俊
- 作品数:77 被引量:73H指数:4
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金北京市科技计划项目中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术语言文字文化科学一般工业技术更多>>
- 多语言翻译方法、装置、电子设备及存储介质
- 本发明提供一种多语言翻译方法、装置、电子设备及存储介质,方法包括:获取训练数据和源语言的文本;其中,训练数据包括源语言到多种目标语言的双语平行句对和多语言平行句对;对源语言的文本进行编码,得到源语言的文本对应的特征向量;...
- 张家俊王迁宗成庆
- 文献传递
- 中文篇章关系的分类方法及装置
- 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计...
- 张家俊刘洋马宏远杜翠兰柳毅赵媛宗成庆
- 融合中文单词内部结构信息的句子表示的构建方法及系统
- 本发明涉及自然语言处理技术领域,具体提出一种融合中文单词内部结构信息的句子表示的构建方法及系统,旨在解决单词内部结构信息利用率低的问题;所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各...
- 王少楠张家俊宗成庆
- 文献传递
- 一种基于谓词论元结构的统计机器翻译方法
- 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规...
- 宗成庆翟飞飞张家俊周玉
- 文献传递
- CWMT'08统计机器翻译研讨会自动化所技术报告
- 本文主要介绍了中科院自动化所参评系统1参加CWMT’08研讨会的技术报告,我们一共参加了四个项目的评测任务,包括新闻汉英、英汉机器翻译任务、科技荚汉机器翻译任务以及新闻汉英系统融合任务,这里主要介绍了我们参加各个评测任务...
- 何彦青张家俊李茂西陈钰枫周玉宗成庆
- 关键词:统计机器翻译
- 文献传递
- 融合文本语义特征的语音翻译方法、系统、设备
- 本发明属于机器翻译领域,具体涉及一种融合文本语义特征的语音翻译方法、系统、设备,旨在解决现有语音翻译方法难以融合不同模态之间的信息,无法充分利用语音识别和机器翻译领域的数据,导致翻译性能较差的问题。本发明方法包括获取待翻...
- 周玉刘宇宸张家俊宗成庆
- 文献传递
- 多模态机器翻译方法、装置、电子设备和存储介质
- 本发明提供一种多模态机器翻译方法、装置、电子设备和存储介质,所述方法包括:确定待翻译的源语言文本;将源语言文本输入至翻译模型中,得到翻译模型输出的目标语言文本;翻译模型是基于样本源语言文本和样本目标语言文本,以及与样本源...
- 宗成庆黄鑫张家俊周玉
- 文献传递
- 融合双语命名实体信息的神经机器翻译模型
- 2023年
- 神经机器翻译(NMT)模型在机器翻译任务上取得了良好效果,但由于对训练数据规模的依赖,NMT模型对于命名实体等稀有词语翻译能力有限,存在大量错翻、漏翻等问题。针对上述问题,该文提出了基于多引擎融合的双语命名实体词典构建方法和基于双语命名实体进行数据增强的Transformer模型架构,在多个中-英翻译测试集上的实验表明,该文提出的神经机器翻译模型相比于朴素Transformer模型在译文整体质量和命名实体翻译正确率上都有一定的提升,分别提升1.58的BLEU值和35.3个百分点的命名实体翻译准确率。
- 贺楚祎张家俊
- 中文拼写检错纠错方法、装置、电子设备及存储介质
- 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字...
- 张家俊李鑫赵阳宗成庆
- 一种基于模糊树到精确树的统计机器翻译方法
- 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐...
- 宗成庆张家俊
- 文献传递