宋彦
- 作品数:7 被引量:52H指数:2
- 供职机构:沈阳航空工业学院更多>>
- 发文基金:国家高技术研究发展计划教育部科学技术研究重点项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于短语的统计机器翻译方法被引量:3
- 2007年
- 简要介绍了统计机器翻译的国内外现状,对当前统计机器翻译的主流方法进行了理论上的探讨。首先讨论了对数线性模型,然后进一步描述了对数线性模型的特征选择、参数训练和搜索算法,最后在此基础上进行了初步的实验。实验结果表明:基于短语的统计机器翻译方法能够取得较好的翻译效果,值得做更深一步的研究。
- 苗洪霞蔡东风宋彦
- 关键词:统计机器翻译短语语言模型翻译模型
- 利用统计机器翻译方法实现航空领域标题的翻译
- 2007年
- 标题反映文章的灵魂,精确把握标题能迅速领悟文章的中心内容。本文利用统计机器翻译方法搭建了一个机器翻译平台,使用兹平台对航空领域标题进行翻译,井采用国际评测NIST工具对该平台进行了开放测试和对闭测试,测试结果表明该统计方法对领域标题翻译具有有效性。
- 苗洪霞蔡东风宋彦孙景广
- 关键词:统计机器翻译标题语言模型翻译模型
- 统计学习与知识发现被引量:1
- 2008年
- 知识发现是将知识从隐性转化为显性的一个过程,它是知识管理的重要组成部分。为此阐述了利用统计学习的知识发现方法,以及统计学习中主要使用的分类学习,并强调了使用数据驱动指导知识构建的合理性和优越性,最后结合实例分析了几个主要的统计学习方法及其应用。
- 宋彦蔡东风张桂平
- 关键词:知识发现统计学习
- 双语知识库中关联实例的多策略提取机制被引量:2
- 2007年
- 双语库是翻译记忆系统最重要的组成部分之一。从有限规模的双语库中提取更多的符合用户当前翻译需要的关联实例是翻译记忆技术研究的主要内容,本文首先对当前基于单一方法的实例检索算法存在的局限性进行了分析,并在对双语库进行知识化表示的基础上,提出了基于多策略的关联实例提取机制,即综合运用句子句法结构匹配、句子编辑距离计算、句子短语片段匹配、词汇语义泛化、基于扩展信息(如:句子来源、所属专业、应用频度等信息)的优选等策略进行关联实例提取。试验结果表明,该方法有效提高了关联实例的召回数量和质量,明显改善了对用户的辅助效果。
- 张桂平姚天顺尹宝生蔡东风宋彦
- 关键词:人工智能机器翻译翻译记忆
- 基于N-gram的句子相似度计算技术
- 在基于大规模双语语料库的机器翻译研究中,如何找到最有效的翻译参考一直以来都是人们的关注焦点, 其核心技术就是参考例句的相似度计算。本文提出了一种基于 HowNet 词语相似度的 N-gram 相似度计算方法,在此基础之上...
- 宋彦张桂平蔡东风
- 关键词:N-GRAM句子相似度
- 文献传递
- 基于短语的对数线性模型的统计机器翻译方法与系统实现
- 统计机器翻译是一种完全基于数据驱动的机器翻译方法,相比其它方法能更高效和客观地构建翻译系统,而且随着当前计算机可读语料的飞速膨胀和计算机运算性能的极大提升,统计机器翻译已经成为机器翻译研究领域的热点和前沿。 作为统计机器...
- 宋彦
- 关键词:统计机器翻译短语
- 文献传递
- 一种基于字词联合解码的中文分词方法被引量:45
- 2009年
- 近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面.
- 宋彦蔡东风张桂平赵海
- 关键词:中文分词语言模型条件随机场模型