东北大学自然语言处理实验室
- 作品数:87 被引量:159H指数:8
- 相关作者:姚天顺王会珍陈文亮朱慕华吴宏林更多>>
- 相关机构:新疆大学信息科学与工程学院中国刑警学院文件检验技术系更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术语言文字政治法律自然科学总论更多>>
- 基于谓词驱动模板的汉日机器翻译方法
- 本篇文章通过对汉语中谓词以及结构辅助词的分析研究提出了一种基于谓词驱动模板的机器翻译方法。谓词驱动模板方法将谓词以及结构辅助词固化在模板中,实现句子级的结构精确匹配,从而在模板库中找到最适合的翻译模板进行翻译。根据汉语中...
- 陈晴姚天顺张俐姜涛石磊李彦丹肖桐
- 关键词:谓词
- 文献传递
- Bi⁃LSTM和CRF结合的藏文分词方法研究
- 2024年
- 本研究旨在探索基于双向长短时记忆网络(Bi⁃LSTM)和条件随机场(CRF)的藏语分词方法。研究评估了Bi⁃LSTM和Bi⁃LSTM结合CRF模型在藏文分词任务中的性能,针对未登录音节词进行了模型优化。研究还将分词系统应用到CCMT2023藏汉机器翻译任务中,并进行了评估。实验结果表明,本文提出的分词系统在藏语分词任务中具有良好的性能,并且在藏汉机器翻译任务上有效提升了性能。
- 格桑加措阿卜杜热西提·热合曼尼玛扎西面加肖桐朱靖波
- 关键词:CRF
- 预训练神经机器翻译研究进展分析
- 2024年
- 神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。
- 曹智泉穆永誉肖桐李北张春良朱靖波
- 关键词:自然语言处理
- 基于领域类别信息C-value的多词串自动抽取
- 文本的多词串抽取是自然语言处理领域一项重要的研究内容,其中C-value是目前广泛应用的多词串抽取方法。然而C-value方法不能有效利用领域类别信息,即使文本的领域类别已知或者容易获得。针对这种情况,本文提出了一种多类...
- 李超王会珍朱慕华张俐朱靖波
- 关键词:领域信息
- 文献传递
- 面向文本分类的多类别SVM组合方式的比较
- 支持向量机是性能良好的二类分类模型,适用于处理文本分类问题。但支持向量机无法直接用于处理多类分类问题。本文考察了四种流行的多类支持向量机方法,包括one-against-rest,pair-wiseMax-win,DDA...
- 朱慕华朱靖波陈文亮
- 关键词:文本分类
- 文献传递
- 基于多层次特征集成的中文实体指代识别被引量:3
- 2007年
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:计算机应用中文信息处理条件随机场模型
- 基于多阶段的中文人名消歧聚类技术的研究
- 人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统...
- 关键词:人名消歧聚类算法
- 文献传递网络资源链接
- 基于Bootstrapping的文本分类模型
- 本文提出一种基于Bootstrapping 的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整...
- 陈文亮朱慕华朱靖波姚天顺
- 关键词:文本分类最大熵模型
- 文献传递
- 利用1-m词对齐信息改善统计机器翻译性能
- 词对齐是目前主流的统计机器翻译系统必备的模块,而IBM模型是词对齐最常用的模型,但是IBM模型不允许源语到目标语的一对多词对齐,这一限制在像汉英翻译这样频繁出现一对多对齐现象的任务中,影响了翻译系统的性能。
本...
- 陈如山肖桐朱靖波
- 关键词:文字处理数理语言学
- 文献传递
- 基于序列相交的短语译文获取
- 短语译文获取技术是基于实例机器翻译系统EBMT中的核心技术之一,短语译文获取技术的性能直接影响到EBMT的性能。当前主要的短语译文获取方法过于依赖词对齐结果,只能从词对齐库中得到短语译文结果:有些方法利用句法分析结果,存...
- 王辰宋国龙吴宏林张俐刘绍明
- 关键词:EBMT
- 文献传递