国家高技术研究发展计划(2006AA01Z150) 作品数:8 被引量:42 H指数:2 相关作者: 赵铁军 刘鹏远 王浩畅 王宪刚 李卫疆 更多>> 相关机构: 哈尔滨工业大学 昆明理工大学 东北石油大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 云南省应用基础研究计划面上项目 更多>> 相关领域: 自动化与计算机技术 生物学 文化科学 更多>>
基于等价伪译词模型的无指导译文消歧研究 被引量:3 2008年 该文提出了一种基于等价伪译词进行无指导译文消歧的方法。该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词。利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例。由这些实例得到的目标语语义知识,可直接形成该等价伪译词的语义分类器。利用Hownet可将含目标歧义词的英语实例映射成汉语词集合,然后利用这个语义分类器进行译文消歧。在国际标准语义评测集上进行的测试表明,该方法优于其余两种自动获取已标注语料的系统,且与Senseval-2 ELS上可比较的最好无指导系统的性能相当。 刘鹏远 赵铁军 杨沐昀 李壮关键词:词义消歧 译文消歧 目标语 基于上下文的查询扩展 被引量:34 2010年 针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率. 李卫疆 赵铁军 王宪刚关键词:信息检索 查询扩展 上下文 语言模型 多分类器融合的文本分类技术研究 随着互联网信息及电子资源的急剧膨胀,文本分类技术成为信息组织与管理的有效手段。本文提出了一种多分类器融合的文本分类技术,通过引入可信度函数,选择出主分类器较难判决的文本,通过辅助分类器,对单一主分类器不易判决的文本通过多... 陈庆轩 郑德权 赵铁军关键词:多分类器 文本分类 文献传递 Linguistically-enriched Information Retrieval There are two problems in linguistically-enriched Information Retrieval(IR),one is how to get the linguistical... Haoliang QI~(1,2+) Muyun YANG~1 Jianfeng GAO~3 Sheng LI~1 Guohua LEI~2 ~1 School of Computer Science and Technology,Harbin Institute of Technology,150001,Harbin,China, ~2 Department of Computer Science and Technology,Heilongiiang Institute of Technology,150050,Harbin,China ~3 Microsoft Corporation,Redmond,WA 98052,U.S.A.关键词:CHUNKING 文献传递 跨语言信息检索中的用户查询翻译方法研究 用户的查询翻译是跨语言信息检索的一个非常重要的任务,翻译结果的准确性直接影响检索结果的查准率和查全率。本文提出了三种方法以解决跨语言信息检索中查询翻译的歧义问题。其中,基于知网(HowNet)语义关系的译词选择模型,通过... 朱红垒 郑德权 赵铁军关键词:跨语言信息检索 查询翻译 文献传递 以机器翻译技术为核心的多语信息处理研究 被引量:2 2011年 该文介绍了哈尔滨工业大学教育部—微软语言语音重点实验室在多语信息处理方面的研究进展和成果。首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作。 赵铁军 曹海龙关键词:机器翻译 自然语言处理 基于词语搭配关系的查询扩展方法 在信息检索领域,针对相关文档和用户查询之间的词不匹配问题,相关反馈和查询扩展可以有效提高检索性能。近来学者们将单词之间的关联关系融入到统计语言模型中,但都是利用WordNet或共现关系进行查询扩展,前者效果不明显而后者易... 林建方 李生 郑德权关键词:语言模型 交叉熵 查询扩展 搭配关系 文献传递 基于TSVM与主动学习融合的蛋白质交互作用关系抽取 2009年 针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究。通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能。实验结果表明,TSVM与主动学习融合的算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果,与传统的支持向量机(SVM)和TSVM算法相比,能有效地减少学习样本数,提高分类精度,在AImed语料上取得了F测度为64.12%的较好性能。 刘健苗 王浩畅 赵铁军关键词:半监督学习 面向奥运的多语语料库构建 语料库对自然语言处理具有重要的意义。近年来,语料库的建设主要集中在单语或双语方面,多语语料库很少。本文讨论了面向北京奥运的多语语料库建设中的若干基础问题。提出了面向事件、多领域融合的语料收集原则,在标注过程中保留了语言使... 张姝 杨沐昀 郑德权 赵铁军文献传递 多文档文摘句子优选算法研究 被引量:1 2008年 该文通过对文摘句的选择问题进行分析,提出了一种文摘句优选方法,相对于传统的逐个添加句子生成文摘的方法,该文提出的方法是在一定范围内逐个删除句子生成文摘。该方法分两阶段进行句子选择,第1阶段获取候选文摘句子集合,采用了直接获取算法和基于冗余信息处理的获取算法。第2阶段逐步删除句子,分别以不同特征项作为衡量句子对候选文摘句子集合的贡献,提出了文摘句优选算法。以DUC2004为实验语料,通过经句子选择后生成文摘的ROUGE得分,验证了句子选择在文摘生成过程中的必要性,与基于冗余信息处理的句子选择方法比较,验证了该文提出算法的有效性。 张姝 赵铁军 姚超 郑德权关键词:多文档文摘