国家自然科学基金(60203010) 作品数:5 被引量:65 H指数:3 相关作者: 张玥杰 张涛 姚天顺 朱靖波 钱晶 更多>> 相关机构: 复旦大学 上海财经大学 东北大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于英汉机译实现跨语言信息检索 被引量:11 2004年 随着日益增长的大量信息成为可利用的、用户面对查询一个多语种文本集合的情形 ,变得越来越普遍 .这就产生一个非常重要的问题—以一种语言描述的用户查询与以不同语言书写的文本之间的匹配问题 ,也就是一种如何跨越语言界限的问题 ,即跨语言信息检索 (Cross- L anguage Information Retrieval,CL IR) .针对该项任务建立了一个面向英汉的跨语言信息检索系统 ,并以此为基础提交了相关的几组运行结果 .同时 ,结合所构建的汉语 IR系统 ,实现完整的英—汉 CL 张玥杰 郭依昆 连理 吴立德关键词:信息检索 跨语言信息检索 机器翻译 语料库 面向数据的句法分析消歧 被引量:1 2006年 面向数据的分析技术(Data-Oriented Parsing,DOP)是一种概率分析策略,其概率模型的主要目的在于为一个给定的句子找到最可能的分析,即分析消歧。实际上,有关算法计算复杂度的大量研究证明,该类消歧问题属于NP-完全问题。因此,为有效实现最可能的分析,国外学者提出许多近似分析算法。本文主要论述在 DOP 框架中,基于 Monte Carlo 方法找到最可能分析的近似分析算法,并说明该方法可在合理的算法时间代价范围内实现,而且在统计上受控,以确保所获得的近似解确实对应着分析消歧后的精确解。 张玥杰 张涛 朱靖波 姚天顺关键词:消歧 MONTE CARLO方法 基于最大熵的汉语人名地名识别方法研究 被引量:30 2006年 构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析. 钱晶 张杰 张涛关键词:最大熵模型 专有名词识别 特征提取 基于Lucene的英汉跨语言信息检索 被引量:23 2005年 描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。 陈士杰 张玥杰关键词:信息检索 跨语言信息检索 自然语言处理 机器翻译 基于DOP技术实现英汉机译 2003年 本文以DOP理论作为语言现象的描述基础,以英汉机译为背景,对面向数据的英汉机译方法进行深入研究。其中,不仅提出一种基于DOP技术的源语组合分析模式,而且建立了相对应的目标语生成机制。前者以DOP技术作为基本框架,通过源语语句片段组合形式的获取以及基于相似的概率评估,完成整个分析过程。而后者基于传统上主要应用于分析过程的DOP技术,通过对分析结果进行线性化操作,最终生成目标语译文。实验表明,目标语译文质量比较令人满意,可成功实现英汉机译。 张玥杰 朱靖波 姚天顺关键词:机器翻译 自然语言处理 DOP 语言学 汉语 Knowledge Source Construction in Data-Oriented English-Chinese Machine Translation <正>In data-oriented English-Chinese machine translation, knowledge source is the very important basis for tran... Yuejie ZHANG文献传递 面向英汉的跨语言信息检索关键技术研究 本文以参加文本检索会议中有关跨语言信息检索(Cross-Language Information Retrieval,CLIR)任务的评价作为研究背景,提出了一个面向英汉的CLIR系统的实现框架,并由此引出有关英汉机译方... 张玥杰 郭依昆 吴立德关键词:信息检索 跨语言信息检索 机器翻译 语料库 文献传递