您的位置: 专家智库 > >

曹海龙

作品数:9 被引量:31H指数:3
供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术语言文字文化科学更多>>

文献类型

  • 7篇期刊文章
  • 2篇会议论文

领域

  • 9篇自动化与计算...
  • 1篇文化科学
  • 1篇语言文字

主题

  • 5篇句法分析
  • 4篇句法
  • 3篇自然语言
  • 2篇多语
  • 2篇信息处理
  • 2篇语言处理
  • 2篇自然语言处理
  • 2篇汉语
  • 2篇汉语句法
  • 2篇汉语句法分析
  • 1篇短语
  • 1篇短语结构
  • 1篇多任务
  • 1篇多任务学习
  • 1篇性能比较
  • 1篇依存
  • 1篇隐马尔科夫模...
  • 1篇双语
  • 1篇随机场
  • 1篇图模型

机构

  • 9篇哈尔滨工业大...
  • 1篇教育部

作者

  • 9篇曹海龙
  • 8篇赵铁军
  • 3篇李生
  • 1篇孟遥
  • 1篇朱聪慧
  • 1篇张春越
  • 1篇刘乐茂
  • 1篇孙俊
  • 1篇马春鹏
  • 1篇王亚楠

传媒

  • 2篇中文信息学报
  • 1篇电子与信息学...
  • 1篇高技术通讯
  • 1篇软件学报
  • 1篇智能计算机与...
  • 1篇情报工程
  • 1篇第三届学术计...
  • 1篇中国中文信息...

年份

  • 1篇2021
  • 1篇2017
  • 1篇2012
  • 2篇2011
  • 2篇2007
  • 1篇2006
  • 1篇2003
9 条 记 录,以下是 1-9
排序方式:
以机器翻译技术为核心的多语信息处理研究被引量:2
2011年
该文介绍了哈尔滨工业大学教育部—微软语言语音重点实验室在多语信息处理方面的研究进展和成果。首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作。
赵铁军曹海龙
关键词:机器翻译自然语言处理
层次短语翻译中基于Markov随机场的层次切分模型
2012年
翻译推导的切分歧义是统计机器翻译面临的一个很重要的问题,而在层次短语机器翻译中,其尤为突出.提出了一个层次切分模型来处理推导的切分歧义性.采用Markov随机场构建模型,然后将其融入层次短语翻译模型,以便自动选择更合理的切分.在NIST中英翻译的任务中,该模型的训练效率高,通过NIST05,NIST06和NIST08这3个测试集上的翻译效果表明,该模型提高了层次短语翻译的性能.
刘乐茂赵铁军曹海龙朱聪慧张春越
关键词:图模型MARKOV随机场
四种基本统计句法分析模型在汉语句法分析中的性能比较被引量:23
2003年
统计模型的选择是统计句法分析的关键。目前句法分析常用的有四种经典统计模型—PCFG模型 ,基于历史模型、分层渐近式模型和头驱动模型。本文通过实验 ,在已有的 10 0 0 0句汉语树库基础上 ,测试了这四种经典模型在现有数据规模下各自的性能 ,并论述了这四种经典模型的各自特点。本文旨在通过对四种基本模型的比较研究 ,为具体应用中句法分析模型的选择提供参考和依据。
孟遥李生赵铁军曹海龙
关键词:计算机应用中文信息处理
面向科技语料的短语结构句法分析器被引量:2
2017年
本文介绍了一个由哈尔滨工业大学设计和开发的面向科技语料的短语结构句法分析器。与传统的短语结构句法分析器不同,本句法分析器不需要对输入语料进行预处理。给定未经预处理的语料,本句法分析器可以联合地进行分词、词性标注以及短语结构的句法分析。这可以看成是多任务学习的一个实例。此外,针对科技语料的特点,本句法分析器对所使用的特征模板进行了优化,同时构建了面向科技语料的单词内部结构树库。实验结果表明,我们的句法分析器在通用领域的测试集以及科技领域的测试集上均取得了较好的效果。
王亚楠马春鹏曹海龙赵铁军
关键词:多任务学习
基于词汇化模型的汉语句法分析被引量:3
2007年
该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。
曹海龙赵铁军李生
关键词:句法分析隐马尔科夫模型
基于替换方法的无监督双语词典抽取
2021年
双语词典抽取任务是自然语言处理一个重要课题。本文基于替换方法重新训练词向量,使得词向量具有跨语言特性。本文主要研究了训练词典的获取方法,以及词向量共训练模型,在中英维基百科语料上进行实验。实验结果表明,按照确信度的方法选取训练词典,基于替换的方法得到的词向量跨语言性质较好,最终抽取的词典具有较高的准确率。
郭晋鹏曹海龙
以机器翻译技术为核心的多语信息处理研究
该文介绍了哈尔滨工业大学教育部——微软语言语音重点实验室在多语信息处理方面的研究进展和成果。首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作。
赵铁军曹海龙
关键词:自然语言信息处理
文献传递
面向句法分析的样本选择
句法分析是自然语言处理的一个基本问题,也是目前急待解决的一个问题.目前大多数的句法分析是基于统计方法的,基于统计的句法分析需要大规模的训练语料,而标注一个大规模语料需要很大的人力.为了减少标注句法树库所需的人力,本文对选...
孙俊曹海龙赵铁军
关键词:句法分析聚类自然语言处理
文献传递
基于中心驱动模型的宾州中文树库(CTB)句法分析被引量:3
2007年
报告了依托宾州中文树库进行句法分析研究的最新进展。以著名的中心驱动模型为基础,首次在宾州中文树库5.0上进行了句法分析实验。同前人的工作相比,这次实验取得了更加成功的结果,极大缩小了中、英文句法分析的差距。在公共的测试集上对句法分析器的性能进行了评价,对于正确分词和词性标注的句子,句法分析的精确率和召回率分别达到85.89%和85.61%。介绍了模型的实现过程,并进一步分析了模型中决策表和基本名词短语(BNP)两个关键环节在句法分析器中所起到的作用。本文的工作对于研制实用化句法分析系统具有一定参考价值。
曹海龙赵铁军李生
关键词:句法分析
共1页<1>
聚类工具0