赵海
- 作品数:6 被引量:331H指数:3
- 供职机构:香港城市大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于字依存树的中文词法-句法一体化分析
- 针对中文切分规范定义上的一些困难以及多层次处理的性能下降问题,本文提出了一种直接从字开始的依存关系表示用于中文的基本结构表示和分析。我们的分析表明,这一表示框架可以方便地用于建立一种词法-句法一体化的完整句子结构表示。通...
- 赵海揭春雨宋彦
- 关键词:依存分析
- 文献传递
- 基于字符级特征的日文依存句法自动分析算法
- 2009年
- 基于字符在词位的特定性位置能起标志性作用,使用反映日语的语言倾向性的特征分析依存句法,给出基于字符级特征的依存句法自动分析算法。该算法使用词首的头2个字符、词尾的最后1个字符以及词尾的最后2个字符这3种类型的字符级特征加强分析器的学习。采用第1种类型的特征,反映日语的词汇形态特点,采用后2种类型的特征,则部分反映了日语表达重心后置的语言特性。在CoNLL-2009日语语料库上进行实验以及进行实际评估,结果表明:与基线特征相比,该算法有效地提高分析器的UAS指标(即无标记依存关系的正确率)和LAS指标(即考虑带标记的依存关系的正确率),大大提高分析器的竞争力。
- 文益民赵海李健黄晗文
- 关键词:计算机应用依存句法分析
- 基于子串标注的中文分词:寻找更佳的标注单元
- 由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003 年国际中文分词评测活动 Bakeoff 开展以来,基于字标注的统计学习方法引起了广泛的关注。本文探讨这一学习框架的推广问...
- 赵海揭春雨
- 关键词:中文分词
- 文献传递
- 一种基于字词联合解码的中文分词方法被引量:45
- 2009年
- 近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面.
- 宋彦蔡东风张桂平赵海
- 关键词:中文分词语言模型条件随机场模型
- 基于有效子串标注的中文分词被引量:34
- 2007年
- 由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来,基于字标注的统计学习方法引起了广泛关注。本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足。我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法,二是在给定文本上实现子串单元识别的双词典最大匹配算法。该方法的有效性在Bakeoff-2005评测语料上获得了验证。
- 赵海揭春雨
- 关键词:计算机应用中文信息处理中文分词
- 中文分词十年回顾被引量:297
- 2007年
- 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。
- 黄昌宁赵海
- 关键词:计算机应用中文信息处理中文分词未登录词识别