国家自然科学基金(60496326)
- 作品数:29 被引量:116H指数:6
- 相关作者:陆汝占胡熠李学宁刘慧刘磊更多>>
- 相关机构:上海交通大学中国科学院华东交通大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划江西省教育厅科技计划项目更多>>
- 相关领域:自动化与计算机技术语言文字文化科学自然科学总论更多>>
- 汉语名物化复合词识别
- 2008年
- 名物化复合词的识别是汉语复合词识别中的难点。困难之处在于汉语动词和名词共现时既可以构成动词短语也可以构成名物化复合词。传统的汉语复合词识别往往只使用语料统计特征,效果往往不怎么理想。基于最大熵模型,在基准上下文特征的基础上,采用了词汇特征与Web特征对动词和名词共现时的名物化候选进行判定,取得了较好的实验结果。其中,Precision达到了86.31%,Recall达到了70.00%。
- 陈昌熊赵京雷
- 关键词:最大熵模型主题词表
- 形容词多义性在《现代汉语规范词典》中的表征
- 2008年
- 通过对127个高频形容词在《现代汉语规范词典》中的释义进行统计分析,发现了一种新的一词多义表征方式——同义词或反义词加语义特征。采用"三步法,"可以全面收集某个形容词在词库中的同义词、反义词和相关特征,包括那些没有在本词条下出现的词和特征。这项研究在一定程度上增进了对"互训"和语义特征的认识,有助于进一步开展相关的语义学和自然语言处理研究。
- 李学宁陆汝占
- 关键词:形容词一词多义计算词典学
- 一种建立中文概念分类关系的新算法被引量:9
- 2004年
- 该文总结了本体概念之间的分类关系研究现状,提出了一个通用且独立于领域的自底向上建立中文概念之间的分类关系的分级模型和算法,算法充分考虑了中文自身的特点,通过生成领域词汇的语义森林并利用现有的语义词典或机读词典进行语义森林的整合。通过实验得到了比较完整的概念间的分类关系,由此证明算法是可行的和有效的。
- 裴炳镇陈晓明胡熠陆汝占
- 关键词:词汇本体
- 实体关系模板的获取技术被引量:5
- 2007年
- 确定实体间的关系有助于理解文本,提高信息检索的正确率。该文研究中文实体关系模板的获取技术,提出了一种STG的bootstrapping训练方法。该方法采用生物信息学中的序列比对技术计算上下文的语义模板,使用一定的评估机制筛选模板,有效地扩充元组以提高下一轮训练的质量。实验结果表明,STG生成的模板不仅能覆盖大量的元组,而且正确率可达99%。
- 陈晓颖胡熠陆汝占
- 关键词:信息提取BOOTSTRAPPING
- 基于《现代汉语规范词典》的语义特征库建设
- 2007年
- 在自然语言理解中,语义特征起到了重要的作用,然而,各家设置的特征在种类和命名上存在不一致性.一种解决方案是基于优秀的文本词其建设特征库.以《现代汉语规范词典》为例,手工抽取了9大类特征,并提出了‘概念属性的自动提取模型’,取得了比较理想的实验结果.
- 李学宁陆汝占胡熠刘慧
- 关键词:自然语言理解语义特征特征库
- 基于机器可读词典的词汇知识抽取被引量:1
- 2008年
- 越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法,对结果进行过滤。在应用到《应用汉语词典》中后,取得了良好的抽取效果。
- 樊玉俊胡熠陆汝占
- 关键词:词汇知识最大熵
- 基于混合特征的上下位关系验证方法被引量:4
- 2008年
- 上下位关系的自动验证是知识获取中的一个关键问题。提出一种基于混合特征的迭代上下位关系验证方法,从语义、语境、空间结构角度,给出一组上下位关系特征,根据抽样数据分析,将所有特征转化为用于验证的产生式规则,利用这些规则对基于模式获取的上下位关系进行循环迭代验证。实验结果说明了该方法的有效性。
- 刘磊曹存根
- 关键词:上下位关系知识获取
- 机器可读词典中词汇属性信息的获取
- 2009年
- 获取概念的属性信息有助于构建概念间的关系,进而改进基于概念的信息检索等应用的性能。研究了如何从机器可读词典中获取释义项的属性信息并实现了一个相应的系统DAE(Dictionary Attribute Extractor)。系统基于bootstrapping思想,进行模板-元组迭代抽取。在模板的获取中,引入了基于生物信息学多序列比对的方法;模板泛化时,引入词汇语义相似度计算和同义词扩展,提高模板覆盖率。实验中,系统抽取了"功能"、"颜色"和"组成"三种属性,取得了较好的效果。
- 宋孜攀陆汝占
- 关键词:信息抽取自举语义相似度
- 基于递归概念图的文本检索模型研究被引量:3
- 2008年
- Sowa在1984年提出了一个抽象模型,即概念图,作为基于语言学、心理学和哲学的知识表示语言。但是其概念图的定义比较简单,对于刻画文本中的语言组块的语义及语言单元之间的组合运算比较困难。为了能从形式上为将来的组块内部和组块之间的组合分析提供支持,深化概念图的表示形式,我们提出了一种适用于自然语言自动化分析的概念图的形式化描述,它可以看成是Sowa概念图的递归扩展。然后我们将这种新颖的知识表示方式应用到文本检索领域的文本标引中,同时给出了以此为基础的概念图匹配算法。在和布尔检索的比较实验中,概念检索体现出比较明显的优势。
- 吴保松胡熠陆汝占
- 关键词:文本检索概念图相似度函数
- A Novel Multi-classifier Integrated Model for Chinese Noun Sense Disambiguation
- 2006年
- Jianyong Duan Yi Hu Weilin Wu Hui Liu Ruzhan Lu
- 关键词:语言程序自然语言处理计算机语言