教育部科学技术研究重点项目(00128)
- 作品数:7 被引量:68H指数:3
- 相关作者:宋柔罗智勇熊文新钱揖丽荀恩东更多>>
- 相关机构:北京语言大学北京工业大学北京外国语大学更多>>
- 发文基金:教育部科学技术研究重点项目国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 汉语专名的初步研究
- 专名对于自然语言处理有重要意义.本文对专名进行了界定,提出了汉语专名的特点,讨论了这些特点在信息量表示、词语聚类、专名识别方面的应用.
- 宋柔邹嘉彦
- 文献传递
- 信息检索需求描述中的词语区域凸显
- 2008年
- 根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。
- 熊文新宋柔
- 关键词:信息检索功能块
- 相似词及其在计算机辅助校对系统中的应用
- 统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而...
- 罗智勇宋柔
- 关键词:数据稀疏相似词计算机辅助校对
- 文献传递
- 《中国大百科全书》人物传记知识提取加工规范
- 将百科辞典中的知识形式化,是使用计算机进行知识服务的根本基础。目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写。这两种方法都需要大量的高级人力的投...
- 颜伟王洁尚英宋柔
- 关键词:人物传记知识提取
- 文献传递
- 简单短语及线性邻接属性研究
- 简单短语是从计算机处理汉语的使用需求出发提出的概念,是较易自动识别、较高频、类内语法功能相似的若干类词组。本文界定简单短语的概念,给出了简单短语类的草拟清单,并提出用线性邻接关系表现简单短语的语法特征,使词和词组能在同一...
- 宋柔尚英赵瑾
- 一种基于可信度的人名识别方法
- 专名识别是中文自动分词的重要任务。本文分析了目前流行的基于语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法。从我们对《人民日报》...
- 罗智勇宋柔荀恩东
- 关键词:自动分词人名识别统计语言模型
- 文献传递
- 现代汉语通用分词系统中歧义切分的实用技术被引量:29
- 2006年
- 歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
- 罗智勇宋柔
- 关键词:中文信息处理歧义切分
- 简单短语及线性邻接属性研究
- 简单短语是从汉语处理的使用需求出发提出的概念,是较易自动识别、较高频、类内语法功能相似的若干类词组。本文界定了简单短语的概念,给出了简单短语类的草拟清单,并提出用线性邻接关系表现简单短语的语法特征,使词和词组能在同一个体...
- 宋柔尚英赵瑾
- 文献传递
- 基于百科词典的知识获取系统的研究与实现
- 从各种自然语言文本中获取知识是自然语言处理技术的重要应用。本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统。具体工作包括:利用分词工具进行初步的词条分类:在词条分类...
- 许勇宋柔
- 关键词:自然语言处理知识获取信息提取
- 文献传递
- 《中国大百科全书》中行政地理知识的人工提取规范
- 文本知识提取是语言信息处理的一个重要内容。我们工作的目标是用计算机自动提取百科全书中有形式特征的显性知识。为此,需要先进行人工提取,为机器自动提取知识做准备。本文主要介绍了我们的知识提取工作的总体思路,并且选择了其中的行...
- 尚英宋柔
- 关键词:知识提取复杂知识
- 文献传递