搜索到34篇“ 中文机构名识别“的相关文章
基于潜在语义分析与多特征融合的中文机识别
实体识别在自然语言处理技术的发展过程中占据至关重要的地位,已经广泛应用于信息检索、数据挖掘、器翻译、信息抽取等互联网的多个研究方向。中文机识别作为中文信息处理技术的重点和难点,国内外学者相继提出很多方法,然而识...
刘璐
关键词:命名实体识别机构名识别条件随机场
基于深度学习的中文机识别研究——一种汉字级别的循环神经网络方法被引量:22
2016年
【目的】中文机复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了标注的输入和输出,提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%。在包含罕见词时提高更为明显,F值提高了11.05%。【局限】在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随场算法进行建模可能获取全局最优结果。【结论】本文方法架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果。
朱丹浩杨蕾王东波
关键词:机构名识别循环神经网络
用户查询日志中的中文机识别被引量:4
2014年
【目的】解决在用户查询日志中识别的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动建用户查询日志训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随场模型进行识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统识别方法在日志上的F值提高30%。【局限】语料建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验表明该方法应用于用户查询日志中的识别是有效的。
关晓炟吕学强李卓郑略省
新闻文本中的中文机识别关系抽取研究
网络的快速发展使实时了解信息及其发生的相关事件成为可能。然而,大量信息的涌现也极大地增加了获取有用信息的人工成本,从而使自动获取信息及其发生的事件成为了当今亟需解决的问题,信息抽取正是在这样的背景下产生的。新...
凌雅娟
CCRF与规则相结合的中文机识别被引量:6
2011年
针对复杂难以识别的问题,提出一种CCRF与规则相结合的识别方法。以CCRF为基础,利用特征融合设计特征模板,融合相应有效规则库,为复杂识别提供决策。对1998年1月的《人民日报》语料库进行开放测试,实验结果显示,识别的准确率为89.92%,召回率为91.41%,F1值为90.66%。
杨晓东晏立尤慧丽
关键词:条件随机场规则库语料库
基于层叠条件随场的中文机识别的研究
中文实体识别中文信息处理的基础任务,是器翻译、信息检索、问答系统等技术的基础。中文机识别属于中文实体识别范涛,对提高汉语自动分词和句法分析的效果都有重要的意义。 目前,中文机识别的方法主要是基于统计的...
红霞
关键词:自然语言处理条件随机场
基于SVM和CRF的双层模型中文机识别被引量:14
2010年
提出了一种基于支持向量(SVM)和条件随场(CRF)的双层模型进行中文机识别的方法.第一层模型采用CRF识别简单,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性.
黄德根李泽中万如
关键词:机构名识别
中文机识别的研究
中文实体识别中文信息处理任务的前提和基础,其中占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机识别方法,并实现了一个有效的中文机识别系统。 ...
万如
关键词:中文信息处理自然语言处理支持向量机
基于模板匹配的中文机识别被引量:6
2008年
利用分词和词性标注的信息,针对未登录词中的中文机的组成进行了深入的分析,总结出的内部组成特点,提出了基于模板匹配的中文机识别的方法。给出了中文机的模板和识别过程,介绍了出现的边界条件。在开放测试中,中文机识别的精确率和召回率分别为92.1%和72.81%,取得了较好的识别结果。
李军王丁王鑫
关键词:未登录词中文机构名识别模版匹配
基于角色标注的中文机识别
中文机自动识别是命实体识别的重点和难点,目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色标注的中文机自动识别方法,其基本思想是:根据在识别中的作用,采取Viterbi算法对切分结...
俞鸿魁张华平刘群
关键词:中文机构名识别未登录词识别角色标注VITERBI算法

相关作者

万如
作品数:2被引量:15H指数:1
供职机构:大连理工大学计算机科学与技术学院
研究主题:中文机构名识别 支持向量机 CRF SVM 机构名识别
朱丹浩
作品数:28被引量:149H指数:8
供职机构:江苏警官学院
研究主题:条件随机场 语言模型 知识 古籍 知识库
刘璐
作品数:39被引量:6H指数:1
供职机构:西北大学
研究主题:全色图像 遥感图像融合方法 高光谱图像 光谱信息 卷积
吕学强
作品数:410被引量:1,410H指数:17
供职机构:北京信息科技大学
研究主题:抽取方法 图像 搜索日志 中文 条件随机场
刘群
作品数:210被引量:1,628H指数:19
供职机构:中国科学院计算技术研究所
研究主题:机器翻译 统计机器翻译 翻译模型 自然语言处理 源语言