周晓辉
- 作品数:3 被引量:10H指数:1
- 供职机构:西安邮电大学计算机学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向信息抽取的指代消解探究被引量:1
- 2015年
- 指代消解是自然语言处理中的重点难点,对信息抽取具有重要意义.指代分有三种形式:代词指代,名词指代及零形回指.其中代词指代和名词指代是汉语中最基础的指代形式,以上两种指代的消解是指代消解研究的基础.为解决这一基本问题,使用决策树方法同时对两种形式指代进行处理.实验结果显示,所提出方法在不牺牲指代消解准确率的基础上,较大提高了指代消解的召回率.
- 许永良周晓辉李晓戈
- 关键词:信息抽取指代消解决策树有限状态机
- 信息抽取中地点归一化研究被引量:1
- 2015年
- 汉语中地名歧义现象非常普遍。我国每个县级城市基本上都有一个镇名叫城关镇。在信息抽取、融合、知识图谱构建中,首先要解决地名歧义问题。运用最大生成树算法,提出了一种地点归一化的混合模式解决方法,其基本步骤为:基于CRF的地点命名实体识别;用最大生成树的图搜索算法进行地名消岐,如无法消岐,则通过半自动抽取计算缺省地名。对《人民日报》2013下半年相关数据进行测试显示,正确率为93.7%。
- 孙雪闵李晓戈周晓辉
- 关键词:信息抽取最大生成树歧义
- 基于层次聚类的跨文本中文人名消歧研究被引量:8
- 2014年
- 人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。
- 张菲菲李宗海周晓辉李晓戈
- 关键词:人名消歧信息抽取相似度层次聚类