国家高技术研究发展计划(2012AA011101)
- 作品数:28 被引量:349H指数:8
- 相关作者:昝红英柴玉梅贾玉祥高明磊赵东岩更多>>
- 相关机构:郑州大学北京大学中国核科技信息与经济研究院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术动力工程及工程热物理更多>>
- 一种新的组合分类器学习方法被引量:2
- 2014年
- 提出了一种新的基于决策树的组合分类器学习方法FL(Forest Learning)。与bagging和adaboost等传统的组合分类器学习方法不同,FL不采用抽样或加权抽样,而是直接在训练集上学习一个森林作为组合分类器。与传统组合学习方法独立地学习每个基分类器,然后把它们组合在一起的做法不同,FL学习每个基分类器时都尽可能地考虑对组合分类器的影响。首先,FL使用传统的方法构建森林的第一棵决策树;然后,逐一构建新的决策树并将其添加到森林中。在构建新的决策树时,结点的每次划分都考虑对组合分类器的影响。实验结果表明,与传统的组合分类器学习方法相比,FL在大部分数据集上都能构建出性能更好的组合分类器。
- 郭华平袁俊红张帆邬长安范明
- 基于多源知识的中文微博命名实体链接被引量:3
- 2015年
- 命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。
- 昝红英吴泳钢贾玉祥牛桂玲
- 关键词:同义词词典
- 汉语虚词用法在依存句法分析中的应用研究被引量:4
- 2013年
- 虚词在现代汉语中占有重要地位,虚词与词序一起构成现代汉语的句法手段,对句法分析有重要的影响。依存句法分析是自然语言处理领域研究的热点,为了提高依存关系的识别效果,该文考虑将虚词用法应用到依存关系的识别过程中。通过对虚词用法的研究,以及对依存句法分析各种依存关系识别情况的分析,发现并列关系与虚词中的连词关系密切。作者在并列关系识别过程中加入连词的用法信息,从而提高了并列关系的识别效果。实验结果表明,包含连词的并列关系的LAS及UAS分别提高了3.43%和2.29%。
- 昝红英张静杰娄鑫坡
- 关键词:虚词用法依存句法分析
- HDP与互信息相结合的中文无指导分词被引量:2
- 2013年
- 该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益。互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法。不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%。该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%。
- 曹自强李素建
- 关键词:互信息
- 基于本体结构的新闻个性化推荐被引量:8
- 2014年
- 为了更好地对新闻和用户进行建模,将语义相似度模型引入基于内容的推荐系统中,挖掘两者之间的语义关联。提出一种基于本体结构的相似度模型(OBSM),利用在线百科构建的本体结构,计算新闻和用户之间的语义相似度。为了降低本体结构上噪音数据对推荐效果带来的影响,提出X-Ontology聚类算法对本体结构进行清理,并衍生出OBSM的升级模型X-OBSM。中文和英文实验表明,OBSM和X-OBSM比基准模型具有更好的推荐效果,尤其是对本体结构进行清理后,X-OBSM具有比OBSM更高的计算效率。
- 饶俊阳贾爱霞冯岩松赵东岩
- 关键词:个性化推荐用户建模本体结构
- 内容标签和关系标签相结合的汉语篇章标注规范被引量:1
- 2015年
- 篇章标注是自然语言处理中的重要任务,很多其他任务,如自动摘要、机器问答等都可以通过篇章标注得到对文本内容和语义的认识,从而获得更好的结果。与此同时,篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密,难以实用。该文中我们参考现有的语言学理论和一些语篇标注库(如RSTDT,PDTB),并结合自然语言处理任务特点,提出了一套用于篇章标注的汉语标注体系。这个体系能够比较准确和全面地描述出篇章的内容和逻辑关系,并很好地服务于实际任务的需要。
- 王荀李素建王宇昕
- 关键词:修辞结构理论
- 介词“在”用法在短语结构句法分析中的应用研究
- 中文句法分析是自然语言处理领域中的一个重要课题。与英语句法分析研究的长足进展相比,中文句法分析的研究还很薄弱。针对汉语本身的特点,本文使用基于介词"在"用法属性的边界识别结果对Stanford Parser进行了后处理,...
- 穆玲玲庞熠雅昝红英
- 关键词:句法分析介词用法自然语言处理
- 文献传递
- 面向光伏发电的模式预测树模型被引量:2
- 2014年
- 文章将模式预测树引入到光伏发电预测中,提出了一种面向光伏发电的模式预测树模型(PGMT)。与传统的神经网络不同,PGMT将树模型与线性回归模型相结合,预测时输入信息沿着某条路径到达叶结点,该叶结点使用线性回归模型预测相应的发电量。该方法有效地避免了标准线性回归模型对数据的线性要求,同时保留了线性模型的可解释性。利用在某光伏电站的数据集上的实验结果表明,PGMT较之于神经网络保留了很好的可解释性,表现出更高的预测准确性。
- 董亚东郭华平吴双惠王兆庆范明
- 关键词:发电功率预测
- 基于弱监督学习的海量网络数据关系抽取被引量:34
- 2013年
- 在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题.其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的特点,受到了广泛的关注.目前针对它的研究主要集中在英语资源上,主要使用传统的词法和句法特征.然而,词法特征有严重的稀疏性问题,句法特征则对一些语言分析工具的性能有较强的依赖性.提出利用n-gram特征来缓解传统词法特征稀疏性的问题.特别地,这种特征还可以弥补传统句法特征在其他语言上不可靠的情况,对于关系抽取的跨语言应用有重要作用.在此基础上,针对弱监督学习中标注数据不完全可靠的情况,提出基于bootstrapping思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.在大规模的中文和英文数据上进行实验的结果显示,把传统特征与n-gram特征相结合并进行协同训练,在中文和英文数据集上均可以提升弱监督关系抽取的效果,可以适应多语言的关系抽取需求.
- 陈立玮冯岩松赵东岩
- 关键词:关系抽取最大熵模型知识库构建
- 汉语并列复句的自动识别方法被引量:6
- 2013年
- 针对汉语句际关系中分布最广泛的并列复句,提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算,使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法,在广义并列关系上进行评测。最后将其中3种方法进行集成,并取得了较为理想的效果。
- 吴云芳石静万富强吕学强
- 关键词:并列复句句际关系句子相似度