国家自然科学基金(60703051)
- 作品数:3 被引量:73H指数:2
- 相关作者:张剑峰姚建民夏云庆更多>>
- 相关机构:清华大学苏州大学清华信息科学与技术国家实验室更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于索引过滤的汉语短文本模糊匹配计算方法
- 在当前的中文信息处理中,对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发,提出了基于索引过滤的中文短文本模糊匹配计算方法,包括长度过滤和字命...
- 曹犟邬晓钧夏云庆郑方
- 关键词:索引
- 文献传递
- 微博文本处理研究综述被引量:58
- 2012年
- 微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文字更新信息,并实现即时分享。由于微博发展迅猛,微博文本已经形成了大规模积累,针对微博文本的研究已经成为了一个十分重要的课题。该文对微博文本进行了定义,阐述了微博文本研究的重要性,并从微博文本的不同应用领域出发,对微博文本的研究现状进行了综述,介绍了目前已经存在的微博文本数据集和应用系统。
- 张剑峰夏云庆姚建民
- 关键词:语言分析文本处理
- 基于情感向量空间模型的歌词情感分析
- 音频信号在歌曲情感分析中难以奏效,所以本文提出以歌词作为歌曲情感分析的依据,采取基于情感单元的情感向量空间模型(s-VSM)进行歌词情感分析。该模型较好地解决了基于词汇的向量空间模型(w-VSM)在文本表示效率、歧义、情...
- 夏云庆杨莹张鹏洲
- 关键词:文本情感分析
- 文献传递
- 基于拼音索引的中文模糊匹配算法被引量:15
- 2009年
- 主流商业搜索引擎主要基于关键词精确匹配技术。为提高在用户的输入错误时的检索效率,提出了有索引的汉语模糊匹配算法。该算法采用汉字、拼音和拼音改良的编辑距离这3种汉字相似程度的不同度量方式,对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验中,将该方法应用于网页文本语料库中。在使用基于拼音改良的编辑距离度量方式时,在时间和空间复杂度增长不大的情况下,该方法取得了60.42%的准确率与50.41%召回率。
- 曹犟邬晓钧夏云庆郑方
- 关键词:查询扩展
- 基于泛化和繁殖的自举式意见目标抽取方法
- 2009年
- 意见目标抽取是自然语言处理领域中意见挖掘研究的重要环节。该文提出了一种基于泛化、繁殖和自举的意见目标抽取方法,在泛化过程中提炼原子意见目标和意见目标模式,在繁殖过程中对复合意见目标进行扩展,并采取自举机制实现了意见目标的递增学习。实验结果显示,经过第一轮自举过程后,该方法的F-1 score指标超出基线方法0.078;自举过程完成后,F-1 score指标提高了0.112。这说明,泛化处理对意见目标充分繁殖意义重大,自举过程则有助于充分发挥泛化能力和繁殖能力。
- 郝博一夏云庆邬晓钧郑方刘轶
- 关键词:自然语言处理文本挖掘
- 基于拼音索引的中文模糊匹配算法
- 主流商业搜索引擎主要基于关键词精确匹配技术,对于用户的输入错误,通常无法取得令人满意的检索效果。针对这一问题,结合汉语中的拼音知识,本文提出汉字相似程度的三种不同的度量方式,并基于相似程度度量提出有索引的汉语模糊匹配方法...
- 曹犟邬晓钧夏云庆郑方
- 关键词:拼音查询扩展
- 文献传递
- 意见目标网络与意见目标抽取研究
- 未知意见目标是影响意见挖掘系统覆盖率的重要因素。现有意见目标抽取方法大多直接将人工标注的意见目标为种子,通过采取语法/统计模板从真实评价文本中抽取未知意见目标。存在三个问题: (1)手工标注的意见目标粒度过大,不适合作为...
- 夏云庆郝博一徐睿峰
- 关键词:自然语言处理信息抽取
- 文献传递
- OPINAX:一个有效的产品属性挖掘系统
- 产品属性抽取是产品意见挖掘的重要任务之一,直接影响着产品意见挖掘的性能。本文提出了一种基于语言依存分析和语料库统计相结合的未登录(OOV)产品属性挖掘算法。该算法基于一个小规模基本产品属性集,从依存分析结果中提取与已有属...
- 郝博一夏云庆郑方
- 关键词:未登录词依存分析
- 文献传递