王来涛
- 作品数:6 被引量:9H指数:1
- 供职机构:北京工业大学计算机学院更多>>
- 发文基金:国家自然科学基金北京市重点实验室开放基金国家软科学研究计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于语言实义单元数估计的短文本间文本距离的计算方法
- 基于语言实义单元数估计的短文本间文本距离的计算方法属于中文短文本信心处理领域,其特征在于,这是用于处理在线评论短文本文本聚类的方法,先去除网页标记,并进行短文本规范化处理,再进行分词处理,将文本转化为词语串,在此基础上以...
- 杨震王来涛赖英旭高凯明张龙伯段立娟范科峰
- 网络短文本话题发现与趋势预测研究
- 随着Web2.0技术的发展,互联网用户不再只是简单的信息获取者,而同时成为信息制造者。社交媒体的快速发展,加速了用户的这种身份转变,并形成了自媒体社交群体。由于社交媒体方便、实时的特点,用户制造的信息以短文本为主,并且其...
- 王来涛
- 关键词:语义聚类
- 基于改进语义距离的网络评论聚类研究被引量:9
- 2014年
- 针对在线评论,提出了一种短文本语义距离计算模型,将文本距离看成是形式距离和单元语义距离的综合.首先,在对变异短文本进行预处理的基础上,以中文词语为单位,利用词典进行语义扩展,计算短文本间最大匹配距离,将其作为衡量短文本间形式距离的指标;其次,基于短文本中的实义单元和非实义单元的不同作用,利用改进的编辑距离算法计算短文本的单元语义距离;最后,利用加权的方法将形式距离和单元语义距离综合为文本距离,并将其应用于网络在线评论的聚类分析.特别地,为了缓解短文本长度差异所造成的计算误差,提出利用词表长度对距离进行惩罚,并根据Zipf’s Law和Heap’s Law的对应关系,给出了一种文本词表长度的估计方法,并阐明了文本Zipf指数α对长度惩罚的关键性作用机制.实验结果表明,改进算法优于传统方法,聚类性能显著提升.
- 杨震王来涛赖英旭
- 关键词:文本聚类语义距离
- 一种短文本间语义距离的计算机辅助计算方法
- 一种短文本间语义距离的计算方法属于汉语文字信息处理技术领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算:在对文本进行包括去除网页标记、变异短文本处理以及分词处理以后得到的一系列词串,根...
- 杨震王来涛赖英旭高凯明张龙伯段立娟范科峰
- 一种短文本间语义距离的计算机辅助计算方法
- 一种短文本间语义距离的计算方法属于汉语文字信息处理技术领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算:在对文本进行包括去除网页标记、变异短文本处理以及分词处理以后得到的一系列词串,根...
- 杨震王来涛赖英旭高凯明张龙伯段立娟范科峰
- 文献传递
- 基于语言实义单元数估计的短文本间文本距离的计算方法
- 基于语言实义单元数估计的短文本间文本距离的计算方法属于中文短文本信心处理领域,其特征在于,这是用于处理在线评论短文本文本聚类的方法,先去除网页标记,并进行短文本规范化处理,再进行分词处理,将文本转化为词语串,在此基础上以...
- 杨震王来涛赖英旭高凯明张龙伯段立娟范科峰
- 文献传递