您的位置: 专家智库 > >

刘艳云

作品数:2 被引量:11H指数:1
供职机构:解放军理工大学指挥自动化学院更多>>
发文基金:国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 1篇期刊文章
  • 1篇会议论文

领域

  • 2篇自动化与计算...
  • 1篇文化科学

主题

  • 2篇文本
  • 2篇文本聚类
  • 2篇文本特征
  • 2篇聚类
  • 1篇英文
  • 1篇中文
  • 1篇中文文本
  • 1篇聚类研究
  • 1篇WEKA
  • 1篇WEKA平台
  • 1篇词性
  • 1篇词性标注

机构

  • 2篇南京大学
  • 2篇解放军理工大...

作者

  • 2篇韩普
  • 2篇刘艳云
  • 1篇王东波
  • 1篇苏新宁

传媒

  • 1篇中文信息学报

年份

  • 1篇2013
  • 1篇2011
2 条 记 录,以下是 1-2
排序方式:
基于WEKA的中文文本聚类研究
利用WEKA平台对中文文本进行了聚类实验研究。作为国外一款优秀的开源数据挖掘软件,在国内用来做中文信息处理研究的却很少。通过调整WEKA 中特征选择参数,利用 K-means 算法对中文文本聚类实验。并采用召回率、准确率...
韩普刘艳云
关键词:WEKA平台文本聚类文本特征中文文本
词性对中英文文本聚类的影响研究被引量:11
2013年
不同词性特征在文本聚类中有不同的贡献度。该文对四组有代表性的中英文数据集,利用三种聚类算法验证了四种主要词性及其组合对中英文文本聚类的影响。实验结果表明,在中文和英文两种语言中,名词均是表征文本内容的最重要词性,动词、形容词和副词均对文本聚类结果有帮助,仅选择名词作为特征聚类的结果与保留所有词性聚类的结果相近,但可大大降低文本的维度;选用名词为文本特征不能实现最好的聚类效果;相对其他词性组合和单一词性,采用名词、动词、形容词和副词的组合特征往往可以实现更好的聚类效果。在词性所占的比例以及单一词性聚类的结果上,同一词性在中英文文本聚类中呈现出较大差异。相对于英文,不同词性特征及其组合在中文文本聚类中呈现的差异更为稳定。
韩普王东波刘艳云苏新宁
关键词:词性标注文本聚类文本特征
共1页<1>
聚类工具0