您的位置: 专家智库 > >

吉翔华

作品数:4 被引量:21H指数:3
供职机构:中国科学技术大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文

领域

  • 4篇自动化与计算...
  • 1篇文化科学

主题

  • 2篇文本聚类
  • 2篇聚类
  • 1篇数字图
  • 1篇数字图书馆
  • 1篇图书
  • 1篇图书馆
  • 1篇子空间
  • 1篇自动提取方法
  • 1篇文本
  • 1篇文摘
  • 1篇模糊C均值聚...
  • 1篇决策树
  • 1篇均值聚类
  • 1篇科技文摘
  • 1篇基于主题
  • 1篇关键词
  • 1篇TOPIC
  • 1篇BASED_...
  • 1篇FUZZY_...
  • 1篇词性

机构

  • 4篇中国科学技术...

作者

  • 4篇吉翔华
  • 3篇陈超
  • 3篇邵正荣
  • 2篇俞能海
  • 1篇刘佳宾

传媒

  • 1篇小型微型计算...
  • 1篇计算机工程与...
  • 1篇Journa...

年份

  • 4篇2007
4 条 记 录,以下是 1-4
排序方式:
基于主题子空间的文本模糊C均值聚类方法被引量:3
2007年
模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.
吉翔华陈超邵正荣俞能海
关键词:模糊C均值聚类文本聚类
基于科学文献的数字图书馆中文本聚类的研究
随着Internet网络的日益普及,人们越来越依赖网络来获取各种信息,传统的信息发布和获取模式受到了巨大的冲击。同时,随着电子出版物的盛行,网络作为学习和科研的主要手段也越来越为广大的学生和科研工作者所推崇。 ...
吉翔华
关键词:文本聚类数字图书馆
文献传递
基于机器学习的科技文摘关键词自动提取方法被引量:15
2007年
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。
刘佳宾陈超邵正荣吉翔华
关键词:决策树词性分析
Fuzzy c-means text clustering based on topic concept sub-space被引量:3
2007年
To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Concept phrases, as well as the descriptions of final clusters, are presented using WordNet origin from key phrases. Initial centers and membership matrix are the most important factors affecting clustering performance. Orthogonal concept topic sub-spaces are built with the topic concept phrases representing topics of the texts and the initialization of centers and the membership matrix depend on the concept vectors in sub-spaces. The results show that, different from random initialization of traditional fuzzy c-means clustering, the initialization related to text content contributions can improve clustering precision.
吉翔华陈超邵正荣俞能海
共1页<1>
聚类工具0