张婷慧
- 作品数:6 被引量:18H指数:3
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 用于Email分类的综合特征表示方法被引量:1
- 2006年
- 基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F-score)较差.为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F-score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F-score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F-score.
- 于琨耿焕同寇苏玲张婷慧蔡庆生
- 关键词:EMAIL
- 一种改进的VSM及其在文本自动分类中的应用被引量:3
- 2005年
- 目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档。针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进。在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档。实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高。
- 张婷慧耿焕同蔡庆生
- 关键词:文本自动分类向量空间模型APFIORI算法词共现
- 基于CBR的文本自动分类研究被引量:2
- 2005年
- KNN方法是性能最好的文本分类方法之一,但它在分类时要计算待分类文档与所有训练样本的相似度,时间复杂度较大。文中提出了一种基于CBR的文本自动分类方法,先用聚类方法把训练样本库转换为范例库,然后用KNN思想分类。实验结果显示该方法分类的平均召回率和准确率达到了87.07%和89.17%;并且通过分析算法的时间复杂度得知,该方法的分类速度比KNN方法有很大的提高,因此具有很好的实用价值。
- 张婷慧耿焕同蔡庆生
- 关键词:基于范例推理文本自动分类K近邻聚类
- 一种分层聚类方法及其应用研究被引量:5
- 2005年
- 在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系。作者提出一种分层聚类算法,可识大规模、高维数据。该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果。算法执行效率高,适合大规模数据的聚类问题。该方法在某电信企业的客户分析中取得了较好的结果。
- 罗菲菲刘贵全安景琪张婷慧
- 关键词:数据挖掘聚类聚类算法
- 一种基于代价敏感学习的范例推理方法及其应用研究被引量:7
- 2005年
- 提出一种基于代价敏感学习的范例推理方法,可以对大规模、高维数据进行分类和预测。该算法在分类的同时,不断调整数据属性项权重,以减少由分类引起的误分代价。在某入侵检测数据分析中取得了较好的结果。
- 罗菲菲刘贵全安景琦张婷慧
- 基于范例推理的文本自动分类研究
- 迅猛发展的现代科技带来了大量的信息资料。如何对这些信息资料进行有效地管理成为了现代科学的一个重要问题。
本文将基于范例推理CBR技术应用到文本自动分类中,并对范例表示进行了研究,实现了基于范例推理的文本自动分类...
- 张婷慧
- 关键词:信息分类向量空间模型文本分类
- 文献传递