张爱华
- 作品数:4 被引量:26H指数:2
- 供职机构:中国科学技术大学信息科学技术学院电子工程与信息科学系更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于规则化词分布特征的无监督特征选取算法
- 无监督的聚类算法在中文网络信息处理中有着广泛的应用。由于存在大量的中文词语,适当的特征提取算法,可以降低计算资源消耗,提高聚类质量。但当前使用的无监督特征选取算法需要采用较多的参数,特征提取的结果与参数和数据集相关,具有...
- 张爱华荆继武向继秦钰
- 关键词:聚类特征提取
- 文献传递
- 中文文本分类中的文本表示因素比较被引量:11
- 2009年
- 研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则.
- 张爱华荆继武向继
- 关键词:中文文本分类文本表示向量化
- 基于优化初始类中心点的K-means改进算法被引量:15
- 2007年
- K-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用.由于K-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果.提出了一种K-means算法的改进算法,首先探测数据集中的相对密集区域,再利用这些密集区域生成初始类中心点.该方法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终获得较好的聚类效果.
- 秦钰荆继武向继张爱华
- 关键词:聚类K-MEANS
- 基于规则化词分布特征的无监督特征选取算法
- 无监督的聚类算法在中文网络信息处理中有着广泛的应用。由于存在大量的中文词语,适当的特征提取算法,可以降低计算资源消耗,提高聚类质量。但当前使用的无监督特征选取算法需要采用较多的参数,特征提取的结果与参数和数据集相关,具有...
- 张爱华荆继武向继秦钰
- 关键词:聚类算法
- 文献传递