山西高校科技研究开发项目(2007103)
- 作品数:7 被引量:78H指数:4
- 相关作者:曹付元梁吉业白亮姜广张倚弛更多>>
- 相关机构:山西大学更多>>
- 发文基金:山西高校科技研究开发项目国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于SQL的粗糙集属性约简方法被引量:4
- 2008年
- 建立粗糙集模型和SQL语言之间的关系,给出信息系统中基于SQL语言的属性集区分能力、对象集的上下近似、属性重要性、核、约简等概念,提出基于属性集区分能力的完备属性约简算法。实验结果表明了该算法的有效性,为粗糙集理论更广泛地应用于具体的实践提供了一种方法。
- 姜广曹付元张倚弛高嘉伟
- 关键词:粗糙集
- 基于邻域模型的K-means初始聚类中心选择算法被引量:9
- 2008年
- 传统的K-means算法由于其方法简单,在模式识别和机器学习中被广泛讨论和应用。但由于K-means算法随机选择初始聚类中心,而初始聚类中心的选择对最终的聚类结果有着直接的影响,因此算法不能保证得到一个唯一的聚类结果。利用邻域模型中对象邻域的上下近似,定义了对象邻域耦合度和分离度的概念,给出了对象在初始聚类中心选择中的重要性,提出了一种初始聚类中心的选择算法。另外,分析了邻域模型中三种范数对聚类精度的影响,并和随机选择初始聚类中心、CCIA选择初始聚类中心算法进行了比较,实验结果表明,该算法是有效的。
- 曹付元梁吉业姜广
- 关键词:邻域模型初始聚类中心K-MEANS聚类粗糙集
- 基于新的距离度量的K-Modes聚类算法被引量:46
- 2010年
- 传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离,没有充分考虑其相似性.对此,基于粗糙集理论,提出了一种新的距离度量.该距离度量在度量同一分类属性下两个属性值之间的差异时,克服了简单0-1匹配差异法的不足,既考虑了它们本身的异同,又考虑了其他相关分类属性对它们的区分性.并将提出的距离度量应用于传统K-Modes聚类算法中.通过与基于其他距离度量的K-Modes聚类算法进行实验比较,结果表明新的距离度量是更加有效的.
- 梁吉业白亮曹付元
- 关键词:聚类算法分类属性数据粗糙集
- 基于粗糙集的改进K-Modes聚类算法被引量:16
- 2009年
- 传统的K-Modes算法采用简单匹配的方法来计算对象之间的距离,并没有充分考虑同一属性下的两个不同值之间的相似性。基于粗糙集中的上、下近似,提出了一种新的距离度量,并重新定义了类中心,对传统K-Modes算法进行了改进。与其他改进K-Modes算法进行了比较,实验结果表明,基于粗糙集的改进K-Modes算法有效地提高了聚类精度。
- 白亮梁吉业曹付元
- 关键词:聚类算法粗糙集
- 基于加权连接度的改进K-Modes聚类算法被引量:3
- 2008年
- K-Modes算法是一种经典的字符型数据聚类算法,在处理对象属性值距离时,采用简单的0-1匹配,不能体现出属性值之间潜在的相似关系。通过图形聚类理论中的连接度来度量字符型属性值之间的相似性,改进了传统的K-Modes算法。实验结果表明该方法较传统的K-Modes算法有一定的改善。
- 张小宇梁吉业曹付元于慧娟
- 关键词:字符型数据聚类连接度
- 符号数据最佳聚类个数的确定方法
- 2009年
- 在聚类分析中,如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题。尽管针对数值型数据聚类个数的选择算法已经进行了广泛地研究,但如何确定符号型数据的聚类个数仍然是一个富有挑战性的问题。结合划分和层次聚类的思想,提出一种符号数据聚类个数的确定算法。在UC I数据集上的实验结果表明该方法是有效的。
- 赵兴旺梁吉业曹付元
- 关键词:聚类个数划分聚类层次聚类
- 基于新的相异度量的模糊K-Modes聚类算法被引量:5
- 2009年
- 传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K-Modes聚类算法。与传统的K-Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。
- 白亮曹付元梁吉业