针对传统的层次聚类算法每次迭代只将距离最小的那对类簇合并,容易受离群点影响,偏向于发现凸状或球状簇等缺点,受CURE算法启发,采用簇中固定数量代表点来代表簇对象进行距离的计算,并结合90_10规则,提出了一种改进的层次聚类算法REPBFC(REpresentative Points Based Fast Clustering),实验表明该算法是有效的。
传统的分层聚类算法在聚类过程中,仅使用样本间的距离作为相似度的唯一标准,其描述过于单一。考虑到宇宙中星系的形成过程本质也是一种聚类过程,星系之间吸引力是靠万有引力作用。将万有引力思想引人分层聚类中,提出一种基于引力的层次聚类算法HCBG(Hierarchical Clustering Base Gravity),从样本问的距离和类簇的大小两个方面更加精确地刻厕相似度。把分层聚类的过程看成样本点之间依据“万有引力”自发吸引的过程。采用UCI机器学习数据库的I.ris,Wine和Glass数据集,实验结果表明,提出的HCBG算法的聚类结果比经典的基于距离的层次聚类HC(Hierarchical Clustering)提高5%~10%左右。