邓杰
- 作品数:3 被引量:9H指数:2
- 供职机构:江南大学物联网工程学院更多>>
- 发文基金:国家自然科学基金江苏省科技支撑计划项目安徽省高校省级自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于特征选择的统计最优样本大小算法被引量:3
- 2014年
- 针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法。实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的。
- 邓杰钱雪忠钱恒吴秦
- 关键词:高维数据集聚类
- 一种基于可变网格划分的离群点检测算法被引量:1
- 2015年
- LOF(Local Outlier Factor)算法是常用的离群点检测算法,但是该算法在面对大规模数据集时往往需要高昂的时空开销,基于固定网格的离群点检测算法虽然在一定程度上可以解决该问题,但是它的执行效果易受到网格划分粒度的影响。对此提出一种基于可变网格划分的离群点检测算法。该算法首先根据数据点在空间的实际分布情况来动态构建与原始数据集分布大体一致的网格空间,然后删除网格中数据点数目超过设定阈值的网格中所有数据点,最后在剩余的数据点集上执行LOF算法。实验结果显示,相对于固定网格的离群点检测算法,所提算法的执行效率明显提高并且检测精确度亦有所提高。
- 马菲朱昌杰郑颖邓杰
- 关键词:离群点检测大规模数据集
- 基于加权距离计算的自适应粗糙K-均值算法被引量:5
- 2016年
- 针对粗糙K-均值算法的执行效率较低和对数据对象的处理不准确问题,提出了基于加权距离计算的自适应粗糙K-均值算法。该算法在粗糙集理论应用的基础上修正数据集合的隶属度函数,结合属性约简方法,根据数据属性对聚类效果的影响因子设置权值,在欧氏距离中引入权值系数来初始化簇的中心点,最后通过K值递增的改进算法对数据集进行正态检验来验证每个簇的数据是否符合高斯分布模型,从而能够自适应地确定K值。实验结果表明,改进后的算法相比原算法能在保证一定执行效率的同时,获得较高的聚类精确度,且对高维数据集也有较强的适应性,从而表明该算法是有效可行的。
- 孙志鹏钱雪忠吴秦邓杰
- 关键词:粗糙集理论属性约简聚类分析