陕西省自然科学基金(2010JM3004) 作品数:13 被引量:180 H指数:8 相关作者: 谢娟英 谢维信 高新波 郭文娟 马箐 更多>> 相关机构: 陕西师范大学 深圳大学 西安电子科技大学 更多>> 发文基金: 中央高校基本科研业务费专项资金 陕西省自然科学基金 更多>> 相关领域: 自动化与计算机技术 医药卫生 更多>>
一种新的密度加权粗糙K-均值聚类算法 被引量:12 2010年 为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UC I机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。 谢娟英 张琰 谢维信 高新波关键词:聚类算法 粗糙K-均值 聚类中心 加权 一种确定最佳聚类数的新算法 被引量:11 2012年 针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响. 谢娟英 马箐 谢维信关键词:信息粒度 K-均值 模糊相似度 一种新特征评价方法在红斑鳞状皮肤病诊断中的应用 被引量:2 2012年 针对改进F-score特征评价准则没有考虑特征测量量纲对特征重要性的影响,提出一种新的特征重要性评价准则D-score,避免不同特征测量量纲的影响,衡量样本特征在两类或多类之间的辨别能力。将D-score分别与前向顺序搜索、前向顺序浮动搜索两种搜索策略结合,以支持向量机的分类准确率评估所选特征子集的有效性,结合Filter和Wrapper特征选择方法的优势进行特征选择,得到两种混合特征选择方法。将该方法应用于红斑鳞状皮肤病诊断研究,并与基于改进F-score的混合特征选择方法进行了实验对比。十折交叉验证实验结果显示:在红斑鳞状皮肤病诊断研究中,D-score特征评价准则优于改进的F-score准则,基于D-score和前向顺序搜索策略的诊断准确率提高1.11%;D-score结合前向顺序浮动搜索策略的最低诊断准确率提高约3个百分点,平均诊断准确率提高约0.3个百分点,最高诊断准确率达到100%。前向顺序浮动搜索中,D-score准则选择的共有特征是改进F-score准则所选择共有特征的子集。所提出的D-score特征重要性评价准则是一种有效的特征区分能力度量准则,在红斑鳞状皮肤病的诊断中选择出了更有分类意义的特征,提高了诊断准确性。 谢娟英 雷金虎 谢维信关键词:支持向量机 基于密度RPCL的K-means算法 被引量:5 2012年 目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。 谢娟英 郭文娟 谢维信 高新波关键词:K-MEANS 初始聚类中心 基于样本空间分布密度的改进次胜者受罚竞争学习算法 被引量:5 2012年 针对传统次胜者受罚竞争学习(RPCL)算法忽略数据集几何结构对节点权值调整的影响,以及魏立梅等提出的新RPCL算法(魏立梅,谢维信.聚类分析中竞争学习的一种新算法.电子科学学刊,2000,22(1):13-18)引入密度来对节点的权值进行调整时,密度定义的主观性,提出基于样本空间分布密度的改进RPCL算法。该算法根据数据集样本自然分布定义样本密度,将此密度引入RPCL节点权值调整;使用UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集对算法进行实验测试,对算法确定数据集类簇数目的准确率、运行时间、聚类误差平方和、聚类结果的Rand指数、Jaccard系数以及Adjust Rand index参数进行分析比较。各项实验结果显示:所提算法优于原始RPCL算法和魏立梅算法,具有更好的聚类效果,对噪声数据有很强的抗干扰性能。所提算法不仅能根据样本的自然分布确定数据集的合理类簇数目,而且能确定合适的类簇中心,提高聚类的准确性,使聚类结果尽可能快地收敛到全局最优解。 谢娟英 郭文娟 谢维信 高新波关键词:聚类 样本密度 聚类中心 基于D-score与支持向量机的混合特征选择方法 被引量:5 2011年 F-score作为特征评价准则时,没有考虑不同特征的不同测量量纲对特征重要性的影响。为此,提出一种新的特征评价准则D-score,该准则不仅可以衡量样本特征在两类或多类之间的辨别能力,而且不受特征测量量纲对特征重要性的影响。以D-score为特征重要性评价准则,结合前向顺序搜索、前向顺序浮动搜索以及后向浮动搜索三种特征搜索策略,以支持向量机分类正确率评价特征子集的分类性能得到三种混合的特征选择方法。这些特征选择方法结合了Filter方法和Wrapper方法的各自优势实现特征选择。对UCI机器学习数据库中9个标准数据集的实验测试,以及与基于改进F-score与支持向量机的混合特征选择方法的实验比较,表明D-score特征评价准则是一种有效的样本特征重要性,也即特征辨别能力衡量准则。基于该准则与支持向量机的混合特征选择方法实现了有效的特征选择,在保持数据集辨识能力不变情况下实现了维数压缩。 谢娟英 雷金虎 谢维信 高新波关键词:支持向量机 基于样本空间分布密度的初始聚类中心优化K-均值算法 被引量:53 2012年 针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。 谢娟英 郭文娟 谢维信 高新波关键词:聚类 K-均值聚类 基于双支持向量机的偏二叉树多类分类算法 被引量:28 2011年 提出一种基于双支持向量机的偏二叉树多类分类算法,偏二叉树双支持向量机多类分类算法.该算法综合了二叉树支持向量机和双支持向量机的优势,实现了在不降低分类性能的前提下,大大缩短训练时间.理论分析和UCI(University of California Irvine)机器学习数据库数据集上的实验结果共同证明,偏二叉树双支持向量机多类分类算法在训练时间上具有绝对的优势,尤其在处理稍大数据集的多类分类问题时,这一优势尤为突出;实验仿真结果还证明,在采用非线性核时,该算法取得了比基于经典支持向量机的一对其余多类分类算法及二叉树支持向量机更好的分类效果;同时该算法还解决了后两种算法可能存在的样本不平衡问题,以及基于经典支持向量机的一对其余多类分类算法可能存在的不可分区域问题. 谢娟英 张兵权 汪万紫关键词:支持向量机 多类分类 基于邻域粗糙集的不完整决策系统特征选择算法 被引量:13 2011年 针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域粗糙集的实值和混合型不完整决策系统,得到基于邻域粗糙集的不完整决策系统前向顺序特征选择算法.同时,将基于相容关系的不完整决策系统快速属性约简算法推广到实值和混合属性的不完整决策系统,得到适用于实值、混合属性的不完整决策系统后向特征选择算法.理论分析和University of California Irvine机器学习数据库数据集的实验共同表明,本文提出的基于邻域粗糙集的不完整决策系统前向特征选择算法有效降低了不完整决策系统特征选择算法的时间复杂度,在保持系统识别能力的情况下,用更少的时间得到决策系统的属性约简子集,即特征子集.然而,本文前向特征选择算法的缺陷是有可能因为无法选择到第一个最重要的特征(属性)而使特征选择过程不能进行下去,从而不能完成特征选择过程. 谢娟英 李楠 乔子芮关键词:邻域粗糙集 正域 基于粒计算的免费师范生生源因素分析 2012年 免费师范生政策从实施到现在已有将近四年时间,但社会上对于免费师范生的评价褒贬不一,有人认为该政策的实施为很多贫困家庭的孩子解决了上学难的问题,但也有人认为该政策的实施使免费师范生在大学期间的学习积极性受到了影响。那么,影响师范大学免费师范生和非免费师范生做出选择的因素有哪些呢?通过对免费师范生以及非师范生进行问卷调查,获取生源因素相关数据,应用粒计算对是否选择报考免费师范生的影响因素进行了分析。分析结果显示报考免费师范生的前三个影响因素分别为:政策中规定的违约将带来不诚信记录,不能报考脱产研究生和跨省就业问题。文中结论将对免费师范生教育政策的进一步完善有一定指导作用。 马箐 谢娟英关键词:免费师范生 问卷调查 数据统计 粗糙集 粒计算