山西省青年科技研究基金(2012021015-4)
- 作品数:5 被引量:12H指数:2
- 相关作者:赵旭俊张继福蔡江辉马洋杨海峰更多>>
- 相关机构:太原科技大学更多>>
- 发文基金:山西省青年科技研究基金国家自然科学基金山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于微粒群算法的上下文离群数据挖掘算法被引量:5
- 2015年
- 现有的离群检测方法大多都忽视离群数据的上下文信息,使得离群数据难以理解。从离群数据的可解释性角度,采用微粒群算法(PSO),给出了一种上下文有关的离群数据挖掘算法(COMPSO)。该算法将数据属性作为上文有关信息,且将离群数据看作微粒;根据数据对象相对全局数据的频数,采用带有变异算子的PSO算法来搜索离群数据;最后UCI数据,实验结果验证了该算法的有效性,并具有效率高、可解释性强等特点。
- 王也张继福赵旭俊
- 关键词:离群数据微粒群可解释性频数
- 基于信息熵的加权频繁模式树构造算法研究被引量:3
- 2014年
- 关联规则挖掘时,数据集中各项目的重要性不同且较难主观给出,直接影响挖掘结果.针对此问题,给出加权项目集和加权关联规则的概念,并通过信息熵来确定单属性的权重,同时采用几何均值和取最大权重值的折中方法来确定多项目集的权重,以此在兼顾整体权重的同时,突出重要项目.在此基础上,采用加权频繁模式树来提取加权频繁模式,并给出加权频繁模式树的构造方法,最后以国家天文台提供的天体光谱数据及机械装备EDEM数据作为数据集,实验验证算法的高效率.
- 赵旭俊蔡江辉马洋
- 关键词:关联规则信息熵
- 一种恒星光谱分类规则后处理方法被引量:2
- 2013年
- 随着LAMOST巡天的逐步实施,天体光谱数据量极大,对观测数据进行自动分类及分析具有重要的意义。采用常规方法获取的分类规则集中,往往存在大量冗余规则,影响了分类效率和质量。本文给出了一种基于谓词逻辑的分类规则后处理方法,通过利用谓词描述光谱分类规则,并对分类规则集进行谓词演算,消除冗余规则。最后,采用LAMOST观测的恒星光谱数据,实验验证该方法在保证分类准确率不降低的前提下,可大幅提高自动分类效率。
- 蔡江辉杨海峰赵旭俊张继福
- 关键词:天体光谱数据谓词逻辑后处理
- 基于分类模式树的恒星光谱自动分类方法被引量:2
- 2013年
- 频繁模式是频繁出现在数据集中的模式,在数据挖掘中起着非常重要的作用。针对恒星光谱分类任务,在频繁模式的基础上,提出一种基于分类模式树的恒星光谱分类规则挖掘方法。首先根据数据库中恒星光谱各属性出现的频率不同,其在分类中的重要程度也不同的特征,提出一种新的树型结构——分类模式树,给出了相关概念及其构造方法SSCPTC,然后,将恒星光谱的特征信息映射到分类模式树上,通过采用自顶向下和自底向上两种模式相结合的方法对分类模式树进行遍历,实现分类规则的提取,同时引入模式有用度的概念来调整分类规则的数量、提高分类模式树的构造效率;最后采用国家天文台提供的SDSS恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率。
- 赵旭俊蔡江辉张继福杨海峰马洋
- 关键词:恒星光谱
- 基于链表结构的频繁模式树构造
- 2013年
- FP-Growth算法在关联规则挖掘中是最经典的算法,主要通过频繁模式树(FP树)避免生成候选频繁项目集。针对FP-Growth算法中耗费内存严重的问题,采用链表存储方式,给出了FP-Growth算法的实现方法,其中单个结点采用链表形式来产生,频繁模式树采用左孩子右兄弟的存储结构来组织。在此基础上利用索引表,实现了对频繁模式树中共同前缀结点的快速查找,提高了频繁模式树构造的效率,解决了FP树构造算法中数据存储的瓶颈问题。最后以天体光谱数据和城市土壤数据作为数据集分别对该算法进行测试,实验结果表明,该方法的构造效率要明显优于基于顺序结构的FP-Growth算法。
- 马洋赵旭俊
- 关键词:关联规则链表结构索引表光谱数据