国家自然科学基金(61170129) 作品数:20 被引量:52 H指数:4 相关作者: 黄再祥 何田中 周忠眉 郑艺峰 林耀进 更多>> 相关机构: 闽南师范大学 漳州师范学院 合肥工业大学 更多>> 发文基金: 国家自然科学基金 福建省自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于选择度的分类规则学习算法 2014年 规则式分类器通常使用单一度量选择属性值,然而单一度量会导致很多属性值具有相同的度量值,从而无法选择出"好"的属性值。此外,规则式分类器通常提取置信度为100%的规则,致使规则提取过程比较费时,并且所得到的规则支持度较低。针对上述不足,提出新的属性值度量——选择度。选择度是基于信息熵、类支持度及偏离度3种度量的结合,能更好地区分属性值的优劣。在此基础上,提出一种基于选择度的分类规则学习算法LRSM。在LRSM算法中,当规则包含的负实例数小于给定域值时,该规则被抽取,删除被此规则覆盖的实例,抽取下一条规则。实验结果表明,与FOIL算法相比较,LRSM算法提高了分类准确率,同时明显地减少了分类所消耗的时间。 何田中 周忠眉 黄再祥关键词:数据挖掘 基于改进关联分类的两次学习方法 被引量:1 2014年 关联分类通常产生大量的分类规则,导致在分类新实例时经常产生规则冲突问题。针对这种规则冲突问题,提出了一种基于改进关联分类的两次学习框架。利用频繁且互关联的项集产生分类规则改进关联分类算法,有效减少了规则数。应用改进的关联分类算法产生的一级规则一次性分离出训练集中规则冲突的所有实例。然后,在冲突实例上应用改进的关联分类算法进行第二次学习得到二级规则。分类新实例时,首先利用第一级规则进行分类。如果出现规则冲突,则利用第二级规则分类该实例。实验结果表明,基于改进关联分类的两次学习方法降低了规则冲突比率,并且显著提高了分类准确率。 黄再祥 周忠眉 何田中关键词:数据挖掘 基于最大频繁all-confidence模式的二次挖掘探讨药物模式组配规律 2012年 方剂配伍规律研究是方剂学难点和重点课题之一.利用all-confidence度量,挖掘最大频繁all-confidence模式.提出基于最大频繁all-confidence模式的二次挖掘方法,挖掘药物模式之间的组配规则,从而探寻药物模式之间的组配规律,辅助方剂配伍规律研究,并为临床组方提供规则参考.首先给出最大频繁all-confidence模式等相关的概念,其次给出基于最大频繁all-confidence模式的二次挖掘方法,最后在方剂数据库上进行实验,实验结果表明基于最大频繁all-confidence模式的二次挖掘能有效挖掘大量药物模式之间的组配规则,有利于药物模式之间组配规律的探寻. 周忠眉关键词:方剂 基于虚根节点的ID3改进算法 2012年 与其他分类技术相比较,ID3算法具有耗时少、速度快特点.然而,ID3算法分类规则少、无匹配率高,从而导致其分类准确率不高,尤其在小数据集上表现更为明显.针对ID3上述缺点,我们提出了一个改进ID3算法VRID3:首先,VRID3创建一个虚根节点,然后找出两个"最好"属性生成虚根节点的两棵子树,从而提高测试实例的匹配率;其次,测试实例时,优先使用第一子树判断实例,如果第一子树没有匹配到,则使用第二子树判断该实例.实验结果表明,基于虚根节点的ID3算法具有更高的准确率. 何田中 黄再祥关键词:数据挖掘 决策树 基于层次聚类法的Entropy-KNN算法 被引量:2 2012年 KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法. 童先群 周忠眉关键词:KNN算法 信息熵 聚类 基于相关规则的不平衡数据的关联分类 被引量:3 2014年 许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。 黄再祥 周忠眉 何田中关键词:数据挖掘 不平衡数据 基于用户群体影响的协同过滤推荐算法 被引量:21 2013年 协同过滤是推荐系统中广泛使用的推荐技术,对推荐结果可解释强。基于用户的协同过滤是一种重要的系统推荐方法,用户评分数据的极端稀疏性制约着系统的推荐质量。针对上述情况,提出一种基于用户群体影响的协同过滤推荐算法。首先,定义了用户群体的概念并根据群体影响提出两条相应准则;然后,计算用户相似性时,不仅考虑了用户个体之间的相似性,而且考虑了用户所处群体之间的相似性。该算法不仅可以更加精确地刻画用户之间相似度,而且一定程度上增强了推荐系统的稳定性。实验结果表明,该算法能有效地提高系统的推荐质量,而且满足所提出的两条准则。 林耀进 胡学钢 李慧宗关键词:推荐系统 协同过滤 一种改进的基于规则实例多覆盖分类算法 被引量:7 2017年 基于规则分类算法提取的规则集通常存在3个问题:首先,提取的分类规则集中短规则过少,致使高质量的规则不多;其次,规则集中规则数量少,训练数据中几乎所有实例仅被规则覆盖一次;第三,虽然提取大量的规则,但是训练数据中存在一些小类样本的实例不能被任何一条规则覆盖。本文提出一种改进的基于规则的实例多覆盖分类算法(Rule-based classification with instances covered by multiple rules,RCIM),其特点是:(1)为了提高规则的质量,在选择生成规则的第1项时不仅考虑属性值的好坏,而且还考虑了属性值补的好坏;(2)一次产生尽量多,高质量的规则,而且当训练数据的实例至少被两条规则覆盖后才将其删除;(3)当遇上难以判断的测试数据时,对测试数据的各个属性值进行二次学习提取规则。算法RCIM不仅可以有效地提取大量的规则,而且较大程度地提高了规则的质量。通过在大量数据上实验结果表明,RCIM比许多其他算法取得了更高的分类准确率。 周忠眉 李莎莎基于双属性节点部分匹配的决策树改进算法 2015年 在决策树算法中,即使存在两个"最好"属性,也只是随机选择一个作为根或节点属性.因此,决策树算法产生的分类规则较少.此外,决策树算法采用全匹配测试实例,测试实例最多匹配一条分类规则甚至没有匹配,进而影响分类准确率.针对该问题,提出了基于双属性节点部分匹配的决策树改进算法(DAID3):首先,如果存在两个信息熵相等或相近的"最好"属性,DAID3算法选择两个属性构建节点,它们的属性值及组合作为分枝.因此,每个训练实例可能被多条分类规则覆盖.其次,判断新实例时,在分枝节点上可能匹配到多条路径,为了选择最好路径,为每个分枝节点设置了节点强度.最后,如果不存在一条从根节点到叶子节点的路径全匹配测试实例,则找出部分匹配该实例的路径,返回该路径的终节点强度最大的类标值.为了便于部分匹配时返回强度最大的类标值,为每一个分枝节点设置节点类标值.实验结果表明,与决策树算法相比,DAID3算法具有分类规则多且有更高的分类准确率. 何田中 黄再祥关键词:不平衡数据 基于支持度和增比率的改进关联分类算法 被引量:4 2016年 关联分类是一项重要的分类技术,目前普遍采用基于支持度和置信度的关联分类模式。但是,用支持度度量项集的分类能力过于简单,且置信度不能度量项集与类的相关性,所以利用支持度和置信度容易产生质量不好的规则。提出改进的关联分类算法—ACSER。ACSER不仅考虑项集到本类的支持度,也考虑项集到补类的支持度。首先,提取频繁增比模式作为分类候选规则集;其次,利用置信度和增比率度量规则的强度,按照其强度进行排序和剪枝;最后,选择k条最优的规则进行预测。在16个UCI数据集上的实验结果表明,改进的分类算法ACSER与传统的分类算法相比有更高的分类准确率。 王卫平 周忠眉 郑艺峰关键词:数据挖掘 频繁项集 分类准确率