屈成伟
- 作品数:4 被引量:63H指数:2
- 供职机构:吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室更多>>
- 发文基金:吉林省科技发展计划基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 树形数据的频繁模式研究
- 在数据大爆炸的今天,越来越多的数据积累下来,主流数据的也从简单的带有固定结构的关系型数据变化发展成为变化灵活的半结构化数据。而对半结构化数据而言,非常重要并且常用的一个数据特征是具有树形结构。所以本文的主要研究方向是树形...
- 屈成伟
- 关键词:数据挖掘频繁模式挖掘数据压缩
- 文献传递
- 一种新的不平衡数据学习算法PCBoost被引量:63
- 2012年
- 现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正"扰动",删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.
- 李雄飞李军李军董元方
- 关键词:数据挖掘不平衡数据
- 数据挖掘中平衡偏斜训练集的方法研究被引量:3
- 2012年
- 分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.
- 李雄飞李军李军屈成伟刘丽娟
- 一种新的决策表相对约简算法
- 2011年
- 根据决策表定义条件属性区分能力指数DI(a)的概念,给出DI(a)的若干性质。定义拟等价类的概念,提出基于区分能力指数的决策表相对约简算法,该算法基于分治策略,用属性a代替相应区域的区分元素,从而减小算法搜索的空间。实验结果表明,该算法具有较高的搜索效率,能够得到全部或大部分约简。
- 董元方李雄飞李军李军
- 关键词:数据挖掘粗糙集区分矩阵