陈冬剑
- 作品数:2 被引量:10H指数:2
- 供职机构:深圳大学计算机与软件学院更多>>
- 发文基金:国家自然科学基金深圳市科技计划项目广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于倒排索引位运算的深度优先频繁项集挖掘被引量:7
- 2012年
- 频繁项集挖掘是关联规则挖掘中的关键任务,非常耗费时间.为提高频繁项集的产生效率,提出一种基于倒排索引位运算的深度优先频繁项集挖掘算法(DF-FIMBII).该算法以二进制数组存储项目到事务的倒排索引,通过位运算计算两个项目的支持计数,并采用深度优先搜索策略递归地挖掘不同的k-频繁项集.在chess、mushroom、pumb_star、T40I10D100K等数据集上,对DF-FIMBII、Apriori、ECLAT、BitTableFI、Index-BitTableFI等算法进行了实验比较.实验结果表明,在数据规模不是非常巨大和支持度较小的情况下,无论数据集的稠密程度如何,DF-FIMBII均具有较好的时间优越性.
- 傅向华陈冬剑王志强
- 关键词:频繁项集倒排索引深度优先搜索
- 一种核心子集选择训练的大规模中文网页分类方法被引量:3
- 2011年
- 针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果.
- 傅向华刘国陈冬剑
- 关键词:支持向量机