周雯
- 作品数:3 被引量:10H指数:3
- 供职机构:西安邮电大学计算机学院更多>>
- 发文基金:陕西省自然科学基金国家自然科学基金陕西省教育厅科研计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 大数据环境下关联规则算法的研究
- 随着互联网的高速发展,数据信息呈现出爆炸性的增长趋势,很多企业每天产生的数据量已经达到TB级甚至PB级。面对如此巨大的数据集,数据挖掘的过程会受到算法实现复杂,运行平台计算能力有限等问题的制约,无法达到预期效果。关联规则...
- 周雯
- 关键词:关联规则频繁项集并行计算数据挖掘
- 基于子集的Apriori算法在MapReduce下的研究被引量:3
- 2017年
- 文中在频繁项目集挖掘研究的基础上,针对Hadoop分布式计算框架,提出了一种基于子集的Apriori并行改进算法Sub Apr。该算法扫描数据库两次,将分块数据分配给不同的Hadoop计算节点进行处理,利用Apriori特性并结合MapReduce框架自身特点进行剪枝。该算法与同类算法比较,可以减少各个计算节点的存储数据,达到减少候选项集输出,有效减少了大数据集挖掘过程中产生的大量数据通信,从而提高并行挖掘的效率。实验结果表明,该算法是有效且可行的。
- 周雯孟彩霞徐新瑞
- 关键词:关联规则数据挖掘
- 一种基于Spark时效化协同过滤推荐算法被引量:4
- 2015年
- 针对传统的批量学习的基于模型的协同过滤算法对新用户(物品)更新缓慢,模型重训练成本高且扩展性不足,对噪音数据的处理有待提高,尤其是随着数据量的增长和时效性要求越来越高,挖掘其中的知识变得越来越困难等问题,对置信权重在线协同过滤算法进行改进。引入自适应软边缘,提出二阶在线优化方法处理在线协同过滤中问题的新算法(Soft Confidence Weighted Online Collaborative Filtering,SCWOCF),并在Spark流处理推荐框架下利用四组真实数据与相关算法作对比测试。实验结果表明,新算法能够及时处理用户(物品)的动态变化,并提升推荐的实时性和准确性,降低计算成本,对噪声数据健壮性更强。
- 徐新瑞孟彩霞周雯刘盈
- 关键词:HADOOPSPARKYARN