您的位置: 专家智库 > >

黄剑

作品数:2 被引量:25H指数:2
供职机构:电子科技大学数学科学学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇HADOOP
  • 1篇引擎
  • 1篇日志
  • 1篇日志文件
  • 1篇事务数据库
  • 1篇数据库
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇索引
  • 1篇频繁集
  • 1篇矩阵
  • 1篇APRIOR...
  • 1篇APRIOR...
  • 1篇FP-GRO...
  • 1篇FP-GRO...
  • 1篇布尔矩阵

机构

  • 2篇电子科技大学
  • 2篇新疆财经大学

作者

  • 2篇郭文强
  • 2篇李明奇
  • 2篇黄剑

传媒

  • 2篇计算机科学

年份

  • 1篇2017
  • 1篇2015
2 条 记 录,以下是 1-2
排序方式:
基于Hadoop的Apriori改进算法研究被引量:23
2017年
对于规模庞大的事务数据库,传统的并行Apriori算法在挖掘中会在数据IO上有较大的时间开销。从压缩事务、减少扫描次数、简化候选集生成3个方面对Apriori算法进行改进。提出了以元素"0"和"1"表示事务的布尔矩阵模型,并引入权值维度,压缩了相同事务的矩阵规模。同时,动态地进行剪枝,矩阵的"与"运算用于候选集合的生成。将改进后的算法在Hadoop框架上进行并行化实现,实验表明该算法适合大规模数据挖掘且具有良好的伸缩性与有效性。
黄剑李明奇郭文强
关键词:APRIORI算法事务数据库布尔矩阵HADOOP
并行Fp-growth算法在搜索引擎中的应用被引量:2
2015年
针对用户历史检索过程产生的Web日志文件,研究其查询词和点击链接是否为频繁集,以及在分布式条件下频繁集挖掘的效率问题。基于Hadoop框架,设计了并行Fp-growth算法,对搜索引擎Web日志进行挖掘。仿真实验结果显示,满足支持度的查询词和点击链接频繁集在Web日志中普遍存在。随着Hadoop节点数的增加,并行Fpgrowth算法性能将得到大幅提高。由此,频繁集挖掘效率得到明显提高,且数据量越大,效率提升越明显。
黄剑李明奇郭文强
关键词:日志文件频繁集HADOOPFP-GROWTH
共1页<1>
聚类工具0