何刚
- 作品数:5 被引量:19H指数:2
- 供职机构:东华大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop平台的分布式ETL系统设计与实现被引量:2
- 2013年
- 为了解决传统的抽取、转换和加载工具处理数据仓库中海量数据的效率问题,设计并实现了基于Hadoop平台的分布式ETL系统。详细的探讨了渐变维度、雪花维度、大维度数据和事实数据的并行处理。实验结果表明,与Hive数据仓库相比,该分布式ETL系统在并行处理数据仓库中海量数据的问题上,具有更高的效率和扩展性。
- 李晨翔何刚孙莉
- 关键词:HADOOP维度并行处理
- 基于Hadoop平台的分布式ETL研究与实现
- 数据抽取、转换和加载/(Extract-Transform-Load, ETL/)是实现数据仓库领域中高质量数据的关键技术,也是为高层决策人员提供有效数据的核心技术。将海量数据通过ETL技术快速的抽取到数据仓库中是当前急...
- 何刚
- 关键词:HADOOP数据处理
- 文献传递
- 一种基于分布式文件系统的数据块分配方法
- 本发明要解决的技术问题是:减少被迁移到远程MySQL结点的HDFS数据块个数,同时以最小的代价将HDFS数据块均匀地分配到MySQL结点上。为了解决上述技术问题,本发明的技术方案是提供了一种基于分布式文件系统的数据块分配...
- 李继云孙莉张娇艳何刚乐嘉锦施巍吕俊涛
- 文献传递
- 基于Hadoop平台的事实并行处理算法被引量:5
- 2014年
- 针对传统的抽取、转换和加载工具在面临数据仓库中海量事实数据时效率较低的问题,从事实表查找代理键和多粒度事实预聚合2个角度出发,提出在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。第1种算法综合考虑了渐变维度和大维度的情况,运用分布式缓存方法将小维度表复制到各个数据节点的内存中,同时对事实数据和大维度数据采用相同的分区函数进行分区,从而解决内存不足的问题,在Map阶段实现多路查找代理键,避免由于数据传输产生的网络延迟。第2种算法在Reduce阶段之后增加Merge阶段,可有效解决事实数据按照不同粒度进行聚合的问题。实验结果表明,与Hive数据仓库相比,2种算法在并行处理数据仓库的事实数据的问题上具有更高的处理效率。
- 孙莉何刚李继云
- 关键词:MAPREDUCE模型维度
- 一种基于HADOOP平台的事实并行处理方法
- 本发明提供了一种基于Hadoop平台下的事实并行处理方法。由于事实数据量非常大,而且事实的处理主要是查找维度键,因此,为了加快事实的处理,本方法将从事实表查找维度键的方向着手,采用多路并行查找的方法提高事实的处理效率,同...
- 李继云孙莉解书亮何刚丁祥武乐嘉锦施巍
- 文献传递