廖松博
- 作品数:5 被引量:6H指数:2
- 供职机构:复旦大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- HDCH:MapReduce平台上的音频数据聚类系统被引量:3
- 2011年
- 随着互联网上音乐数目的增长,如何对音乐进行分析、识别成为焦点问题.在音乐的识别过程中,需要对歌曲的帧数据进行聚类,数据的海量性与音乐数据本身的复杂性使得分析计算需要借助MapReduce平台多机并行完成.提出一种MapReduce平台上的音频数据聚类系统———HDCH,能够有效地对海量音频数据进行聚类.实验证明,HDCH具有很好的性能和可扩展性.除了音频数据外,HDCH还适用于所有海量高维数据的聚类分析.
- 廖松博何震瀛
- 关键词:高维数据聚类MAPREDUCE
- 一种MapReduce平台上的海量高维数据聚类方法
- 本发明属于云计算与数据挖掘技术领域,具体为一种MapReduce平台上的海量高维数据聚类方法。该方法首先对原始数据的每一维进行分割,用切分好的非空小格代替原数据中的点集进行聚类,减小数据规模。利用MapReduce的开源...
- 廖松博何震瀛汪卫
- 文献传递
- Hadoop上的PageRank算法优化
- 近年来随着社交网络和语义网络的兴起,海量数据挖掘成为学术界和工业界关注的焦点问题。在大规模数据的分析计算中,单台服务器的存储和计算能力已无法满足其对数据量和计算复杂度的需求。Apache基金会开发的开源项目Hadoop作...
- 廖松博
- 关键词:HADOOP平台PAGERANK算法数据挖掘网络传输
- 文献传递
- GCPR:一种在MapReduce平台上基于图划分的PageRank加速方法被引量:2
- 2012年
- 随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、传输所有网页的完整状态,I/O和网络传输的开销严重影响了计算效率.为此,本文提出一种在MapReduce平台上基于图划分的PageRank加速方法:GCPR(Graph-clustering PageRank).GCPR利用图划分、数据两层压缩技术在MapReduce平台上进行PageRank迭代计算,不仅减少了Map到Reduce中间阶段I/O和网络传输的开销(MapReduce运算的主要瓶颈之一),而且平衡了计算资源.实验证明GCPR能极大提升MapReduce平台上的PageRank计算效率.
- 廖松博陶岳何震瀛汪卫
- 关键词:PAGERANKMAPREDUCE图划分
- 一种MapReduce平台上的海量高维数据聚类方法
- 本发明属于云计算与数据挖掘技术领域,具体为一种MapReduce平台上的海量高维数据聚类方法。该方法首先对原始数据的每一维进行分割,用切分好的非空小格代替原数据中的点集进行聚类,减小数据规模。利用MapReduce的开源...
- 廖松博何震瀛汪卫