韩锐
- 作品数:3 被引量:44H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- BigDataBench:开源的大数据系统评测基准被引量:34
- 2016年
- 大数据系统的蓬勃发展催生了大数据基准测试的研究,如何公正地评价不同的大数据系统以及怎样根据需求选取合适的系统成为了热点问题.然而,应用领域的广泛性、数据类型的多样性和数据操作的复杂性使得大数据基准测试集的设计面临很大的挑战.现有的相关基准测试工作要么针对某一类特定的应用或软件栈,要么根据流行度主观地选择大数据负载,难以全面覆盖大数据的多样性和复杂性.针对现有工作的不足,文中讨论大数据评测基准需要满足的需求,并研制了一个跨系统、体系结构、数据管理3个领域的大数据基准测试开源程序集——BigDataBench.它覆盖5个典型的应用领域(搜索引擎、电子商务、社交网络、多媒体、生物信息学),包含结构化、半结构化、非结构化的数据类型,涵盖离线分析、交互式分析、在线服务、NoSQL这4种负载类型.目前包含14个真实数据集、3种类型的数据生成工具以及33个负载的不同软件栈实现.BigDataBench已广泛应用到学术界和工业界中,应用案例包括负载分析、体系结构设计、系统优化等.基于BigDataBench,中国信息通信研究院联合中国科学院计算技术研究所、华为等国内外知名公司和科研机构共同制定了国内首个工业标准的大数据平台性能评测标准.
- 詹剑锋高婉铃王磊李经伟魏凯罗纯杰韩锐田昕晖姜春宇
- 关键词:大数据数据生成
- 构建自动演进的天文大数据负载模型被引量:1
- 2018年
- 基准测试在数据管理系统的选型和优化中发挥指导作用的前提是其采用的负载模型能够:运行在目标场景中的各类系统上(移植性);反映目标场景中典型任务的特点和数据访问偏好(代表性)。当前天文大数据管理领域的新系统和新任务层出不穷,导致现有方法构建的负载模型容易失去移植性和代表性。提出了自动演进的负载建模方法:采用抽象操作保持对新型系统的移植性,通过分析负载日志保持对新型任务的代表性。通过一个系统优化案例展示了该方法的可行性。
- 王华进万萌韩锐任玮张海明黎建辉
- 关键词:查询优化
- 基于Spark的分布式大数据机器学习算法被引量:9
- 2018年
- 对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度。然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术。Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集。因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化。为了实现充分配置资源批量运行脚本,本文也实现Spark ML调度框架来调度以上优化算法。实验结果表明,优化后的3种算法平均误差降低了40%,平均时间缩短了90%。
- 王芮韩锐贾玉祥
- 关键词:数据压缩神经网络支持向量机