中央高校基本科研业务费专项资金(N120817001)
- 作品数:7 被引量:79H指数:4
- 相关作者:宋杰于戈朱志良李甜甜刘雪冰更多>>
- 相关机构:东北大学中国电子技术标准化研究所更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种能效优化的MapReduce资源比模型被引量:21
- 2015年
- 随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高.
- 宋杰刘雪冰朱志良李甜甜赵大哲于戈
- 关键词:云计算能效MAPREDUCE
- NoSQL数据库间数据交换代价研究被引量:4
- 2016年
- 随着互联网时代的到来,IT行业迅猛发展,NoSQL数据库以其在大数据环境下出色的业务处理处理能力,在IT行业内得到越来越广泛的应用。而各NoSQL数据库由于自身数据模型的不同,在数据组织方式上彼此存在差异。NoSQL数据库间进行数据交换时,数据模型的不同会导致数据库间数据传输的阻抗,以源数据库数据模型封装的业务数据可能无法直接被目标数据库解析,需进行额外的模型适配操作,参照目标数据库数据模型组织业务数据以供筛选存储。为此,拟定义一种数据描述模型,对NoSQL数据库数据模型特征建模,描述NoSQL数据库的数据组织方式,并定义NoSQL数据库数据模型间距离评估算法。根据数据描述模型与距离评估算法可设计实现一种通用数据模型,其在数据交换过程中可与相关NoSQL数据库进行数据模型上的转换,系统相关业务代码只需参照该数据模型设计,而独立于数据交换过程中NoSQL数据库具体的数据模型。
- 郭昆宋杰王洁萍朱志良
- 关键词:NOSQL数据交换数据模型
- 基于MapReduce的连接聚集查询算法研究被引量:7
- 2013年
- 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有连接算法的基础上总结出4种基于MapReduce的连接聚集查询算法;接着根据应用场景的不同又提出另外两种实现算法;同时提出I/O代价是决定基于MapReduce的连接聚集查询算法性能的主要因素;最后通过大量实验分析这6种算法在不同查询应用下的优劣,总结了它们各自的适用场景,并分析了各个算法的性能与数据特征之间的关系.
- 陈勇旭陈梦杰刘雪冰宋杰
- 关键词:海量数据MAPREDUCE
- MapReduce连接查询的I/O代价研究被引量:9
- 2015年
- 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而Map Reduce是一种用于大规模数据集并行处理的编程模型,研究基于Map Reduce的连接查询代价评估和查询优化,有着学术意义和应用价值.Map Reduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于Map Reduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣.
- 宋杰李甜甜朱志良鲍玉斌于戈
- 关键词:连接查询MAPREDUCE查询优化
- 大数据分析的分布式MOLAP技术被引量:34
- 2014年
- 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能.
- 宋杰郭朝鹏王智张一川于戈Jean-Marc PIERSON
- 关键词:大数据多维数据模型OLAPMAPREDUCE
- 基于MapReduce的多元连接优化方法被引量:3
- 2016年
- 多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接运算的主要代价,首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能.针对后者,考虑到负载均衡能够有效减少MapReduce的"木桶效应",通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法.最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果.该研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接、社交网络中社团发现的链式连接等应用的性能.
- 李甜甜于戈郭朝鹏宋杰
- 关键词:负载均衡
- 基于概率的大数据查询系统——Probery被引量:2
- 2016年
- 针对大数据环境下完整性查询时间代价消耗过高的问题,提出了一种采用近似完整性查询方法的系统——Probery。Probery所采用的近似完整性查询方法不同于传统的近似查询,其近似性主要体现为数据查全的可能性,是一种新型的数据查询方法。Probery首先将存入系统的数据划分为多个数据分段;然后,根据概率放置模型将各个数据分段的数据存储在分布式文件系统中;最后,对于给定的查询条件,Probery采用一种启发式查询方法进行概率查询。通过与其他主流的非关系型数据管理系统的查询性能进行比较,对Probery进行验证,Probery在损失8%查询完整性的情形下,查询时间较HBase相比节约了51%,较Cassandra相比节约了23%,较Mongo DB相比节约了12%,较Hive相比节约了3%。实验结果表明,Probery可以适当地损失查询完整性来提高数据的查询性能,具有较好的通用性、适应性和可扩展性。
- 伍晋博宋杰张莉鲍玉斌
- 关键词:大数据概率查询分布式文件系统MAPREDUCE