国家自然科学基金(61202088) 作品数:11 被引量:112 H指数:6 相关作者: 宋杰 于戈 朱志良 李甜甜 张一川 更多>> 相关机构: 东北大学 辽宁大学 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
分布式环境下的频繁数据缓存策略 被引量:3 2017年 大数据环境下利用分布式缓存技术能够提供高性能、高可用的数据查询。针对轻量级数据库应用的频繁数据缓存策略具有高效、易扩展的优点,更有利于轻型分布式数据库应用的查询优化改进。因此,通过分析用户行为和用户查询特征,研究针对近期频繁查询数据的数据缓存策略,能够预测高命中率的缓存数据,提高数据查询效率。首先分析并给出查询频繁度的定义,其次根据时间因素对缓存数据选取的影响细化用户查询操作,并通过查询数据的查询频繁度应对查询过程中不同的缓存命中情况整合节点间的缓存数据。最后,实验证明该数据缓存策略具有较高的数据命中率,能够提高数据查询的效率。实现方面可根据实际需要采用不同的缓存属性组合,具有良好的易扩展性。 易俗 殷慧文 张一川 张莉关键词:集群环境 分布式系统 大数据 大数据分析的分布式MOLAP技术 被引量:34 2014年 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能. 宋杰 郭朝鹏 王智 张一川 于戈 Jean-Marc PIERSON关键词:大数据 多维数据模型 OLAP MAPREDUCE 基于MapReduce的连接聚集查询算法研究 被引量:7 2013年 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有连接算法的基础上总结出4种基于MapReduce的连接聚集查询算法;接着根据应用场景的不同又提出另外两种实现算法;同时提出I/O代价是决定基于MapReduce的连接聚集查询算法性能的主要因素;最后通过大量实验分析这6种算法在不同查询应用下的优劣,总结了它们各自的适用场景,并分析了各个算法的性能与数据特征之间的关系. 陈勇旭 陈梦杰 刘雪冰 宋杰关键词:海量数据 MAPREDUCE HaoLap:基于Hadoop的海量数据OLAP系统 被引量:5 2013年 近年来,随着计算机技术的发展及其在互联网、传感器和科学数据分析等领域的广泛应用,数据量爆炸性地增长,海量数据给传统的数据管理和分析带来新的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.介绍了HaoLap(Hadoop based OLAP),一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的海量数据OLAP系统.本研究吸取了MOLAP的经验:采用元数据存储多维模型以及HDFS存储事实数据,采用编码完成维和事实数据的映射,采用MapReduce完成OLAP运算.描述了HaoLap的关键技术,包括系统结构、维定义和编码、事实数据存储和编码、OLAP算法和服务接口.介绍了HaoLap在科学数据分析的应用案例,并与主流非关系数据管理系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但HaoLap的OLAP性能要优于HBase,Hive,HadoopDB等主流非关系数据管理系统. 郭朝鹏 王智 韩峰 张一川 宋杰关键词:多维数据模型 OLAP 海量数据 HDFS MAPREDUCE 一种能效优化的MapReduce资源比模型 被引量:21 2015年 随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高. 宋杰 刘雪冰 朱志良 李甜甜 赵大哲 于戈关键词:云计算 能效 MAPREDUCE 数据密集型计算中负载均衡的数据布局方法 被引量:6 2013年 广泛用于数据密集型计算的MapReduce模型将计算部署到数据端并行执行,数据布局将不再只影响存储本身,还影响计算效率;节点上存储数据的特征决定该节点上任务的执行效率,负载均衡从传统的服务器管理或任务调度研究转变成为以提高并行性为目的的数据布局研究,为此,分析了数据密集型计算和MapReduce环境中数据布局的特点,提出了负载均衡的数据布局目标,并提出在特定环境下实现负载均衡的数据布局方法,最后通过实验证明了数据布局目标和数据布局方法的有效性.理论和实验结果证明,新提出的布局方法能有效地提高MapReduce应用的并行性,优化其执行效率. 宋杰 李甜甜 闫振兴 朱志良关键词:数据密集型计算 负载均衡 云计算 云数据管理系统能耗基准测试与分析 被引量:25 2013年 云数据管理系统是一种新兴的数据管理系统.为了研究云数据管理系统的能耗优化,实现"绿色计算",首先要定义能耗的度量模型和基准测试方法,分析系统的能耗特点.目前云数据管理系统的基准测试主要集中在性能方面,对能耗方面的评估和优化工作很少;对测量仪器、测试手段、测试用例以及能耗基本规律的研究存在空白.文中提出了一种能耗的度量模型和数学表达;定义了一组数据装载、查询和分析用例来测试云数据管理系统的能耗;设计了系统能耗的测量方法;分析了若干云数据管理系统在执行数据装载、读取、查询、聚集和连接等操作时的能耗特征,提出了通过降低"等待能耗"而进行云数据管理系统的能耗优化.大量实验数据证明,尽管云计算被认为是一种绿色计算,但文中测试的云数据管理系统在能耗方面差异较大,需要对部分系统进行进一步的优化. 宋杰 李甜甜 朱志良 鲍玉斌 于戈关键词:能耗 MAPREDUCE 大数据 云计算 云计算环境下改进的能效度量模型 被引量:9 2013年 针对大规模计算的能效问题,提出改进的能效度量模型,通过"能源"和"效率"2种度量来综合评价系统能效.在"能源"方面,考虑计算机、网络和附属设备的能耗;在"效率"方面,考虑CPU、内存、磁盘以及网络的情况.提出的能效度量模型描述了改进后的能效度量的定义和数学表达,通过实验验证了该模型的合理性.基于该度量模型,评估并分析了MapReduce环境中CPU密集型、I/O密集型和交互型计算的能效,总结了MapReduce环境中的能效规律. 宋杰 侯泓颖 王智 朱志良关键词:云计算 能效 MAPREDUCE 基于MapReduce的多元连接优化方法 被引量:3 2016年 多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接运算的主要代价,首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能.针对后者,考虑到负载均衡能够有效减少MapReduce的"木桶效应",通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法.最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果.该研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接、社交网络中社团发现的链式连接等应用的性能. 李甜甜 于戈 郭朝鹏 宋杰关键词:负载均衡 基于概率的大数据查询系统——Probery 被引量:2 2016年 针对大数据环境下完整性查询时间代价消耗过高的问题,提出了一种采用近似完整性查询方法的系统——Probery。Probery所采用的近似完整性查询方法不同于传统的近似查询,其近似性主要体现为数据查全的可能性,是一种新型的数据查询方法。Probery首先将存入系统的数据划分为多个数据分段;然后,根据概率放置模型将各个数据分段的数据存储在分布式文件系统中;最后,对于给定的查询条件,Probery采用一种启发式查询方法进行概率查询。通过与其他主流的非关系型数据管理系统的查询性能进行比较,对Probery进行验证,Probery在损失8%查询完整性的情形下,查询时间较HBase相比节约了51%,较Cassandra相比节约了23%,较Mongo DB相比节约了12%,较Hive相比节约了3%。实验结果表明,Probery可以适当地损失查询完整性来提高数据的查询性能,具有较好的通用性、适应性和可扩展性。 伍晋博 宋杰 张莉 鲍玉斌关键词:大数据 概率查询 分布式文件系统 MAPREDUCE