国家科技重大专项(2010ZX01042-001-002) 作品数:8 被引量:686 H指数:6 相关作者: 王珊 张延松 周烜 王会举 覃雄派 更多>> 相关机构: 中国人民大学 教育部 北京人大金仓信息技术股份有限公司 更多>> 发文基金: 国家科技重大专项 国家自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 经济管理 更多>>
面向大规模机群的可扩展OLAP查询技术 被引量:8 2015年 大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge 3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级. 王会举 覃雄派 王珊 张延松 李芙蓉关键词:OLAP查询 大数据的挑战和机遇 被引量:24 2013年 大数据时代已经到来,对大数据管理和分析的研究是当前信息领域的重大热点问题。2012年3月,美国20余位知名专家经过了约三个月的深入研讨,撰写发布了白皮书"Challenges and Opportunities with Big Data",文章阐述了大数据处理流水线的各个阶段,指出了其中的诸多技术挑战,提供了重要的解决思路。在国家科技重大专项"核心电子器件、高端通用芯片及基础软件产品"的课题中安排翻译了这篇文章,作为研究人员的参考。本刊对译文进行了节选发表于此,以飨读者。 李翠平 王敏峰关键词:信息领域 数据管理 数据处理 电子器件 软件产品 海量数据分析的One-size-fits-all OLAP技术 被引量:32 2011年 传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理过程中的数据网络传输代价都成为制约性能的重要因素.通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术.通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性.提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价.实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率. 张延松 焦敏 王占伟 王珊 周烜关键词:OLAP 星型模型 内存OLAP多核并行查询优化技术研究 被引量:3 2014年 随着以大内存和多核为代表的计算机硬件技术的发展,以cache-conscious算法为中心的查询优化技术逐渐转向以multicore-conscious为中心的查询优化技术,来提高多核处理器的并行处理性能.该文的研究目标是具备复杂星型连接特点的联机分析处理OLAP技术,以查询执行代价最大的星型连接为研究对象,提出同时满足cache-conscious和multicore-conscious的多核并行连接算法DDTA-MPJ.该算法包括基于事实表水平分片和维属性列共享访问模式的查询内多核并行算法IntraDDTA-MPJ、基于QuerySlots的查询间多核并行算法InterDDTAMPJ以及中位数多核并行算法Median-MPJ.实验结果表明该算法具有良好且稳定的并行查询处理性能,线性查询处理模型能够更好地利用多核处理器的先进性能. 焦敏 张延松 王珊 陈红关键词:多核并行 基于语义相似度的Web信息可信分析 被引量:6 2013年 互联网上的虚假事实陈述严重影响人们有效地获取信息,如何判定事实陈述是否可信成为一个亟待解决的问题.文中提出了一种针对事实陈述的可信判定模型MFSV.该模型针对事实陈述的特点,从互联网上搜集与待判定事实陈述相关的文本信息,度量其与对应事实陈述的语义相似度;同时,该模型考虑了相关文本信息在可信度上的差别,从受欢迎程度和重要程度两个方面度量了相关文本信息来源的可信度,并获取了相关文本信息的可信度排序;根据语义相似度以及可信度排序,衡量了相关文本信息对对应事实陈述可信判定所做出的贡献,并以此为基础实现了待判定事实陈述的可信判定.一系列的实验验证了该模型的合理性及可信判定的准确性. 王腾 朱青 王珊关键词:语义相似度 架构大数据:挑战、现状与展望 被引量:622 2011年 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望. 王珊 王会举 覃雄派 周烜关键词:大数据 MAPREDUCE 并行数据库 内存数据库可控的page-color优化技术研究 被引量:1 2011年 page-color的研究集中在如何通过有效的cache分区技术隔离弱局部性数据与强局部性数据的访问冲突,减少数据处理过程中由弱局部性数据产生的cache污染对强局部性数据的影响.但这些优化技术依赖于特殊的处理器硬件设计、操作系统内核功能的扩展或同时依赖于硬件的特殊设计和操作系统扩展功能的支持.提出了应用软件层上基于page-color的W-order扫描优化技术,不依赖特殊的处理器硬件设计,最小化依赖操作系统的扩展功能.研究的核心思想是通过page-color控制弱局部性数据的页面地址访问顺序,将弱局部性数据与强局部性数据在cache中的冲突域由整个地址空间缩小为指定page-color的地址空间内,从而降低整体的cachemiss,降低数据处理时的延迟.与典型的page-coloring技术相比,不需要扩展操作系统内核功能,具有更好的内存地址空间利用率,能够实现查询内数据集粒度上的cache分区优化.实验中模拟了内存数据库中典型的多表连接算法,通过模拟cache行为模式和在实际查询处理时使用cache监测工具验证了W-order区优化技术的可行性与cache性能.实验结果表明,通过在应用软件层次上对顺序访问操作的控制,能够有效地降低cachemiss,提高内存数据库查询处理性能. 张延松 王占伟 孙妍 王珊关键词:内存数据库