潘巍 作品数:30 被引量:161 H指数:8 供职机构: 西北工业大学计算机学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 政治法律 社会学 经济管理 更多>>
基于共享的MapReduce多查询优化技术 被引量:7 2013年 为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一组查询的整体执行计划。通过与Hive和Pig的对比,验证了该方法能够在保证准确性的情况下有效地减少执行步数,提高查询执行的效率。 赵保学 李战怀 陈群 潘巍 姜涛 金健关键词:查询优化 MAPREDUCE 一种有效的多数据源RFID冗余数据清洗技术 被引量:11 2011年 相关文献指出低质量的RFID原始数据,特别是大量的冗余数据制约了RFID技术的大规模应用,因此需要一种更有效的冗余数据清洗技术。文章根据RFID数据以及典型应用场景的特点,提出了一种多数据源冗余数据清洗技术,其中包括融合冗余数据清洗方法和交叉冗余数据清洗方法。融合冗余数据清洗方法基于滑动窗口与集合论,交叉冗余数据清洗方法借鉴了参考标签思想并且结合信号强度特征。实验证明,提出的数据清洗技术不但可以有效地完成RFID冗余数据清洗,同时能够为清洗后的数据保留准确的数据来源信息。 潘巍 李战怀 聂艳明 陈群关键词:RFID 数据清洗 冗余数据 RSSI 基于任务分解的分布式RFID复杂事件检测方法 本发明公开了一种基于任务分解的分布式RFID复杂事件检测方法,首先,将复杂pattern分解若干简单的子任务,由多台机器并行处理,从而降低单个节点的事件速率,提高整体吞吐量;其次,在处理子任务时本发明提出了一种基于位图索... 李战怀 陈群 孙林超 金健 陈琳 康庄庄 刘海龙 潘巍 彭商濂 聂炎明 李强 谢芳全 刘敏文献传递 “人才是第一资源”的哲学诠释 被引量:3 2007年 用马克思主义哲学理论诠释“人才资源是第一资源”,就会充分认识到人才是先进生产力的开拓者和代表者,是先进文化的创立者和传播者,是社会创新的引领者和推动者,是综合国力和国际竞争力最具有决定性的因素,是人民群众中的杰出人物。人才资源的开发利用,在经济社会发展中具有基础性、战略性、决定性作用。 潘巍关键词:第一资源 哲学诠释 分布式大数据函数依赖发现 被引量:9 2015年 在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升. 李卫榜 李战怀 陈群 姜涛 刘海龙 潘巍关键词:函数依赖 大数据 知识发现 并行计算 HDFS下海量小文件高效存储与索引方法 被引量:5 2015年 分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量. 肖玉泽 张利军 潘巍 张小芳 李战怀关键词:HDFS 可扩展Hadoop任务分配模块的研究与实现 MapReduce是一种应用广泛的并行编程模型,Hadoop是MapReduce的开源实现.为了满足不同类型的MapReduce作业对任务分配策略的特殊需求,在深入分析Hadoop固有任务分配机制的基础上,设计并实现了一... 赵保学 李战怀 陈群 姜涛 潘巍 金健关键词:MAPREDUCE HADOOP 可扩展性 文献传递 面向云资源调度的热点移除方法 本发明公开了一种面向云资源调度的热点移除方法,用于解决现有热点移除方法耗费资源而造成移除代价大的技术问题。技术方案是将物理机上的虚拟机进行主从划分,每个物理机上的虚拟机由一个主虚拟机和若干个从虚拟机组成,每个业务运行在M... 刘文洁 李战怀 潘巍 张晓文献传递 面向MapReduce的非对称分片复制连接算法优化技术研究 连接运算是面向海量数据的复杂分析型任务的核心内容之一,但是目前最具竞争力的分布式并行处理框架MapReduce没有对连接运算提供内在的支持.经分析发现现有的工作无法以既高效又不影响集群负载均衡和容错能力的方式来处理适用面... 潘巍 李战怀 陈群 索博 李卫榜关键词:MAPREDUCE 文献传递 面向海量分布式数据的非等值连接方法 本发明公开了一种面向海量分布式数据的非等值连接方法,用于解决现有非等值连接方法效率低的技术问题。技术方案是在进行两表的非等值连接之前,首先根据连接条件选择合适的过滤规则,然后计算两表连接字段的最大值和最小值,根据最大值和... 刘文洁 李占怀 潘巍 张晓