国家海洋公益性行业科研专项(201105033) 作品数:5 被引量:6 H指数:1 相关作者: 王国仁 乔百友 曲海鹏 王秋杰 孔德福 更多>> 相关机构: 东北大学 国家海洋信息中心 中国海洋大学 更多>> 发文基金: 国家海洋公益性行业科研专项 国家自然科学基金 国家重点实验室开放基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于网格索引的空间连接查询处理优化算法 被引量:5 2014年 针对云环境下的空间数据连接查询处理问题,提出一种基于MapReduce框架的高效空间连接查询处理优化算法.该算法采用网格划分方法将数据空间划分成大小相同的网格单元,并将其中一类数据集中的每个空间对象,按照其中心点的位置划分到所在的网格单元中,从而避免了连接对象的复制,网格单元之间根据其所包含数据对象的交叠关系构建网格索引;对另一类数据集中的对象,仅将其复制到与网格单元中数据有交叠的网格单元,从而过滤掉不可能有连接结果的数据对象,大大减少了后续的连接计算代价.合成数据和真实数据集上的大量实验表明,本文提出的空间数据连接查询处理优化算法在性能上明显优于原有SJMR查询处理算法. 乔百友 邓增安 王秋杰 朱红印 孔德福 王国仁关键词:连接查询 MAPREDUCE 空间数据 网格索引 一种分布式环境下高效查询算法 2016年 很多交互系统需要实时返回潜在的数据空间中最重要的前k条记录,即为top-k查询。当今大数据时代,面对海量更加复杂的数据,输出这种top-k记录是一个非常具有挑战性的问题。传统的方案主要采用基于阈值的方法,然而对分布式系统来说,这些方法是比较耗时的,并且需要巨大的通信量。随着网络流量的增加,这些问题会变得无法解决。本文提出了一种新颖的top-k算法PCMRA(Data Partitioning and COIT Indexing Top-k query Algorithm based on MapReduce)。该解决方案构造了预处理结构COIT(候选对象索引表),并采用数据分割策略和并行编程框架MapReduce,一轮通信就可以完成top-k查询。此外本文还对算法给出了正确性证明和理论分析,并且实验表明该算法仅需要较小的空间开销和较短的时间代价,即可筛选出较少的候选对象,大幅度节约了计算和通信资源,并且算法具有良好的可扩展性。 王宁 曲海鹏 范令关键词:TOP-K查询 数据分割 MAPREDUCE 分布式网络下改进的Top-k查询算法 被引量:1 2017年 现有Top-k查询算法主要运用在集中式关系型数据库中,当应用于分布式网络时会产生巨大的通信开销,导致算法效率低下。为此,提出一种改进的Top-k查询算法,利用预处理索引表对分布式网络中无关数据进行裁剪,在此基础上建立包含正确Top-k结果的候选子集并实现Top-k查询。实验结果表明,与Fagin和Naive Top-k查询算法相比,改进算法获得的查询结果更准确,运行时间更短,网络开销更小。 杨浩 林喜军 曲海鹏关键词:TOP-K查询 分布式网络 大数据 一种基于Spark的多路空间连接查询处理算法 2017年 针对云环境下空间数据连接查询处理问题,提出了一种基于Spark的多路空间连接查询处理算法BSMWSJ.该算法采用网格划分方法将整个数据空间划分成大小相同的网格单元,并将各类数据集中的空间对象,根据其空间位置划分到相应的网格单元中,不同网格单元中的空间数据对象进行并行连接查询处理.在多路空间连接查询处理过程中,采用边界过滤的方法来过滤无用数据,即通过计算前面连接操作候选结果的MBR来过滤后续连接数据集,从而过滤掉无用的连接对象,减少连接对象的多余投影与复制,并采用重复避免策略来减少重复结果的输出,从而进一步减少后续连接计算的代价.合成数据集和真实数据集上的大量实验结果表明:提出的多路空间连接查询处理算法在性能上明显优于现有的多路连接查询处理算法. 乔百友 朱俊海 郑宇杰 申木川 王国仁关键词:云计算 P2P环境下面向不确定数据的kNN查询方法 2012年 由于仪器的不精确和网络延时等原因,在传感器网络和P2P系统中数据都存在不确定性.为解决此问题,基于现有的集中式的不确定数据的kNN查询方法,提出了一种在P2P环境中对不确定数据的kNN查询方法.该方法在super-peer的网络拓扑结构的基础上,以一种扩展的R树(P2PR-tree)作为此查询算法的空间索引结构,解决P2P环境中对多维数据的索引.并且结合两种剪枝策略减小了候选集的范围和减少了查询在P2P网络中的网络代价.实验结果表明,该方法在减少网络代价方面具有较高的性能. 孙永佼 东韩 袁野 王国仁关键词:SUPER-PEER KNN查询 不确定数据