邹兆年
- 作品数:28 被引量:114H指数:7
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- Spark GraphX上的SPARQL查询处理算法
- 2018年
- 资源描述框架(resource description framework,RDF)由于其表示的灵活性和天然的图数据模型而变得越来越流行。与此同时,RDF数据的数据量也在以惊人的速度增长。由于数据量的增长,在单机上存储和查询RDF数据变得越来越不方便,从而激发了分布式存储查询的需求。学术界在分布式存储查询系统,例如Hadoop、Spark上已经做了大量的工作。基于Hadoop的分布式存储查询方式的主要缺点是中间结果需要被写回磁盘,从而产生大量的I/O操作。提出了一种新的在Spark Graph X上进行SPARQL查询评估的方法SQX,将RDF数据视为一个带标签的属性图,提出了一种新的查询计划生成方案并且通过图并行的方式实现SPARQL查询评估。SQX采用了一种"查询树匹配"+"结果过滤"的方法。针对每一个SPARQL查询,产生相应的查询树和约束条件。在每一轮的超级步中,查询树中的多条边可以被并行处理,对迭代执行完毕后的结果进行过滤,满足约束条件的将作为最终的结果。实验结果表明,算法能够有效处理SPARQL查询并且具有良好的可扩展性。
- 邱慧邹兆年
- 关键词:SPARQL查询SPARK查询树
- 不确定图数据库中高效查询处理
- 近年来,在多种领域中产生的大量数据都可以自然地建模为图结构,比如蛋白质交互网络、社会网络等.测量手段的不准确性以及数据本身的性质导致不确定性在很多图数据中普遍存在.文中研究不确定图数据库中的高效查询处理方法.首先给出一种...
- 张硕高宏李建中邹兆年
- 关键词:查询处理搜索树
- 文献传递
- 非确定图数据的挖掘算法研究
- 随着信息技术的发展,越来越多的领域开始使用“图”来表示和存储数据对象之间的关系。这种类型的数据被称作“图数据”。近年来,在现实应用中积累了大量的图数据,其中蕴含了大量有用的知识。“图挖掘”能够从图数据中发现数据对象之间关...
- 邹兆年
- 关键词:数据挖掘
- 文献传递
- 数据完整性的评估方法被引量:11
- 2013年
- 随着信息技术的发展,数据的规模正在高速增长,数据中普遍存在质量问题.针对海量关系数据中普遍存在的数据不完整现象,研究了关系数据完整性度量问题.针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法.理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算.通过在DBLP数据上的实验验证了算法的有效性和高效性.
- 刘永楠邹兆年李建中王海洁
- 关键词:数据质量数据完整性
- 一种新的高效图聚集算法被引量:8
- 2011年
- 图聚集是将一个大规模的图用简洁的并能有效反映原始图的结构和属性信息的小规模图来表示的技术.图聚集在图数据管理、分析和可视化中发挥着重要作用.图聚集方面现有研究结果还很少,也很不系统.其主要不足之处是:1)算法依赖于具体应用;2)算法仅考虑了图的某方面信息,如结构信息或属性信息;3)算法对用户提供的交互和反馈信息的约束很强.针对现有图聚集算法存在的主要不足,提出一种有向图新型图聚集算法,该算法采用一种新的聚集图质量函数,全面刻画了聚集图多样性、覆盖性、简洁性和实用性.该算法使用LSH(locality sensitive Hashing)技术和基于熵的划分技术,保证了聚集图的质量.在真实数据集上进行了大量的实验,验证了算法的有效性.
- 尹丹高宏邹兆年
- 不确定图上期望最短距离的计算被引量:5
- 2012年
- 研究了不确定图上的最短距离问题,提出了期望最短距离的概念,证明了该问题不存在多项式时间的算法.为了解决该问题,使用了随机采样技术获得不确定图的一些可能世界,在每个可能世界上计算有穷的最短距离,最后计算出平均值作为期望最短距离的估计值.为提高计算效率,使用了过滤条件来减少采样过程中采样的边数从而加快随机采样.在此基础上,提出了一种基于对称变量的、无偏的随机采样近似算法,并证明了与直接随机采样方法相比,该方法在不增加时间开销的同时能减小采样方差.通过真实数据上的实验表明,提出的算法在时间开销和采样方差上均明显好于直接随机采样方法.
- 李鸣鹏邹兆年高宏赵正理
- 关键词:随机采样
- 不确定图上的Top-k稠密子图挖掘算法被引量:5
- 2016年
- 该文研究了从不确定图上挖掘top-k稠密子图的问题.由于图数据具有内生不确定性,确定图上稠密子图的定义和挖掘算法在不确定图上均不适用.因此,该文提出了不确定图上期望稠密度的概念,并给出了其在多项式时间内的计算方法.基于此,该文定义了不确定图中导出子图之间的一种偏序关系.利用该偏序关系,将不确定图中的导出子图有效地组织成一棵搜索树.该文严格证明了此搜索树中可以完整无重复地覆盖不确定图上的所有导出子图.据此,该文提出了针对此搜索树的一种分支界限搜索算法DS,用于精确挖掘top-k稠密子图.该文还提出了不相交top-k稠密子图的概念,并给出了一种基于束搜索的启发式近似搜索算法LS.在多组数据集上的实验结果表明,文中提出的DS算法具有很高的效率和很好的扩展性,可用于处理大规模图数据.启发式近似搜索算法LS可以快速发现不相交top-k稠密子图.
- 朱鎔邹兆年李建中
- 关键词:数据挖掘
- 大规模不确定图上的Top-k极大团挖掘算法被引量:3
- 2013年
- 该文研究了从不确定图中挖掘出前k个出现概率最高的极大团的问题,提出了一种基于划分的高效并行算法.在该算法中,输入的大规模不确定图首先被划分为若干互不重叠的规模较小的子图,每个子图通过扩展邻居结点信息成为扩展子图.而后,应用改进后的分支界限搜索策略,并行挖掘各个扩展子图,以得到局部top-k结果.最后,归并所有的局部top-k结果,得到全局top-k极大团.同时,该文还提出了两种预处理策略,以提高算法效率.并且严格证明了算法的正确性.在多组不确定图数据集上的实验结果表明,算法具有很高的效率和很好的实用性.
- 邹兆年朱鎔
- 嵌入式数据库SQLite上多版本并发控制的设计与实现被引量:7
- 2022年
- 针对嵌入式数据库SQLite并发性能较低的问题,提出了一种基于多版本并发控制(MVCC)的并发控制设计。首先,设计了SQLite数据库的以提交的写事务为依据的版本划分方式,重新设计了数据记录的头部字段并以此划分了记录在不同版本访问下的可见性;然后,在SQLite原有结构基础上修改了增、删、查、改等操作与索引结构使得该数据库能在MVCC下工作;最后,对于老旧版本数据提供了一种手动的回收机制。通过实验对比测试了在该设计下的SQLite-MVCC数据库与SQLite数据库的性能区别,发现在并发度较高的状态下SQLite-MVCC数据库在相同时间内可多完成70%以上的事务。实验结果验证了所提设计可以有效提高SQLite的并发性能,使得该数据库可以应对并发情况下的需求。
- 景子奇邹兆年
- 关键词:嵌入式数据库SQLITE事务管理调度并发执行
- 不确定图数据库中高效查询处理被引量:26
- 2009年
- 近年来,在多种领域中产生的大量数据都可以自然地建模为图结构,比如蛋白质交互网络、社会网络等.测量手段的不准确性以及数据本身的性质导致不确定性在很多图数据中普遍存在.文中研究不确定图数据库中的高效查询处理方法.首先给出一种数据模型来表示图的不确定性.鉴于对用户提交的查询图通常会产生大量匹配结果,高效得到概率最大的k个匹配常常更具有现实意义.因此文中形式化提出概率top-k子图匹配查询的问题.为了解决提出的查询问题,以附带概率信息的邻居子图为基础,设计了一种有效的索引结构.另外,提出一种高效的基于索引的查询处理方法.该查询处理方法的核心是一个基于搜索树的匹配算法,其中运用了一种概率剪枝技术来提高性能.实验结果表明,所提出方法具有良好的效率和可扩展性.
- 张硕高宏李建中邹兆年
- 关键词:不确定性查询处理