国家重点基础研究发展计划(2012CB316201)
- 作品数:39 被引量:205H指数:8
- 相关作者:于戈申德荣聂铁铮寇月谷峪更多>>
- 相关机构:东北大学辽宁科技大学中国刑事警察学院更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于差分隐私的频繁序列模式挖掘算法被引量:8
- 2017年
- 针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。
- 李艳辉刘浩袁野王国仁
- 关键词:隐私保护数据挖掘
- 基于可信度的投票列表合并算法被引量:1
- 2016年
- 在投票系统中,每个投票人按照自己对候选人的认可程度对候选人进行排名,从而得到大量的有序投票列表.为了从这些列表中得到一个综合投票结果,需要找到一种合理有效的列表合并算法,综合分析列表数据并将它们合并为一个综合列表.本文提出一种基于可信度的投票列表合并算法,其基本思路是:通过综合分析投票列表中蕴含的众多排名信息,度量出每个列表中每条排名信息可被采信的程度,简称为可信度,然后基于已经得到的可信度,让那些高可信度的排名信息在综合排名中发挥更大的作用,从而得到一个更好的综合排名结果.实验结果充分表明,本文提出的算法能够更有效地挖掘出排名信息的可信度,从而得到准确度更高的合并结果.
- 杨红果申德荣寇月于戈
- 关键词:投票系统综合排名
- 大图数据上顶点驱动的并行最小生成树算法被引量:7
- 2014年
- 最小生成树(minimum spanning tree,MST)是图论中最为经典算法之一.基于MST结构的聚类、分类和最短路径查询等复杂图算法,在效率和结果质量方面均有显著提高.然而,随着互联网的迅猛发展,图数据规模也变得越来越大,包含千万甚至上亿个顶点的大图数据越发常见.因此,如何在大图数据上实现查询处理和数据挖掘算法已成为亟待解决的问题之一.除此之外,由于大图数据的动态性特征,如何动态地维护算法结果也势必成为最受关注的问题之一.针对目前集中式的最小生成树算法无法解决海量和动态图数据的问题,首先提出了分区Prim(partition Prim,PP)算法,基于此提出了顶点驱动的并行MST算法——PB(PP Boru。vka)算法,并论证了PB算法的正确性.另外,基于MapReduce和BSP框架实现了PB算法.针对只删除动态图特征,提出了MST维护算法,以实现高效的增量计算.对提出的计算和维护算法进行了代价分析和比较.最后,使用真实和模拟数据集,验证了PB算法和维护算法的有效性、高效性和可扩展性.
- 谷峪杨佳学鲍玉斌于戈
- 关键词:最小生成树
- 基于外存后缀树的top-k局部比对算法
- 2016年
- 局部比对是一种衡量字符串间相似程度的技术,它在生物信息学领域具有十分重要的作用.介于此,许多学者已对其进行了深入的研究.然而,随着数据规模的扩大,常规的内存算法已不适用于支持大规模文本数据的局部比对.为解决上述问题,该文研究了基于外存后缀树的top-k局部比对算法.它从根本上消除了内存空间对算法的束缚.为了提高算法的性能,该文首先将经典内存算法中的过滤策略引入该文.通过适当的修改,这些策略可以基于外存后缀树有效地降低计算开销.其次,该文提出一种巧妙的算法支持top-k局部比对查询.该算法通过引入启发式策略有效规避了TA算法的固有问题.具体地,它一方面可以提高算法的过滤能力,另一方面可以降低候选对象的维护代价.再次,该文对外存后缀树和磁盘的工作原理进行了研究.基于此,该文提出一种槽的结构支持查询.该结构既可以实现磁盘的顺序访问,又可以降低磁盘的访问次数.因此,它可以有效提高算法的查询效率.最后,大量的实验验证了该文所提出算法的有效性.
- 王斌朱睿杨晓春王国仁于戈
- 关键词:TOP-K
- 面向Web数据集成的真值发现算法被引量:8
- 2016年
- 在Web数据集成中,常出现多个数据源对同一实体对象的描述存在冲突.解决冲突,发现真值有助于提高数据集成质量或构建高质量的知识库等.已有的解决单真值数据冲突的方法存在数据源评价指标不充分,无法区分数据源的数据缺失和假真,以及无法处理数据源间传递复制、共同复制等高阶复制的局限性.因此,本文采用召回率和假真率度量数据源质量,提出能处理数据源间复杂数据复制的真值发现算法.三个真实数据集和人工数据集上的实验结果表明,本文算法能有效降低错误数据复制带来的真值计算偏差,提高真值发现的准确率.
- 余东申德荣寇月聂铁铮于戈
- 关键词:数据复制数据冲突数据集成
- 基于内容相关的条件函数依赖的一致性清洗方法被引量:1
- 2016年
- 基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条件值下的数据一致性问题并提供可用于一致性修复的参考值.同时,提出了一种一致性修复的代价模型.模型参考内容相关的条件函数依赖对应元组的实际情况进行修复,实现代价最优,同时保证数据一致性.通过在两组真实数据集上进行试验测试,证明提出的基于内容相关的条件函数依赖的一致性清洗方法能够准确地检测数据的一致性问题并加以修复.
- 杜岳峰申德荣张亮于戈
- 关键词:数据清洗条件函数依赖数据一致性
- 异构网络中关联实体识别模型及增量式验证算法研究被引量:6
- 2013年
- 利用关联实体识别技术可以对异构网络中主题相关的实体进行检测并整合,更好地帮助用户理解搜索目标.然而,目前关联实体识别技术考虑的因素较为单一、对识别结果缺乏验证而影响识别准确性.文中提出了一种两阶段的关联实体识别模型,充分考虑了实体的模式特征与属性特征.此外,提出了一种增量式验证算法,基于迭代对识别结果进行增量式的验证并修正,以保证结果的准确性.通过实验验证了文中所提出的关键技术的可行性和有效性.
- 寇月申德荣刘恒王泰明聂铁铮于戈
- 关键词:异构网络迭代
- 一种基于数据质量的异构多源多模态感知数据获取方法被引量:21
- 2013年
- 近年来,物联网由于其广阔的应用前景得到快速发展,感知设备的种类也越来越丰富.并且很多应用中均通过部署多个相互独立的异构数据源对监测对象的多维属性进行度量,由此得到异构多源多模态感知数据.但由于硬件设备固有的限制以及环境噪声等因素的影响,感知设备不可避免地存在漏读、多读、错读等现象,导致感知数据的数据质量降低.而数据是信息的载体,其能否准确反映物理世界的真实信息是决定其在上层应用中发挥效用的关键.基于此,该文提出一种基于数据质量的异构多源多模态感知数据获取方法.首先定义了数据质量的3个方面:准确性、完整性和一致性;进而对数据质量在这3个方面进行建模,提出评价异构多源多模态感知数据综合数据质量的方法;最后提出基于数据质量的感知数据获取算法,根据用户给定的任意精度,选择部分数据源用于数据传输,在保证数据质量的前提下尽可能地减少网络资源的消耗,并通过大量实验验证了算法的高效性和可用性.
- 马茜谷峪张天成于戈
- 关键词:多模态数据质量数据获取
- 面向时间不确定事件流的嵌套查询处理技术被引量:2
- 2017年
- 随着复杂事件处理(Complex Event Processing,CEP)技术的发展,该技术已经在多个领域中得到了应用,例如供应链管理和智能跟踪与监控.由于嵌套查询能够满足这些应用领域里更高层次的需求,因此嵌套查询成为了CEP研究的关键问题之一,得到了广泛关注.但是,已有嵌套查询的对象都是发生时间确定的事件,并未考虑现实应用中事件的发生时间是未知的或是不精确的,而这种情况下通常需要概率的方法来表示事件的发生时间.因此文中旨在解决发生时间不确定事件流上的嵌套查询问题.首先,针对基于可能世界的基本处理方法存在的低效问题,文中提出了一种基于迭代的处理方法;进一步,在迭代处理方法的基础上,提出基于子查询长度的剪枝优化技术和基于共享子表达式的缓存优化技术,特别地,基于缓存优化技术提出了查询结果发生概率计算的剪枝方法;最后,通过实验验证了文中提出方法可有效地进行发生时间不确定事件流上的嵌套查询,并能够通过对方法的优化有效地降低处理代价,提高查询处理效率.
- 刘红蕾李芳芳谷峪李传文
- 关键词:事件流复杂事件处理嵌套查询
- 共享的MapReduce环境下批量作业的调度算法研究被引量:2
- 2013年
- MapReduce作为当前最热门的并行数据处理系统之一,已经被广泛应用在生产、研究等多个领域中.任务调度策略作为MapReduce的核心技术之一,直接关系到系统的性能.但是,在多用户(部门)共享的MapReduce环境下处理批量作业时,已有的调度算法不能够保证系统良好的吞吐能力.针对此问题,一种在共享的MapReduce环境下的吞吐量驱动的任务调度算法(简称TD调度算法)被提出.首先结合共享的MapReduce环境下批量作业调度的特点,给出了调度框架,并根据处理过程中作业的参数变化,将作业归为4种状态并给出状态间的转换规则,避免了系统中资源浪费并保证了资源分配的公平性;其次,总结了在处理批量作业时提高吞吐量的主要手段,进而提出了TD调度算法,有效地降低了网络开销并显著的提高了系统的吞吐能力.最后通过大量的实验对TD调度算法的性能进行了验证.实验结果表明,TD调度算法能够有效地提高在共享的MapReduce环境下处理批量作业时系统的吞吐能力,符合实际应用的需求.
- 王习特申德荣聂铁铮寇月于戈
- 关键词:共享环境MAPREDUCE任务调度吞吐量