李默涵
- 作品数:10 被引量:26H指数:3
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金黑龙江省青年科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据时效性判定问题的求解算法
- 数据的时效性问题是影响数据质量的重要因素之一。时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要。许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难。...
- 李默涵李建中高宏
- 关键词:数据质量
- 文献传递
- 数据时效性判定问题的求解算法被引量:20
- 2012年
- 数据的时效性问题是影响数据质量的重要因素之一.时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要.许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难.冗余记录和时效约束能够在时间戳缺失的情况下有效地辅助恢复数据的时序关系,因而能够帮助数据时效性的判定.文中研究包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.首先,文中定义了查询相关时效性和用户相关时效性.在判定查询相关时效性时,文中将查询归结为最新值查询和时效序列查询两类,并分别根据两类查询的特点,对每类查询定义了查询结果时效性和平均时效性.然后,文中提出了时效图的概念.利用时效图,文中给出了查询相关时效性和用户相关时效性判定问题的求解算法.最后给出了真实数据和虚拟数据上的实验结果,验证了文中算法较高的执行效率,并分析了各个参数对算法的影响.
- 李默涵李建中高宏
- 关键词:数据质量
- 数据时效性修复问题的求解算法被引量:4
- 2015年
- 数据过时问题普遍存在于实际应用中,因此将数据库中的过时数据修复为最新值是提高数据质量的关键步骤.当前主要有基于规则和基于统计2类数据修复方法.基于规则的修复方法能够将领域知识直观地表达为规则的形式,但是难以表达数据中某些复杂的关联关系;基于统计的方法能够表达数据中的复杂关联关系,并修复许多通过规则难以发现和修复的错误,但是该类方法均需要学习较复杂的条件概率分布,且难以直接应用数据语义相关的领域知识.研究数据时效性的修复问题,同时,为了克服当前2类数据修复方法的缺点,提出一类新的修复规则,将规则和统计的方法结合起来修复过时数据.该规则一方面能够以传统规则的方式表达领域知识,另一方面还能够使用其特有的分布表来描述数据随时间变化的统计信息.接着,还给出了修复规则学习算法和数据时效性修复算法.真实和虚拟数据上的实验均验证了算法的有效性.
- 李默涵李建中
- 关键词:数据质量数据修复分布表
- 数据时效性的理论和算法研究
- 随着大数据时代的到来,数据的可用性受到广泛的关注。真实世界会随着时间的流逝迅速变化,进而导致数据库中的数据过时失效。当前已有统计表明过时数据会对企业决策和国民生活造成众多不良影响,且会引起其他维度的可用性下降,如引起数据...
- 李默涵
- 关键词:查询算法
- 一种基于二分图最优匹配的重复记录检测算法
- 信息集成系统中存在重复记录,重复记录的存在为数据处理和分析带来了困难.重复记录检测已经成为当前数据库研究中的热点问题之一.目前的方法主要集中在计算具有同样数据类型属性的相似性上,而现实系统中存在大量具有不同数据类型、不同...
- 李默涵王宏志李建中高宏
- 关键词:数据处理二分图
- 文献传递
- 多数据源环境下重复记录检测问题的研究
- 数据质量管理如同产品质量管理一样贯穿于数据生命周期的各个阶段,在许多领域中,如商业、体育、音乐、旅游等,有大量的数据源提供的数据信息重复。这些重复记录会给系统的用户在很多方面造成不便(如数据冗余、不一致、额外的资源耗费等...
- 李默涵
- 关键词:重复记录检测数据集合多数据源相似度度量
- 一种基于二分图最优匹配的重复记录检测算法
- 信息集成系统中存在重复记录,重复记录的存在为数据处理和分析带来了困难.重复记录检测已经成为当前数据库研究中的热点问题之一.目前的方法主要集中在计算具有同样数据类型属性的相似性上,而现实系统中存在大量具有不同数据类型、不同...
- 李默涵王宏志李建中高宏
- 关键词:信息集成
- 文献传递
- 数据时效性判定:关键理论和技术被引量:4
- 2016年
- 当前,随着大数据时代的来临,数据质量问题受到越来越多的关注。数据质量会随着时间的流逝迅速下降,因此在数据质量的各个维度中,数据时效性扮演的角色至关重要。判定一个给定的数据集合的时效性是确保数据时效性是第一步,但数据时效性的判定并非易事,其面临极大挑战。本文针对时效性判定问题面临的各个挑战,综述了当前该领域针对绝对时效性判定和相对时效性判定的关键理论和技术,分析了现有的各方法的优缺点,并对未来的研究方向给出了建议。
- 李默涵李建中
- 关键词:数据质量
- 基于记录相似度估计的高效重复记录检测算法
- 信息集成过程中出现的重复记录的存在为数据处理和分析带来了困难。重复记录检测已经成为当前数据库研究中的热点问题之一。基于二分图最优匹配的重复记录检测算法具有考虑到模式异构,支持多种数据类型等特点,适用于信息集成中的重复记录...
- 李默涵王宏志李建中高宏
- 关键词:信息集成数据类型
- 文献传递
- 数据时效性判定问题的求解算法
- 数据的时效性问题是影响数据质量的重要因素之一。时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要。许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难。...
- LI Mo-Han李默涵LI Jian-Zhong李建中GAO Hong高宏
- 关键词:数据管理