佘春红
- 作品数:6 被引量:58H指数:5
- 供职机构:长江大学计算机科学学院更多>>
- 发文基金:国家科技攻关计划更多>>
- 相关领域:自动化与计算机技术电气工程更多>>
- 数据清理方法被引量:19
- 2002年
- 数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。
- 佘春红
- 关键词:预处理数据仓库数据库
- 数据清理系统EDCS的研究与实现
- 对于建立在数据仓库之上的决策支持系统,数据的正确性对避免错误的决策是至关重要的,错误的数据将会导致'垃圾进,垃圾出'.因此在构建数据仓库时,必须对各种异质数据源进行数据清理,以保证数据质量.数据清理可以划分为若干原子操作...
- 佘春红
- 关键词:数据仓库数据清理近似字符串匹配
- 文献传递
- 近似重复记录的增量式识别算法被引量:8
- 2003年
- 摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。
- 许向阳佘春红
- 关键词:数据清理
- 关系数据库中近似重复记录的识别被引量:17
- 2003年
- 数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。
- 佘春红许向阳
- 关键词:数据清理字符串匹配数据仓库
- 基于优先队列的增量式重复记录识别被引量:9
- 2003年
- 介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
- 佘春红
- 关键词:数据清理
- 数据仓库及其相关技术综述被引量:13
- 2004年
- 数据仓库是信息领域中迅速兴起的一种技术.本文介绍了数据仓库的概念、特征及其体系结构,并在此基础上着重阐述了数据仓库相关技术中数据集成和视图维护两个重要研究领域.
- 佘春红
- 关键词:数据仓库信息领域体系结构视图维护数据集成