俞荣华
- 作品数:5 被引量:58H指数:2
- 供职机构:复旦大学信息科学与工程学院计算机科学系更多>>
- 相关领域:自动化与计算机技术更多>>
- 一个可扩展的数据清洗系统
- 在给数据挖掘这样的应用准备数据的过程中,面临着一系列数据清洗问题.然而要把数据清洗过程做得很灵活并不那么简单,已有的工具往往过于依赖特定的应用.该文提出并实现了一个可扩展的数据清洗框架.它以术语模型、处理描述文件、共享库...
- 俞荣华郭志懋田增平周傲英
- 关键词:数据准备数据清洗数据库
- 文献传递
- 一个可扩展的数据清洗系统被引量:14
- 2003年
- 在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等概念和技术实现 了模 块的高度独立性和系统的可扩展性,并提供了一个可视化的流程定义环境。
- 郭志懋俞荣华田增平周傲英
- 关键词:数据挖掘数据清洗系统数据标准化数据集成可视化
- 一种检测多语言文本相似重复记录的综合方法被引量:45
- 2002年
- 1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性.
- 俞荣华田增平周傲英
- 关键词:数据仓库数据挖掘数据库
- 数据质量和数据清洗关键技术研究
- 该文在归纳、总结了数据质量问题和数据清洗相关研究的现状的基础上提出一个可扩展的数据清洗框架的定义和一个检测多语言数据重复记录的综合方法,并以此为基础实现了一个数据清洗系统EDCF.具体地说,该文的贡献如下:1.提出了一个...
- 俞荣华
- 关键词:数据质量数据清洗重复记录检测
- 文献传递
- 一种基于聚类的多语言文本相似记录检测算法
- 本文研究了在多语言文本条件下如何检测相似重复记录,提出了一种有效的综合方法,其优点是时间复杂度小,检测精度高,能很好地适应数据规模地变化.
- 俞荣华田增平周傲英
- 关键词:数据库聚类
- 文献传递