包从剑
- 作品数:4 被引量:37H指数:3
- 供职机构:江苏大学计算机科学与通信工程学院更多>>
- 发文基金:江苏省高校自然科学研究项目国家火炬计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据仓库中的相似重复记录检测方法被引量:26
- 2007年
- 针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据集中检测和消除相似重复记录,为避免漏查,再选择其他关键字段或字段某些位重复多次检测。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。
- 李星毅包从剑施化吉
- 关键词:相似重复记录数据仓库
- 基于B/S与C/S混合模式的图书馆管理系统被引量:4
- 2009年
- 为提高图书管理的效率和图书信息的利用率,采用面向对象的设计方法,应用B/S和C/S混合结构模式,并用统一建模语言的顺序图描述数据处理流程,进行系统之间数据转换,应用书条形码和读者借阅卡条形码自动识别技术,设计出用于乡镇图书馆的图书馆管理系统.该系统简化了工作流程,有利于提高工作效率.
- 包从剑施化吉黄欢
- 关键词:图书馆管理系统分层架构在线事务处理
- 基于加权快速聚类的异常数据挖掘算法被引量:3
- 2007年
- 聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。
- 李星毅包从剑施化吉奚春海
- 关键词:异常数据数据挖掘K-均值聚类
- 可扩展和可交互的数据清洗系统被引量:4
- 2007年
- 可扩展性和可交互性是数据清洗系统的主要特征。为了说明此系统的特点,列举产生异常数据的原因,用系统框架图来解释各个功能模块,提出用统计学等方法检测异常数据,针对不同类型的异常数据提出相应的清洗策略,并说明如何评估算法的优良性和数据准确性,最后用流程图来说明整个系统。人口数据清洗结果显示人口数据质量大幅度提高了,同时也证明此系统有很高的执行效率。
- 包从剑李星毅施化吉
- 关键词:数据仓库数据检测数据清洗