褚希
- 作品数:3 被引量:18H指数:2
- 供职机构:中国石油大学(华东)计算机与通信工程学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于CURE算法的相似重复记录检测被引量:14
- 2009年
- 对CURE算法进行改进,将其应用到相似重复记录的检测。提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性。改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性。理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性。
- 时念云张金明褚希
- 关键词:相似重复记录抽样算法代表点
- 基于语义的决策树挖掘方法研究被引量:3
- 2007年
- 提出了将概念树同决策树挖掘相结合的方法,解决传统决策树挖掘缺乏语义信息的问题。该方法能提高数据挖掘系统的知识表示能力,增强知识的共享性和重用性,在一定程度上改善决策树挖掘中记录重复或语义模糊等问题。
- 时念云褚希张金明
- 关键词:数据挖掘决策树语义概念树
- 基于语义的决策树挖掘算法研究
- 传统决策树算法通过计算属性的信息熵来选择属性,信息熵大的属性被优先选取构造决策树。在计算信息熵时,它仅考虑语法层面上字、词的简单匹配,没有考虑数据的语义信息,缺乏对其所包含语义信息的理解,这就导致算法缺乏一定的智能性,致...
- 褚希
- 关键词:决策树算法数据库数据挖掘语义
- 文献传递