丁亚飞
- 作品数:3 被引量:85H指数:2
- 供职机构:河北师范大学更多>>
- 发文基金:河北省高等学校科学技术研究指导项目国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 多尺度聚类挖掘算法被引量:7
- 2016年
- 数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。
- 韩玉辉赵书良柳萌萌罗燕丁亚飞
- 关键词:多尺度聚类
- 基于词频统计的文本关键词提取方法被引量:77
- 2016年
- 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。
- 罗燕赵书良李晓超韩玉辉丁亚飞
- 关键词:词频统计齐普夫定律关键词提取
- 基于Meta图的关联规则自然语言表示
- 数据挖掘应用广泛,关联规则挖掘已成为数据挖掘领域的一个重要研究方向。然而,大部分关联规则的表示方法都需要用户在数据挖掘领域具备一定的专业知识才能理解,不利于普通用户对关联规则所表示的内容进行充分的理解和应用。 本文首先...
- 丁亚飞
- 关键词:数据挖掘关联规则META图自然语言生成领域知识库
- 文献传递