马素琴 作品数:5 被引量:58 H指数:4 供职机构: 江苏大学计算机科学与通信工程学院 更多>> 发文基金: 国家火炬计划 国家自然科学基金 江苏省高校自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 更多>>
基于内码序值聚类的相似重复记录检测方法 被引量:8 2010年 检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题。 鲁均云 李星毅 施化吉 马素琴关键词:相似重复记录 聚类 基于TFIDF文本特征加权方法的改进研究 被引量:37 2011年 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 张保富 施化吉 马素琴关键词:TFIDF 文本分类 特征加权 向量空间模型 基于语义列表的中文文本聚类算法 被引量:1 2010年 针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUSL算法在处理大量文本数据方面具有较好的性能,并能明显提高中文文本聚类的准确性。 马素琴 施化吉 李星毅关键词:文本聚类 文本表示 相似度计算 加权模糊关联挖掘算法 被引量:6 2010年 针对数量型关联规则挖掘中划分边界过硬问题,以及加权关联规则中为确保向下封闭性成立而引起的规则丢失问题,提出一种新的加权模糊关联挖掘模型及其挖掘算法NFWARM。为了避免区间划分引起的边界过硬问题,该模型引入模糊集软化属性的划分边界;同时,使用属性权重刻画元素对规则的贡献,在保证频繁项集向下封闭性的情况下,不会引起规则丢失。实验结果表明,该算法适用于包含布尔型和数值型数据的大型数据库的规则挖掘,并且得到的频繁项目集数目和规则数目有显著增加。 刘闻超 施化吉 马素琴关键词:数据挖掘 加权关联规则 模糊关联规则 隶属度函数 阈值优化的文本密度聚类算法 被引量:6 2011年 针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果影响的问题,提高了聚类精确度和时间效率。采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。 马素琴 施化吉关键词:文本挖掘 文本聚类 分位数