王建坤
- 作品数:3 被引量:21H指数:2
- 供职机构:辽宁工程技术大学软件学院更多>>
- 发文基金:辽宁省科技厅科技攻关项目国家自然科学基金辽宁省高校创新团队支持计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向属性值遗漏数据决策树分类算法研究被引量:1
- 2011年
- 在已有的多种决策树测试属性选择方法中,未见将属性值遗漏数据处理集成在测试属性选择过程中的报道,而现有的属性值遗漏数据处理方法都会不同程度地带入偏置。基于此,提出了一种将基于联合熵的信息增益率作为决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响。在WEKA机器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度。
- 邱云飞李雪王建坤邵良杉
- 关键词:联合熵决策树
- 基于线性组合文本特征选择方法被引量:4
- 2011年
- 常用文本分类特征选择算法主要通过某种评价函数来计算单个特征对类别的区分能力,由于仅考虑了特征和类别之间的关联性,忽略了特征与特征之间的相关性,从而导致特征集存在冗余。针对这一问题,提出了一种新的用于文本分类的特征选择算法,该算法可以帮助选出类别区分能力强、特征之间关联性弱的特征。实验证实,该算法的性能要优于传统的特征选择算法。
- 邱云飞王建坤李雪邵良杉
- 关键词:文本分类冗余性
- 基于用户行为的产品垃圾评论者检测研究被引量:16
- 2012年
- 为找到垃圾评论的制造者,提出一种基于用户行为的产品垃圾评论者检测方法。从垃圾评论者的行为目的出发,将其发表垃圾评论的5种行为模式作为垃圾评论者的检测指标,从卓越亚马逊网站获取1 470个评论用户,按单指标选取、5个指标集成选取的方法确定最可能和最不可能成为垃圾评论者的评论用户各25个,并对这50个评论者进行人工标记,根据标记结果设计有监督的线性回归模型。实验结果表明,该模型从1 470个评论者中发现88个用户为垃圾评论者,对垃圾评论者的检测效果优于基于用户有用性投票的基准方法。
- 邱云飞王建坤邵良杉刘大有
- 关键词:用户行为线性回归模型垃圾评论