山西省科技攻关计划项目(20110321027-01)
- 作品数:5 被引量:68H指数:4
- 相关作者:梁吉业高嘉伟刘杨磊郭兰杰赵兴旺更多>>
- 相关机构:山西大学太原师范学院更多>>
- 发文基金:山西省科技基础条件平台建设计划项目山西省科技攻关计划项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 融合社交网络信息的协同过滤推荐算法被引量:40
- 2016年
- 在推荐系统中,协同过滤推荐算法往往面临数据集的高度稀疏性和推荐精度有限的问题.为了解决上述问题,在基于物品的协同过滤推荐框架下,分别在物品相似度的计算和用户对物品的评分预测阶段,利用社交网络中朋友关系信息选择性地填充评分矩阵中的缺失值,最大化利用评分矩阵中的已有信息,提出融合社交网络信息的协同过滤推荐算法.最后,在Epinions数据集上的实验表明,文中算法在一定程度上缓解数据稀疏性问题,同时在评分误差和分类准确率两个指标上优于其它协同过滤算法.
- 郭兰杰梁吉业赵兴旺
- 关键词:协同过滤社交网络缺失值填充数据稀疏性
- 特征选择:一种面向数据取值更新的批处理机制被引量:7
- 2017年
- 实际应用中获取到的数据通常是动态更新的,且随着数据观测工具的快速发展,数据库中数据更新的速度也越来越快,同一时刻更新的规模也越来越大.面向动态数据集的数据挖掘研究中,数据库中数据取值的动态更新也是一种数据集动态变化的类型.特征选择是一种有效的数据预处理工具,面向数据取值动态更新的特征选择方法也已经引起了众多研究者的广泛关注.为此,基于粗糙集理论和信息熵的概念,提出一种面向数据取值动态变化数据集的特征选择方法,可一次处理一组取值发生变化的数据.算法中首先分析了信息熵随数据取值动态变化的更新机制,以信息熵作为特征重要度的度量,设计了基于信息熵的粗糙特征选择算法.实验结果进一步验证了新算法的可行性和高效性.
- 张娇鹏王锋梁吉业
- 关键词:粗糙集信息熵
- 一种基于Tri-training的半监督多标记学习文档分类算法被引量:8
- 2015年
- 多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tritraining的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。
- 高嘉伟梁吉业刘杨磊李茹
- 关键词:半监督学习多标记学习文档分类
- 基于Tri-training的半监督多标记学习算法被引量:4
- 2013年
- 传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.
- 刘杨磊梁吉业高嘉伟杨静
- 关键词:多标记学习半监督学习TRI-TRAINING
- 基于行为和评分相似性的关联规则群推荐算法被引量:9
- 2014年
- 使用关联规则推荐工具会遇到最优推荐规则选取难、规则信息不能充分利用等问题。利用较易获取的应用领域知识可有效解决这类问题。针对仅有商品名称和评分信息的推荐情形,提出一种基于行为和评分相似性的关联规则群推荐算法,该算法将规则及相应的评分信息视为推荐专家,将推荐结论相同的专家合并为一个专家组,利用客户行为和评分的双重相似性计算专家权重,并利用群决策的思想集结专家组的推荐意见,从而给出最佳推荐方案。最后通过实例和实验说明了该算法的可行性和有效性。
- 张佳乐梁吉业庞继芳王宝丽
- 关键词:关联规则