荀亚玲 作品数:60 被引量:224 H指数:9 供职机构: 太原科技大学计算机科学与技术学院 更多>> 发文基金: 山西省自然科学基金 国家杰出青年科学基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 天文地球 更多>>
相关子空间中的局部离群数据挖掘算法研究 被引量:17 2015年 针对高维数据集,采用局部稀疏差异和局部密度差异的度量因子,给出一种相关子空间中的局部离群数据挖掘算法.该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子矩阵,从而有效地反映了数据对象的局部稀疏程度;根据局部稀疏因子矩阵,计算属性维对应的局部稀疏差异因子,并确定数据对象对应的子空间定义向量,从而体现了具有任意性相关的相关子空间;如果数据对象存在相关子空间,则采用高斯误差函数体现相关子空间中各数据对象的局部密度差异,有效地降低了"维灾"的影响,使得离群数据的度量与相关子空间的维度无关,并能够度量相关子空间的数据对象,否则设置数据对象的局部密度差异为0,表明其为正常数据;选取局部密度差异(离群程度)最大的若干数据对象作为局部离群数据;最后采用UCI和恒星光谱数据集,实验验证了该算法的有效性. 李永红 张继福 荀亚玲关键词:高维数据集 一种网格环境下的FP-树分布式构造算法 被引量:2 2011年 针对分布式环境下FP-tree的构造及合并,给出了一种网格环境下FP-tree的分布式构造算法GridDBMA。该算法中,各站点根据全局项目头表,独立构造局部频繁模式树BFP-tree,然后,利用合并算法将各局部树合并为一棵全局频繁模式树,并在全局频繁模式树上提取出所求的频繁项目集,通过对传统频繁模式树的存储结构的改进,减少了树的规模及站点间的网络通信量,并使树的遍历更加方便有效,提高了合并效率,从而提高了整个频繁项目集的挖掘效率。最后,采用天体光谱数据作为形式背景,实验验证了该算法的正确性和有效性。 荀亚玲 吴晓婷 张继福关键词:网格 分布式数据挖掘 关联规则 FP-树 基于用户影响力和偏好一致性的社会化推荐 2023年 用户和项目的急剧增加使得评分数据过于稀疏导致传统推荐算法效果较差,社交网络信息的引入缓解了传统推荐系统中面临的数据稀疏性问题。然而,现有社会化推荐在刻画用户之间的信任关系时未考虑到用户之间的信任具有偏好差异性和信任传播稳定性不强等问题。因此,提出一种基于用户影响力和偏好一致性的社会化推荐。首先,结合评分信息和社交信息从偏好一致性方向刻画用户之间的信任强度,挖掘出隐藏的信息,缓解了用户的偏好差异性。其次,借助用户的社会影响力找到一条信任传播稳定性最强的路径,避免信任在传播过程中造成信任节点信息的丢失。然后,将用户的评分相似度和信任相似度线性加权得到用户的近邻用户做评分预测。最后,将该方法与现有社会化推荐算法在Filmtrust和CiaoDVD数据集上进行综合实验,结果表明该方法在MAE和RMSE上优于现有推荐算法。 孙晶晶 荀亚玲 杨海峰关键词:社会化推荐 协同过滤 基于MapReduce与相关子空间的局部离群数据挖掘算法 被引量:41 2015年 针对高维海量数据,在Map Reduce编程模型下,提出了一种基于相关子空间的局部离群数据挖掘算法.该算法首先利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了相关子空间中的局部离群因子计算公式,有效地体现了相关子空间中数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据;在此基础上,采用LSH分布式策略,提出了一种Map Reduce编程模型下的局部离群数据挖掘算法;最后,采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性. 张继福 李永红 秦啸 荀亚玲关键词:MAP REDUCE 概率密度 MapReduce集群环境下的数据放置策略 被引量:16 2015年 MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作. 荀亚玲 张继福 秦啸关键词:数据放置 MAPREDUCE 编程模型 能耗 负载均衡 MapReduce编程模型下的上下文离群数据挖掘算法 被引量:2 2017年 目前,对于离群数据挖掘算法研究颇多,但对于离群数据挖掘结果可理解性和可解释性的研究相对较少。采用相关子空间,给出一种MapReduce编程模型下的上下文离群数据挖掘算法。该算法利用局部稀疏差异度,确定相关子空间,并计算其数据对象离群因子值;将离群因子和相关属性维,定义为数据对象的上下文信息,提高了数据对象的可理解性;选取离群因子最大的N个数据对象,作为上下文离群数据;利用MapReduce编程模型,实现了一种上下文离群数据并行挖掘算法;最后,采用UCI数据集,实验验证了该算法的可解释性和有效性。 杨海峰 于晓龙 荀亚玲 张继福关键词:离群数据 上下文信息 可理解性 MAPREDUCE 一种基于属性加权的快速聚类算法 被引量:2 2021年 传统的聚类算法通常将样本间的距离作为相似度的划分标准,因此距离计算方式的选择对于聚类的结果至关重要。但是传统的距离计算方法忽略了不同数据属性特征对聚类的影响。为了解决此问题,论文结合K-means提出了一种基于属性加权的快速K-means算法FAWK。首先,定义了一个反映属性特征差异的离散度函数对属性特征进行加权;其次,根据加权属性特征计算数据属性间的距离,并将所有属性的加权属性距离求和作为样本间的相似性距离;然后,将加权属性距离作为FAWK算法的划分标准对数据进行聚类;最后,将论文算法与现有方法在8个UCI数据集和LAMOST恒星光谱数据集进行实验测试与分析,实验结果表明FAWK算法具有迭代次数少、运行时间短、聚类结果准确率高且更接近真实数据集划分情况的特点。 赵国伟 蔡江辉 杨海峰 荀亚玲关键词:K-MEANS 属性加权 相似度度量 基于时效性和相关性约束的周期模式挖掘 2024年 传统周期模式挖掘忽略了模式本身的相关性和时效性,导致获取到一些实用价值有限的弱相关且时效性较低的模式。因此,提出了新颖的基于时效性和相关性约束的周期模式挖掘方法(correlation and recency periodic frequent pattern-breadth first search,CRPFP-BFS)和(correlation and recency periodic frequent pattern-depth first search,CRPFP-DFS)。将给定的数据库压缩到一个列式结构的列表CRPFP-List中,CRPFP-BFS和CRPFP-DFS分别采用广度优先和深度优先搜索方式递归地进行挖掘,同时利用支持度、周期、时效性以及相关性剪枝策略减少搜索空间,以有效地发现相关时效周期模式。与当前最先进算法在密集数据集和稀疏数据集上进行对比实验,结果表明CRPFP-BFS和CRPFP-DFS具有较低的内存占用和更高的运行效率,并且具有良好的可扩展性,其中CRPFP-DFS适合于内存要求严格的情况,CRPFP-BFS在长事务稀疏数据集下的运行效率更高。 闫海博 荀亚玲 任姿芊 侯亚飞 胡晓莹关键词:频繁模式挖掘 周期模式 机械制造业原料供应管理信息系统的设计与实现 2007年 制造业面对经济的全球化,对企业管理层提出了更高的要求,构建以计算机网络支撑的信息管理系统就变得愈发迫切。针对太钢机械设备修造公司目前落后的管理方式,以太钢机械修造公司原料供应运营为应用背景,采用ORACLE 9i和VB6.0作为开发工具,设计与实现了机械制造业原料供应管理信息系统。该系统经试运行,安全可靠,大大提高了生产效率。 荀亚玲 蒋义勇关键词:CDM 铁路车辆给风调整阀、操纵阀、波纹阀智能检测系统的设计 2023年 随着交通运输的发展,铁路车辆对于推动社会经济发展以及有效转运货物有着重要意义。铁路车辆的所用阀门会直接影响到制动系统,进而影响行驶列车整体的安全性。针对此种问题,论文提出了一种铁路车辆给风调整阀、操纵阀、波纹阀智能检测系统。主要介绍了系统的结构和工作原理,用下位机PLC与VB编写的软件进行控制和通信,采用专家系统判断数值以及用RBF算法进行设备的故障诊断,该系统可以提升列车的安全性。 王兴 江忠浩 王亦雷 杜辰 荀亚玲关键词:智能检测 专家系统 RBF算法