北京市自然科学基金(4142042)
- 作品数:12 被引量:117H指数:5
- 相关作者:王志海原继东韩萌孙艳歌黄丹更多>>
- 相关机构:北京交通大学北方民族大学信阳师范学院更多>>
- 发文基金:北京市自然科学基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据流滑动窗口方式下的自适应集成分类算法被引量:4
- 2016年
- 针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.
- 孙艳歌王志海原继东韩萌
- 关键词:数据挖掘数据流概念漂移集成分类器
- 基于迭代加权线性模型的网络回归算法被引量:1
- 2014年
- 传统的机器学习算法难以有效处理具有自相关性的网络数据,而已有的网络学习算法多为分类算法,回归算法较少。为解决网络数据中的回归预测问题,考虑数据实例间的自相关性,提出一种迭代加权线性回归算法(IWR)。该算法采用迭代分类算法的集体学习框架,每步迭代中将待预测实例逐个输入局部回归模型以更新目标属性值,直至达到既定目标。在空间网络和社会网络的数据集合上进行实验,结果表明,与传统回归算法及NCLUS算法相比,IWR算法可以有效减小预测误差。
- 张培倩王志海
- 关键词:网络数据迭代
- 时间序列的表示与分类算法综述被引量:54
- 2015年
- 时间序列是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内,依照给定的采样率,对某种潜在过程进行观测的结果。时间序列数据广泛地存在于商业、农业、气象、生物科学以及生态学等诸多领域,从时间序列中发现有用的知识已成为数据挖掘领域的研究热点之一。在时间序列表示方面,主要介绍了非数据适应性表示方法、数据适应性表示方法和基于模型的表示方法;针对时间序列的分类方法,着重介绍了基于时域相似性、形状相似性和变化相似性的分类算法,并对未来的研究方向进行了进一步的展望。
- 原继东王志海
- 关键词:时间序列
- 基于图的概念重现发现与预测被引量:1
- 2017年
- 概念漂移是数据流挖掘中具有挑战性的问题.当概念漂移发生后,原有分类模型的分类正确率会显著下降,因此需要及时发现并调整模型以适应这些改变.概念重现是概念漂移的特殊情况,然而已有的算法大多未能充分考虑这种状况.为此,提出一种能够处理重现的概念检测方法.试验结果表明,该方法能够以较低的延迟和较低的误报率检测到概念漂移,并且可以识别重现的概念,很大程度上提升了分类器的分类正确率.
- 白洋王志海孙艳歌
- 关键词:数据流数据挖掘概念漂移
- 基于评分矩阵局部低秩假设的成列协同排名算法被引量:10
- 2015年
- 协同过滤方法是当今大多数推荐系统的核心.传统的协同过滤方法专注于评分预测的准确性,然而实际推荐系统的推荐结果往往是项目的排序.针对这一问题,将排名学习领域的知识引入推荐算法,设计了一种基于评分矩阵局部低秩假设的成列协同排名算法.选择直接使用计算复杂度较低的成列损失函数来优化矩阵分解模型,并通过实验验证了其在运算速度上的显著提升.在3个实际推荐系统数据集上,与当下主流推荐算法的比较实验结果表明,该算法具有良好的性能.
- 刘海洋王志海黄丹孙艳歌
- 关键词:推荐系统协同过滤
- 基于高斯函数的衰减因子设置方法研究被引量:4
- 2015年
- 数据流是随着时间顺序快速变化的和连续的,其包含的知识会随着时间的改变而不同.在一些数据流应用中,通常认为最新的数据具有最大的价值.因此,会采用时间衰减模型来挖掘数据流中的频繁模式.已有的衰减因子设计方式通常具有随机性,使得到的结果集具有不稳定性;或仅考虑算法的高查全率或查准率,而忽略了算法对应的高查准率或查全率.为了平衡算法的高查全率和高查准率同时保证结果集的稳定性,设计了均值衰减因子设置方式.为了更进一步地增加最新事务的权重、减少历史事务的权重,设计了采用高斯函数设置高斯衰减因子的方式.为了比较不同衰减因子设计方式的优劣,研究并设计了4种方式的时间衰减模型,并采用这4种模型挖掘数据流闭合频繁模式.通过对高密度和低密度数据流分别进行频繁挖掘的实验结果分析可以得出,采用均值衰减因子设置方式可以平衡高查全率和高查准率;采用高斯衰减因子设置方式与其他方法相比,可以得到更优的算法性能.
- 韩萌王志海原继东
- 关键词:高斯函数查全率查准率频繁模式挖掘数据流挖掘
- 一种基于数据流模式表示的半懒惰式分类算法
- 2017年
- 依据从大规模数据中抽取的模式来建立分类模型是模式挖掘的重要研究问题之一。一种可行的方法是根据模式集合建立贝叶斯分类模型。然而,目前基于模式的贝叶斯分类模型大多是针对静态数据集合的,通常不能适应于高速动态变化与无限的数据流环境。对此,提出一种数据流环境下基于模式发现的贝叶斯分类学习模型,其采用半懒惰式学习策略,针对分类实例在不断更新的频繁项集合上建立局部的分类模型;为加快流数据处理的速度,提出了结构更为简单的混合树结构,同时提出了给定项限制的模式抽取机制以减少候选项集的生成;对数据流中模式抽取不完全的情况,使用平滑技术处理未被抽取的项。大量实验分析证明,相较于其他数据流分类器,所提模型具有更高的分类正确率。
- 江晶晶王志海原继东
- 关键词:数据流贝叶斯
- 基于机器学习的恶意代码特征提取与分类的研究
- 在当前复杂网络环境下,恶意代码通过各种方式快速传播、非法入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络安全和信息安全造成了严重的威胁。几十年来,恶意代码的检测一直受到研究人员和安全厂商的关注。为了更准确地检测出...
- 刘亚姝
- 关键词:恶意代码特征提取
- 基于Shapelet剪枝和覆盖的时间序列分类算法被引量:17
- 2015年
- 时间序列shapelets是时间序列中能够最大限度地表示一个类别的子序列.解决时间序列分类问题的有效途径之一是通过shapelets转换技术,将shapelets的发现与分类器的构建相分离,其主要优点是优化了shapelets的选择过程,并能够灵活应用不同的分类策略.但该方法也存在不足:一是在shapelets转换时,用于产生最好分类结果的shapelets数量是很难确定的;二是被选择的shapelets之间往往存在着较大的相似性.针对这两个问题,首先提出了一种简单有效的shapelet剪枝技术,用于过滤掉相似的shapelets;其次,提出了一种基于shapelets覆盖的方法来确定用于数据转换的shapelets的数量.通过在多个数据集上的测试实验,表明了所提出的算法具有更高的分类准确率.
- 原继东王志海韩萌
- 基于增量式决策树的时间序列分类算法研究被引量:1
- 2015年
- 数据挖掘技术已经应用到很多研究领域中,数据挖掘的类型也越来越复杂。其中一类数据本身是有顺序相关的,且是实值型数据,定义具有这样特征的数据为时间序列数据,使用常见的数据挖掘方法从时间序列数据中进行知识学习是不适用的。并且随着大数据理论的不断发展,能够增量式地处理数据以减小对时间和存储空间的需求。基于时间序列数据维度高、实值有序、数据间存在自相关性等特点,提出一种增量式决策树的时间序列分类算法。
- 王树英王志海
- 关键词:时间序列增量式学习决策树