教育部“新世纪优秀人才支持计划”(1155-ncet-008)
- 作品数:6 被引量:73H指数:4
- 相关作者:孙广路朱素霞郎非刘金来宋智超更多>>
- 相关机构:哈尔滨理工大学清华大学黑龙江工程学院更多>>
- 发文基金:教育部“新世纪优秀人才支持计划”国家自然科学基金黑龙江省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于在线排序逻辑回归的垃圾邮件过滤被引量:11
- 2013年
- 垃圾邮件过滤是网络信息处理中的重要问题,基于机器学习方法的垃圾邮件过滤技术是目前的研究热点。现有研究一般将过滤问题视为二值分类问题进行解决,存在着模型优化目标和性能评价指标1-AUC不一致的问题,导致模型优化结果产生偏差,过滤性能受到很大影响。该文通过直接优化评价指标1-AUC来提升过滤器性能,将垃圾邮件过滤问题转化成排序问题进行建模,提出了在线排序逻辑回归学习算法,解决了在线学习中的邮件得分偏移问题;综合应用TONE算法和重采样技术,提出参数权重更新算法,解决模型学习中在线调整模型参数时的处理速度问题,满足垃圾邮件实时过滤的要求。在垃圾邮件过滤公开评测数据集上的实验结果表明,基于在线排序逻辑回归模型的过滤结果全面优于在线逻辑回归模型的过滤结果。
- 孙广路齐浩亮
- 关键词:垃圾邮件
- 基于混合方法的流量测量系统(英文)被引量:5
- 2011年
- 流量测量是流量控制和管理中的关键问题。传统方法对于当今网络中大量出现的具备动态端口、加密载荷信息或未知协议载荷特征等特点的流量无法进行有效地测量。虽然基于机器学习模型的测量方法能够在一定程度上解决上述问题,但是由于现有特征的区分能力有限,该类方法单独使用时,难以在大规模的真实网络流量中准确地测量出某种特定协议的流量。为了解决流量测量问题,提出了基于混合方法的流量测量系统,融合了基于端口、基于特征串匹配、基于正则表达式匹配和基于机器学习模型的多种流量测量方法。在构建系统框架和相关模块的基础上,应用一种混合方法解决了基于安全套接层协议的流量测量和应用层协议分析问题。实验结果表明,该混合方法能够测量出超过99%的基于安全套接层协议的流量,并有效地分析其中不同应用层协议的流量,准确率达到93.76%。此外,在稳定而可行的内存占用率下,系统能够良好运行,总体测量结果优于开源软件OpenDPI的结果。
- 孙广路郎非杨明明
- 关键词:机器学习模型
- 基于数据挖掘的网络加密流量分类研究
- 随着互联网的高速发展,网络通信数据保护需求的不断提高,各种各样的加密需求日新月异。虽然,加密技术可以提供隐藏身份保障数据安全,但也使出于网络安全管理的网络数据包检测变得较之前更加困难。关于这项问题已有许多的研究,并且提出...
- 苏阳阳
- 关键词:特征提取数据挖掘
- 文献传递
- 基于最大信息系数和近似马尔科夫毯的特征选择方法被引量:49
- 2017年
- 最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与Relief F,FAST,Lasso和RFS方法相比也具有优势.
- 孙广路宋智超刘金来朱素霞何勇军
- 基于XGBoost的SSH流量识别研究
- 随着人们在网络通信中对隐私的重视,网络流量加密正在成为一种保护隐私和通信安全的常用手段。但是,网络流量加密也给网络流量识别和异常流量检测带来很大的难题。SSH(Secure Shell)协议是目前使用比较广泛的应用层安全...
- 李旭航
- 关键词:通信网络SSH协议
- 文献传递
- 基于聚类和流量传播图的P2P流量识别方法被引量:3
- 2019年
- 为有效监管网络,快速精确识别P2P流量,通过分析P2P网络流量中节点与节点、节点与链路之间的交互和行为特征,将聚类方法与流量传播图方法相结合,提出了一种基于网络行为特征的P2P流量识别方法。该方法首先通过采集网络流的包级和流级统计特征对不同种类的网络应用的流量进行聚类,然后利用流量传播图对P2P流量进行识别。实验结果表明,提出的方法在骨干网络数据上能够有效识别P2P网络应用流量,F 1-measure达到95%以上。
- 苏阳阳孙冬璞李丹丹孙广路
- 关键词:P2P流量识别
- 基于深度学习方法的视频问答研究
- 给定一个短视频和一个自然语言描述的问题,视频问答系统需要在理解视频内容和问题的基础上,给出问题的答案。近年来视频问答任务受到计算机视觉和自然语言处理领域研究人员的重点关注,注意力机制方法是研究视频问答的一种重要方法。然而...
- 梁丽丽
- 文献传递
- 基于条件随机域和语义类的中文组块分析方法被引量:5
- 2011年
- 为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中文组块分析性能,实验进一步还表明了特征模板的选取和训练语料的规模对于分析性能的影响.
- 孙广路郎非薛一波
- 关键词:条件随机域语义词典
- 基于RIPPER的网络流量分类方法被引量:1
- 2017年
- 利用一种规则学习方法中的重复增量式降低错误剪枝方法解决网络流量分类问题。利用该方法能够挖掘出网络流属性特征和类别之间的相关关系,并将挖掘出的关系构成分类器用于网络流量分类。该方法能够解决传统机器学习方法在网络流量中有大量的不平衡数据集时,分类错误率高等问题。实验证明,该方法在网络流量分类标准数据集上具有很高的分类准确率、查全率和查准率。
- 曹彦珍何云斌朱素霞孙广路
- 关键词:网络流量分类不平衡数据