国家自然科学基金(61005029)
- 作品数:8 被引量:33H指数:4
- 相关作者:毛伟李晓东耿光刚王利明朱田更多>>
- 相关机构:中国科学院中国互联网络信息中心中国科学院大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于布局相似性的网页正文内容提取研究被引量:10
- 2015年
- 合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。
- 杨柳青李晓东耿光刚
- 关键词:网页正文提取信息检索
- 基于机器学习的域名信用评价方法被引量:2
- 2012年
- 针对域名自身的特点和应用特点,建立一种基于机器学习的域名信用评价自动化方法并进行实验分析。实验结果表明,该方法具有较好的正确率,符合人们的一般认识,其评价结果可以作为域名诚信管理体系的参考依据。
- 陈威王利明耿光刚毛伟李晓东
- 关键词:失信域名信用评价
- 基于IPv4向IPv6过渡的IP追溯技术研究被引量:6
- 2011年
- 随着IPv4地址的耗尽及IPv6网络的加速部署,将面临IPv4网络和IPv6网络长期共存的局面。目前学术界和工业界提出了多种IPv4向IPv6过渡的技术,这些过渡技术的复合使用将增加IPv4/IPv6混合网络的复杂性,给安全事件的处理和追溯带来了新的挑战,因此复杂过渡网络环境中的IP追溯问题亟待解决。对IP地址安全管理体系下的IP地址的可追溯性及IP追溯技术的最新研究进展进行了综述,同时对IPv4/IPv6混合网络中的IP追溯问题的可能解决方案进行了深入的探讨和分析,最后阐述了IP追溯技术所面临的新挑战,指出了未来研究的方向。
- 朱田陈涛马迪王利明毛伟
- 关键词:网络地址转换
- 基于包验证的面向IPv6翻译机制的IP追溯方法被引量:3
- 2013年
- IP地址安全一直是互联网面临的核心问题,在IPv6过渡时期,多种IP地址分配方式,IPv6过渡技术和IP欺骗引起的IP地址不确定性向IP地址资源安全提出了挑战。新兴IPv6家庭网络、小企业网、校园网与传统IPv4网络互联互通的IPv6翻译场景是典型的IPv6过渡场景,然而,传统的IP追溯技术无法直接应用于IPv6翻译场景。基于这种现状,提出一种IP追溯方案来解决IPv6翻译场景下的IP追溯问题,该方案打通了IPv6翻译网关,实现了目的网络对源网络的可知性,进而保证了互联网的IP地址资源安全。
- 朱田田野马迪毛伟
- 关键词:IP地址管理IPV6过渡
- 基于机器学习的域名数据监控方法被引量:2
- 2014年
- 域名资源记录被篡改的问题严重危害域名应用。由于该问题具有较强的隐蔽性,亟需一种快速且有效的发现域名危险变化的方法。为此,提出一种基于机器学习算法的域名数据监控方法。在一定数量的域名中选取出资源记录发生变化的域名,通过分析其相关信息生成一个由域名字面特征、正反匹配度等属性组成的元组。以变化是否危险为依据进行类标签人工标记,每个元组和其类标签组成训练集中的一个实例。由分析训练集决策树算法和支持向量机算法建立检测域名系统数据危险变化的分类器。通过十折交叉法验证2个分类器,发现其在域名危险变化判断上具有较强的能力,正确率的加权均值分别达到73.8%和82.4%。
- 刘明星金键李晓东
- 关键词:域名系统决策树支持向量机
- 一种高效的多模式字符串匹配算法被引量:6
- 2014年
- 在Fan-Su(FS)多模式字符串匹配算法基础上,结合BM—Horspool(BMH)算法和QuickSearch(QS)算法的优点,提出一种高效的多模式字符串匹配算法。该算法能够充分利用本次匹配失败和部分匹配成功的信息,一方面增加模式树根节点失配的概率,提高匹配过程中失配时的跳跃距离。另一方面避免不必要的状态转移,实现不匹配时的连续跳转。分析指出,在最好情况和平均情况下,时间复杂度均优于ACBM算法和FS算法。实验结果表明,一般情况下该算法的查找时间仅为AC算法的10%-35%,ACBM算法的50%-60%,FS算法的70%左右,FSQB算法的65%左右。
- 许家铭李晓东金键马盈
- 关键词:字符串匹配多模式匹配算法复杂度网络安全信息检索
- 一种中文域名仿冒攻击的检测方法
- 2013年
- 分析了中文域名的仿冒攻击形式,并且基于字符的点阵特性和贝叶斯分类原理,提出了一种从单个字符的相似性到域名的整体相似性的中文域名仿冒检测方法,并通过常用中文字库的实验对该方法的有效性进行了验证。实验结果表明了该方法可以对常见的中文域名仿冒方式进行准确检测,并且其检测方法在未来可进一步适用于其他国际化域名的仿冒检测。
- 洪博耿光刚王利明毛伟
- 关键词:中文域名网络钓鱼
- 一种基于DNS主动检测钓鱼攻击的系统被引量:4
- 2013年
- 针对中国反钓鱼网站联盟(APAC)的钓鱼举报数据进行分析后,提出了一种利用DNS日志和钓鱼历史数据主动发现钓鱼网页的方法,并开发部署了相关的检测系统每日自动检测和举报活跃的钓鱼网页,其采用的主动发现钓鱼攻击的机制对传统的被动防御的反钓鱼技术是一种良好的提升和补充。该系统目前已经成为中国反钓鱼联盟最主要的钓鱼举报来源之一。
- 洪博耿光刚王利明王伟毛伟
- 关键词:反钓鱼DNS信息检索贝叶斯分类启发式规则