陈俊伊
- 作品数:3 被引量:6H指数:1
- 供职机构:北京信息科技大学计算机学院更多>>
- 发文基金:国家自然科学基金北京市重点实验室开放基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 搜索服务中基于云计算的垃圾网页识别研究
- 2012年
- 为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较高,处理时间随着集群节点数的增加而明显减少.
- 李艳平徐雅斌陈俊伊
- 关键词:搜索服务云计算HADOOPMAPREDUCE
- 基于改进K最近邻分类算法的不良网页并行识别
- 互联网中,黄色、暴力、赌博、反动等不良网页大量存在.如果不进行有效过滤,将给搜索服务带来不良的影响.采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进...
- 徐雅斌李卓陈俊伊
- 关键词:不良网页目标识别并行处理
- 文献传递
- 基于改进K最近邻分类算法的不良网页并行识别被引量:6
- 2013年
- 互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处理。对比实验结果表明,所采用的识别方法的识别准确率和识别效率都有较大的提高。
- 徐雅斌李卓陈俊伊
- 关键词:不良网页文本分类HADOOPMAPREDUCE