郭力
- 作品数:2 被引量:23H指数:2
- 供职机构:华南理工大学计算机科学与工程学院更多>>
- 发文基金:广东省科技计划工业攻关项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向分层结构的网页分类与抓取被引量:2
- 2012年
- 传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。
- 王振宇唐远华郭力
- 关键词:网络爬虫网页分类领域知识库知网
- 基于Hadoop的搜索引擎用户行为分析被引量:21
- 2011年
- 搜索引擎用户行为分析是网络信息检索技术的研究热点。通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来。本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式文件系统HDFS与MapReduce并行计算模型提高系统扩展性和易编程性,并应用该模型分析了Sogou搜索引擎一个月内约2 200万条查询日志,分析结果对于掌握用户搜索行为,评测及改进搜索引擎检索、排序算法等均有较好的指导意义。
- 王振宇郭力
- 关键词:HADOOP分布式计算用户行为分析海量数据