您的位置: 专家智库 > >

郭力

作品数:2 被引量:23H指数:2
供职机构:华南理工大学计算机科学与工程学院更多>>
发文基金:广东省科技计划工业攻关项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇引擎
  • 1篇用户
  • 1篇用户行为
  • 1篇用户行为分析
  • 1篇知识库
  • 1篇知网
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇索引
  • 1篇爬虫
  • 1篇抓取
  • 1篇网络
  • 1篇网络爬虫
  • 1篇网页
  • 1篇网页分类
  • 1篇领域知识
  • 1篇领域知识库
  • 1篇海量
  • 1篇海量数据
  • 1篇分布式

机构

  • 2篇华南理工大学

作者

  • 2篇王振宇
  • 2篇郭力
  • 1篇唐远华

传媒

  • 2篇计算机工程与...

年份

  • 1篇2012
  • 1篇2011
2 条 记 录,以下是 1-2
排序方式:
面向分层结构的网页分类与抓取被引量:2
2012年
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。
王振宇唐远华郭力
关键词:网络爬虫网页分类领域知识库知网
基于Hadoop的搜索引擎用户行为分析被引量:21
2011年
搜索引擎用户行为分析是网络信息检索技术的研究热点。通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来。本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式文件系统HDFS与MapReduce并行计算模型提高系统扩展性和易编程性,并应用该模型分析了Sogou搜索引擎一个月内约2 200万条查询日志,分析结果对于掌握用户搜索行为,评测及改进搜索引擎检索、排序算法等均有较好的指导意义。
王振宇郭力
关键词:HADOOP分布式计算用户行为分析海量数据
共1页<1>
聚类工具0