徐澄
- 作品数:3 被引量:13H指数:2
- 供职机构:重庆交通大学管理学院更多>>
- 发文基金:重庆市科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于统计学特征和DOM树的网页去噪技术被引量:2
- 2011年
- 针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。
- 何友全徐澄徐小乐唐华姣
- 关键词:DOM信息检索
- 搜索引擎用户接口设计被引量:2
- 2010年
- 介绍了搜索引擎中用户界面的实现技术,包括抓取网页、索引和检索。在此基础上,应用Ajax技术实现用户接口的设计,利用Lucene技术,在建立好的索引库中检索出用户感兴趣的网页,并给出设计过程中部分关键代码。
- 何友全徐小乐徐澄栾红玉唐华姣
- 关键词:搜索引擎中文分词技术LUCENE用户界面AJAX技术
- 基于Lucene的分布式并行索引被引量:9
- 2011年
- 索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。
- 唐华姣何友全徐小乐徐澄
- 关键词:索引技术LUCENE搜索引擎