张家口市科技局科技攻关项目(0921047B)
- 作品数:2 被引量:6H指数:1
- 相关作者:杜华张敏更多>>
- 相关机构:河北北方学院更多>>
- 发文基金:张家口市科技局科技攻关项目更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- Nutch中文分词的设计与实现被引量:1
- 2010年
- 面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.
- 张敏杜华
- 关键词:搜索引擎中文分词NUTCH
- 垂直搜索引擎系统的设计与实现被引量:5
- 2011年
- 面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。
- 张敏杜华
- 关键词:垂直搜索引擎中文分词文本分类主题相关度NUTCH