项锟
- 作品数:8 被引量:21H指数:2
- 供职机构:北京大学信息科学技术学院计算语言学研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 词性标注对信息检索系统性能的影响
- 在信息检索中引入NLP 技术是信息检索发展的主要趋势,本文将NLP 中较为成熟的词性标注技术加入信息检索,采用大规模TREC 数据集,试图发现词性标注对信息检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不...
- 苏祺昝红英胡景贺项锟
- 关键词:信息检索向量空间模型词性标注SMART
- 文献传递
- 检索主题难易度预测
- TREC2004 Robust任务有一项新要求,就是要把检索主题按照从易到难的顺序排列.针对新要求,该文提出了基于单词歧义性大小的检索主题难易度模型.根据WordNet和它附带的Brown语料库构造了单词义项分布词典,然...
- 吕学强赖治国昝红英项锟
- 关键词:信息检索文本检索
- 文献传递
- 基于链接聚类的Shark-Search算法
- 根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
- 苏祺项锟孙斌
- 关键词:链接聚类
- 文献传递
- 基于链接聚类的Shark-Search算法被引量:10
- 2006年
- 根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
- 苏祺项锟孙斌
- 关键词:链接聚类
- 用户兴趣引导下的网页收集研究
- 随着Internet的普及,搜索引擎成为人们在网络上获取信息的重要方式。但通用搜索引擎无法针对用户兴趣进行个性化的定制。本文提出了用户兴趣引导下的网页收集和服务方式,在网页收集中根据用户兴趣作为网页评分和URL调度的依据...
- 项锟
- 关键词:搜索引擎主题搜索
- 文献传递
- 词性标注对信息检索系统性能的影响
- 在信息检索中引入NLP技术是信息检索发展的主要趋势,本文将NLP中较为成熟的词性标注技术加入信息检索,采用大规模TREC数据集,试图发现词性标注对信息检索系统性能的影响.笔者在SMART检索系统上使用不同标注集、不同索引...
- 苏祺昝红英胡景贺项锟
- 关键词:信息检索向量空间模型词性标注SMART
- 文献传递
- 检索主题难易度预测
- TREC2004 Robust 任务有一项新要求,就是要把检索主题按照从易到难的顺序排列.针对新要求,该文提出了基于单词歧义性大小的检索主题难易度模型.根据WordNet 和它附带的Brown 语料库构造了单词义项分布词...
- 吕学强赖治国昝红英项锟
- 关键词:信息检索
- 文献传递
- 词性标注对信息检索系统性能的影响被引量:11
- 2005年
- 在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明 ,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进 ,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic和Document中的具体用词 ,普遍规律有待进一步研究。
- 苏祺昝红英胡景贺项锟
- 关键词:自然语言处理信息检索向量空间模型词性标注SMART