国家自然科学基金(60736044) 作品数:36 被引量:390 H指数:10 相关作者: 李生 赵铁军 马少平 孙乐 刘奕群 更多>> 相关机构: 哈尔滨工业大学 清华大学 中国科学院软件研究所 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 生物学 文化科学 更多>>
面向信息检索的近邻语言模型 被引量:2 2011年 面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此将文档的近邻信息加入语言模型的平滑算法中,提出近邻语言模型。该文在TREC评测的典型文档集美国能源署文件(DOE)和《华尔街日报》(WSJ)数据集上测试了在不同近邻选择来源上近邻语言模型的性能。实验结果表明,近邻语言模型对检索性能有一定的提升。 韩中元 李生 齐浩亮 杨沐昀关键词:信息检索 语言模型 开放域问答技术研究进展 被引量:18 2009年 问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足.最后,对问答技术未来的研究趋势进行了分析与展望. 张志昌 张宇 刘挺 李生关键词:答案抽取 Mining Synonymous Entities using Search Engine Query Logs Opinion analysis based web text is becoming one of the research hotspots now.The object of opinion analysis is... Zhichao LI Min ZHANG Shaoping MA~+ State Key Laboratory of Intelligent Technology and Systems,Tsinghua National Laboratory for Information Science and Technology,Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China文献传递 中文交互式问答用户问题相关检测研究 被引量:3 2010年 交互式问答是具备处理系列相关问题以及与用户进行对话式交互的问答技术,是近年来国际上问答技术研究的一个热门方向,但是目前在中文问答领域几乎没有开展相关的研究。实现交互式问答系统首先要判别用户系列问题之间的相关性。该文探讨了提取问题中不同特征对中文交互式问答问题相关检测的作用,并且根据识别出的有效特征采用基于二元分类方法分别对翻译成中文的TREC QA问题集语料和真实的交互式问答语料进行问题相关检测实验,实验结果显示该文的方法获得了较好的问题相关检测效果。 伍大勇 张宇 刘挺关键词:计算机应用 中文信息处理 Web数据反馈的搭配抽取方法 2010年 为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性. 林建方 牛成 李生 郑德权关键词:搭配 互信息 卡方检验 语料库 WEB 信息检索结果多样化探索 被引量:3 2012年 研究了信息检索结果多样化的方法。首先实现了经典的检索结果重排序最大边缘相关(MMR)算法,进而设计了三种基于查询日志的子查询构造方法:单字向后扩展,双字向后扩展和双向子串扩展,并最终探讨了将这三种子查询构造方法分别与最大边缘相关算法相结合的使用策略。实验表明,采用上述方法实现的系统能明显提高信息检索结果的多样性。 张语晨 杨沐昀关键词:子查询 信息检索 基于Labeled-LDA模型的文本分类新算法 被引量:110 2008年 LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%. 李文波 孙乐 张大鲲关键词:文本分类 图模型 面向浏览推荐的网页关键词提取 被引量:4 2012年 在网页浏览推荐任务中,如何利用网页内容选取合适的推荐关键词是具有挑战性的研究热点.为了实现有效的关键词推荐方法,利用大规模的真实网络用户浏览行为数据,以及相关提取算法和新词发现算法实现并比较了基于领域关键词提取技术和基于查询词候选集合的关键词推荐方法.实验结果证明,2种方法都能够有效地表征用户信息需求,而第1种推荐方法的准确率更高,具有更好的推荐性能. 闫兴龙 刘奕群 马少平 张敏 茹立云关键词:关键词提取 网页关键词 融合多类特征的Web查询意图识别 被引量:11 2012年 识别搜索引擎用户的查询意图在信息检索领域是备受关注的研究内容.文中提出一种融合多类特征识别Web查询意图的方法.将Web查询意图识别作为一个分类问题,并从不同类型的资源包括查询文本、搜索引擎返回内容及Web查询日志中抽取出有效的分类特征.在人工标注的真实Web查询语料上采用文中方法进行查询意图识别实验,实验结果显示文中采用的各类特征对于提高查询意图识别的效果皆有一定帮助,综合使用这些特征进行查询意图识别,88.5%的测试查询获得准确的意图识别结果. 伍大勇 赵世奇 刘挺 张宇关键词:搜索引擎 查询意图 基于上下文的查询扩展 被引量:34 2010年 针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率. 李卫疆 赵铁军 王宪刚关键词:信息检索 查询扩展 上下文 语言模型