您的位置: 专家智库 > >

国家自然科学基金(60736044)

作品数:36 被引量:390H指数:10
相关作者:李生赵铁军马少平孙乐刘奕群更多>>
相关机构:哈尔滨工业大学清华大学中国科学院软件研究所更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
相关领域:自动化与计算机技术生物学文化科学更多>>

文献类型

  • 36篇期刊文章
  • 19篇会议论文

领域

  • 54篇自动化与计算...
  • 1篇生物学
  • 1篇文化科学

主题

  • 14篇查询
  • 10篇中文
  • 7篇信息处理
  • 7篇用户
  • 7篇中文信息
  • 7篇中文信息处理
  • 6篇信息检索
  • 6篇日志
  • 6篇计算机
  • 6篇计算机应用
  • 5篇文本分类
  • 4篇语言模型
  • 3篇用户行为
  • 3篇上下文
  • 3篇图模型
  • 3篇网络
  • 3篇网页
  • 3篇文档
  • 3篇相似度
  • 3篇相似度计算

机构

  • 27篇哈尔滨工业大...
  • 12篇中国科学院软...
  • 7篇清华大学
  • 4篇黑龙江工程学...
  • 3篇昆明理工大学
  • 3篇中国科学院大...
  • 1篇东北林业大学
  • 1篇北京科技大学
  • 1篇哈尔滨理工大...
  • 1篇东北石油大学
  • 1篇教育部
  • 1篇西北师范大学
  • 1篇中国科学院研...
  • 1篇中讯邮电咨询...
  • 1篇北京图形研究...
  • 1篇搜狐公司
  • 1篇清华信息科学...
  • 1篇微软公司

作者

  • 14篇赵铁军
  • 13篇李生
  • 11篇郑德权
  • 9篇孙乐
  • 8篇李文波
  • 7篇马少平
  • 6篇刘奕群
  • 5篇张敏
  • 5篇刘挺
  • 5篇杨沐昀
  • 5篇张宇
  • 4篇王俞霖
  • 4篇张大鲲
  • 4篇齐浩亮
  • 4篇茹立云
  • 3篇冯元勇
  • 3篇李卫疆
  • 2篇于浩
  • 2篇伍大勇
  • 2篇雷国华

传媒

  • 11篇中文信息学报
  • 4篇哈尔滨工业大...
  • 2篇计算机研究与...
  • 2篇通信学报
  • 2篇电子学报
  • 2篇计算机学报
  • 2篇计算机应用研...
  • 2篇智能计算机与...
  • 1篇黑龙江大学自...
  • 1篇模式识别与人...
  • 1篇计算机工程
  • 1篇江西师范大学...
  • 1篇高技术通讯
  • 1篇Journa...
  • 1篇山东大学学报...
  • 1篇Journa...
  • 1篇智能系统学报
  • 1篇第四届全国信...
  • 1篇第六届全国信...
  • 1篇第五届全国信...

年份

  • 1篇2013
  • 5篇2012
  • 7篇2011
  • 11篇2010
  • 11篇2009
  • 18篇2008
  • 2篇2007
36 条 记 录,以下是 1-10
排序方式:
面向信息检索的近邻语言模型被引量:2
2011年
面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此将文档的近邻信息加入语言模型的平滑算法中,提出近邻语言模型。该文在TREC评测的典型文档集美国能源署文件(DOE)和《华尔街日报》(WSJ)数据集上测试了在不同近邻选择来源上近邻语言模型的性能。实验结果表明,近邻语言模型对检索性能有一定的提升。
韩中元李生齐浩亮杨沐昀
关键词:信息检索语言模型
开放域问答技术研究进展被引量:18
2009年
问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足.最后,对问答技术未来的研究趋势进行了分析与展望.
张志昌张宇刘挺李生
关键词:答案抽取
Mining Synonymous Entities using Search Engine Query Logs
Opinion analysis based web text is becoming one of the research hotspots now.The object of opinion analysis is...
Zhichao LI Min ZHANG Shaoping MA~+ State Key Laboratory of Intelligent Technology and Systems,Tsinghua National Laboratory for Information Science and Technology,Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China
文献传递
中文交互式问答用户问题相关检测研究被引量:3
2010年
交互式问答是具备处理系列相关问题以及与用户进行对话式交互的问答技术,是近年来国际上问答技术研究的一个热门方向,但是目前在中文问答领域几乎没有开展相关的研究。实现交互式问答系统首先要判别用户系列问题之间的相关性。该文探讨了提取问题中不同特征对中文交互式问答问题相关检测的作用,并且根据识别出的有效特征采用基于二元分类方法分别对翻译成中文的TREC QA问题集语料和真实的交互式问答语料进行问题相关检测实验,实验结果显示该文的方法获得了较好的问题相关检测效果。
伍大勇张宇刘挺
关键词:计算机应用中文信息处理
Web数据反馈的搭配抽取方法
2010年
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.
林建方牛成李生郑德权
关键词:搭配互信息卡方检验语料库WEB
信息检索结果多样化探索被引量:3
2012年
研究了信息检索结果多样化的方法。首先实现了经典的检索结果重排序最大边缘相关(MMR)算法,进而设计了三种基于查询日志的子查询构造方法:单字向后扩展,双字向后扩展和双向子串扩展,并最终探讨了将这三种子查询构造方法分别与最大边缘相关算法相结合的使用策略。实验表明,采用上述方法实现的系统能明显提高信息检索结果的多样性。
张语晨杨沐昀
关键词:子查询信息检索
基于Labeled-LDA模型的文本分类新算法被引量:110
2008年
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%.
李文波孙乐张大鲲
关键词:文本分类图模型
面向浏览推荐的网页关键词提取被引量:4
2012年
在网页浏览推荐任务中,如何利用网页内容选取合适的推荐关键词是具有挑战性的研究热点.为了实现有效的关键词推荐方法,利用大规模的真实网络用户浏览行为数据,以及相关提取算法和新词发现算法实现并比较了基于领域关键词提取技术和基于查询词候选集合的关键词推荐方法.实验结果证明,2种方法都能够有效地表征用户信息需求,而第1种推荐方法的准确率更高,具有更好的推荐性能.
闫兴龙刘奕群马少平张敏茹立云
关键词:关键词提取网页关键词
融合多类特征的Web查询意图识别被引量:11
2012年
识别搜索引擎用户的查询意图在信息检索领域是备受关注的研究内容.文中提出一种融合多类特征识别Web查询意图的方法.将Web查询意图识别作为一个分类问题,并从不同类型的资源包括查询文本、搜索引擎返回内容及Web查询日志中抽取出有效的分类特征.在人工标注的真实Web查询语料上采用文中方法进行查询意图识别实验,实验结果显示文中采用的各类特征对于提高查询意图识别的效果皆有一定帮助,综合使用这些特征进行查询意图识别,88.5%的测试查询获得准确的意图识别结果.
伍大勇赵世奇刘挺张宇
关键词:搜索引擎查询意图
基于上下文的查询扩展被引量:34
2010年
针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率.
李卫疆赵铁军王宪刚
关键词:信息检索查询扩展上下文语言模型
共6页<123456>
聚类工具0