您的位置: 专家智库 > >

北京市教委科技发展计划(KZ201311232037)

作品数:66 被引量:307H指数:9
相关作者:吕学强李卓徐丽萍李红莲施水才更多>>
相关机构:北京信息科技大学北京城市系统工程研究中心北京拓尔思信息技术股份有限公司更多>>
发文基金:北京市教委科技发展计划国家自然科学基金北京市重点实验室开放基金更多>>
相关领域:自动化与计算机技术文化科学机械工程更多>>

文献类型

  • 66篇期刊文章
  • 1篇会议论文

领域

  • 65篇自动化与计算...
  • 2篇文化科学
  • 1篇机械工程

主题

  • 12篇抽取
  • 8篇日志
  • 8篇搜索
  • 7篇图像
  • 7篇中文
  • 7篇向量
  • 7篇本体
  • 6篇搜索日志
  • 6篇聚类
  • 6篇查询
  • 5篇术语抽取
  • 5篇随机场
  • 5篇自动识别
  • 4篇支持向量
  • 4篇支持向量机
  • 4篇条件随机场
  • 4篇向量机
  • 4篇句法
  • 4篇句法分析
  • 3篇用户

机构

  • 67篇北京信息科技...
  • 15篇北京城市系统...
  • 11篇北京拓尔思信...
  • 4篇北京理工大学
  • 2篇公安部第一研...
  • 2篇北华航天工业...
  • 2篇北京大学
  • 2篇中国标准化研...
  • 1篇清华大学
  • 1篇北京市新技术...
  • 1篇清华信息科学...

作者

  • 67篇吕学强
  • 28篇李卓
  • 11篇徐丽萍
  • 6篇李红莲
  • 5篇张丹
  • 5篇施水才
  • 5篇刘克会
  • 4篇张雷瀚
  • 4篇郭跇秀
  • 4篇杜思奇
  • 3篇肖诗斌
  • 3篇方乃伟
  • 3篇李军锋
  • 3篇胡菊香
  • 3篇孙建旺
  • 2篇吴瑞红
  • 2篇周长胜
  • 2篇刘秀磊
  • 2篇贺刚
  • 2篇李涵

传媒

  • 16篇现代图书情报...
  • 8篇计算机工程与...
  • 7篇计算机应用与...
  • 5篇中文信息学报
  • 4篇微电子学与计...
  • 4篇计算机应用
  • 4篇小型微型计算...
  • 3篇科学技术与工...
  • 2篇华中科技大学...
  • 2篇情报学报
  • 2篇山东大学学报...
  • 1篇图书情报工作
  • 1篇北京大学学报...
  • 1篇情报杂志
  • 1篇计算机应用研...
  • 1篇情报理论与实...
  • 1篇计算机工程与...
  • 1篇吉林大学学报...
  • 1篇中国图象图形...
  • 1篇北京信息科技...

年份

  • 1篇2017
  • 14篇2016
  • 23篇2015
  • 20篇2014
  • 9篇2013
66 条 记 录,以下是 1-10
排序方式:
基于语义与最大匹配度的短文本分类研究被引量:18
2013年
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。
孙建旺吕学强张雷瀚
关键词:词语相似度KNN算法
问答社区问句中多字词表达提取
2014年
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.
吴瑞红吕学强李卓舒燕
关键词:互信息搜索引擎
基于语篇分析难度的汉语树库构建方法研究
汉语树库是一种特殊的语言数据库,它的构建目的是使计算机学习人类语言的表达方式,最终达到使计算机理解人类语言。因此语言数据库的设计、标注和收集是一项重要的工作。基于汉语树库的建设,提出了一种利用语篇分析难度来选取篇章的方法...
杜思奇李红莲周强吕学强刘殷
文献传递
专利技术功效短语获取研究被引量:12
2016年
在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。
胡菊香吕学强刘秀磊刘克会
基于加权距离的机械设计图像异步检索方法被引量:5
2013年
根据机械设计图像的形状特征,提出一种利用加权距离实现的多特征异步检索方法。首先利用机械设计图像的外接圆距离特征进行初步检索,再结合初步检索结果集的位置计算输入图像和初步检索结果集的加权Hu不变矩特征距离,并据此获得最终的检索结果。实验表明,与单一特征的检索方法相比,该方法在机械设计图像检索中有更高的查准率和查全率。
方乃伟吕学强张丹王弘蔚
关键词:HU不变矩加权距离
基于词典与机器学习的中文微博情感分析研究被引量:50
2014年
随着Web2.0时代的兴起,与微博相关的研究得到学术界和工业界的广泛关注。选取微博文本中的动词和形容词作为特征;提出基于层次结构的特征降维方法;采用设计的基于表情符号的方法计算特征极性值;在此基础上,提出基于特征极性值的位置权重计算方法,借助SVM作为机器学习模型将微博文本分为正面、负面和中性三类。实验结果表明,提出的方法能够比较有效地对中文微博文本进行情感分类。
孙建旺吕学强张雷瀚
关键词:表情符号情感分类
汉语概念复合块的自动分析被引量:1
2016年
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于"移进-归约"模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。
仵永栩吕学强周强关晓炟
关键词:句法分析
基于有向图模型的多模态新闻图像检索研究被引量:4
2016年
不同模态特征描述网络新闻数据各具优势。为充分利用不同模态特征的优点,提高网络新闻图像检索准确率,提出了一种基于有向图理论模型的多模态特征融合检索方法。首先对新闻图像进行预处理,提升新闻图像兴趣点对比度,之后对新闻文本提取关键词,然后对新闻图像进行场景辨别,结合图像人物特征,将文本、场景、人物特征依据有向图理论模型进行融合,形成基于有向图理论模型的多模态融合检索。在10万条新闻数据上测试,实验结果表明,本文提出的方法检索准确率达到了69%,查全率达到70%,效果提升了5%。
相子喜吕学强张凯
关键词:多模态有向图模型新闻图像语义相似度
扩展搜索日志上下文的新词识别
2014年
【目的】大规模搜集、整理新词扩充现有词典,提高汉语分词准确率,推动中文信息处理的发展。【方法】根据搜索日志查询串特征及新词特点,提出扩展搜索日志上下文的新词识别方法。首先,通过分析查询串的特点获取种子词集合,利用种子词集在搜索日志中进行全文扩展,提取候选新词。其次,根据新词的时间属性发现新词串,最后基于词语的边界信息,提出改进左右熵方法抽取语料中存在的新词语。【结果】在搜狗日志上进行实验,P@100的平均准确率达到89.60%。【局限】对比词串集合的规模会在一定程度上影响新词的正确率。【结论】实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别。
李雪伟吕学强刘克会
关键词:搜索日志新词
微博城市投诉文本中的地理位置实体识别被引量:2
2016年
微博投诉文本中地理位置实体通常存在结构复杂,长度较长,描述较详细的特点。通过对投诉微博文本的分析,提出了地理位置实体自动识别的方法。该方法首先利用特征资源库对微博进行特征标注,使用条件随机场(conditional random fields,CRF)模型识别地理位置实体。其次根据微博和地理位置实体的特点,对CRF识别后的数据进行二次标注。最后利用微博规则库对识别结果进行补召,修正地理位置实体,最终实现地理位置实体的识别。实验结果表明该方法有显著效果,F值可达到85.52%。
孙赫孙赫李淑琴吕学强
关键词:CRF
共7页<1234567>
聚类工具0