北京市教委科技发展计划(KZ201311232037) 作品数:66 被引量:307 H指数:9 相关作者: 吕学强 李卓 徐丽萍 李红莲 施水才 更多>> 相关机构: 北京信息科技大学 北京城市系统工程研究中心 北京拓尔思信息技术股份有限公司 更多>> 发文基金: 北京市教委科技发展计划 国家自然科学基金 北京市重点实验室开放基金 更多>> 相关领域: 自动化与计算机技术 文化科学 机械工程 更多>>
基于语义与最大匹配度的短文本分类研究 被引量:18 2013年 为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。 孙建旺 吕学强 张雷瀚关键词:词语相似度 KNN算法 问答社区问句中多字词表达提取 2014年 基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性. 吴瑞红 吕学强 李卓 舒燕关键词:互信息 搜索引擎 基于语篇分析难度的汉语树库构建方法研究 汉语树库是一种特殊的语言数据库,它的构建目的是使计算机学习人类语言的表达方式,最终达到使计算机理解人类语言。因此语言数据库的设计、标注和收集是一项重要的工作。基于汉语树库的建设,提出了一种利用语篇分析难度来选取篇章的方法... 杜思奇 李红莲 周强 吕学强 刘殷文献传递 专利技术功效短语获取研究 被引量:12 2016年 在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。 胡菊香 吕学强 刘秀磊 刘克会基于加权距离的机械设计图像异步检索方法 被引量:5 2013年 根据机械设计图像的形状特征,提出一种利用加权距离实现的多特征异步检索方法。首先利用机械设计图像的外接圆距离特征进行初步检索,再结合初步检索结果集的位置计算输入图像和初步检索结果集的加权Hu不变矩特征距离,并据此获得最终的检索结果。实验表明,与单一特征的检索方法相比,该方法在机械设计图像检索中有更高的查准率和查全率。 方乃伟 吕学强 张丹 王弘蔚关键词:HU不变矩 加权距离 基于词典与机器学习的中文微博情感分析研究 被引量:50 2014年 随着Web2.0时代的兴起,与微博相关的研究得到学术界和工业界的广泛关注。选取微博文本中的动词和形容词作为特征;提出基于层次结构的特征降维方法;采用设计的基于表情符号的方法计算特征极性值;在此基础上,提出基于特征极性值的位置权重计算方法,借助SVM作为机器学习模型将微博文本分为正面、负面和中性三类。实验结果表明,提出的方法能够比较有效地对中文微博文本进行情感分类。 孙建旺 吕学强 张雷瀚关键词:表情符号 情感分类 汉语概念复合块的自动分析 被引量:1 2016年 为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于"移进-归约"模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。 仵永栩 吕学强 周强 关晓炟关键词:句法分析 基于有向图模型的多模态新闻图像检索研究 被引量:4 2016年 不同模态特征描述网络新闻数据各具优势。为充分利用不同模态特征的优点,提高网络新闻图像检索准确率,提出了一种基于有向图理论模型的多模态特征融合检索方法。首先对新闻图像进行预处理,提升新闻图像兴趣点对比度,之后对新闻文本提取关键词,然后对新闻图像进行场景辨别,结合图像人物特征,将文本、场景、人物特征依据有向图理论模型进行融合,形成基于有向图理论模型的多模态融合检索。在10万条新闻数据上测试,实验结果表明,本文提出的方法检索准确率达到了69%,查全率达到70%,效果提升了5%。 相子喜 吕学强 张凯关键词:多模态 有向图模型 新闻图像 语义相似度 扩展搜索日志上下文的新词识别 2014年 【目的】大规模搜集、整理新词扩充现有词典,提高汉语分词准确率,推动中文信息处理的发展。【方法】根据搜索日志查询串特征及新词特点,提出扩展搜索日志上下文的新词识别方法。首先,通过分析查询串的特点获取种子词集合,利用种子词集在搜索日志中进行全文扩展,提取候选新词。其次,根据新词的时间属性发现新词串,最后基于词语的边界信息,提出改进左右熵方法抽取语料中存在的新词语。【结果】在搜狗日志上进行实验,P@100的平均准确率达到89.60%。【局限】对比词串集合的规模会在一定程度上影响新词的正确率。【结论】实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别。 李雪伟 吕学强 刘克会关键词:搜索日志 新词 微博城市投诉文本中的地理位置实体识别 被引量:2 2016年 微博投诉文本中地理位置实体通常存在结构复杂,长度较长,描述较详细的特点。通过对投诉微博文本的分析,提出了地理位置实体自动识别的方法。该方法首先利用特征资源库对微博进行特征标注,使用条件随机场(conditional random fields,CRF)模型识别地理位置实体。其次根据微博和地理位置实体的特点,对CRF识别后的数据进行二次标注。最后利用微博规则库对识别结果进行补召,修正地理位置实体,最终实现地理位置实体的识别。实验结果表明该方法有显著效果,F值可达到85.52%。 孙赫 孙赫 李淑琴 吕学强关键词:CRF