吕学强 作品数:392 被引量:1,335 H指数:17 供职机构: 北京信息科技大学 更多>> 发文基金: 国家自然科学基金 北京市教委科技发展计划 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 语言文字 轻工技术与工程 更多>>
注意力增强的双向LSTM情感分析 被引量:44 2019年 在基于深度学习的情感分析工作中,传统的注意力机制主要以串行的方式作为其他模型的下一层,用于学习其他神经网络模型输出的权重分布。该文在探究使用深度学习进行句子级情感分析任务的基础上,提出一种注意力增强的双向LSTM模型。模型使用注意力机制直接从词向量的基础上学习每个词对句子情感倾向的权重分布,从而学习到能增强分类效果的词语,使用双向LSTM学习文本的语义信息。最终,通过并行融合的方式提升分类效果。通过在NLPCC 2014情感分析语料上进行测试,该模型的结果优于其他句子级情感分类模型。 关鹏飞 李宝安 吕学强 周建设关键词:情感分析 基于条件随机场的英文地理行政实体识别 被引量:5 2009年 采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Enti-ties,GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表明该特征集能取得较高的召回率和准确率。 宗萍 施水才 王涛 吕学强关键词:条件随机场 KBLCC:融合实体关键字特征的医疗领域实体分类方法 被引量:4 2022年 实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本的语言特点进行分析与总结,发现医疗领域实体通常包含一些明显的关键字特征,能够辅助实体分类任务.融合实体关键字特征构建了BERT-BILSTM-CNN-CRF混合模型对医疗领域实体进行抽取,并将医疗实体分为检验指标、疾病、症状这三大类.实验结果表明,使用KBLCC模型进行医疗领域实体分类能够提高实验效果,准确率、召回率和F1值分别达到89.38%、92.46%和90.89%. 王星予 吕学强 游新冬关键词:关键字 混合模型 汉语语篇的连贯性标注困难度分析研究 被引量:3 2018年 在人工标注语篇句子连贯性时,句群的划分成为最大的难点,句群内部句间关系的复杂性也增加了篇章标注的困难度。为了识别语篇标注的困难度,从多角度总结了句群边界以及类别的分布特点,分析了句群内部句间的各种连接关系,提出了一种基于人工标注的语篇困难度识别模型,并利用双人标注信息的差异性来验证语篇困难度识别方法的有效性与准确性。数据表明,该模型可以较好地区分不同体裁新闻类语篇的标注难度,为相关语篇内容的分析理解打下了良好的基础。 魏天珂 吕学强 周强关键词:语篇连贯性 BETES:一种中文长文档抽取式摘要方法 被引量:3 2022年 在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用Bert预处理模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升摘要句抽取的准确率.实验证明,提出的BETES方法在中文长文本的抽取式摘要过程中提高了准确性,降低了冗余度,并且ROUGE分数优于主流的摘要抽取方法. 王宗辉 李宝安 李宝安 吕学强关键词:文本摘要 TRANSFORMER 基于信息熵与词语活跃度的领域词抽取 被引量:1 2011年 提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。 王成 吕学强 王弘蔚 王涛关键词:信息熵 知识获取 自然语言处理 本体上下位关系在招生问答机器人中的应用研究 被引量:1 2015年 【目的】提高问答系统准确率,提升目前问答系统的满意度。【应用背景】在自然语言处理领域,问答系统已成为一个重要研究热点,但现阶段问答系统的准确率较低。【方法】对智能聊天机器人ALICE源码进行分析研究,并对其进行二次开发,加入中文分词,在其内部推理分析的基础上,提出一种利用本体上下位关系对用户查询问题的推荐方法。【结果】将领域本体库融入到ALICE机器人中,对用户问题进行分析,并从中提取关键词,从本体库中查询所提取的相关关键词,得出与用户提问相匹配的答案并推荐给用户。【结论】实验结果证明,加入本体的推荐结果后,用户满意度有较大提升。 余昕聪 李红莲 吕学强关键词:问答系统 ALICE 中文分词 上下位关系 使用实时数据生成体育赛事战报的方法 本发明涉及一种使用实时数据生成体育赛事战报的方法,使用基于Attention的序列模型TransFormer将关键事件转化为战报句,所述方法包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结... 吕学强 董志安 游新冬文献传递 一种异源语料自动融合方法 本发明涉及一种异源语料自动融合方法,包括以下步骤:步骤1)构建UNP映射词表;步骤2)对源体系的标注进行归一化处理;步骤3)确定产生歧义的词的词性,对语料体系中词的词义进行评判,进而确定词的词性标记;步骤4)对目标词汇集... 吕学强 周强 董志安 仵永栩基于融合策略的中文词语相似度计算方法 本发明涉及一种基于融合策略的中文词语相似度计算方法,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度,对于输入的两个词语,首先判断其在HowNet或者同义词词林中... 吕学强 董志安 游新冬文献传递