涂新辉 作品数:21 被引量:94 H指数:4 供职机构: 华中师范大学计算机学院 更多>> 发文基金: 国家自然科学基金 湖北省自然科学基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于Pre-RoBERTa-MTL的中文机器阅读理解模型 被引量:3 2020年 机器阅读理解(MRC)是指让计算机像人类一样阅读文本,提炼文本信息并回答相关问题。传统的基于深度学习的方法利用双向循环神经网络或者卷积神经网络来对文本进行编码,但这种方法无法有效地捕获文本中的长距离依赖。最新发布的神经网络模型RoBERTa能够更好地捕获文本中的长距离依赖特征,并在几种不同的自然语言处理任务中都取得了好成绩。然而,RoBERTa模型针对英文语言而设计,无法有效地处理中文文本。针对中文语言的特点,提出一种新的阅读理解模型Pre-RoBERTa-MTL。该模型首先利用RoBERTa对问题与段落进行编码,然后通过一个交互层捕获问题与段落中蕴涵的语义模式,最后输出可能的答案。实验结果表明,该方法在大规模阅读理解测试集DuReader上的Rouge-L和BLEU-4分数分别达到了59.35%和56.22%,大大优于大部分已有的阅读理解模型。 代寒静 涂新辉基于多粒度语义融合的信息检索方法 2024年 信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间的语义信息。针对该问题,提出一种名为MSIR(Multi-Scale IR)的IR方法。所提方法通过融合查询与文档中多种不同粒度的语义信息提高IR性能。首先,构建查询和文档中词语、短语和文本这3个粒度的语义单元;其次,利用预训练模型对这3个语义单元分别进行编码获得它们的语义表征;最后,利用语义表征计算查询和文档相关度。在Corvid-19、TREC2019和Robust04这3个不同大小的经典数据集上进行了对比实验。与ColBERT(ranking model based on Contextualized late interaction over BERT(Bidirectional Encoder Representation from Transformers))相比,MSIR在Robust04数据集的P@10、P@20、NDCG@10和NDCG@20指标上均实现了约8%的提升,同时在Corvid-19和TREC2019数据集上也取得了一定的改进。实验结果表明,MSIR能够成功融合多种语义粒度,提升检索精度。 赵征宇 罗景 涂新辉关键词:信息检索 文本检索 中文维基百科的结构化信息抽取及词语相关度计算方法 被引量:24 2012年 维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。 涂新辉 张红春 周琨峰 何婷婷关键词:语义相关度 结构化信息 中文信息处理工具软件 何婷婷 王萌 王辉 张勇 任涵 李晶 涂新辉 该套软件包括文本自动分词、自动文摘、自动分类、术语自动提取、全文检索、基于因特网的语料自动下载、语料库管理与维护等功能。应用领域和技术特点:该软件适应于数字图书馆、网站建设、信息检索、电子政务、电子商务、中文信息处理、语...关键词:关键词:中文信息处理 软件包 文本信息处理 面向稠密检索的伪相关反馈方法 被引量:1 2023年 伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,从而进一步提高信息检索系统的性能。但是,现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息的缺失,而且在检索阶段的空间复杂度较高。针对上述问题,提出了一种基于段落级粒度且适用于长文本稠密检索的PRF方法 Dense-PRF。首先,通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量;其次,对相关段落向量进行平均池化以得到QE项向量;然后,按照权重结合原始查询向量和QE项向量构建新的查询向量;最后,根据新的查询向量得到最终检索结果。在Robust04和WT2G两个经典长文本测试集上将Dense-PRF与基线模型进行了对比实验,相较于模型RepBERT+BM25,Dense-PRF在前20篇文档的准确率和归一化折现累计效益(NDCG)指标上分别提升了1.66、1.32个百分点和2.30、1.91个百分点。实验结果表明Dense-PRF能有效缓解查询与文档词汇不匹配的问题,并提升检索精度。 胡文浩 罗景 涂新辉关键词:查询扩展 信息检索 基于主题词对的文档重排方法 被引量:2 2007年 提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。 何婷婷 许婷 瞿国忠 涂新辉概率潜在语义检索模型中中文索引技术的比较研究 2007年 概率潜在语义检索模型使用统计的方法建立“文档—潜在语义—词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明:在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。 罗景 涂新辉关键词:信息检索 概率潜在语义分析 一种基于知识图谱的古诗智能问答方法及系统 本发明技术方案提供一种基于知识图谱的古诗智能问答方法及系统,构建古诗知识图谱TPKG;使用古诗与译文结合的预训练策略,基于基础模型ChineseBERT进行训练,得到面向古诗的预训练语言模型CP‑ChineseBERT;... 何婷婷 洪婕 张淼 章哲铭 戴汝锋 涂新辉 董明基于相关术语群的中文查询扩展 被引量:1 2008年 查询词语和文档中词语的不匹配是影响文本信息检索效果的一个关键因素。查询扩展技术可以在一定程度上解决这种词的不匹配问题,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索精度。利用自动构建的相关术语群来进行查询扩展以提高中文检索的效果。在NTCIR中文信息检索测试集上进行的实验表明,相对于传统的查询扩展方法,在检索效果上取得了平均24.5%的提高。 涂新辉 罗景关键词:中文信息检索 查询扩展 术语抽取 基于排序学习的文本概念标注方法研究 被引量:2 2013年 提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。 涂新辉 何婷婷 何婷婷 王建文关键词:维基百科