苏珂
- 作品数:7 被引量:16H指数:2
- 供职机构:郑州大学更多>>
- 发文基金:国家自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 基于人脸识别的多模态人物信息补全系统设计
- 2022年
- 随着知识库在各领域任务的广泛应用,知识库补全技术的作用日益凸显。考虑到人脸特征的独特性,设计并实现一种基于人脸识别的人物信息知识库补全系统。该系统首先采用基于MTCNN模型的人脸识别模块对输入的新闻图像文本对中的图像信息进行人脸检测并提取其人脸特征;其次利用基于BiLSTM的文本分析模块对新闻文本进行分词与命名实体识别;最后输入基于Insightface的信息对齐模块从而与基于MongoDB创建的人物信息知识库内人物实体进行对齐并实现知识库补全。实验证明该系统能有效提高知识库的完整性与丰富性。
- 汪浣沙黄瑞阳王天彬苏珂宋旭晖
- 关键词:知识库图像识别人脸检测
- 一种动态字词信息融合的中文命名实体识别方法
- 2022年
- 命名实体识别(Name Entity Recognition,NER)是文本信息抽取的关键步骤之一。近年来,结合词汇信息与字符信息的命名实体识别方法表现优异,引起了众多学者的广泛注意。然而目前的字词融合策略还存在可迁移性差、词汇信息遗失、难以明确词汇边界信息等问题。基于此,提出一种动态字词信息融合的中文命名实体识别方法,首先利用多头自注意力机制动态融合对应位置的词汇信息与字符信息形成词汇集合信息,其次动态融合词汇集合信息确定对应的词汇边界,利用词汇向量优化字符向量表示,最后利用BiLSTM-CRF完成序列解码识别命名实体。实验证明,在MSRA、ONTO、WEIBO等3个公开数据集上,中文命名实体识别方法较之字粒度的命名实体识别方法性能大幅提升,同时可与BERT等预训练模型有效结合,具有良好的可迁移性、可完整而动态的融合词汇信息与字符信息提升命名实体识别性能。
- 胡楠黄瑞阳张建朋余诗媛苏珂
- 关键词:信息抽取命名实体识别
- PWFT-BERT:一种融合排序学习与预训练模型的检索排序方法被引量:2
- 2022年
- 信息检索是从文档集合或互联网中找出用户所需信息的过程,细化为召回和排序两个阶段。针对排序阶段中相关文档的重排序,提出一种称为融合排序学习与预训练模型的检索排序方法(Pair-Wise FineTuned Bidirectional Encoder Representation from Transformers,PWFTBERT)。通过对候选论文数据集使用BM25等算法召回出与查询相关的小范围文档后,可应用PWFT-BERT对召回得到的文档集合进行排序。为构造pair-wise形式的训练数据,提出一种伪负例生成算法生成训练数据,并使用排序学习方法微调预训练模型使其适配排序任务。对比IT-IDF和BM25基线方法,PWFT-BERT在WSDM-DiggSci 2020数据集上的检索结果提升了240%和74%,证明了所提方法的有效性。
- 苏珂黄瑞阳黄瑞阳张建朋余诗媛
- 关键词:自然语言处理信息检索
- 面向信息检索的开放域机器阅读理解技术研究
- 开放域机器阅读理解因其可以直接返回自然语言形式的答案而非相关文档列表,从而大幅提升信息获取效率,被认为是信息检索领域继搜索引擎之后的新一代人机交互关键技术。目前开放域机器阅读理解分为端到端方法和检索-阅读两阶段方法。其中...
- 苏珂
- 关键词:信息检索
- 嵌套命名实体识别研究进展被引量:10
- 2021年
- 嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要。近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能。对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望。
- 余诗媛郭淑明黄瑞阳张建朋苏珂
- 关键词:超图命名实体识别
- 2型糖尿病尿白蛋白/肌酐比值与颈动脉粥样硬化的关系及其它危险因素的分析
- 1、背景: 动脉粥样硬化(AS)是一组全身性、弥漫性血管病变,表现为脂质沉积、平滑肌细胞和胶原纤维增生、继发坏死,而造成血管粥样斑块形成,严重时可造成血管不同程度狭窄的疾病,是引起我国致残率、病死率最高的一类疾病。AS...
- 苏珂
- 关键词:2型糖尿病颈动脉粥样硬化尿白蛋白肌酐
- 多跳机器阅读理解研究进展被引量:4
- 2021年
- 与常规的单跳机器阅读理解相比,多跳机器阅读理解(MHMRC)需要在多个相关文档段落中进行多跳推理以实现对复杂问题的理解和回答,其更接近于人类的语言推理能力,具有广阔的应用前景但也极具挑战性。阐述MHMRC的研究背景,将现有方法根据适用场景分为封闭集合问答和开放域问答两类,主要包括基于问题分解的方法、基于图神经网络的方法、改进检索的方法、基于推理路径的方法等,分别从模型架构、特点、优劣等方面进行分析。介绍用于多跳推理的非结构化文本数据集和评测指标,对比各模型的性能表现。在此基础上,分析目前MHMRC研究的热点与难点,指出未来发展方向。
- 苏珂黄瑞阳黄瑞阳张建朋胡楠