陈文亮
- 作品数:66 被引量:138H指数:7
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省高校自然科学研究项目江苏省高校优势学科建设工程资助项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种基于神经网络的中文分词模型的训练方法
- 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,...
- 李正华朱运黄德朋张民陈文亮
- 信息增强的医患对话理解
- 2023年
- 近年来在线问诊的需求日益增大,亟需关于自动化医疗问诊方面的研究,而医患对话理解是智能医疗研究的基础。然而在真实场景中,医患对话理解面临着实体表述复杂、状态判断困难的问题。针对这些问题,该文提出一种信息增强的医患对话理解模型,该模型强调医患对话中的角色特征和症状特征用于增强文本信息,并将症状实体语义和阅读理解语义融合用于丰富语义信息。基于所提出模型的系统在第一届智能对话诊疗评测——医患对话理解测试集上取得了91.7%的命名实体识别F1值和73.7%的症状状态识别F1值。
- 张智林陈文亮
- 基于树形循环神经网络的自动树库转化方法及系统
- 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词w<Sub>i</Sub...
- 李正华江心舟章波张民陈文亮
- 文献传递
- 在众包数据上进行对抗学习的命名实体识别方法、设备及可读存储介质
- 本发明涉及一种在众包数据上进行对抗学习的命名实体识别方法,在特定的领域内,只要制定好实体标注规范,用众包标注的方法就能以较低的标注成本快速构建大规模标注语料,在一定程度上缓解了缺乏标注语料的困境,更好得使用众包数据,提高...
- 陈文亮 杨耀晟张民
- 文献传递
- 结合信息交互的人物实体链接
- 2024年
- 实体链接是将文本中的实体提及链接到知识图谱中实体节点的任务,是自然语言处理许多下游任务的重要基础.而在各类实体中,人物实体承载了知识图谱中主要的事实组成部分,但由于存在大量重名导致人物链接难度大大增加.人物实体链接是人物知识图谱构建的重要一环,其目的是把一段文本所描述的人物实体链接到图谱中正确的实体节点上.由于目前中文人物实体链接数据集比较缺乏,而通用实体链接数据集大多覆盖多种类型实体并且规模比较有限,因此本文基于百科网页数据构建了新的大规模中文人物实体链接数据集SummaryEL和TextEL,并通过采样验证了数据集的质量.基于新构建的数据集,本文提出基于描述文本和实体属性信息交互的人物实体链接模型,有效地建立描述文本和知识图谱节点之间的联系.实验结果表明,本文所提出的人物实体链接模型取得较高的准确率,在SummaryEL和TextEL测试集上的平均准确率分别达到89.27%和87.43%.该模型可作为该任务未来研究工作的基准方法.新构建的数据集和实验代码将公开在github上.
- 周沛陈跃鹤贾永辉陈文亮
- 关键词:自然语言处理知识图谱
- 一种评分预测方法与系统
- 本发明公开了一种评分预测方法与系统,获取历史评论数据,使用基于词向量的方法构建主题词分布表,根据主题词分布表计算指定的第一用户对第一物品的评论特征表示,同时获取历史评分数据,计算指定的第一用户对第一物品的修正平均分作为特...
- 陈文亮马春平
- 文献传递
- 基于领域情感词典特征表示的细粒度意见挖掘被引量:13
- 2019年
- 细粒度意见挖掘的主要目标是从观点文本中获取情感要素并判断情感倾向。现有方法大多基于序列标注模型,但很少利用情感词典资源。该文提出一种基于领域情感词典特征表示的细粒度意见挖掘方法,使用领域情感词典在观点文本上构建特征表示并将其加入序列标注模型的输入部分。首先构建一份新的电商领域情感词典,然后在电商评论文本真实数据上,分别为条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)这两种常用序列标注模型设计基于领域情感词典的特征表示。实验结果表明,基于电商领域情感词典的特征表示方法在两种模型上都取得了良好的效果,并且超过其他情感词典。
- 郁圣卫卢奇陈文亮
- 关键词:情感词典
- 基于领域自适应的文本信息提取方法、装置、系统及介质
- 本申请公开了一种基于领域自适应的文本信息提取方法,包括:对输入文本进行预处理,得到文本向量;根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征,根据第一领域内的私有特征提取参数提取文本向量的私有特征;对进行...
- 陈文亮卢奇张民
- 一种属性抽取方法、装置及存储介质
- 本发明将属性抽取任务化为片段抽取式阅读理解任务,采用属性抽取与文本属性判断联合训练的多任务模型。模型以BERT‑B i‑LSTM作为编码模块,分别对输入文本与问题编码,将结构化信息作为问题来增强模型的泛化能力。然后使用词...
- 陈文亮张世奇周夏冰张民
- 结合五笔字形与上下文相关字向量的命名实体识别被引量:7
- 2021年
- 命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。
- 张栋王铭涛陈文亮
- 关键词:语言模型命名实体识别