白宇
- 作品数:37 被引量:58H指数:5
- 供职机构:沈阳航空航天大学更多>>
- 发文基金:国家重点基础研究发展计划教育部人文社会科学研究基金辽宁省自然科学基金更多>>
- 相关领域:自动化与计算机技术航空宇航科学技术理学一般工业技术更多>>
- 一种用于专利主题词抽取的模板自动生成方法被引量:4
- 2010年
- 专利主题词是用以表述发明或实用新型名称的技术关键词,专利主题词的抽取是专利技术方案信息抽取的第一步,是填充信息抽取结果模板的有效依据和填充子之一。将信息抽取技术应用于中文专利摘要文本,在充分分析了专利摘要文本和专利标题特点的基础上,采用无指导的方法构建信息抽取模板,进而完成专利主题词的抽取。实验表明,该方法获得了较好的抽取效果。
- 王裴岩张桂平蔡东风白宇叶娜
- 基于Seq2Seq框架和领域知识图谱的新闻简报生成被引量:1
- 2019年
- 新闻简报可以帮助人们在短时间内了解大量新闻内容,有效地解决信息过载问题。现有的基于多文档文摘技术的新闻简报生成研究多数仅限于考虑句子与句子之间的两两关系来对句子打分,进而通过句子排序罗列形成简报,这忽略了文本中句子与句子之间在主题层面的逻辑关系,使新闻简报缺乏可读性,用户阅读体验欠佳。提出了一种基于领域知识图谱的新闻简报生成方法,该方法结合Seq2Seq框架生成新闻的主题句,然后利用领域知识图谱中节点的主题相关性及节点之间的语义关联对新闻主题句进行组织生成简报。实验结果表明Seq2Seq框架和领域知识图谱应用在新闻简报的生成上,有效提高了新闻简报的连贯性、非冗余性和可读性。
- 符悦白宇蔡东风
- 关键词:多文档文摘新闻简报
- 面向新词义原推荐的相似性判别方法
- 2024年
- 义原(Sememe)是构成《知网》(HowNet)概念描述的核心部件,新词概念描述义原的推荐是HowNet自动或半自动扩展中涉及的关键问题。面向新词义原推荐,该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT。在判别新词与HowNet词表词之间的语义相似性的过程中,该方法利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合。实验结果表明,采用SaBERT可以有效解决未登录词与词表词的相似性判别问题,准确率、召回率、F1值分别达到0.8314、0.8007和0.8158。在基于协同过滤框架的义原推荐任务上进行的实验表明,相似性同构程度与义原推荐效果正相关,说明该文方法能够有效解决候选义原选择问题。
- 白宇白宇王之光张桂平
- 关键词:知网
- 航空不安全事件知识图谱构建与事件类型分析
- 航空不安全事件信息的收集和分析对航空安全管理工作具有重要的意义。本文以ASN事故数据库中最近30年的不安全事件记录作为数据基础,采用组合值类型对航空不安全事件知识进行表示,构建了航空不安全事件知识图谱。基于知识图谱中的概...
- 白宇赵毓诚陈建军韩宇
- 关键词:知识图谱
- 文献传递
- 利用依存句法分析和关键词共现的机器阅读理解模型
- 2023年
- 片段抽取式阅读理解是机器阅读理解典型任务之一,根据所给的篇章回答相关问题得到答案片段。在处理长文本如长问题或者长答案时,在无关词的噪声干扰和词之间长距离的关联跨度影响下,往往模糊了关注度的问题,一方面,依存句法分析通过识别词之间的语义关系,另一方面,增强句子的主干文本结构信息可以提升模型对于长文本阅读能力。该文寻找篇章中相关问题答案的主要方式是找到问题与篇章的关联特征,两者最关联的特征就是关键词,通过建立的关键词指导模型,实现在自注意力机制以获得正确答案的开始和结束位置。实验结果表明,在预训练语言模型的基础上将依存句法分析信息和关键词共现特征结合能够提升阅读理解的效果,在评测语料上F1值达到88.24。
- 赵耀白宇蔡东风樊睿文
- 关键词:依存句法分析关键词共现
- 一种无指导的子主题挖掘方法被引量:1
- 2016年
- 为了解决用户查询经常存在表意模糊或歧义性等问题,明确用户的查询意图,该文提出了一种无指导的子主题挖掘方法。该方法首先在检索结果文档集中利用ATF×PDF模型挖掘候选主题词;其次,为保证子主题的多样性,该文基于HowNet语义相似度方法对候选主题词进行了层次聚类分析,进而得到潜在主题;最后,利用LCS算法生成多样性子主题。实验结果显示,系统平均D#-nDCG@10达到0.573,结果说明该方法在明确查询主题表意方面取得了较好效果。
- 郭程白宇郑剑夕蔡东风
- 关键词:查询意图潜在主题
- 基于有监督学习的医古文叙述性术语语义标注被引量:4
- 2015年
- 对自由文本形式的中医古籍文献(医古文)进行标注,是对其进行深入分析的前提,语义标注技术是实现该目的的方法之一。该文将中医古籍文献中包含的术语分为名称性术语以及叙述性术语。在分析叙述性术语特点的基础上,将对其语义标注转化为基于有监督学习的短句序列标注或分类问题,并提出了名词性术语规约操作以及基于知网的替换操作两种预处理方法。最后该文通过实验对比了三种学习模型及四种特征选择算法,并证明了问题转化的可行性以及两种预处理方法的有效性。
- 丁长林白宇蔡东风
- 关键词:语义标注有监督学习中医古籍文献
- 一种基于特征抽取和语义增强的文本摘要生成方法
- 本发明公开一种基于特征抽取和语义增强的文本摘要生成方法,包括以下步骤:引入特征提取器,使用特征提取器获取原文的特征向量;将特征向量与编码器的输出结果分别以部分连接和全连接的方式相连,过滤噪声;使用语义增强器获取句子内部的...
- 白宇缪湾湾蔡东风
- 文献传递
- Wikipedia跨语言链接发现中的锚文本译项选择
- 2016年
- Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。
- 郑剑夕白宇郭程张桂平
- 关键词:WIKIPEDIA锚文本
- 一种面向新词义原推荐的相似性判别方法及系统
- 本发明公开了一种面向新词义原推荐的相似性判别方法及系统,包括:在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合;根据相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语‑义项...
- 白宇