孙乐
- 作品数:130 被引量:502H指数:12
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划北京市科技新星计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字轻工技术与工程更多>>
- 一种基于标签推理网络的细粒度实体分类方法
- 本发明公开了一种基于标签推理网络的细粒度实体分类方法,属于自然语言处理技术领域,基于预训练语言模型的上下文相关的实体提及编码器;基于序列到集合生成框架的标签演绎推理机制,结合生成的标签和上下文信息生成新的标签;基于属性网...
- 刘庆林鸿宇肖欣延韩先培孙乐吴华
- 面向新类型人名识别的数据增强方法被引量:5
- 2019年
- 人名识别常被作为命名实体识别任务的一部分,与其他类型的实体同时进行识别。当前使用NER方法的人名识别依赖于训练语料对特定类型人名的覆盖,在遇到新类型人名时性能显著下降。针对上述问题,该文提出了一种基于数据增强(data augmentation)的方法,使用新类型人名实体替换的策略来生成伪训练数据,该方法能够有效提升系统对新类型人名的识别性能。为了选择有代表性的特定类型人名实体,该文提出了贪心的代表性子类型人名选择算法。在使用1998年《人民日报》数据自动生成的伪测试数据和人工标注的新闻数据的测试结果中,多个模型上人名识别的F1值分别提升了至少12个百分点和6个百分点。
- 宋希良韩先培孙乐
- 关键词:人名识别DATA
- 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
- 本发明公开了一种基于协同自扩展的命名实体集合扩展方法及查询推荐方法。本方法为:1)根据输入的种子集合,对每一种子生成一模板并对该模板的质量进行评估;2)利用选取的模板进行实例抽取,并建立每一所选模板的模板-实例关系;3)...
- 孙乐石贝
- 基于可信度感知和检索增强语言模型的问答方法及系统
- 本发明公开了基于可信度感知和检索增强语言模型的问答方法及系统,属于自然语言处理技术领域,旨在解决在传统检索增强生成过程中所引入的缺陷信息问题。针对用户输入的问题所检索的系列文档进行可信度等级划分,生成可信度标注文档;根据...
- 林鸿宇潘若彤曹博希韩先培孙乐
- 半结构化中文信息检索中查询结果相关度算法的研究被引量:8
- 2004年
- 本文研究了对富含文本信息的XML数据进行基于关键字的查询时 ,查询结果与查询条件之间相关度的计算问题 ,分析了利用传统信息检索技术解决该问题时存在的一些不足 ,提出了一种基于节点的动态的关键字权重计算法 ,以及综合考虑关键字在查询结果中的频率分布特征和结构分布特征的查询结果相关度计算法 ,有效解决了XML数据中的结构信息对相关度计算的影响 。
- 曲卫民孙乐孙玉芳
- 关键词:计算机应用中文信息处理XML
- 面向半结构化网页文档的语篇分析方法及装置
- 本发明提出了一种面向半结构化网页文档的语篇分析方法及装置,所述方法包括:基于网页文档的内容信息和半结构化信息,形成由多个基本逻辑块构成的基本逻辑块列表;根据基本逻辑块之间篇章组织方式,将基本逻辑块列表映射为网页文档语篇结...
- 孙乐刘沛霖林鸿宇韩先培
- 一种基于场景图演化的过程性文本理解方法和系统
- 本发明公开了一种基于场景图演化的过程性文本理解方法和系统。该方法主要包含:图结构编码器充分建模当前场景图中不同实体、状态、位置和常识概念之间的交互信息;上下文编码器充分挖掘当前时刻自然语言中表达的新事件信息;图结构预测器...
- 孙乐唐家龙林鸿宇陆垚杰韩先培郑佳
- 基于维基百科和模式聚类的实体关系抽取方法被引量:23
- 2012年
- 该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度。实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能。
- 张苇如孙乐韩先培
- 关键词:关系抽取维基百科模式聚类
- 基于多选匹配网络的统一低样本关系抽取方法及装置
- 本发明公开一种基于多选匹配网络的统一低样本关系抽取方法及装置。该方法包括:基于预训练语言模型和多选标记的关系描述与关系实例共同编码和匹配机制;基于大规模纯文本的开放信息抽取得到的三元组以及通过生成式预训练语言模型生成的复...
- 刘方超林鸿宇韩先培孙乐
- 文献传递
- 基于排序学习的微博用户推荐被引量:15
- 2013年
- 该文在分析总结影响微博用户推荐的四大类信息,包括用户的内容信息、个人信息、交互信息和社交拓扑信息的基础上,提出一个基于排序学习的微博用户推荐框架,排序学习的本质是用机器学习中的分类或回归方法解决排序问题,该框架可以综合各类信息特征进行用户推荐。实验结果表明:(1)融合多个特征综合推荐通常可以取得更好的推荐效果;(2)基于用户个人信息、交互信息、社交拓扑信息的推荐效果均好于基于用户内容的推荐效果。
- 彭泽环孙乐韩先培石贝