廖建军
- 作品数:4 被引量:16H指数:3
- 供职机构:中国科学院文献情报中心更多>>
- 发文基金:国家社会科学基金河南省科技攻关计划更多>>
- 相关领域:文化科学自动化与计算机技术经济管理更多>>
- 基于标签样式和密度模型的网页正文自动抽取被引量:3
- 2018年
- 【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计的CEPR抽取方法。
- 廖建军
- 关键词:正文抽取网页分块信息抽取
- 美国政府“开放获取”政策及其对美国的影响被引量:8
- 2018年
- 文章梳理评价美国政府颁布的开放获取相关政策,总结了每个政策的目标和要求。研究了美国各联邦机构采取的相应措施和实施方案进展,探讨了开放获取政策对美国各界产生的影响,以期对我国制定开放获取政策有所借鉴。
- 廖建军
- 关键词:开放政府开放数据
- 基于实体关系的企业并购战略意图研究
- 2016年
- [目的/意义]针对竞争情报中企业战略情报的获取问题,提出一套自动高效的战略意图挖掘流程,帮助企业更好的收集战略情报信息,提高战略意图挖掘的有效性。[方法/过程]引入实体关系抽取技术探索获取企业战略情报的系统方案,以企业并购事件为例,应用关系抽取技术收集企业并购关系,采用实体属性抽取技术揭示企业并购的战略意图,通过阿里巴巴集团的并购事件检验抽取系统的效果。[结果/结论]该方案能够有效地从海量网络信息中自动抽取企业并购关系并挖掘出企业经营领域,通过可视化地呈现揭示企业并购的战略意图,达到快速、自动地获取企业竞争情报的目的。
- 廖建军
- 关键词:关系抽取企业并购战略意图竞争情报
- 基于Nanopublication的知识服务架构解析被引量:5
- 2017年
- [目的 /意义]针对科学文献服务系统中信息过载的问题,提出基于Nanopublication的知识服务架构,帮助科研人员更好地查找和理解科学文献中的知识,使得知识服务系统更加高效可靠地为科研人员提供知识发现服务。[方法 /过程]引入语义出版的新模式Nanopublication,揭示科学文献中的科学结论,基于Nanopublication知识元进行知识服务语义建模,设计分布式Nanopublication知识服务模式。[结果 /结论]该方案能够扩展现有的语义知识服务和发现框架,借助Nanopublication技术进一步增强知识服务的精准性和可信赖性,满足不同用户的知识服务功能需求。
- 廖建军
- 关键词:知识服务分布式服务