针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction,OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足。为此,研究了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专利开放式实体关系抽取的方法。实验表明:以组块为出发点降低了对句子理解的难度,外层和内层组块可以统一处理,减少了工程代价;而且在相同特征条件下与支持向量机相比,基于马尔可夫逻辑网的关系抽取效果更理想,外层和内层识别结果的F值分别可达到77.92%和69.20%。
该文提出了一种基于subject-action-object(SAO)的专利结构化相似度计算方法。传统的基于关键词的定量分析方法没有考虑专利自身的结构特点,忽略了对专利间内在关系的计算,该文弥补了传统的基于关键词的定量方法的不足。在SAO结构抽取过程中,将最新的实体抽取工具OLLIE引入到专利领域,得到了比传统SAO抽取工具更好的抽取结果。和传统的SAO方法相比,对Action元组进行了大量分析,通过重复大量实验,确定了Action元组的结构特征。最后,通过实验验证,将vector space module(VSM)模型和SAO结构进行融合,得到了比仅仅通过VSM模型进行相似度计算更好的结果。
为解决情报采集过程中竞争企业名录的更新问题,提出了一种基于网络的竞争企业名录自动更新方法。该方法首先利用产品名称从企业索引中检索出相关的企业名列表,采用LCS(Longest Common Substring)算法抽取企业名模式,以"产品名+企业名模式"的形式重构查询。然后,使用搜索引擎进行网页搜索,再利用贝叶斯分类算法对搜索的网页过滤,将过滤后的企业信息更新到企业名录中。实验结果显示,系统P@10、P@20、P@30分别为73.4%,68.4%,65.2%,MAP@10、MAP@20、MAP@30分别达到66.2%,58.9%,52.5%,结果说明该方法可以有效的实现竞争企业名录的自动更新。