王吉林
- 作品数:1 被引量:2H指数:1
- 供职机构:华中师范大学教育信息技术学院更多>>
- 发文基金:国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 分布式Web主题信息抽取的框架探析被引量:2
- 2014年
- 近年来Web信息抽取技术领域的研究已经取得了一定进展,但系统的抽取性能仍有待提高。针对这一问题,提出了一种Web主题信息自动化抽取的新框架。该框架提供了一种自动生成网页信息抽取规则的方法,并将网页信息抽取的任务由服务器端转移到客户端,充分利用网页设计模版的结构化、层次化特点,通过对网页进行爬取、净化和处理,转化成XML文档,然后根据XPath定位主题信息,抽取出该主题信息的公共抽取规则。实验结果表明,该方法能快速有效地抽取所定制的感兴趣的主题网页信息,并且具有较高的准确率。
- 王吉林舒江波李勇杨森
- 关键词:主题信息信息抽取