福建省重点科技计划项目(2003H043)
- 作品数:3 被引量:11H指数:1
- 相关作者:薛永生任仲晟陈华昌张东站更多>>
- 相关机构:厦门大学福建师范大学更多>>
- 发文基金:福建省重点科技计划项目国家自然科学基金福建省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于树形结构的Web信息抽取被引量:1
- 2009年
- 提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.
- 任仲晟薛永生
- 关键词:WEB数据抽取WEB挖掘信息抽取
- 基于页面标签的Web结构化数据抽取被引量:10
- 2007年
- 本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识教据项。实验表明,该算法是有效的。
- 任仲晟薛永生
- 关键词:WEB数据抽取WEB挖掘结构化数据信息抽取
- 基于最大频繁等价类的Web信息自动抽取
- 2006年
- 在定义模板的基础上,提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型,设计了一个基于最大频繁等价类的抽取算法EBMFEC,通过分析给定的数据导向型页面的终端符号的出现情况,找出最大频繁等价类,并推导出用于生成页面的未知模板。然后使用推导出的模板,从输入页面中提取出相关信息。在大量实际HTML页面上的实验证明,EBMFEC在大部分情况下都可以从给定页面中推导出模板,并正确抽取出数据信息。
- 陈华昌薛永生任仲晟张东站
- 关键词:等价类信息抽取