公共文化服务平台

2024年12月27日星期五

|

欢迎来到佛山市图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

福建省重点科技计划项目(2003H043): 作品数：3 被引量：11H指数：1; 相关作者：薛永生任仲晟陈华昌张东站更多>>; 相关机构：厦门大学福建师范大学更多>>; 发文基金：福建省重点科技计划项目国家自然科学基金福建省自然科学基金更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

3篇中文期刊文章

领域

3篇自动化与计算...

主题

3篇信息抽取
3篇抽取
2篇数据抽取
2篇WEB数据抽...
2篇WEB挖掘
2篇WEB信息
1篇等价
1篇等价类
1篇树形结构
1篇自动抽取
1篇结构化数据
1篇WEB
1篇WEB信息抽...

机构

3篇厦门大学
1篇福建师范大学

作者

3篇任仲晟
3篇薛永生
1篇张东站
1篇陈华昌

传媒

2篇计算机科学
1篇福建师范大学...

年份

1篇2009
1篇2007
1篇2006

共 3 条记录，以下是 1-3

全选清除导出

排序方式：

基于树形结构的Web信息抽取被引量：1: 2009年; 提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.; 任仲晟薛永生; 关键词：WEB数据抽取 WEB挖掘信息抽取

基于页面标签的Web结构化数据抽取被引量：10: 2007年; 本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识教据项。实验表明,该算法是有效的。; 任仲晟薛永生; 关键词：WEB数据抽取 WEB挖掘结构化数据信息抽取

基于最大频繁等价类的Web信息自动抽取: 2006年; 在定义模板的基础上,提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型,设计了一个基于最大频繁等价类的抽取算法EBMFEC,通过分析给定的数据导向型页面的终端符号的出现情况,找出最大频繁等价类,并推导出用于生成页面的未知模板。然后使用推导出的模板,从输入页面中提取出相关信息。在大量实际HTML页面上的实验证明,EBMFEC在大部分情况下都可以从给定页面中推导出模板,并正确抽取出数据信息。; 陈华昌薛永生任仲晟张东站; 关键词：等价类信息抽取

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有：重庆维普资讯有限公司 ©2014－2017，客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张