2025年4月6日
星期日
|
欢迎来到佛山市图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
李泓莹
作品数:
1
被引量:4
H指数:1
供职机构:
山西大学商务学院
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
马晓慧
山西大学商务学院
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
中文期刊文章
领域
1篇
自动化与计算...
主题
1篇
视觉特征
1篇
函数
1篇
分布函数
1篇
WEB信息
1篇
DOM树
1篇
标签
1篇
抽取
1篇
抽取方法
机构
1篇
山西大学
作者
1篇
李泓莹
1篇
马晓慧
传媒
1篇
智能计算机与...
年份
1篇
2017
共
1
条 记 录,以下是 1-1
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
一种DOM树标签路径和行块密度结合的Web信息抽取方法
被引量:4
2017年
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。
马晓慧
李泓莹
关键词:
DOM树
视觉特征
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张