您的位置: 专家智库 > >

李泓莹

作品数:1 被引量:4H指数:1
供职机构:山西大学商务学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇视觉特征
  • 1篇函数
  • 1篇分布函数
  • 1篇WEB信息
  • 1篇DOM树
  • 1篇标签
  • 1篇抽取
  • 1篇抽取方法

机构

  • 1篇山西大学

作者

  • 1篇李泓莹
  • 1篇马晓慧

传媒

  • 1篇智能计算机与...

年份

  • 1篇2017
1 条 记 录,以下是 1-1
排序方式:
一种DOM树标签路径和行块密度结合的Web信息抽取方法被引量:4
2017年
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。
马晓慧李泓莹
关键词:DOM树视觉特征
共1页<1>
聚类工具0