李军
- 作品数:1 被引量:0H指数:0
- 供职机构:重庆第二师范学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于统计的网页净化模板生成算法
- 2013年
- 同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。
- 胡飞黄军建成平广席海李军
- 关键词:网页净化信息提取