您的位置: 专家智库 > >

陈夫桂

作品数:2 被引量:0H指数:0
供职机构:内蒙古科技大学信息工程学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇信息抽取
  • 2篇WEB信息
  • 2篇WEB信息抽...
  • 2篇抽取
  • 1篇属性值
  • 1篇抽取规则

机构

  • 2篇内蒙古科技大...

作者

  • 2篇陈夫桂
  • 1篇高永兵
  • 1篇胡文江
  • 1篇郝斌

传媒

  • 1篇中国新技术新...

年份

  • 2篇2012
2 条 记 录,以下是 1-2
排序方式:
基于内容冗余的Web信息抽取
2012年
提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。
陈夫桂胡文江高永兵郝斌
关键词:WEB信息抽取抽取规则
基于内容冗余的Web信息抽取
随着计算机和网络技术的飞速发展,越来越多的人们开始在网络上搜索他们所需要的信息。然而,在网络上,许多的广告和不相关的链接嵌入在所需的信息中,使有用信息很难从无用信息中分离出来,这在一定程度上加重了网页噪声,使有用信息产生...
陈夫桂
关键词:WEB信息抽取属性值
文献传递
共1页<1>
聚类工具0