您的位置: 专家智库 > >

赵庚

作品数:1 被引量:3H指数:1
供职机构:河北工业大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇语言
  • 1篇语言节奏
  • 1篇去重
  • 1篇文档
  • 1篇节奏
  • 1篇标点

机构

  • 1篇河北工业大学
  • 1篇天津大学
  • 1篇天津财经大学

作者

  • 1篇李晓红
  • 1篇冯志勇
  • 1篇陈钒
  • 1篇赵庚

传媒

  • 1篇计算机工程与...

年份

  • 1篇2011
1 条 记 录,以下是 1-1
排序方式:
基于语言节奏的大规模文档去重算法研究被引量:3
2011年
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少。
陈钒冯志勇李晓红赵庚
关键词:语言节奏标点
共1页<1>
聚类工具0