黄连恩
- 作品数:7 被引量:9H指数:2
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于领域的历史网页检索算法
- 2010年
- 在历史网页检索系统中,存在着按时间顺序来对检索结果进行排序的特殊需求,在客观上要求系统能够比较准确地判断文档与查询词是否相关。针对这一特殊需求,引入领域的概念,将领域用于用户检索的表示,在领域的基础上设计了一种带衰减因子的BM25检索相关性计算算法。实验结果显示该检索算法是有效的,引入领域后检索结果的F值平均提高了56.68%。
- 张燕黄连恩林武
- 历史网页的持续收藏及其再访问的关键技术研究
- 网页是一种易逝的信息资源,在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存,它们就会在不经意之间消失。而随着互联网成为一种不可忽视的新媒体,网页内容的重要性已经不言而喻。因此,持续收藏并...
- 黄连恩
- 关键词:搜索引擎信息检索
- 基于历史网页的事件报导信息系统设计与分析被引量:4
- 2008年
- Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL的不同内容版本,其中许多内容目前在中国互联网上已经不复存在。如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题。本文描述一个实验性系统(HisTrace)框架。该系统旨在支持人们从Webinfomall中尽量准确、完整地提取与重要历史事件相关的网络新闻报道,并按照报道发生的时间顺序将它们不重复地展示出来。由于Webinfomall的海量性,也由于网络信息的复杂性和随意性,这其中有不少挑战。本文对其中的主要环节进行了分析。最后,我们简要介绍了系统的初步实现情况。
- 黄连恩李晓明
- 关键词:网络信息挖掘信息压缩
- Web Infomall:一个大规模的Web存档系统
- 随着时间的流逝,中国互联网上出现过的信息资源会成为一笔宝贵的财富,会为各领域和各行业提供持续价值.为了使历史网页不会随时间的流逝而改变,并且每日不断记录网站的变化,不更改以前的保存结果,需要一个适合于Web规模的存档系统...
- 闫宏飞黄连恩谢正茂李晓明
- 关键词:互联网信息存储可靠性
- 文献传递
- 基于WEB的分布式计算机结构及应用技术研究
- 随着国际互联网的高速发展,基于Web的分布式计算结构由于其自身的众多优点得到了日益广泛的应用。与此同时,目前基于B/S结构的开发技术还存在许多不尽人意的地方。本文针对当前B/S结构中存在的问题,提出了一种构建分布式应用系...
- 黄连恩
- 关键词:中间件分布式数据访问
- 文献传递
- 互联网上信息报道的最早发布时间检测被引量:3
- 2009年
- 准确提取网上信息报道的最早发布时间,对于使用计算机辅助的社会科学研究来说具有重要价值。数据表明,有40%的信息报道无法从网页中直接提取出文章发布时间,此时,如果单纯依靠搜集时间和HTTP协议提供的网页文件最后修改时间信息来估计文章发布时间,就会造成较大误差。提出了两种能够提高计算精度的方法:链接分析法和拷贝分析法。大数据量实验表明,这两种方法具有很小的出错概率,是切实可用的。其中,链接分析法能够在一定程度上减少计算误差,而拷贝分析法则具有决定性的作用。当一篇信息报道能在网上找到多个拷贝(转载)时,就会有很大的概率准确推断出该报道在网上的最早发布时间。
- 黄连恩张燕李晓明
- 关键词:网络信息挖掘
- 基于WEB的分布式计算结构及应用技术研究
- 该文针对当前B/S结构中存在的问题,提出了一种构建分布式应用系统的Web应用程序框架.由于分布式数据访问是Web应用程序框架实现中的关键技术问题,该文重点对分布式数据访问技术进行了研究,采用了基于中间件的解决方案,并在对...
- 黄连恩
- 关键词:国际机场中间件分布式数据访问
- 文献传递