您的位置: 专家智库 > >

李舒晨

作品数:4 被引量:16H指数:2
供职机构:北京交通大学更多>>
发文基金:通信与信息系统北京市重点实验室资助项目高等学校科技创新工程重大项目北京市教育委员会共建项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文

领域

  • 4篇自动化与计算...

主题

  • 2篇信息抽取
  • 2篇网络
  • 2篇网页
  • 2篇网页信息
  • 2篇抽取
  • 1篇信息采集
  • 1篇信息处理
  • 1篇舆情
  • 1篇舆情分析
  • 1篇预处理
  • 1篇人肉
  • 1篇人肉搜索
  • 1篇社会
  • 1篇社会计算
  • 1篇社会性
  • 1篇数据存储
  • 1篇搜索
  • 1篇爬虫
  • 1篇情报
  • 1篇情报分析

机构

  • 2篇北京交通大学
  • 2篇武汉大学

作者

  • 4篇李舒晨
  • 2篇沈阳
  • 1篇刘云
  • 1篇朱婵元
  • 1篇李勇
  • 1篇田晨耕

传媒

  • 1篇图书情报工作
  • 1篇Journa...
  • 1篇电脑与电信

年份

  • 2篇2009
  • 2篇2008
4 条 记 录,以下是 1-4
排序方式:
网络舆情分析中网页信息预处理方案的实现被引量:10
2008年
网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTML DOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页URL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。
李舒晨刘云李勇
关键词:舆情分析预处理信息抽取数据存储
System of twice-gathering information and research of information fingerprint HashTrie
2008年
This paper presents a twice-gathering information interactive system prototype of e-government based on the condition that the Intranet and the Extranet are physical isolated.Users in the Extranet can gather links of the latest related information from client software which is previously collected by web alert in the Internet.Finally,through ferry-type transport devices,information is browsed by users in the Intranet,and it is transported to a storage device and synchronized with the web platform in the Intranet.During information gathering in the Extranet and data synchronization in the Intranet,it is essential to avoid repeated gathering and copying by means of comparing the extracted information fingerprints gathered from the web pages.This prototype uses HashTrie to store information fingerprints.During testing,the structure based on HashTrie is 2.28 times faster than the Darts(double array Trie)which is the fastest structure in the existing applied patent.The existing 12 types of high speed Hash functions serving for HashTrie are also implemented.When the dictionary content is larger than 5×105 words,the PJWHash or the SuperFastHush function can be adopted;when the dictionary content is 105 words, CalcStrCR32 and ELFHash functions can be adopted.
沈阳朱婵元李舒晨
网络信息采集处理平台的研究
随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。网络信息采集处理平台整合了网络信息获取及处理中...
李舒晨
关键词:信息采集信息处理网络爬虫网页信息抽取网页解析
文献传递
社会性人物搜索研究被引量:4
2009年
分析社会搜索和社会性人物搜索的相关研究,给出人物搜索和社会性人物搜索的定义、特点及一般流程,对近年来社会性人物搜索的热点事件分析,基于上述研究,进一步给出社会搜索的过程框架和工具软件,并完成第一阶段的软件开发,发布了ROST系列社会性人物搜索工具。
沈阳李舒晨田晨耕
关键词:人肉搜索情报分析社会计算
共1页<1>
聚类工具0