廉捷
- 作品数:7 被引量:134H指数:3
- 供职机构:中国信息安全测评中心更多>>
- 发文基金:北京市自然科学基金国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 新浪微博数据挖掘方案被引量:122
- 2011年
- 随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的结合可以实现新浪微博数据高效全面的获取。
- 廉捷周欣曹伟刘云
- 关键词:数据检索网页解析
- 贝叶斯网络构造方法及应用研究
- 数据挖掘主要研究海量数据分析的理论与方法。在零售,军事,商业智能,金融等众多领域,数据挖掘正在得到广泛的应用。贝叶斯网络作为一种基于概率来描述不确定性关系的网络,提供了一种表示因果关系的模型。在人工智能研究领域,贝叶斯网...
- 廉捷
- 关键词:数据挖掘贝叶斯网络搜索算法
- 文献传递
- 新浪微博数据挖掘方案研究
- 随着新浪微博用户群体的增长,基于新浪微博数据的分析已经引起了社会的广泛关注,其中新浪微博的数据获取是微博研究首先需要解决的问题。本文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法...
- 廉捷周欣曹伟刘云
- 关键词:数据挖掘智能信息检索网页解析
- 基于用户特征的社交网络数据挖掘研究
- 数据是互联网中最宝贵的资源之一,海量数据中蕴含着巨大的潜在价值,深入挖掘这些数据对于互联网电子商务、企业决策与推广、信息传播与预测均具有重要的意义。随着Web2.0网络应用与移动终端设备的发展,社交网络的普及率与使用率日...
- 廉捷
- 关键词:网络服务数据挖掘程序语言
- 文献传递
- 网络舆情中的信息预处理与自动摘要算法被引量:8
- 2010年
- 提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法.
- 廉捷刘云
- 关键词:信息抽取倒排索引网络舆情
- 一种基于新浪微博的用户等级排序算法
- 本发明公开了一种基于新浪微博的用户等级排序算法,包括如下步骤:a、抓取新浪微博中的实时数据;b、通过数据分析确定新浪微博中影响用户等级排序的制约因素;c、建立用户等级排序中用户影响力参考模型;d、建立用户等级排序中用户活...
- 刘云廉捷曹伟周欣李维杰陈海强
- 文献传递
- 一种基于新浪微博的用户等级排序算法
- 本发明公开了一种基于新浪微博的用户等级排序算法,包括如下步骤:a、抓取新浪微博中的实时数据;b、通过数据分析确定新浪微博中影响用户等级排序的制约因素;c、建立用户等级排序中用户影响力参考模型;d、建立用户等级排序中用户活...
- 刘云廉捷曹伟周欣李维杰陈海强
- 文献传递