孙立远
- 作品数:5 被引量:8H指数:2
- 供职机构:清华大学信息科学技术学院智能与网络化系统研究中心更多>>
- 发文基金:国家自然科学基金陕西省自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 在线社会网络多话题传播竞争特性的测量被引量:3
- 2015年
- 网络上的话题纷杂多样而人们的注意力有限,势必导致多话题之间竞争稀缺的用户注意力资源,这种竞争关系影响了网络话题的传播和舆情的形成。已有的研究大多只针对单一话题的传播,该文研究了在线社会网络上多话题竞争的传播规律,提出多话题传播竞争特性的测量方法。从话题和用户这2个层面设计了话题竞争的资源数变化规律、话题竞争激烈程度、用户注意力的转移规律及话题相关性等的测量方法,提出了话题资源数波动率、话题竞争激烈度和用户注意力转移率等定量测量指标。通过对新浪微博真实数据的测量发现:多话题竞争中用户资源总数基本稳定,用户的注意力大部分是从老话题转移到新出现的话题且发生在同类话题间。这些测量结果为建立多话题传播模型提供了基础。
- 孙立远管晓宏
- 关键词:在线社会网络用户行为
- 一种基于流聚类的中文网页文本分类方法
- 本发明涉及一种基于流聚类的中文网页文本分类方法,属于互联网数据挖掘技术领域,该方法包括:实时采集网页;去除未处理过的该网页的格式中的标签,解析出网页中各文本的特征信息;将文本内容分割、做ngram分词,形成多个词串;计算...
- 卞小丁袁睿翕孙立远
- 文献传递
- 一种中文网页新词自动获取方法
- 本发明涉及中文网页新词自动获取的方法,属于互联网数据挖掘技术领域;该方法包括:从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并进行预处理,对得到句子片段进行n-gram分词产生词串并统计词频,连...
- 孙立远袁睿翕卞小丁
- 文献传递
- 一种中文网页新词自动获取方法
- 本发明涉及中文网页新词自动获取的方法,属于互联网数据挖掘技术领域;该方法包括:从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并进行预处理,对得到句子片段进行n-gram分词产生词串并统计词频,连...
- 孙立远袁睿翕卞小丁
- 利用信息传播特性的中文网络新词发现方法被引量:5
- 2015年
- 针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。
- 孙立远周亚东管晓宏
- 关键词:新词发现信息传播用户行为