国家自然科学基金(61173145)
- 作品数:12 被引量:82H指数:5
- 相关作者:张宏莉张伟哲张玥何慧李东更多>>
- 相关机构:哈尔滨工业大学黑龙江工程学院国家互联网应急中心更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于关联性的热点话题识别被引量:1
- 2014年
- 互联网上的社会性媒体具有传播内容广泛、传播范围无地域限制、传播迅速的特点。热点性话题代表了多数人关注的对象、其动态变化影响着人们的生活和思想。识别热点性话题具有重要意义。政策制定者通过热点话题了解人们的生活、调整政策以管理民生。从纷繁变化的海量信息中抽取热点话题是挑战性问题。本文以网络论坛为研究对象,基于网络媒体中发生社会性热点事件时会产生相关联的高频核心词,核心词高度抽象了事件的主要特征和发展方向。基于这个客观现象,提出了基于主题特征词关联的密度聚类算法,建立社会性热点事件发现模型。实验表明,提出的主题词关联性的热点话题识别算法识别准确率和召回率高,具有实用价值。
- 张玥张宏莉
- 关键词:聚类
- 基于熵值的网络论坛热点话题发现被引量:10
- 2014年
- 针对网络论坛热点话题的识别、发现和舆情监测问题,提出一种基于热度熵值的热点话题发现方法。通过网络爬虫抓取网络论坛中的数据,在对数据进行预处理和分析热点话题属性特征的基础上,合理定义各属性的权重和话题的热度熵值,并以此对话题的热点信息进行分析、统计与评估,从而发现和追踪网络论坛中的热点话题。同时,对话题的热度进行细致划分和各种类型的定义,采用不同阈值策略计算不同类型的热度信息标注的准确率。实验结果表明,该方法合理、有效,相比于传统的话题语义分析方法具有较高的准确率,可作为互联网论坛舆情监测的依据。
- 孙永利李东张玥
- 关键词:网络论坛舆情监测
- 云计算平台中多虚拟机内存协同优化策略研究被引量:27
- 2011年
- 虚拟化技术为云计算基础设施资源的动态部署、安全隔离提供了重要保证.从过度占用内存的虚拟机中回收内存,提供给内存紧缺的虚拟机使用,优化多虚拟机间的内存分布是内存虚拟化中的挑战性问题.文中引入了自发调节和全局调节协作的多虚拟机内存管理架构.通过定义内存资源充裕状态和内存资源紧缺状态,提出了自发调节和全局调节之间协作的算法.处于内存资源充裕状态时,各虚拟机可采用自发调节策略平衡内存资源.处于内存资源紧缺状态时,基于空闲内存价格的全局调节策略平衡内存资源.实验结果表明,针对计算密集型与存储密集型负载,该框架与算法均能很好地提高服务能力,同时具有较高的可扩展性与较低的性能惩罚.
- 张伟哲张宏莉张迪程涛
- 关键词:云计算虚拟化
- IPv6环境下隧道流量解析安全性增强技术被引量:5
- 2013年
- 隧道是IPv4向IPv6过渡的主要方式之一,它通过附加外层包头方式解决了IPv4或IPv6孤岛的通信问题.文中对隧道流量进行了分析,指出其具有层次和类型不确定性,提出了广义隧道的概念.研究了网络协议解析设备上传统双栈对广义隧道的解析过程,指出恶意隧道流量会引发隧道干扰和多层分片攻击两类安全问题,并提出隧道流标记和后移重组两个关键技术予以解决.实验表明:隧道流标记代价较小,每层至多增加1%的计算时间,而后移重组平均每层减少7.5%的计算时间,增强了应对恶意隧道流量的能力.
- 崔宇张宏莉田志宏方滨兴
- 关键词:IPV6隧道双栈
- 基于幂律分布的网络用户快速排序算法被引量:5
- 2012年
- 随着网络论坛、博客、微博的发展,引出社会网络中的用户排序问题。将在线网络论坛中用户映射为节点,用户评论过程中形成的回复关系映射为有向关联图,其节点度符合幂律分布。且论坛中用户的主题发布行为和回复关系符合Pagerank算法的互增强和随机游走特性,因此选用Pagerank算法排序用户影响力。该文提出的研究问题:如何提高用户排序应用中数据的存储和运行效率。天涯网络论坛中80%以上用户入度为0,据此,根据入度是否为0划分为两个集合,对入度为0集合按出度构造链接表,设计了基于集合划分的高效排序算法SD-Rank。SD-Rank时空复杂性为O(V′),V′为入度非0节点集。对天涯网络论坛真实用户数据的实验结果表明:SD-Rank算法时空复杂性优于Pagerank算法。
- 张玥张宏莉张伟哲
- 关键词:幂律入度
- 识别网络论坛中有影响力用户被引量:11
- 2013年
- 网络论坛已经成为网络用户发布信息的重要渠道.在论坛中对热点话题的讨论影响着物理世界中人们的看法、观点以及国家政策法规的制定.由此提出一系列研究问题:如何计算用户影响力?不同主题不同时间下用户影响力如何比较?用户影响力发展趋势如何?根据幂律规律,大量用户形成"长尾",如何识别有影响力用户?以主题为单位,提取用户间回复关系,构建用户对话关联图,回复次数和回复长度形成用户行为特征,入度和出度形成网络结构特征.在Pagerank算法基础上,结合用户行为特征以及用户间关联网络特征,提出基于多属性的用户影响力排序算法(multiple attributes rank,MAR).并依据发表时间进行时间段切分,得到论坛上每日有影响力用户排行榜,进一步分析了有影响力用户演化趋势.以天涯网络论坛真实数据进行实验,从多角度评价有影响力用户以及MAR排序算法,得到一些有趣结论并对未来工作进行了展望.
- 张玥张宏莉张伟哲卢珺珈
- 关键词:网络论坛排序用户行为关联网络
- 一种关键字表达式的匹配优化方法被引量:2
- 2013年
- 随着网络安全应用需求的增加,内容检测系统中特征模式集规模不断增长,模式间的冗余重复越来越多。大量模式间的冗余重复直接影响了系统的资源使用率和检测性能。本文首先对表达式的包含关系做了分类,提出了表达式冗余消除算法,然后在BitCount算法的基础上提出了一种时间复杂度为O(1)的掩码验证算法MaskVeri。实验结果表明,改进后的算法性能更高。
- 杨天龙张宏莉
- 分布式搜索引擎系统效能建模与评价被引量:7
- 2012年
- 针对分布式搜索引擎系统效能建模与评估问题,通过对当前分布式搜索引擎系统的建模与分类,扩展了能耗与网络开销的成本模型;对5种构建搜索引擎系统的设计方案,从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析与评价.由此发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他系统具有相对较高的效能,同时能够较好地兼顾用户的服务质量.
- 张伟哲张宏莉许笑何慧
- 关键词:分布式搜索引擎分布式采集分布式索引
- 基于异质网络的意见领袖社区发现被引量:9
- 2012年
- 针对意见领袖社区发现问题,通过将论坛中主题及其回复关系建模为异质网络,准确表示社区结构.提出意见领袖社区影响力概念及其量化方法,在此基础上设计了一种基于异质网络的意见领袖社区发现算法.通过采集天涯论坛的大量数据,验证了该社区挖掘方案能够较准确地挖掘论坛中的意见领袖社区.
- 张伟哲王佰玲何慧谭卓鹏
- 关键词:网络社区意见领袖异质网络
- 基于语料阶梯评价的互联网论坛舆论领袖筛选算法被引量:1
- 2012年
- 针对互联网论坛中舆论领袖筛选问题,提出了基于发帖网民的语料和基于网民的网络行为统计属性特征的互补性网络舆论领袖筛选模型.通过深入分析基于在线社区内容的"影响力扩散模型",提出了基于发帖网民语料的"阶梯式"评价法的全新算法.对基于统计属性特征评价方法的属性进行了重新定义,选取了更为合理的网络统计数据,增加了互补性的属性值,使评价方法更趋完善.通过与专家法人工筛选出的舆论领袖相比较,该模型筛选出舆论领袖的成功率在85%以上,模型具有较强的实用性和重要应用价值.
- 张伟哲张鸿刘欣然陈琳李东
- 关键词:网络论坛舆情舆论领袖