博士科研启动基金(12zx7116)
- 作品数:14 被引量:69H指数:5
- 相关作者:杨春明张晖赵旭剑李波何天翔更多>>
- 相关机构:西南科技大学中国科学技术大学更多>>
- 发文基金:博士科研启动基金四川省教育厅资助科研项目更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 面向产品属性的用户情感模型被引量:3
- 2016年
- 传统情感模型在分析商品评论中的用户情感时面临两个主要问题:1)缺乏针对产品属性的细粒度情感分析;2)自动提取的产品属性其数量须提前确定。针对上述问题,提出了一种细粒度的面向产品属性的用户情感模型(USM)。首先,利用分层狄利克雷过程(HDP)将名词实体聚类形成产品属性并自动获取其数量;然后,结合产品属性中名词实体的权重和评价短语以及情感词典作为先验,利用潜在狄利克雷分布(LDA)对产品属性进行情感分类。实验结果表明,该模型具有较高的情感分类准确率,情感分类平均准确率达87%。该模型与传统的情感模型相比在抽取产品属性和评价短语的情感分类上具有较高的准确率。
- 贾闻俊张晖杨春明赵旭剑李波
- 关键词:情感模型细粒度
- 面向维基百科的领域知识演化关系抽取被引量:19
- 2016年
- 互联网下同一领域中不同知识概念间存在多种关系,其中演化关系对于用户学习和理解领域知识,梳理领域知识的前序和后续逻辑关系具有重要意义,然而网络数据的多样和无序使用户难以准确有序地获取领域知识关系.针对该问题,提出一种面向中文维基百科领域知识的演化关系抽取方法,利用语法分析特征,挖掘演化关系模式,构建演化关系推理模型,采用基于句子层面的关系抽取算法识别领域知识演化关系,最后在真实的维基百科数据集上对该文方法进行了性能评测.实验表明,该方法具有较高的关系抽取准确率和召回率,能有效地抽取出维基百科中领域知识的演化关系.同时,基于实验抽取结果构建知识图谱,能有效挖掘领域学科下知识集合的演化体系,识别重难点知识,对学科建设以及相关课程教学具有一定的指导意义.
- 高俊平张晖赵旭剑杨春明李波
- 关键词:领域知识维基百科关系抽取条件随机场社会媒体
- 基于增量图聚类的动态多文档摘要算法被引量:2
- 2016年
- 目前的动态文摘方法几乎都基于文档批处理机制,无法适应实际应用中表现为不稳定数据流的文档数据,因此无法满足实时更新摘要的需求。针对上述问题,提出了一种基于K近邻句子图模型的动态文本摘要方法。根据K近邻规则构建一个双层句子图模型,用基于密度划分的增量图聚类方法对句子进行子主题划分,最后结合时间因素提高句子新颖度来抽取动态文摘。该方法能基于文档数据流增量式地抽取动态文摘,实现文摘内容的实时更新。在TAC2008和TAC2009的update summarization数据集上的实验结果显示了该方法在动态文摘抽取上的有效性。
- 郭海蓉张晖赵旭剑李波杨春明
- 关键词:K近邻
- 基于完全稀疏主题模型的多文档自动摘要被引量:1
- 2014年
- 为了解决稀疏情况下的自动文档摘要问题,将提出的完全稀疏主题模型引入到文档摘要中。根据模型中主题分布和主题的词汇分布,提出了该模型上的自动摘要算法。为了验证该方法的有效性,在DUC 2007数据集上使用ROUGE自动摘要评测工具进行评测。通过与DUC 2007中专家摘要和对多种实验的比较,比较结果表明,该摘要方法在准确率上显著优于其它方法,同时在推断时间、方法的简单性等各个方面也都具有优势。
- 邵洲张晖
- 关键词:多文档摘要稀疏性DUC
- 基于社会网络关注度的学科前沿热点挖掘被引量:3
- 2018年
- 从科研文献数据中挖掘出学科前沿热点是目前学术界和工业界亟待解决的问题.社会网络可以及时反映信息传播的实际受欢迎程度,故提出一种基于社会网络关注度的学科前沿热点挖掘方法.首先通过数据相关性分析、相关属性划分以及社会网络关注度因子挖掘,构建文献热度评价模型.同时,采用文档主题生成模型(latent dirichlet allocation,LDA)从文献热度评价模型挖掘的科研文献中识别出该学科的前沿热点.最后,在"artificial intelligence and image processing"学科的数据集上构建评价模型并进行多组对比实验,结果表明提出的方法有效提高了学科热点挖掘结果的前沿性,热点主题在时间维度上更具时效性.
- 张晖杨小彦赵旭剑杨春明李波
- 关键词:LDA模型
- 一种基于改进K-means的动态文摘提取方法被引量:2
- 2015年
- 随着互联网的发展和Web2.0的应用,网络信息呈现出越来越明显的动态演化性,传统的静态文摘方法不能很好地反应文摘的动态变化和新颖性,难以满足人们对于摘要获取效率的要求,动态文摘技术成为新的研究热点。提出一种基于改进K-means算法的动态文摘提取和更新方法。为了减小聚类结果对初值的依赖性,提高聚类的稳定性,采用聚类中心的搜索算法获得较优的初始聚类中心。它能解决使用传统聚类方法进行动态文摘提取中存在的重复计算问题,并能保持较高效率。在TAC2008上的实验证明,该方法生成的动态文摘效果较好、算法效率高。
- 郭海蓉张晖赵旭剑李波杨春明
- 关键词:K-MEANS增量聚类TAC
- 基于用户行为网络的微博意见领袖挖掘算法被引量:12
- 2015年
- 微博意见领袖挖掘中通常单独考虑用户属性、网络结构或交互信息等特征,对这些特征之间的关系及微博信息的话题特征考虑较少。针对上述问题,提出了一种基于用户行为网络的微博意见领袖挖掘算法TopicLeader Rank。该算法利用微博用户的内容属性和社交属性,并结合用户在特定话题中的交互信息构建用户行为网络,然后利用Page Rank算法的投票思想,同时考虑网络中节点权重和边权重对投票的影响来挖掘意见领袖。在新浪微博三个话题数据集上的实验结果表明,该算法是有效的,在覆盖度和核心率指标上的值高于用户权重排序和Microblog-Rank算法,在人工评价上的表现也优于这两种算法。
- 吴岘辉张晖赵旭剑李波杨春明
- 关键词:意见领袖PAGERANK
- 一种话题相关的微博意见领袖挖掘算法被引量:7
- 2014年
- 微博中的意见领袖对信息的快速传播起着关键作用,能在短时间内对数量众多的用户产生直接或间接的影响.在微博中,意见领袖除了具有自身属性和网络结构特征外,还与参与的话题高度相关.针对已有挖掘研究只考虑了意见领袖的局部特征以及忽略了话题相关性的问题,提出一种话题相关的意见领袖挖掘算法.该算法首先根据微博用户的自身属性及用户间话题相关的交互信息构建带权的话题相关的微博图模型,并采用随机游走的思想来寻找图模型的中心节点,以此挖掘微博中的意见领袖.在新浪微博三个话题数据集上的实验结果表明,该算法挖掘的意见领袖在扩展核心率指标上优于类似算法.
- 吴岘辉张晖杨春明李波赵旭剑
- 关键词:意见领袖随机游走
- 一种基于话题演化的意见领袖发现方法被引量:2
- 2016年
- 微博中的意见领袖不仅在社交网络的信息传播中发挥着举足轻重的作用,而且在网络舆情演化中也表现出显著的意见代表性。针对已有的意见领袖挖掘方法仅从复杂网络或者基本图模型来建模发现意见领袖,忽略了意见领袖在具体的话题演化中的意见代表性的问题,提出了基于话题演化的意见领袖发现的方法。该方法首先根据用户之间的交互构建图模型,然后利用寻找中心节点的图论算法挖掘潜在意见领袖,再利用话题演化模型判断潜在意见领袖的演化中心度,最后发现在整体舆情上的具有意见代表性的真实意见领袖。在新浪微博的话题数据集上的试验结果表明,该算法较仅考虑网络模型的意见领袖发现方法更优。
- 王祎珺张晖李波杨春明赵旭剑
- 关键词:意见领袖图模型
- 基于概率矩阵分解的多指标协同过滤算法被引量:2
- 2016年
- 为解决已有关于多指标评分推荐方法中忽略多指标之间存在相关性的问题,提出一种基于概率矩阵分解的多指标协同过滤算法(multi-criteria collaborative filtering algorithm based on probabilistic matrix factorization,M CPM F)。该算法将多指标评分表示成一个对整体用户和产品产生影响的权重矩阵,并假设该矩阵潜在分布服从高斯分布,其概率密度分布与用户和产品特征矩阵的概率密度分布条件相关。通过概率矩阵分解的方法学习得到用户和产品特征矩阵。在两个真实数据集上的试验结果表明,该方法比只考虑单一综合评分的方法能更加精确地预测用户的综合评分,同时能降低数据稀疏对推荐算法的影响。
- 庞俊涛张晖杨春明李波赵旭剑
- 关键词:推荐系统协同过滤