代宁
- 作品数:4 被引量:21H指数:2
- 供职机构:教育部更多>>
- 发文基金:安徽省高校省级自然科学研究项目安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于类序列规则的中文微博情感分类被引量:9
- 2016年
- 研究中文微博文本的情感分类问题,介绍一种基于类序列规则的微博情感分类方法。通过情感词典和机器学习的方法获得微博文本中每个句子的2个潜在的情感标签,将每条微博文本看作是一个数据序列,从数据集中挖掘出类序列规则,从挖掘出的规则中提取出的有效特征并结合文本其他特征来训练分类器。在COAE会议提供的微博数据集上的实验结果表明该方法的有效性。
- 郑诚沈磊代宁
- 关键词:情感分类情感词典文本特征
- 融合BTM主题特征的短文本分类方法被引量:11
- 2016年
- 针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并引入词分布熵,衍生出新的算法计算权重。结合BTM主题模型中各主题下的主题词对词数较少的文档进行补充,并选择每篇文档在各个主题下的概率分布作为另一部分文档特征。通过KNN算法进行多组分类实验,结果证明该方法与传统的TF-IWF等方法计算特征进行比较,F1的结果提高了10%左右,验证了方法的有效性。
- 郑诚吴文岫代宁
- 关键词:主题模型
- 一种短文本主题特征的改进方法
- 2015年
- 主题模型被用来进行文本主题挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘短文本的主题特征也变得越来越重要。由于短文本的稀疏性,把传统的主题模型(如LDA)直接用在短文本上,生成的主题特征效果并不好。在研究LDA主题模型的基础上,提出一种改进的短文本主题特征提取方法。在此方法中,通过对每篇短文本获取"词对"共现的方式来对文本建模,代替传统的"词"共现的方式,这种方式一定程度上能缓解数据稀疏的问题,提高了主题特征的效果。在真实数据集上的实验表明,方法相比于传统主题模型,在短文本特征提取方面有较好的提升。
- 郑诚代宁
- 关键词:数据挖掘LDA主题模型
- 面向特定领域自动问答系统的语句相似度计算被引量:1
- 2015年
- 本文针对教务管理系统学生选课自动问答系统,提出一种语句相似度计算方法。该方法先采用基于布尔型VSM掩码的方法实现问题的初分类,再采用改进的编辑距离算法计算句子相似度来判断FAQ库的匹配,从而使系统返回问题的答案。实验结果表明该方法可行。
- 李健郑诚代宁
- 关键词:问答系统向量空间模型相似度计算