马雯雯
- 作品数:3 被引量:45H指数:2
- 供职机构:重庆大学计算机学院更多>>
- 发文基金:重庆市自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 新的短文本特征权重计算方法被引量:9
- 2013年
- 短文本固有的特征稀疏和样本高度不均衡等特点,使得传统长文本的加权方法难以直接套用。针对此问题,提出一种针对短文本的特征权重计算方法——综合类别法。该方法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验结果表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。
- 马雯雯邓一贵
- 关键词:文本分类
- 基于隐含语义分析的微博热点话题发现策略
- 作为一个社会化媒体,微博的应用已经深入到人们的日常生活中,成为大家发布和传播信息、获取知识的重要平台。文本是网络信息的主要载体,包含着网民的观点与思想倾向,对网络舆情分析和话题发现具有重大应用价值和研究意义。 然而,社...
- 马雯雯
- 关键词:文本信息混合聚类
- 基于隐含语义分析的微博话题发现方法被引量:36
- 2014年
- 随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。
- 马雯雯魏文晗邓一贵
- 关键词:隐含语义分析向量空间模型LATENTSEMANTIC