樊娜
- 作品数:8 被引量:37H指数:3
- 供职机构:西北工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划教育部重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 利用词汇分布相似度的中文词汇语义倾向性计算被引量:2
- 2009年
- 针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法.该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果,计算中文词汇间的语义相似度;②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断.由于获取最优聚类结果是一个NP难问题,所以采用贪心算法求解近似最优值.通过在自建的语料库上进行测试,并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较,结果是所提方法的准确率达到了80%,表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的.
- 赵煜蔡皖东樊娜李慧贤
- 关键词:中文信息处理语义倾向依存句法分析知网
- 采用并行遗传算法的文本分割研究被引量:1
- 2009年
- 针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.
- 赵煜蔡皖东樊娜刘念
- 关键词:中文信息处理文本分割遗传算法
- 基于混合模型的WEB文本情感主题识别方法
- 本发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练,真实模拟不同情感倾向以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分别产生情感和主题...
- 蔡皖东樊娜
- 文献传递
- 匿名即时通信监控技术研究
- 2008年
- 匿名即时通信监控技术是近几年提出的一种网络监控技术,对于追查网络非法联络和犯罪取证具有重要的意义。首先提出了一种面向多代理技术的匿名即时通信监控模型;然后论述了匿名会话检测技术、匿名通信数据库的关联规则挖掘技术、匿名通信追踪技术等匿名即时通信监控关键技术;最后给出了实验结果,并对实验中发现的问题提出了解决方案。
- 赵煜蔡皖东樊娜
- 关键词:即时通信多代理匿名通信网络监控
- 基于混合模型的文本主题-情感分析方法被引量:4
- 2010年
- 提出了一种基于混合模型的文本主题-情感分析方法.将训练集中的文本分别标记情感倾向和主题类别,根据不同情感和主题的语言表达方式,分别估计出情感和主题语言模型.通过计算待处理的测试文本语言模型与这两类模型之间的距离,评估测试文本与模型之间的相似性,最终确定文本的主题和情感倾向.模型的参数选用了bigram特征,参数估计采用了最大似然估计和平滑技术相结合的策略.这种模型化方法具有通用性,可以应用到不同类型的数据集中.实验表明,与支持向量机方法相比,本文方法提取主题和分析情感的准确率更高,鲁棒性更强.
- 樊娜蔡皖东赵煜
- 关键词:混合模型情感分析主题提取KL距离
- 中文文本情感主题句分析与提取研究被引量:14
- 2009年
- 提出一种提取中文文本情感主题句子的方法。首先评估文本中语义概念的概括和归纳能力,确定文本主题概念。将包含主题概念的句子作为候选主题句子,计算各个候选句子的重要度,最终确定文本主题句。然后采用条件随机场模型,选取情感倾向特征和转移词特征训练模型,从文本主题句集合中提取情感主题句。实验证明,以提出的方法为基础进行文本情感分析,避免了与主题无关的句子对分析结果的影响,有效地提高了文本情感分析的准确率。
- 樊娜蔡皖东赵煜李慧贤
- 关键词:情感分析主题概念条件随机场
- 基于最大熵模型的观点句主观关系提取被引量:16
- 2010年
- 提出一种提取中文观点句中评价对象和评价词主观匹配关系的方法。分析观点句中评价词和评价对象的词性、词语位置,通过句法分析获取语义特征,将2类特征应用于最大熵模型,提取观点句的主观关系。实验结果证明,与取距离评价词语最近的词作为评价对象的Baseline方法相比,该方法大幅度提高了准确率和F测试值。
- 樊娜蔡皖东赵煜
- 关键词:最大熵句法分析
- 基于混合模型的WEB文本情感主题识别方法
- 本发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练,真实模拟不同情感倾向以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分别产生情感和主题...
- 蔡皖东樊娜