刘海峰
- 作品数:76 被引量:315H指数:11
- 供职机构:解放军理工大学理学院更多>>
- 发文基金:国家自然科学基金江苏省自然科学基金国防科技技术预先研究基金更多>>
- 相关领域:自动化与计算机技术文化科学理学经济管理更多>>
- 文本分类中基于核的非线性判别被引量:5
- 2008年
- 针对文本分类问题中的特征降维问题,改进最大散度差鉴别准则,引入核变换作为前处理,使最大散度差鉴别准则可适用于更广泛的文本分类情形.提出一种基于核的非线性鉴别方法用于文本特征抽取.借助于核变换解决了散度差准则在用于文本分类时线性可分性较差的问题.在最低限度减少信息损失的前提下实现了特征维数的大幅度减缩.文本分类试验结果表明,这种非线性方法与无核的最大散度差方法相比,F1值提高了4.7%,具有明显的效率上的优势.
- 刘海峰姚泽清刘守生王倩
- 关键词:文本分类特征抽取散度差核变换
- Web信息检索模型特点与问题综述被引量:2
- 2009年
- 通过对信息检索的3个经典模型——布尔模型、向量模型、概率模型及其主要的扩展模型进行评述,总结了各种模型的特点、应用途径以及理论上的不足,并探讨解决相关问题的可能途径。
- 刘海峰张学仁刘守生
- 关键词:信息检索向量模型
- 基于VSM的模糊标引文本检索若干问题研究
- 2006年
- 探讨向量空间模型下文本检索存在的问题。在文本聚类模式下提出特征项选取的改进方法:对TF-IDF因子提出位置参数加权模式;对特征项标引问题引进模糊方式:对数据稀疏等问题归纳解决的方法。
- 刘海峰王元元张学仁
- 关键词:向量空间模型聚类位置加权
- 一种基于类别分布信息的文本特征选择模型被引量:5
- 2013年
- TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。
- 刘海峰于利军刘守生
- 关键词:文本分类TF-IDF
- 文本分类中一种混合型特征降维方法被引量:12
- 2009年
- 提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异信息对特征集进行初步选择。使用一种新的基于PCA的特征抽取方法对剩余特征集进行二次抽取,在最大限度减少信息损失的前提下实现了文本特征的有效降维。对文本的分类实验结果表明,该特征降维方法具有良好的分类效果。
- 刘海峰王元元姚泽清张述祖
- 关键词:文本分类特征抽取主成分分析
- 文本分类中一种基于正交变换的特征降维方法被引量:4
- 2008年
- 本文讨论了一种基于正交变换的文本特征降维方法。分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系。实验结果表明这种特征降维模式在文本分类的准确性方面效果较好。
- 刘海峰王元元张学仁刘守生
- 关键词:文本分类特征抽取特征降维正交变换奇异值分解
- 基于位置的文本特征加权方法研究被引量:10
- 2009年
- TF-IDF是文本特征赋权的常用方法.该方法简单易行,但没有考虑位置因素对特征赋权的影响.通过修改因子,分析不同条件下文本表现形式的差异,提出3个基于位置的文本特征加权方法.随后的文本分类试验表明,此加权模型相比较于传统的方法,均具有较好的文本标注效果.
- 刘海峰姚泽清汪泽焱张学仁
- 关键词:特征加权位置加权文本分类
- 随机截尾指数寿命数据之参数θ的极大似然估计及其性质被引量:1
- 2000年
- 针对随机截尾试验模型 ,导出了失效数据组的联合分布函数 ;在受试样本服从指数分布的条件下 ,获得了参数θ的极大似然估计及其性质 ,这是相对于定数截尾和定时截尾来说更具有一般意义的结果。
- 刘海峰
- 关键词:极大似然估计数学期望可靠性
- 基于散度差准则的文本特征降维研究被引量:8
- 2008年
- 研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分类器进行了基于密度的改进,消除了由于文本分布倾斜对分类器产生的影响。实验结果表明,这种方法在文本分类的准确性方面效果较为理想。
- 刘海峰王元元张学仁刘守生
- 关键词:文本分类特征抽取特征降维散度差KNN分类器
- 基于聚类的VSM模糊标引模式下文本检索问题研究被引量:1
- 2007年
- 本文针对向量空间模型文本检索存在的几个问题进行了研究和探讨。在文本聚类模式下提出了特征项选取的改进方法;对TF-IDF因子提出了位置参数加权模式;对特征项标引问题引进模糊方式;对数据稀疏等问题总结了解决的方法。
- 刘海峰张学仁王倩
- 关键词:聚类位置加权