国家自然科学基金(60275020)
- 作品数:61 被引量:815H指数:18
- 相关作者:王正欧钱晓东高茂庭安金龙王煜更多>>
- 相关机构:天津大学河北工业大学上海海事大学更多>>
- 发文基金:国家自然科学基金上海市教委科研基金上海海事大学重点学科建设项目更多>>
- 相关领域:自动化与计算机技术经济管理文化科学建筑科学更多>>
- 基于特征权重优化的改进KNN Web文本分类算法被引量:2
- 2007年
- 本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.
- 王煜白石王正欧
- 关键词:文本分类神经网络KNN算法
- 执业资格考试及格线确定的方法探讨被引量:4
- 2007年
- 执业资格考试规模不断扩大,对于目前执业资格考试及格线的确定方法,各方颇有异议,为有效解决这一问题,必须依据教育测量学与统计学的理论和做法,结合执业资格的资质要求,遵循客观性,给出一种确定执业资格考试及格线的方法。
- 王雪青赵辉
- 关键词:考试执业资格及格线
- 一种改进的基于粗集和Tabu搜索的属性约简算法被引量:1
- 2005年
- 提出了一种改进的基于粗集和Tabu搜索的属性约简算法。首先利用粗集中的一般约简算法,确定开始进行Tabu搜索的属性个数;然后逐渐减少属性个数,利用Tabu搜索搜寻含有较少属性个数的属性约简。在进行Ta bu搜索时,利用任一属性约简必包含属性核来减少算法的计算时间和搜索空间。实例表明,改进后的算法既具有较高的算法效率,又能以较大的概率得到最小属性约简。
- 王明春王正欧成方晓
- 关键词:TABU搜索属性核粗集属性约简算法数据挖掘人工智能
- 用于文本分类的改进KNN算法被引量:6
- 2007年
- 采用灵敏度方法对距离公式中文本特征的权重进行修正;提出一种基于CURE算法和Tabu算法的训练样本库的裁减方法,采用CURE聚类算法获得每个聚类的代表样本组成新的训练样本集合,然后用Tabu算法对此样本集合进行进一步维护(添加或删除样本),添加样本时只考虑增加不同类交界处的样本,添加或删除样本以分类精度最高、与原始训练样本库距离最近为原则。
- 王煜张明王正欧白石
- 关键词:文本分类KNN算法TABU算法
- 粗集理论对股票时间序列的知识发现被引量:10
- 2003年
- 提出了将粗集理论应用于时间序列的知识发现。知识发现的过程包括时间序列数据预处理、属性约简和规则抽取三部分。其中数据预处理主要用信号处理技术清洗数据,然后将清洗后的时间序列按照某个变量的变化趋势进行分割,分割后每个时间段内的变化趋势不变,从而将时间序列转换成为一系列静态模式(每种模式代表一种行为趋势),从而去掉其时间依赖性。把决定各种模式的相关属性抽取出来组成一个适用于粗集理论的信息表,然后采用粗集理论对信息表进行属性约简和规则抽取,所得到的规则可以用于预测时间序列在未来的行为。最后将该方法用于股票的趋势预测,取得良好效果。
- 王晓晔王正欧
- 关键词:知识发现时间序列粗集理论属性约简规则抽取
- 基于增量式模糊聚类算法的文本挖掘被引量:4
- 2022年
- 针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm,FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。
- 耿新青王正欧
- 关键词:模糊聚类聚类数文本聚类
- 一种基于双词关联的文本特征选择模型被引量:1
- 2007年
- 向量空间模型(VSM)是一种常用的文本特征表示方法,它是基于特征独立性假设建立起来的,将文本看成是由一个个独立的词所构成,这些词之间互不关联,这种方法丢失了文本中词间的一些重要的关联特征信息。基于双词关联的文本特征选择模型是在VSM的基础上,选择文本中相邻的单词之间的关联信息也作为文本特征,从而能更加充分地表达文本的特征信息。实验表明,这是一种更加有效的文本特征选择方法。
- 高茂庭王正欧
- 关键词:文本挖掘聚类分析
- 一种基于近邻匹配的中文分词算法Jlppeccz
- 2010年
- 提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.
- 耿新青陶凤梅黄宏光
- 关键词:中文分词分词系统
- 用于文本分类的改进KNN算法被引量:21
- 2007年
- 最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在初始权重下,根据样本间相似度采用SS树方法将训练样本划分成若干小区域,以此寻找待分类样本的近似k0个最近邻,并根据近似k0个最近邻和Chi-square距离原理计算新权重,搜索出新的k个最近邻。此方法在付出较小时间代价的情况下,在文本分离中可获得较好的分类精度的提高。
- 王煜王正欧白石
- 关键词:中文信息处理文本分类KNN算法
- 基于LSA降维的RPCL文本聚类算法被引量:8
- 2006年
- 文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数目。将这两种方法结合进行文本聚类可以在一定程度上解决维数和聚类数的问题,实验表明,这种方法能够收到较好的聚类效果,同时,实验还验证了向量余弦距离比欧氏距离方法更适合于文本相似度的计算。
- 高茂庭王正欧
- 关键词:文本聚类隐含语义分析聚类分析