搜索到142篇“ 中文文档分类“的相关文章
- 基于受限玻尔兹曼机的中文文档分类被引量:3
- 2012年
- 最近,许多不同类型的人工神经网络(Artificial Neural Network)已经应用于文档分类,并且得到了较好的结果。但是,大多数的模型仅使用了少量特征作为输入,因此可能没有足够的信息来对文档进行准确分类。如果输入更多的特征,将可能发生所谓的维数灾难,导致模型的训练时间大幅度增加,其泛化能力也可能会恶化。因此,在原始高维的输入特征中抽取出高度可区分的低维特征,并将其作为相应模型的输入对改善模型的泛化性能会有很大的帮助。受限玻尔兹曼机(Restricted Boltzmann Machine)是一种新型的机器学习工具,因为其强大的学习能力,受限玻尔兹曼机已经被广泛应用于各种机器学习问题。在本文中,我们使用受限玻尔兹曼机从原始输入特征中抽取低维高度可区分的低维特征,并且使用支持向量机(Support Vector Machine)作为回归模型。
- 杨莹吴诚炜胡苏
- 关键词:文档分类支持向量机
- 中文文档分类中若干关键技术的研究
- 随着信息技术的发展,我们步入了一个信息化的社会,信息量呈几何级数增加。人们对信息资源的依赖性越来越大,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。
文本分类是指...
- 王敬
- 关键词:文本分类中文分词特征选取半监督学习中文信息处理
- 文献传递
- 基于ART神经网络的中文文档分类识别方法研究
- 2006年
- 为了提高信息查询的效率,本文将自适应谐振神经网络引入中文文档搜索分类之中。在讨论自适应谐振神经网络基本原理的基础上,提出一种新的中文文档的层次聚类算法,从而提高中文文档的分类识别效率。
- 王红
- 关键词:因特网中文文档神经网络模式识别
- 基于图模型的中文文档分类研究被引量:9
- 2006年
- 信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型—图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.
- 邹加棋陈国龙郭文忠
- 关键词:文本分类图模型向量空间模型
- Web中文文档分类技术研究
- 九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的Web文本中掌握最有效的信息始终是信息处理的一大目标。而文本分类系统...
- 王怡
- 关键词:信息检索文本分类技术中文文档
- 文献传递
- 基于半监督学习的中文文档分类技术研究
- 文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。随着Internet的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这些信息进行组织整理既费时费力且效果不理想,文本分类...
- 何尧
- 关键词:信息分类文本分类半监督学习中文文档
- 文献传递
- 层次化中文文档分类被引量:14
- 2004年
- 对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。
- 袁时金李荣陆周水庚胡运发
- 关键词:文档分类分类器
- 中文文档分类技术研究
- 随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程.该文提出了一个基于语义的自然语言文本分类器...
- 张滨
- 关键词:中文文档文本分类系统文本向量知识约简算法文本分类器
- 文献传递
- 基于相邻字对信息的中文文档分类研究被引量:9
- 2001年
- 本文首次提出利用相邻字对信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现中文文档分类的领域无关性和时间无关性 .分别利用 Naive Bayes和 k NN分类方法建立了基于相邻字对信息的中文文档分类系统 .
- 周水庚俞红奇胡江滔付辛胡运发
- 关键词:文档分类中文文档分类信息处理
- 无需词典支持和切词处理的中文文档分类被引量:13
- 2001年
- 利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。
- 周水庚关佶红胡运发
- 关键词:中文文档分类贝叶斯分类
相关作者
- 周水庚

- 作品数:134被引量:1,064H指数:15
- 供职机构:复旦大学
- 研究主题:数据挖掘 机器学习技术 可扩展性 解释性 GML
- 胡运发

- 作品数:229被引量:1,733H指数:21
- 供职机构:复旦大学
- 研究主题:互关联后继树 数据挖掘 信息检索 INTERNET 人工智能
- 吴诚炜

- 作品数:1被引量:3H指数:1
- 供职机构:中国电子科技集团公司第七研究所
- 研究主题:文档分类 中文文档分类 支持向量机
- 俞红奇

- 作品数:3被引量:89H指数:3
- 供职机构:复旦大学信息科学与工程学院计算机科学系
- 研究主题:中文文档 NG 查询分解 多数据库 信息处理
- 胡苏

- 作品数:1被引量:3H指数:1
- 供职机构:中国电子科技集团公司第七研究所
- 研究主题:文档分类 中文文档分类 支持向量机