黄永光
- 作品数:5 被引量:53H指数:2
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向变异短文本的快速聚类算法被引量:23
- 2007年
- 本文主要针对近些年来大量出现在聊天语言中和手机短信中的短文本,提出了一种快速有效的聚类算法。这些短文本由于具有不规范性和大量相似性等特点,我们称其为变异短文本。本文在原有的网页去重算法的基础上,根据变异短文本的特点,采取了特定的特征串抽取方法,并融合了压缩编码的思想,从而加快了处理速度。实验表明,基于该算法的聚类系统对于大量的变异短文本处理速度可以达到每小时百万级以上,并且有比较高的准确率。
- 黄永光刘挺车万翔胡晓光
- 关键词:人工智能模式识别特征串聚类
- 基于类别特征域的文本分类特征选择方法被引量:28
- 2005年
- 特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。
- 赵世奇张宇刘挺陈毅恒黄永光李生
- 关键词:计算机应用中文信息处理文本分类
- 面向变异短文本的快速聚类算法
- 本文研究了变异短文本的聚类技术,提出了一种快速准确的聚类算法,它在原有的去重算法基础上,针对变异短文本这一特殊情况,采取了特定的特征串抽取方法,并融合了压缩编码的思想,加快了处理速度。实验表明,基于该算法的聚类系统对于大...
- 黄永光刘挺车万翔胡晓光
- 关键词:特征串聚类
- 文献传递
- 基于网页挖掘的搜索引擎若干技术的研究
- 随着互联网的快速发展,搜索引擎越来越受人青睐。它能够将杂乱无章的信息整合起来,方便快捷地为用户提供信息。而搜索引擎搜索的最基本元素就是网页,所以本文从网页入手,对网页进行了时间信息挖掘,结构信息挖掘和指纹信息挖掘。与之对...
- 黄永光
- 关键词:搜索引擎
- 文献传递
- 面向变异短文本的快速聚类算法
- 本文研究了变异短文本的聚类技术,提出了一种快速准确的聚类算法,它在原有的去重算法基础上,针对变异短文本这一特殊情况,采取了特定的特征串抽取方法,并融合了压缩编码的思想,加快了处理速度。实验表明,基于该算法的聚类系统对于大...
- 黄永光刘挺车万翔胡晓光
- 关键词:信息检索聚类算法
- 文献传递