李晓黎
- 作品数:12 被引量:630H指数:7
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- WEB信息检索与分类中的数据采掘研究
- 文本的研究目的,一方面是利用数据采掘技术提高检索与分类的准确性.另一方面希望通过对这些问题的研究,在网上信息的知识表示、相似度度量、大规模数据采掘、海量信息的有效利用、检索与分类的算法等方面做一些有意义的探索.该文的研究...
- 李晓黎
- 关键词:数据采掘网页分类词性标注网页分割概念语义空间
- 文献传递
- 面向CIMS的数据仓库及数据挖掘研究
- 张建史忠植田启家胡宏王军李云峰张颖刘继敏叶施仁宫秀军李晓黎吴斌何清刘少辉武成岗李辉郑毅朱光涛傅伟鹏
- 提出一种新型的学习模型:该模型由观察学习和内省学习构成。提出一种基于偏置变换的决策树学习算法BSDT。提出了基于摄动的模糊聚类方法:简称FCMBP模糊聚类。提出概念层次的提升及下沉方法。提出了关联属性度量的概念;提出了必...
- 关键词:
- 关键词:数据仓库数据挖掘
- 一种中文网页的聚类算法
- 本文提出了一种考虑网页内容与网页之间链接的新聚类算法.在给出了一种新的网页表示方法后,着重讨论了网页间距离度量的方法.然后提出了一种新的聚类算法对网页进行聚类.在给定聚类半径后,任何网页可以通过比较其与聚类中心的距离决定...
- 李晓黎史忠植
- 关键词:中文网页聚类算法网页内容
- 文献传递
- 网络信息的智能获取理论研究
- 史忠植何清梁吉业胡宏刘继敏宫秀军李晓黎叶施仁刘少辉游湘涛吴斌贾自艳黄友平李嘉佑郑征董明楷张海俊李清勇
- 该项目在研究网络信息智能获取理论的基础上,构建智能信息处理平台,实现信息/知识的一体化获取、管理、服务,达到信息/知识共享,为应用系统开发提供支持软件和开发工具以及系统规范,可以快速开发出特定领域的具有不同功能的信息系统...
- 关键词:
- 关键词:知识发现网络信息获取
- 一种实现搜索引擎个性化服务的方法被引量:55
- 2002年
- 1 引言随着Internet网上信息的剧增,人们在利用计算机检索信息时变得越来越困难.一方面是信息非常丰富,收到太多的信息却无从选择和消化;另一方面是信息迷失,人们难于找到自己真正所需的信息.
- 谭琼李晓黎史忠植
- 关键词:搜索引擎个性化服务INTERNET信息检索
- 多策略数据库知识发现
- 王军史忠植叶施仁李晓黎宫秀军游湘涛何清刘少辉
- 该课题提出了基于元知识的多策略知识发现算法框架。通过采用元知识概念,将大大提高多策略KDD系统的开发调试工作。针对多策略问题,提出了集成多种采掘算法的基于数据仓库的采掘模型,并实现了基本原型系统。研究多种发现算法的可视化...
- 关键词:
- 关键词:知识发现数据挖掘
- 高维数据中有效的相似性计算方法被引量:9
- 2000年
- 相似性的计算是 CBR和 k- NN等 L azy L earning研究中十分关键的问题 .研究了降低相似性计算代价的方法 ,并以 k- NN为例 ,介绍了基于部分特征的相似性算法和基于投影的相似性算法 ,它们能够通过减少计算距离过程中所涉及的特征数目来提高算法的效率 .实验表明效率的提高是明显的 ,其中基于部分特征的 k- NN算法效率提高 2 6%~ 2 8% ,基于投影的 k- NN算法效率提高 48%~ 83% .作者已将该算法应用到工程中 .
- 叶施仁游湘涛史忠植李晓黎
- 关键词:计算方法高维数据数据采掘数据库
- 基于支持向量机与无监督聚类相结合的中文网页分类器被引量:199
- 2001年
- 提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 .
- 李晓黎刘继敏史忠植
- 关键词:支持向量机无监督聚类INTERNET
- 用数据采掘方法获取汉语词性标注规则被引量:19
- 2000年
- 从数据采掘的角度对汉语文本词性标注规则的获取进行研究 .在满足用户规定的支持度向量的前提下 ,先从候选集模式中挑选出常用模式 ;然后采掘出具有高可信度的产生式规则 .该过程完全是自动的 ,而获取的规则在表达上是明确的 ,同时又是隐含在数据中的、用户不易发现的 .实验表明 :在原有统计方法的基础上 ,利用自动获得的标注规则作为补充 ,可以提高词性标注的正确率 .
- 李晓黎史忠植
- 关键词:数据采掘中文信息处理
- 文档中词语权重计算方法的改进被引量:222
- 2000年
- 文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一 ,但现在tf.idf方法无法把握这一因素。针对这个问题 ,本文引入信息论中信息增益的概念 ,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子 ,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中 ,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法 ,验证了改进方法tf.idf.IG的有效性和可行性。
- 鲁松李晓黎白硕王实
- 关键词:文本表示向量空间模型信息增益