您的位置: 专家智库 > >

孙建涛

作品数:11 被引量:132H指数:5
供职机构:清华大学信息科学技术学院智能技术与系统国家重点实验室更多>>
发文基金:国家重点基础研究发展计划国家自然科学基金中国博士后科学基金更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 7篇期刊文章
  • 2篇学位论文
  • 2篇会议论文

领域

  • 11篇自动化与计算...
  • 2篇理学

主题

  • 5篇网页
  • 5篇向量
  • 4篇支持向量
  • 4篇支持向量机
  • 4篇网页分类
  • 4篇文本分类
  • 4篇向量机
  • 2篇网络
  • 2篇文本挖掘
  • 2篇极大熵
  • 2篇极大熵方法
  • 2篇降维
  • 2篇WEB挖掘
  • 1篇点击
  • 1篇信息处理
  • 1篇信息检索
  • 1篇信息推荐
  • 1篇信息熵
  • 1篇性能分析
  • 1篇语义

机构

  • 11篇清华大学
  • 2篇大连理工大学
  • 1篇烟台职业学院

作者

  • 11篇孙建涛
  • 9篇陆玉昌
  • 3篇郭崇慧
  • 2篇石纯一
  • 2篇夏克俭
  • 2篇王大亮
  • 2篇沈抖
  • 1篇唐焕文
  • 1篇丛艳
  • 1篇王泉德
  • 1篇鲁明羽
  • 1篇唐焕玲

传媒

  • 2篇计算机研究与...
  • 2篇清华大学学报...
  • 1篇系统工程理论...
  • 1篇小型微型计算...
  • 1篇计算机工程与...
  • 1篇全国搜索引擎...

年份

  • 1篇2006
  • 5篇2005
  • 4篇2004
  • 1篇2003
11 条 记 录,以下是 1-10
排序方式:
Web挖掘的降维和分类方法研究
孙建涛
关键词:互联网络文本分类语义索引网页分类降维
Web挖掘中的降维和分类方法研究
Web挖掘研究把数据挖掘方法和万维网(WWW)相结合,目的是从WWW的海量数据中挖掘有用的知识,研制高效的Web挖掘系统。本论文结合网页分类、网页摘要和个性化Web搜索等挖掘任务,以Web挖掘中的降维和分类方法研究为重点...
孙建涛
关键词:WEB挖掘网页分类降维万维网
文献传递
基于HowNet构造语义场的方法被引量:5
2005年
为了能尽量消除传统语义场研究中的主观随意性,提出一种基于HowNet构造语义场的新方法,并充分利用语义场的空间特性,将词语相似度计算引入语义场用于划分语义场结构。计算实例表明:提出的构造语义场、划分语义场结构的方法,有利于计算机自动获得语义场,具有客观性和可计算性的特点,有效排除了以往构造语义场的主观随意性,可应用到各种基于语义的文本处理方法中。
王大亮孙建涛陆玉昌夏克俭王泉德
关键词:信息处理语义场词语相似度HOWNET文本挖掘
网页分类技术研究及系统实现
万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS<'[1]>)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和...
沈抖孙建涛丛艳陆玉昌
关键词:网页分类特征提取贝叶斯算法SVM支持向量机
文献传递
广义支持向量机优化问题的极大熵方法被引量:15
2005年
 依据最优化理论中的KKT互补条件建立了广义支持向量机的无约束优化模型,并给出了一种有效的光滑化近似解法极大熵方法,为求解支持向量机优化问题提供了一种新途径.该方法特别易于计算机实现,理论分析和数值实验结果表明了模型和算法的可行性和有效性.
郭崇慧孙建涛陆玉昌
关键词:支持向量机极大熵方法
一种基于联想的网页推荐方法
提高搜索引擎的召回率和精度是网络挖掘技术的重要研究内容。某些特殊应用对搜索引擎的召回率更为关注。本文介绍一种基于联想机制的网页推荐方法,利用与用户的查询密切相关的联想信息,为用户产生候选的相关网页链接,以有效提高搜索引擎...
鲁明羽孙建涛陆玉昌
关键词:信息推荐信息检索
文献传递
多项式核支持向量机文本分类器泛化性能分析被引量:25
2004年
VC维理论和结构风险最小化准则是统计学习理论中的重要内容 ,基于这一理论的支持向量机算法由于具有好的泛化性能受到重视 ,并被研究用于文本分类问题 基于多项式核的研究工作认为SVM的泛化能力不受多项式阶数的影响 ,并且能够处理很高维的分类问题 ,用于文本分类无需进行特征选择 研究发现 ,随着多项式核阶数的升高 ,SVM文本分类器会出现过学习现象 ,并且特征数越多越明显 ,特征选择是必需的 通过估计函数集的VC维 ,基于结构风险最小化理论对此问题进行分析 。
孙建涛郭崇慧陆玉昌石纯一
关键词:支持向量机文本分类结构风险最小化
网页分类技术被引量:37
2004年
网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。
孙建涛沈抖陆玉昌石纯一
关键词:网页分类文本分类网络挖掘
文本分类中结合评估函数的TEF-WA权值调整技术被引量:41
2005年
文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整技术,设计了一种新的权重函数,将特征评估函数蕴含到权值函数,按照特征对文本分类的辨别能力调整其在分类器中的贡献.实验结果证明了TEF-WA权值调整技术在提高分类精度和降低算法的时间复杂度方面都是有效的.
唐焕玲孙建涛孙建涛
关键词:文本分类
一种面向自动文本摘要特征评价的新方法被引量:1
2004年
自动文本的特征评价方法的研究一直未受到研究者们的重视。以往只是简单地将面向文本集的TF.IDF特征评价方法应用于针对单文本的自动文摘领域,该方法无法排除低频词噪音的影响,特征评价存在明显误差,致使不能准确计算文本特征。文章引入信息熵,提出了针对单文本的特征评价方法TF.IDF.H。实验表明,新的特征评价方法能够准确获得文章主题特征,更好地改善文摘质量。
王大亮孙建涛陆玉昌夏克俭
关键词:自动文摘文本挖掘信息熵
共2页<12>
聚类工具0