杨增辉
- 作品数:5 被引量:18H指数:3
- 供职机构:西安理工大学计算机科学与工程学院更多>>
- 发文基金:陕西省自然科学基金国家自然科学基金陕西省教育厅科研计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于自适应步长的支持向量机快速训练算法被引量:5
- 2008年
- 支持向量机训练问题实质上是求解一个凸二次规划问题。当训练样本数量非常多时,常规训练算法便失去了学习能力。为了解决该问题并提高支持向量机训练速度,分析了支持向量机的本质特征,提出了一种基于自适应步长的支持向量机快速训练算法。在保证不损失训练精度的前提下,使训练速度有较大提高。在UCI标准数据集上进行的实验表明,该算法具有较好的性能,在一定程度上克服了常规支持向量机训练速度较慢的缺点、尤其在大规模训练集的情况下,采用该算法能够较大幅度地减小计算复杂度,提高训练速度。
- 姚全珠田元王季张楠杨增辉
- 关键词:支持向量机自适应步长
- 基于主题的Hidden Web信息获取研究
- 随着World wide Web(WWW)的爆炸式增长,Hidden Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。这些信息需要通过查询接口在线访问其后端的Web数据库才能得到。尽管丰富的信息蕴藏在Hidden...
- 杨增辉
- 关键词:搜索引擎信息检索网络爬虫
- 文献传递
- 基于压缩后缀数组技术的搜索引擎被引量:6
- 2008年
- 目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码。对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%。
- 姚全珠张楠杨增辉田元
- 关键词:倒排文件后缀数组搜索引擎
- 基于最小二乘支持向量机的非平衡分布数据分类被引量:5
- 2008年
- 支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。
- 姚全珠田元王季杨增辉张楠
- 关键词:支持向量机
- 基于启发式查询词选择算法的Hidden Web获取研究被引量:2
- 2007年
- Hidden Web因为其隐蔽性而难以直接抓取,因此成为信息检索研究的一个新领域。提出了一种获取Hidden Web信息的方法,讨论了实现的关键技术。通过设计提出的启发式查询词选择算法,提高了抓取的效率。实验证明了该模型和算法的有效性。
- 姚全珠杨增辉张楠田元
- 关键词:信息检索WEB爬虫启发式算法