张明阳
- 作品数:2 被引量:10H指数:2
- 供职机构:河北大学更多>>
- 发文基金:河北省高等学校科学技术研究指导项目国家自然科学基金河北省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 2种加速K-近邻方法的实验比较被引量:3
- 2016年
- K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用.
- 翟俊海王婷婷张明阳王耀达刘明明
- 关键词:K-近邻数据挖掘MAPREDUCEHADOOP
- 基于哈希技术和MapReduce的大数据集K-近邻算法被引量:7
- 2017年
- K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。
- 翟俊海张明阳王婷婷郝璞
- 关键词:K-近邻哈希技术大数据集