郭晨晨 作品数:11 被引量:9 H指数:2 供职机构: 山西师范大学 更多>> 发文基金: 山西省自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
刍议信息领域第三次浪潮——以物联网发展为例 2016年 在这个大数据、云计算基本占据整个互联网世界的当下,物联网似乎还只是停留在理论和概念。物联网究竟是什么,为何我们要关注并投入巨大的人力物力来研究,未来的社会它将带给我们怎样的福祉,这是我们都需要关注和了解的问题。 郭晨晨关键词:物联网 基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进 被引量:3 2016年 为了提高并行遗传算法在大数据聚类问题中的时间效率,通过利用粗粒度遗传算法的并行化思想,提出了Hadoop平台上基于MapReduce计算框架的粗粒度遗传算法的并行化设计。该思想主要来源于大数据体量庞大的特点,聚类算法时间消耗巨大。并行是解决算力不足的一个较为有效的方法,实验结果表明,并行化的遗传算法在处理大数据聚类时相比传统的串行化处理在时间消耗方面有明显的降低。 郭晨晨 朱红康关键词:大数据 聚类 MAPREDUCE 基于粗糙集理论的模糊支持向量聚类算法的改进 被引量:1 2016年 支持向量聚类(SVC)是一种重要的基于密度的聚类算法,在现实世界中有很多重要的应用。在没有任何先验知识的情况下,该算法提供了处理任意簇的能力,即任意轮廓和检测类数量的数据集。然而,如果异常值存在于数据中,该算法无法将这些点进行分类,这样会导致有关数据集重要信息的丢失。为了弥补这些缺陷,将粗糙集理论和模糊集理论与支持向量聚类算法相结合得到一种新的改进算法称为粗糙-模糊支持向量聚类算法(Rough-Fuzzy Support Vector Clustering)。即通过使用支持向量作为聚类原型获得粗糙-模糊聚类。该聚类的结构特征有两个主要内容:下近似集和模糊边界。当支持向量集作为一个特殊的聚类,通过元素间的亲密程度,模糊边界的隶属度可以被计算出来。而下近似集包含的样本点建立在SVC算法训练阶段获得的超球体内。在检测异常值和计算任意轮廓的聚类方面,本文所介绍的聚类算法与软聚类算法相比拥有相当程度的优势。 郭晨晨 朱红康关键词:粗糙集 模糊集 超球体 数据挖掘 基于MapReduce和并行遗传算法的大数据聚类问题研究 2017年 聚类是将不同对象的集合分割为由相似对象组成的多个不同类的过程,是最重要的数据挖掘技术之一.然而,对于大数据聚类却是一个复杂的问题.由于大数据体量庞大,聚类算法时间消耗巨大.并行是解决算力不足的一个非常好的方法.据此,本文采用了Hadoop平台上的MapReduce来实现大规模数据集的并行运算,将大数据聚类问题的时间复杂度限制到一个可以接受的范围内.最后本文从时间消耗和聚类精确度方面对该方法的性能收益进行了评估,在保证较高精确度的同时大大提高了运算速度. 郭晨晨 朱红康关键词:大数据 MAPREDUCE 数据挖掘 并行遗传算法 聚类 一种基于MapReduce的改进k-means聚类算法研究 被引量:2 2016年 传统k-means算法的聚类中心需要经过多次迭代运算才能最终稳定,而MapReduce计算框架下的k-means聚类算法在处理迭代运算时效率并不理想.针对上述问题,提出一种新的基于MapReduce的k-means聚类算法.该算法对传统k-means算法进行了改进,通过将k-means聚类问题转化为Map和Reduce两阶段的k-means++算法聚类问题,并将权值概念和单通道技术引入到传统k-means++算法中,提升了算法在MapReduce框架中的执行效率.实验分析表明,该方法较之传统方法具有更好的加速比和可扩展性. 郭晨晨 朱红康关键词:K-MEANS MAPREDUCE 单通道 并行化 加速比 支持向量机算法的若干改进及其研究 信息化社会海量数据的爆发式增长推进了大数据时代的到来。由于传统数据处理工具大多数基于少量样本和结构化数据而设计,难以满足大数据处理的要求。因此产生了数量众多的新型数据处理模型。支持向量机是其中影响及应用领域较为广泛的一种... 郭晨晨关键词:支持向量机 基于模糊支持向量机的多标签分类方法改进 被引量:1 2017年 One-against-all支持向量机的多标签分类存在将样本分类到训练集无法获取标签的"未定义"区域和没有明确决策函数的标签模糊区域的问题。对此提出一种基于模糊支持向量机的多标签分类改进方法(FSVMi)。该方法通过将多条决策边界合并,并为每个标签类分配相应的隶属函数。实验结果表明,相比于现有方法,该方法更具有优越性。 郭晨晨 朱红康关键词:模糊支持向量机 隶属函数 基于K-均值和K-中心点算法的大数据集分析 2016年 大数据已然成为当今世界最热门的话题之一,对于海量数据处理方法的研究一直是重要的科研领域,将原有的数据统计分析方法加入到大数据分析中也是必然的研究方向.文章选取了K-Means及其K-Mediods算法对KEEL的transaction10k数据集进行评估.该数据包含较大的数据容量,因此对于模拟大数据环境有很好的作用.可以想象到,现实世界庞大的数据真实客观地反映到图像中必然会为分析数据带来极大的便利.输入到这些算法中是随机分布的数据点,并根据其相似度产生的聚类已经生成.比较结果表明,K-Medoids在种子对象的选取和聚类间重叠的合理控制方面要比K-均值更有优势. 郭晨晨 朱红康关键词:大数据 聚类 数据处理 K-MEANS 一种改进的支持向量机模型研究 被引量:2 2017年 传统的支持向量机无法充分、有效地检测出类间重叠区域中的少数实例,也无法对不平衡的数据集作出合理分类,而类的重叠分布和不平衡分布在复杂数据集中是常见的.因而,它们对支持向量机的分类性能产生负面影响.基于此,提出了一种利用距离度量代替支持向量机松弛变量的改进模型.在一定程度上解决了支持向量机处理复杂数据集中类间重叠和不平衡的问题.最后,利用合成数据集和UCL数据库中的数据集的实验验证了该算法的先进性. 郭晨晨 朱红康关键词:支持向量机 不平衡 基于模糊集和粗糙集的支持向量聚类算法研究 2016年 目前很多已知的聚类算法对于异常点的处理存在不合理的问题,将模糊集和粗糙集的相关理论加入到支持向量聚类算法中,可增加异常点处理的合理性,并得到一种新的改进算法,将其称为模糊—粗糙支持向量聚类算法.当支持向量集作为一个特殊的聚类,通过元素间的亲密程度,模糊边界的隶属度可以被计算出来.而下近似集包含的样本点建立在算法训练阶段获得的超球体内.在检测异常值和计算任意轮廓的聚类方面,该算法具有较大的优势和潜力. 郭晨晨 朱红康关键词:粗糙集 模糊集 超球体 数据挖掘