黄沈滨
- 作品数:4 被引量:24H指数:2
- 供职机构:哈尔滨工业大学网络与信息中心更多>>
- 发文基金:国家自然科学基金中国博士后科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 分布式数据不一致性检测的实现与优化
- 2015年
- 数据的不一致性检测是数据清洗中一个重要的主题。传统集中式数据的不一致性检测问题可以使用基于SQL的技术得到解决,而对于分布式的数据,往往面临着诸多挑战。目前研究者提出了基于函数条件依赖的不一致性检测技术对该问题进行了深入研究,将分布式不一致性检测问题转化成最优化问题,并提出了若干可行的解决算法。本文介绍了分布式数据下的基于函数条件依赖的不一致性检测问题,并实现了基于最优化问题的分布式检测算法,最后组织相关实验进行验证和改进。
- 王海洁黄沈滨朱振华
- 关键词:分布式数据条件函数依赖
- 基于马尔科夫随机场的粘连字符串切分算法被引量:5
- 2013年
- 粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到各点可作为分割点的概率,在概率图上使用图像分割的算法确定分割位置。实验结果表明,该算法对模拟的粘连字符串、重叠字符串和真实的手写字符串都可以得到较好的分割结果。
- 杨庆海卢波颜子夜黄沈滨王海洁
- 关键词:马尔科夫随机场
- 大数据云清洗系统的设计与实现被引量:1
- 2015年
- 数据清洗是大数据中一个重要的主题。本文基于Hadoop设计并实现了一个大数据的云清洗系统。通过Map-Reduce计算模型,该系统能够检测并修复数据质量方面的各类问题。该系统包含以下特征:(1)支持数据质量方面各类问题的清洗工作;(2)数据云清洗进度可视化以及参数设置;(3)友好的数据集输入接口以及清洗后的数据集输出接口。该大数据云清洗系统对文本数据和数据库数据均是一个有效且高效的数据清洗系统。
- 黄沈滨王海洁朱振华
- 关键词:大数据数据质量MAP-REDUCE
- 基于Map-Reduce的大数据缺失值填充算法被引量:18
- 2013年
- 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
- 金连王宏志黄沈滨高宏
- 关键词:缺失值填充MAP-REDUCE