唐向阳
- 作品数:4 被引量:2H指数:1
- 供职机构:暨南大学信息科学技术学院计算机科学系更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据集成增量检测中Sort Merge算法的改进和实现
- 2011年
- 在数据集成应用中,增量检测一个最主要的职责就是检测计算出数据源的增量数据,有多种方式可以检测分析出数据源的变化数据:触发器、日志分析、快照差分等等。而快照差分又可以采用不同的算法对两个快照进行计算,针对差分算法中SortMerge算法的一个改进和实现,主要利用有序文件来提高增量计算的效率。由于快照差分在字符串比对、文件差异计算、大数据量的差异对比、自然连接等实际问题有应用,对此类问题都有一定借鉴意义。
- 黄静宾李争唐向阳
- 关键词:数据集成增量数据SORT
- 基于简化MD5的TFIDF算法被引量:1
- 2012年
- 随着信息技术不断的发展,海量数据的处理效率成为不可逃避的问题。传统的网页分类算法在分类效果上已经相对成熟,所以在这样的背景下从传统网页分类算法中特征值权重算法的效率和代价出发,分析并提出了基于简化MD5的特征值权重算法。有效减少了特征值提取时的比对和最后一次排序的效率,从而提高了整个网页分类的效率。
- 刘雅正陈受凯唐向阳
- 关键词:VSMTFIDFMD5网页分类
- 基于简化MD5摘要技术快照差分算法的研究
- 随着计算机技术的飞速发展人类社会信息化程度得到不断推进,数字化的信息量呈现出几何级数增长的趋势。如果能够集成和有效地利用这些信息,将会极大的提高生产效率从而给社会带来极大的收益。数据集成最基础和最早的阶段是增量检测以得到...
- 唐向阳
- 关键词:MD5
- 文献传递
- 基于变异MD5的快照差分算法被引量:1
- 2010年
- 如何有效、及时地检测和抽取信息源的增量数据是数据仓库及各种数据集成的首要问题,而对于简单的数据源通常用比较数据源两个时刻的快照的方法来检测增量数据。本文从传统Sort Merge快照差分算法代价和效率入手,分析提升其效率和速度的可能方法,并提出基于变异的M5的Sort Merge算法,有效减少比较的数据量和输入输出的数据量,显著的提高了算法的效率。
- 唐向阳陈维维房元平
- 关键词:MD5SORTMERGE