您的位置: 专家智库 > >

国家自然科学基金(61100072)

作品数:4 被引量:7H指数:2
相关作者:龙国平贾海鹏张云泉吴再龙徐建良更多>>
相关机构:中国科学院软件研究所中国海洋大学中国科学院大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 3篇GPU
  • 3篇OPENCL
  • 1篇型函数
  • 1篇图像
  • 1篇图形处理器
  • 1篇平移
  • 1篇自适应光学
  • 1篇自适应光学系...
  • 1篇向量
  • 1篇向量化
  • 1篇卷积
  • 1篇均值平移
  • 1篇均值平移算法
  • 1篇跨平台
  • 1篇快速傅立叶变...
  • 1篇光学
  • 1篇光学系统
  • 1篇函数
  • 1篇傅立叶变换
  • 1篇ROI

机构

  • 4篇中国科学院软...
  • 3篇中国海洋大学
  • 2篇中国科学院大...
  • 1篇中国科学院研...

作者

  • 4篇龙国平
  • 3篇张云泉
  • 3篇贾海鹏
  • 1篇李玉成
  • 1篇颜深根
  • 1篇徐建良
  • 1篇马文静
  • 1篇吴再龙
  • 1篇庞旭
  • 1篇吴振华
  • 1篇唐秋艳
  • 1篇蒋丽媛
  • 1篇王中杰

传媒

  • 2篇计算机科学
  • 1篇大气与环境光...
  • 1篇科研信息化技...

年份

  • 1篇2014
  • 3篇2013
4 条 记 录,以下是 1-4
排序方式:
自适应光学数值仿真成像在GPU上的实现被引量:2
2014年
在自适应光学(AO)系统中,成像是不可或缺的一部分。AO仿真系统中的探测器和哈特曼-夏克波前传感器的成像过程一般用二维的离散卷积来计算,而通常它的数值算法用快速傅立叶变换(FFT)实现。但是随着矩阵维数的增加,卷积的运算量会急剧增大,成为制约整个AO仿真效率的一个瓶颈。利用图形处理器(GPU)的强大计算能力,可以使成像系统运行速度大幅提高。在NVIDIA Tesla C2050 GPU上,针对不同分辨率的图像,获得了相对于串行程序5-24倍的加速比。
吴振华唐秋艳王中杰马文静龙国平李玉成
关键词:自适应光学系统卷积快速傅立叶变换图形处理器
基于OpenCL的图像重映射算法优化研究被引量:3
2013年
图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不NGPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMDHD5850GPU上相对于CPU版本取得114.3--491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01~1.86的加速比,在NIVIDIAC2050GPU上相对CPU版苓取得100.7~369.8倍的加速比,相对于CUDA版本得到0.95~1.58的加速比。有效验证了本文提出的优化方法的有效性和胜能可移植性。
吴再龙张云泉龙国平徐建良贾海鹏
关键词:OPENCL跨平台
基于OpenCL的均值平移算法在多个众核平台的性能优化研究被引量:1
2013年
OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速。由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速。通过对均值平移算法在GPU和APU平台的优化,探讨了不同平台各种优化方法的贡献力,一方面研究各个平台的计算特性,另一方面体会不同优化方法的优劣,在优劣的相互转化中寻求最优的解决方案。实验表明,算法并行优化前、后在AMD 5850、Tesla C2050和APU A6-3650上分别达到了9.68、5.74和1.27倍加速,并行相比串行程序达到79.73、93.88和2.22倍加速,前两个平台OpenCL版本相比,CUDA版本的OpenCV程序达到1.27和1.24倍加速。
庞旭张云泉龙国平贾海鹏颜深根
关键词:GPUAPUOPENCL均值平移算法
基于OpenCL的连续数据无关访存密集型函数并行与优化研究被引量:2
2013年
连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作。在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化。在考察向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植。实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850GPU达到了平均40倍的性能加速比;在AMD HD 7970GPU达到了平均90倍的性能加速比;在NVIDIA Tesla C2050GPU上达到了平均60倍的性能加速比;同时,与这个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla C2050平台上也达到了1.5倍的性能加速。
蒋丽媛张云泉龙国平贾海鹏
关键词:GPUOPENCL向量化ROI
共1页<1>
聚类工具0