王可
- 作品数:3 被引量:28H指数:3
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家高技术研究发展计划国家科技重大专项国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 异构平台上基于OpenCL的FFT实现与优化被引量:9
- 2011年
- 快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpenCL实现了基于2的幂一维FFT,并对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。
- 李焱张云泉王可赵美超
- 关键词:FFTOPENCLCUDAGPU快速傅立叶变换
- SIMD技术与向量数学库研究被引量:10
- 2011年
- 首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。
- 解庆春张云泉王可李焱许亚武
- 关键词:向量化SSEMMXSIMD
- 基于GPU的分子动力学模拟并行化及实现被引量:9
- 2011年
- 分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的重要途径。GPU以几百GFlops甚至上TFlops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法——oApT-AD,并在OpenCL和CUDA框架下加以实现。性能测试显示,在Tesla C1060显卡上,该算法在OpenCL框架下的实现相对于CPU的串行实现,最高达到120倍加速比。通过对比发现,该算法在CUDA上的性能与OpenCL基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。
- 费辉张云泉王可许亚武
- 关键词:分子动力学GPUOPENCLCUDA