国家自然科学基金(61272136)
- 作品数:7 被引量:25H指数:3
- 相关作者:张云泉贾海鹏袁良李志豪冯晓兵更多>>
- 相关机构:中国科学院中国科学院大学北京联合大学更多>>
- 发文基金:国家自然科学基金广东省重大科技专项国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于ARM V8平台的向量算法库实现与优化被引量:8
- 2019年
- 基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8平台上的优化。实验结果表明,该方案在ARMV8计算平台上实现的向量算法库性能提升可达到10%~300%。
- 王晶张云泉梁军
- 关键词:数学函数库
- AccSMBO:一种基于超参梯度和元学习的SMBO加速算法被引量:1
- 2020年
- 为了利用最佳超参高概率范围和超参梯度,提出了加速的序列模型优化算法(sequential model-based optimization algorithms,SMBO)——AccSMBO算法.AccSMBO使用了具有良好抗噪能力的基于梯度的多核高斯过程回归方法,利用元学习数据集的meta-acquisition函数.AccSMBO自然对应的并行算法则使用了基于元学习数据集的并行算法资源调度方案.基于梯度的多核高斯过程回归可以避免超参梯度噪音对拟合高斯过程的影响,加快构建较好超参效果模型的速度.meta-acquisition函数通过读取元学习数据集,总结最佳超参高概率范围,加快最优超参搜索.在AccSMBO自然对应的并行算法中,并行资源调度方法使更多的并行计算资源用于计算最佳超参高概率范围中的超参,更快探索最佳超参高概率范围.上述3个技术充分利用超参梯度和最佳超参高概率范围加速SMBO算法.在实验中,相比于基于传统的SMBO算法实现的SMAC(sequential model-based algorithm configuration)算法、基于梯度下降的HOAG(hyperparameter optimization with approximate gradient)算法和常用的随机搜索算法,AccSMBO使用最少的资源找到了效果最好的超参.
- 程大宁张汉平夏粉李士刚袁良张云泉
- 关键词:元学习
- 基于ARMv8平台的多维FFT实现与优化研究被引量:9
- 2019年
- FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高性能实现日益重要.该文在ARMv8平台上实现和优化了一个高性能的多维FFT算法库:PerfFFT,通过FFT蝶形网络优化、蝶形计算优化、蝶形自动生成、SIMD优化、内存对齐、cache-aware的分块算法和高效转置等优化方法的应用,显著提升了FFT算法的性能.实验结果表明,PerfFFT相比目前应用最为广泛的开源FFT库FFTW实现了10%~591%的性能提升,而相比ARM高性能商业库ARM Performance Library实现了13%~44%的性能提升.
- 陈暾李志豪贾海鹏贾海鹏
- 关键词:FFT算法CACHE优化矩阵分块
- 边缘海静力数值预报模式并行算法研究
- 2016年
- 边缘海静力数值模式是国内针对边缘海特点自主开发的数值预报模式,但该模式因物理求解方程较多且采用不宜并行化的SOR求解算法而程序计算时间过长。针对上述问题,提出基于三维网格和海洋模式特点的SOR并行求解算法,该算法在保留三维网格数据间依赖关系的同时,有效解决了SOR迭代算法难以并行化的问题。同时,引入通信避免算法,采用MPI非阻塞通信方式,细分计算和通信过程,利用计算有效隐藏通信开销,提高了并行程序效率。实验结果表明,并行后的边缘海静力数值模式程序的性能相对串行程序提升了60.71倍,3天(25920计算时间步)预报结果的均方根误差低于0.001,满足海洋数值预报的时效性和精度要求。
- 逄仁波张云泉谭光明徐建良贾海鹏解庆春
- 关键词:非阻塞SOR
- 基于OpenCL的直方图生成算法优化方法研究被引量:3
- 2015年
- 随着GPU计算能力及可编程性的不断增强,采用GPU作为通用加速器对应用程序进行性能加速已经成为提升程序性能的主要模式.直方图生成算法是计算机视觉的常用算法,在图像处理、模式识别、图像搜索等领域都有着广泛的应用.随着图像处理规模的扩大和实时性要求的提高,通过GPU提升直方图生成算法性能的需求也越来越强.在GPU计算平台关键优化方法和技术的基础上,完成了直方图生成算法在GPU计算平台上的实现及优化.实验结果表明,通过使用直方图备份、访存优化、数据本地化及规约优化等优化方法,直方图生成算法在AMD HD7850 GPU计算平台上的性能相对于优化前的版本达到了1.8~13.3倍的提升;相对于CPU版本,在不同数据规模下也达到了7.2~210.8倍的性能提升.
- 安小景张云泉贾海鹏
- 关键词:GPGPUOPENCL
- 高性能计算多层次不连续非线性可扩展现象研究被引量:1
- 2020年
- 高性能计算是计算科学的具体实践,极大地促进了各领域的科学进展,也对国家的经济建设起到了无法替代的基础性作用.从几十年发展的时间尺度和十万至百万核量级并行规模尺度研究大规模并行软件的研制发展历史来看,发现大规模并行应用软件的开发中物理模型、并行算法、并行软件实现以及底层硬件多个层次中存在的可扩展性的两种有趣现象,即不连续性和非线性现象.本文总结分析这一普遍存在现象,系统梳理计算机软硬件发展,特别是高性能计算发展中的可扩展问题,为未来并行计算领域发展提供方法论层面的借鉴和指导.
- 张云泉袁良陈一峯冯晓兵张贺
- 关键词:可扩展性非线性