朱海涛
- 作品数:4 被引量:12H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于向量扩展多核处理器的矩阵乘法算法优化研究被引量:4
- 2011年
- 在GODSON-3B八核处理器平台上,对矩阵乘法算法进行了优化和评估,针对矩阵乘法中A,B,C三个矩阵各自的访存特点,采用不同的方法对其访存行为进行优化,隐藏访存时间,使矩阵乘法性能达到122Gflops,效率为95.3%.
- 朱海涛陈云霁钱诚王玲胡伟武
- 关键词:多核寄存器堆矩阵乘法
- 面向龙芯3A体系结构的BLAS库优化被引量:8
- 2012年
- 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.
- 何颂颂顾乃杰朱海涛刘燕君
- 关键词:矩阵乘法BLASLINPACK
- 一种用于通用处理器结构优化的矩阵乘法性能模型被引量:2
- 2012年
- 矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95%以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50%左右.
- 朱海涛李玲陈云霁钱诚
- 关键词:矩阵乘法通用处理器结构优化
- 面向高密度计算的多核处理器结构研究
- 人类对计算能力的需求不但推动着高性能计算技术的不断发展,还推动着微处理器技术的发展。当前的超级计算机中普遍使用了高性能的微处理器,因此微处理器的性能对超级计算机和高性能计算有着至关重要的作用。在高性能计算中有一大类应用是...
- 朱海涛
- 关键词:多核处理器优化设计矩阵乘法结构性能