叶煌
- 作品数:7 被引量:9H指数:1
- 供职机构:中国科学院计算机网络信息中心更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项中国科学院知识创新工程更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于多核处理器的三维卷积并行计算方法、装置和设备
- 本发明涉及深度学习与高性能计算的交叉领域,特别是涉及一种基于多核处理器的三维卷积并行计算方法、装置和设备。该方法包括:根据多核处理器的从核阵列的存储器可用空间尺寸,将输入特征图在平行于其第三维度的方向上,分割为多个子输入...
- 李佳霖冯志宸田少博叶煌张鉴
- 一种包含弹性应变能的相场仿真方法及装置
- 一种包含弹性应变能的相场仿真方法,其特征在于,应用于材料的微结构演化,微结构包括多种粒子,多种粒子形成场,方法包括:确定微结构的模拟区域,模拟区域所包含多个子区域;获取弹性应变能系数参数,弹性模量矩阵以及应变矩阵;基于弹...
- 高雅倩尹吉宪叶煌张鉴
- 一种实时三维科学计算体素数据的特征提取方法和装置
- 本发明涉及深度学习与高性能计算的交叉领域,特别是涉及一种实时三维科学计算体素数据的特征提取方法和装置。该方法包括:获取体素数据,体素数据包含目标三维物体的空间数据;将体素数据输入第一深度神经网络,对目标三维物体进行定位,...
- 冯志宸高雅倩叶煌张鉴
- GPU集群下第一原理非局部映射势能计算
- 2013年
- 平面波赝势密度泛函(PWP-DFT)计算是材料计算中应用最广泛的方法,其中映射计算是PWP-DFT方法求解自洽迭代中重要的一部分。针对映射势能计算成为软件加速的瓶颈,提出了针对该部分的图形处理器(GPU)加速算法,其中考虑GPU的特点:1)使用了新的并行机制求解非局部映射势能;2)重新设计了数据分布结构;3)减少内存的使用;4)提出了一种解决算法中数据相关问题的方法。最终获得了18~57倍加速,使每步分子动力学模拟最终降为12 s。详细分析了该模块在GPU平台上的测试时间,同时对该算法在GPU集群上的计算瓶颈进行了讨论。
- 付继芸贾伟乐曹宗雁王龙叶煌迟学斌
- 关键词:第一性原理密度泛函理论GPU加速
- 基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化被引量:9
- 2019年
- 针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
- 龚鸣清叶煌张鉴卢兴敬陈伟
- IAP AGCM4.0与WRF嵌套的并行机制研究
- 科学院地球系统模式CAS-ESM成功实现了IAP AGCM4.0与WRF的单向嵌套,但其计算时间急剧增加,并行效率有待提高.因此,本文开展了基于二维剖分对大气环流模式IAP AGCM4.0进行并行优化的工作,研究了IAP...
- 王玉柱姜金荣何卷雄叶煌张贺迟学斌岳天祥
- 关键词:短期气候预测大气环流模式数值模拟
- 一种包含弹性应变能的相场仿真方法及装置
- 一种包含弹性应变能的相场仿真方法,其特征在于,应用于材料的微结构演化,微结构包括多种粒子,多种粒子形成场,方法包括:确定微结构的模拟区域,模拟区域所包含多个子区域;获取弹性应变能系数参数,弹性模量矩阵以及应变矩阵;基于弹...
- 高雅倩尹吉宪叶煌张鉴