国家自然科学基金(61221062)
- 作品数:11 被引量:39H指数:3
- 相关作者:汪文祥胡伟武张云泉吴瑞阳李焱更多>>
- 相关机构:中国科学院中国科学院大学龙芯中科技术有限公司更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 数据触发的基本块间弹性控制电路综合方法
- 2015年
- 研究了面向弹性粗粒度可重构阵列(CGRA)的高级语言综合方法,针对现有方法由于采用逐个执行基本块的方式限制了循环代码性能的问题,提出了一种在内层循环基本块间局部地采用数据触发的新型控制方式。这一新的综合方式在保证正确性的同时可缩短循环迭代间隔。实验表明,该方法平均只需引入25.4%的面积开销即可缩减50%的执行时间,并在5/6的测试程序上节约了执行能耗。
- 黄元杰陈云霁陈云霁
- 关键词:可重构处理器动态调度
- 龙芯指令系统融合技术被引量:5
- 2015年
- 本文介绍了龙芯CPU的指令系统融合技术.龙芯CPU在兼容MIPS指令系统的基础上进行扩充,增加MIPS中不具备但X86和ARM具备的、对二进制翻译影响很大的核心功能,形成龙芯指令系统Loong ISA.在此基础上,通过软硬结合的二进制翻译,在龙芯CPU上运行X86和ARM的主流系统及应用,以弥补MIPS架构软件生态的不足.实验结果表明,通过软硬件协同优化,龙芯指令系统融合技术能够消除指令系统之间的壁垒,使得MIPS,X86,ARM等不同指令集的软件能够融合到统一的Loong ISA平台上,不加区别地高效运行.
- 胡伟武靳国杰汪文祥张晓春王焕东
- 关键词:龙芯CPU二进制翻译
- 龙芯UNCACHE加速原理及其在系统图形性能优化中的应用被引量:2
- 2015年
- 针对当前采用独立显卡的桌面计算机系统架构普遍存在的CPU(中心处理单元)访问GPU(图形处理单元)存储空间数据传输延迟较大的瓶颈,采用了龙芯GS464处理器核心实现的UA(uncache acceleration)机制对GPU驱动程序中的GPU存储空间访问接口进行优化,极大地提高了处理器向GPU等IO存储空间连续数据写入的速度。详细分析了龙芯处理器uA机制的原理及其相对于uncache方式IO写所能带来的性能提升。通过UA机制优化了龙芯3A+2H平台的GPU驱动性能,x11perf测试结果显示,采用UA优化GPU驱动后,Xserver的一些接口性能提升达5%~230%。将龙芯处理器的UA机制封装到了标准MMAP系统调用,并通过该扩展后的系统调用优化了Xserver的Xvideo扩展接口,实验结果显示,播放常见较高分辨率视频时该接口性能能够有6~12倍的性能提升。
- 张爽爽孟小甫汪文祥高翔
- 关键词:UA图像
- 二进制翻译系统中信号处理机制的研究
- 2015年
- 考虑到用户级二进制翻译(BT)系统需要支持在应用程序特别是多线程程序中广泛使用的信号机制,研究了用户级BT系统中的信号处理问题。详细分析了BT系统在处理信号时存在的各种问题,在此基础上设计了一种新的BT系统执行框架,用以降低用户级BT系统由于同时处理自己的信号和访客程序的信号造成的信号处理复杂度;提出了BT系统的信号隔离机制,用以避免BT系统处理信号时出现信号丢失和死锁问题,有效提高信号处理的健壮性。该机制的性能和有效性已通过测试试验得到验证。
- 远翔武成岗王振江
- 关键词:信号处理信号隔离
- 众核处理器片上网络的层次化全局自适应路由机制被引量:2
- 2016年
- Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适应算法和区域自适应算法均存在不同程度的短视现象,不适合大规模的Mesh结构,而目前全局自适应算法又由于路由计算量大而速度缓慢.提出一种新的层次化全局自适应路由机制,包括一个全局拥塞信息传播网络Roof-Mesh和一个层次化全局自适应路由算法(global hierarchical adaptive routing algorithm,GHARA).通过全局拥塞信息传播网络得到拥塞信息,GHARA采用全网分区逐级计算路由的方式,减少了全局路由的计算步骤,从而减少了平均数据包延迟、提升了饱和带宽.实验结果表明GHARA表现优于其他区域和全局自适应路由算法.在人工注入通信模式下,8×8 Mesh平均饱和带宽比全局自适应算法GCA提高10.7%,16×16Mesh平均饱和带宽比全局自适应算法GCA提高14.7%.在运行真实测试程序集SPLASH-2模式下,数据包延迟最高比GCA提高40%,平均提升14%.
- 张洋王达叶笑春朱亚涛范东睿李宏亮谢向辉
- 关键词:片上网络
- 基于OpenCL的直方图生成算法优化方法研究被引量:3
- 2015年
- 随着GPU计算能力及可编程性的不断增强,采用GPU作为通用加速器对应用程序进行性能加速已经成为提升程序性能的主要模式.直方图生成算法是计算机视觉的常用算法,在图像处理、模式识别、图像搜索等领域都有着广泛的应用.随着图像处理规模的扩大和实时性要求的提高,通过GPU提升直方图生成算法性能的需求也越来越强.在GPU计算平台关键优化方法和技术的基础上,完成了直方图生成算法在GPU计算平台上的实现及优化.实验结果表明,通过使用直方图备份、访存优化、数据本地化及规约优化等优化方法,直方图生成算法在AMD HD7850 GPU计算平台上的性能相对于优化前的版本达到了1.8~13.3倍的提升;相对于CPU版本,在不同数据规模下也达到了7.2~210.8倍的性能提升.
- 安小景张云泉贾海鹏
- 关键词:GPGPUOPENCL
- 龙芯GS464E处理器核架构设计被引量:15
- 2015年
- 龙芯GS464E是龙芯公司最新推出的高性能处理器核架构.在本文中,将介绍GS464E架构的核心特性.相比于之前的GS464架构,重点强化了访存性能和分支预测准确率,实现了MIPS DSP指令集和虚拟机支持,增大了处理器中各项队列的项数,并增大了Cache容量和TLB容量.访存子系统拥有3级Cache结构,每一级都采用LRU替换策略,可以支持多核缓存一致性协议.经过上述强化设计,GS464E处理器核已成为一个创新性的高性能处理器核架构.
- 吴瑞阳汪文祥王焕东胡伟武
- 关键词:多核处理器缓存一致性
- 基于NUMA架构的解释器访存优化设计与实现
- 2015年
- 为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。
- 任彤傅杰靳国杰
- 关键词:虚拟机解释器响应速度启动性能
- 片上多核处理器的区域共享的双粒度目录
- 2015年
- 研究了双粒度目录(DGD)下片上多核处理器的访存行为以及DGD对不同共享行为的目录开销,以进一步降低DGD结构的面积开销。针对DGD需要为共享缓存区域创建额外的块目录项的问题,提出了创新的区域共享的双粒度目录(RSDGD)结构。该结构可用一个区域共享目录项同时维护最多3个共享者共享同一个缓存区域的一致性,从而能有效减少所需的块目录项数量,降低总的目录开销。实验结果表明,和原有的DGD相比,该结构平均减少了25%的目录空间需求,而仅产生了不到0.6%的性能损失。该结构有效地降低了芯片的面积开销,提高了目录结构的可伸缩性。
- 曾露陈新科王焕东
- 关键词:片上多核处理器缓存一致性区域共享
- 异构平台上性能自适应FFT框架被引量:10
- 2014年
- 快速傅里叶变换(fast Fourier transform,FFT)在科学和工程界中具有着广泛的应用,尤其是在信号处理、图像处理以及求解偏微分方程领域.基于图形处理器(graphic processing unit,GPU)和加速处理器(accelerated processing unit,APU)的异构平台,提出了自适应性能优化的大规模并行FFT(massively parallel FFT,MPFFT)框架.MPFFT框架采用了安装时和运行时2层自适应策略.安装时借助代码产生器可以生成被GPU程序内核(kernel)调用的任意长度的代码模板库(codelet);运行时根据自动调优技术使代码产生器生成高度优化的GPU计算代码.实验结果表明:MPFFT在APU平台上,一维、二维以及三维FFT相对于AMD clAmdFft 1.6取得的平均加速比分别为3.45,15.20以及4.47,在AMD HD7970GPU上平均加速比分别为1.75,3.01和1.69.在NVIDIA Tesla C2050GPU上取得的整体性能都达到了CUFFT 4.1的93%,最大加速比能够达到1.28.
- 李焱张云泉
- 关键词:快速傅里叶变换图形处理器异构