您的位置: 专家智库 > >

国家自然科学基金(60833004)

作品数:31 被引量:60H指数:5
相关作者:顾乃杰任开新刘燕君何颂颂郭利财更多>>
相关机构:中国科学技术大学安徽省计算与通讯软件重点实验室中国科学院更多>>
发文基金:国家自然科学基金国家科技重大专项国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术电子电信理学更多>>

文献类型

  • 31篇中文期刊文章

领域

  • 29篇自动化与计算...
  • 2篇电子电信
  • 1篇理学

主题

  • 6篇龙芯
  • 4篇龙芯3A
  • 3篇向量
  • 3篇向量化
  • 2篇虚拟机
  • 2篇容错
  • 2篇自动向量化
  • 2篇路由
  • 2篇路由算法
  • 2篇矩阵
  • 2篇矩阵乘
  • 2篇矩阵乘法
  • 2篇仿生
  • 2篇BLAS
  • 2篇FFT
  • 2篇JAVA虚拟...
  • 2篇并行化
  • 2篇乘法
  • 2篇处理器
  • 2篇PLACEM...

机构

  • 21篇中国科学技术...
  • 18篇安徽省计算与...
  • 6篇中国科学院
  • 3篇国防科学技术...
  • 3篇清华大学
  • 2篇安徽大学
  • 2篇沈阳军区总医...
  • 1篇东北大学
  • 1篇中国矿业大学...

作者

  • 15篇顾乃杰
  • 8篇任开新
  • 5篇刘燕君
  • 4篇何颂颂
  • 3篇彭飞
  • 3篇窦勇
  • 3篇郭利财
  • 3篇黄章进
  • 2篇吕启
  • 2篇张颖楠
  • 2篇汪东升
  • 2篇鞠大鹏
  • 2篇徐佳庆
  • 2篇冯雪
  • 2篇林传文
  • 2篇梁娟娟
  • 2篇高翔
  • 2篇杨阳朝
  • 2篇于璠
  • 2篇徐志广

传媒

  • 15篇小型微型计算...
  • 3篇计算机工程
  • 2篇清华大学学报...
  • 2篇计算机系统应...
  • 2篇Tsingh...
  • 1篇中国科学技术...
  • 1篇计算机工程与...
  • 1篇计算机应用与...
  • 1篇沈阳工业大学...
  • 1篇微电子学
  • 1篇计算机科学
  • 1篇Journa...

年份

  • 1篇2015
  • 2篇2014
  • 9篇2013
  • 5篇2012
  • 8篇2011
  • 5篇2010
  • 1篇2009
31 条 记 录,以下是 1-10
排序方式:
一种多倍数据供应的编译优化方法
2011年
数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提高应用程序效率.在编译优化阶段,利用自动向量化技术,生成向量形式的树结构,增加一条新的扩展路径来处理从向量化的树结构到底层结构的扩展.针对向量化后树结构的多样性问题,设计新的优化遍以及RAC(Register Assignment Chain)替换算法进行专门处理.在龙芯3A处理器平台上,对SPEC-CPU2000的测试,CINT程序平均性能提升11.6%,CFP程序平均性能提升14.4%.
彭飞顾乃杰高翔孙明明
关键词:自动向量化龙芯3A
一种仿生的面向可重构多细胞阵列的分布式定序方法
2011年
提出一种仿生的面向多细胞阵列的分布式定序方法.该方法是基于生物学上的图式形成理论,通过催化剂-抑制剂模型在多细胞阵列中建立浓度梯度,并在此基础上进行定序.该方法具有如下的特点:跟现有的多细胞阵列维序方法相比,它采用主动的维序方式;跟传统的分布式定序方法相比,它不需要初始特征值就能实现定序和维序.故障注入实验表明,该定序方法较现有的方法具有更强的鲁棒性,在细胞出错的情况下能够重新建立浓度梯度和重新定序.此外,我们在Xilinx公司的型号为Virtex-6 XC6VLX760的FPGA芯片上实现了5x5多细胞阵列,对浓度梯度建立和重建时间及硬件资源开销进行了评估.
吕启徐佳庆窦勇冯雪
关键词:仿生
一种近似无阻塞的置换三级Clos网
2010年
提出设计一种具有小阻塞概率、低硬件代价的的三级Clos网的方法.通过对阻塞概率与硬件代价的折衷,给出当端口利用率不是特别大时,具有小阻塞、低代价的三级Clos网模型,并且对端口利用率大的情况作了分析讨论.最后通过对于不同网络规模的比较可发现,对于所搭建的网络,其硬件代价比相应的严格无阻塞网络降低将近一半,而阻塞概率却非常小.
于璠任开新徐志广刘燕君
GPU上的矩阵乘法的设计与实现被引量:7
2011年
矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX 260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。
梁娟娟任开新郭利财刘燕君
关键词:矩阵乘法GPUCUDA
基于混合存储结构的卷级连续数据保护系统被引量:2
2010年
针对卷级连续数据保护历史任意时间点视图查看和恢复的瓶颈难题,提出了使用NVRAM进行临时数据组织、SSD硬盘存储增量数据和HDD硬盘存储历史镜像数据的混合存储结构的解决方案。在增量数据写入时,引入了段大块写入和延迟写策略,克服了固态硬盘随机写性能速度低的不足。在历史镜像数据恢复时,充分利用固态硬盘随机读性能的优势,实现了历史镜像视图的快速查看和读取。给出了性能评价和系统实现,评估了混合存储结构的有效性。实验表明:该方法较传统的单一存储结构,在恢复速度上平均提高近50倍。
生拥宏刘瑞汪东升鞠大鹏
关键词:连续数据保护
基于龙芯3B的循环规约算法向量化研究
2013年
研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量化算法相比,向量化算法的性能提升较大。
吴淅黄章进顾乃杰
关键词:向量化泊松方程离散化
面向龙芯3A体系结构的BLAS库优化被引量:8
2012年
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.
何颂颂顾乃杰朱海涛刘燕君
关键词:矩阵乘法BLASLINPACK
龙芯3A处理器上FFT的高效实现被引量:5
2012年
FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右.
郭利财刘燕君
关键词:龙芯3AFFT
2-Omega新型会议网络的设计与分析
2010年
针对已有会议网络(CCN)的拓扑不规则和延迟不一致问题,提出一种由Omega-1汇集网络和Omega复制网串接的2-Omega CCN——GBCCN,设计出整体上具有较好对称性的新型CCN。依据Omega网局域编码自路由策略的特点,给出该网络上设置路由路径的2种快速自路由策略,通过分析证明其硬件代价为O(nlogn),通信延迟和路由时间的复杂度为O(logn),均达到已有CCN的最优量级,并具有更小的复杂度系数。
徐志广任开新于璠
关键词:自适应路由算法
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
2011年
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores.
邓林窦勇
关键词:CG
共4页<1234>
聚类工具0