搜索到7814 篇“ 统一计算设备架构 “的相关文章
借势AI,RISC-V架构 能否“撼动”美国英伟达的统一 计算 设备 架构 (CUDA)生态? 2024年 在日前举办的第四届滴水湖中国RISC-V产业论坛(以下简称“滴水湖论坛”)上,北京大学讲席教授、RISC-V国际基金会人工智能与机器学习专委会主席谢涛表示:“手机成就了英国ARM的生态,我们期待AI成就开源的RISC-V的生态。” 李盼盼关键词:RISC AI 统一 计算 设备 架构 下的F-X域预测滤波并行算法被引量:2 2021年 针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一 计算 设备 架构 (CUDA)的并行算法。首先,对算法进行模块化分析以找到算法的计算 瓶颈;然后从每个窗口数据计算 相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理器(GPU)将滤波过程分解为多个任务并行处理;最后,对算法进行并行实现,并对相邻滤波窗口的数据冗余读取进行优化以提升算法效率。基于NVIDIA Tesla K20c显卡的实验结果表明,在250×250大小工区的地震数据中,所提并行算法较原串行算法在效率上实现了10.9倍的提升,同时能保证工程中要求的计算 精度。 杨先凤 贵红军 傅春常关键词:统一计算设备架构 并行计算 图形处理器 统一 计算 设备 架构 的D8算法并行化研究被引量:2 2020年 针对空间遥感技术的快速发展导致地理空间数据呈几何级数增长,传统GIS空间分析面临巨大的计算 实时性需求的问题,该文为提高GIS数字地形分析算法在处理海量高分辨率DEM数据时的计算 效率,基于CUDA众核流处理器并行编程模型,采用不同数据划分方法、纹理内存及异步数据传输机制等技术,对串行D8算法进行了并行化设计及算法优化,探索并分析了D8并行算法的数据拷贝与算法执行等环节的计算 效率变化。实验结果表明,CUDA并行编程能够对D8算法实现较为明显的加速,在按5个行子块进行划分、调用1 344个线程时并行加速效果达到最佳,加速比为19.5。并且,在不同行子块划分方式下且调用线程数不超过1 344个时,加速比随调用线程数的增加而增长,计算 时间占比随线程数的增加呈递减趋势。 张鹏 俞宵 马子云 范俊甫 周玉科关键词:CUDA 异步传输 基于统一 计算 设备 架构 的北斗软件接收机相关器设计 2016年 软件接收机相对于硬件接收机更灵活,通过可编程的软件平台能实现卫星信号的捕获、跟踪和定位解算,但接收机中的相关器运算量大,基于PC平台的软件接收机难以达到实时处理。本文利用PC机显卡的图形处理器(GSU)设计并实现了一种基于统一 计算 设备 架构 的相关器。实验结果表明,该相关器能实时完成北斗B1、B2和B3频点民用信号的相关运算,且运算速度比采用中央处理器(cPu)的传统软件接收机相关器快10倍以上,实现了软件接收机对GNSS信号的实时处理功能。 谢维华关键词:北斗卫星导航系统 统一计算设备架构 软件接收机 相关器 一种基于新型查表方法的统一 计算 设备 架构 并行计算 全息算法 被引量:11 2015年 为解决点源法计算 全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、精度高、占用内存少等特点,克服了点源法重复计算 相位的缺点。同时采用统一 计算 设备 架构 (CUDA)并行计算 在图形处理器(GPU)上加以实现,并进行了三次并行优化。在算法的验证与对比实验中,采用单显卡(GPU显卡)实现T-LUT算法,在不牺牲全息图再现像质量的前提下,成功地将点源法计算 全息的速度大幅度提升。实验发现在不同的物空间采样点数量的情况下,速度相对于点源法GPU运算提升30倍至近千倍不等。 蒋晓瑜 丛彬 裴闯 闫兴鹏 赵锴关键词:全息 查表法 统一计算设备架构 并行计算 基于统一 计算 设备 架构 的干涉成像光谱快速反演技术研究 被引量:7 2014年 在基于干涉光谱成像的气体成分实时遥测应用中,为了对推扫获取的原始干涉数据进行快速、有效的反演处理,提出一种结合计算 统一 设备 架构 (CUDA)的并行时空混合调制型长波红外干涉光谱反演算法。通过分析自主研制的时空混合调制型干涉光谱仪的数据获取模式,结合CUDA平台实现了并行反演算法。实验结果表明,基于CUDA平台的并行计算 技术比仅使用CPU进行计算 在效率上提升了5至20倍,为后期进一步做光谱识别打下了基础。 李宇 高教波 孟合民 张磊 张茗璇关键词:快速反演 CUDA 基于统一 计算 设备 架构 和基因表达式编程的自动聚类算法 被引量:1 2013年 针对基于基因表达式编程(GEP)的自动聚类算法GEP-Cluster中聚类中心的筛选和聚合、计算 数据对象到各聚类中心距离两个关键步骤效率不高的问题,提出了一种基于统一 计算 设备 架构 (CUDA)和GEP的自动聚类改进算法(CGEP-Cluster)。CGEP-Cluster算法采用基因阅读运算器方法对GEP-Cluster算法的聚类中心筛选和聚合步骤进行改进,并基于CUDA将GEP-Cluster算法中数据对象到各聚类中心距离的计算 并行化。实验结果表明,在数据对象规模较大时,CGEP-Cluster算法可获得8倍左右的加速比。CGEP-Cluster算法可用于聚类数未知且数据对象规模较大情况下的自动聚类。 杜欣 刘大刚 张开活 申远 赵康 倪友聪关键词:统一计算设备架构 基因表达式编程 聚类算法 GEP CLUSTER 演化算法 基于统一 计算 设备 架构 技术的图像处理方法和装置 本发明公开了一种基于统一 计算 设备 架构 技术的图像处理方法和装置,所述方法包括:获取基础数据,根据成像分辨率确定网格化结果数据规模;根据网格化结果数据规模获得K空间卷积窗口及窗内所有元素的坐标;依次根据K空间卷积窗内每一个元... 杨金柱 赵大哲 冯朝路 栗伟 王艳飞磁共振扩散张量成像数据分析中基于统一 计算 设备 架构 的高速行处理求解超定线性方程组方法 2012年 目的提出一种运行于普通个人电脑平台上的并行方法,用于求解MR DTI中的超定线性方程组。方法利用统一 计算 设备 架构 (CUDA)使中央处理器(CPU)与图形处理器(GPU)协同求解超定线性方程组。CPU用于数据准备与生成扩散矩阵,GPU中的大量流处理器并行用于迭代计算 。结果 CUDA模式下行处理运算速度远快于CPU串行计算 ,图像矩阵增大时这一优势更加明显。结论与CPU串行模式相比,CUDA模式可显著提高DTI数据处理速度。 王飞 高嵩关键词:扩散磁共振成像 图像处理器 统一计算设备架构 统一 计算 设备 架构 技术的应用研究进展被引量:1 2011年 统一 计算 设备 架构 (Compute Unified Device Architecture,CUDA)是NVIDIA公司近年来推出的针对图像处理单元(Graphics Processing Unit,GPU)的全新并行计算 框架。借助其C语言兼容特性以及GPU的强大并行计算 能力,CUDA技术在图像处理、科学计算 等领域取得了良好的加速效果。文章在对CUDA技术的应用情况进行回顾和总结的基础上,重点介绍了不同应用中采用CUDA技术进行计算 加速的原理,并探讨了CUDA技术今后的发展方向。 许建平关键词:CUDA 并行计算 图像处理
相关作者
肖汉 作品数:60 被引量:256 H指数:9 供职机构:郑州大学 研究主题:图形处理器 统一计算设备架构 计算语言 OPENCL CUDA 冯前进 作品数:285 被引量:612 H指数:11 供职机构:南方医科大学生物技术学院 研究主题:医学图像 图像 图像配准 图像分割 PET图像 陈庆奎 作品数:284 被引量:629 H指数:11 供职机构:上海理工大学光电信息与计算机工程学院 研究主题:并行通信 GPU集群 数据流 CUDA GPU 陈帝江 作品数:136 被引量:136 H指数:7 供职机构:中国电子科技集团公司第三十八研究所 研究主题:雷达结构 电子装备 工艺信息 雷达 卷绕机构 陈风 作品数:9 被引量:11 H指数:2 供职机构:江苏科技大学电子信息学院 研究主题:粒子群优化 统一计算设备架构 图形处理器 并行计算 图形处理单元