宋健
- 作品数:5 被引量:5H指数:2
- 供职机构:中国人民解放军更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向数字图像处理的硬件链表设计
- 解决数字图像处理中的可变数据集合维护问题,本文提出了一种有效的硬件链表设计方案。硬件链表能够自主进行空间回收,而且它的长度可以通过参数进行配置。本文的设计实现了链表的基本功能,但用法有所简化,它已经成功应用到行人跟踪系统...
- 宋健窦勇徐金波张阳
- 基于FPGA的细粒度并行CYK算法加速器设计与实现被引量:2
- 2010年
- 基于随机上下文无关文法(SCFG)理论模型进行RNA二级结构预测是目前采用计算方法研究RNA二级结构的一种重要途径.由于基于SCFG模型的标准结构预测算法(Coche-Younger-Kasami,CYK)巨大的时空复杂度,对CYK算法进行加速成为计算生物学领域一个极具挑战性的热点问题.CYK的并行性能受限于算法多维度、非一致性的数据依赖关系和较低的计算/通信比,现有的基于通用微处理器结构的大规模并行处理方案不能获得令人满意的加速效果,并且大规模并行计算机系统硬件设备的购置、使用、日常维护的成本高昂,其适用性受到诸多限制.文中在深入分析CYK算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行CYK算法.设计采用了对三维动态规划矩阵"按区域分割"和"逐层按列并行处理"的计算策略实现了多个处理单元间的负载均衡;采用数据预取、滑动窗口和数据传递流水线实现处理单元间的数据重用,有效解决了计算和通信间的平衡问题;设计了一种类似脉动阵列(systolic-like array)结构的主从多PE并行计算阵列,并在目前最大规模的FPGA芯片(Xilinx XC5VLX330)上成功集成了16个处理单元(processing elements),实验结果表明作者提出的CYK算法加速器结构具备良好的可扩展性.当RNA序列长度为959bps,CM模型状态数为3145时,与运行在Intel双核E5200 2.5GHzCPU、2.0GB主存通用计算上的Infernal-1.0软件相比,可获得超过14倍的加速效果.配置一个FP-GA算法加速器的通用计算平台的综合处理性能与包含20个Intel-Xeon CPU的PC集群相当,而硬件成本仅为后者的20%,系统功耗不到后者的10%.
- 夏飞窦勇宋健雷国庆
- 关键词:生物信息学RNA二级结构预测硬件加速器
- 行人自动跟踪系统硬件加速技术研究
- 随着计算机处理能力的提高,行人跟踪已成为计算机视觉研究中的一个热点。行人跟踪能够应用于军事和民用领域,例如视频监视、MPEG-4视频图像压缩、虚拟现实和人机感知接口等。许多行人跟踪系统已经使用软件实现,但软件处理速度仍然...
- 宋健
- 关键词:硬件加速流水线调度KALMAN滤波活动形状模型
- 资源约束的FPGA流水线调度被引量:1
- 2008年
- 循环是程序中十分耗时的部分,流水线能够加速循环执行但需要大量运算资源。由于FPGA资源有限,将循环代码在FPGA上加速时手动设计流水线不具有实际可行性。该文使用软件流水将循环自动映射到FPGA上,并实现资源约束下的流水线调度。通过探索整个或者局部资源组合空间,可以选择一个性能和面积比较平衡的设计。
- 宋健葛颖增窦勇
- 关键词:流水线模调度资源约束
- 自动映射多循环程序到有限FPGA资源的参数化流水线模板被引量:2
- 2009年
- FPGA为加速计算密集型应用提供了一个灵活高效的平台.然而,由于片上资源有限,在一些情况下,需要将大规模应用中包括的多个循环程序分别映射到FPGA上执行,当一个循环程序执行完毕后,需要重新配置FPGA以执行下一个循环程序,FPGA重构过程在整个程序执行过程中占用了较多时间.文中设计了一个参数化流水线模板,并提出了相应的指令分配调度策略,实现了自动将多循环程序顺序映射到目标FPGA片上系统,同时在程序切换时,不需要进行FPGA重构.实验结果表明,对每个循环程序,文中设计的流水线模板能达到与专用硬件结构相当的执行节拍,同时节约了程序切换时的重构时间.
- 董亚卓窦勇宋健刘明政
- 关键词:FPGA指令调度