公共文化服务平台

共 9 条记录，以下是 1-9

全选清除导出

排序方式：

一种新的高性能计算机互连网络及其并行仿真被引量：4: 2010年; 介绍一种新型的高性能计算机专用网络拓扑结构MPU,包括其数学模型、技术实现、路由算法等.从理论上分析了MPU的性能,并就其性能与目前先进的3-D Torus网络等进行了数学上的对比分析,MPU的大部分性能指标均优于3-D Torus网络.本文还实现了一个为MPU开发的大型并行模拟器MPUS,介绍了MPUS的架构、实现、工作流程等,最后给出了仿真结果.实验证明,MPU设计正确,且MPUS具有良好的扩放性.; 李晖吴俊敏陈国良; 关键词：MPU

面向多线程程序基于效用的Cache优化策略被引量：5: 2013年; 为了提供高速的数据访问,多核处理器常使用Cache划分机制来分配二级Cache资源,但传统的共享Cache划分算法大多是面向多道程序的,忽略了多线程负载中共享和私有数据访问模式的差别,使得共享数据的使用效率降低.提出了一种面向多线程程序的Cache管理机制UPP,它通过监控Cache中共享、私有数据的效用信息,为每个线程以及共享数据分配Cache空间,使得各个线程以及共享数据的边际效用最大化,从而提高负载的整体性能.另外,UPP还考虑了程序中数据的使用频率以及临近性信息,通过提升、动态插入策略过滤低重用数据,从而使得高频数据块留在Cache中.通过实验表明,其性能相对于基于LRU的纯共享Cache结构和基于公平的静态Cache划分结构均有提升.; 唐轶轩吴俊敏陈国良隋秀峰黄景; 关键词：多核处理器共享CACHE划分多线程程序

KD-50-I中的无盘启动技术、文件系统架构及BLAS库优化: 2009年; KD-50-I是第一台采用国产龙芯2FCPU的万亿次高性能计算机.在KD-50-I中,所有的计算单元采用无盘结构,启动时需要通过网络从服务器上下载内核并启动之.为达到该目的,需要修改龙芯的BIOS程序(龙芯使用的BIOS基于一款经过修改的叫做PMON的开源软件)以使之在完成系统初始化工作之后,自动完成下载内核并启动等工作.为此我们为PMON开发了RTL8169千兆以太网卡驱动程序,并修改了其初始化流程.本文介绍PMON中RTL8169网卡驱动程序的实现情况,利用tftp协议实现网络启动的情况,KD-50-I中的文件系统架构以及KD-50-I上的BLAS库优化情况等.; 李晖李凯吴俊敏孙广中陈国良; 关键词：KD-50-I BIOS 无盘启动

ELF:基于无用块消除和低重用块过滤的共享Cache管理策略被引量：1: 2011年; 当代CMP处理器通常采用基于LRU替换策略或其近似算法的共享最后一级Cache设计.然而,随着LLC容量和相联度的增长,LRU和理论最优替换算法之间的性能差距日趋增大.为此已提出多种Cache管理策略来解决这一问题,但是它们多数仅针对单一的内存访问类型,且对Cache访问的频率信息关注较少,因而性能提升具有很大的局限性.文中提出一种统一的Cache管理策略ELF,不仅可以覆盖多种访存行为,而且能够同时考虑程序中数据的临近性和使用频率信息.根据LLC中Cache块在其生命期内使用频率较低这一实验结果,ELF策略能够(1)通过基于计数的算法预测出无用块并将其尽早替换;(2)通过动态插入和提升策略过滤低重用数据,从而尽量保留那些潜在的活动数据并且使得一部分工作集免受低使用频率数据的干扰.在4路CMPs上的实验结果显示,ELF可以将全局性能平均提升14.5%,同时与PIPP和TADIP相比,可以分别达到1.06倍和1.09倍的加速比.; 隋秀峰吴俊敏陈国良唐轶轩; 关键词：多核

μC/OS-Ⅱ虚拟化设计与实现: 2011年; 针对OKL4设计一种高性能、高安全性的嵌入式虚拟机模型,在该模型的基础上,从处理器和内存2个方面提出实时操作系统μC/OS-Ⅱ在OKL4上的虚拟化方案,给出虚拟化硬件抽象层的构造过程及μC/OS-II在虚拟化硬件抽象层上的移植方法。在Hi3611智能手机开发板上的测试结果验证了该虚拟化方案的正确性。; 杨晓亮吴俊敏栾兰巩哲; 关键词：虚拟寄存器硬件抽象层

并行片上网络仿真器ParaNSim的设计及性能分析被引量：2: 2012年; 为了减少使用仿真器对片上网络的性能、结构等进行仿真的时间,提高仿真效率,利用当代计算机的并行计算能力,设计并实现了一个并行片上网络仿真器ParaNSim.该仿真器可配置拓扑、路由算法以及虚通道等参数,既可以作为独立的仿真器使用,也可以作为一个子模块嵌入其他仿真器(如Multi2Sim)中;经过实验验证,其并行仿真能达到的加速比平均约为210%,最大加速比可达250%,因此它能有效地减少仿真时间,为大规模片上网络的仿真提供支持.; 唐轶轩吴俊敏陈国良朱小东胡蝶; 关键词：仿真器片上网络

CMP中基于目录的协作Cache设计方案被引量：1: 2010年; 片上多处理器中二级Cache的设计和管理是影响其性能的关键因素之一。在私有二级Cache的基础上,提出一种基于集中式一致性目录的协作Cache设计方案,通过有效地管理片上存储资源来优化处理器的性能,从而使该协作Cache具有平均访存延迟小、Cache缺失率低、可扩展性好等优点。实验结果显示,与共享二级Cache设计相比,协作Cache可以将4核处理器的吞吐量平均提高13.5%,而其硬件开销约为8.1%。; 赵小雨吴俊敏隋秀峰王庆波唐轶轩; 关键词：片上多处理器

ARP：同时多线程处理器中共享Cache自适应运行时划分机制被引量：4: 2008年; 同时多线程是一种延迟容忍的体系结构,采用共享的二级Cache,在每个周期内可以执行多个线程的多条指令,这就会增加对存储层次的压力.文中主要研究了SMT处理器中多个并发执行的线程之间共享Cache的划分问题,尤其是Cache共享中的公平性问题以及它和吞吐量之间的关系.传统的LRU策略会根据线程的需要隐式地划分共享Cache,给具有较高需求的线程分配较多的Cache空间,对Cache的管理具有不公平性,从而会引起线程饿死、优先级反转等问题.实现了一种自适应、运行时划分机制(ARP)来管理共享Cache.ARP采用公平性作为划分的度量,并且使用动态划分算法来优化公平性,该算法具有易于实现,所需剖析较少的特点,硬件上使用经典的监控器来收集每个线程的栈距离信息,其存储开销不到0.25%.实验结果显示,与基于LRU的Cache划分相比,ARP可以将一个2路SMT处理器的公平性提高2.26倍,而将吞吐量平均提高14.75%.; 隋秀峰吴俊敏陈国良; 关键词：同时多线程

消除低重用块和预测访问间隔的Cache管理策略: 2012年; 设计一种被称之为消除低重用块和预测访问间隔的Cache管理策略ELRRIP.根据多核处理器的共享最后一级高速缓存中低重用块占用资源时间较长这一特点,ELRRIP策略:1)通过感知最后一级共享高速缓存的上一级Cache中的数据历史访问信息预测出低重用块并优先将其淘汰;2)通过改进的访问间隔预测技术预测出潜在的低重用块并将其优先淘汰.同时,本文还基于ELRRIP提出了TADELRRIP.实验表明,对于4核多核处理器而言,TADELRRIP可以将加权加速比平均提高9.14%.; 尹巍吴俊敏朱小东; 关键词：多核处理器

全选清除导出

共1页<1>

国家高技术研究发展计划(2008AA01Z111)