(计算机科学与技术专业论文)处理和存储一体化体系结构的研究.pdf_第1页
(计算机科学与技术专业论文)处理和存储一体化体系结构的研究.pdf_第2页
(计算机科学与技术专业论文)处理和存储一体化体系结构的研究.pdf_第3页
(计算机科学与技术专业论文)处理和存储一体化体系结构的研究.pdf_第4页
(计算机科学与技术专业论文)处理和存储一体化体系结构的研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机科学与技术专业论文)处理和存储一体化体系结构的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术人学研究生院学位论文 摘要 近年来,处理器存储器性能差距对计算机整体性能的提高产生了严重的影响。人们从 多方面来寻找解决这个问题的方法,其中处理单元与存储单元集成在单一芯片上的结构( 通 常称为p i m 技术) 是一种有效的解决方案。从2 0 世纪9 0 初年代丌始,世界上许多著名的 学府和公司对这类体系结构的研究投入了大量的人力物力,并在这种思想指导下设计了各 自不同的新的处理器体系结构。 本文在深入分析p i m 典型结构一c r a m 、p p r a m 和v i a r m 的基础上,为克服这些体 系结构存在的不足,提出了一个处理与存储一体化的新体系结构一p m i a 。该体系结构能够 解决其他p i m 结构中没有解决的问题,包括提高芯片设计的可伸缩性,使芯片可以根据不 同的应用和不同的负载规模来进行调整,达到较高的性价比;缓解集中式向量寄存器文件 可能造成的瓶颈,用比较灵活的方式来分解访问冲突;在设计中以个较为简单的方式来 支持精确异常处理;应用标量处理器设计中成功使用的算法来管理向量协处理器的运行; 采用模块化、分布式的布局,同时处理好在这种情况下各个模块的通讯问题;进一步挖掘 存储器带宽,隐藏它的访问延迟:提供对多处理器系统的支持等。在文中,提出了p m i a 具体的设计方案,分别对p m l a 中处理器逻辑和存储系统进行了设计。 本文用d l x v 模拟器对p m i a 进行了模拟、分析,结果表明,p m i a 与i r a m 相比, 性能有明显改善。在本文的最后部分还研究了p m i a 在多处理器系统中的应用。基于p m i a 处理器构建多处理器系统,比用传统c p u 实现更高效和简洁。 关键词:处理器存储器的性能差距,p l m ,d l x v s i m 模拟器 第1 i i 页 里堕型兰垫查盔堂竺塑兰堕竺笪丝墨 a bs t r a c t i nr e c e n ty e a r s ,t h ep e r f o r m a n c eg a pb e t w e e np r o c e s s o ra n dm e m o r y h a sa b a d l ye f f e c to n t h eo v e r a l lp e r f o r m a n c eo fac o m p u t e rs y s t e m r e s e a r c h e r sh a v et r i e dt or e s o l v et h ep r o b l e m f r o mv a r i o u sa s p e c t s ,o n eo ft h er e s o l u t i o n si st oi n t e g r a t ep r o c e s s i n gu n i t sa n dm e m o r yu n i ti n o n es i n g l ec h i p ( u s u a l l yr e f e r r e da sp i mt e c h n o l o g y ) s i n c et h ee a r l yo f19 9 0 s ,al o to f f a m o u s u n i v e r s i t i e sa n dc o m p a n i e si nt h ew o r l dh a v ei n v e s t e dg r e a tm a n p o w e ra n dm a t e r i a l st ot h e r e s e a r c ho nt h i sn e wm i c r o a r c h i t e c t u r e ,a n dh a v ed e s i g n e dd i f f e r e n t s c h e m e sw i t h i nt h e f r a m e w o r ko fp i m o nt h eb a s i so fa n a l y s i n gt h ep i m st y p i c a ls t r u c t u r e s ( c r a m ,p p r a ma n dv i a r m ) i n d e p t h ,i no r d e rt oo v e r c o m e t h ed e f i c i e n c ye x i s t i n gi nt h e s ea r c h i t e c t u r e ,w eh a v ep r o p o s e dan e w a r c h i t e c t u r ew h i c h i n t e g r a t ep r o c e s s o r w i t hm e m o r y , p m i a t h i sa r c h i t e c t u r ec a l lr e s o l v et h eo p e n p r o b l e m s e x i s t e di no t h e rp i ma r c h i t e c t u r e p m i ac a n ( 1 ) s u p p o r tc h i pd e s i g n ss c a l a b i l i t y , m a k i n g i tb ea b l et o a d j u s ta c c o r d i n gt o d i f f e r e n t a p p l i c a t i o na n dw o r k l o a d ,s oa st oa r c h i v eh i g h r a t i oo f p e r f o r m a n c ea n d c o s t ; ( 2 ) o v e r c o m e t h eb o t t l e n e c ko ft h ec e n t r a l i z e dv e c t o rr e g i s t e rf i l e s ,a n dr e s o l v et h ea c c e s s i n g c o n f l i c ti na r e l a t i v e l yf l e x i b l ew a y ; ( 3 ) s u p p o r t a c c u r a t ee x c e p t i o n h a n d l i n g i na s i m p l ew a y ; ( 4 ) u s et h ea l g o r i t h mw h i c hi ss u c c e s s f u l l ya p p l i e di n t h ed e s i g no fs c a l a rp r o c e s s o rt o m a n a g e t h er u n n i n go f t h ev e c t o rc o p r o c e s s o r ; ( 5 ) a d o p t em o d u l a ra n dd i s t r i b u t e d1 a y o u ta n dh a n d l et h ec o m m u n i c a t i o np r o b l e ma m o n g m o d u l e s : ( 6 ) e x c a v a t e t h eb a n d w i d t ho f t h em e m o r y , a n dh i d et h ea c c e s s i n gd e l a y ; ( 7 ) s u p p o r tm u l t i p r o e e s s o ra p p l i c a t i o ne t c i nt h ep a p e r , w eh a v ep r o p o s e dt h ep m i a sd e s i g ns c h e m e ,a n dd e s i g n e dt h el o g i co ft h e p r o c e s s o r i np m i aa n dm e m o r y s y s t e m w eh a v es i m u l a t e da n da n a l y s e dt h ep m i a s p e r f o r m a n c ew i t hd l x v s i m u l a t o r t h er e s u l t s i n d i c a t et h a tp e r f o r m a n c ew i t hp m l ac a nb ei m p r o v e do b v i o u s l y , c o m p a r e dt ov i r a m f i n a l l y , w eh a v es t u d i e dh o wt o e x p l o i tp m i ai nm u l t i p r o c e s s o rs y s t e m s t ob u i l dm u l t i p r o c e s s o r s y s t e m su s i n gp m i a p r o c e s s o r sc a n o f f e rm o r ee f f i c i e n ta n ds u c c i n c ts u p p o r tt h a nt or e a l i z ew i t h t r a d i t i o n a lc p ij k e y w o r d s :p e r f o r m a n c eg a pb e t w e e np r o c e s s o ra n dm e m o r y ,p i m ,d l x v s i m 第1 v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:矬堡垄盔篮= 垡垡住圣缱抱煎盟堑 学位论文作者签名 乏碰矧 日期:z 力d ? 年,月厶日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目: 矬堡塑盔篮二垡坐签丞缱掏塑叠窒 学位论文作者签名:垒麈曼墅】 日期:沙。;年,月z 日 , , 作者指导教师签名:尘丑翌 日期:加d 弓年j f 月? 三日 国防科学技术火学研究生院学位论文 图表目录 图i 1 处理器存储器性能差距图,1 图2 1c r a m 体系结构,8 图2 2p e ,处理单元结构图,9 图2 3p p r a m 的节点、芯片和系统,1 l 图2 4v i r a m 一1 体系结构原型,1 2 图2 5m i p s5 k c 核的结构框图。,。1 3 图2 6v i r a m 一1 的向量数据通路和寄存器文件资源1 4 图2 7 向量处理器的简单延时流水线模型1 5 图3 14 通道p m i a 微体系结构的一种可能实现2 4 图3 2 资源配置表格式2 7 图3 3 资源配置表实例2 7 图3 4p m i a 结构示意图2 8 图3 5 程序实例,3 0 图3 6 指令调度表格实例3 l 图3 7 向量链接示意图,3 2 图3 8 模块框图3 4 图3 9 指令分配流程图,4 0 图3 1 0 通讯网络模型_ :o 4 1 图3 1 1 二级网络的组织模型4 2 图3 1 2 通道内模块通讯简图4 3 图3 1 3 全局通讯简图,4 4 图3 1 4p m i a 的一种实现和它的资源配置表4 7 图3 1 5 代码实例4 8 图3 1 6 几个时刻的指令状态表的变化5 0 图4 1 存储系统框架图5 2 图4 2 存储体结构5 3 图4 3 存储体编址5 5 图4 4 子存储体编址,5 5 图5 ip m i a 配置表6 0 图5 2 功能模块启动时间表,6 0 图5 3t e s t l 测试结果6 0 图5 4t e s t 2 测试结果6 1 图6 1 集中式共享存储器多处理器基本结构,6 2 图6 2 分布式存储多处理器基本结构6 2 i 国防科学技术大学研究生院学位论文 图6 3p m i a 构建的多处理器系统 图6 4p p m t 实例, 6 4 6 6 i i 第页 。 国防科学技术人学研究生院学位论文 第一章绪论 1 1 一体化体系结构的背景 l - 1 1 存储器处理器的性能差距 自从1 9 4 6 诞生了第一台电子计算机以来,经过几十年的发展,计算机技术已经深入 社会的每一个角落,成为了许多人日常生活中不可或缺的部分。现在,人们对计算机性 能提出了更高的要求。作为计算机系统结构中的两大部分:存储器和微处理器的发展, 同时面临着机遇与挑战。 整个计算机行业的发展初期,半导体工业分为微处理器和存储器两大阵营,这给计 算机的发展带来了许多好处【”。其中,微处理器生产线通过提供快速逻辑和多层金属布 线来加速处理;d r a m 生产线提供了更小的单元,更小的漏流,更大的存储密度。同时, 微处理器可以使用比较昂贵的封装来散热( 5 - 5 0 瓦) 【2 l ,而存储器往往采用较便宜的封 装来散热。分开封装使用户可以在存储系统中使用标准化的单列直插式存储模块和双列 直插式存储模块,自由组织自己的存储系统规模。过去几十年中,两大阵营都取得了很 大的发展。微处理器的主频目益提高、性能飞速增长的同时,存储器的单片容量不断创 出新高、访问时间也不断下降。然而,微处理器的性能以每年6 0 的速率在发展,而d r a m 的访问时间的改善速率大约为每年7 1 3 】。因此,计算机设计者面临着一个处理器存储 器性能差距臼益扩大的问题( 图1 1 ) 。目前,这是提升计算机整体性能的最大的障碍, 存储器的性能已经成为整个计算机系统的最大瓶颈。 10 0 0 0 0 1 0 0 0 0 o o 焉t 0 0 0 * 01 0 0 o 厶 1 0 1 1 9 8 0 1 9 8 319 8 61 = 9 8 919 9 21 9 9 5 1 9 9 8 2 0 0 12 0 0 4 y e ar 图1 1 处理器存储器性能差距图 为了匹配微处理器和存储器的性能的增长,尽量减小存储器性能对整个计算机系统 的影响,英特尔公司首次开创性地采取了处理器主频为系统总线频率的倍数的处理方法。 第1 页 国防科学技术人学研究生院学伉论文 这样可以在系统总线频率保持不变的情况下,使处理器运行的速度数倍于总线频率。存 储器的速度基本上与系统总线频率保持致,也就是说它滞后于c p u 速度几倍。这造成 了系统整体性能不能成线性增长,严重制约计算机整体性能的提升。加快存储器的频率 和提高存储器与c p u 间的传输速率,是改善这种窘况的一个途径。在这样的背景下,很 多新的存储器产品崭露头角,如d d r 、r a m b u s 等。尽管如此,微处理器与存储器的性 能差距还有进一步拉大的趋势。 因为生产工艺水平的不断提高,在微处理器芯片中封装更多的c a c h e 成为可能。因 此,在系统体系结构上引入越来越深的c a c h e 存储器层次,也是弥补微处理器与存储器 性能差距的一个有效方法。不幸的是,c a c h e 层次不可能无限制的增加,且在最坏的情 况下,c a c h e 反而会增加系统的延迟。同时,制作c a c h e 的s r a m 本身就被自己狭窄的 数据宽度所限制。因此,c a c h e 只是减少了存储系统的延迟,而对于存储系统带宽的增 加很少,故使用先进的多级c a c h e 仅仅部分的解决了这个问题j 。 以上各项技术,都无法从根本上解决存储器的瓶颈效应。鉴于各种原因,很难把外 部总线的速度与带宽提高到与处理器相匹配的地步。存储器和处理器是通过外部总线来 进行数据传输,也是存储器和处理器性能差距进一步扩大的原因之一。由此可见,现有 体系结构框架所存在的局限性造成了这种现状。为了满足日益增长的计算机系统整体性 能的要求,需要改进现有的体系结构或者发展新的体系结构框架。采用一体化的结构一 把存储器( d r a m ) 和处理器集成在同一芯片上来减少系统延时、提升系统性能是解决 这个问题的有效方法之一。 1 1 2 一体化体系结构的历史和现状 一体化体系结构,就是把存储器和处理器作为一个整体来设计,并且把它们集成到 同一个半导体芯片中。历史上相继出现了一体化体系结构的多种研究和实现,女l l l o g i c i n m e m o r y 、i n t e l l i g e n tm e m o r y 、p r o c e s s i n g i nm e m o r y 等。这类把存储器处理器集成在一 块芯片上的体系结构一般称作p i m ( p r o c e s s i n g i nm e m o r y ) 。 在体系结构领域,基于p i m 设计思想的处理器体系结构研究是一个前沿课题。其实, 把处理器逻辑、存储器结合在一起的思想实际上较早就已经出现了。就象d a p p 、 s t a r a n 、c m 一2 、 n g a p p 等都是在靠近存储阵列的地方设计了相对较小的处理逻辑 来实现了较大的s i m d 机器。后来用在c r a y 一1 机器中作为主存的t e r a s y s 也是这样的 一种芯片。象i n m o st r a n s p u t e r 、n c u b e 、j m a c h i n e 年 i s h a r c 之类的机器,都在一块芯 片中集成了c p u 、存储器和i o 。1 9 9 2 年,第一个基于d r a m 的多节点p i m 芯片e x e c u b e 研制成功1 。 制约p i m 发展的主要原因是存储密度。早期类似的p i m 芯片一般采用s r a m 作为存储 器,在一块芯片上易于设计较大处理能力,但是存储嚣密度却得不到提高。因此,在应 用中往往需要设计端口使用片外的存储器。这种情况在1 9 9 7 年左右开始有所好转,当时 大于3 2 m b 片的d r a m ;r - , 片开始出现。存储密度上的障碍已经开始消失,能在一块处理 器芯片上集成足够容量的存储能力。现在,半导体y - n 提供了一些可以同其它预定义的 第2 页 国防科学技术人学研究生院学位论文 处理逻辑宏集成的嵌入式d r a m 宏,就如在v i r a m 中使f 【i f j 的m i p s5 k c 的标量处理器核。而 且,多媒体和嵌入式应用日趋广泛,自e i j :半导体技术的迅速发展,一体化结构研究成为 新的热点。 从2 0 世纪9 0 初年代开始,世界上许多著名的学府和公司对这类体系结构的研究投入 大量的人力和物力,在这种思想下新设计出了各自不同的处理器体系结构原型。迄今为 l ,影响比较大的p i m 项目主要包括:伯克利大学的i r a m ( i n t e l l i g e n tr a m ) 项目1 2 1 1 5 1 阿尔伯达州立大学的c r a m ( c o m p u t a t i o n a lr a m ) 项目【1 、日本九州大学的p p r a m ( p a r a l l e lp r o c e s s i n g r a m ) 项目【1 0 以及圣母大学的p i m ( p r o c e s s i n g i n m e m o r y ) 项目等。 基于p i m 思想的不同体系结构设计都有各自的特点,适用于不同的领域。它们所走 的技术路线和所要解决的问题也有所不同。其中: i r a m 是专门为那些处理大量计算的多媒体应用开发的。 c r a m 是在存储模块内部集成了大量l 位的数字处理逻辑。它是作为一种可以在 各种平台上使用的通用存储器来设计的,可以和普通的r a m 一起使用,但是它 的存储控制还是同r a m 的有区别。 p p r a m 是一种体系结构的框架。只要符合它的标准,人们可以构建任意规模和 实现的多处理器系统。 p i m 是一种增加了通用或者专用计算硬件的v l s i 存储设备,作为一个具有处理 能力的存储器来使用。 上述四种机构都具有作为p i m 体系结构的共同特征:( 1 ) 在一块芯片中集成了处理 逻辑和存储器;( 2 ) 都提供了高的存储带宽:( 3 ) 都具有支持高并行处理的能力等。 1 1 3 应用需求的推动 进入二十一世纪的信息时代,嵌入式系统的应用不断扩展 2 0 1 。此外,人机接口也越 来越人性化、多样化,多媒体技术在人们日常生活中的应用越来越普遍。面对这样的趋 势,研究人员不得不寻求更加适合于这种趋势的新技术,来更好地满足人们的各种需求。 大量潜在的市场利益更是推动了这种趋势的发展。 在过去的2 0 多年间,微处理器设计者的精力集中于工作站系统上工程应用的加速 15 1o 这样,开发可用指令级并行( i l p ) 的超标量芹n v l i w 体系结构就得到了长足的发展1 2 】。 这些i l p 处理器利用半导体芯片中电路密度和速度的指数增长,来得到了成指数增长的性 能。然而,在嵌入式和多媒体等计算环境中,i l p 体系结构的功耗和设计复杂性使得它们 面对新应用时显得无能为力【8 】。而且,要使i l p 处理器的整体性能随着半导体技术的进步 而成比例的提高,变得越来越困难。同时,在多媒体、宽带和无线通讯等新计算密集的 应用中,存在大量的数据级并行。而流出一条向量指令就可以同时有数十个算术和存储 操作得到执行,使用向量协处理器作为超标量处理器的补充具有明显的优势1 8 】。这样, 在保留通用处理器的灵活性和可编程能力时,向量协处理器可以得到更好的性能和更低 的功耗。 既然现有成熟的体系结构技术不能满足这种发展趋势,自然就要求研究适合的新体 第3 页 国防科学技术人学研究生院学位论文 系结构。 1 1 3 1 多媒体应用 半导体技术的进步和处理算法的改进,使得图象、声音、动画等实时媒体数据的使 用成为可能。3 d 图形、视频或者虚拟成像、语音或者笔迹识别、高保真度的音乐等具 有多媒体特征的应用已经丌始流行。这些多媒体应用大大改进了计算机系统的可用性、 品质和娱乐性。它们把计算机的使用范围从办公室环境扩充到了我们生活的方方面面。 多媒体应用具有以下主要特性1 8 j : 在多媒体程序中有其固有的数据级并行。一般情况下它们在一系列输入的象素、 视频帧、或者声音采样上重复一个小的操作集。这样的并行性形式显示描述在多 媒体函数的算法中。 数据操作类型较窄。人类有限的视觉和听力输入范围用8 位或者1 6 位数编码就 足够了。 需要实时响应保证。大多数多媒体应用需要保证实时性、连续性。在最坏情况下 要确保持续不变的性能,适当的错误是可以接受的。例如,视频译码,2 4 帧s 的速率定义了最小可接受的和最大要求的性能级别。在任何时候,每个帧产生几 个错误的象素比以低于要求的帧速率来得更好。 时间局部性差。由于多媒体应用中流的本质,它们的输入数据显现了有限的时间 局部性。 相反,为了得到最大的算术精度,以及在数据访问时利用好时间和空间局部性,大 多数工程应用负载使用3 2 6 4 位的数据。不同于多媒体应用,工程应用的目的是最大化系 统的吞吐率,它们强调的是计算的高性能而不是实时响应保证。在工程和多媒体应用中 所表现出来的明显区别,表明了针对工程应用进行优化的处理器体系结构未必对多媒体 应用同样有效。 1 、t 3 2 嵌入式系统 伴随多媒体应用出现的同时,系统发展的焦点从桌面转移到嵌入式系统领域。嵌入 式系统,包括诸如个人数字助理( p d a ) 、数码相机、掌上型电脑和便携式电话等便携式 设备,以及视频游戏控制台、机顶盒年d d v d 等娱乐设施。在最近几年,由于巨大的市场 潜力所推动,这样的嵌入式消费产品在种类和功能上有了快速的增长。对于大多数家庭 来说一、两台p c 机也就足够了,但是个人可能拥有、使用几个嵌入式设备。嵌入式系 统与桌面机器的特征和需求有显著的不同f 8 】: 低功耗。便携式设备必须使用常规的电池技术运行相当长一段时间。另外,嵌入 式系统电子设备受限于廉价的冷却系统和封装。 嵌入式系统利用一些不易丢失的存储器,如r o m 或f l a s h 来存储应用代码。要 求尽可能的压缩代码尺寸,使应用能够使用更小的r o m 或者f 1 a s h 芯片,以降 第4 页 国防科学技术人学研究生院学位论文 求。 低了系统的开销。 嵌入式产品消费品的本质,要求较低的开发和生产费用。在嵌入式系统的电子部 件首先必须容易设计,并且对于后继产品来说易于扩展。 为了减少嵌入式设备的体积,使用那种在一块芯片上集成了大量处理逻辑,存储 单元和i o 部件的高集成芯片是比较理想的。 这些特点和要求都有异于一般p c 机,因此嵌入式系统的实现技术也应该有特殊的要 1 i 3 3 技术限制 虽然半导体芯片的能力日益提高,但是现有的体系结构技术是否能够发挥它的性能, 使计算机整体性能得到同步的增长呢? 这方面还存在着许多技术上的难题。 首先是微处理器同d r a m 存储器间成指数增长的性能差距。当处理器芯片为了性能 进行了优化时,d r a m 芯片却正在获取最大化的容量和最小化的费用。结果是,从处理 器的方面来看,对主存访问变得越来越慢。不管处理器能够多快执行算术操作,或者能 并行进行多少操作,如果不能快速访问应用的输入输出数据,就不能得到高速持续的性 能。 另外,片上导线的延迟相对增加。c m o s 处理逻辑特征尺寸缩小的同时,晶体管和 逻辑门越来越快。然而,我们在一个微处理器芯片上增加了硬件资源的数量,实现 c r o s s c h i p 通讯的长导线传输延迟保持不变。因此,随着每一代c m o s 技术的发展,计算 与通讯的相对费用减少,而处理器芯片中的全局互连模型却变得越来越昂贵。依靠部件 之间全局低延迟通讯的处理器体系结构导致了频率的降低,或者在全局通讯事务期间停 顿。 最后是处理器的开发费用。微处理器的性能、功能复杂性以及设计和验证的复杂性 正在以指数速率增加。那些模块化部件有限的复杂体系结构,设计和验证的费用和设计 周期会轻易超过生产费用和周期。同时,复杂的设计要求大的开发团队,而维持这样的 团队费用高昂,管理困难。它们也对自动设计的c a d i 具和测试半导体产品的设备造成 了很重的负担。 由此可见,从体系结构的发展趋势,以及技术发展的演变过程看,计算与存储一体 化结构在多个应用领域均可发挥优势、提高性能价格比。同时,用计算与存储一体化的 单元构建的多处理器系统也富有自己的特色。 1 2 研究目标 前面部分对体系结构一部分现状的进行了描述,并且分析了一些流行的应用,探讨 了发展新的体系结构所存在的技术难题,本文目的就是研究一种新体系结构来解决以上 这些问题。这种新体系结构要达到以下的目标: 用一个显式和简洁的方法表达在多媒体应用中的数据级并行; 第5 页 国防科学技术人学研究生院学能论文 在低功耗下开拓数据级并行来获得高性能; 简化实时响应的保证在最坏情况下提供足够的性能 模块化硬件实现,易于设计、验证和扩展: 易于使用高级语言和汇编器有效的编程。 1 3 本文研究成果 本文主要是在对c r a m 、v i r a m 、p p r a m 、p i m 等几种处理器体系结构进行研究, 重点是对v i r a m 体系结构进行了深入研究的基础上,结合其它体系结构技术,提出了 一种新体系结构,并对其性能进行了模拟分析。另外,以第一作者在计算机研究与发 展发表文章一篇( 见本文附录) 。 在本文中,主要研究成功如下: 对v i r a m 等体系结构进行了分析和研究,总结了它的贡献和存在的不足; 提出了新的体系结构一处理与存储一体化的体系结构:p m i a ; 对p m i a 进行了结构设计: 提出了p m i a 的存储系统的具体组织: 对p m i a 的性能进行了模拟、分析: 对p m i a 在多处理器系统中的应用模式进行了探讨。 1 4 本文的组织 文章其它章节的组织如下: 第二章介绍了几种典型的p i m 项目。在这一章中,分别介绍了c r a m 、p p r a m 和 v i r a m i 几 十p i m 体系结构,并对这几种体系结构的特点进行了研究。作为第三章p m i a 结构设计的铺垫,重点分析了v i r a m 1 体系结构,了解它的优势和存在的不足之处。 第三章提出了一种新的体系结构:处理与存储一体化体系结构,p m i a 。根据p m i a 设计要解决的问题,对向量指令从流出到写结果这个过程中的主要部分:指令执行的动 态调度、向量协处理器的配置和向量协处理器中执行部件的组织等方面进行了研究,提 出了具体的设计方案。 第四章是p m i a 的存储系统设计。存储系统在p i m 体系结构设计中是一个关键的地 方。由于把处理器逻辑和存储系统集成到同一块基片上,避开了片外存储总线的限制, 这样就可以提供更高的存储带宽、更低的访问延迟和功耗。这种一体化的设计在理论上 可以提供很高的峰值带宽,但是怎样把这种提供高存储带宽的潜力转化为现实系统运行 中的高存储带宽,还需要在存储器的组织结构进行合理的设计。在这一章中提出了能够 实际提供高存储带宽的存储器设计,对一些具体问题进行了探讨。 第五章是p m i a 性能分析。在这一章中介绍了用来模拟体系结构的模拟器:d l x v s i m a d l x v s i m 模拟器是在d l x s i m 模拟器的基础上扩充了对向量结构的支持,从而能够 对d l x v 指 令集结构进行模拟。在这个模拟器的基础上模拟t p m i a 体系结构,并通过给 第6 页 国防科学技术大学研究生院学能论文 出各种配置,运行不同的测试程序,得出了一些有关p m i a 性能的结论。 第六章提出了基于p m i a 体系结构的一种多处理器系统的构建。本章首先介绍了多 处理器的一些基本知识,然后结合p m i a 设计的特点,提出了一种应用p m i a 构建的多处 理器系统的框架。该框架兼有集中式共享存储器结构和分布式存储器结构多处理器系统 的特点。同时,还提出了在这种多处理器系统中对多处理器系统中常见问题的解决方案。 并在理论上分析了这种多处理器系统的特性。 最后,在第七章中对本文所作的工作进行了总结,并对对未来的研究方向做了一些 预测、建议。 第7 页 国防科学技术人学研究生院学位论文 第二章典型的p lm 结构 本章对c r a m 、p p r a m 和v i r a m 等几种具有代表性的p i m 项目进行介绍,分析 它们各自的特性和存在的问题。同时,作为p m i a 基础的v i r a m 体系结构给予了重点 的介绍。 r o w 标准的r a m 2 1g r a m 微体系结构 2 1 1c r a m 体系结构 图2 1c r a m 体系结构 c r a m ( c o m p u t a t i o n a l r a n d o ma c c e s sm e m o r y ) ,即有计算功能的随机存储器,是 一个s i m d 一存储器的混合体。如图2 1 所示 i ,c r a m 是在标准r a m 的再生放大器中集 成了非常简单的l 位处理单元( p e ,p r o c e s s i n g e l e m e n t ) 来实现的。一般来说,再生放大 器的数据带宽i :e r a m 的外部总线带宽大1 0 0 0 倍( 外部总线中通常是1 一,8 一,1 6 一,3 2 一或 者6 4 一位宽) 。因此,不需要把数据从r a m 芯片中读出并且通过高电容的长总线传送到处 理器,直接通过p e 访问数据,并在这些数据上进行操作。这样,既改善了系统的整体性 能,又减少了功耗。同时,c r a m 设计也增加了执行大量并行应用的速度。 为了使每一个硅片面积达到最大的性能,选择了1 位的p e 体系结构。对于高并行应 用,可以在大处理器复杂性和大量简单处理器之间得到一个折中。在c r a m 6 p 有两类的 p e 。一类是基本处理单元( b p e ) 。如图2 2 所示,b p e 是两类p e 中较简单的一种,包括 三个寄存器( w ,x 和y ) 和一个8 1 的多路丌关( m u x ) 。广播总线实现所有p e 输出的全局 数据通讯。p e 同相邻p e 的通讯是通过一个左移右移网络实现的。一条p e 指令包括一个 第8 页 国防科学技术人学研究生院学位论文 8 位多路开关真值表操作码( t t o p ) 和一个6 位控制操作码( c o p ) 。根据y 、x 、m ( 多路丌 关选择输入) 的内容,由t t o p 确定p e 执行的实际操作。c o p 中的3 位:w y ,w x rw m , 确定p e 多路丌关的输出是否应该分别写至- i j p e 寄存器y ,x ,和m 中。另外两个c o p 位: s l x s n s r y ,用来控f h p e 的移位操作,利用多路开关输出到左边相邻或者是右边相邻p e 中的x 或者y 寄存器。c o p 的第六位使能p e 输出的全局数据的广播通讯。寄存器w 控制 p e 写本身存储器的能力,这通常用在条件代码执行i i 3 1 。 is茁ense a m p l i t l e r ( 1 s ) l 翟虾毛面十攀 图2 2p e ,处理单元结构图 另外一种处理单元是扩展处理单元:x p e 。它是在b p e 上的增强版。具有更多的寄 存器来减少每个c r a m 的周期数量。还有一个进位链来加速a d d ,允许相邻的多卜p e _ t _ 作在多位数据上。数据并行操作对于乘法之类更复杂的算术操作性能提供了本质上的改 善。x p e 也能配置作为一个位串b p e 来运行。 2 1 2 并行处理的应用 最适合于c r a m 的应用,如最大并行的s i m d 机器,是那些有细粒度并行性和规则 的应用。这样的应用可以在大量的领域发现,如图象处理、数据库、视频和图象压缩、 数字信号处理、计算机辅助设计、图形和数字分析等。适合c r a m 实现的应用包括:图 象卷积、f i r 滤波器、数据挖掘、故障模拟等等。可以应用于包括低级图象处理,基本 数据库应用,矢量化,动态评估等方面。一个试验中,在6 4 k p e 构成的c r a m 中处理 8 位的2 5 6 * 2 5 6 图象的倒象( 象倒置) 。其中,每个p e 处理一个象素,图象处理通过众多 的p e 展开,所有的p e 并行执行倒置操作。在这种情况下,如果每一个p e 花费2 4 条 指令去处理象素的倒置( 应用2 0 m h z 的c r a m 时是1 2us ) ,2 5 6 * 2 5 6 个象素点并行 处理使得在一个单处理器系统中可以获得较高的加速。相对而言,一个4 0 0 m h z 的奔腾 处理器理论上需要花费7 5 n s 来倒置一个象素( 两次存储器访问和一次计算) 。但是在奔 腾处理器中要顺序处理这些象素点,使总的执行时间达到5 0 0us ,比c r a m 系统相应 处理时间慢4 0 0 倍。当然,这仅仅是用来说明问题的理论数据。在c r a m 系统设计实际 第9 页 国防科学技术人学研究生院学位论文 问题中的加速度比这个会稍高或者稍低m 1 。 2 1 3 系统设计中的挑战 c r a m 设计是作为可以在各种平台上使用的通用存储器。最初的原型使用的特殊平 台是广泛使用的p c 环境。在这种环境中,c r a m 可以替换或者同标准r a m 共存,作 为计算机主存或者是视频r a m 。当然,在c r a m 前面还必须有一个c r a m 控制器,它 的主要作用是允许从主机来的c r a m 应用程序运行。控制器既作为一个p e 阵列控制器 来使用,同时又是到主处理器总线的接口。在一个诸如p c 的环境下实现c r a m 系统存 在以下几个难点”j j : 第一,甚至是象加法一样的简单操作都需要流出几条指令到l 位的p e 上,要求 在使用主处理器总线的小带宽时,控制p e 并且获得高的p e 利用率。否则,p e 大部分时间里是空闲的,会减少单处理器系统上c r a m 系统的整体效益。 第二,基于p c 的c r a m 必须在标准尺寸的p c 卡上实现。这意味着尽可能少的 使用扩展单元。 第三,主处理器和c r a m 中使用了不同的数据格式。c r a m 是位串格式,而大 部分传统的计算机系统是位并格式。因此,在主处理器和c r a m 间传送数据时 有格式转换或者数据翻译的需要。数据格式的不同也意昧着在主机上的编程工具 不能直接用来编写有效的c r a m 程序。因此,必须为c r a m 开发新的软件工具, 或者修改、增强主机上现有的工具来支持c r a m 数据类型。 第四,最小化系统费用、能够方便的在一个简单芯片上集成所有c r a m 硬件以 及最小化任何额外的c r a m 硬件。 2 2p p r a m 体系结构 p p r a m 是用于a s s p ( a p p l i c a t i o n - s p e c i f i cs t a n d a r dp r o d u c t s ) 的一个存储器处 理器一体化结构的框架。只要符合这个框架的任何p p r a m 实现都可以互连、互操作。 p p r a m 的实现主要基于三种关键技术,它们给p p r a m 实现带来了巨大的好处。 这- - t e e 关键技术及其带来的好处是: 处理器存储器集成的v l s i 技术。可以让我们:( 1 ) 消除d r a m 和微处理器之间 的高带宽总线,减少功耗;( 2 ) 开拓高的片上存储带宽,解决存储器的瓶颈问题: ( 3 ) 利用低的片上d r a m 访问的延迟,改善存储系统的性能:( 4 ) 根据应用需 求优化片上d r a m 的大小和组织:( 5 ) 利用大量的片上d r a m ,减少片外存储 器流量;( 6 ) 缓解芯片间相互通讯的带宽需求:( 7 ) 缓解d r a m 同微处理器之间 高速宽总线的e m i ( 电磁干扰) 问题。 并行分布式处理技术。可以让我们:( 1 ) 开拓多处理器上的更高级别的并行性, 使整个系统性能的改善超出了指令级并行的限制;( 2 ) 设计多个简单的处理器来 代替一个复杂的超标量处理器,简化了微处理器的设计,减少了设计费用;( 3 ) - 一 第1 0 页 国防科学技术人学研究生院学位论文 根据负载来调整激活处理器的数量,优化处理器功耗:( 4 ) 使设计的系统有可以 根据大小、功能和性能来调整;( 5 ) 采用冗余技术,提高了芯片的产量、增强了 可靠性。 标准化芯片间高速通讯接口。可以让我们:( 1 ) 互连和互操作不同厂商提供的多 种实现的p p r a m :芷:片:(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论