




已阅读5页,还剩65页未读, 继续免费阅读
(电路与系统专业论文)面向移动多媒体计算的两发射向量处理器的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国斜季技术土学琐士学位论文 摘要 随着移幼通信和网络技术的持续发展,备种嵌入式设餐如p d a 、数码相机、掌上电脑、 移动电话、游戏撬裙枫璎盎等 l e w 9 8 不辑走淘市场t 未来整多的嵌入式设备都希望筢挺供 如三维图形、图像处理,宽带语膏、图像通信,各种智能识别和高保真音乐播放等功能,这 一秘都表蟠佟统豹耩子寨蠹诗舞撬酶筏额、强影、强像、语音移动藏鼗攒等多媒体数据懿簧 输与处理技术正在向人们日常生活的方方面衡迁移 b g 9 7 ,o r 0 9 8 ,d a l 9 8 ,k i l 9 8 。 在过去的2 0 年里,微处理器设计人员土簧围绕提升工作站和桌面计算机的工程计算性 能孺篪开研究工捧,健避了指令并行懿理技术静抉遮发展,致谴麓标垂鞫v m w 徽楚理器 得到广泛应用。但新兴的移动计算环境具有如下特征:1 ) 多媒体数据处理计算量非常犬。要 求实对数据经理翔焉多媒体簸淫器茹矮舞备非常强豹计算性能,嚣基数据涟时闯焉帮性有 限:2 骶功耗:3 ) 使用r o m 或f l a s h 襻辖应用程序t 要求代码尺寸小;4 ) 嵌入式设备要求各 种器件有较夺髂体积。遂瓣静徽处理器靡鞋在计舅性艉、功耗和夺体积等方蟊满定嵌入式多 媒体处理系统的要求,因而目前微处理器系统辖构研究的焦点芷逐渐由工程计算向个人移动 许箕领域转移。 在充分调研计算辊系统结梅与多媒体计算特征静基础之上,奉文诙为歼发遮子移动计算 的高性能、低功耗微处理器是可能的。结论的依据悬:一) 嵌入式多媒体数据处理设备具备 一系弼明是的特蔹 d d 9 7 :l 束来需求密集计算静多媒体处理任务审藏畲着丰富懿数据菇 行性;2 ) 多媒体数据类型般都是较窄的,8 b i t 和1 6 b i t 的数据足可用予编码备种信息,因 为人的各静分瓣率是有黻静 二) f 龟蠢计葬臻梅和嚣翦半辞律耩造技术燕备良下氕大优势; 1 ) 向量结构是发撵并行数据处理最有效的途径,开发循环缀并行性韵一个重要技术就是向 董鲶瑷技术。2 ) 蘸蠢处理瓣摊嵩诗舞瓤运算滚度十努有鬟,;蒡稠予流瘩缱静充分攀j 用有乖l 于多功能部件的充分利用 3 ) 集成嵌入式大容量d r a m ,可丈螺增加密储器带宽,降低存 储器延迟,满足系统对离毪能存储器蒸统需求,辐秘:起大襄重豹c a c h e ,擎位存储擎元性赞 比和功耗优势都是非常明显的。 本文针对移动多媒体计算的特性和需求研究糟教的计算结构作者首次提出了面向移 动多媒律计葬豹两发射向量擞簸毽器s v 0 的实毳缩榜,s v 0 在统一鸹两发射越标重结构下 实现商效的向量溅水线,替代通用处理嚣中的浮点流水线,既减小了设计复杂魔,又提高了 处理精的多媒体计算僚能 祷革钓两靛射稻氘序执舒籁术挺高了簸瑾器播令并行整理能力; 通过内嵌d r a m 取代丈喾蠢的c a o h e ,大蛾酶低系蟪功耗。奉文基于硬件描述语言v e r i l o g 完成了系统寄存嚣传输缀( r t l ) 都努设计,麓予v e r i l o g 彷粪模型撬行冒际逶用嵌入式处理 器评测标准e e m b c ,评估结果 芷实了两发射向量徽处理黎s v 0 可以很好的发搬多媒体处理 裎牟中蕴含的数据并行处理溯试势橱结巢液骧:s v 0 的健能诧遂用璇簸理器平均葵斋出 1 3 倍左右;p o w c r m i l l 分析结果袭明s v 0 功耗也可报好的满足嵌入式系统的需求;对于同一 测试摆_ 枣, s v 0 代码尺寸诧一般酌r i s c 和v l i w 链壤器代鹃足寸小2 - 8 倍左右。s v 0 采瑶 复杂的硬件结构实现强大的计羹性能,目的就是在潞足嵌入式多媒体计算幕统对处理器性能 要求的前提下,琴蠢降低蒹统王俸频率,葳褥大幅簿低系统功耗。萋于该绪梅静徽齄瑗器耱 较好的适应采来移动多媒体计算领域的需求 中科学黛术大学 硕士学位论文 a b s t r a e t r e c e n t l y , 秘i ec o n t i n u i n gi m p r o v e m e n t si nw i r e l e s sc o r n m u n c a t o na n dn e t w o r kt e c h n o l o g y h a v ee n a b l e dt h eu s eo fr e a l - t i m e ,m e d i ad a t as u c h 勰v i d e o ,s o u n d 。a n da n i m a t i o n e m b e d d e d s y s t e m si n c l u d ep o r t a b l e d e v i c e ss u c h 舔p e r s o n a ld i g i t a l a s s i s t a n t s ( p d a s ) 。d i g i t a lc a m e r a s , p a l m t o pc o m p u t e r s ,a n dc e l l u l a rp h o n e s ,a sw e l l e n t e r t a i n m e n ts y s t e m ss u c ha sv i d e og a m e c o n s o l e s ,a n ds e t t o pb o x e s l e w 9 8 】a r ec o m i n gi n t on l a r k e t ,a l lt h ea p p l i c a t i o n sw i t hm u l t i m e d i a f e a t u r e ss u c ha s3 - dg r a p h i c s ,v i d e oo rv i s u a li m a g i n g ,s p e e c ho rh a n d w r i t i n gr e c o g n i t i o n ,a n d h i g hf i d e l i t ym u s i c w h i c ha r ea l r e a d ya m o n gt h em o s tp o p u l a ra n dc o n s u m et h em a j o r i t yo f p r o c e s s i n gc y c l e s o n d e s k m ps y s t e m s ,i n d i c a t e t h a tt h e a p p l i c a b i l i t y o f c o m p u t e r - b a s e d t e c h n o l o g ya r et m n s p l a n t i n gf r o mt h eo f f i c ee n v i r o n m e n tt oe v e r ya s p e c to fo u rl i v e s b g 9 7 , g r 0 9 8 ,d a l 9 8 ,k i l 9 8 o v e rt h e p a s tt w e n t yy e a r s ,p r o c e s s o rd e s i g n e r s h a v ec o n c e n t r a t e do n s u p e r s c a l a ra n d v l i w a r c h i t e c t u r e st h a t e x p l o i t t h ei n s t r u c t i o n l e v e l p a r a l l e l i s m ( i l p ) a v a i l a b l e i n e n g i n e e r i n g a p p l i c a t i o n sf o rw o r k s t a t i o ns y s t e m s e m b e d d e dm o b i l em u l t i m e d i aa p p l i c a t i o n sr e q u i r ea s e to f d i s t i n g u i s h i n gc h a r a c t e r i s t i c s :1 ) t h et a s ko fm u l t i m e d i ad a mp r o c e s s i n gm u s tb er e a lt i m ea n di t s e e m st o h u g e m u l t i m e d i ai n p u td a t ae x h i b i tl i m i t e dt e r a p o m ll o c a l i t y ;2 ) t h e yr e q u i r el o w e n e r g yc o n s u m p t i o n ,p o r t a b l ed e v i c e sm u s to p e r a t ef o ral o n gt i m eu s i n gc o n v e n t i o n a lb a k e r y t e c h n o l o g y ;3 ) e m b e d d e ds y s t e m ss t o r ea p p l i c a t i o nc o d ei ns o m ef o r mo fn o n v o l a t i l em e m o r y l i br o mo rf l a s h c o m p a c ic o d es i z el o w e r st h es y s t e mc o s tb e c a u s et h ea p p l i c a t i o nc a nn e ea s m a l l e rr o mo rf l a s hc h i p ;4 ) i or e d u c et h eo v e r a l ls i z ef o re m b e d d e dd e v i c e s i ti sd e s i r a b l et o n s eh i g h l yi n t e g r a t e dc h i p st h a ti n c o r p o r a t eal a r g en u m b e ro ft h ep r o c e s s i n g , m e m o r y , a n di o c o m p o n e n t so nas i n g l ed i e h o w e v e r , kt h i sn e w c o m p u r i n ge n v i r o n m e n t , t h et r a d i t i o n a l m i c r o p r o c e s s o rs e e m s u n f i tf o rm o b i l em u l t i m e d i ac o m p u t i n gi nc o m p u t i n g p e r f o r m a n c e ,e n e r g y c o n s u m p t i o n 。a n dp r o d u c ts i z e 。s o l h ef o c u si n c o m p u t i n gh a ss h i f t e df r o me n g i n e e r i n gt o m u l t i m e d i aa p p l i c a t i o n sa n df r o mw o r k s t a t i o n st oe m b e d d e ds y s t e m s b a s e do nt h ee 燕e i a n tr e s e a r c ho nc o m p u t e ra r e h i t e c r d r ea n dt h ec h a r a c t e ro fm u r h n e d i a c o m p u t i n g ,w ea r g u et h a ti ti sp o s s i b l et od e s i g np r o c e s s o r st h a td e l i v e rb i g hp e r f o r m a n c e ,h a v e l o we n e r g yc o n s u m p t i o n a n d 瓣s i m p l et oi m p l e m e n t 。t h eb a s i sf o rt h ea r g u m e n t d d 9 7 s h o w a sf o l l o w s :i ) d a t a - l e v e l p a r a l l e l i s mi si n h e r e n ti nm u l t i m e d i ap r o g r a m s 2 ) t h e yo p e r a t em o s f l yo n n a r r o wd a mt y p e s 。a s8 - b i to r1 6 - b i tn u m b e r sa r es u f f i c l e n tt oe n c o d e ,t h el i m i t e di n p u tr a n g eo f h u m a nv i s i o na n d h e a r i n g :3 ) t h e a b i l l t y o f v e c t o r a r c h i t e c t u r e s t o e x p l o i t e f f i c i e n t i y t h e d a t a l e v e l p a r a l l e l i s mi nm u l t i m e d i aa p p l i c a t i o n s b a s e d0 nt h ec h a r a c t e r i s t i c sa n dr e q u i r e m e n t so fm o b i l em u l t i m e d i ac o m p u t i n g ,t h i st h e s i s f o c u s e so nt h ed e v e l o p m e n to fe f f i c i e n ta r c h i t e c t u r e sf o re m b e d d e dm u l t i m e d i as y s t e r n s w e p r e s e n ts v 0 ,av e c t o ra r c h i t e c 瓴王r ef o rm u l t i m e d i a 翻口鹞m 承u n d e ru n i f y2 - i s s u es u p e r s c a l a r a r c h i t e c t u r e ,s v 0i n t e g r a t e s8s 嘲赫,y e th i g h l yp a r e l l e l ,v e c t o rp r o c e s s o r 、城t ha ne m b e d d e d d r a mm e m o r yu s i n go u t - o f o r d e re x e c u t i o ni n s t e a do ff l o a t i n gp o i n tp i p e l i n ei ng a n e m l h i g h - p e r f o r m a n c em i o r u p r m m a s o nlh a v ef i n i s h e dp a r to f r t ld e s c r i p t i o no f s v 0w i t hv a r i l o g , u s i n ge e 啪cb e n c h m a r ka n dt h ev e r i l o gs i m u l a t i o nm o d e lw bd e m o n s t r a t et h a tt h ev e c t o r i n s t r u c t i o n si ns v 0c a nc a p t u r et h ed e t a - l e v 畦p a r a l l e l i s mi n t t t i n m d i at a s k sa n dl e n dt os m a l l e r c o d es i z et h a nr i s c ,c i s c 。a n dv l i wa r c h i t e c t u r e s 。s v 0p r o v i d eu pt o1 3t i m e sh i g h e r p e r f o r m a n c e t h a ng e n e r a l m i c r o p r o c e s s o r 4 中国科学技末土学 硕士学位论文 第一章引言 t 刍d a v i dp a t t e r s o n 提出i u s c 技术以来,r i s c f j , 取代c i s c 成为工作站和服务器 用微处理器的主流技术i 在过去的2 0 年里,微处理器设计人员主要针对提升工作 站和桌面计算机的工程应用计算性能而展开研究工作,致使超标量和v l l w 微处 理器得到飞速发展。 现代微处理器的快速发展主要归结于两个方面:一方面是半导体技术的飞速 发展,芯片集成度和电路工作速度呈现指数级的增长趋势,1 9 9 8 年以前,集成电 路制造中的金属导线技术没有改进,机器时钟频率的增长完全依赖于导线宽度的 减少而降低信号传输延迟。9 8 年i b m 成功的开发了铜互连技术,极大的减小了互 连线延迟,使线宽0 2 u m 以下的微处理器的主频可提高到1 g h z 以上。例如,4 8 6 的最高主频为4 0 1 0 0 m t t z ,p e n t i u m 的最高主频为6 0 2 0 0 m h z 左右,而p e n t i u mi l l 、 p e n t i u m i v 的最高主频现在已超过1 5 g h z ,从而促使微处理器系统性能呈现指数 级增长趋势;另外一方面是微处理嚣体系结构的改进,体系结构的发展有多种途 径,诸如r i s c 、超标量设计、v l i w 、s i m d 、超级流水线处理、无序执行、分支预 测、寄存器换名、多级高速缓存、v a l u ep r e d i c t i o n ,微处理器设计人员利用芯 片集成度的大幅增加,在单芯片实现上述复杂结构的控制和存储电路,提高微处 理器指令级并行性( i l p ) ,大大增强了微处理器的性能。 随着移动通信和网络技术的飞速发展,新兴的移动商务、移动上网、掌上银 行、移动互联游戏、移动多媒体等应用应运而生,未来手持式终端设备面临如下 功能需求:双向视频会议、压缩、存储及发送视频( 撮相机) 、编辑修改图像、播 放及编辑音乐、m i d i 铃音、玩游戏、三维图形处理和语音、图像等各种形式的智 能识别,因而目前计算领域研究的焦点正逐濒由工程计算向个人移动计算领域转 移。移动计算是随集成电路、移动通信、互联网、数据库、分布式计算等技术的 发展而兴起的技术,它将使得计算机或其它信息智能终端设备在无线环境下实现 数据传输及资源共享。移动计算被认为是对未来具有深远影响的四大技术方向之 一,也将成为未来计算技术研究中的热点领域。 移动计算设备对其中核心的计算引擎( 移动多媒体处理器) 各方面的性能要 求都非常苛刻,在这种新兴的计算环境中,基于三发射以上超标量体系结构的微 处理器在每个周期内可发送较多的指令,但高速缀存的缺失会非常严重,为此提 出的避免高速缓存缺失所造成的流水线延迟以及指令动态调度的方法,却又极大 的加剧了设计的复杂度。基于目前超橱重结构赍勺蔚熊躯嵌入式微处理器无论是性 能,还是功耗都难以满足未来移动计算的需求。必需根据移动多媒体计算特性出 发,从系统结构上寻求适含移动多媒体处理的计算结构,研究高性能、低功耗的 嵌入式多媒体处理器满足嵌入式移动计算的需求。 超级向量计算机自发明以来,一直是功能最强大的计算机系统,以g r a y 为 代表的巨型向量超级计算机只限于在甯防、气象、地质等极少数部门使用。近年 来,与超标量和v l i w 结构相比较而言,关于向量徽处理器方蘧的研究是非常缺乏 的,随着半导体技术的飞速发展,莱壁基于徽处理器的计箕机系统性能甚至超过 了超级向量计算机,性价也比超级向量计算机高,基于超标量结构的现代微处理 国科学技术太学硕士学位论文 器似乎比向量处理机更有前途。 如果用同样的半导体技术来实现向量微处理器,效果会是什么样呢? 基于向 量结构的微处理器仍将是未来某些计算领域速度最快、价格最便宜和功耗最低的 微处理器 k o z 0 2 ,a j 9 7 。结论主要是基于以下四点:1 ) 未来需求密集计算的多 媒体处理任务包含大量可并行处理的数据;2 ) 向量结构是发挥并行数据处理最 有效的途径,开发循环级并行性的一个重要技术就是向量处理技术。3 ) 向量机处 理对提高计算机运算速度十分有利,有利于流水线的充分利用,有利于多功能部 件的充分利用:4 ) 目前的半导体技术可嵌入大容量d r a m ,大幅增加存储器带宽, 降低存储器延迟,满足系统对高性能存储器系统需求,相比起大容量的c a c h e , 处理器性价比和功耗优势都是非常明显的。 由h p 与i n t e l 共同开发的i a 一6 4 i a 6 4 ,它在并行编译器的引导下发掘小粒度 并行处理的潜力,但是多媒体处理程序通常包含大量的数据重组操作,例如向量 排列,矩阵转置等,i a - 6 4 的6 4 位内存总线远远不能满足快速数据重组操作的要 求。实际上,虽然i a 一6 4 声称具有“显示并行指令计算”( e p i c :e x p l i c i t l y p a r a l l e li n s t r u c t i o nc o m p u t i n g ) 能力,它本质上是v l i w 架构在0 1 8 微米工艺 下的翻版,其相对于r i s c 处理器的主要改进仅仅是依赖编译器在每条指令上显式 地附加并行处理信息,从而把由硬件来完成的指令级并行发掘工作的复杂度转移 到编译器上。在r i s c 机器受限的多媒体处理方面,i a - 6 4 同样也没有太多的优势。 本文针对移动多媒体计算的特性,研究面向移动多媒体计算的两发射向量微 处理器s v o 的系统结构,以满足未来多媒体计算对高性能微处理器功耗和性价比 的需求。本文首先回顾处理器发展历史与背景,讨论多媒体计算的特性:基于嵌 入式移动多媒体计算设备的特性,提出面向移动多媒体计算的两发射向量计算结 构,充分利用向量处理机并行数据处理的优良特性,挖掘多媒体处理程序中存在 的并行数据处理,大大增强系统计算性能;其中重点讨论了两发射超标量微处理 器核的关键设计技术,在不耗费过多的硬件资源前提下,充分利用嵌入式系统中 多任务操作系统、数据传输、系统控制程序中存在的指令级并行性,发挥指令并 行处理的计算性能,增强多媒体处理器的系统控制性能;在统一的两发射超标量 结构下还重点讨论了如何实现高效的向量流水线,向量功能单元是如何与标量处 理单元实现高效通信的。文章还讨论了处理器中断处理单元的实现结构从系统 结构设计角度深入探讨两发射向量微处理器s v o 满足并行处理所需高速、高带宽 和低成本存储器系统,s v o 基于现代计算机多层次的存储器系统结构,通过纵横 交换系统与嵌入d r a m 直接相连,保证较大的内存带宽满足处理器所需数据流:最 后基丁:通用嵌入式微处理器测试基准e e m b c 和目前主流处理器性能参数,评估分 析了s v o 的性能。研究结果表明s v o 的结构可满足移动多媒体计算对处理器性能和 功耗的苛刻要求,还可显著降低未来移动多媒体处理器设计复杂度。本研究还希 望进一步拓展向量计算机韵研究范围。 9 中国科学技术大学硕士学位论文 第二章背景与动机 通用微处理器从概念上理解是非常简单的,它们执行指令并产生运算结果。 任何一个应用程序都是由一组指令组成的,处理器按n - - 定的顺序( 如i 0 ,i l ,i 2 ) 获取指令、执行指令,如图2 1 所示。每一条指令的执行都由几个阶段组成:取 指、译码读操作数、执行指令和回写结果等。整个过程都是在处理器的时钟控制 下完成的。 时间 - i 卜 图2 - 1 顺序指令执行过程 微处理器自1 9 7 1 年问世以来,经历了许多重要的变革,其中最有意义的变 革也许是从复杂指令集( c i s c ) 过渡到精简指令集( p j s c ) 体系结构。r i s c 体系结 构和设计思想是8 0 年代初出现的,它的基本思路是:抓住c i s c 指令系统指令 种类太多、指令格式不规范、寻址方式太多的缺点( 例如,v a x7 8 0 的指令操作 类型超过1 0 0 0 种,而a l p h a 只有不到5 0 种指令) ,通过减少指令种类、规范指 令格式和简化寻址方式,大量利用寄存器问操作,大大简化了处理器的结构、优 化v l s i 器件使用效率,从而大幅度地提高处理器性能、并行处理能力和性价比。 到8 0 年代后期,r i s c 技术已经发展成为支持高端服务器系统的主流技术,各厂 商纷纷推出了3 2 位r i s c 微处理器。如i b m 的p o w e r p c 和p o w e r 2 ,s u n 的s p a r c , h p 的p a r i s c7 0 0 0 和m i p s 的r 系列等。c i s c 微处理器和r i s c 处理器是目 前高性能微处理器的基本结构,下面总结这两种结构的特点。 c i s c 微处理器;6 0 年代中后期,随着v l s i 技术的迅速发展,在计算机系统中, 硬件成本不断降低,软件成本不断上升,使得人们热衷于在指令系统中增加更多 的指令并采用复杂的指令,以适应不同应用领域的需要,并考虑尽量减少指令系 统和与高级语言的语义差异,以便于高级语言程序编译和降低软件成本。当某一 系列计算机增加新的型号时,为保护用户在软件上的投资不受损失,新机器一般 要继承老机器指令系统中的全部指令,这种情况使同一系列的计算机指令系统越 来越复杂,指令集内的指令数目多达几百条。我们称这种计算机为复杂指令系统 计算机,简称c i s c 。这种计算机采用的徽处理鬻属于c i s c 结构的微处理器。 在c i s c 微处理器中,程序的各条指令是按顺序串行执行的;每条指令中的各个 操作也是按j 幞序串行执行的。顺序执行的优点是控制简单,但机器各部分的利用 率不高,执行速度慢。i n t e l 的x 8 6 系列就属于c i s c 结构的微处理器。 r 1 s c 微处理器:对c i s c 机进行测试表明,各种指令的使用频度相当悬殊,最 0 中国科学技术大学硕士学位论文 常使用的是一些比较简单的指令,它们仅占指令总数的2 0 ,但在程序中出现 的频度却占8 0 。复杂的指令系统必然增加微处理器的复杂性,使微处理器研 制时间长、成本高。复杂指令需要复杂的操作,从而降低了机器的速度。7 0 年 代末,j o h nc o c k e 提出精简指令的想法。8 0 年代初斯坦福大学研制出m i p s 机, 为精简指令系统计算机( 简称r i s c ) 的诞生与发展起了很大作用。r i s c 机中采 用的微处理器统称r i s c 处理器。m i p sr 3 0 0 0 、h p p a 8 0 0 0 系列,m o t o r o l a m 8 8 0 0 0 等均属于r j s c 微处理器。 r i s c 微处理器不仅精简了指令系统,还采用超标量和超流水线结构,大大 增强了并行处理能力。1 9 8 7 年s u nm i c r o s y s t e m 公司推出的s p a r c 芯片就是一 种超标量结构的r i s c 处理器。而s g i 公司推出的m i p s 处理器则采用超流水线 结构,这些r i s c 处理器在构建并行精简指令系统多处理机中起着核心的作用。 它们都是当今u n i x 领域6 4 位多处理机的主流芯片。在r i s c 微处理器发展过 程中,产生了超长指令字( v l i w ) 微处理器,它使用非常长的指令组合,把许 多条指令连在一起,以增加运算速度。 由于r i s c 处理器指令简单、采用硬布线控制逻辑、处理能力强、速度快, 世界上绝大部分u n i x 工作站和服务器厂商均采用r i s c 芯片作c p u 用。如原 d e c 的a l p h a2 1 3 6 4 、i b m 的p o w e r p cg 4 、h p 的p a 一8 9 0 0 、s g i 的r 1 2 0 0 0 a 和s u nm i c r o s y s t e m 公司的u l t r as p a r ci i 。这些i u s c 芯片的工作频率一般在 4 0 0 m h z 数量级。时钟频率低,功率消耗少,机器不易发生故障和老化,提高了 系统的可靠性。 r i s c 微处理器取得成功的因素有三,其一是指令集简化后,指令可按流水 线方式执行,而且流水线以及常用指令均可用硬件执行,大大加快了指令执行速 度;其二是采用大量的寄存器,使大部分指令操作都在寄存器之间进行,提高了 处理速度;其三是采用缓存一主存一外存三级存储结构,使取数与存数指令分开 执行,使处理器可以完成尽可能多的工作,且不因从存储器存取信息而放慢处理 速度。r i s c 技术给计算机体系结构的发展带来了一次重大变革,深刻的改变了 整个计算机工业的面貌, 微处理器的结构和主频一直是推动整个计算机系统发展的原动力。在某一阶 段微处理器的结构不变,处理器依靠主频的不断提升来提高其处理性能。随着处 理器设计技术和生产艺的发展,处理器突破性的性能提升还必须依赖处理器的结 构更新。下面简单回顾微处理器的结构演化历程,阐述本论文背景,总结面向移 动多媒体计算两发射向量处理器设计思路。 2 1 标量处理器模型 朴素的标量处理器在每个时钟周期内至多能处理一条指令,并完成一种操作。 最简单的顺序执行标量处理器是按一条接着一条的方式顺序处理每条指令,这种 顺序执行的行为描述了顺序执行的模型,如图2 - 2 所示,这个模型奠定从最简单 的顺序处理器到复杂的乱序发射指令并行处理超标量处理器发展的基础。 中国科学技术大学 硕士学位论文 a + 5 卜4 f 、+ 2 卜1 画 画 图2 2标最处理器的模型 2 1 1 顺序执行处理器模型 如图2 - 1 ,这种简单的顺序指令执行方式比较朴素,它顺序地发射指令,顺 序地执行指令,各条机器指令之间顺序串行地执行,而且每条机器指令内部的各 个微指令也是串行执行。主要应用在早期传统的冯诺伊曼结构的处理器中。这种 方法虽然控制简单但速度上不去,机器各部件的利用率低。 2 1 2 流水线处理器模型 8 0 年代后期,r i s c 结构逐渐代替了复杂指令集计算机( c i s c ) ,成为主流微 处理器设计结构,目前基于r i s c 技术的处理器速度可达几十亿次秒( 几千个 m i p s 秒) 。r i s c 典型的特点就是指令可按重叠流水线方式执行,图2 - 3 显示了 流水线处理器指令执行的时空模型。 r l 卜_ = _ 一 r 卜_ _ = = = = = = = 叫 , 1c : z z z z b - - - l r 斗2 卜一+ c = = = = ) 一 l a 部分流水绒重叠梗式 x l 卜匕= _ 叫 x 卜_ 吨= = e = = = = 卜 r + l 卜_ _ 二二】_ 卜叫 2 卜_ _ = = 工= = _ _ - 一 f hj 宪全流水绌重叠梗式 图2 - 3 部分流水线重叠和完全流水线重叠模式图 重叠方式是指在解释第k 条指令的操作完成之前就开始解释第k + l 条指令。 通常都是采用一次重叠,即在任何时候,指令分析部件和指令执行部件都只有相 邻两条指令在重叠解释。这种方式使指令的解释速度有所提高,控制也不太复杂 中国科学杖术土学硕士学位论文 但会出现冲突、转移、相关等问题,这些问题需要在设计时解决。流水线方式就 是把并行性或并发性镶嵌到微处理器系统里的一种形式。它是把重叠的顺序处理 过程分解为若干个过程,每个过程能在专用的独立模块上并行工作。在概念上“流 水”可以看成“重叠”的延伸。不同的是“一次重叠”只是把一条指令的解释分 解成两个子过程,而“流水”则是分解为更多的子过程。流水线的性能的主要指 标是吞吐率( t h r o u g h p u t ) 、效率( e f f i c i e n c y ) 、流水深度( d e e p ) 以及加速比 ( s p e e d u p ) 。从不同的级别上可对流水线进行不同的分类,这些“分类”对我们 理解流水线的概念有着重要的作用。流水线的分类可从多个角度考虑:1 ) 从流水 的级别上,可分为部件级、处理机级以及系统级的流水;2 ) 从流水的功能上,可 分为单功能流水线和多功能流水线;3 ) 从流水的联接上,可分为静态流水线和动 态流水线;4 ) 从流水是否有反馈回路,可分为线性流水线和非线性流水线;5 ) 从 流水的流动顺序上,可分为同步流水线和异步流水线;6 ) 从流水线的数据表示上, 可分为标量流水线和向量流水线。如果机器没有向量数据表示,只对标量数据进 行流水处理就称为标量流水线。如果机器具有向量数据表示,设置了相应的向量 运算硬件和向量处理指令,能流水地对向量的各元素并行处理就称为向量流水 线。 简单、固定长度、单周期执行指令的r i s c 计算机系统,与传统的c i s c 计 算机系统相比较:在相同条件下,r i s c 的速度比c i s c 要快2 5 倍,具有较大 的性能价格比。 2 1 3 乱序执行流水线处理器模型 理想情况下,全流水线的标量微处理器每周期可以处理一条指令,当程序存 在数据相关或控制相关时,就会严薰影响流水线的性能。乱序流水线处理器在指 令调度单元的控制下,在处理器内部实现指令的动态调度,控制处理器内部不相 关指令流的乱序执行,解决指令间的相关性,从而实现理想情况下流水线的性能。 图2 4 显示了乱序流水线处理器时空图与模型。 x + s 画 州画 x + 3 x + 2 x + 1 r i 卜c = 1 定向钎- 1 卜_ + 年= = - x + l 卜卜+ _ t - l j 叫 x + 2 - ) 序执行麓水时序田 r 1 卜。e = _ 定一锗景 c = 匕= := h 1 卜j t = ) 叫 x + 1 卜 = = = 一 ,+ 2) 曩廖毫水时序田 图2 - 4 乱序流水线处理器时空图与模型 p 6 系列处理器使用动态执行结构。该结构通过硬件寄存器重命名和分支预 测的方法,将乱序执行和推测执行合成在一起。这些处理器有一个有序进入的流 水线,它将i n t e l3 8 6 的宏指令支解成简单的微操作( 或u o p ) 和一个可以处理这些 微操作的乱序的超标量处理器内核。这个乱序的处理器内核包含了几条流水线, 中国科学技术大学硕士学位论文 连接了整型、跳转、浮点和内存执行单元。几种不同的执行单元可以集成在同一 条流水线上。例如:一个整型地址逻辑单元和浮点执行单元仂法器、乘法器和 除法器) 同享一个流水线。数据高速缓冲区由一个专用的读取端口和其它的存储 端口交错而成。大多数简单操作( 整型a l u ,浮点加法,甚至浮点乘法) 可以按每 时钟周期完成一至两个操作的吞吐量进行流水作业。浮点除法不可以进入流水 线,长迟延操作可以和短迟延操作并行处理。p 6 系列的流水线由三部分构成: 有序组织的前端( i n o r d e r i s s u ef r o n t e n d ) 单元,乱序内核( o u t - o f - o r d e rc o r e ) 单元 和有序的退出( i n o r d e rr e t i r e m e n t ) 单元。 2 2 指令级并行处理器回顾 前面我们已经回顾了从最简单的顺序执行的标量处理器模型,到复杂的乱序 执行流水线处理器,在一定程度上看,这类处理器的性能还是可以的。但这类处 理器都局限于每个周期只能执行一条指令。现代微处理器主要通过提高i p c ( 每个 周期执行的指令数) 和主频来提高计算性能。为了提高i p c ,必须提高处理器指令 级并行处理( i l p ) 的能力。所谓i l p 是指处理器在每个时钟周期内发射和执行多条 指令的能力。为了提高i l p ,就必须要求处理器:( 1 ) 能够找到和标识程序中可以 并行执行的指令段;( 2 ) 具有充分的资源在最短时间内发送和同时执行可并行执 行的指令段。这就要求处理器具有足够的资源来完成这两项任务。探索更快速、 更经济的途径完成这两项任务,不断在推动微处理器技术向前发展。 传统的l u s c 设计师们希望通过在芯片上增加更多的逻辑来提高指令并行 度,同时又不必采用太先进的工艺、增加太多的资源。他们把指令级并行分为静 态和动态两类:静态并行在编译时由编译程序发现和处理,动态并行在运行时由 处理器发现和处理。大多数现代的r i s c 处理器( 如e v 6 以后的a l p h a 处理器) 都 具有这两种并行功能。例如,a l p h a 就设计成能够利用编译时和运行时信息,首 先通过编译程序把程序改造成一个由许多可并行执行的指令段组成的记录( 静态 并行) 。但是,许多有关程序执行过程的信息只有处理器在运行时了解到,例如 内存访问是否命中缓存、比较指令的结果和转移指令的方向等。因此,a l p h a 还 具有无序指令发送机制。使得处理器能够根据程序的运行实际结果、改变指令发 送和执行的次序,而不会阻塞处理器的运行。这种无序执行技术的主要优点是能 够在有限的工艺和资源条件下,大大提高指令并行度。最出色的例子是,a l p h a e v 6 采用无序执行技术实现了在基于与e v 5 6 相同的0 3 5 u r n 工艺条件下,把性 能提高了1 倍以上,使芯片不仅具有高性能,而且在批量不太大的条件下具有较 高的性能价格比。 虽然无序执行技术已经成为当前r i s c 芯片设计思想的主流、取得了很大的 成功,但是这种技术也有其缺点,其中主要有:( 1 ) 无序执行技术要求处理器具 有较高的智能和复杂的逻辑,使得芯片的结构越来越复杂,也妨碍了主频和性能 的提高:( 2 ) 设计难度越来越大,使得许多r i s c 芯片的设计周期越来越长、而且 经常不能按期上市,难以满足应用发展的衙要:( 3 ) 处理器在运行时没有能够充 分利用编译程序所产生的许多有用的信息来提高指令并行度,也就是说传统的 r i s c 技术没有充分发挥硬件和软件相结合的合力; 4 中国科学技术土学硕士学位论文 2 2 1 指令级并行处理回顾 提高处理器性能的一个重要途径是充分开发用户程序更多的指令级并行性, 但是只有不相关的指令才能并行执行,指令级并行性的变化是很大的,这与执行 代码的类型很有关系。国际上自9 0 年代以来计算机体系结构方面如超标量、 v l i w 、s i m d 、超级流水线、多级高速缓存技术得到了迅猛的发展,由于微处理 器指令级并行性与主频的提高,目前高性能微处理器的数据处理能力可达几千个 m i p s 以上。最近又出现了v a l u e p r e d i c t i o n 、多线程( s i m u l t a n e o u s m u l t i t h r e a d i n g s m t ) 等技术,可望进一步改善微处理器的数据处理能力。 图2 - 5 示出了指令并行执行示意图,全字长操作意味着指令执行的基本步( 指 令译码、整数运算、地址计算) 可在单周期内完成。r i s c 技术展示了平均几乎 每个周期可执行一条指令。r i s c 微处理器性能的进展,开拓了指令级并行度。 流水线指令很适合于现代的工艺,编译技术的进展使得指令流水线更为有效。超 标量( s u p e r s c a l a r ) 方法是使每个时钟周期内启动多条指令,并能由多条流水线 在单周期内产生多个运算结果,它主要是用来开拓指令级并行处理性能的。为了 满足增多的指令和数据带宽要求,越来越多的高速缓存均置于处理器芯片上。将 微处理器和高速缓存放在同一芯片上,其间通路可设计得非常宽,以满足增多的 指令和数据带宽要求。 a ) 顺序执行b ) 指令级并行执行 图2 - 5 指令顺序执行与并行执行示意圈 近年来,计算机体系结构的研究主要方向就是多指令发射技术( m i i ) ,以取得比 每周期单指令发射处理器更好的性能。凡是处理器能够在一个周期内发射一条以 上的指令,我们都可以把它归结为m i i 处理器。m i i 体系可以分为两类:超标量结 构和超常指令字( v h w ) 结构。在超标量结构中 j o h 9 1 ,处理器由硬件决定那些 指令可以并发的执行,而对于超常指令字结构t r i e s 3 ,编译器负责调整指令顺序, 并把它们组成定长的指令组。荐由处理器并发处理指令缀中的各条指令。 中国科学技术太学 硕士学位论文 2 2 2 超标量处理器回顾 用户程序中蕴含的指令级并行度为多指令发射提供了基础,r i s c 的简单性 还使设计超标量处理器变得更容易,几乎所有著名的r i s c 处理机和i n t e l 的c i s c 处理都采用了超标量技术。但是,获得这种功能会带来更大的设计复杂性。对于 超标量处理器设计的核心问题就是如何让硬件动态地调度指令,使尽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产中介加盟合同书
- 瑞氏吉姆萨染色原理课件
- 理赔服务标准化培训课件
- 理论培训安全驾驶365课件
- 电梯工程实测检查方案(3篇)
- 防洪工程整治方案(3篇)
- 农业机械化智能化改造方案及2025年经济效益研究报告
- 猫咪相关知识培训记录课件
- 安全教育的培训收获课件
- 方案体现工程量(3篇)
- 软件著作权无偿转让合同5篇
- 2025年公安警种知识测试题及答案
- 抵押车贷合同(标准版)
- 2025年秋季学期教科版三年级上册科学教学计划(三篇)
- 2024人教PEP版三年级英语上册全册教案
- 2025年秋季学期中小学开展工作重点观测指标一览表
- 农民公寓买卖合同协议书
- 燃气检修工模拟试题(附答案)
- 2025居间服务合同范本(合同版本)
- 中老年唱歌教学课件下载
- 立体车库应急预案范文
评论
0/150
提交评论