(通信与信息系统专业论文)高性能嵌入式risc微处理器核设计研究.pdf_第1页
(通信与信息系统专业论文)高性能嵌入式risc微处理器核设计研究.pdf_第2页
(通信与信息系统专业论文)高性能嵌入式risc微处理器核设计研究.pdf_第3页
(通信与信息系统专业论文)高性能嵌入式risc微处理器核设计研究.pdf_第4页
(通信与信息系统专业论文)高性能嵌入式risc微处理器核设计研究.pdf_第5页
已阅读5页,还剩108页未读 继续免费阅读

(通信与信息系统专业论文)高性能嵌入式risc微处理器核设计研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学憾十。学位论文 摘要 芯片设计技术和深弧微米t 艺的进步使得系统集成在一块芯片中实现成为可能,嵌入式 系统设计进入片上系统芯片时代。本文作者参与了浙江大学信息与电子上程学系s o cr d 小组承担的国家8 6 3 超人规模集成电路设计重大项目和具有臼主知识产权的媒体系统芯片 m e d i a s o c 3 2 2 l a 设计和研发上作。本文主要探讨m e d i a s o c 3 2 2 1 a 双核之一的嵌入式r j s c 处理器的设计研究,本文的主要内容和创新如下: 砌s c 处理器面向的应_ h 范围广泛,不同的应用的特点不一样,对处理器的构造要求也 不一样。比如有些应用存在丰富的线程弗行性,采用多线程或者多核构造的处理器比较 合适;有些应用本身就是一个不可拆分的单线程应用,采用高性能的多发射处理器更为 适合。基于此本文提出通过两个简单r l s c 3 2 0 0 处理器设计在微结构上双发射与双核融 合的r j s c 3 2 0 2 处理器。这也就是说,r i s c 3 2 0 2 在指令构造上与r i s c 3 2 0 0 一致,但在 微结构上可以根据应用的特点配置成双发射超标最处理器,或者两个独立的r i s c 3 2 0 0 处理器,这是一种砌s c 处理器微结构构造创新。 媒体应用是当今处理器设计的驱动源之一,它已经成为r j s c 处理器必须考虑的t 作负 载。但是传统的基于r i s c 构造的处理器在提出之初并不是针对这类应用设计和优化的, 因而它在处理这类应用时效率不高,必须对其指令集进行面向媒体处理的扩展,以提升 其媒体处理的性能。本文针对r i s c 3 2 0 0 处理器第一代媒体扩展指令集m d s i 存在数据 处理效率高、数据供应效率低的缺点,新提出用于数据供应的媒体扩展指令集m d s i l , 有效提升了r j s c 3 2 0 0 的媒体处理效率。 在进行微处理器的功能仿真验证时,一个关键问题就是如何高效高质量的开发各种各样 的验证程序。高效是指能快速开发出各种不同验证目的的验证程序,高质量是指开发出 的验证程序的针对性好,能快速覆盖处理器需要验证的功能。针对这个问题,本文提出 基于r l s c 3 2 0 0 指令构造的伪随机自动程序生成方法。它的核心包括两个部分:指令生 成模型和程序模板。指令生成模型保证生成的指令合法有效,程序模板保证生成的指令 序列针对性好。采用该方法后将验证程序的开发转换为c 下的模板程序的开发,极大 的方便了r i s c 3 2 0 0 仿真验证过程中的验证程序生成。 在系统芯片设计中,如何快速优化嵌入式软件也是一个非常关键的问题。本文以实现基 于砌s c 3 2 0 0 的m p 3 软件解码器为例,对这个问题展开研究。在此基础上,总结出嵌 入式软件优化的普遍原m 和方法,并实际应用到m p 3 的解码软件优化中,取得不错的 优化效果。然后根据新设计的砌s c 3 2 0 2 处理器的微结构特点,提出将m p 3 解码软件 拆分成两个线程并行执行,在r j s c 3 2 0 2 上取得1 7 8 的性能加速比。 关键词:媒体系统芯片砌s c 处理器指令集微结构流水线叔核双发射功能验证指令 扩展软件优化 塑坚叁堂堡圭兰垡兰墨 a b s t r a c t r 砸di m p r o v e m e n to f c h i pd e s i g nt e c h n i q u e s 柚dt h ed e e p - s u b m i c r o nt e c h n o i o g yh a sd r i v e n t l l ee m b e d d e ds y s t e md e s i g ni n t os y s t e m o n - c h i p ( s o c ) a g e t h ea u t h o ro ft h i st h e s i sa n e n d e d m ep r o j e c ts u p p o n e db yn 砒i o n a l8 6 3p m 酽枷a n dt h ed e v e i o p m e n to fam e d i as o cn 锄e l y m e d i a s o c 3 2 2 】a ,w h l c hi sd e s i g n e db yt 1 1 es o cr & dg r o u po f z h e j i a l l gu n i v e r s 峨1 1 1 i st h e s i s f b c u s e so nt l l er do fa ne m b e d d e dr i s c b a s e dp m c e s s o lw h j c hi si n t e g r a t e di n t o m e d i a s o c 3 2 2 1aa so n eo ft w op r o g r 砌m a b l ep r o c e s s o r s t h em a i nc o n t e n t sa n di n n o v a t i v e p o i n t so f m i st h e s i sc a l lb es u m m 撕z e da sf o l l o w s : r l s c - b a s e dp r o c e s s o r sh a v ee x t e n d e dt 1 1 e m s e l v e si n t oa k i n d so fe m b e d d e da p p l i c a t i o n s b e c a u 5 ed e 陀n ta p p i c a t i o nh a sd i 髓r e n t 佬a t u r e s ,i tr e q u i r e sd i f f b r e n ip r o c e s s o r s f 0 r e x a m p l e ,t t l em u l 石- t h r e a do rm u l t i c o r ep m c e s s o r sp r o c e s s j n ga p p l i ca t j o n sw i t hp l e n t yo f t h r e a d l e v e lp a m l l e l j s ma r ep r c f 音r a b i e ;i n v e r s e l y ,s i n g l e - t 1 1 r e a da p p l i c a t i o nc a nb e n e mm o r e 疗d mah i g i lp e r f o l l i l 髓c em u l t i i s s u ep r o c e s s o ra c c o r d i n gt oc o n s i d e r 撕仰a b o v e ,w eh a v e d e s i g f l e dan e wp r 。c e s s o r l s c 3 2 0 2b a s e do nt w or i s c 3 2 0 0 r i s c 3 2 0 2h a st h em i x m i c r o - a r c h i t e c t u r eo fd u a l i s s u e柚dd u a i c o r ea n ds u p p o r t st h es 锄ei n s t n l c t j o ns e t a r c h l t e c t u r e ( 1 s a ) w i mr j s c 3 2 0 0 i tc a nw o 暾o nb o t hd u a 】- c o r em o d ea n dd u a l - i s s u es i n 西e p r o c e s s o rm o d e ,w h i c hi sa ni n n o v a t i o ni np r o c e s s o rm i c r o - a r c h i t e c t u r ed e s i g n m u l t i m e d j aa p p l i c a t j o ni so n eo ft h em a nd n v i n gf o r c e sf o p r o c e s s o rd e s j g na n db e c o m e s o n eo ft h em a i nw o r k l o a d so fr j s c 七a s e dp r o c e s s o r s b e c a u s e 竹幢甘a d i d o n a lr j s c - b a s e d p m c e s s o r sa r en o to p t i m i z e df o r t h i st y p eo fa p p l j c 鲥o n ,t h e yh a v e l o we m c j e n c y j n p r o c e s s i n gm u l t i m e d i aa p p l i c “o n s t h e r e f o r e ,a 1 1e 腩c t i v em 劬o di st oe x t e n di t si s af o r m u n i m e d i ap r o c e s s i n g 1 nt h i sp a p e f o c u s i n gt l l ed r a w b a c ko fm d s le x t e n s i o no f r i s c 3 2 0 0 si s a ,w h i c hh a sp o w e 向im e d ad a 协p f o c e s s i n ga b i 垮b u ta w k w a r dm 甜j ad 如 p m v i d i n ga b j l 咄w eh a v ee x t e n d e dt h em d s i if o rh i 曲e 币c j e n c ym e d i ad a t ap r 0 v i s i o n t h e e x p e r l m e n t ss h o wm d se n h a n c er l s c 3 2 0 0 s “m l t i m e d i ap r o c e s “n ga b i l i t yi nl a r g ed e g r e e s i no r d e rt oi m p r o v et h ee 箭c i e n c y 柚dt h eq u a l 谚o fp r o g mg e n e r a t i o nf o rp m c e s s o r f h n c t i o na jv e r j 6 c a 石o n ,t h ep s e u d o - r a n d o mg e 玎e 珀t i o nm e m o di ss t i j d j e di nt b i sp a p e w h i c h i sc o m p 而s e do ft h es i n 9 1 ei n s t n j c t i o ng e n e r a t i o nm o d e l 卸dt t l ep r o g r a mt e m p l a t e t h o i n s t m c t j o ng e n e r a t i o nm o d e lj su s e dt og l l 咖t e et l l e1 e g a | 时锄de f i 酏t i v e n e s so fg e n e m t e d i n s 帅d i o n ,a n d 曲ef o c u so fg e n e r a t e di n s t m c d o ns e q u e n c e si sg u a r a f l t c e db yp r o g r a m t e m p l a t e s w i t hl h eh e l po ft h l sm e l h o d ,f u n c t i o nv e r i 矗c 撕o np r o 舯m s 呲d e v e l 叩e d c o n v e n j e n t l yi nci a n g u a g e h o wt oo p t i m i z ee m b e d d e ds o _ r 、 v a ej sak e yp r o b l e md l l r i n gs o cd e v e l o p 嘲e n t t “sp 印e f g i v e sas p e c i f i cs o f h v a r eo p f i m i z a t i o ne x a l l l p i e ,t l l em p 3d e c o d i n gp r o g r 绷o nr i s c 3 2 0 0 o nt h eb a s i so f 曲d v ew o r k ,w ep r o p o s og e n e r a ls o f h a r eo p t i m i 测o nt e c l l i l i q u e sf o r e m b e d d e ds y s t e m s ,w h j c ha r ea p p l i e dt oo p t j m j z eo u rm p 3d e c o d e ro nr i s c 3 2 0 0 a tl a s t ,w e p m p o s ep a n i t i o n i n gt h em p 3d e c o d i n gp r o 伊姗i n t ot 、m r e a d sw h i c ha r ee x e c u t e d p 删1 e 1 1 y0 n 砌s c 3 2 0 2 sd u a l - c o r em o d e ,a n dm p 3d e c o d m gp m g r a ma c h j e v e s1 7 8 s p e e d u p so nr i s c 3 2 0 2 k e y w o r d s :m e d i as o c ,r j s cp r o c e s s o j s a ,m j c o a r c h i f e c t u r e ,p j p e l i n e d u a l l s s u e ,d u a l c o 琏f u n c n o nv c r m c a i j o n ,i n s 们c t i o ne x t e n s i o n ,s o m 旧r e 叫i m i z a t i o n 1 i 浙江入学博士学位论文 第一章绪论 近年来,微处理器芯片设计已成为一个热点研究问题。微处理器芯片受工艺技术的进步 和应用需求的增长的驱动,在经过3 0 余年的发展后,其设计方法、体系结构已发生重人改 变,特别是在嵌入式应用领域,它己形成了种类繁多、性能与功能各异的百花齐放局面。本 章简要地综述了嵌入式微处理器的分类及特点,介绍了最新的微处理器的研发现状和发展趋 势,讨论了媒体系统芯片的架构、设计与验证方法。在此基础上,提出了本文的研究问题和 主要创新点。 1 1 嵌入式微处理器的分类及特点 h e n n e s s y 和p a n e r s o n 【1j 将计算机系统体系结构分为桌面计算、服务器和嵌入式应用三大 类。桌面计算强调计算、图形和交互性能,不注重程序大小和处理器的功耗。桌面系统处理 器的典型代表是i n t e lx 8 6 系列处理器,它独占了桌面系统市场的很大份额。服务器主要是指 数据库、文件服务和网络应用的多用户服务系统,它以商用事务处理和w e b 服务为主,可 用性、可扩展性、高吞吐率是系统设计的关键。服务器系统处理器的典型代表如1 b m 公司 的p o w e r 系列处理器。与它们不同,嵌入式应用的性能和成本范围十分广泛,从简单的、 只支持固化应用程序的8 ,1 6 位微控制器,到具有强大的图形图像和流媒体处理能力的3 2 6 4 位微处理器或数字信号处理器。成本和低功耗是嵌入式系统设计的关键,其性能要求多体现 为对实时任务的高效处理。嵌入式系统和桌面系统的最大区别是,前者具有静态结构,火多 数应用软件存于终端用户不可见的只读存储器中,且终端用户不能访问处理器的可编程接 口,不能对嵌入式处理器的行为进行修改或者重新编程。在嵌入式处理器领域,没有一种处 理器可以独霸天下,可供选择的处理器枚不胜举,其中主要包括a r m 系列c p u ,m l p s 系 列c p u ,m o t o r 0 1 a 的6 8 k 系列,h i t a c h i 的s u p e r h 等等。表1 1 给出了当前计算系统的分类 及其系统特征“】。 表1 1 计算机系统分类及其主要特征 图1 1 概括的表示了嵌入式处理器【3 l 的发展过程。长久以来,在嵌入式系统领域,8 位 机和1 6 位机一直占有垄断地位。由于这种8 ,1 6 位的嵌入式处理器结构简单,所以常常并不 浙江人学博上学位论史 被称为微处理器( m i c r o p m c e s s o r ) ,而是被称作微控制器( m j c m c o n t r o l l e r ) 。但是随着嵌入 式应用对系统的性能要求越米越高,嵌入式系统也越来越复杂,传统的8 ,1 6 位处理器已经 不能胜任复杂应用系统的需求,3 2 位嵌入式处理器应运而生。许多嵌入式处理器结构从过 去的主要_ j 于桌面系统的结构( 如m i p s 、s p a r c 等) 中衍生出来,与桌面处理器之间的不 同也不再仅仅局限于寄存器组织、基本指令集、流水线结构,而扩展到了诸如功耗、成本、 外设集成度、中断响应时间、片上r a m 或r o m 的容鼍等诸多问题1 4 j 。 图1 一l嵌入式处理器的发展过程 出于综合性价比的考虑,r j s c 结构和d s p 结构在嵌入式处理器应用中占绝大多数。不 同的应_ j 场合决定所采用的嵌入式处理器的不同结构。比如,在要求大最数据处理的场合, d s p 结构处理器占有较大份额,它可以进行大量数据的实时处理。而在要求对信息进行控制 和操作的应用场台,例如文字处理等,r j s c 结构处理器则占有较大优势,它可以有效调度 不同的任务进程。 1 1 1r i s c 处理器 1 1 1 1r l s c 处理器发展史 r i s c ( r e d u c e di n s t n l c t i o ns e tc o m p u t e r ) 的概念最初是在p a n e r s o n 和d i t z e l l 9 8 0 年的 论文中提出来的。由于当时r j s c 技术能在同样的技术条件f 可以将计算性能提高2 到5 倍, 所以r i s c 概念一提出便引起r 业界极大的兴趣。 最初的商用r l s c 处理器主要有3 个:b e r l 1 e y 的r l s c l 和r l s c i i 处理器、j b m 的8 0 1 处理器和s t a n f b r d 的m l p s 处理器。这3 种处理器都采用l o a d s t o r e 结构,定k 编码的3 2 比特指令字,并强调高效的流水线结构。 随后,工业界开始广泛使用r l s c 技术设计自己的处理器,砌s c 与c i s c 结构之间也展 开了激烈的较量pj 。相对丁c l s c ,r l s c 的最大特点是其精简指令集结构,冈而处理器的频 率可以成倍提高。进入2 0 世纪9 0 年代,随着c a c h e 策略、跳转预测、超标量、功耗、整合 2 浙江大学博l 学位论史 策略逐渐成为业界研究热点,r j s c 和c i s c 之间的争夺也进入白热化阶段。 随着计算机体系结构的不断发展,r l s c 以其结构和软件开发上的优越性逐步取得了与 c l s c 之闻斗争的胜利,c 】s c 纷纷转向r i s c 、砹计,例如在桌面和服务器市场中,具有c i s c 指令的x 8 6 处理器通过硬件将c i s c 指令转换成r j s c 指令。但是,在嵌入式市场中,成本 和功耗成为首要的考虑因素,采用硬件转换的方法对系统米说太奢侈。所以,在2 0 0 0 年以 后问世的通用目的处理器中,9 0 都采用r i s c 架构。 1 1 i 2m s c 处理器特尉抽1 r j s c 处理器的基本思想是尽量简化计算机指令功能,只保留那些功能简单、使用频度 高、并且能在一个节拍内执行完成的指令,而把较复杂的功能用指令序列来实现。这样带来 两个好处:一方面由于其选用的指令的功能简单,对应的微结构也就变得简单,冈丙可以提 高处理器的时钟频率:另一方面,由于结构和微结构简单,流水线的效率非常容易提高,从 而可以降低每条指令的执行周期数。所以在r 1 s c 提出之初,一般r i s c 计算机的速度是同 等c i s c 计算机的3 倍左右。现在流行的砌s c 体系结构的主要特点如下: 简单固定格式的指令系统所有指令采用固定长度编码( 如3 2 b i t 、或1 6 b h ) 简单 寻址方式,简化了逻辑和缩短译码时间,确保单周期执行指令,同时也有利于指令 的流水执行。 单周期执行指令由于砌s c 微处理器的指令经过精选,所有指令长度都相同,人多 数指令都能够在一个机器周期内完成。 l o a d ,s t o r e 结构r j s c 体系结构只允许l o a d ,s t o r e 指令访问主存,其它指令都拦面 向寄存器的计算。一条取数指令( l 0 a d 指令) 从内存将数据取出放在寄存器中,在 那里完成数据的处理。并且将结果暂存在寄存器里,以便将来使用。在适当的时候。 一条存数指令( s t o r e 指令) 可将结果存回到它对应的主存地址中去。这种l o a d ,s t o r e 结构是砌s c 处理器最显著的特点之一。 硬连线控制、不用微码技术 由于r j s c 的设计采用简单、合理的指令系统和简化的 寻址方式,所以不需要微代码设计技术。它通过采用少量、简单、崮定的硬连线控 制逻辑替代微码以实现指令的硬件执行。这意味着省去将机器指令转化为原始微码 这一中间步骤,从而减少指令执行所需的机器周期数,提升了指令执行效率。 大寄存嚣文件r i s c 微处理器中所有计算都是面向内部高速寄存器,为减少内部寄 存器数据和外部主存数据的交换,一般采用大的通用寄存器文件( 如3 2 个通用寄存 器) ,由编译器产生、分配和优化寄存器的使用。 哈佛结构的高速c a c h e 采用分离的指令和数据高速c a c h e ,每周期内能同时提供一 条指令和个数据。同时使用c a c h e 有效解决了c p u 工作频率高、主存工作频率低 这个矛盾。 浙江大学博上学位论文 1 1 2d s p 处理器 1 1 2 1d s p 处理器发展史 人们对d s p 技术的研究开始丁二十世纪7 0 年代主要是研究诸如凋制解调器和中心转 接系统等电讯设备。贝尔实验室的d s p l 和n e c 的7 7 2 0 在1 9 7 8 年的问世i ”,宣布了d s p 处理器的诞生。 1 9 8 2 年,美国t e x a si n s t r u m e n t s 推出了采用哈佛结构的1 m s 3 2 0 1 0 ,将指令和数据存 储空间分开,各自具有地址和数据总线,奠定了现代d s p 处理器的基础,成为第一代d s p 。 1 9 8 7 年问世的m o t o r o l ad s p 5 6 0 0 l 代表第二代d s p 结构走向成熟。它具有了现代d s p 的人 部分数据处理功能:器件内部采用流水线,有乘累加单元,支持零开销循环,可以进行窗口 寻址。同一时期的d s p 还有a t t 的d s p l 6 a ,a n a l o gd e v i c e s 的a d s p - 2 1 0 0 等。 进入2 0 世纪9 0 年代,随着应用领域的不断扩大,d s p 进入了一个快速发展时期。除了 满足实时处理的要求外,处理能力更强大,软件开发环境更成熟,而且更注重低功耗、低成 本、高集成度的要求。第三代d s p 的典型代表是1 9 9 5 年m o t o m l a 的d s p 5 6 3 0 l 和t t 的 t m s 3 2 0 c 5 4 l 。 1 9 9 p 1 9 9 8 年,d s p 技术发展到了第四代,指令并行性进一步提高,从单指令系统发展 到v l j w 结构、多处理器结构。其典型代表是t i 的t m s 3 2 0 c 6 2 0 1 ,它采用v l l w 结构, 将8 条指令打包成一条长指令,在处理器内部同时执行多个操作。 目前的d s p 处理器不仅多媒体等处理性能有了较大提高,而且结构和开发手段更加成 熟、可靠,其应用领域也涉及到人们日常生活的方方面面。 1 1 2 2d s p 处理器特尉警1 砒 d s p 是优化用于处理实时信号的微处理器。对这些实时信号的处理取决于处理器的高 速计算能力因而在d s p 微结构里面,有许多为高速数学操作所进行的结构优化。除了快速 数学计算外,一个专门设计的d s p 还必须兼顾组成高速运算系统的其它能力,如存储器带 宽、i o 带宽和快速中断响应也是处理实时信号时非常重要的方面。总的说米,其体系结构 的主要特点如下: 直接面向数据存储单元寻址的指令类型由丁d s p 它是面向数据的高速处理,因而 数据的供应能力非常重要。通过采用面向数据存储单元寻址的指令类型,在一条指 令里就可以同时完成数据取和数据计算两个操作,提高了它的数字信号处理能力。 丰富的寻址模式d s p 经常包含有专门的硬件地址产生器,能在单周期内完成多个 地址生成,也能产生信号处理算法需要的特殊寻址,如循环寻址( 在f i r 滤波算法 中菲常有用) 和位翻转寻址( 在f f t 算法中非常有用) 。 寄存器文件专用化与r j s c 处理器的通用寄存器文件相反,d s p 处理器的寄存器文 件经常专用化。一般通过将寄存器文件分组,每组寄存器支持不同的功能,方便微 结构实现高效的数据处理。如支持辅助地址计算及指令寻址的专门用途寄存器。 4 浙江大学博士学位论文 乘加流水线为核心的数据通路大多数信号处理算法,例如卷积、相关、滤波、f f t 等,都是人量数据重复执行同一操作,其运算多为卷积运算( 或说阵列乘法) ,如f : y ( h ) = 口( 尼) x ( 聆一女) 对于信号处理的应用,乘加是紧密相连的,相乘后紧跟着要将乘积结果进行累加, 因而乘加运算廊统一考虑,构成以乘法器、加法器为核心的运算部件。另一方面, v l s i 技术使得乘法器、加法器完全能集成在一个芯片中。因而在指令系统设计和运 算控制部件设计时,将乘加用一条指令表示,当流水线充满时,在一个指令周期完 成一次乘加操作。 片内数据r a m 、m a 数据传送支持采甩片内片外两级存储体系,片上集成高速 数据r a m 是d s p 芯片结构的义一特色。片内存储器的特点是速度快,可以多个存 储器并行访问,它是高效实现面向数据存储单元寻址的关键。但是从芯片的成本、 功耗等方面考虑其容量不能太大。片外存储器的容量可以做到很大,通过d m a 传输 方式可以方便的进行片内外数据交换,同时又不影响高性能的数据处理。d s p 处理 器的这个特点适合于数字信号处理的大量数据处理要求。 特殊的d s p 指令d s p 器件的另一个特点是使用特殊的指令,对于信号处理领域中 的一些特殊算法( 如t e r t b i ) ,可以采用专门的硬件实现,这样可以极大提高处理器 的效率。 零消耗循环控制d s p 算法的共同特征在于大部分处理时间花在执行包含在相对小 循环内的少量指令。因此,大部分d s p 处理器具有零消耗循环控制的专门硬件,支 持零消耗的循环控制。具体来说,零消耗循环是指处理器不用花时间测试循环计数 器的值就能执行一组指令的循环,硬件完成循环跳转和循环计数器的衰减。有些d s p 还通过一条指令的高速缓存实现高速的单指令循环。 执行时间的可预测性大多数d s p 应用都具有硬性实时要求,在每种情况下所有处 理工作都必须在指定时间内完成。这种实时限制要求程序设计者确切知道每个任务 究竟需要多少执行时间或者在最坏情况下要用去多少时间。d s p 执行程序的进程对 程序员来说是透明的,因此很容易预测处理每项工作的执行时间。 1 1 3 混合类型处理器 随着媒体处理、网络通讯、汽车电子等众多嵌入式应用领域的快速发展,对微处理器的 性能越来越提出更高的要求。一方面,新的标准和应用要求更快的微处理器。如媒体处理领 域,新的h 2 6 4 标准的推出,就其b a s e l i n e 而言,解码器复杂度是h 2 6 3 解码器的3 倍左右, 而编码器的复杂度则高达十多倍。在3 0 无线通讯系统中,每秒需要处理的数据也成倍地增 长。另一方面,嵌入式系统除要求硬实时性外,用户对系统的交互性、灵活性也要求越来越 高。实际上,嵌入式系统不再拦只需要一个用于系统控制的便宜的微控制器以及集成外设和 存储器的嵌入式控制应用的代名词,而是需要包括显示、图形界面、人机界面、图像处理、 浙江人学博士学位论文 远程控制、实时通讯等功能集成的一个复杂的应用系统。在这个系统里同时强调较强的数据 处理能力和良好的系统控制能力。而以往的传统嵌入式处理器结构越来越不能满足这类系统 的需要。比如,传统r j s c 处理器虽然控制能力较强,但是其数据处理性能不够。而传统的 d s p 结构虽然数据处理能力较强,但是它不适合系统控制。冈此如果能将两者的特点结合起 来,无疑会史加适应新的应用领域的需要,并对嵌入式系统处理器结构的设计方法产生深远 的影响。吲此,目前嵌入式处理器发展的新趋势是刚s c 增强结构或者r i s c d s p 融合结构。 r j s c 增强结构是指在r i s c 结构中增加d s p 处理指令、d s p 处理专j h 硬件电路或d s p 执行单元。它是一种低成本、低风险的快速增强r l s c 处理器的数字信号处理能力的有效方 法。但是受r i s c 体系结构本身的限制,在数字信号处理能力上它还是比不上针对专fj 应用 开发的数字信号处理器。 r i s c 和d s p 在结构j 二融合是指处理器指令集同时包括以前两类处理器的指令特点,然 后在微结构上重新设计,以达到系统控制能力和数据处理能力的同时提高的目的。本课题组 自主设计的“浙大数芯”m d 3 2 0 0 处理器就是一个这样的处理器核。m d 3 2 0 0 既支持基 于l o a d s t o r e 架构的r i s c 指令集、也支持面向m e m o r y 的d s p 指令集、并根据媒体应用的 特点扩展了媒体指令集。m d 3 2 0 0 的微结构如图1 - 4 所示。 p c u ( p 恻1 n ec o m r o lu n l t ) :p 0 l c p 2 l m g e r c p u c o r c i e x c e p t l o n : d m a i f:i d:d a:d m:e x:w b c 彻o i 厂_ 、 户_ 、户_ 、”_ 厂 r c g l br c g i m e r m c m o r v d m a t 拈k l t ca g u l眦g e n e 忍l m a g e n t s c h e d 山a r 2 c g l m :b a s 。dd n o i n 日川d t o n i n s mc l e c o d c r d a 诅 l s a p l i r d o s e a g u 2 l 呲e r 妇c e t 0 m 廿n o n m d f ,n s m e m o r v r e g i s t m a l u i t l b , b i u 圆圆 m d s j b u j t l b 墨曩墨墨 p ( ? c o n t m i m a ci n m ii i | 晶。 赢。,。i 尚由尚 印一e 。l i 竺竺li ! 竺! :li ! 竺l 图1 4 m d 3 2 0 0 微结构 1 2 微处理器的研发现状和发展趋势 当前,微处理器体系结构正面临着新的挑战和新的机遇。一方面,集成电路仍将按 摩尔定律持续高速发展,预测到2 0 1 1 年,单片可集成的晶体管数将达到1 4 亿个,芯片的 特征尺寸为5 0 纳米甚至更小,芯片的引脚数可达剑6 0 0 0 个以上。另一方面,随着网络、媒 体应用【”1 的迅猛发展这类新的应用迫切要求微处理器具有响应实时性、流式数据处理能 6 浙江大学博上学位论文 力、支持数据级和线程级并行性、趸高的存储和朐带宽、低功耗、低设计复杂性;要求缩 短芯片进入和退山市场的周期。在这种情况下,为了进一步开发应用问题中的并行性,有效 地利用集成度的提高带来的海量晶体管资源,提高微处理器的性能,降低功耗,学术界和_ _ 业界开展了多个方面的研究与探索j 二作,寻求新的体系结构来适应新的市场和不断变化的应 用需要。这些工作基本上可以分为如f 几类1 ”“1 。 1 2 1 指令级并行 为提升单处理器的性能,首先提出的就是多发射技术。这种技术本质上是利用串行程序 中同有的指令并行性( 1 l p :l n s t r u c t i o nl e v e lp a r a e l i s m ) ,通过将前后无关的指令发射到微 结构中同时执行达到加快程序执行的目的。根据发现程序中的指令并行性的方式的不同,这 种多发射技术m 训又分为两大类:超标星处理器( s u p e r s c a l a rp m c e s s o r ) 和超长指令字处理 器( v l i w :v e 搿l o n gl n s t r u c t ;伽w o r d ) 。 l 。2 1 1 趣标量处理器洳 超标龉处理器通过加大指令发射窗口,由硬件自动发现可以并行执行的指令,然后自动 发射到执行部件中执行。商业上第一个成功的超标量处理器是i n t e l 公司在】9 9 0 年开发的 i 9 6 0r i s c 处理器。跟着成功的双发射的超标量r l s c 处理器有a l p h a 2 1 0 6 4 ,h p p a - 7 1 0 0 等。 当前流行的是4 发射或6 发射的超标量处理器,如a 1 p h a2 1 2 6 4 、m l p sr 1 2 0 0 0 、i b mp o w e r 4 、 p o w e r s 等。超标量处理器一般采用砌s c 体系的指令结构,采用l o 删s t o r e 架构和分级缓存 ( 如几级c a c h e 组织) 的主存访问机制。它的微结构典型组成模块包括:指令取部件、指令 译码部件、发射部件、多个执行部件、逻辑寄存器文件、重命名寄存器文件、分支预测部件、 指令交付部件、指令数据高速缓存等。其典型流水过程如图l 。5 所示。 指令发射 指令执行 指令完成 图l - 5 超标量处理器指令流水示意图 与传统的单发射r i s c 处理器相比,超标量处理的特点如下: 在每个时钟周期可以发射多条指令,这也是传统的单发射r l s c 处理器称为s c a l a r 处理器而多发射的砌s c 处理器称为s u p e r s c a l a r 处理器的原因。 每个时钟周期实际发射到执行部件的指令条数由硬件动态决定,最低为o ,最高为 处理器的最大发射宽度。 - 超标量处理器的编程模型仍然是串行编程模型,因而它必须保证程序的串行完成顺 序。囚此,当代超标量处理器的指令执行一般分为三个阶段:指令发射、指令执行、 7 浙江人学博士学位论文 指令完成。一般采取按序恬l 序发射、按序乱序执行、按序完成策略米保让程序的 串行模型。 一多个功能部件。功能部件个数至少为处理器的最大发射宽度。另外,由于多条指令 的乱序执行,其微结构内部的数据冲突检测、数据旁路、指令的动态发射等部什都 造成超标量处理器比单发射处理器复杂的多。 -最重要的一点,超标量技术属于微结构改进,不属于指令构造改进。通常同一个公 司的多发射的超标量处理器和单发射的处理器的指令集构造相同。这也就是说,同 一个程序可以在这两种类型的处理器上都能执行。 超标量处理器的前沿研究工作有美国p 甜y n 等人提出的a d v a n c e ds u p e “c a l a r ”处理 器,l i p a s t im h 等人提出的s u p e r s p e c u i a t i v e 口卅处理器,s m i t hj e 等人提出的t r a c e 【2 7 1 处理器 和v j i a v k u m ”1 n 等人提山的m u l l i s c a l a r 例处理器。这些研究共同的思想是组织更宽的超标 量,采用更多的功能部件,多级c a c h e 和激进的数据、控制和指令轨迹预测,达到使用尽可 能多的i l p 。这类方法存在的问题2 9 1 是:一方面单个应用内在的i l p 是有限的,提高性能的 潜力很快就会达到极限;另一方面将导致芯片的复杂度过高,使得一个完整的芯片的设计、 验证和测试的成本变得令人难以接受。 l 。2 1 2 超长指令字处理器泌蠲 v l l w 通过编译器发现可以并行执行的指令,然后将这些可以并行执行的指令打包成一 个超长指令字,然后硬件把同一个包中的指令同时发射到执行部件中执行。超长指令字处理 器在针对具体应用( 特别是媒体应用) 的d s p 处理器设计中应用的比较多,如p h j l j p s 嘣m e d i a 系列处理器、1 11 m s 3 2 0 c 6 x 系列处理器等。在服务器等高端应用领域,h p 和i n t e l 联合开 发了基于e p i c ( e x p l i c i t l yp a r a l l e l l n s t 九l c t i o nc o m p m i n g ) 技术的m e r c e d 处理器也类似于 v l l w 结构。v l l w 结构之所以吸引d s p ,有一个重要的原因就是数字信号处理应用能够提 供大量的i l p 。而编译技术对i l p 的支持已经很成熟,因此采用v l l w 结构在硬件复杂性降 低的同时,可以获得较好的高级语言编程支持,不需要繁琐的手工优化可以取得很好的性能。 v l l w 结构的特点主要如下: 超长指令字,指令长度可以从1 2 8 b i t 到1 0 2 4 b i t ,每个长指令里面包括许多可以并 行的操作。 _长指令由编译器静态调度,每个周期发送到执行部件中的指令条数也在编译时静态 确定,并由一个中央控制部件集中进行长指令的按序发射。相比超标量处理器,它 简化了硬件的复杂度。 一 由于每条长指令包含的短的指令数是确定的,当编译器不能找到足够多的可并行操 作的短指令时,编译器插入n o p 指令剑长指令中去。这样使得v l l w 结构的代码 长度增长。 一 v l l w 技术属于指令结构技术。因而,同一个公司的4 发射的v l l w 的代码不能直 接移植到6 发射的v l l w 结构中执行。6 发射的v l l w 结构的代码必须重新编译。 - v l l w 结构的性能加速比主要决定于编译技术,即编译器是否能发现足够多的可并 8 浙江大学博十学位论文 行执行的指令。 v l l w 结构本质上采用的是用软件的复j 性换取硬件的简单性。它运用所谓“大编译” 的设计思想,通过体系结构的支持,主要依靠编泽器的努力,从应用中提取尽可能多的“显 式并行性”,用超长指令字( v l l w ) 来表示可并行执行的指令,从而大大简化在传统的超 标量处理器中为实现高度的指令级并行性而需要增加的复杂的控制逻辑。这个方法的主要问 题是:一方面会增加软件( 即编译器) 的复杂性,另一方面有些相关( 如访存地址相关) 在 编译时是无法确定的。此外,当指令宽度进一步加宽后如何维护代码兼容性也是一个问题。 1 2 2 线程或进程级并行性 多发射处理器通过在每个时钟周期发射多条指令到功能部件上执行,其目的是利用程序 的l l p 来提高性能。但是单个程序的有限i l p 导致了多发射处理器存在硬件资源增多,性能回 报递减现象。也就是说,进一步增加指令发射宽度只会使得多发射处理器的硬件资源利用率 变得更低。针对这种情况,对于f 一代高性能处理器而言,开发并行性不应该仅限于单个程 序内的细粒度i l p 。实际上在许多丁作负载中,存在多种形式的粗粒度的线程级并行性( t l p : t t l r e a d l e v e lp a r a l l e l i s m ) 或进程级并行性( p l p :p r o c e s s l e v e lp a r a l l e l i s m ) 。例如,在媒 体处理系统中,既有音频处理任务,也有视频处理任务,还需要对整个系统进行控制等。更 不用说在并行编程工作模式下,程序存在更多的线程或进程。目前利用t l p 、p l p 来提高处 理器资源利用率的处理器体系结构主要可以分为三类”q :多线程处理器( m u l t i t h r e a d e d p r o c e s s o r ) 、单片多处理器( c m p :c h i pm u l 石p m c e s s o r ) 和同时多线程( s m t :s j m u l t a n e o u s m u l t i t l l r e a d i n g ) 处理器。 1 2 。2 。l 多线程处理i 警、弱,碉 多线程处理器的目的是减少长延迟操作对处理器效率的影响,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论