(电工理论与新技术专业论文)多处理器系统芯片的层次化总线通讯架构设计与实现.pdf_第1页
(电工理论与新技术专业论文)多处理器系统芯片的层次化总线通讯架构设计与实现.pdf_第2页
(电工理论与新技术专业论文)多处理器系统芯片的层次化总线通讯架构设计与实现.pdf_第3页
(电工理论与新技术专业论文)多处理器系统芯片的层次化总线通讯架构设计与实现.pdf_第4页
(电工理论与新技术专业论文)多处理器系统芯片的层次化总线通讯架构设计与实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(电工理论与新技术专业论文)多处理器系统芯片的层次化总线通讯架构设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

d e s i g na n di m p l e m e n t a t i o no f ah i e r a r c h y b u s c o m m u n i c a t i o na r c h i t e c t u r eo fm u l t i p r o c e s s o r s y s t e m - - o n - - c h i p a b s t r a c t i n t e g r a t i n gm u l t i p l ep r o c e s s o r s o nt h e s i n g l ec h i p t oi m p r o v et h es o c s ( s y s t e m o n c h i p ) p e r f o r m a n c eh a sb e e nb e c o m i n ga t r e n d a n dt h el e a d i n gc h a l l e n g ei st h e c o m m u n i c m i o na r c h i t e c t u r e t r a d i t i o n a ld e s i g no fs o cw a sb a s e do nt h es i n g l e l a y e rb u s , b u tw i t ht h ei n c r e m e n to fi p s ( i n t e l l e c t u a lp r o p e r t y ) t h ee 伍c i e n c yo fc o m m u n i c a t i o n b e t w e e nt h e mi sb e c o m i n gab o r l e n e c ka n d ,w o r s e n st h ew h o l es y s t e m i n s t e a do f u s i n gt h e s i n g l el a y e rb u si nt r a d i t i o n a ls o c h i e r a r c h yb u sb a s e da r c h i t p j 2 t u r ei sp r o p o s e di no u r m p s o c ( m u l t i p r o c e s s o rs y s t e m - o n c h i p ) p l a t f o r m l o c a lt r a f f i cc o m m u n i c a t e st h r o u g ha l o c a lb u sa n d ,t h e g l o b a lp a t t e mt r a n s f e r st h r o u g ht h es e c o n dl a y e rb u s ab u sb r i d g ei s h i r e dt oc o n n e c tw i t he a c ho t h e r t h i sd i s s e r t a t i o ni ss u p p o r t e db yt h ef o l l o w i n gp r o j e c t s :t h ep r o j e c to f b a s i cr e s e a r c h o f n e t w o r k s o n - c h i pa r c h i t e c t u r ea n dt h ed e s i g nm e t h o d o l o g y s u p p o r t e db yt h en a t i o n a l n a t u r a ls c i e n c ef o u n d a t i o no fc h i n a ( n s f c ,n o - :6 0 5 7 6 0 3 4 ) ;t h ep r o j e c to f r e s e a r c ho f o n - c h i p - n e t w o r kk e yt e c h n o l o g yo fn e t w o r k s o n c h i p s u p p o r t e db yt h es p e c i a l i z e d r e s e a r c hf u n df o rt h ed o c t o r a lp r o g r a mo fh i g h e re d u c a t i o n ( s r f d p , n _ * :2 0 0 5 0 3 5 9 0 0 3 ) 1 1 l em a i nw o r ka n da c h i e v e m e n ta r ea sf o l l o w s : 1 t h em p s o cp l a t f o r mw a si m p l e m e n t e da tr t l ,d e s c r i b i n gt h ed e s i g no fo n - c h i p c o m m u n i c a t i o na r c h i t e c t u r eb a s e do nh i e r a r c h yb u s w ev e r i f i e dt h ew h o l es y s t e ma n d , s o m ew a v e f o r m sw e r ep r e s e n t e dh e r e f r o mt h er e s u l t so fv e r i f i c a t i o nw ec a l ls e et h a tt h e c o m m u n i c a t i o na r c h i t e c t u r es a t i s f i e dt h er e q u i r e m e n to f m p s o cp l a t f o r m 2 w ew r i t eap i p e l i n e d - m a t r i x m u l t i p l i c a t i o n p r o g r a mu s i n ga r ma s s e m b l e l a n g u a g ea n d c o s i m u l a t i o nw i t i lt h ew h o l es y s t e m t h em a t r i xm u l t i p l i c a t i o nt i m e si s p a r a m e t e r i z e dt og e n e r a t ed i f f e r e n tw o r k l o a d s t h er e s u l to fe x p e r i m e n ts h o w st h a tw h e n t h e r ea r e4p r o c e s s o r sa n dt h em u l t i p l i c a t i o nc y c l ei s4t i m e s ,t h es p e e d u pw a so n l y2 2 ; w i t ht h ei n c r e m e n to fw o r k l o a d st h es p e e d u pc a m eu pt o3 2 w ec a nd r a wt h ec o n c l u s i o n t h a tw i t ht h ew o r k l o a d sh e a v i e r , t h es p e e d u pi sg o i n gu p ,t h a ti st os a yt h ec o s to ft h e c o m m u n i c a t i o nb e t w e e nm u l t i p r o c e s s o r si sd i m i n i s h i n g 3 p r o t o t y p i n gt h ew h o l es y s t e mb a s e do nf p g a n ew h o l es y s t e mi n c l u d i n g h a r d w a r ea n ds o r w a r ef i t so nt h es i n g l ef p g a e x p e r i m e n t a lr e s u l t sh a db e e no b t a i n e d r u n n i n ga t6 0 m h zw i t ht o t a la r e ar e q u i r i n g3 4 a d a p t i v el o o k u pt a b l e s ( a l u t s ) a n d 1 7 o n - c h i pm e m o r yo f a l t e r as t r a t i xi ie p 2 s 1 8 0 k e yw o r d s :m u l t i p r o c e s s o rs y s t e m - 0 1 1 - c h i p ,h i e r a r c h y - b u s ,o n - c h i pc o m m u n i c a t i o n a r c h i t e c t u r e ,f p g ap r o t o t y p e 插图清单 图1 1 单颗芯片上处理器数量的发展趋势 图1 2c e l l 处理器3 图1 3 基于h i b i 的多处理器结构5 图2 1 系统平台7 图2 。2a r m 处理器核a h b 总线接口信号8 图2 。3a r m 处理器五级流水线l l 图2 - 4 a r m 处理器五级流水线组织结构1 2 图2 ,5 局部总线1 7 图2 - 6 全局总线1 8 图2 7 总线桥功能框图1 9 图2 8 中断使能寄存器标志位定义2 0 图2 - 9 外部中断请求寄存器标志位定义2 l 图3 1 处理单元和片上通讯架构2 2 图3 2a h b 总线互连结构2 4 图3 3 基本传输过程2 5 图3 - 4 具有等待周期的多传输过程2 5 图3 - 5a h b 传输类型举例2 6 图3 - 6a h b 重试响应2 8 图3 7 带有等待状态的总线仲裁过程。2 9 图3 8 数据总线访问权限3 0 图3 - 9 本地存储器模型3 0 图3 1 0 本地存储器与局部a h b 总线接口模块图3 1 图3 1 1 本地存储器与局部a h b 总线接口模块状态机跳转伪码3 3 图3 1 2 全局总线仲裁器模块图3 4 图3 1 3 仲裁器优先权轮转示意图3 5 图3 1 4 仲裁器优先权轮转实现伪码3 6 图3 1 5 全局共享模块地址映射空间3 6 图3 - 1 6 译码器模块结构图3 7 图3 1 7 从模块选择信号伪码3 7 图3 1 8 主设备一从设备多路选择器模块图3 8 图3 1 9 从设备一主设备多路选择器模块图4 0 图3 2 0 全局共享模块与全局a h b 总线接口模块状态机跳转示意图4 l 图3 ,2 l 总线桥主要逻辑结构4 3 图3 2 2 总线桥状态机状态跳转图4 6 图4 1 局部总线的单个读写操作5 0 图4 2 局部总线的连续写操作5 0 图4 3 局部总线的连续读操作5 l 图4 - 4 全局总线的单个写操作5 l 图4 5 全局总线的单个读操作5 2 图4 - 6 全局总线的连续写操作5 2 图4 7 全局总线的连续读操作5 3 图4 8 全局总线访问冲突的处理过程5 3 图4 9 中断响应过程5 4 图4 1 0 流水矩阵相乘运算5 5 图4 1 l 旗语控制器读写标志位定义5 6 图4 1 2 不同工作负载下的系统加速比5 7 图5 1 不断增长的开发费用以及风险5 8 图5 2s t r a t i xi ie p 2 s 1 8 0 开发平台6 0 图5 3f p g a 验证流程6 1 图5 4 门级仿真结果6 5 表格清单 表2 一la r m 处理器核接口信号描述9 表2 2a r m 处理器的7 种工作模式1 2 表2 3a r m 状态下各种处理器模式对应的寄存器1 5 表2 - 4 中断控制器中各寄存器地址映射表2 0 表3 1 传输类型编码2 6 表3 - 2 传输响应类型编码。2 7 表3 ,3 本地存储器信号描述31 表3 - 4 本地存储器与局部a h b 总线接口信号描述。3 2 表3 5 仲裁器输入输出信号描述3 4 表3 - 6 译码器信号描述3 7 表3 7 主设备一从设备多路选择器输入输出信号描述3 9 表3 ,8 从设备一主设备多路选择器输入输出信号描述4 0 表3 - 9 总线桥输入输出信号描述4 3 表4 1 通讯架构的验证计划4 9 表4 2 性能测试结果5 6 表5 1s t r a t i xi ie p 2 s 1 8 0 器件可利用资源表6 0 表5 - 2f p g a 资源占有率百分比6 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得 金世王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 篝绅 签字日期:少哆年覃月罗日 学位论文版权使用授权书 本学位论文作者完全了解盒日b 二e 些盔堂有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权盒a b 王、业盔堂可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权f 5 ) 学位论姗躲重纬 签字吼砷年月7 日 学位论文作者毕业后去向 工作单位: 通讯地址: 导师签名: 岔,o 签字日期:年月日 电话: 邮编: 致谢 本论文是在高明伦教授的悉心指导下完成的。高老师不仅学识渊博、治学 严谨,而且待人诚恳,平易近人。高老师对科学严谨认真的态度和高尚的品德, 都是我学习的楷模,必将使我终身受益。衷心感谢导师的培养、支持和教诲! 近三年来,高老师和潘剑宏老师在我的学习、科研和管理工作方面给予了精心 的指导,在生活方面给予了充分的关心和爱护,在此表示衷心的感谢! 本论文的研究工作受到以下项目的资助:( 1 ) 国家自然科学基金资助项 目“集成电路n o c 体系结构及设计方法学基础研究”( 项目编号:6 0 5 7 6 0 3 4 ) : ( 2 ) 教育部博士点基金资助项目“集成电路n o c 体系结构中o c n 关键技术研 究”( 项目编号:2 0 0 5 0 3 5 9 0 0 3 ) 。在此表示感谢! 感谢n o c 项目组组长以及论文指导老师杜高明博士在学业、项目、生活 上的帮助,感谢合肥工业大学微电子设计研究所王锐老师、尹勇生老师、张多 利老师、宋宇鲲老师、张溯老师、王晓蕾老师、邓红辉老师和刘聪老师的热情 帮助;感谢8 6 3 i p 评测项目组周萌博士、许海辉、何伟在课题研究中的辛勤劳 动;感谢n o c 项目组耿罗锋博士、侯宁、汤益华、张文婷所给予的合作;感 谢林微老师和贾靖华老师给予的支持和帮助;感谢微电子设计研究所全体成员 陪我度过两年多的美好时光。 特别感谢我的父母所给予我学业和生活上的关心、帮助和支持! 感谢文中引用过文献的所有作者们,感谢所有关心、支持和帮助过我的老 师、同学和朋友! 章伟 2 0 0 7 年1 月 1 1 技术背景 第一章绪论 从嵌入式产品的发展趋势来看,传统的单核处理器结构越来越不能满足呈 几何级数增长的计算规模的需求【l 】,特别是在多媒体和汽车电子应用领域 2 , 3 1 。 有两种方法可以提高嵌入式实时系统的计算效率【4 】: 1 提高处理器的性能; 2 提高系统架构的并行性; 第一种方法需要使用高速缓存、深度流水或者其他可以提高系统性能的技 术,但是在嵌入式实时系统中,这些技术有着很多的局限性。使用高速缓存技 术难以预测程序的最差运行时间;而对异步事件响应所造成的流水线停顿,则 会导致深度流水技术性能的降低:指令层次的并行化( 比如超长指令字架构) 则会占用大量芯片面积,而且明显增加了指令代码的长度。 因此,在嵌入式应用领域,对上述问题最好的解决办法就是采用提高系统 架构并行性的方法,使用多处理器系统芯片( m u l t i p r o c e s s o r ss y s t e m o n c h i p , m p s o c ) 取代传统的单核处理器系统。 飞速发展的半导体工艺使得在单颗芯片上集成多个i p ( i n t e l l e c t u a l p r o p e r t y ) 模块成为可能,这些i p 模块通常包括处理器、片上存储器、系统总 线,以及操作系统以构成复杂的系统芯片( s y s t e m o n c h i p ,s o c ) 。为了适应 迅速发展的半导体技术,欧洲、日本、韩国、台湾与美国半导体产业协会合作 制订了国际半导体技术蓝图( i n t e r n a t i o n a l t e c h n o l o g yr o a d m a pf o r s e m i c o n d u c t o r s ,i t r s ) 。自2 0 0 1 年起,每隔一年就会有新版出现,而在双年 时,则会对蓝图进行修订,该技术蓝图描绘了今后1 5 年半导体工业在硅器件密 度和性能上的主流趋势。2 0 0 3 年i t r s 对半导体发展的一个简易技术模型展示 出了芯片设计上一系列重大变化趋势。图1 1 展示了该模型在应用并行性上的 预测,即在1 4 0 r a m 2 面积上每颗芯片可以集成的处理器个数的增长趋势。该发 展模型预计:系统应用中内在并行性的增长和改进将导致大量使用小型专用处 理器芯核作为先进s o c 设计的自然结构,以构成多处理器系统芯片。随着多处 理器系统芯片集成越来越多的功能以及数据流分辨力的增强,所体现的并行性 也将增强。多种应用中的系统性能将只受制于系统架构诸如高带宽、低等待时 间、处理器间通信方式以及在单颗芯片上集成多个处理器的工艺能力等。小型、 可扩展的处理器将得到大量使用,未来的设计将纳入数百乃至数千个通信芯核。 许多高性能、数据并行、单指令多数据( s i n g l ei n s t r u c t i o nm u l t i p l ed a t a s l m d ) 处理器会在单颗芯片上同时使用t s 。 1 0 一- - 。- - 。 图卜1 单颗芯片上处理器数量的发展趋势”1 目前,市场上已经有应用于网络、移动多媒体设备、通讯等领域的多处理 器系统芯片产品。 i b m 、索尼( s o n y ) 和东芝( t o s h i b a ) 联合开发的c e l l 处理器【6 7 8 】将被 用于s o n y 公司的下一代游戏平台( p l a y s t a t i o n 3 ) 中。该处理器扩展了p o w e r p c 架构,包含一个p o w e r 处理器部件( p o w e rp r o c e s s o re l e m e n t ,p p e ) 和8 个协处理器部件( s y n e r g i s t i cp r o c e s s o re l e m e n t s ,s p e ) ,如图1 2 所示。p p e 主要基于i b m 6 4 位p o w e rp c 处理器,并且具有1 2 8 位矢量媒体扩展功能( v e c t o r m e d i ae x t e n s i o n s ) 和二级片上缓存,可以运行3 2 位和6 4 位操作系统。s p e 是 独立的协处理器,主要用于数据运算处理。每个s p e 包含一个协处理单元 ( s y n e r g i s t i cp r o c e s s o ru n i t ,s p u ) 、本地存储器和协存储数据流控制器 ( s y n e r g i s t i cm e m o r yf l o wc o n t r o l l e r ,s m f ) 。s m f 用来传递数据,并且提供 s p u 并行处理的同步机制以及和片上单元互连总线( e l e m e n ti n t e r c o n n e c tb u s e i b ) 的接口。两类不同的处理单元共享同样的资源,包括共享存储器、s p e 本地存储器、控制寄存器以及输入输出端口映射的存储空间。另外系统包含了 一个片上内存控制器,一个可配置输入输出接口,并且对实时操作管理做了优 化。如此多的模块使用e i b 连接在一起,构成一个庞大的系统。c e l l 处理器可 以配置成不同的处理单元同时运行两个不同的指令集,用来解决单个指令集不 能有效地完成多个任务的问题。 c e l l 处理器的部分性能参数如下: 可观测的时钟频率大于4 g h z ; 峰值性能( 单精度) 大于2 5 6 g f l o p s ( g i g a f l o a t i n g p o i n t o p e r a t i o n s p e r s e c o n d ) : 2 峰值性能( 双精度) 大于2 6 g f l o p s ; 每个s p u 的本地存储空间:2 5 6 k b ; 面积:2 2 l 平方毫米; 9 0 n ms 0 1 工艺; 晶体管总数:2 3 4 亿; 锄, a e r g m i c p r o c e s s o r 鼬 6 4 - b a p o w e r a m “t e c t u r e w i t h v e d o t i r 特d i a o x t e n o l o t m 1 2 技术挑战 图1 - 2c e l l 处理器 在单颗芯片上集成如此多的资源可以在很大程度上提升整体性能,但同时 也在硬件和软件的设计上对设计人员提出了新的挑战。多处理器的规模十分庞 大,设计变得非常复杂,既包括软件部分的设计也包括硬件部分的设计,这就 需要集成电路设计人员的工作重心从逻辑电路的设计提升转移至计算机体系结 构的设计上。虽然在多处理器系统芯片的设计工作中设计人员可以借鉴传统的 计算机体系结构的经验,但仍然存在一些难题制约着多处理器系统芯片实现。 譬如,多处理器系统芯片的实时性操作系统( r e a l t i m eo p e r a t i n gs y s t e m r t o s ) 的要求,功耗的约束等等。这些机遇和挑战使得多处理器系统芯片的设计成为 研究的热点。 1 2 1 硬件挑战 传统的并行处理系统是用来做科学运算、数据库,以及其他的与嵌入式系 统工作环境大相径庭的应用领域。因此,相对传统的并行处理系统而言,设计 人员必须着重考虑多处理器系统芯片的两个应用特征【9 l : 1 实时性:所谓实时性,其核心含义在于确定性【3 1 】,实时性操作要求系统 架构有可以预见的性能体现,也就是说系统的每个组成单元都有可以预见的行 为,这样软件开发人员可以计划如何在系统的关键部分获得要求的性能。 2 低功耗:大多数嵌入式设备都运行在对功耗要求比较严格的场合。封装 和机械散热装置解决了传统计算机的功耗问题,但是对于多处理器系统芯片的 设计,就需要从各个抽象层次去考虑功耗问题,在系统级设计时就必须对功耗 有足够精确的控制。 1 - 2 2 软件挑战 软件的设计在多处理器系统芯片的整体设计中起着越来越重要的作用,优 秀的操作系统和应用软件使得同样的硬件平台能够更高效地完成系统功能。设 计多处理器系统芯片在软件方面所面临的挑战主要体现在以下几个方面 9 a o ,1 l 】: 软硬件开发环境和工具:嵌入式软件的开发属于跨平台开发,即开发平台 使用的处理器和开发对象的处理器往往不是同一类型,因此,工程师需要交叉 的软件集成开发环境,即进行代码编写、编译、链接和调试应用程序的集成开 发环境。 软硬件协同设计:多处理器系统是一个专用系统,所以在设计过程中,软 件设计和硬件设计是紧密结合、相互协调的,这就产生了软硬件协同设计、协 同验证这种全新的设计方法,这就要求设计人员在设计时从系统功能的实现考 虑,把实现时的软硬件同时考虑进去,硬件设计则需要包括芯片级“功能定制” 设计。这样既可以最大限度地利用有效资源,缩短开发周期,又能够获得更好 的设计效果。 操作系统:大部分嵌入式系统都采用实时操作系统,而如今很多商业实时 操作系统都包括许多功能,从而显得过于庞大。对于多处理器系统芯片而言, 根据应用环境的需要,仅仅需要这些操作系统的核心功能以支持少量应用软件 的运行。 嵌入式系统的安全性:可编程的系统都存在潜在的安全性问题,当多处理 器系统芯片应用在安全性要求比较高的领域中时,比如车载系统、飞行导航系 4 统,就要求设计人员在系统设计上必须充分考虑安全性问题。传统的计算机设 计通过限制访问系统资源来保护系统,然而,多处理器系统芯片通常都采用实 时操作系统,具有实时控制的特点,系统资源对应用程序是充分开放的。这就 要求系统芯片的软件和硬件结构必须协同工作使得整个系统受到外界的干扰最 小。 1 3 国内外相关研究进展 在单颗芯片上集成多个处理器以提高系统芯片的整体性能已成为下一代 集成电路的设计趋势。多处理器系统芯片的设计成为国内外研究的热点, x i n p i n gz h u 【l9 j 等人提出了一种基于可重用模块库构建片上通讯架构的层次化 建模方法。l u e a b e n i n i 等人使用s y s t e m c 语言在系统级探讨了多处理器系统的 设计,文献【2 3 】研究了多处理器系统的通讯架构,文献【3 0 研究了仲裁算法对等 待时间( l a t e n c y ) 、系统性能的影响,文献2 2 1 在真实工作负载( 运行操作系 统) 下分析了两种不同的工业标准总线结构和不同的系统配置,指出了系统架 构上微小的区别对整个系统性能的影响。e r n os a l m i n e n t 3 4 , 3 5 l 等人提出了一种基 于异构i p 模块互连( h e t e r o g e n e o u si pb l o c ki n t e r e o n n e e t i o n ,h i b i ) 的多处理 器系统,这些i p 模块可以是处理器、d m a 、硬件加速模块、存储器等,他们 提供的硬件原型中集成了8 个n i o si i 软核,可以集成到单颗s t r a t i xl $ 4 0f p g a 中,工作频率达到7 8 m h z 。 图卜3 基于h i b i 的多处理器结构 在对国内外的研究成果分析时我们发现,这些系统架构都是基于单层总线 的,在访问共享资源时这会造成较严重的系统总线冲突,降低系统的通讯效率。 因此,本论文提出了一种层次化总线的通讯架构:局部总线负责处理器与本地 存储器的通讯;全局总线实现处理器对全局设备的访问,两层总线通过总线桥 连接。实验结果表明基于层次化总线的系统架构极大地提高了多处理器系统的 并行性。 1 4 本文的课题来源 本论文的研究工作受到下列基金的部分资助: 国家自然科学基金资助项目“n o c ( 片上网络) 体系结构及设计方法学 基础研究”( 项目编号:6 0 5 7 6 0 3 4 ) 教育部博士点基金资助项目“集成电路n o c 体系结构中o c n 关键技术 研究”( 项目编号:2 0 0 5 0 3 5 9 0 0 3 ) 1 5 论文结构以及内容安排 本论文设计了一款基于a r m 微处理器核的多处理器系统芯片,提出了一 种层次化的片上总线通讯架构,整个系统平台在r t l 级实现,通过f p g a 原型 验证,并在此基础上对系统平台的性能做了评估。论文分为五章,简述如下: 第一章绪论。介绍多处理器系统芯片的发展以及技术优势,同时阐述了 对传统的设计方法和设计思想所带来的挑战,国内外的研究进展,以及本课题 的来源和研究内容。 第二章系统平台概述。介绍整个多处理器系统芯片的结构,划分了各子 模块的功能。 第三章片上通讯架构的设计。介绍了a m b aa h b 总线的协议,同时以 a m b a 总线为蓝本,提出一种基于层次化总线的片上通讯架构,并详细阐述各 模块的设计。 第四章r t l 级仿真和验证。重点介绍了通讯架构的r t l 级验证,系统的 功能验证和性能评估,并以流水矩阵乘法为例研究其在不同工作负载下的加速 比变化。 第五章f p o a 原型验证。论述了f p g a 原型验证的优点,说明了本设计的 验证流程,最后给出了实验结果。 第六章总结与展望。总结了论文的工作,并对今后的进一步工作做了介 绍。 6 第二章系统平台 本章对多处理器系统芯片的各组成模块进行了概述,着重介绍了a r m 微 处理器核的总线接口信号及a r m 处理器核的特点,同时对片上通讯架构模块 作了功能划分,并介绍了各模块的功能。 2 1 系统平台结构概述 如图2 - l 所示,多处理器系统芯片划分为如下几个主要部分:基于a r m 处理器核的本地处理子系统、基于双层总线的通讯架构和全局共享模块。本地 处理子系统主要由a r m 处理器核、本地存储器以及局部总线组成,并可扩展 其他模块,如d m a 控制器等,在本设计中,仅研究了它的最简结构。子系统 的数目可以配置,本文研究的多处理器系统具有4 个子系统。全局总线包含如 下模块:总线桥、全局总线仲裁器和译码器等。而全局共享模块则有共享存储 器、中断控制器和旗语控制器等。 2 2 本地处理子系统 图2 一l 系统平台 本地处理子系统至少包括a r m 处理器核和本地存储器,每个处理器核都 7 可以通过局部总线独占性地访问本地存储器,而处理器核之间互不影响,为多 个处理器核的并行操作提供了可能。 2 2 1a r m 处理器核 由英国a r m 公司( a d v a n c e dr i s cm a c h i n el t d ) 设计的a r m 处理器核是 一款低功耗、高性能的精简指令集处理器核。a r m 公司专门从事基于精简指令 集( r e d u c e di n s t r u c t i o ns e tc o m p u t e r ,r i s c ) 技术处理器核的i p 设计开发, 本身不直接从事芯片生产。作为i p 供应商,a r m 向半导体生产商转让处理器 核设计许可,半导体生产商再根据各自不同的应用领域,加入适当的外围电路, 从而设计生产基于a r m 处理器核的各种芯片。a r m 公司拥有广泛的全球技术 合作伙伴,其中包括了许多领先的系统集成厂商、实时操作系统开发商、电子 设计自动化和工具供应商、应用软件公司、芯片制造商和设计中心。目前,全 世界有7 0 多家半导体公司获得了a r m 公司的技术授权,既使得a r m 技术获 得更多的第三方工具、制造、软件的支持,又使整个系统成本降低,使产品更 容易进入市场被消费者所接受,从而具有更大的竞争优势 1 0 , 1 2 , 1 7 】。 本设计中的处理器核兼容a r m 指令集,具有五级流水线。 2 2 1 1a r m 处理器核总线接口描述 a r m 处理器核具有a m b a 2 0 ( a d v a n c e dm i c r o c o n t r o l l e rb u sa r c h i t e c t u r e ) a h b ( a d v a n c e dh i g h - p e r f o r m a n c eb u s ) 总线接口 1 4 15 ,如图2 2 所示。各组 信号描述如表2 1 所示。 传输响戍 雠畸 ,h c 瞧 a r m c o r e ,| i w d a t a 图2 - 2a r m 处理器核a h b 总线接口信号 8 表2 - 1a 删处理器核接口信号描述 类别信号名输入,输出功能描述 h r e s e t n 输入 系统总线复位信号,用于复位系统和 全局信号 总线,低电平有效 系统总线时钟信号。所有其他信号都 h c l k输入 在此信号的上升沿被采样 总线访问请求信号,系统主设备( a r m h b u s r e q输出处理器核) 发出该信号,向总线仲裁 器请求访问总线 锁定传输信号,当该信号有效,表明 h l o c k输出 主设备请求对总线进行锁定访问,此 时其他主设备只有等到该信号无效时 仲裁信号 才能被授予总线访问权限 总线授权信号。当该信号有效,表明 总线主设备为当前最高优先级主设 h g r a n t输入备。只有当h g r a n t 和h r e a d y 同 时有效时,主设备才获得地址控制 总线使用权 控制信号h a d d r 31 :0 】 输出3 2 位地址总线。最大寻址范围为4 g b 传输类型信号,表明当前传输的类型 2 b 0 0 :i d l e 表明没有数据传输 2 b 0 1 :b u s y 允许主设备在猝发传输 中插入空( 无数据) 传输周期 h t r a n s i :0 】 输出 2 b 1 0 :n o s e q 表明该传输为连续传输 的第一个传输或单个传输 2 b l l :s e q 表明该传输为连续传输,传 输的地址有相关性 读写控制信号。高电平时为写操作, h w r i t e输出 低电平时为读操作 传输大小信号,表明传输的数据宽度 典型值有:字节( 8 位) 、半字( 1 6 位) 和字( 3 2 位) 。协议允许最大可 支持到1 0 2 4 位 3 b 0 0 0 :8 b i t s 字节 h s i z e 2 :0 】 输出 3 b 0 0 1 :1 6 b i t s 半字 3 b o l 0 :3 2 b i t s 字 3 b 0 1l :6 4 b i t s 双字 3 b 1 0 0 :1 2 8 b i t s 四字 9 3 b 1 0 l :2 5 6 b i t s 八字 3 b 1 1 0 :5 1 2 b i t s 十六字 3 b lii :1 0 2 4 b i t s 三十二字 猝发类型信号,表明当前数据传输为 何种猝发传输类型 3 b 0 0 0 :单个传输 3 b o o l :不定长递增传输 3 b 0 1 0 :4 节拍循环猝发传输 h b u r s t 2 :0 】 输出 3 b 0 1l :4 节拍递增猝发传输 3 b 1 0 0 :8 节拍循环猝发传输 3 b 1 0 l :8 节拍递增猝发传输 3 b 1 1 0 :1 6 节拍循环猝发传输 3 ,b l l l :1 6 节拍递增猝发传输 保护控制信号,它提供有关总线访问 的附加信息,主要用于实现某种层次 h p r o t 3 :0 】 输出 保护的模块。该信号在一般系统中可 选 传输完成信号,该信号有效时表明总 h r e a d y 输入 线上的个传输完成,从设备可以通 过无效该信号米插入等待周期 传输响应信号,从设备提供有关传输 状态的信息( 成功、错误、重试和分 裂传送) 传输响麻 2 b 0 0 :o k e y 表明当前传输正常完成 信号 2 ,b o l :e r r o r 表明当前传输失败 h r e s p i :0 】 输入2 b 1 0 :r e t r y 表明当前传输还不能完 成,需要主设备重试此次传输 2 b l l :s p l i t 表明当前传输还不能成 功完成,需要主设备重试此次传输, 但要等到从设备能够完成传输时,才 让主设备获取总线 写数据总线,写操作时用来把数据从 h w d a t a 3i :o 】 输出 总线主设备传输到总线从设备。其宽 度可扩展到1 0 2 4 位 数据总线 读数据总线,读操作时用来把数据从 h r d a t a 3l :o 】 输入 总线从设备传输到总线主设备。其宽 度可扩展到1 0 2 4 位 1 0 2 2 1 2a r m 处理器指令流水线特性 a r m 处理器使用流水线技术提高指令执行的效率,将一条指令的执行过 程划分为若干个顺序的操作,每个操作由不同的处理部件实现。这种结构的计 算机可以同时处理多条指令,采用流水处理的方式可以达到提高计算机处理速 度和提高处理部件使用效率的目的1 3 2 。 本设计中a r m 处理器核具有五级流水线,包括指令预取、指令译码、执 行、存储器访问以及回写操作。如图2 3 ,在指令预取阶段,从c a c h e 或主存 储器中取出指令,并将其放入指令流水线,该指令为当前指令的下两条指令。 在指令译码阶段,对指令进行译码,从寄存器组中读取寄存器操作数。执行阶 段,对操作数进行移位操作,产生算术逻辑单元a l u 的结果,如果指令是存储 访问指令l o a d s t o r e ,则在a l u 中计算存储器的地址。如果需要则在存储器访 问阶段访问数据存储器,否则a l u 的结果只是简单的缓冲一个时钟周期,以便 与所有的指令具有同样的流水线流程。将指令产生的结果写到寄存器中则是在 回写阶段实现的【1 0 ,1 6 ,1 7 】。 l 指令预取指解码执行存储器访问圉写 l 指令预取指解码执杼存储嚣访阿回写 l 指预取指令解珊执行存储嚣访翊圊写 ;区亚丑互匝 图2 - 3a 删处理器五级流水线 l, 3 , 5 a r m 处理器五级流水线组织结构如图2 - 4 所示。 图2 4a r m 处理器五级流水线组织结构 2 2 1 3a r m 处理器工作模式 a r m 处理器共有7 种工作模式1 2 , 1 7 ,如表2 2 所示。 表2 - 2a r m 处理器的7 种工作模式 处理器模式描述 用户模式( u s e r ,u s r ) 正常程序执行的模式 快速中断模式( f i q ,f i q ) 用于高速数据传输和通道处理 外部中断模式( i r q ,i r q ) 用于通常的中断处理 特权模式( s u p e r v i s o r ,s v e ) 供操作系统使用的一种保护模式 数据访问中止模式( a b o r t ,a b t ) 用于虚拟存储及存储保护 未定义指令中止模式用于支持通过软件仿真硬件的协处理 ( u n d e f i n e d ,u n d ) 器 系统模式( s y s t e m ,s y s ) 用于运行特权级的操作系统任务 除了用户模式之外的其他6 种处理器模式称为特权模式( p r i v i l e g e d m o d e l s ) 。在这些模式下,程序可以访问所有的系统资源,也可以任意的进行 处理器模式的切换。其中,除了系统模式外,其他5 种特权模式又称为异常模 式( e x c e p t i o nm o d e l s ) 。 处理器模式可以通过软件控制进行切换,也可以通过外部中断或异常处理 过程进行切换。大多数的用户程序运行在用户模式下,应用程序不能访问一些 受操

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论