




已阅读5页,还剩60页未读, 继续免费阅读
(电子科学与技术专业论文)x流处理器计算群内互连的物理设计与优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科技大学研究生院学位论文 a b s t r a c t t h et h e s i sa 1 1 a l y s e st h ep h y s i c a ld e s i g na n do p t i m i z a t i o no fi m e r c o n n e c t i o ni nxs t r e a m p r o c e s s o rc l u s t e rm a i n l y o p t i m i z a t i o no fi n t e r c o 仰e c t i o nw i r e d e l a ya n dp l a c e m e n t & r o u t i n g , a n di n t e r c o i m e c t i o nd i s t r i b u t i o nm o d e l sa r er e s e a r c h e di nd e t a i l n l em a i nw o r kc a l lb e s u m m a r i z e da sf l o l l o w s : f i r s t ly ,m a l l yi n t e r c o 肌e c t i o no p t i m i z a t i o nm e t l l o d sa r es t u d i e db r o a d l y ,s u c ha su s i n g b e t t e rm a t e r i a l ,a d o p t i n gh i e r a r c h ym o d e l ,i r u l o v a t i v et h r e e d i m e n s i o n a li ca n ds oo n b e s i d e s , t h et h e s i sa 1 1 a l y s e sm a n yc i r c u i ti m p l e m e n t a t i o n st oo p t i m i z el o n g w i r ed e l a y ,a r l di n l p l e m e n t sa h y 研di n s e r t i o ns t r a t e g yb a s e do nm l l - s w i n gr e p e a t e r s 锄dl o w s w i n gt r a n s c e i v e r s t h er e s u l t v e r i f i e si t se f f e c t i v e n e s s s e c o n d l y ,b a s e do nt h eh a l f c u s t o md e s i g nn o w ,t h ep l a c e m e n t & r o u t i n go fx s 缸_ e 锄 p r o c e s s o rc l u s t e ri so p t i m i z e db yf i o o 叩l 砌n ga i l dr o u t i n g c h i p s i z ea n dm a c r o - b l o c k s p o s i t i o na r et a k e ni n t oc o n s i d e r a t i o ni nf l o o 印l a n n i n g t h em a c r o - b l o c k sr e l a t i v ep o s i t i o ni s d e t e 肿i n e do nt 1 1 el o g i cs t r u c t u r e s 卸dd a t as t r e a mi n f o n n a t i o n 啪o n gf u n c t i o n a lu n i t s b e s i d e s , d u et ot h ep l a c e m e n to fm a c r o - b l o c k ss i g n i f i c a n ti m p a c to ni n t e r c o n n e c t i o n , w eg a t l l e r m a c r o - b l o c k sa r o u l l dt h e c 1 1 i pb o u n d a r y , a v o i d i n g t h e l o n g w i r e a c r o s sm a c r o - b l o c k s f u r t h e m o r e ,t h r e et y p i c a li m e r c o n n e c t i o nd i s t r i b u t i n gm o d e l sa r er e s e a r c h e d ,a n dc o m p a r e d w i t ht 1 1 ej n t e r c o j m e c t i o nd i s t r i b u t i n gi nt h exs t r e a mp r o c e s s o r ,1 1 1 e nt h ei n t e r c o 彻e c t i o ni nt 1 1 e x s t r e 锄p r o c e s s o ri si m p r o v e da i m i n ga tt h ee x i s t i n gp m b l e m s ,w i t ho p t i m i z a t i o no ff l o o 叩l a i l , t h eo v e r a l lp e r f o m a n c ei sp r o m o t e d ,m e a n w h i l e ,i tp r o v i d e sf u l l c u s t o mf u n c t i o n a lu n i t sw i t h r e f e r e n c ei n f o 咖a t i o n ,s u c ha ss h a p e 、s i z e 、t e 珊i n a lp o s i t i o n ,e t c f i n a l l y , b a s e do nt h eo p t i m i z e di n t e r c o l l l l e c t i o nd i s t r i b u t i n g , 锣p i c a l i n t e r c o r u l e c t i o n d i s t r i b u t i n gm o d e l s a r em o d i f i e dt og e tc l o s et ot h ep e 击c tm o d e ls u i t e df o rt h eo p t i m i z e dr e s u l t , s o a st og u i d et h es u b s e q u e n to p t i m i z a t i o n b a s e do nt h em o d i 行e dm o d e l ,i t sa p p l i c a t i o n sa r e a 1 1 a l y z e dq u a l i t a t i v e l y k e yw o r d s : h y b r i dl n s e r t i n gs t r a t e g y ,f 1 0 0 r p i a n n i n go p t i m i z a t i o n ,h i e r a r c h i c a i i n t e r c o n n e c t i o nm o d e i ,i n t e r c o n n e c t i o nd i s t r b u t i n go p t i m i z a t i o n , i n t e r c o n n e c t i o n d i s tr i b u t i n gm 0 d e l 第i i 页 国防科技大学研究生院学位论文 表目录 表1 1 集成电路各发展阶段的主要特征1 表2 1 器件与互连线尺寸的按比例缩小1 4 表2 2 0 i u 方法的参数表2 1 表2 3 0 方法所需中继驱动器的个数2 1 表2 4 混合插入方法的m 、x 和1 l o ws w i n g 2 1 表2 5 不同方法的互连延时2 2 表2 。6 混合插入方法相对中继驱动器方法的改善2 2 表3 1 实验一的设计约束2 5 表3 2 实验一的时序结果2 5 表3 3 实验二的设计约束和时序结果2 7 表3 4 实验三的设计约束2 8 表3 5 实验三的时序结果2 8 表3 6 实验四的设计约束2 9 表3 7 实验四的时序结果2 9 表3 8 各类系统的r e n t 常数 4 3 】3 1 表3 9 x 流处理器计算群初始物理设计及性能参数3 2 表3 1 0 d o n a t h ( 1 9 8 1 ) 模型参数设置。3 3 表3 1l d a v i s ( 1 9 9 8 ) 模型参数设置3 3 表3 1 2 c h r i s t i e ( 2 0 0 0 ) 模型参数设置3 3 表3 1 3 三种模型及初始隋况对应的总的互连长度、平均线长。3 5 表3 1 4 三种模型及初始情况对应的总的互连长度误差、平均线长误差3 6 表3 1 5 优化后的计算群物理特性参数和性能参数3 9 表4 1 有效端口数目函数d ( z ) 4 5 表4 2 四种模型及优化后情况对应的总的互连长度、平均线长4 7 表4 3 四种模型及优化后情况对应的总的互连长度误差、平均线长误差4 7 第1 i l 页 国防科技大学研究生院学位论文 图目录 图1 1 不同工艺节点下互连的相对延时变化1 2 j 2 图1 2 1 6 个t i l e 构成的r a w 3 图1 3 c 6 4 芯片3 图1 4 c e l lb e 的内部结构4 图1 5 e i b 环状结构图5 图1 6 计算群整体结构6 图1 7 计算群内部互连结构7 图2 1 互连线模型1 3 图2 2 互连材料对延时的影响1 5 图2 3 分层互连线结构1 6 图2 4 曼哈顿布线与对角布线1 6 图2 5 中继驱动器插入方法1 7 图2 6 低摆幅信号传输方法17 图2 7 延时曲线1 9 图2 8 混合插入方法2 0 图2 9 低摆幅电路。2 l 图3 1 半定制设计流程2 4 图3 2 实验一的宏单元布局2 6 图3 3 实验一的时序结果比较示意图2 6 图3 4 实验二的宏单元布局2 7 图3 5 实验一和实验二的时序结果比较示意图2 7 图3 6 实验三的宏单元和g r o u p 的放置方法2 8 图3 7 实验一、二、三的最好情况的时序结果比较示意图2 9 图3 8 实验四的布局2 9 图3 9 四个实验的时序结果比较示意图3 0 图3 1 0 三种典型模型对应的互连分布3 4 图3 1 l 实际初始互连和三种典型模型互连的对比示意图3 5 图3 12 s t a l l 信号连接示意图3 7 图3 1 3 优化后的互连层结构一3 8 图3 1 4 优化后的互连线长分布和三种典型模型互连线长分布的对比示意图3 9 图3 15 全局布局一4 0 图4 1 a 、b 、c 区域的定义【4 引一4 4 第l v 页 国防科技大学研究生院学何论文 图4 2 优化后的互连的基本模式4 5 图4 3 优化后的互连、修正模型、三种典型模型互连的对比示意图4 6 图4 4 互连尺寸及电容组成5 0 图4 5 多层次互连结构5 0 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:薹速矬望墨盐笠登内亘董的堑翌遮盐生毽丝 学位论文作者签名:亟垂 日期:加刁年,月,z 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:圣鎏处理墨盐簋登内亘整盟堑堡遮过皇选韭 学位论文作者签名: 熬垂日期:砷 年jj 月,6 日 作者指导教师签名: 雄氢堕 日期:硼年f f 月,多日 国防科技大学研究生院学位论文 第一章绪论 随着集成电路工艺的进步,电路工艺尺寸持续缩小,集成电路芯片的性能和集成度按 m o o r e 定律迅速提高川。据i t r s 预测,到2 0 1 0 年集成电路工艺特征尺寸将缩小到4 5 n m , 单芯片上可集成数十亿个晶体管,时钟频率将高达1 0 g h z 【2 】。当设计工艺进入深亚微米阶 段后,集成电路中金属导线的延时已经大大超过了器件本身的延时,物理层次的互连已经 成为集成电路设计者高度关注的重要问题【3 】。集成电路的发展为互连的物理实现和优化带 来了巨大机遇,但也对研究设计人员提出了严峻挑战。 1 1 课题研究背景 自从1 9 5 8 年世界上第一块集成电路在美国得州仪器公司和西屋电器公司诞生以来, 在短短几十年里,集成电路技术以惊人的速度发展,经历了小规模集成( s s i ) 、中规模集成 ( m d i ) 、大规模集成( l s d ) 的发展阶段,目前已进入超大规模集成( v l s i ) 和特大规模集成( u l s i ) 的发展阶段,集成电路各发展阶段的主要特征如表1 1 所示。 表1 1 集成电路各发展阶段的主要特征 1 9 6 6 年1 9 7 1 年1 9 8 0 年 1 9 9 0 年以后 m s il s iv l s 工u l s i 元件数芯片1 0 2 1 0 31 0 3 1 0 51 0 5 1 0 71 0 7 1 0 9 特征线宽( u m )1 0 55 33 l 1 芯片面积( u m 2 ) 6 表1 1 显示了芯片集成度每三年翻两番增长、特征尺寸每三年减小两倍速度发展的规 律,这种发展规律就是著名的摩尔定律【7 j 。 电路工艺尺寸持续缩小,芯片上可集成的晶体管数目飞速增长,芯片性能和集成度按 m o o r e 定律迅速提高。据i t r s 预测,到2 0 1 0 年集成电路工艺特征尺寸将缩小到4 5 n m , 单芯片上可集成数十亿个晶体管,时钟频率将高达1 0 g h z 【2 1 0 在摩尔定律的作用下,在集 成电路发展初期芯片的工作速度主要由晶体管的切换频率决定,并不考虑金属导线延时对 电路的影响。但是当设计工艺进入深亚微米阶段后,集成电路中金属导线延时已经大大超 过了器件本身的延时,线延时正逐渐取代门延时成为信号延时的主要部分。物理层次上的 互连成为集成电路设计者高度关注的重要问题【3 l 。引自i t r s 2 0 0 3 互连线部分的连线延时和 器件延时随工艺变化的示意图显示,连线延时正在取代晶体管内部延时,成为v l s i 性能 提高新的“瓶颈”因素,如图1 1 所示。 第1 页 国防科技大学研究生院学位论文 p r o c e s st e c h n o i o g yn o d e ( n m ) 图1 1 不同工艺节点下互连的相对延时变化2 】 1 2 主要研究内容 1 - 2 - 1 先进流处理器片上互连研究 众所周知,互连已经成为面向流应用的高性能微处理器设计的关键问题之一。因此, 对当前较为成熟的面向流应用的微处理器互连结构进行研究,对x 流处理器群问互连优化 设计有重要的借鉴指导作用。当前主流高性能微处理器大多从系统整体性能出发,采用相 对比较成熟的互连结构。如t i l e 结构的先驱r a w 处理器1 4 】,通过一个点对点的标量操作数 网络( s c a l a ro p e r a l l dn e t w o r ks o n ) 在体系结构上可见的功能单元问交换数据,从而有效 支持i l p 和s t r e a m s ,s o n 为数据传输提供了低延时。c y c l o p s 刮6 j 的基于c r o s s b a r 的片上 互连设计。此外,c e l l 【5 】中9 个处理器核心的通讯以及访存、i 0 都是通过内部的互连总线 ( e l e m e n ti m e r c o i u l e c tb u se i b ) 实现。下面将对这三种互连结构进行介绍。 基于r a w 的s o n 麻省理工学院的研究项目r a w 主要针对可重构计算,是一个基于多t i l e 的体系结构, 每个t i l e 包含一个计算处理器、路由器、指令m e m o r y 和数据m e m o 巧,t i l e 之间通过二维 m e s h 可配置操作数网络进行互连,如图1 2 所示。 t i l e 问互连采用4 个3 2 位全双工网络,其中两个是静态的( 编译时指定路由) ,两个 是动态的( 执行过程中指定路由) ,每个t i l e 只和其周围4 个t i l e 互连。片上互连和处理 器流水线接口是其关键革新技术。片上网络是软件可见的,因此程序员和编译器能够对处 理器的线资源直接编程,从而详细规划好t i l e 间的各个计算部分之间的数据传递。为了最 小化t i l e 间标量数据传输延迟,片上网络不仅仅是寄存器映射到而且直接集成到处理器流 水线的旁路路径中。片上互连属于新颖的标量操作数网络s o n 瞪j ,寄存器文件为每个处理 器内的功能单元间的核心中枢通信机制。 第2 页 蕾善e暑卑 国防科技大学研究生院学位论文 图1 2 1 6 个t i l e 构成的r a w 基于c 6 4 的c r o s s b a r c y c l o p s 6 4 是面向高性能应用的多胞体系结构。c y c l o p s 6 4 采用粗粒度的处理器内核, 以便在有较高指令级并行性的单线程应用上实现更高的性能,并在同一芯片上重复设置许 多这样的内核,便于扩展。c 6 4 主要由h o s t 系统、文件系统、i o 节点、计算节点组成。 每个计算节点包含了一个c 6 4 芯片,外部d r a m 以及与外部相连接的一小部分逻辑。每 个c 6 4 芯片集成了大量线程单元、浮点运算单元、内部存储器、与片外d d rs d r a m 存 储器的接口以及芯片间的双向端口,如图1 3 所示。 蓦习孽嘲剖受 毒二一一二_ | _ 墅,l 。l 一上。l 研墨磷t i e 渤料t il b 蔓l “函 戳“= 七畦弛盔c r l 睁轧嚣2 匿童嚣 赞“毹- 虢螂瓣琳 哪删胁知斑概融砖 图1 3 c 6 4 芯片 每个芯片内的资源通过一个有9 6 个端口的c r o s s b a r 连接,维护芯片内的所有通信,提 供内部计算节点间的访问接口。c r o s s b a r 简化了对诸如以太网端口之类的具体设备的访问。 研究表明,c 6 4c r o s s b a r 可获得低延迟、达到硬件全带宽同时具有非阻塞特性,同时网络 第3 页 国防科技大学研究生院学 ! 奇= 论文 具有较好的稳定性,其网络逻辑设计为每个方向不同通信兆享信道带宽提供了合理的机 会。 基于c e l l 的e i b c e l l 很独特,有一个主控处理器进行资源分配和负载平衡。其它协同处理单元具有很 大自主性,因而可以很容易分配到各个运算流水线中去,构成相对独立而又相关联的结构。 虽然每个协同运算单元具备独立的内存资源,但是高速的互连总线e i b 让它们可以充分利 用整个系统的缓存资源,并且协同处理器单元之间也拥有完善而且快速的联系通道,成为 c e l l 处理器能够自由组合成为面向多种应用类型的关键。 c e l lb e 是以6 4 位元p o w e r t m 处理机为核心( p p e ) ,结合8 个互相协作的处理机 单元( s p e ) 所构成的微处理器,如图1 4 所示。c e b a 架构可以很好的适用于多样的规 划设计,并且支持p p e 和8 个s p e 分离工作。 黪 c 神e 糟m o n c h 秘尊# 9 6 8 错c 喧嚷。 j 溺 - 隧副u ,斟 6 4 b 申害 p o w e r a r c h i t e c t u r e c o f e 陵嗡卜 陵渤锄# 磁捌 藏。热“# 毒渤 图1 4 c e l i b e 的内部结构 e i b 完成芯片上处理单元、存储器以及i o 模块的互连。e i b 由4 个环互连实现的,4 个环被分为两组,两组的方向相反,每个环为1 2 8 位宽,为了减少串扰,布线时1 2 8 位的 数据线被划分为4 根一组,每组之问使用地线或者电源分割。为了进一步的去耦合,两组 方向相反的环是交替布线的。如图1 5 所示。 e i b 总线具有以下特点: ( i ) 用芯片面积较小的情况下能够提供很高的带宽( 3 0 0 + g b s ) 。 ( 2 ) 总线数据传输算法能够进行通道资源储备,以提供对某些有实时性要求的处理的支 持。 ( 3 ) e i b 具有可扩展性,但是只能延水平方向扩展,随着规模增大,延时有所增加。 ( 4 ) 设计、控制简单。 第4 页 国防科技大学研究生院学何论文 图1 5 e i b 环状结构图 随着流应用的f j 益普及与发展,高速互连已经成为流体系结构发挥其性能优势的关 键。高性能流处理器对可扩展、高带宽、低成本的互连结构的需求已经越来越突出。与此 同时,随着c m o s 工艺尺寸的缩小以及设计复杂性的增大,后端互连设计遇到了很多设计 难题,因此对于高性能微处理器的互连设计,我们希望设计人员从系统整体性能出发,在 系统设计验证初期就考虑互连结构的优化设计及其对后端实现的影响,减轻后端设计实现 的压力,以便更好地提高系统整体性能。 1 2 2x 流处理器计算群内互连 x 流处理器设置一个微控和4 个计算群,微控的指令广播到4 个计算群,4 个计算群 执行同样的指令,但从流寄存器文件s r f 的8 个流缓冲器s b 中接受不同的数据。程序运 行时4 个c l u s t e r 对不同的数据元素进行相同的处理,以s i m d 的方式锁步执行。 计算群( c l u s t e r ) 和微控一起构成完整的核心级处理器,微控负责存储和发射微码及 控制微码程序流程,而计算群是主要的执行机构,实现核心级指令系统规定的功能。 核心处理器的程序经流寄存器文件( s r f ) 传输到微控的微码存储器中,计算群执行 的指令就是从微码存储器中读出的。计算群的指令来自微控,数据来自s r f ,直接和s r f 的流缓冲器( s b ) 相连,处理后的数据直接输出到s b 。 4 个计算群是同构的,但i d 号不同( 从。到3 ) ,一个计算群是由多个功能组成,包 含了多个局部寄存器文件l r f ,功能部件和l r f 之问用一组计算群内部总线互相连接起 来。计算群之间通过通信部件用群间总线相连,计算群和s b 之间通过输入输出部件相连。 c l u s t e r 计算群整体结构如图1 6 所示,可以分为功能部件( f u ) ,局部寄存器文件 ( l r f ,包括条件码寄存器文件c c r f ) 和计算群内交叉互联网络等部分。计算群的功能 单元分为两类:运算部件和非运算部件。运算部件执行整数和浮点运算指令,包括4 个乘 加单元:f m a c o ,f m a c l ,f m a c 2 ,f m a c 3 和一个除法单元d s q 。 第5 页 国防科技大学研究生院学位论文 图1 6 计算群整体结构 四个乘加单元具有相同的结构。每一个乘加单元又包括下述功能单元: m a f :执行浮点乘加指令,6 4 位整数乘法指令,浮点和整数之问的转换指令以及浮点 规格化指令; f m i s c :执行浮点比较,浮点逻辑运算以及浮点数的最大最小值计算等浮点杂类指令; a l u :执行6 4 位整数算术和逻辑运算,包括各种比较和移位操作。 除法单元d s q :完成浮点数倒数和平方根倒数的查表计算,此外d s q 也执行几种数 据移动指令。 非运算部件支持条件流和数据移动操作,包括局部寄存器文件( l r f 及条件码寄存器 文件c c r f ) 、1 0 单元、群间通信单元c o m m 、便笺寄存器单元s p 、条件流控制单元j b 和v a l 。 局部寄存器文件是功能单元的数据源和中间结果暂存器,条件码寄存器文件存储比较 指令产生的结果,用于数据通路选择和条件流操作。 1 0 单元在微控的控制之下从流缓冲器s b 中读取数据,或将结果总线上的数据写回s b 。i o 单元最多可以同时支持8 个输入输出流用于在计算群之间传输数据,但受限于计算 群内部的总线,并发的输入流最多4 个,而输出流可以达到8 个。 s p 是个2 5 6 + 6 4 的存储器单元,支持基址+ 偏移的寻址方式,实现了一个部件内的小型 查找表。s p 可以作为条件流的暂存器,支持各种读写操作的组合。 c o m m 是个通信单元,通过它计算群之间可以进行数据交换。 j b 和v a l 都是条件流的控制单元,产生和存储条件流需要的各种状态,和微控一起 控制i o 、s p 和c o m m 的执行,从而实现条件输入输出流。 第6 页 国防科技大学研究生院学位论文 功能部件完成不同的算术运算和其它操作,局部寄存器文件是功能部件的数据源和中 问结果暂存器,条件码寄存器文件存储比较指令产生的结果,用于数掘通路选择和条件流 操作。功能部件之间的数据交换以及s i 心数据和功能部件之间的数据传输是通过计算群内 交叉互联网络开关完成的,所有的功能部件都是将输出结果发送到结果总线上,而l r f 的 输入端可以连接所有的结果总线,这样交叉互联丌关就将所有的功能部件和l r f 之间形成 一种全互联的结构,如图1 7 所示。 受i ,京 铃 l 一- 寸催 l r f f m a c f m a cf m a cs p 图1 7 计算群内部互连结构 1 - 2 3 互连物理设计关键技术 随着工艺尺寸的缩小和设计复杂性的增大,系统的物理设计遇到越来越多障碍。进入 深亚微米工艺后,互连设计在物理设计中的重要性同益明显,集成电路设计者在进行物理 层次上的互连设计时主要有以下几个关键技术问题: 线延时 当设计工艺进入深亚微米阶段后,集成电路中金属导线延时已经大大超过了器件本身 的延时,线延时正逐渐取代门延时成为信号延时的主要部分。长导线的信号延时往往主要 取决于r c 效应。这在以全局连线平均长度增加( 同时,门平均延时减少) 为特点的现代 工艺技术中越来越成为一个大问题。为了改善长线的r c 延时,研究人员已经从多方面对 互连进行改进,如采用更好的互连材料、插入中继器、优化互连结构等。 互连布线分布 随着芯片尺寸和复杂度的增大,互连问题也变得越来越复杂,全局互连急剧增多,连 线长度越来越难控制,即使对互连线延时进行了一定程度的改进,但是对互连网络的整体 改进还是极为微小的。线延时很大程度上取决于其物理分布,因此,进行互连布线分布研 究,在设计初期准确预测出线延时的大小及整体互连布线分布,对改善互连分布尤为重要。 第7 页 国防科技人学研究生院学位论文 功耗和信号完整性 随着工艺尺寸的缩小,互连逐渐成为系统总功耗的最大消耗者之一。系统总功耗的不 断增大,进而使芯片封装、系统制冷以及电源系统的设计复杂化,显著增加了系统成本。 因此,降低互连功耗是当前互连设计的一个关键技术难题。 此外,虽然连线宽度和间距都在减小,但是高度与宽度的比例仍然在增大,因此线间 耦合电容f 逐渐成为互连寄生电容的主要来源。随着时钟频率的提高,连线的自感和互感 效应也越来越明显。耦合电容和耦合电感的增大,导致线阳j 串扰噪声越来越严重,而工作 电压的降低使串扰噪声越来越突出。信号完整性已经成为影响系统性能和保证系统正确性 的关键,因此,设计人员必须在设计时保证信号完整性,以保证系统正确性。 1 2 4 课题相关研究内容 我们对x 流处理器计算群内互连的物理设计与优化进行相关研究。主要有以下几个方 面: ( 1 ) 长线延时优化电路研究与实现 随着c m o s 工艺进入深亚微米阶段,连线的延时、功耗以及信号完整性对电路整体性 能影响逐渐增大,阻碍了电路性能的进一步提高 9 j 。在对互连进行物理实现时,设计实现 低延迟、低功耗、可靠的互连是集成电路设计者面对的一个挑战。 为了减小长线延时,研究人员提出了许多优化方法,如采用更好的互连材料、插入中 继器、优化互连结构等。减小长线延时最普遍的方法就是插入中继器【jo j ,互连延时以平方 速度减小。中继器驱动插入方法已经被广泛应用于集成电路设计中,然而,随着工艺的缩 小和全局互连长度的增大,互连功耗和信号完整性问题越来越突出,只采用中继器驱动插 入方法对于改进互连延时的优势越来越弱。 降低互连长线功耗的有效方法是采用低摆幅传输技术。减小互连信号的摆幅能够加快 信号的跳变速度,降低动态功耗,但是可能会降低信号的噪声容限,影响信号的完整性和 可靠性【9 】。低摆幅传输电路的信号摆幅非常小,能比中继驱动器驱动更长的连线,从而减 少驱动器的数目,降低功耗和面积开销,是一种非常有前途的片上互连技术。 我们采用中继驱动器和低摆幅电路在驱动不同长度互连时的优点,将它们混合插入到 互连线的合适位置上,降低了互连延时。 ( 2 ) 布局布线优化 当前,如何评价一个后端布局布线的优劣,以及如何找到相应布局布线中存在的具体 问题,以便进一步进行后端布局布线优化,这一点对于后端设计人员十分重要。 互连分布模型对于准确估算线延时的大小及了解整体互连布线分布十分重要。我们研 究了三种典型的互连分布模型,并和x 流处理器计算群的互连初始情况进行对比,找到问 题所在,有针对性地进行互连布线优化。结合版图规划优化,在半定制设计流程上对系统 第8 页 国防科技大学研究生院学位论文 进行白局布线优化,较好地提高了系统整体性能。 ( 3 ) 制定全定制设计参考信息 为了进一步提高x 流处理器计算群的整体性能,通过对关键时序路径进行分析,我们 确定了需要进行全定制设计的部件。基于在半定制流程上优化了的x 流处理器计算群提供 的布局布线信息,我们为需要进行全定制设计的功能部件提供形状、大小及端口相对位置 等参考信息。 ( 4 ) 互连分布修f 模型 典型互连分布模型在对实际系统的互连分布进行估算时,仍然存在一定的偏差。因此, 根据x 流处理器计算群互连分布的实际情况,对典型互连分布模型进行修正,得到和x 流 处理器计算群互连分布情况更接近的模型,这对于后续研究有着十分重要的指导意义。 1 3 论文的组织结构 本文对x 流处理器计算群内互连的物理设计与优化进行相关研究。具体研究了互连线 延时优化技术、互连分布优化方法,以及它们对整体性能的影响,并对典型互连分布模型 进行了研究和修正。 论文分为五章,具体内容如下: 第一章,绪论。首先介绍了论文的研究背景,然后对先进流处理器片上互连、x 流处 理器计算群内互连结构、互连物理设计关键技术进行了研究,最后总结了论文的研究内容 以及论文的组织结构。 第二章,互连线延时优化技术研究。首先介绍了互连线延时的基本理论及其优化技术, 然后使用一种中继驱动器和低摆幅电路混合插入方法,对计算群内互连进行了优化。 第三章,x 流处理器计算群的布局布线优化。首先在半定制设计流程上,对x 流处理 器计算群进行版图规划优化,然后借鉴典型互连分布模型,采用多层次互连和对角互连策 略针对性地优化布线,改善了计算群内互连分布,提高了系统整体性能。 第四章,x 流处理器计算群互连分布修正模型。首先根据优化后的x 流处理器计算群 互连分布情况,对典型互连分布模型进行修正,得到和实际互连分布情况更接近的修正模 型。然后对互连分布修j 下模型进行对比分析。最后对互连分布模型的应用进行定性分析。 第五章,结束语。首先总结了全文,然后说明了不足之处,最后展望了进一步的研究 方向。 第9 页 国防科技大学研究生院学位论文 第二章互连线延时优化技术研究 集成电路正向着高速、高密度、低功耗、多功能方向迅猛发展。众多研究表明:在高 速、高密度集成电路中,限制其发展的不再是器件的门延迟,而是互连线寄生元件引起的 线延迟、连线之问信号的串扰及电路的功耗【1 2 】。芯片内部和芯片之间的互连线在决定一个 v l s i 设计的物理尺寸、功耗以及时钟频率方面起着越来越重要的作用。在深亚微米设计工 艺下,芯片上高密度互连线的寄生参数对信号传播延时的影响,已经成为设计的主要考虑 因素。 2 1 互连线延时的基本理论 互连延时的定义 实际运用中有许多不同的方法来定义延时,其中最常用的有两种。第一种定义延时的 方法是把延时定义为阶跃响应达到它终值一半时所需要的时间瓦。第二种定义延时的方法 则是把延时定义为该阶跃响应由它终值的1 0 增加到9 0 所需要的时问。后一种延时定义 虽然更为实际并十分适合于在试验中运用,但却不适合进行计算和理论研究,这是因为针 对所考虑的每一种情形必须计算出阶跃响应曲线。为此,w c e l m o r e 提出了另一种定义延 时的方法。即如果把延时度量为从t = 0 起至阶跃响应上升至约一半终值的时间,那么可以 合理地把延时瓦定义为阶跃响应的导数e ( f ) 曲线下面积的质心,即: 瓦= 弘o ) 衍 o ( 2 1 ) 由于阶跃函数的导数即脉冲函数p ( f ) 就是该系统对于一个脉冲输入的响应,因此e 1 m o r e 的延时定义实际上是把延时定义为脉冲响应的一个分量,它近似地度量了一个系统的 阶跃响应从它的初始值到达最终值一半所需要的时间。这一定义的优点是延时计算简单, 其局限性是当实际的响应波形非单调时,这一方法不够准确。 现在,延迟模型的范围很复杂,从简单的e l m o r e 延迟到详细的力矩匹配工艺。有代表 性的是,模型的复杂程度会随设计流程而提高,综合时的后端分析需要极高准确度时,可 以采用简单的模型。然而随着阻抗的提高,上升时间的加快以及电感效应的必须引入,模 型还必须考虑这些效应。e l m o r e 延迟有以下几个特点:e l m o r e 延迟是一阶力矩脉冲响应, 可以用来进行自动设计;能够用简单的闭环表达式表示,所以计算很快;另外它的有用之 处在于能够提供5 0 延迟上限,因为在大多数情况下,我们宁愿高估延迟时间,也不愿低 估它,而e l m o r e 延迟则能保证这一点;最后,e l m o r e 近似提供了实际解决方法( 例如s p i c e 这样的精确延迟模型模拟) 的高保真度。当上升时间缓慢时,e l m o r e 延迟工作准确。 因为它有高保真度,所以也能用于准确计算平衡( 或近平衡) 互连树的扇出节点之间的相对 第1 0 页 国防科技大学研究生院学位论文 延迟。但对于过渡时问很快和接近源的扇出节点时,e l m o r e 延迟有很大的错误。 因此,e l m o r e 模型在深亚微米级工艺下是非常不准确的,但是力矩匹配工艺在处理上 升的系统复杂度方面需要很大计算精度。然而为了提供近e l m o r e 延迟计算时间的必须准确 度,像双极点r l c 模型这样的简单模型也是必要的。 互连线延时基本计算方法 主要有以下几种方法可以用来计算或模拟互连线的延时: ( 1 ) 利用s p i c e 模拟对电路进行动态波形分析以计算延时。s p i c e 是电路级的模拟,主 要针对于模拟电路进行分布,包括直流分析,交流小信号分析,瞬态分析和电路的温度特 性分析等。其优点是精度高,但计算速度慢,因此不适用于超大规模集成电路的延时分析。 ( 2 ) 利用分量匹配法( m o m e mm a t c h i n gm e t h o d ) 。分量匹配法的基本思路是用一个简 单的多项式逼近电路的脉冲响应。假设办( f ) 为单位脉冲响应,其拉普拉斯变换为: 日( s ) = i 向( 咖叫衍 ( 2 2 ) 占 对于e ”用m a c l a u r i n ( 马克劳林) 公式展开有: 日o ) = p ( ,) 西一s 弘向( f ) 魂+ 等p2 办( ,) 办一等p 3 | i l ( f ) 出+ ( 2 3 ) 另一方面,h ( s ) 也可写为 耶) 川0 ) + ( 0 ) s + 华 学 ( 2 4 ) 若定义n 阶分量为:当l 一办( f ) 以,贝o :生竽日一,( o ) 。选择合适的阶数n ,就可 胛! : 刀: 以用一个简单的多项式逼近日0 ) 。假设电路的脉冲响应为: 日( s ) :尼旦型兰至二坐 ( 2 5 ) 、7 1 + 6 1 s + 6 ,s 2 + 6 。s ” 因为:上 h c 一,( o ) 得前三个分量为: f m 。= 七 m 1 = 七( 6 l q ) ( 2 6 ) 【m = 后( 口2 一口l6 l 一6 2 + 6 7 ) 于是: 日( j ) 七一i ( 6 l 一口1 ) s + j ( 口2 一口1 6 1 6 2 + 6 7 ) s 2 ( 2 7 ) 分量匹配法的典型代表是渐近波形估计a w e ( a s y m p t o t i cw a v e f o me v a l u a t i o n ) 。 实践表明,采用分量匹配逼近的方法对于大型集总参数线性电路可得到较好的近似结果, 第1 l 页 国防科技人学研究生院学位论文 且计算速度比传统的电路线模拟方法要快好几个数量级。其缺点是选择恰当的阶数n 比较 困难,因为并不一定能保证阶数越高精度就越好,此外,阶数选择不当时还会引起不稳定 问题。 ( 3 ) e l m o r e 延时法。如前所述,e l m o r e 延时的定义为 瓦= i 纪( f ) 衍 6 其中,p ( f ) = 半,弘o ) 衍= 1 ,因此e l m 。r e 延时法相当于一阶分量匹配法,其延迟 时间: 瓦:堕 m 0 ( 2 8 ) 用e 1 m o r e 延时法计算延时的优点是计算非常简单。但是如果响应曲线非常不对称,特 别是p ( f ) 具有负值部分( 即厂不是单调函数) 时,e l m o r e 延时法的计算会非常不准确,另外 e 1 m o r e 延时法给出的是路径的最大延时值,它并不能给出从信号源输出至任一中间节点的 延时值。 互连线模型 互连的几何尺寸和拓扑结构会对互连线的电气特性电容、电阻、电感产生影响, 从而影响到互连线延时、功耗和可靠性。因此,需要建立用于分析互连线的实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 股东代持股权融资担保协议书
- 酒类专业测试题及答案
- 舞蹈学专业考试题及答案
- 殡葬类专业面试题及答案
- 淘宝美工述职报告
- 2025至2030中国汽车节油器行业项目调研及市场前景预测评估报告
- 培训学校前台工作总结
- 部队文职通信题库及答案
- 离婚协议书财产分割及房产转让详细条款
- 国际商事合同通则在跨境电子商务合同中的风险控制
- 监狱医疗面试真题及答案
- 诉讼费承担合同协议
- 中国共产主义青年团纪律处分条例试行解读学习
- 中国LTCC用玻璃陶瓷粉行业市场前景预测及投资价值评估分析报告
- 国家能源集团陆上风电项目通 用造价指标(2024年)
- 2025年江西工业贸易职业技术学院单招职业倾向性考试题库附答案
- 医疗机构工作人员廉洁从业九项准则
- 弹个车合同协议
- 高标准农田建设项目主要施工方案与技术措施
- “十五五”期间新型公共文化空间建设趋势及展望
- 肾小管酸中毒的药物治疗原则及用药时机
评论
0/150
提交评论