




已阅读5页,还剩50页未读, 继续免费阅读
(微电子学与固体电子学专业论文)fpga功耗评估和低功耗结构研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着集成电路工艺进入纳米尺寸,芯片功耗成为一个越来越重要的设计因 素。根据最新的研究【1 】表明,相对专用集成电路( a p p l i c a t i o ns p e c i f i ci n t e g r a t e d c i r c u i t ,a s i c ) ,现场可编程门阵列器件( f i e l d p r o g r a m m a b l eg a t ea r r a y ,f p g a ) 实现 相同功能电路的动态功耗是其7 “1 4 倍,静态功耗是7 5 8 倍。因此,这极大的限 制了f p g a 在移动设备,嵌入式领域等功耗严格的场合的应用。 为了对f p g a 进行准确的功耗评估,使得f p g a 的结构设计人员,c a d 流程开 发人员和众多的应用开发人员更加深入的理解f p g a 内部的功耗消耗,从而更有 利于相关人员采用各种低功耗措施,本文在功耗模型及评估方面做了探索。在参, 考了学术界常用的功耗模型以及考虑了商用f p g a 的电路复杂性,本文提出了一 种结合开关级和宏单元的混合功耗模型,该模型针对复杂的f p g a 内部逻辑单元, 建立了基于跳表延时,输出负载和跳变状态三维的查找表,用于计算其动态功耗。 对于互连时钟线网,采用开关级的功耗模型。针对复旦大学的f d p 3 芯片,本文 根据上述模型建立了精确的功耗库。 此外,本文搭建了仿真验证平台。该平台读入线网文件,自动生成s p i c e 网 表。并且设计了蒙特卡洛波形生成器,用于生成波形激励s p i c e 网表。本文根据 1 0 个电路s p i c e 网表仿真与评估软件的结果对比,表明上述模型的最大误差在 3 6 以内,平均误差在1 7 。 此外,为了探索更优的低功耗互连结构,本文采用多伦多大学的v p r 软件, 在通用开关盒的基础上,对f p g a 的低功耗互连结构做了进一步的探索。为了获 得芯片功耗延时积最低的互连结构,文本提出了快速、迭代的功耗评估框架,并 使用该框架得出最优的开关互连功耗。实验结果表明,该结果比传统的c b s b 结 构降低1 0 的功耗延时积以及1 0 的面积。 关键词:f p g a 、功耗评估,、互连结构、结构评估框架 中图分类号:t n4 0 2 a b s t r a c t a b s t r a c t a st h ei cp r o c e s st e c h n o l o g yi n t ot h en a n o m e t e rs i z e ,c h i pp o w e rc o n s u m p t i o n h a sb e c o m ea ni n c r e a s i n g l yi m p o r t a n td e s i g nf a c t o r t h el a t e s tr e s e a r c h 1 s h o w st h a t , c o m p a r e dt os p e c i f i ci n t e g r a t e dc i r c u i t ( a s i c ) ,f i e l dp r o g r a m m a b l eg a t ea r r a y ( f p g a ) c o n s u m e s7 “1 4t i m e si t sd y n a m i cp o w e ra n d7 “5 8t i m e ss t a t i cp o w e rt or e a l i z et h e s a m ec i r c u i tf u n c t i o n ,w h i c hg r e a t l yi i m i t sf p g a sa p p l i c a t i o ni nt h ep o w e rs t r i c tf i e l d s s u c ha sm o b i l ed e v i c ea n de m b e d d e dc i r c u i t s t h i st h e s i se x p l o r e st h ep o w e rm o d e la n dp o w e ra s s e s s m e n to ff p g a 。i no r d e r t oa c c u r a t e l ye s t i m a t et h ef p g ap o w e rc o n s u m p t i o na n dh e l pt h ef p g as t r u c t u r e d e s i g n e r s ,c a df l o wd e v e l o p e r sa n dan u m b e ro ff p g aa p p l i c a t i o nd e v e l o p e r st o b e t t e ru n d e r s t a n dt h ef p g ap o w e rc o n s u m p t i o nm e c h a n i s m ,a n da p p l yt h ei o w p o w e rm e a s u r e si nt h e i rd e s i g nf u r t h e r b a s e do nt h ei n v e s t i g a t i o no ft h ec l a s s i c a c a d e m i cp o w e rm o d e la n dc o m p l e x i t yo ft h ec o m m e r c i a if p g a ,t h i st h e s i sp r o p o s e s an e wp o w e rm o d e lw h i c hc o m b i n e ss w i t c h - l e v e ia n dm a c r o c e l ip o w e re s t i m a t i o n t h i sm o d e ip r o p o s e sai o o ku pf u n c t i o nb a s e do ns w i t c hd e l a y , o u t p u ti o a da n d s w i t c hs t a t ef o rt h ec o m p e l e xf p g ai n t e r n a il o g i cc e l l t ot h ei n t e r c o n n e c ta n dt i m i n g n e tr e s o u r c e t h i sm o d e ia p p l i e dt h es w i t c h 1 e v e lm o d e l a n dt h i st h e s i sa n ds e t su p t h es u p p o r t i n gp o w e rl i b r a r yf o rt h ef p g ad e v i c ed e v e l o p e db yf u d a nu n i v e r s i t y , f d p 3 i ta l s ob u i l d sas i m u l a t i o np l a t f o r m t h i sp l a t f o r mf i r s tr e a dt h en e t l i s ta f t e r r o u t i n g ,a n da u t og e n e r a t et h es p i c en e t l i s t a n dt h i st h e s i sd e s i g nam o n t ec a r l o w a v eg e n e r a t o r , w h i c hu s e dt og e n e r a t et h ew a v et os t i m u l et h es p i c en e t l i s t a f t e r c a r i n go u ts p i c es i m u l a t i o nf o r1 0c i r c u i t s ,s oa st ov a l i d a t et h ea c c u r a c yo ft h ep o w e r m o d e l t h es i m u l a t i o nr e s u l ts h o w st h a tt h em o s te r r o ro ft h ep o w e rm o d e i si e s s t h a n3 6 ,a n dt h ea v e r a g ee r r o ri s1 7 i na d d i t i o n t h i st h e s i su s e sv p rs o f t w a r et om a k ef u r t h e re x p l o r a t i o no nf p g a i n t e r c o n n e ! c ts t r u c t u r eb a s e do nt h eg e n e r a ls w i t c hb o x ,s oa st of i n dab e t t e ri o w p o w e ri n t e r c o n n e c t i o ns t r u c t u r ew i t ht h ei o w e s tp o w e rd e l a yp r o d u c t af a s t i t e r a t i v ep o w e re v a l u t i o nf r a m e w o r ka n dt h eo p t i m a li n t e r c o n n e c ts t r u c t u r ea r e p r o p o s e di nt h et h e s i s t h ee x p e r i m e n tr e s u l t ss h o wt h a t ,t h ep r o p o s e di n t e r c o n n e c t s t r u c t u r ea c h i e v e s1 0 l e s sp o w e rd e l a yp r o d u c ta n d1 0 l e s sa r e at h a nt h e c o n v e n t i o n a lc b s bs t r u c t u r e k e y w o r d :f p g a ,p o w e re s t i m a t i o n ,i n t e r c o n n e c ta r c h i t e c t u r e ,a r c h i t e c t u r ee v a l u t i o n f r a m e w o r k i v 第一章引言 1 1f p g a 概述 第一章引言 自从集成电路的出现,半导体产业经历了许多革新,其中包括a s i c ,c p u ,模 拟集成电路,和f p g a 等各种电路设计方案。1 9 8 5 年,x i l i n x 公司推出世界上第 一片现场可编程门阵列f p g a 芯片,可以方便的通过下载不同的配置位流文件( b i t s t r e a m ) 而实现不同的逻辑功能。经过二十多年的发展,凭借工艺制造技术的不 断进步和解决方案的不断创新,f p g a 在逻辑密度、性能、功耗、成本等方面的 突破使其应用领域日益扩展。来自市场调研公司i ci n s i g h t 的数据显示,2 0 1 0 年 p l d 的市场增长率超过了4 5 ,达到4 8 亿美元。预计到2 0 1 4 年,总市值将进一 步增加到7 0 亿美元,排名整个半导体行业增速最快的第三位1 2 l 。 f p g a 之所以成功的一个最主要的原因是由于它的可编程性,相对于专为特 定设计定制构建的专用集成电路( a p p l i c a t i o ns p e c i f i ci n t e g r a t e dc i r c u i t ,a s i c ) 而 言,f p g a 能通过编程来满足应用和功能要求。因此,f p g a 成为了众多不同市场 的理想选择,目前f p g a 已经被广泛应用到航空航天,汽车工业,有线和无线通 信,工业控制等各个领域。各大f p g a 芯片生产商,如x i l i n x ,a l t e r a ,a c t e l 等都 提供了完整的f p g a 应用解决方法,使f p g a 在使用上也越加方便。如图1 所示, f p g a 从硬件结构上大致可以分为以下几个部分: r l r l n n ,+ r r n f n c ,r r f i f 】奠c h ,n n c t f t - f l o l l l 工 茎口 1 吝 | _ 宝 可一 e i d d d 口圃口 f l r “i f i f i 爿产c l 隗 u l j u u 口口口口 o _ l _ 一 2 1 g z一 o “ o j 毫盘 酮露爵目勰鹰圜薹 踞置田日暖弱萋厘 豳l j 口口口口口口口口口口口口l _ 豳 ,黯涮r-酬fi蝴r-if-l尉clr醚-r-t-rf荟f耐-tu-e墨ll n 图1 1 通用f p g a 硬件结构 1 可编程逻辑块。c l b 是f p g a 的基本逻辑单元,每个c l b 通常包含2 个或 四个s l i c e ,每个s l i c e 内部包含两个由4 或6 个输入、一些选择电路( 多 第一章引占 路选择器等) 、触发器和进位链等电路。s l i c e 具有高度的灵活性,经配置 可以处理组合型逻辑、时序电路或分布式r a m 。 2 可编程互连。每个c l b 之间存在规则的可编程互连布线结构,负责在c l b 和i o 之间传递信号。布线有几种类型,从设计用于专门实现c l b 互连、到 器件内的高速水平和垂直长线、再到时钟与其它全局信号的全局低歪斜布 线。 3 可编程i o 。目前f p g a 可支持多种i 0 标准,通过配置可以将i o b 设置为 各种输入输出类型,能够提供灵活的i o 支持。 4 存储器和时钟管理。大多数f p g a 都提供嵌入式块r a m 存储器,能够为设 计实现片上存储。同时也提供数字时钟管理( d i g i t a lc l o c km a n a g e m e n t , d c m ) 功能,几乎消除了过去设计者在将全局信号设计到f p g a 中时不得 不面对的歪斜及其它问题。 随着f p g a 设计技术的发展,f p g a 的软件c a d 流程也越加成熟。目前许 多f p g a 供应商都提供自己的c a d 设计工具与芯片配套,如x i l i n x 公司的i s e , a l t e r a 公司的q u a r t u s 等,用户只需要提供以电路图或硬件描述语言方式的设计 描述就能够方便地在f p g a 芯片上实现电路。图显示了一个完整的c a d 软件 设计流程4 2 t 列: 1 设计描述( d e s i g nd e s c r i p t i o n ) :用户将电路设计用硬件描述语言( v h d l v e r i l o gh d l ) 或电路图形式描述电路行为。 2 逻辑综合( l o g i cs y n t h e s i s ) :利用综合工具将用户的设计综合成与工艺无关 的基本逻辑门电路。逻辑综合的过程包括输入网表解析,抽象语法树生成, 逻辑展开,逻辑优化,逻辑映射等几个方面。 3 工艺映射( t e c h n o l o g ym a p p i n g ) :将逻辑综合后的门级电路映射为用f p g a 的基本逻辑单元实现的网表,这个过程与目标器件相关。现代商用f p g a 含 有许多实现专用功能的逻辑单元,工艺映射除了传统意义上的l u t 映射之 外,还需要识别出设计中能用的f p g a 专用单元实现的子电路。工艺映射过 程也是本文的主要研究方向。 4 逻辑单元打包( p a c k i n g ) :将工艺映射生成的工艺相关的电路网表打包进 f p g a 中粒度更粗的逻辑资源,如c l b ,i o b ,r a m 等,打包程序同时需要 负责对这些逻辑块添加可编程点的配置信息。 5 布局布线( p l a c e m e n t & r o u t e ) :布局是将打包后的粗粒度逻辑块映射到实际 f p g a 芯片中的物理逻辑块,也就是确定各个逻辑块在f p g a 芯片中的位簧。 接着将布局生成的物理逻辑块通过f p g a 提供的可编程互连资源连接起来。 布线程序结束后,用户设计在f p g a 中的实现也就完全确定了。 第一章引言 6 时序分析( t i m i n g a n a l y s i s ) 对电路的关键路径,最大延时等做分析,以及 判断用户输入的延时约束。 7 位流生成( b i t s t r e a mg e n e r a t i o n ) :结合逻辑块和互联中的可编程点信息,转 化为f p g a 中所有可编程点的位流文件,通过位流文件可以描述整个用户电 路在f p g a 中的配置和实现情况。 8 编程下载( p r o g r a m m i n g ) 将位流文件下载到f p g a 芯片中实现电路功能, 这是c a d 流程的最后一个步骤。 图1 2f p g a 的c a d 设计流程 在实际应用中,为了达到性能的优化,f p g a 设计c a d 流程中的每个步骤可 能有所交叠。例如逻辑单元打包有时候也会针对f p g a 的专用结构对设计进行优 化;布局过程中如果时序不满足用户的要求,布局程序会根据现阶段的数据刘+ 电 路进行重新打包;为了获得更准确的时序信息,布局程序有时候也会对电路进行 快速布线以估算每条线网的延时。 第一章引言 1 2f p g a 面临低功耗挑战 自第一片现场可编程逻辑器件至今,f p g a 已经历了二十几年的发展。在这 十几年中,以f p g a 为代表的数字系统现场集成技术已经取得了令人瞩目的成就。 高容量、高性能的f p g a 已处于硅技术的前沿,和主流a s i c 的设计线宽相当,现 场可编程器件提高到了一个相当高的水平。 以a l t e r a 公司的s t r a t i x l l 器件为例,s t r a t i x l l 是a l t e r a 的9 0 n m 全功能f p g a , 能够提供高密度和高性能的可编程逻辑器件。它采用9 0 n m ,1 2 v ,9 层金属和 全铜工艺制造,内核运行达到3 0 0 m h z 【4 l ,其灵活性可以和a s i c 的相比拟。其中 s t r a t i x l l 的e p 2 s 1 8 0 器件可以实现多达2 2 0 万a s i c 逻辑门和9 m b i t 的存储器, e p 2 s 1 3 0 则可以容纳多达1 5 0 万的a s i c 逻辑门和6 s m b i t 以上的片内存储器。这 些都为设计人员提供了丰富的逻辑资源,从而满足多种市场和客户的需求。 不过,随着f p g a 的应用范围不断扩大,功耗、成本、平台和解决方案也成 为重要的挑战,其中,功耗是最大的挑战。相对于a s i c 电路,f p g a 为了提供灵 活的编程性能,内部存在大量的可编程开关,使得其完成相同功能的功耗是a s i c 的十倍甚至几十倍。例如,文献【5 】研究了一个8 位加法器在x i l i n x 的x c 4 0 0 3 a 芯 片和定制的c m o s 电路的功耗差异,实验结果显示前者5 v 电压的f p g a 功耗为 4 2 m w m h z ,后者3 v 电压的a s i c 电路功耗为5 5 u w m h z ,前者是后者的1 0 0 倍。此外随着工艺进一步达到9 0 n m 以下,漏电流呈指数级增加( 如图1 3 所示) , 在某些6 5 n m 设计中,漏电流已经和动态电流一样大,曾经可以忽略的静态功耗 成为功耗的主要部分。功耗已成为继传统二维要素( 速度、面积) 之后的第三维要 素。如何降低f p g a 芯片的功耗问题成为了与速度、面积同等重要的课题。功耗 问题制约着芯片性能的进一步提高,并且增加了集成电路的成本。 d a i af r o mi h ei n t e m a t i o n o lt e c h n o l o g y p o a d r n a pl o rs e m i c o n d u c t o r s 图0 3 静态功耗和工艺特征尺寸的关系 4 tu)岳西暑一旦d6 i d v 要l i d 第一章引言 另外,目前飞速发展的手持电子设备市场,为了增强自身产品的竞争力,也 对低功耗提出了越来越高的要求;其次可靠性问题也要求i c 的功耗越小越好; 最后全球都在倡导绿色环保科技理念,保护环境,节约能源。这些都要求i c 设 计时必须采用低功耗技术,以有效应对这些挑战1 6 】。 以上这些问题都促使我们更好的研究f p g a 功耗的来源,准确衡量f p g a 的 功耗,降低其结构功耗,从而使得应用开发人员能设计出符合市场需求的低功耗 集成电路应用。 1 3 主要工作 本文的工作主要分为三部分,如下所示: a ) 在参考了学术界常用的功耗模型以及考虑了商用f p g a 的电路复杂性后, 本文提出了一种结合开关级和宏单元的混合功耗模型。该模型针对复杂的f p g a 内部逻辑单元,建立了基于跳表延时,输出负载和跳变状态三维的查找表,用于 计算其动态功耗。对于互连时钟线网的动态功耗,采用了开关级的功耗模型。 对于静态功耗,建立与状态相关的查找表。并且针对复旦大学的f d p 3 芯片,本 文根据上述模型建立了精确的功耗库。 b ) 本文搭建了仿真验证平台。该平台读入线网文件,自动生成s p i c e 网表。 并且设计了蒙特卡洛波形生成器,用于生成波形激励s p i c e 网表。本文根据1 0 个电路s p i c e 网表仿真与评估软件的结果对比,表明上述模型的最大误差在3 6 , 平均误差为1 7 。 c ) 为了探索更优的低功耗互连结构,本文采用多伦多大学的v p r 软件,在 通用开关盒的基础上,对f p g a 的低功耗互连结构做了进一步的研究。为了获得 芯片功耗延时积最低的互连结构,文本提出了快速、迭代的功耗评估框架,并使 用该框架得出最优的开关互连功耗。实验结果表明,该结果相比传统的c b s b 结 构降低1 0 的功耗延时积以及1 0 的面积。 1 4 论文组织 本文的组织结构如下:第二章介绍了f p g a 功耗研究的背景,包括动态功耗、 静态功耗的各种评估方法。第三章介绍了针对复旦大学f d p 3 芯片的建立的功耗 模型。第四章介绍了功耗仿真验证平台,包括s p i c e 网表的自动生成和采用蒙特 卡洛方法生成的激励波形。并对比了功耗评估和仿真的结果。第五章对低功耗的 互连结构做出了相应的研究。第六章是整个论文工作的总结和展望。 5 第二章研究背景 第二章研究背景 2 1f p g a 功耗来源 在f p g a 芯片中,电路消耗的功耗分为三种:( 1 ) 跳变功耗,( 2 ) 短路功耗, 和( 3 ) 静态功耗,如图2 1 所示。前两者在逻辑门电路输出端发生信号转换时 发生,他们统称为动态功耗。其中信号转换又可分为两种,分为功能传递 ( f u n c t i o n a lt r a n s i t i o n ) 和毛刺( g l i t c h 或s p u r i o u s t r a n s i t i o n ) 。功能传递是指在 连续的两个信号跳变时电路逻辑功能的传递,为电路功能能正确传递的首要条 件。而毛刺是由于各信号到达逻辑门的各个输入不平衡( 不是同时到达) 而引 起的信号的跳变,如图2 2 所示,这在电路逻辑功能传递时是不希望出现的。毛 刺功耗占了动态功耗中很重要的一部分。 表2 1 电路中功耗的类型 功耗源 跳变功耗功能传递 动态功耗毛刺 短路功耗功能传递 毛刺 静态功耗反向偏置节漏电流 亚阈值漏电功耗 图2 1 电路中毛刺现象 跳变功耗是指逻辑门输出电压发生变化时,对负载电容和晶体管寄生电容充放 电所形成的功耗,如图2 2 所示。可以用下式表示: 民恸= 0 s 厂吒p p i y 。q 日 ( 2 1 ) 其中,是电路节点,是时钟频率,虮。卵i y 是供电电压,虮w i n g 是摆幅电压,c , 6 第二章研究背景 是节点f 的电容,d ,是节点f 的转换密度( 开关活动性) 。开关活动性是指单位时间 内信号转换( 从0 - 1 或从1 - 0 ) 。 图0 2 跳变功耗模型 短路功耗是指当逻辑门的输出端发生信号转换的时候,在一段较短时间内上拉 晶体管和下拉晶体管会同时导通。短路功耗表示电压源到地直接导通的这段时间 内消耗的功耗,如图2 3 所示。它是与输入信号的转换时间和负载电容有关的函 数。 图0 3 短路功耗模型 , 静态功耗又称漏电功耗,主要分为三种:亚阈值漏电功耗,反向偏置节漏电功 耗,栅级漏电功耗。亚阈值漏电流是当栅级电压低于阈值电压时,m o s 晶体管 源端和漏端产生的弱偏置导电电流。它与亚阈值电压和温度成指数关系,如下公 式所示: r , r 1 ,1 , 乙e x p ( 坦t ) 1 2 2 ) l 刀y 。 其中w 和f 是器件的有效长度和宽度,屹;是栅级电压,是阈值电压,v t = k t q 是热电压( f 和q 是常量,7 - 是温度) ,是与工艺相关的参数。 m o s 晶体管有从源漏到衬底的反向偏置p n 节。反向偏置节增大了节电间的 静态电流,该漏电流与节电的面积和掺杂浓度有关。 随着栅氧化层厚度下降,通过栅氧化层的遂川电流的概率也增大。这里有三 个栅漏电流部分,分别为源级和栅级的漏电流,亚阈值和栅级的漏电流,衬底 和栅级的漏电流。虽然栅级的漏电流变得越来越大,但是我们可以通过其他技 术如低k 值材料得到控制。图2 4 显示了漏电流的各种类型。 7 第二章研究背景 tk 阳 i l p o l y j 、p : = i , ,肭hn + _ _ _ , 1 、严 _ j p - s u b s t r a t e 1r 一一7 。l 嘶n 2 2f p g a 功耗估算方法 图2 4 各种漏电流 对f p g a 而言,功耗估算是一项重要的任务。f p g a 的开发人员依赖功耗评估 工具去预测电路的功耗消耗并在设计的过程中发现功耗的问题。因此,功耗评估 是功耗优化的基础。此外,越在设计的高层,越能大幅度的降低功耗的消耗。因 此,功耗估算常常跨越f p g a 设计的所有层次,从而更好的控制和降低f p g a 的 功耗消耗。这里存在精度和运行时间复杂度的折中。高层的互连功耗估算虽没有 底层的精确,但是相对其运行更快,而这有利于在高层次综合中探索低功耗的设 计。 随着工艺尺寸的下降,互连功耗的消耗占了深亚微米f p g a 的主要部分。他 们在大多数的f p g a 中占了6 0 一7 0 的部分【7 l 。因此,f p g a 的功耗估算必须考虑 互连部分的电容。互连功耗的估计可以在设计的不同层次完成。随着设计层次的 降低,其精确度越高。在布局布线以后,线网电容可以更精确的捕捉,并反标到 最初的线网中,从而更好的估计功耗。 在初期设计阶段,大多数的f p g a 商业公司都为他们的客户提供针对具体器 件的表单用于设计早期的功耗估算。为了更准确的估算f p g a 功耗,一些公司, 例如x i l i n x 和a l t e r a ,已经将他们的功耗估算工具集成到他们的c a d 软件工具中, 例如x p o w e r 和和p o w e r p l a y ,他们可以在布局布线以后更好的估算其功耗。因为 本文的目标是得到较为精确的功耗估计,因此本文采用门级的功耗估算。下面将 具体介绍学术界和工业界的各种门级的动态功耗和静态功耗估算的评估方法。 2 2 1 动态功耗估算 动念功耗估计主要与活动性估计和负载电容估计有关,并且逻辑门、缓冲器 和线网都会在电路中产生电容。因为f p g a 的芯片已经构造好且逻辑门的尺寸也 已知,逻辑门、缓冲器相关的电容比较容易获得。线网的电容估计相对需要更多 8 第二章研究背景 tk 阳 i l p o l y j 、p : = i , ,肭hn + _ _ _ , 1 、严 _ j p - s u b s t r a t e 1r 一一7 。l 嘶n 2 2f p g a 功耗估算方法 图2 4 各种漏电流 对f p g a 而言,功耗估算是一项重要的任务。f p g a 的开发人员依赖功耗评估 工具去预测电路的功耗消耗并在设计的过程中发现功耗的问题。因此,功耗评估 是功耗优化的基础。此外,越在设计的高层,越能大幅度的降低功耗的消耗。因 此,功耗估算常常跨越f p g a 设计的所有层次,从而更好的控制和降低f p g a 的 功耗消耗。这里存在精度和运行时间复杂度的折中。高层的互连功耗估算虽没有 底层的精确,但是相对其运行更快,而这有利于在高层次综合中探索低功耗的设 计。 随着工艺尺寸的下降,互连功耗的消耗占了深亚微米f p g a 的主要部分。他 们在大多数的f p g a 中占了6 0 一7 0 的部分【7 l 。因此,f p g a 的功耗估算必须考虑 互连部分的电容。互连功耗的估计可以在设计的不同层次完成。随着设计层次的 降低,其精确度越高。在布局布线以后,线网电容可以更精确的捕捉,并反标到 最初的线网中,从而更好的估计功耗。 在初期设计阶段,大多数的f p g a 商业公司都为他们的客户提供针对具体器 件的表单用于设计早期的功耗估算。为了更准确的估算f p g a 功耗,一些公司, 例如x i l i n x 和a l t e r a ,已经将他们的功耗估算工具集成到他们的c a d 软件工具中, 例如x p o w e r 和和p o w e r p l a y ,他们可以在布局布线以后更好的估算其功耗。因为 本文的目标是得到较为精确的功耗估计,因此本文采用门级的功耗估算。下面将 具体介绍学术界和工业界的各种门级的动态功耗和静态功耗估算的评估方法。 2 2 1 动态功耗估算 动念功耗估计主要与活动性估计和负载电容估计有关,并且逻辑门、缓冲器 和线网都会在电路中产生电容。因为f p g a 的芯片已经构造好且逻辑门的尺寸也 已知,逻辑门、缓冲器相关的电容比较容易获得。线网的电容估计相对需要更多 8 第二章研究背景 的信息。为了得到更精确的电容信息,门级的功耗估算首先执行布局布线算法, 通过布线的网表得到线网的长度和所连接的开关数。 动态功耗的估算,很重要的一个参数是节点的开关活动性。对于f p g a 的开 关活动性,目前主要有三种估计方法,分别是:1 ) 板级测量结果的拟合估算2 ) 仿真模型3 ) 概率模型。 第1 种方法通过嵌入f p g a 的板级测量系统测量功耗,并利用该结果拟合得 到系数。例如文献【6 】使用下列公式计算各逻辑单元的平均开关活动性。 = 以t o g t c ( 2 3 ) 其中p l n t 对逻辑单元的电容冲放电产生的内部功耗消耗。v c o 佗是核心电压, k d 是工艺无关的常量;,m 。是最大时钟频率;n l c 是逻辑单元使用的数目;t o g l c 是逻辑单元的平均开关活动性。 第2 种开关活动性估算技术是基于仿真的技术。一组预设的或随机产生的输 入激励输入到逻辑输入端,然后执行周期精确的门级仿真。结合了反标的布线后 的延时信息,该功耗模型是最精确的,因为它同时抓取了毛刺的信息。文献【8 】【9 】 提到了该模型。但该模型往往需要大量的时间运行。 第3 种方法是采用概率模型,例如文献【1 0 】采用的方法。其解决了仿真方法 中的模式依赖问题。在这些技术中,信号概率从输入端逐级递推到输出端。这些 估计方法都需要电路模型为每个逻辑门计算概率传播。最早的概率模型是几率信 号传输模型,在这个模型中,假设逻辑门和布线线网的延时都是0 。节点x 的开 关活动性定义为在x 节点的转换发生的概率。其公式如下: 只( x ) = 2 x 只( x ) 尸t ( i ) = 2x 只 ) 【1 一只( x ) 】 ( 2 4 ) 其中只( x ) 和只( i ) 分别为x = l 和x = 0 的概率。对于任意的一个逻辑函数 y = f ( x l ,朋) ,进行香农分解后的函数为y - - = x i 六,+ i 厶,因此输出静态几率计 算公式可表示为: 尸( y ) = 尸( x ,兀) + 尸( 墨 ) = p ( 而) 尸( ) + 尸( i ) 尸( ) ( 2 5 ) 通过上面两个公式,我们可以算出电路中任意一个节点的功耗。但是,该种 方法认为信号是空间以及时间独立的,不符合实际情况。文献【1 0 】提出了更精确 的基于门级电路的转变密度取代信号概率计算。所谓转变密度( t r a n s i t i o nd e n s i t y ) 是指信号在单位时间内跳变的次数。文献【1 0 】指出传输概率和传输密度的关系。 d ,。、 d ( x ) 型 一 瓦 ( 2 6 ) 9 第二章研究背景 该模型也是假设信号时间和空间的独立性。在文献 i i 】中,g h o s h 提出了二 元决策图( b i n a r yd e c i s i o nd i a g r a m ,b d d ) 计算信号传递,并且考虑了世界和空间的 相关性。任何逻辑门的常规布尔方程存储给定输入的稳定输出值。然而,b d d s 既存储最终值,也存储中间状态( 这些状态由电路的延时产生) 。因此,这样一 个模型能在考虑了时间和空间的耦合下预测任一节点的信号概率。然而,该算法 是随着输入数的增加曾指数增长的。所以,对大的电路而言,该种方法不适合。 在文献 1 2 】中,作者提出了结合b d d 和时间偶和性的活动性估算技术,文献 中称,使用该方法,并结合文献【1 4 】中的功耗模型,其计算得到的功耗相比仿真 的方法,相差了1 。 在估算完开关功耗后,我们需要计算短路功耗。一些相关的工作使用固定的 比例参数,例女i 1 4 1 使用1 0 作为整个动态功耗。另外一些研究使用了更加详细 的模型。例如,文献【9 】中线性拟合的方法,去提取短路功耗和开关功耗的比例。 该比例是一个与输入转换功耗相关的线性函数。文献【9 】称短路功耗对于长的转 换时间的f p g a 设计中,占了很大部分,在某些设计中,其可以达到7 0 左右。 2 2 2 静态功耗估算 对于f p g a 的静态功耗的估算,主要为为开关模型和宏模型。分析模型使用 各种参数计算静态功耗。例如,文献【1 4 】中使用了一个详细的公式( 2 2 ) 去计算亚 阈值漏电功耗。文中称,其计算的值和实际仿真的值相差1 3 4 。但是,随着工 艺尺寸的下降,静态功耗中出亚阈值漏电功耗外,反向偏置漏电功耗也逐渐变大。 因此,静态功耗的开关模型需要考虑更多的漏电功耗。 宏模型主要依赖于s p i c e 仿真获得实验的结果,并建立相应的查找表。例如, 在文献【9 】中,使用随机产生的激励和s p i c e 仿真获得l u t 的平均功耗。由于所有 的l u t 的可能的输入向量呈输入数指数增长,不可能尝试对较大输入的l u t 建立 查找表。因此,不同的输入向量被归入少数的典型的向量中。在文献【9 】中,通 过汉明( h a m m i n g ) 距离和s p i c e 仿真建立宏模型。使用这个模型,文中为从3 输 入到7 输入的l u t 和在全局局部互连中各种不同的缓冲器建立了静态功耗宏模 型。 1 0 第二章研究背景 2 3f p g a 低功耗设计 2 3 1f p g a 动态功耗降低 为了降低f p g a 的动态功耗,目前主要分为以下三种。1 ) 多电压供电。2 ) 减 少毛刺发生。3 ) 修改c a d 算法。下面分别简要介绍一下这三种方法。 1 ) 多电压供电。文献【1 4 】中提出采用两种电压v d d h 和v d d l 来分别驱动f p g a 的 不同单元,对于关键路径上的单元,采用高电压v d d h 驱动。对于非关键路径上的 单元,采用低电压v d d l 驱动。从而使得在满足时序约束的同时,降低了电路的功 耗。 2 ) 减少毛刺发生。毛刺产生的功耗占了动态功耗的很大一部分,平均占 3 0 1 4 】。文献 i s ,1 6 ,1 7 分别通过引入延时模块,多相触发器,和负边沿触发器, 降低了毛刺的功耗。 3 ) 修改c a d 算法。可以通过修改工艺映射、逻辑打包和布局布线降低动态功 耗。文献【1 8 】通过修改布局布线的成本函数,引入活动性因子,从而降低了动态 功耗。 2 3 2f p g a 静态功耗降低 对于f p g a 的静态功耗,目前可分为下述几种方法降低其漏电流。分别是1 ) 工艺的改进2 ) 电路级改进3 ) 输入向量控制 1 ) 工艺改进。 例如文献【1 9 】提到采用低k 绝缘材料,绝缘材料实现了金属层之间的隔离, 支持多布线层。采用低k 绝缘后,降低了布线层之间的电容,显著提高了性能, 降低了功耗。 2 ) 电路级改进。 例如采用多阈值晶体管,晶体管电压阈值影响晶体管的性能和泄漏功率。通 过对性能要求高的高速晶体管采用低阈值电压,对性能要求不高的慢速低泄漏晶 体管采用高阈值电压。例如文献【2 0 】研究表明,可变门长度晶体管晶体管的逻辑 门长度影响其速率和亚阈值泄漏。当晶体管的长度接近4 5 n m 工艺的最小门长度 时,亚阈值漏电流会显著增加。在性能要求不高的电路中,可使用长度较长的逻 辑门以降低漏电流。对于性能非常关键的电路,使用长度较短的逻辑门来提高性 能。 3 ) 输入向量控制 第二章研究背景 2 3f p g a 低功耗设计 2 3 1f p g a 动态功耗降低 为了降低f p g a 的动态功耗,目前主要分为以下三种。1 ) 多电压供电。2 ) 减 少毛刺发生。3 ) 修改c a d 算法。下面分别简要介绍一下这三种方法。 1 ) 多电压供电。文献【1 4 】中提出采用两种电压v d d h 和v d d l 来分别驱动f p g a 的 不同单元,对于关键路径上的单元,采用高电压v d d h 驱动。对于非关键路径上的 单元,采用低电压v d d l 驱动。从而使得在满足时序约束的同时,降低了电路的功 耗。 2 ) 减少毛刺发生。毛刺产生的功耗占了动态功耗的很大一部分,平均占 3 0 1 4 】。文献 i s ,1 6 ,1 7 分别通过引入延时模块,多相触发器,和负边沿触发器, 降低了毛刺的功耗。 3 ) 修改c a d 算法。可以通过修改工艺映射、逻辑打包和布局布线降低动态功 耗。文献【1 8 】通过修改布局布线的成本函数,引入活动性因子,从而降低了动态 功耗。 2 3 2f p g a 静态功耗降低 对于f p g a 的静态功耗,目前可分为下述几种方法降低其漏电流。分别是1 ) 工艺的改进2 ) 电路级改进3 ) 输入向量控制 1 ) 工艺改进。 例如文献【1 9 】提到采用低k 绝缘材料,绝缘材料实现了金属层之间的隔离, 支持多布线层。采用低k 绝缘后,降低了布线层之间的电容,显著提高了性能, 降低了功耗。 2 ) 电路级改进。 例如采用多阈值晶体管,晶体管电压阈值影响晶体管的性能和泄漏功率。通 过对性能要求高的高速晶体管采用低阈值电压,对性能要求不高的慢速低泄漏晶 体管采用高阈值电压。例如文献【2 0 】研究表明,可变门长度晶体管晶体管的逻辑 门长度影响其速率和亚阈值泄漏。当晶体管的长度接近4 5 n m 工艺的最小门长度 时,亚阈值漏电流会显著增加。在性能要求不高的电路中,可使用长度较长的逻 辑门以降低漏电流。对于性能非常关键的电路,使用长度较短的逻辑门来提高性 能。 3 ) 输入向量控制 第二章研究背景 f p g a 芯片中多数电路处在比较长时间的睡眠( s l e e p ) 状态,如果这时把它 们的输入置成特定的向量就可以降低功耗,这是由c m o s 电路的堆栈效应【1 2 】决 定的。图2 s 是a r t i s a n 公司提供的0 1 3 微米工艺下四输入与非门n a n d 4 b b x l 在不同向量下的漏电功耗 1 9 】。对这个器件而言,在输入为0 0 1 1 时的漏电功耗 是输入为1 1 0 0 时漏电功耗的近1 0 倍。这就说明应当尽可能让此门器件处于 1 1 0 0 状态,以降低它的功耗。这种方法称为输入向量控制( 简称i v c ) 技术。 图2 5s m i c 0 1 3 微米工艺库中4 输入n a n d ( n a n d 4 b b x l ) 漏电功耗图 第三章f d p 3 功耗模型 第三章f d p3 功耗模型 3 1f d p 3 结构介绍 f d p 3 芯片是复旦大学自主研发的一款f p g a 芯片,其总体架构如图3 1 所示, 包含以下部分: a ) 一个3 2 x 4 8 的逻辑模块( t i l e ) 的阵列,一个t i l e 包括c l b 及其对应的可编程 互连资源。 b ) 3 8 4 个可编程l o b ,分布在芯片的四周,其中有1 5 8 个用户可用i o 被封装到 引脚。 c ) 4 个锁相环( p h a s e 1 0 c k e dl o o p ,p l l ) ,分别位于芯片的四角。 d ) 1 6 个4 kb i t 的块随机存储器( r a n d o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建省厦门轮船有限公司厦门轮总海上客运旅游有限公司面向应届毕业生招聘1人笔试历年参考题库附带答案详解
- 2025福建漳州卫职院产业发展有限公司招聘副总经理笔试历年参考题库附带答案详解
- 2025湖北十堰武当山文旅集团招聘降低开考比例及招聘岗位笔试历年参考题库附带答案详解
- 2025浙江温州市瓯海泽雅休闲旅游开发建设投资有限公司招聘基础服务人员4人笔试历年参考题库附带答案详解
- 2025江苏淮安市洪泽区润湖热力发展有限公司招聘适岗评价表笔试历年参考题库附带答案详解
- 2025年内蒙古包头市住房发展建设集团有限公司招聘11人笔试历年参考题库附带答案详解
- 2025河南商丘市夏邑县育才学校教师招聘考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025年湖南省低空经济发展集团有限公司第二次公开招聘12人模拟试卷及答案详解一套
- 2025贵州瓮安县“雁归兴瓮”人才引进考前自测高频考点模拟试题附答案详解(完整版)
- 2025辽宁铁岭市调兵山市第二批公岗招聘15人模拟试卷及答案详解(夺冠)
- 市政质量员继续教育考试题库集(含答案)
- DB37T 1914-2024 液氨存储与装卸作业安全技术规范
- 糖尿病肾病治疗指南
- 省级临床重点专科建设项目神经内科重点专科建设实施方案
- 人教版六年级上册道德与法治教案(5篇)
- 生涯拍卖会课件高一上学期主题班会
- 中医形神兼养
- GB/T 44241-2024虚拟电厂管理规范
- SYT 6680-2021 石油天然气钻采设备 钻机和修井机出厂验收规范-PDF解密
- 实用美术基础中职全套教学课件
- 子宫内膜癌的预防和早期发现
评论
0/150
提交评论