(控制理论与控制工程专业论文)高性能数字运算单元设计研究.pdf_第1页
(控制理论与控制工程专业论文)高性能数字运算单元设计研究.pdf_第2页
(控制理论与控制工程专业论文)高性能数字运算单元设计研究.pdf_第3页
(控制理论与控制工程专业论文)高性能数字运算单元设计研究.pdf_第4页
(控制理论与控制工程专业论文)高性能数字运算单元设计研究.pdf_第5页
已阅读5页,还剩106页未读 继续免费阅读

(控制理论与控制工程专业论文)高性能数字运算单元设计研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 许多数字密集型的应用需要执行决 速的算术运算操作,这些运算需要快速的 加, 乘, 除 操作和 基本函 数 运算的 能力。 本文系 统 研究了 支持这 些运 算的高 性能 数字/ 算术运算设计问题。 从系统结构、 算法设计和电路设计三个设计层次 卜 探 索研究了提高数字运算单元性能的优化方法。从研讨内容上较全面的涵盖了当前 数字/ 算术运算的卞要方面。 本文研究讨论了各种不同加法器的结构和原理之后,并分别在电路晶体管级 和门电路级分别完成设 计了两种结构原理不同的高性能加法运算电路。 本文研究讨论了 各种不同阵列乘法器的结构和原理,并完成了 在门电路级设 计了3 2 位基4 13 o o t h 编码并采用4 2 压缩的w a ll a c e 高性能阵列乘法器电路。 本文研究讨论了当前除法运算的一系列高性能硬件算法,重点讨论研究了 构 造任意基的s r t算法商选择逻辑的 解析关系,以 及利用o n - t h e - f l y 和 o v e r l a p 技术提高s r t硬件性能,最和完成了重叠执行的基4 s r t除法器门电路级设 计和 仿真。 研究讨论了 倒数 r o m表的构造方法。并且给出了 利用 m a t h e m a t i c a 4 . 0 数学分析软件进行符号运算对硬件执行 g o l d s c h i m i l t算法的四次迭代进行模拟 仿真的程序,得出误差分析结果。针对提高系统的多媒体性能,对多媒体应用经 常出现的压缩,解压缩过程,信号变换处理过程,以及三维坐标变换过程中所进 行的基本函数运算,讨论了加速这些基本函数运算当前的高性能硬件算法。最后 分析了i n t e l i a - 3 2 和i a - 6 4 构架处理器中硬件计算基本函数的一个实例。 针对浮点计算, 本文给出了一种两级流水线结构的双通道i e e e - 7 5 4 浮点标准 的加法运算电路结构框图。其主要特点是针对低功耗运算问题,从电路结构设计 上在保证无性能损失的前提下, 利用通道选择信号p a t h x给出了两种低功耗结构。 在结果舍入时利用算法技巧,在实现并行舍入的同时,节省了一个c p a单元。在 发尘结果规格化时,利用前导零预测技术提高了规格化处理的并行性。最后,设 计了一 种两级流水线结构i e e e - 7 5 4 浮点标准的乘法运算电 路结构框图。 在并行舍 入的同时,节省了一个c p a单元,最后结果采用了短长度的c p a单元。 关键词:数 字 / 算 术 运 算 , c m o s 超 大 规 模 集 成电 路, 算 术 逻 辑 单 元, 浮点 单 元 a b s t r a c t m a n y n u m e r i c a l l y i n t e n s i v e a p p l i c a t i o n s r e q u i r e r a p i d e x e c u t i o n o f a r i t h m e t i c o p e r a t i o n s . t h e c o m p u t a t i o n a l d e m a n d g o e s b e y o n d f a s t a d d i t i o n a n d m u l t i p l i c a t i o n , s u p p o r t f o r h i g h - p e r f o r m a n c e d i v i s i o n a n d t h e e l e m e n t a r y f u n c t i o n s i s b e c o m i n g i n c r e a s i n g l y n e c e s s a r y . t h i s t h e s i s s t u d y t h e h i g h - p e r f o r m a n c e d i g i t a l a r i t h m e t i c h a r d w a r e d e s i g n i s s u e s t o s u p p o r t t h e s e a r i t h m e t i 、 o p e r a t i o n s , a n d i e e e - 7 5 4 f l o a t i n g p o i n t n u m b e r s h a s b e e n s t u d i e d f o r t h e s e a r i t h m e t i c o p e r a t i o n s . t h e a u t h o r p r o v i d e s a b a l a n c e d , c o m p r e h e n s i v e t r e a t m e n t a n d t r a d e o f f o f d e s i g n c o m p u t e r a r i t h m e t i c u n i t , c o v e r i n g a l m o s t a l l t o p i c s i n a r i t h m e t i c u n i t d e s i g n a n d c i r c u i t i m p l e m e n t a t i o n t h a t c o m p l e m e n t t h e a n d c i r c u i t s p e e d u p a r c h i t e c t u r a l , a l g a s p e e d u p t e c h n i q u e s r i t h mi c m a i n l y f o c u s o n c m o s v l s 工 t e c h n i q u e s . t h e c i r c u i t t e c h n o l o g y a f t e r s t u d y a s e r i e s a d d e r s a l g o r i t h m s a n d a r c h i t e c t u r e s , t h e d e s i g n t w o h i g h - p e r f o r m a n c e a d d e r i n t r a n s i s t o r a n d l o g i c g a t e a ut h o r l e v el . a f t e r s t u d y a s e r i e s a r r a y m u l t i p l i e r s a l g o r i t h m s a n d a r c h i t e c t u r e s t h e a u t h o r d e s i g n a h i g h - p e r f o r m a n c e m u l t i p l i e r i n l o g i c g a t e l e v e l , w h i c h u s i n g b o o t h a n d w a l l a c e s k i l l . i n d i v i s i o n o p e r a t i o n , t h e a u t h o r s t u d y a s e r i e s h i g h - p e r f o r m a n c e d i v i s i o n a l g o r i t h m s a d o p t e d b y n o w a d a y s t h e s t a t e o f a r t s m i c r o p r o c e s s o r d i s c u s s h o w t o c o n s t r u c t t h e s r t a l g o r i t h m q u o t i e n t s e l e c t l o g i c f o r a n y r a d i x a n d u s i n g t h e o n - t h e - f l y p l u s o v e r l a p s k i l l s t o i m p r o v e s r t p e r f o r m a n c e . t h e r e c i p r o c a l r o m s t r u c t u r e i s a l s o m e n t i o n e d b y t h i s t h e s i s . t h e a u t h o r u s e t h e m a t h e m a t i c a 4 . 0 s o f t w a r e s i m u l a t i n g t h e h a r d w a r e e x e c u t i o n o r f o u r s t e p g o l d s c h i m i l t a l g o r i t h m a n d f i n d t h e e r r o r a n a l y s i s r e s u l t . f o r f r e q u e n t a p p e a r a n c e e l e m e n t a r y f u n c t i o n o p e r a t i o n i n c u r r e n t m u l t i m e d i a a p p l i c a t i o n s , t h e h a r d w a r e s p e e d u p t e c h n i q u e s o f c o m p u t i n g e l e m e n t a r y f u n c t i o n h a v e b e e n i n c l u d e d a n d a l s o a n a l y z e t h e e l e m e n t a r y f u n c t i o n e v a l u a t i o n t e c h n i q u e u s i n g i n i n t e l i a - 3 2 a n d i a - 6 4 o i l c r o 丁 ) r o c e s s o r . i n d e s i g n o f h i g h - p e r f o r m a n c e f p a d d e r , t h e a u t h o r c o m p l e t e s a t w o s t a g e p i p e l i 门 i n g d u a l p a t h i e e e - 7 5 4 f p a d d e r a r c h i t e c t u r e . t h i s a d d e r n o t o n l y h a v e h i g h - p e r f o r m a n c e i n s p e e d b u t a l s o e x c e l l e n t i n l o w e r p o w e r b v u s i n g c h a n n e l s e l e c t s i g n a l p a t h x . w i t h t h e a l g o r i t h m i c s k i l l , w e s a v e f r 士 泊 1 1 b i t s l e n g t h c p a o n i e e e - 7 5 4 r e s u l t r o u n d i n g . t h i s f p a d d e r a l s o s u p p o r t t h e p a r a l l e l r o u n d i n g . i n d e s i g n o f h i g h - p e r f o r m a n c e f p m u l t i p l i e r , t h e a u t h o r c o m p l e t e s a t w o s t a g e p i p e l i n i n g i e e e - 7 5 4 f p m u l t i p l i e r a r c h i t e c t u r e . t h i s f p m u l t i p l i e r s u p p o r t t h e p a r a l l e l r o u n d i n g , s a v i n g a f u l l b i t s l e n g t h c p a o n i e e e - 7 5 4 r e s u l t r o u n d i n g a n d t h e r e s u l t i s c a l c u l a t e d b y s o m e w h a t s h o r t e r c p a . k e y w o r d s: c o m p u t e r a r i t h m e t i c, c m o s v l s i,a l u,f p u f 了 r 第一章绪论 1 . 1 高性能计算的 重要性和应用 对数字的操作和计算直伴随着人类社会的进化和演变,对其产生了 深刻而 重要的影响。数字技术已经渗透到人类社会的各个方面,在几乎所有的各个小同 领域之中积极寻找数字化解决方案。从超级计算机到掌上电脑,从精密仪器设备 到消费电子, 从工业过程控制到远程数字通讯,以及绝大部分新研制的医用设备、 军用设备等,无小尽可能的采用了数字技术,虽然它们的应用领域不同但是它们 都必须具备一个最基本的功能单元能够执行对数字的操作和计算。 人类对高 性能的 计算要 求是无止境的 1 ,高 性能计算和其他学科结合而成的 计算科学如:计算物理学,计算化学,计算流体力学,计算分子生物学等己逐渐 形成。当今的科学发展,高性能计算所起的作用是不可替代的,高性能计算及其 应用水平以 成为显示一个国家综合实力的一种标志。以 美国为代表的发达国家己 经制定了发展高性能计算技术的战略计划,并通过了高性能计算法案( h i g h p e r f o r m a n c e c o m p u t i n g a c t ) , 1 9 9 6 年美 国 研制 成功了 世界 上 第一台 平 均 运算 速度 超过每秒一万亿次浮点 操作( 1 t e r a f l o p s ) 的 超级计算机, 并 在未 来1 0 年中陆续完 成每秒运算 3 万亿次,3 0 万亿次,1 0 0 万亿次,1 0 0 0 万亿次的高性能计算机以及 高性能计算在很多领域的应用。 1 .2 数字运算电路的重要性 由 于 受当 前的 物理卖 现技 术限 制, 单处 理 机尚 不能 满足 极高 性能 计算的 要求。 目 前 极高 性能计算是山 大规模并行处理机( m a s s i v e l y p a r a l l e l p r o c e s s o r s ) 系统 m p p s 来 提供 i , 它 们是多 个处 理部 件的 集合, 所有的 处 理 部 件通过 相互 通讯, 协 同 解决复 杂的 计 算问 题。 根 据m p p s 中 各 处 理 机之间 的 通 讯 机制可 将m p p s 体系 结构划分为两犬类:共享存储器 ( s h a r e d m e m o r y )机制和消息传递( m e s s a g e p a s s i n g ) 机制。 采用共享存储 器机制的m p p s 多 个处 理部 件之间 通讯速度较快, 但 是随着处理器速度的提高和处理器数量的增加,对共享存储器的访问将变成系统 性 能 的 瓶 颈 并 且 需 要专 门 的 硬 件结 构 执 行c a t c h 目 录 协 议 ( c a t c h d ir e c t o r y p r o to c a l) 来 解决 多 处 理器c a c h e 一 致 性 ( c a c h e c o h e r e n c e ) 问 题 ( 对于 总 线结 构的 小 规 模多 处 理机系 统多 采用广播操作的监听c a t c h 协议( s n o o p y c a c h e p r o t o c a l ) ) 。 采用消息 第一章绪论 1 . 1 高性能计算的 重要性和应用 对数字的操作和计算直伴随着人类社会的进化和演变,对其产生了 深刻而 重要的影响。数字技术已经渗透到人类社会的各个方面,在几乎所有的各个小同 领域之中积极寻找数字化解决方案。从超级计算机到掌上电脑,从精密仪器设备 到消费电子, 从工业过程控制到远程数字通讯,以及绝大部分新研制的医用设备、 军用设备等,无小尽可能的采用了数字技术,虽然它们的应用领域不同但是它们 都必须具备一个最基本的功能单元能够执行对数字的操作和计算。 人类对高 性能的 计算要 求是无止境的 1 ,高 性能计算和其他学科结合而成的 计算科学如:计算物理学,计算化学,计算流体力学,计算分子生物学等己逐渐 形成。当今的科学发展,高性能计算所起的作用是不可替代的,高性能计算及其 应用水平以 成为显示一个国家综合实力的一种标志。以 美国为代表的发达国家己 经制定了发展高性能计算技术的战略计划,并通过了高性能计算法案( h i g h p e r f o r m a n c e c o m p u t i n g a c t ) , 1 9 9 6 年美 国 研制 成功了 世界 上 第一台 平 均 运算 速度 超过每秒一万亿次浮点 操作( 1 t e r a f l o p s ) 的 超级计算机, 并 在未 来1 0 年中陆续完 成每秒运算 3 万亿次,3 0 万亿次,1 0 0 万亿次,1 0 0 0 万亿次的高性能计算机以及 高性能计算在很多领域的应用。 1 .2 数字运算电路的重要性 由 于 受当 前的 物理卖 现技 术限 制, 单处 理 机尚 不能 满足 极高 性能 计算的 要求。 目 前 极高 性能计算是山 大规模并行处理机( m a s s i v e l y p a r a l l e l p r o c e s s o r s ) 系统 m p p s 来 提供 i , 它 们是多 个处 理部 件的 集合, 所有的 处 理 部 件通过 相互 通讯, 协 同 解决复 杂的 计 算问 题。 根 据m p p s 中 各 处 理 机之间 的 通 讯 机制可 将m p p s 体系 结构划分为两犬类:共享存储器 ( s h a r e d m e m o r y )机制和消息传递( m e s s a g e p a s s i n g ) 机制。 采用共享存储 器机制的m p p s 多 个处 理部 件之间 通讯速度较快, 但 是随着处理器速度的提高和处理器数量的增加,对共享存储器的访问将变成系统 性 能 的 瓶 颈 并 且 需 要专 门 的 硬 件结 构 执 行c a t c h 目 录 协 议 ( c a t c h d ir e c t o r y p r o to c a l) 来 解决 多 处 理器c a c h e 一 致 性 ( c a c h e c o h e r e n c e ) 问 题 ( 对于 总 线结 构的 小 规 模多 处 理机系 统多 采用广播操作的监听c a t c h 协议( s n o o p y c a c h e p r o t o c a l ) ) 。 采用消息 传递机制的mp p s 多个处理部件之间通讯通过显 式的消息传递/ 消息中断 ( 类似于 1 0中断机制)来进行,各 个处理机的 存储器和c a c h e 之间不存在相关祸合性。消 息传递机制的m p p s 系 统可 扩展性和异构性 ( h e t e r o g e n e o u s ) 较好, 容易 在当前 系统中加入额外的处理器集合甚至加入与当前处理器类型不同的其它高性能处理 器集合。近年来发展很快的网格计算便属于采用消息传递机制的多计算机系统 ( m u l t i c o m p u t e r s y s t e m ) 。消息传递机制的m p p s 系统的 主要 缺点是消息传递是 通过轮询或者中断机制显式执行故时间开销较共享存储器机制大的多。目前已经 出现了将共享存储器和消息传递两种机制结合在一起的混合体系mp p s , 整体跨局 部区域节点之间通讯采用消息传递机制,各局部区域节点内通讯采用共享存储器 机制。 如果设计一个目 标为每秒运算 1 0 0 0万亿次的 m p p s , 采用目 前每秒运算 1 0 亿次的微处理器作为处理单元, 则需要1 0 0 万个这样的处理器, 这给实现该mp p s 的多级互连开关网络结构带来巨大挑战,存在不可接受的长延时通讯时间,事实 仁 难以实现,因此必须提高微处理器本身的运算速度。事实上当前在世界l 运算 速度排名前 5 0 0 名中的mp p s 超级计算机都是用当前最先进的微处理器构成其处 理节点。实现高性能的微处理器需要从体系结构设计和物理实现设计两个方面同 时入手,两者相互配合, 缺一不可。自1 9 7 1 年i n t e l 发明第一块微处理器4 0 0 4 到 今 天的 奔 腾4 处 理器, 处理 器 体系 结 构的 复 杂 程度发生了巨 大的 变革 2 1 。 现代 通 用处理器体系结构的主要 特点有以 下几个方面 3 4 : i .为提高指令级并行 ( i l p ) 程度,采用多发射的 超标量流水线结构, 在每个时 钟内 处理器对多条指令预取,译码,并派遣/ 调度到多条执行流水线加以 执行。利 用t a m a s u l o ( 由r o b e r t t o m a s u l o 提出 最早实 现在i b m 3 7 0 机器 5 1 1 6 1 ) 预 约 站结构 的动态流水线调度算法通过对 一指令访问的逻辑寄存器和执行单元的预约站寄存器 进行动态映射重命名消除指令流之间的w a r , w a w 假数据相关, 减少了真数据相 关r a w和资源相关的损失。 2为减少分支类型指令所带来的转移/ 控制相关损失, 采用分支目 标缓冲区( b r a n c h t a r g e t b u ff e r ) 在指令预取阶段对分支指令是否 进行分支和分支目 标地址进行预 测,利用重排序缓冲区 ( r e o r d e r b u ff e r )对预测指令进行推测执行并维护精确中 断使得分支预测成功时实现零转移损失。重排序缓冲区负责指令在处理器中是按 照有序发射/ 派遣,乱序执行,有序提交的顺序完成。 3 山于内部逻辑功能结构和物理结构的原因,微处理器速度的提高自1 9 5 6年至 今保持在每年大约55 a5 5 %而片外半导体存储器为提供大容量的数据存储在存取速度 卜 不得不进行折中, 速度提高大约在每年7 %左右。 这样就明显产生了处理器和存 储器之间的性能差距,为缩小这个差距提高计算机系统整体性能,在处理器内部 体系设计 卜 必须采用多层次的访存体系。形成了山 指令 c a c h e ,数据 c a c h e构成 的级 c a c h e 到二级 c a c h e 再到片外半导体存储器最后到低速磁介质存储器的 4 层访存体系。另外为了使程序的大小突破实际半导体存储器容量大小约束,充分 利用处理器的寻址能力需要提供一种程序逻辑/ 虚拟地址到半导体存储器物理地址 映射变换机制。这种映射变换内容由 操作系统提供的进程页表指出,为加速处理 器的地址变换能力需要硬件并行页表映射单元: 指令t l b和数据t l b 。 最后在访 存体系中为实现存储保护机制,处理器可工作在系统和用户两种状态并在地址映 射变换变换过程中由硬件进行访问权限检查。 4 . 为了给微处理器提供强大的高性能数字运算功能, 微处理器内部的数字/ 逻辑运 算执行单元越来越复杂, 在逻辑设计上不断探索执行运算操作的内部微观并 行度, 缩短运算关键路径的串行环节和逻辑深度,使相继运算尽可能重叠流水执行,尽 量减少运算内在的反馈迭代环节。对进行运算的数字进行重新编码以期获得更少 的执行步骤和执行代价,对执行步骤的多个可能中间结果大量采用预测选择机制 加快最终运算结果的得出。为提高硬件计算的精度,更好的进行科学计算,直接 支持 i e e e - 7 5 4单/ 双甚至扩展精度浮点数标准的硬件浮点运算执行单元已 成为必 须。为加速视频音频多媒体信息压缩/ 解压缩,数字信号处理,三维图象处理,网 络传输等应用, 采用了 硬件加速处理单元和s i m d的向量处理单元。 更为值得注意的是, 高性能的数字运算处理单元, 减少了指令执行的绝对时间 和潜在的流水线深度并且减少了流水线因为相关而带来的暂停和刷新的概率和损 失,这不仅有利于缩短微处理器的时钟周期并且提高了处理器对整个指令流的执 行效率 的角色 ,因此数字运算处理单 元性能对于整个处理器总体计算性能起着至关重要 具有超级计算能力的 mp p s离不开先进的微处理器 运算能力源于其内部高性能的数字运算处理单元。因此 这些微处理器强有力的 可以这样认为数字运算 处理单元是高性能计算的基石和原动力。另外数字运算处理单元不仅仅存在十通 用微处理器中, 它广泛的存在于现代数字系统超大规模集成电路芯片之中并充当 功能的承担者例如:高速数字信号处理芯片,mp e g视频音频处理芯片,三维图 象处理芯片,网络数据处理加密芯片,微控制芯片和其它一些a s i c a 算术运算单元是微处理器和d s p 芯片的核心部分所在。我国在这一领域的研 制水平还比较落后,规模和档次与国外相比差距较大,不仅阻碍了国家信息产业 的发展,延缓了经济发展的势头,尤其影响到国防现代化建设的进程,影响到迅 速加强国家强盛、 抵御外侮的实力。因此,加强在这一领域的研究开发迫在眉睫, 势在必行。 另外,当前在控制领域和智能设备 之中大量需要具有运算能力的芯片,例如 在设计高精度、高实时性的机器人。 但是,国内 在设计这些系统时使用的基本是 国外的芯片,这不仅影响对核心技术的掌握,也使设计的定制自由度和成木受到 影a l句 。 综上所述研究数字运算电路不但具有重要的战略意义同时具有广泛的实际应 用价值。 1 . 3 e d a 工具和各章节介绍 使用的e d a 几 具主要为:p s p i c e 和s y n p l i c i t y . 第二章:主要研究加法运算电路的设计,讨论了各种不同加法器的结构和原 理,分别从晶体管物理级和门电路级设计完成了两种算法体系结构的高性能加法 运算电路,并对设计结果分别进行物理管级s p i c e和门电路网表的仿真试验。通 过对设计电 路进行物理和逻辑结构优化达到了高性能加法运算。 第三章:主要研究了乘法运算电路的设计,讨论了各种不同阵列乘法器的结 构和原理,并在门电路级设计了3 2 位基4 b o o t h 编码并采用4 2 压缩的wa l la c e 高 性能阵列乘法器电路,并对设计的门电路网表结果进行仿真验证。 第四章:主要研究讨论了当前除法运算的一系列高性能硬件算法,重点讨论 研究了 构 造任意基的s r t算法商选择逻辑的 解析关系,以 及利用o n - t h e - f l y 和 o v e r l a p 技术提高s r t 硬件性能,完成了 重叠执行的基4 s r t除法器设计并对设 计的门电路网表进行仿真验证。研究讨论了倒数 r o m 表的构造方法。给出了利 用m a t h e m a t i c a 4 . 0 数学分析软件进行符号运算对硬件执行g o l d s c h i m i l t 算法的 处理单元是高性能计算的基石和原动力。另外数字运算处理单元不仅仅存在十通 用微处理器中, 它广泛的存在于现代数字系统超大规模集成电路芯片之中并充当 功能的承担者例如:高速数字信号处理芯片,mp e g视频音频处理芯片,三维图 象处理芯片,网络数据处理加密芯片,微控制芯片和其它一些a s i c a 算术运算单元是微处理器和d s p 芯片的核心部分所在。我国在这一领域的研 制水平还比较落后,规模和档次与国外相比差距较大,不仅阻碍了国家信息产业 的发展,延缓了经济发展的势头,尤其影响到国防现代化建设的进程,影响到迅 速加强国家强盛、 抵御外侮的实力。因此,加强在这一领域的研究开发迫在眉睫, 势在必行。 另外,当前在控制领域和智能设备 之中大量需要具有运算能力的芯片,例如 在设计高精度、高实时性的机器人。 但是,国内 在设计这些系统时使用的基本是 国外的芯片,这不仅影响对核心技术的掌握,也使设计的定制自由度和成木受到 影a l句 。 综上所述研究数字运算电路不但具有重要的战略意义同时具有广泛的实际应 用价值。 1 . 3 e d a 工具和各章节介绍 使用的e d a 几 具主要为:p s p i c e 和s y n p l i c i t y . 第二章:主要研究加法运算电路的设计,讨论了各种不同加法器的结构和原 理,分别从晶体管物理级和门电路级设计完成了两种算法体系结构的高性能加法 运算电路,并对设计结果分别进行物理管级s p i c e和门电路网表的仿真试验。通 过对设计电 路进行物理和逻辑结构优化达到了高性能加法运算。 第三章:主要研究了乘法运算电路的设计,讨论了各种不同阵列乘法器的结 构和原理,并在门电路级设计了3 2 位基4 b o o t h 编码并采用4 2 压缩的wa l la c e 高 性能阵列乘法器电路,并对设计的门电路网表结果进行仿真验证。 第四章:主要研究讨论了当前除法运算的一系列高性能硬件算法,重点讨论 研究了 构 造任意基的s r t算法商选择逻辑的 解析关系,以 及利用o n - t h e - f l y 和 o v e r l a p 技术提高s r t 硬件性能,完成了 重叠执行的基4 s r t除法器设计并对设 计的门电路网表进行仿真验证。研究讨论了倒数 r o m 表的构造方法。给出了利 用m a t h e m a t i c a 4 . 0 数学分析软件进行符号运算对硬件执行g o l d s c h i m i l t 算法的 四次迭代进行模拟仿真的程序, 得出误差分析结果。 针对提高系统的多媒体性能, 对多媒体应用经常出现的jl缩,解压缩过程,信号变换处理过程,以及只维坐标 变换过程中所进行的基木函数运算,讨论了加速这些基本函数运算当前的高性能 硬件算法。最后分析了 i n t e l i a - 3 2 和 i a - 6 4 构架处理器中硬件计算基本函数的 个实例。 第五章:针对科学计算,在参考国外先进电路组织结构的同时给出了一种两 级流水线结构的双通道i e e e - 7 5 4 浮点标准的加法运算电路结构框图。 其主要特点 是进一步对操作数类i ) 进行分流,针对低功耗运算问 题,从电路结构设计上在保 证无性能损失的前 提下,利用通道选择信号p a t h x给出了 两种低功耗结构。在结 果舍入时利用算法技巧,在实现并行舍入的同时,节省了一个c p a单元。在发生 结果规格化时,利用前导零预测技术提高了规格化处理的并行性。最后,给出了 一种两级流水线结构i e e e - 7 5 4 浮点标准的乘法运算电路结构框图。 在并行舍入的 同时,节省了 个c p a单元,最后结果采用了短长度的c p a单元。 第六章:工作总结和进一步研究。 第二章 加法运算单元 在所有算术运算中, 加法运算的使用频率最高。 根据尽量加快最常发生事件 / 操作的原则,提高加法运算会大大提高整个系统的性能。 2 . 1加法运算电 路 整数加法运算电路的信号传递关键路径在于进位信号的产生传递路径,高性 能的整数加法运算电路设计都尽可能缩短进位信号的产生传递路径。下面将给出 整数加法运算电路的结构图。 a n , b n- - - - - -一阵 。 , b o a 尸 g 信 号 产 生 电 路 进位产生逻辑电蹄 i- 本位和产生电 路 一 嘴 图2 一i整数加 法运算电 路结构 图2 -1 描述了所有整数加法运算电路的基本结构,整个运算电 路信号产生, 运算,传递的关键路径发生在进位产生逻辑电路模块。对于二进制非冗余码加法 电路, 其进位产生逻辑电路的延时随着输入操作数的位数增加而增加, 而p g信号 产生电路和本位和产生电路的延时与输入操作数的位数无关,因此高性能整数加 法运算电路都致力于缩短进位产生逻辑电路模块的延时。 加法器分为串行进位 ( c r a : c a r r y - r i p p l e a d d e r s )加法器、进位选择加法 器 ( c s l a : c a r r y - s e l e c t a d d e r s ) 、 进位滑动加法器 ( c s k a : c a r r y - s k i p a d d e r s ) 、 先行进位力 i 法器 ( c l a : c u r r y - l o o k a h e a d a d d e r s ) 等 7 7 8 7 s ) 工 1 0 1 。 串行进位 ( c r a : c a r r y - r i p p l e a d d e r s ) 加法器 串行进位加法器是将 。 个全加器串 接起来构成。 进位信号依次串行从最低位 传播到最高位,本位全加器单元的c o u t 与下一级的c i n 连接。其逻辑表达式为: s u m ,. = a , . b , . c , , 民 + ,一a 互+ c , ( a , + b , ) = g , + c , p , p i = a , + - 1 fi i = a ; b 第二章 加法运算单元 在所有算术运算中, 加法运算的使用频率最高。 根据尽量加快最常发生事件 / 操作的原则,提高加法运算会大大提高整个系统的性能。 2 . 1加法运算电 路 整数加法运算电路的信号传递关键路径在于进位信号的产生传递路径,高性 能的整数加法运算电路设计都尽可能缩短进位信号的产生传递路径。下面将给出 整数加法运算电路的结构图。 a n , b n- - - - - -一阵 。 , b o a 尸 g 信 号 产 生 电 路 进位产生逻辑电蹄 i- 本位和产生电 路 一 嘴 图2 一i整数加 法运算电 路结构 图2 -1 描述了所有整数加法运算电路的基本结构,整个运算电 路信号产生, 运算,传递的关键路径发生在进位产生逻辑电路模块。对于二进制非冗余码加法 电路, 其进位产生逻辑电路的延时随着输入操作数的位数增加而增加, 而p g信号 产生电路和本位和产生电路的延时与输入操作数的位数无关,因此高性能整数加 法运算电路都致力于缩短进位产生逻辑电路模块的延时。 加法器分为串行进位 ( c r a : c a r r y - r i p p l e a d d e r s )加法器、进位选择加法 器 ( c s l a : c a r r y - s e l e c t a d d e r s ) 、 进位滑动加法器 ( c s k a : c a r r y - s k i p a d d e r s ) 、 先行进位力 i 法器 ( c l a : c u r r y - l o o k a h e a d a d d e r s ) 等 7 7 8 7 s ) 工 1 0 1 。 串行进位 ( c r a : c a r r y - r i p p l e a d d e r s ) 加法器 串行进位加法器是将 。 个全加器串 接起来构成。 进位信号依次串行从最低位 传播到最高位,本位全加器单元的c o u t 与下一级的c i n 连接。其逻辑表达式为: s u m ,. = a , . b , . c , , 民 + ,一a 互+ c , ( a , + b , ) = g , + c , p , p i = a , + - 1 fi i = a ; b 串行进位加法器结构如图2 -2 所示: a n - 7 b n - i c 仆甘 5 n . x . 图2 -2 串行进位加法器 山图2 -2 知, 山于进位信号依次串行从最低位传播到最高位, 串行进位链的 总延迟时间与运算位长成下比。 假设每一级全加器的延迟时间为t , 则n 位串t i 进位加法器的进位总延迟为n at a 选择进位加法器 ( c s l a : c a r r y - s e l e c t a d d e r s ) 由于 低位进位c . 的值无非是0 或者 1 ,可以同时计算出当c ;= o 和 c . = 1 时第 i + l 位的本位和以及对应第 i + 2位的进位值,等真正的低位进位信号产生之后, 再利用它选择出正确的结果,这种加法器就是选择进位加法器。 它利用猜测计算 技术提高计了运算的并行性从而加快了加法器的速度。 在实际的选择进位加法器 中,为了 减少等待时间,将。 位分成k 位一组。 每个组内 有两个加法器,同时计 算低位进位c , 的值是0 或者 1 两种情况下的本位和和更高位进位,组内的两个加 法 器计 算 是 并行 的 。n 位进 位选择 加 法 器 的延迟 是 :at = 凡二 , f n / 川+ s k - bil- n k 耋0 有如下关系: b 当( c ,+ k 一i = 】) = 0 时c 。i :i = c 。+ 。ic :当( c 。c c m 小m 。上述条什进位逻辑关系所映射的电路逻辑如图22 0 所示。 图2 2 0 条件进位逻辑电路 2 1 m u x 可以采用c m o s 瓦补传输门电路实现,其电路如图2 - - 2 1 所示。 s o 竺 j 一呲 了l o u t 1 ; 图2 - - 2 l 采用c m o s 互补传输门电路实现的2 l i f 【u x 将c c 单元从上面的设计抽象到模块接口层次,如图2 - - 2 2 所示: c c 图2 - - 2 2 抽象剑模块接口层次的c c 单元 利用c ic i - i = o = ( ;i = a i b i ,c i * h = ( ;i + p i = a i + b i ,作为c c 单元的输入,并以 0 ck 当 0k f ; c = 啪c 时 o ) =一 ck 。 当 d + a m c c c 单元作为进位产生逻辑电路的基本单元,可以构成与m a n c h e s t e rc a r r y c h m n 类似的层次化树型结构的超前进位逻辑。 值得注意的是,在c c 进位产生逻辑电路结构中信号要通过多个串接c m o s 互 补传输门构成的传输路径。根掘e l m o r e 延时模型理论,长的串接r c 传输路径的 延时与串接长度成平方天系,凶此在串接c m o s 互补传输门构成的传输路径或者在 串接的c c 单元之削要适当的插入由反相器构成的信号缓冲,这样将传输路径延 时与串接长度关系变为线性关系加快进位产生逻辑电路的求值速度。另外的一种 避免长的串接r c 信号传输路径的方法是在实现c c 单元逻辑时采用c m o s 动态 电路或者c m o s 静态互补电路,这样信号在传输路径中每经过一个c c 单元都会 从该c c 单元的v d d ,v s s 中得到信号缓冲,可以构成高速的进位产生电路。 条件和加法器较适合用静态c m o s 逻辑实现。通过对条件和加法器电路进行 v e r i l o g 硬件描述语言的门电路结构描述,利用s y n p l i f y 对上述条件, n d n 法器综合 后的电路网表如图2 - - 2 3 所示,共用去8 3 4 个门电路。仿真结果如图2 - - 2 4 所示, 仿真结果表明设计正确。 图2 2 3 设计的6 4 位条件和加法器电路网表 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 d 0 0 口d 口口口口0 0 d 0 0 丁 v 口口0 口口0 0 0 0 0 0 0 0 0 0 4 x 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 图:2 - - 2 4 综合后的6 4 位条件和加法器仿真结果 2 . 3 本章小结 本章研究讨论了各种不同加法器的结构和原理之后,分别从晶体管物理级和 电路级设计完成了两种算法体系结构的高性能加法运算电路,并对设计结果分 别进行物理管级s p i c e和门电路级的仿真试验。通过对设计电路进行物理和逻辑 结构优化达到了高性能加法运算。 第三章 乘法运算单元 今天的计算应用, 不但要求快速的加法运算, 同时也要求快速的乘法运算。例 如进行高速的数字信号处理,图形坐标变换,矩阵向量计算等都需要高效的乘法 处理。因此,今天的通用微处理器、d s p芯片、多媒体音频图形处理芯片以及一 些a s t c 都需要内置高性能的乘法运算电路。 本章主要研究如何进行高性能乘法运 算电路设计。 3 . 1 阵列乘法器介绍 6 8 9 1 0 进位传递阵列乘法器 进位传递阵列乘法器是 采用进位传递加法器c p a 对部分积进行求和。图3 -1 是一个 8 x 8 位进位传递阵列乘法器。图中 “ f ”表示全加器, h ”表示半加器, 粗线标出了该加法器的一条关键路径。 由此我们可以得出m x n 进位传递阵列乘法 器的最大延迟时间为; t . , 二厂 ( m - i ) + ( n - 2 ) t , 4 , , , + ( n - 1 ) t - + t - , 图3 一1 8 x 8 位进位传递阵列乘法器 进位保留阵列乘法器 进位保留阵列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论