




已阅读5页,还剩59页未读, 继续免费阅读
(电子科学与技术专业论文)dsp高性能乘法部件的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究,卜院硕十学位论文 a b s t r a c t f o rd s p sd e a l i n gw i t ho p e r a t i o n ss u c ha sc o n v o l u t i o n ,f i l t e r i n g ,f f tw h i c hc o n s i s to f r e p e a t e da d d i t i o n s a n dm u l t i p l i c a t i o n s ,am u l t i p l i e rh a n d l i n gt h ew o r kf a s ta n de f f i c i e n t l y b e c o m e sak e yr o l e w h a t sm o r e t h en u m b e ro fm u l t i p l y a d do p e r m i o n sad s pc a n a c h i e v ep e r s e c o n di so n eo ft h em o s ti m p o r t a n ti n d i c e se v a l u a t i n gt h ep e r f o r m a n c e t h em o d e lx d s p ,a f i x e d3 2 一b i to n e w h i c hi sn o wu n d e rr e s e a r c h ,i sp l a n n e dt or e a c ht h ef r e q u e n c y o f6 0 0 m h za n d 4 8 0 0m i l l i o nm a cp e rs e c o n da f t e rt a p p e do u t t h u s ,ah i g hp e r f o r m a n c em u l t i p l i e r i s i n d is p e n s a b l e t h i st h e s i sm a i n l yd e s i g n sam u l t i p l i e r ,af u n c t i o n a lu n i to fx d s p f u l lc u s t o md e s i g n so fa s i m dm u l t i p l i e ra n dac o n f i g u r a b l ef i n i t ef i e l dm u l t i p l i e ra r ep r o t a g o n i s t s d u et os i m da l g o r i t h mi m p r o v e m e n t ,at w o m o d em u l t i p l i e r i s p r o p o s e d t h a tc a n d y n a m i c a l l va d j u s tt ot h ee x e c u t i o no fd i f f e r e n ti n s t r u c t i o n s ,i e n o r m a l m u l t i p l i c a t i o na n d s i m dm u l t i p l i c a t i o n ,e i t h e rp i p e l i n e do ri nas i n g l ep e r i o d ,e l i m i n a t i n gc o n s t r a i n t sa n df a u l t so f t h ea r c h i t e c t u r es u c ha sc o m b i n i n gs u b w o r do rs i m p l ep a r a l l e lw a y m b ea n dag o o dp o l i c yo f t h eg e n e r a t i o no fp a r t i a lp r o d u c t sm a k et h i sm u l t i p l i e rh a l fo faa r r a yp a r a l l e l o n ei na r e aa n d 8 0 i np o w e rd i s s i p a t i o n s i m u l a t i o n ss h o wt h a t ,t h et w o - s t a g ep i p e l i n e ds i m dm u l t i p l i e rc a l l a c c o m p l i s ho n e3 2 1 6o rt w o16 1 6o rf o u r8x8m u l t i p l i c a t i o n sa taf r e q u e n c yo f6 0 0 m h z am u l t i p l i e rw i t hv a r i a b l ef i e l da n dp r i m i t i v ep o l y n o m i a l s i sa d v a n c e de m p l o y i n g p o l y n o m i a l i n d e p e n d e n ta l g o r i t h ma n dc o m p l e m e n t a r yf i e l dc o n v e r s i o nl o g i c t h em u l t i p l i e r ,a r e g u l a rc o m p l e m e n t a r ys t a t i cc m o sl s b f i r s ts e m i s y s t o l i ca r r a y ,a c h i e v i n gah i g hs p e e dw h i l e m a i n t a i n i n gl o wp o w e rd i s s i p a t i o n c a nw o r ks t e a d i l y a sf a s ta s8 0 0 m h zu n d e raf o u r 。s t a g e p i p e l i n e i tg a i n sa d v a n t a g eo v e rp r e s e n tm o n o f u n c t i o no n e s k e y w o r d s :d s p ,s i m d ,m u l t i p l i e r ,b o o t h ,f i n i t ef i e l d ,s e m i s y s t o l i ca r r a y 第i i 页 国防科学技术大学研究生院硕1 二学何论文 表目录 表2 1x d s p 的指令类型和指令分配9 表2 2 乘法类操作指令1o 表2 3 逻辑类操作指令1o 表2 4 乘法部件指令各节拍执行的操作11 表3 12 位b o o t h 编码1 6 表3 2 不同结构5 2 压缩器的对比2 9 表3 3 某工艺下不同层次最大电流密度( 1 1 0 ) j 3 l 表3 4 不同温度下最大电流密度的转化3 l 表3 5 控制信号的相关性3 3 表3 6 不同设计在相同状态下的对比3 4 表4 1g f ( 2 ) 中的运算定义3 6 表4 2g f ( 2 m ) ( 1 m 8 ) 上不同域值下的本原多项式4 7 表4 3不同结构有限域乘法器的对比5 1 第1 i l 页 同防科学技术大学研究q i 院硕十学何论文 图1 1 图2 1 图2 2 图2 3 图2 4 图2 5 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图3 8 图3 9 图3 1 0 图3 1 1 图3 1 2 图3 1 3 图3 1 4 图3 1 5 图3 1 6 图3 1 7 图3 18 图3 1 9 图3 2 0 图3 2 1 图3 2 2 图3 2 3 图3 2 4 图3 2 5 图3 2 6 图3 2 7 图目录 t i 公司d s p 性能发展趋势3 x d s p 的体系结构7 乘法部件的总体结构1 1 乘法类指令流水线结构1 2 逻辑类指令流水线结构1 3 有限域乘法指令流水线一1 4 4 个8 位的普通乘法1 5 4 个8 位的点积乘法1 6 扩展符号位的b o o t h 编码部分积阵列1 7 使用符号扩展技术的b o o t h 乘法部分积阵列1 7 普通模式下产生的部分积18 统一结构下产生的部分积1 8 高1 6 x 8 操作的结果示意1 9 低1 6 x 8 操作的部分积阵列1 9 低1 6 x 8 修f 后的结果示意1 9 阵列乘法器中的c s a 2 0 4 2 压缩器的结构2 0 4 2 压缩器的c s a 实现2 l 4 2 压缩器的结构优化实现2 1 8 个8 位部分积的4 2 树型压缩结构2 2 5 2 压缩器结构2 3 5 2 压缩器的5 延时结构2 3 5 2 压缩器的4 延时结构2 4 最长部分积列的一种压缩方式2 5 s i m d 乘法器的体系结构2 5 b o o t h 编码的一种结构实现2 6 b o o t h 编码控制信号的产生一2 6 一位部分积产生电路2 7 x o r * 的一种电路实现2 7 x o r 的传输门实现一2 8 m u x 的传输门实现一2 8 3 2 压缩器结构2 8 乘法器版图规划2 9 第1 v 页 国防科学技术大学研究乍院硕士学何论文 图3 2 8 图3 2 9 图3 3 0 图3 3 1 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 1 1 图4 1 2 图4 1 3 图4 1 4 一位部分积生成版图31 乘法器的版图实现3l s i m d 乘法器版图前后延时对比3 4 s i m d 乘法器版图前后功耗对比3 4 7 阶多项式的求模操作3 9 有限域乘法指令的操作4 l 低位优先的半伸缩算法基本单元4 2 8 位运算的半伸缩阵列4 3 g f ( 2 4 ) 上的全并行不规则乘法阵列4 4 半伸缩阵列基本单元版图4 5 有限域乘法器的版图规划4 5 有限域乘法器的版图实现4 6 电路测试平均功耗4 9 电路测试最大延时4 9 版图测试平均功耗4 9 版图测试最大延时5 0 电路与版图平均功耗对比5 0 电路与版图最长延时对比5 0 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特另0 加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目: 旦墨里直性能丞洼嫠佳鲍遮i 土多塞理 学位论文作者签名:j 缝赴日期:7 咖留年- 月 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存,汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:堕旦壶:睦丝垂洼鳌鲑的遮盐盏塞理 学位论文作者签名:立堕丝日期:了h 苫年- 月哆日 作者指导教师签名: 查2 乏:日期:枷年h 月。7 日 国防科学技术大学研究牛院硕十学何论文 第一章绪论 1 1d s p 芯片概述 数字信号处理器( d i g i t a ls i g n a lp r o c e s s o r s ,d s p ) 是一种用于数字信号处理的嵌入式专 用微处理器【。它的应用范围既包括数字移动通信、网络传输、信息家电、多媒体娱乐等 消费应用领域,也包括实时信号处理、视频图像处理、蜂窝基站系统等具有高数据吞吐量 和高速运算的应用领域。随着超大规模集成电路技术的发展和体系结构的不断创新,d s p 设计技术已成为集成电路领域发展最快、竞争最激烈的高新技术之一。d s p 芯片的发展r 益迅速,功能r 益强大,性价比日益提高。随着d s p 不断向新的应用领域扩张,它逐渐成 为数字化时代电子产品更新换代的决定因素。 1 1 1d s p 的特点 数字信号运算的特殊性以及在速度、功耗、能效方面的优势决定了d s p 具备的一些特 点1 2 j 主要包括: 1 ) 快速硬件乘法器。通用微处理器通过一系列移位和加法操作实现乘法运算,而且 每个操作通常需要一个或多个周期,这就导致乘法操作非常费时。这对经常进行 滤波、卷积和f f t 等操作的d s p 而言是不可接受的。乘法操作是d s p 的一个主 要的操作类型,因此在当今的d s p 内部都设有专门的硬件乘法器或组合乘加单元 ( m a c ) ,以提高乘法的执行速度。 2 )多个功能单元。除了乘加部件,d s p 还拥有多个独立的功能单元。这些并行的功 能单元可以同时执行多条指令,进一步提高d s p 的速度。 3 ) 高效的存储访问。d s p 的存储器通常采用多体设计,并使用多条总线同时访问存 储器以提高访存带宽。同时提供具有预测功能的地址生成部件进一步减少存储访 问的时间。另外,高效的存储控制系统可以缓解数据瓶颈,充分发挥d s p 强大的 处理能力。 4 ) 数据格式。为了减少复杂度和避免出现数据溢出等问题,d s p 多采用字长较短的 定点数据格式,而不是科学计算中常用的浮点格式。同时提供特殊的硬件机制保 证计算结果的精度和准确度。 5 ) 特殊指令集。这些指令能够提高硬件的利用率,减少程序占用的存储空问并加快 某些运算的执行速度。 6 ) 流水化i o 。d s p 通常集成一个或多个串行或并行的i o 接1 :3 ,使用流水化的i 0 处理机制,尽可能减少数据传输对数据计算的影响。 第l 页 同防科学技术大学研究! e 院硕十学位论文 1 1 2d s p 的历史和演变 1 9 7 8 年a m i 公司发布的$ 2 8 11 是世界上第一个单片d s p 。1 9 7 9 年美国i n t e l 公司发布 了商用可编程器件2 9 2 0 ,成为d s pj 醛片发展史上的一个重要单程碑。 8 0 年代中期,随着c m o s 技术的进步与发展,第二代基于c m o s 工艺的d s p 芯片应 运而生,其存储容量和运算速度都得到成倍提高,奠定了语音处理、图像硬件处理技术的 基础。 8 0 年代后期,第三代d s p 芯片问世,运算速度进一步提高,其应用范围逐步扩大到 通信和计算机领域。 9 0 年代相继出现了第四代和第五代d s p 器件。现在的第五代d s p 产品将d s p 核心与 外围元件综合集成在单一芯片上。这种集成度极高的d s p 芯片不仅在通信、计算机领域大 显身手,而且逐渐渗透到人们日常消费领域。 自上世纪7 0 年代末问世以来,d s p 芯片已经从最初的仪能满足简单乘加运算需要为 特征的第一代发展到现在,其结构经过数次重大变革,如专有乘法器、哈佛总线的结构、 多功能单元、流水线技术、单指令多数据( s i m d ) 以及超长指令字( v l i w ) 体系结构的 引入等等,每一次体系结构上的重大改变都使d s p 的性能得到了一次飞跃【3 j 。 1 1 3d s p 的现状 目前,国外主要的d s p 制造商有四家:德州仪器( t i ) 、摩托罗拉( m o t o r o l a ) 、朗讯 科技( l u c e n t ) 和模拟器件公司( a d i ) ,其中德州仪器对d s p 芯片的发展起到了巨大的作 用。 t i 公司从发布第一款d s p :笛:片至今,产品己历经5 代变革。1 9 9 7 年t i 公司发布的 c 6 2 x x 系列,以其开创。陆地引入v l i w 结构使d s p 设计技术进入一个新时代。t m s 3 2 0 c 6 4 x 是t i 公司于2 0 0 0 年推出的v l i w 结构的高性能d s p 4 1 ,每秒可以执行8 0 亿条指令,完成 4 0 亿次1 6 位m a c 运算,或者8 0 亿次8 位m a c 运算。最新推出的c 6 4 5 5 ,主频达到 1 2 g h z ,峰值处理速度达到9 6 0 0 mm a c s 。c 6 4 x 运算能力强、片上存储器容量大、外设 丰富,代表了高性能d s p 发展的方向。 a d i 公司的t i g e r s h a r c 系列1 5 j 也在其传统的s i m d 结构中融入了许多v l i w 的特征。 时钟频率为6 0 0 m i t z ,每周期能执行8 组1 6 位m a c 运算。2 0 0 4 年底推出的双m a c l 6 位 d s pa d s k b f 5 x x ,具有运算能力强,功耗低的特点,达到了7 5 6 m h z 的主频。 我国的d s p 产业起步较晚,在九十年代中期才展开通用d s p 研制开发工作。华晶中 央研究所与复旦等国内部分大学合作,在“八五 期问研制出了一款1 6 位定点d s p :“九 五 期间国防科技大学与华晶中央研究所共同设计研发c 3 1d s p 芯片;国防科大在“十 五”期间开发的y h f t - d 3 采用0 1 8 u m 工艺,主频达到2 4 0 m h z ;2 0 0 5 年开发的y h f t - d 4 , 主频达到2 5 0 m h z ,2 0 0 0 m i p s ,每秒能进行1 g 次1 6 位乘加运算,2 g 次8 位乘加运算, 第2 页 同防科学技术大学研究生院硕一f :学位论文 达到国际先进水平。 | - r 等 j ,:。 ;l 么一 i0 i 穗 - - - l l -_r 2 瓜孟r 么 ” p 袖 一晒n m c m o s 3 瑚i oi 一; 图1 1t i 公司d s p 性能发展趋势3 l 1 1 4d s p 的未来 随着应用领域的不断扩大、设计和制造技术的创新,d s p 将朝着以下几个方面发展【6 j : 1 ) 更高性能。增加并行性和提高频率是提高性能的主要途径。在今后一段时间内, v l i w 仍将是高性能d s p 的主流体系结构。s i m d 是提高d s p 性能的有效方法, 将在更多的d s p 中得到应用。为了提升时钟频率,d s p 将不断采用更先进的制造 工艺。 2 ) 更低功耗。消费类d s p 系统尤其是便携式手持产品的迅速发展,对于低功耗有很 高的要求。在提高性能的同时降低功耗一直是d s p 设计者追求的目标。 3 ) 多核技术。随着集成电路集成度的提高、多核体系结构的日益成熟和开发环境的 同益完善,多核d s p 将会在高性能应用中占有更加重要的地位。 4 ) 软件环境逐渐成熟。d s p 的应用丌发越米越依赖于开发环境,世界上各大d s p 厂 商都非常重视提供高效易用的系统软件和开发环境。 5 ) d s p 与m c u 的结合。将d s p 的运算能力和m c u 的通用结构相结合已成为不可逆 转的潮流。将d s p 核与r i s c 微控制器结合在一起,或在通用的c p u 结构上提供 d s p 扩展也是d s p 发展的一个重要方向。 6 ) 可配置的d s p 核。可配置d s p 核将具备良好的扩展性和可定制性,能够满足不同 用户的需求,更加灵活方便。 第3 页 o o 移 o , 鲫 的 伸 , 徂 t l摹oi暑王一-e卫_-暑:口竺,pu,量饥罩j毒p艿堇王 国防科学技术大学研究生院硕十学位沦文 1 - 2 1d s p 片内乘法器的历史 1 2d s p 片内乘法器 1 9 8 0 年,同本n e c 公司推出的up d 7 7 2 0 是第一个具有乘法器的商用d s p 芯片,开 启了d s p 内置独立乘法器的先河。1 9 8 2 年,t i 推出了一款非常成功的商用d s p t m s 3 2 0 1 0 ,它集成了特殊的硬件结构,能够一拍完成一个乘法运算,极大地提高了乘法 运算的速度。从此,独立的乘法器( 乘加器) 成为d s p 不可或缺的重要组成部分【2 j 。 8 0 年代以来,d s p :卷片得到了突飞猛进的发展,乘法器的速度也在不断提升,m a c 运算时间从最初的4 0 0 n s 降低到1 0 n s 。特别是9 0 年代中期以来,v l i w 和s i m d 等技术引 起的体系结构上的变革使这种趋势发展到了前所未有的高度。如t i 公司的t m s 3 2 0 c 6 4 5 5 每秒可执行9 6 亿个m a c 操作。m a c 运算速度已经成为衡量d s p 性能的重要指标,这也 更加凸显了乘法器地位的重要性。 1 2 2 乘法器的研究现状 一般来说,传统的乘法运算主要分为三个步骤: 1 ) 部分积( p a r t i a lp r o d u c t ) 生成。通常通过b o o t h 算法减少部分积的个数,这样会大 大减少计算量。 2 ) 部分积压缩。将多个部分积压缩成一个和与一个进位。通常基于树型压缩或阵列 压缩快速将多个部分积压缩为两个数。 3 ) 求和。将上一步得到的两个数送入加法器得到最终的乘法结果。这一步通常使用 超前进位( c a r r y l o o ka h e a d ) 或进位选择( c a r r y s e l e c t ) 加法器实现。 目前传统乘法器的改进和创新大多是针对一卜述三个方面进行的。文献【7 【8 使用改进后 的b o o t h 算法( m b e ) 进一步减少了部分积的个数;文献 9 】 1 0 】提出了华莱士树( w a l l a c e t r e e ) 的压缩结构并对其进行了优化;文献 1 1 】 1 2 】阐述并实现了压缩树的方案;文献 1 3 1 4 】 针对快速加法器进行了深入的讨论。这些成果都进一步促进了乘法器结构的优化和性能的 提高。文献 1 5 对b a u g h w o o l e y 乘法器【1 8 j 进行了改进,该两站流水化的8 - b i t 乘法器在1 8 v 电压下,频率达到了6 g h z ,功耗却减少了将近6 3 ,延时减少了4 0 。但当操作数位数 超过1 6 b i t 时,同基于编码和压缩的树型结构相比,这类基于阵列的结构在性能和功耗方 面就失去了优势【1 1 7 1 。文献【1 6 】也设计出了一款主频高达8 g h z 的浮点乘法器。 d s p 自身结构的变革也不断影响着乘法器的结构和功能,特别是为了高效地处理大规 模、高并行、短位宽信号数据而引入的s i m d 技术要求乘法器必须同时具备相应的功能。 当前的s i m d 乘法器都是基于传统乘法器设计的,所以传统的设计和优化方案在很大 程度上是适用的。但s i m d 乘法器也有其特殊的算法和优化手段。文献 7 】 1 9 2 0 】【2 1 】就 s i m d 乘法器的设计提出了各自的方案。主要分为3 类1 2 2 j : 第4 页 国防科学技术大学研究生院硕十学位论文 1 ) 简单并行。针对不同字长,设置相应的字长的乘法器,由多路选择器选择出最终 结果。显然,这种实现会带来大量的硬件丌销。 2 ) 阵列子字并行。以一种字长的乘法器支持不同字长的乘法运算,并通过硬件机制 保证计算结果的正确性。文献 1 9 】采用分割共享技术,利用1 + 6 4 位的b o o t h 乘法器 同时完成1 个6 4 6 4 、2 个3 2 3 2 、4 个1 6 1 6 或8 个8 8 运算;文献 2 0 】同样基于1 个3 2 位的b o o t h 乘法器,通过采用快速混合长度编码方案提升华莱士树的压缩性 能,1 拍完成1 个1 6 x1 6 或3 2 1 6 运算。但这两种方案产生了较多的部分积个数, 造成乘法器的面积和延时也较大。 3 ) 合并子字并行。设置多个低精度乘法器,以流水方式用多个周期实现高精度乘法 运算。文献 7 】使用m b e 、t d m ( t h r e ed i m e n s i o n a lr e d u c t i o nt e c h n i q u e ) 和符号 位校正技术,通过两个1 6 位b o o t h 乘法器实现了一个s i m d 乘法器,能够2 拍完成一 个3 2 3 2 ,或l 拍完成一个3 2 1 6 ,或1 拍完成两个1 6 1 6 的乘法运算。这种实现 在结构上限定了完成一个乘法操作的最小周期数。 文献 2 l 】提出了一种混合子字并行的设计方法,以两个1 6 位子字并行乘法器为核心, 通过合并技术支持1 个3 2 1 6 、2 个1 6 1 6 或4 个8 8 乘法运算。 有限域乘法器是专门针对有限域乘法而设计的,这种运算同一般的乘法运算完全不 同。按照结构分为位并( b i tp a r a l l e l ) 结构乘法器和位串( b i ts e r i a l ) 结构乘法器;按 照有限域元素的表示方式分为标准基( s t a n d a r d ,c a n o n i c a lb a s i s ) 乘法器、正规基( n o r m a l b a sis ) 乘法器和对偶基( d u a lb a s i s ) 乘法器。这两种类别的不同组合衍生出了各种类型的 有限域乘法器。 目前有限域乘法器的具体实现方法有以下几种2 3 1 1 2 4 1 1 2 5 1 1 2 6 1 【2 7 】: 1 ) 查表法。有限域中任意两个元素的乘积可通过查洵存放在r o m 中的相关表格获得。 这种乘法器随着位数的增加面积也迅速增大。 2 ) 线性反馈移位寄存器法。有限域中的任意两个元素的乘积可由线性反馈移位寄存 器电路获得。这种乘法器电路简单、面积小,m 位乘法器完成一次运算至少需要m 个时钟周期。 3 ) m a s s e y o m u r a 法。这是一种正规基乘法器。该乘法器对有限域元素的平方运算及 指数运算非常有效且乘法器面积较小,但正规基的表示比较复杂,且对本原多项 式选择依赖性很强,缺乏一定的灵活性。 4 ) b e r l e k a m p 位串法。这是一种基于对偶基的结构。虽然实现后的面积很小,但不同 基底之问必须经过转化才能保证操作的正确执行,延时比较大。 5 ) 伸缩阵列乘法器。这种一种并行结构的乘法器,结构很规整,灵活性很强。 6 ) m a s t r o v i t o 乘法器。这种乘法器针对特殊的本原多项式进行了非常深入的优化, 但它的单一性使其在有限域大小和本原多项式都可以配置的要求下无能为力。 第5 页 同防科学技术火研究牛院硕十学位论文 1 3 课题的来源、目标及研究意义 正在设计中的高性能x d s p 芯片,采用0 1 3 岬工艺,时钟主频达到6 0 0 m h z ,每周期 发射8 条3 2 位指令,指令执行速度达到3 6 0 0 m i p s 和4 8 0 0 mm a c s ( 8 位) 。 设计采用o 1 3 1 a m 工艺能够帮助研究超深亚微米条件下器件特性,积累设计经验;完 成主频6 0 0 m h z 的设计目标,有助于掌握高频高性能芯片的设计技术和自主知识产权。该 芯片的研制和实现将对我国的新一代高性能d s p 的发展具有重要推动作用,并将带动我国 的微电子产业快速向前发展。 1 4 本文所做的工作 设计实现一个高性能乘法器在d s p 芯片开发中起着重要的作用。依托x d s p 的开发和 研制,本文旨在设计一款功能和性能都能够满足要求的乘法部件,其主要工作包括: 1 ) 分析和研究乘法部件的功能,进行体系结构设计和逻辑没计。 2 ) 对s i m d 乘法器的算法和体系结构进行研究,设计一个1 6 位s i m d 乘法器。 3 ) 对有限域乘法的原理和实现算法进行研究,设计一个域值大小和本原多项式可变 的有限域乘法器。 4 ) 通过全定制设计突破关键技术,在电路设计和版图设计方面进行优化,实现 6 0 0 m h z 的主频目标。 1 5 论文的组织结构 第一章绪论。主要介绍了d s p 以及d s p 片内乘法器的历史、发展和当前的研究状况, 并对课题的背景、意义和相关研究进行了概述。 第二章主要介绍和分析x d s p 乘法功能部件的功能以及洋细的体系结构设计。 第三章1 6 位s i m d 乘法器的详细设计和实现。包括体系结构设计,电路和版图的设 计、优化和验证。 第四章域值可变的有限域乘法器的详细设计与实现。包括相关的算法和理论,电路 和版图没计与验证。 第五章结束语。对本文的工作进行概括和总结。 最后对帮助过我的人们表示感谢,同时附上文中涉及的参考文献。 第6 页 国防科学技术大学研究生院硕十学位论文 第二章乘法功能部件的结构设计 本章首先对x d s p 的结构、指令和功能部件等进行简要介绍,然后再重点分析乘法功 能部件并给出具体的体系结构设计。 2 1 1x d s p 的总体结构 2 1x d s p 简介 x d s p 采用八流出超长指令字,形成更先进的v e l o c i t i 2v l i w 体系结构。x d s p 的体 系结构主要包括三大部分:内核、存储体和外设,如图2 1 所示,其中阴影部分即为该d s p 的内核。 图2 1x d s p 的体系结构 x d s p 的内核包含指令派发译码单元、芯片测试仿真端口及控制逻辑、寄存器文件和 指令执行单元。x d s p 采用l o a d s t o r e 体系结构,拥有两个通用寄存器文件( 每个寄存器 文件包含3 2 个3 2 位通用寄存器) ,两条数据存储通路,两条寄存器组交叉通路,两条数 据寻址通路。指令派发单元将指令包同时分配到两组8 个功能单元同时执行。对应单元具 有相同的结构和功能,对称的分布在两条数据通路上,极大地提高了指令执行的并行度。 第7 页 国防科学技术大学研究牛院顶 :学位论文 x d s p 使用两级c a c h e 结构,集成了大容量存储器。一级程序c a c h e ( l i p ) 容量为1 6 k b , 采用直接映射结构;一级数据c a c h e ( l 1 d ) 容量也为1 6 k b ,采用两路组相联结构;二级 c a c h e 是一个统一的数据程序空问,总容量为1 m b ,可以配置其s r a m 和c a c h e 的比例, 并且支持e d m a 的访问。 x d s p 内部提供多种集成外设的接口:强大的外部存储器接口,可以与目前几乎所有 类型存储器直接连接,具有很高数据吞吐率( 最高1 2 0 0 m b s ) ;在标准串口基础上进行改 造和增强的多道缓冲串口;连接上位机的并行端口;还有支持异步传输模式从设备的 u t o p i a 接口,扩展的d m a 等。 2 1 2x d s p 的指令及流水线 x d s p 采用了类r i s c 指令集,除了一般的算术和逻辑运算外,还增加了1 0 条支持图 像处理和无线通信的专用指令,如g m p y 4 等。 x d s p 采用8 流出v l l w 结构。单指令字长为3 2 位,每8 条指令组成一个2 5 6 位字长 的指令包。 x d s p 流水线结构最长为1 1 级,其中包括4 级指令获取,2 级指令派发和译码,指令 执行需1 - - 5 级。 取指阶段i j q 拍执行的操作是: 1 ) 程序地址产生。确定取指包的地址; 2 ) 程序地址发送。将包地址发送到内存; 3 ) 程序访问等待。访问程序存储空问; 4 ) 程序数据接收。将指令包送至c p u 边界。 译码和派发段两拍执行的两个操作是: 1 ) 指令分配。确定指令包的下一个执行包,并将其送至功能单元译码; 2 ) 指令译码。指令在功能单元进行译码。 在执行阶段,指令类型不同,执行所需时问也不相同:最短1 拍,最长5 拍。 2 2 乘法部件及其功能分析 x d s p 是一款3 2 位定点d s p ,最大支持字长为3 2 的各类运算。反映到乘法功能部件 上即为1 6 3 2 乘法操作。该d s p 具有两个功能相同的乘法功能部件对称的分布在两条数 据通路上,单个乘法功能部件都必须能够支持3 2 位字长的乘法操作。 乘法功能部件主要负责执行3 大类指令: 1 ) 乘法类指令( 见表2 2 ) 主要包括2 0 条1 6 1 6 指令,2 条双1 6 1 6 指令,9 条1 6 3 2 指令,6 条s i m d 指令和6 条普通的点积指令,共计4 3 条普通乘法指令。 第8 页 国防科学技术大学研究生院硕_ f 学位论文 表2 1x d s p 的指令类型和指令分配 功能部件指令类型 3 2 4 0 位算术和比较操作; 3 2 位中最左边l 或o 的位数计算; 3 2 4 0 位数的冗余符号位位数的计算; 3 2 位的逻辑操作; 字节旋转移位 a l u l 2 数据打包解包 5 位常数赋值给通用寄存器 双1 6 位算术运算 双1 6 位求极值运算 4 个8 位算术运算 4 个8 位求极值运算 3 2 位算术操作和逻辑操作 3 2 4 0 位移位和3 2 位位操作 指令转移 数据打包解包 常数产生 a l u 3 4 寄存器与控制寄存器传递 双1 6 位比较操作 4 个8 位比较操作 双1 6 位移位操作 双1 6 位带饱和的算术运算 4 个8 位带饱和的算术运算 1 6 1 6 乘法操作 1 6 3 2 乘法操作 4 个8 8 乘法操作 双1 6 1 6 乘法操作 m u ll 2 4 个8 8 乘法操作 变量移位操作 旋转 有限域乘法 3 2 位加、减、线性循环寻址计算 5 位常数偏移量取存 1 5 位常数偏移量取存 l s l 2 5 位常数偏移量的双字读取与存储 无边界调节的字读取与存储 5 位常数产生 3 2 位逻辑操作 第9 页 同防科技术人学研究生院硕十学位论文 2 ) 逻辑类指令( 见表2 3 ) 该类指令主要包括5 类1l 条。 3 ) 有限域乘法指令 为了更好的支持数据通信和编码增加了1 条专用指令g m p y 4 。 这5 5 条指令极大的丰富了乘法功部件的功能,与此同时也决定了其在结构上的复杂 性不可能使用单一的结构实现全部功能。 表2 2 乘法类操作指令 1 6 1 6 双1 6 x 1 6 1 6 3 2s i m d 普通点积 有符号与无双1 6 位 1 6 位数4 个8 位有( 无) 符号点积双1 6 位点积 符号数乘普通乘与3 2 位双1 6 位点积求和 法 数的高 4 个8 位有( 无) 符号点积 双1 6 位点积差 有符号与无 低位分双1 6 位点积求反 符号数高位 别相乘双1 6 位点积移位 对应乘 双1 6 位 双1 6 位点积四舍血入 带饱和 1 6 位数 有符号与无乘法 与3 2 位 符号数高低位 数的高 交叉相乘 低位分 别相乘 带左移的饱和 并舍入 乘法 表2 3 逻辑类操作指令 位扩展交互位操作移位操作平均值 4 位扩展位交互反序存储旋转左移 高低半字均值 1 6 位扩展解位交互统计1 的个数带饱和判断的左( 右) 移对应字节均值 2 3 1 乘法部件的总体结构 2 3 乘法部件的体系结构设计 乘法部件三大类指令操作相互之间的差异巨大,基本不存在硬件结构复用的可能,必 须针对各自特点进行设计。功能部件的流水化实现一方面可以减少单拍的任务量,提高系 统的时钊,频率;另一方面可以开发指令级并行,提高系统的吞吐率。但非同类指令,甚至 第1 0 页 同防科学技术大学研究牛院硕十 乏位论文 同类指令中的不同操作( 主要是乘法类指令) 所需的时钟周期都不是完全相同的,如表2 4 所示。 表2 4 乘法部件指令各节拍执行的操作 执行节拍 1 6 x 1 6 乘法逻辑类指令其他指令 e 1 读操作数,开始计算读操作数,开始计算读操作数开始计算 e 2 结果写入寄存器结果写入寄存器继续计算 e 3 继续计算 e 4 结果写入寄存器 s l o t1l 3 基于上述分析,乘法部件的结构首先要针对三大类指令在总体上进行划分,以区分类 别卜的差异。同类指令之间的差异由子一级结构解决。图2 3 给出了这种思想的实现方案。 除去公共的译码和结果选择模块,乘法部件的主体分为3 大部分3 条独立的流水线对 应处理三类指令。同类指令之间的差异( 主要是乘法指令) 交由该类流水线自行处理。这 样就减少了总体结构的复杂度。 下面3 个小节就针对这三条流水线的设计进行具体的论述。 为了解决不同周期指令同时写结果的冲突,在流水线的最末端添加了结果选择模块, 根据既定策略对写结果的竞争做出仲裁。 乘法指令流水线 b b 廿l ! 厶。 结 指4 9 t - 柑:c 2 ;一 果 ,a :l ,口v i “一 令 选 译 逻辑指令流水线 择 码 敞七l i 漓一 i :1 2 7r w 口i r + 如止l l 注: 一 有限域乘法流水线 l 图2 2 乘法部件的总体结构 第1 1 页 国防科学技术大 乏研究牛院硕1j 学位论文 2 3 2 乘法类指令流水线的结构设计 乘法类指令是三类指令中较为复杂的一种。严格来讲,该类指令按照不同标准也可分 为3 类:既包含2 周期指令,也包含4 周期指令;既有普通的乘法指令,又有s i m d 乘法 指令;1 6 位操作数指令与3 2 位操作数指令也同时存在。指令在各类别之间的交叉归属使 得总体设计的“划分”思想难以凑效。例如s i m d 点积指令,既是s i m d 指令,又需要4 个周期完成,参与运算的操作数为3 2 位。 乘法指令流水线的设计本着“求同存异”的原则,利用乘法操作之间的共性( 见1 2 2 节) ,尽可能实现模块复用。图2 3 给出了这种思想的设计方案。 整个流水线结构划分为4 站,以满足4 拍指令的需求。 其中,前两站为所有类型指 令共享,由两个全同的1 6 位s i m d 乘法器组成,负责给出2 周期指令的最终结果以及完 成4 周期指令7 0 左右的运算( 主要为了资源复用) 。从功能上来讲,既要执行普通乘法 运算,又要执行s i m d 乘法运算;既要完成1 6 位字长的运算,又要执行3 2 位字长的运算。 要解决上述问题,一款能够根据操作类型动态配置的s i m d 乘法器成为该流水线的关键。 第三章将对该s i m d 乘法器进行专门的研究和讨论。 流水线的后两站负责4 周期指令的后续执行,主要是对前两拍执行给出的中间结果进 行相应的调整和修正。 s t a g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 发言稿 设计院
- 爱心资助发言稿
- 时间的脚丫课件
- 挖竹笋教学课件
- 时间图课件教学课件
- 二零二五年度个人房屋维修基金担保合同范本参考
- 二零二五年度离婚子女抚养权变更及监护责任转移合同
- 2025版快递行业与旅游行业联合服务合作协议范本
- 二零二五年婚姻解除出轨赔偿与财产分割协议
- 二零二五版12333薪酬福利政策设计与实施合同
- 中职教育二年级下学期数学《有趣的七桥问题》课件
- 四圣心源方剂
- 《陆上风电场工程概算定额》NBT 31010-2019
- 员工荣誉证书模板
- 统编版语文六年级上册第七单元《艺术之旅》单元设计
- 无人机应急通信
- 教师招聘试题-事业单位招聘教育综合类试卷专项训练-附答案(3份试题)
- DB11T 489-2024 建筑基坑支护技术规程
- 《城市地下道路工程设计规范+CJJ+221-2015》详细解读
- 中考英语完形填空训练题(共25篇-附答案)
- 《融资渠道方式》课件
评论
0/150
提交评论