（通信与信息系统专业论文）数字信号处理器的设计研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-18 格式：PDF 页数：73 大小：2.45MB 积分：0 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

（通信与信息系统专业论文）数字信号处理器的设计研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浙江大学硕士学位论文摘要随着芯片业的飞速发展，数字信号处理器 ( d s p ) 无论从制造 _ 艺、体系结构等方面都取得了巨大的发展。随着d s p芯片性价比和开发手段的不断提高，数字信号处理技术已经在通讯，多媒体，信息家电等各个领域得到了极为广泛的应用。作为当今一个应用的热点，多媒体应用也强劲地推动着芯片业的发展。d s p以其体系结构上的特殊性，强大的处理能力和相对较低的功耗水平，特别适合于多媒体领域的应用本文讲述的是山浙江大学信息与电子工程学系s o c r 据预测，到2 0 1 0 年， d s p 芯片的集成度将提升到在单个芯片内将能集成 1 0 亿只晶体管的水平。如此高的集成度使得原先需要多传统处理器并行 i : 作的系统可以集成到一块芯片上工作，因此现代d s p处理器的发展已经超出了传统d s p 的处理范畴，逐步形成了一个完善的片上s o c ( s y s t e m o n c h i p ) 系统，同时在高集成度的条件下如何构造d s p 系统的体系结构，如何有效解决日益复杂的的嵌入式应用，特别对十不断发展的多媒体领域应用，已经成为当今集成电路设计行业的一个热点问题浙江大学硕士学位论文 1 . 2 d s p处理器特点数字信号处理器不同于通用型的计算机，它有着自己独特特点: .d s p 属于h a r v a r d 架构具有两条内部总线: 数据总线、程序总线。程序与数据存储空间分开，各有独立的地址总线和数据总线，取指和读数可以同时进行。 .大多采用流水作业每条指令的执行划分为取指令、译码、取数、执行等若十步骤，由片内多个功能单元分别完成。相当于多条指令并行执行，从而大大提高了运算速度 .独立的硬件乘法器乘法指令在单周期内完成，优化卷积、数字滤波、f f t 、相关、矩阵运算等算法中的大量重复乘法。独特的乘累加指令。 .循环寻址 ( c i r c u l a r a d d r e s s i n g ) ，位倒序 ( b i t - r e v e r s e d ) 循环寻址和位倒序使 f f t 、卷积等运算中的寻址、排序及计算速度大大提高。1 0 2 4点 f f t的时问已小于 i ps . .独立的d m a 和总线控制器有一组或多组独立的d m a总线，与( :p l的程序、数据总线并行工作，在不影响c p u工作的条件下， d m a 速度己达s o o m b y t e / s以上。 .多处理器接口。使多个处理器可以很方便的并行或串行工作以提高处理速度。 j t a g ( j o i n t t e s t a c t i o n g r o u p )标准测试接口 ( i e e e 1 1 4 9 标准接口) ，便于对d s p 作片上的在线仿真和多d s p 条件下的调试。 .片内片外两级存储体系采用片内片外两级存储体系，是 d s p芯片结构的又一特色。片内存储器的特点是速度快，可以多个存储器块并行访问，但是容量不可能太大。片外存储器的容量大，由于要通过总线与处理器交换数据，因此速度不能太快。 .零开销循环控制大部分 d s p处理器具有零开销循环控制的专门硬件。零开销循环是指处理器不用花时间测试循环计数器的值就能执行一组指令的循环，硬件完成循环跳转和循环计数器的增减。有些d s p还通过一条指令的超高速缓存实现高速的单指令循环。 1 . 3 d s p的分类 d s p 处理器可以按照以下的二种方式进行分类 1 -3 1 .按基础特性分浙江大学硕士学位论文这是根据d s p 处理器的工作时钟和指令类型来分类的。如果d s p 处理器在某时钟频率范围内的任何频率上能正常作，除计算速度有变化外，没有性能的下降，这类d s p处理器般称之为静态 d s p处理器。如果有两种或两种以上的d s p 处理器，它们的指令集和相应的机器代码、管脚结构相互兼容，则这类 d s p处理器称之为一致性的d s p处理器。 .按数据格式分这是根据d s p 处理器工作的数据格式来分类的。数据以定点格式_ 作的d s p 处理器称之为定点d s p处理器。以浮点格式工作的称为浮点d s p 处理器。对于定点处理器，按数据处理的格式又可分为1 6 , 2 4 和 3 2 位处理器。在早期的d s p 处理器设计中，由于生产工艺的限制，芯片的集成度不能做到很高，处理器核的电路门数占整个芯片门数的很大部分，其对处理器的成本影响很大，因此从性价比考虑，这些不同数据格式的处理器有界限比较分明的使用场合，如在电气控制和一般信号处理领域, 1 6 位d s p处理器己经有足够的精度。对于音频领域， 2 4 位数据运算才能保证音质。而3 2 位处理器则应用于高端的数据信号处理场合。在这些处理器中，其中1 6 位d s p 处理器应用最为广泛，占据最大的市场份额。但随着生产s艺的巨大进步，尤其是1 0 亿晶体管电路整合在一个芯片上成为可能，处理器核的电路门数限制己不是重要参量，因此 1 6 位， 2 4 位与3 2 位处理器的界限己经日渐模糊，整个市场迅速向3 2 位处理器倾斜。对于浮点处理器，通常是处理器在具有定点处理单元和定点寄存器的同时，额外附加专门的浮点处理单元和浮点寄存器，浮点和定点数据通道并没有交集。不同的处理器具有不同的浮点格式，有些采用自定义的浮点格式，有的d s p 处理器则采用工 e e e 的标准浮点格式。浮点 d s p处理器相比定点处理器具有更大的动态范围，在某些场合如雷达和声纳的信号处理中，数据的动态范围很大，按定点处理会发生溢出，而浮点处理可以很好的解决这个问题对于 1 6 位定点d s p处理器，其动态范围为 9 6 d 6 , 甸增加一位，动态范围增加6 d b ，而 3 2 位浮点d s p 处理器数据的动态范围为 1 5 3 6 d b ,因此浮点运算特别适合大数据动态范围的信号处理虽然从理论上讲，虽然浮点d s p的动态范围比定点 d s p大，且更适合于d s p的应用场合，但采用定点设计可以简化电路的设计，同时可以大大减少执行单元的执行时间和实现的，其对存储器的要求也较低，因此有利于提高处理器的运行频率，同时可以有效降低处理器的功耗和成本，这点对于移动消费电子产品特别重要。同时定点d s p 可以适应大多数数字信号处理任务，因此，定点运算的可编程 d s p器件仍是市场上的主流产品。据统计，目前销售的d s p 器件中的8 0 %以上属于1 6 位定点可编程d s p器件，随着生产工艺的进步，预计今后3 2 位定点可编程d s p 的比重将逐渐增大。而浮点处理器适用于对成本和功耗不敏感并且定点处理器无法胜任的高端应用场合 .按用途分按照d s p处理器的用途来分，可分为通用型d s p处理器和专用型的d s p处理器。通用型d s p处理器具有较丰富的硬件接口和很强的可编程性，适合于各种通常的应用场合，如浙江人学硕士学位论文 t 1 公司的一系列d s p处理器专用型d s p处理器是针对某种具体应用而设计的，其针对特定算法用硬件直接实现，从而达到很高的数据处理能力。常见的有 f f t专用 d s p ，卷积/ 相关器、复数乘加器和模/ 角等;例如mo t o ro l a 公司的d s p 5 6 2 0 0 就是专用的d s p处理器。专用d s p芯片的缺点是灵活性差，不具备自适应处理能力。 1 .4 d s p的实时信号处理数字信号处理器，对实时信号的处理取决于其高速计算的能力。同r i s c 和c i s c 微处理器相比，d s p 有许多为高速数学操作所进行的结构化优化。除了快速数学计算外，一个专门设计的d s p 组合了其他的结构化特性以“ 平衡” 体系结构。在支持d s p 计算能力方面，存储器带宽、工 / 0 带宽和快速中断响应也是处理实时信号时非常重要的方面。d s p 和 i / 0 是紧密相关淤改在“ 现实世界”中实时信号是时间的连续函数。它们必须在进行数字处理前经采样而转换成数字信号。由于d s p 执行实时算法，在单独的样本或实时样本块到达时它将进行离散计算。为了保证实时处理， d s p 必须在样本间隔内或在下一个样本块收集完之前完成这个算法。例如，在处理4 4 . 1 k h z 采样的实时音频信号时，d s p 对一个样本的处理时间不能长于2 2 . 6 7 微秒，这是两次样本间的时间间隔。5 0 m o p s ( 每秒兆操作次数) 的 d s p完成处理的时间仅有 1 , 1 0 0多个指令周期。这 1 , 1 0 0周期包括所有的计算、数据传输和 1 / 0操作。要想成功， d s p 体系结构必须在每个新数据到来时以高度重复的方式有效地执行实时程序。解决重复计算的方法是使精心设计的 d s p能把循环特性组合到硬件中，以便程序流不会浪费宝贵的指令周期。通常，一个 d s p系统的信号处理性能并不主要由其计算性能所决定，更多地取决于其存储99带宽、i / 0 带宽和程序效率。精心设计的d s p必须为有效的数据传输而进行优化，以保证宝贵的计算周期不会浪费。有效的d s p体系结构可以同时完成两个数据传输，因为d s p操作大多数是双操作数的。这些数据传输在计算时并行完成。大的片内存储器和宽的片内总线方便了这些数据传输，并大都消除了片外瓶颈。表征实时信号的数据流通常是高速的。例如，医用图象系统可以很好地依赖高于 1 0 0 k s p s的数据率对实时d s p系统，对采样数据与d s p之间的通讯的支持能力也是很重要的。精心设计的d s p可以在不停止或终止处理的情况下便利地执行 1 / 0 操作。在一些d s p中可以发现满足这些要求的无干扰( n o n - i n t r u s i v e ) 的d m a ( 直接存储器存取) 能力。目前的d s p 体系结构己经通过增加一个指令周期内活动的计算部件数目来提高它们的计算能力。但是，如果没有对存储器和1 / o 带宽的平衡，计算部件很可能遭受 “ 吃不饱” 数据之苦，从而使性能持纯降低浙江大学硕士学位论文 1 . 5 接口总线任何一个处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与处理器直接连接，那么连线将会错综复杂，甚至难以实现。为了简化硬件电路设计和相应的系统结构，常用一组线路，配置以适当的接口电路，与各部件和外围设备连接，这组共用的连接线路被称之为总线。采用总线结构便于部件和设备的扩充，尤其是制定了统一的总线标准后，则可很容易的实现不同设备间的互连。自1 9 7 。年美国d e c公司在其p d p i 1 / 2 0 小型计算机上采用u n ib u s 总线以来，随着计算机技术的迅速发展，推出了各种标准的、非标准的总线。总线技术之所以能够得到迅速发展，是由于采用总线结构在系统设计、生产、使用和维护上有很多优越性。概括起来有以下几点: .便于采用模块结构设计方法，简化了系统设计。 . 标准总线可以得到多个厂商的) 一泛支持，便于生产与之兼容的硬件板卡和软件。 . 模块结构方式便于系统的扩充和升级。 . 便于故障诊断和维修，同时也降低了成本。总之，先进的总线技术对于解决系统瓶颈提高整个系统的性能有着十分重要的影响，总线结构也不断地发展变化。在系统中除了采用总线技术外，还采用了标准接口技术，其目的也是为了便于模块结构设计，可以得到多个厂商的广泛支持，便于生产与之兼容的外部设备和软件。接口一般是指主板和某类外设之间的适配电路，其功能是解决主板和外设之间在电压等级、信号形式和速度上的匹配问题。因此不同类型的外设需要不同的接口，不同的接口是不通用的。例如，硬盘和软盘驱动器的接口是不兼容的，因此不能在硬盘接口上接入软盘驱动器。另一方面，由于目前的一些新型接口标准，如u s b , i e e e 1 3 9 4 等，允许同时连接多种不同的外设，因此也把它们称为外设总线。总线一般有内部总线、系统总线和外部总线。内部总线是内部各外围芯片与处理器之问的总线，用于芯片一级的互连; 而系统总线则是各插件板与系统板之间的总线，用于插件板一级的互连; 外部总线是和外围设备之间的总线，通过该总线和其他设备进行信息与数据的交换，它用于设备一级的互连 1 . 6 系统的软硬件协同设计传统的设计方法将硬件设计和软件设计隔离开来，采取的是所谓硬件 ( 硅片)先行的方法，即先设计硬件，再根据算法设计软件。这种方法不能保证算法应用在该硬件平台上运行的有效性，因此，必须考虑软件和硬件的协同设计问题。从历史上看，软硬件协同设计技术的兴起有两个深层次的原因。其一是由于芯片集成度的提高，带来了硬件设计费用的提高，人们希望通过在相同硬件浙江大学硕士学位论文上运行不同应用软件的方法来降低设计成本，通过从纯硬件设计向可运行软件的硬件设计过渡，可以允许在设计的最后阶段修改系统说明，也可以根据已有系统结构来设计新的系统，从而获得较好的重用性其二是随着v l s i 技术的发展， e d a l _ 具越来越多地介入到系统设计中来，一些成功地软硬件协同设计工具可以及早地发现设计问题或缺陷 ( 如软硬件协同验证工具) ，从而大幅度减少了电子产品的开发周期。针对嵌入式系统， w . w o l f 给出了一个比较详细的软硬件协同设计流程 / 1 - 5 ，见图1 - 1 , 硬件寄存器传输棋块逻辑物理图1 - 1 嵌入式系统的软硬件系统协同设计流程在确定系统结构后，系统设计将被分成以下4 个步骤完成: .分割根据系统需求说明，进行软硬件的划分，初步确定哪些功能由硬件实现，哪些由软件实现。 g u p t a 等提出了一种将功能从硬件向软件迁移的算法 11 -6 ，而 e r n s t 等提出了一种通过在指令流中寻找关键功能并将其映射成硬件的算法 /1 刃。 .定位对步骤 1 中分离出的功能进行重新定位，原来由软件执行的功能可能因为性能或时间上的要求，将被硬件( 通常以协处理器的形式出现) 代替，而原来由硬件完成的功能可能由于考虑到可适应性以及开发时间的要求，将以软件的形式由处理器完成。 .调度在硬件上表现为因为资源( 如数据总线) 共享而分配给每个任务一定的时间片: 编译器的浙江大学硕士学位论文指令调度是由于指令运行时存储单元( 如寄存器) 和运算单元 a l u ) 的限制，而将指令重排，以消除它们之间各种相关性: 实时操作系统上任务的调度主要是考虑到不同任务的实时响应要求。 .映射硬件由固核生成硬核，软件被编译成可运行的代码。 g . m i c h e l i 对 w o l f的理论进行了扩展，虽然在数字系统的设计过程中，由于应用领域、可编程性以及实现特性的不同，个阶段 11 -8 1 。其中实现阶段就是需要不同的设计策略，但是可以归纳为建模、验证和实现三 w . w o l f 所提出的 4 个步骤。建模是将系统功能说明概念化和细化，并分别建立硬件和软件的模型，而验证就是判断系统能否按照设计正常工作，以取得一定的确信度的过程。建模过程的细化 11 -9 1 ，见图1 - 2 . 系统功能说明细化过程建立模型处理器模型处理器模塑丁 .x11? 图1 - 2 细化的建模过程 1 . 7多媒体m d 1 6 核由于系统对于硬件开销的要求也越来越高，就迫使 d s p硬件系统越来越多的设计成嵌入式的d s p 核 1 1 - 1 0 1 。因此嵌入式系统是用来实现通用目的或者复杂的应用算法的首要选择。在此情形下，我们针对多媒体应用的d s p处理器设计了1 6 位嵌入式d s p的核，称之为md 1 6 ，其中m代表是多用途和多媒体，d代表d s p , 1 6 代表是 1 6 位的处理器。md 1 6 处理器微结构见图 1 - 3 . 浙江大学硕上学位论文图 1 - 3 md 1 6 处理器微结构图 md 1 6 内核包括三个主要运算单元( al u , m a c, s h i f i e r ) , 两个地址产生单元( a g u o , a g u i )以及流水线控制单元等:片上存储器包括片七程序存储器 ( 每字为3字节，2 4位; 井且程序存储器司以配胃为任意组合的程序和数翻段) ，片上数据存储器 ( 每字为2字节， . 6 位) ，二维的数据存储模式可以支持同时访问两个数据 ( 一个从数据存储器，另一个从程序存储器数据段) ，因此对实现f i r , i i r和f f t算法特别有效: 并且，处理器包含内置i t a g 模块和接17,支持 t f a g调试模式;其可配置的d m ab o o t控制器具有变位宽传输 ( 8 . 1 6或2 4 位)功能，从而支持高速灵活的片内外数据交换;另外.md 1 6处理器具有丰富的最大可至4 8 m字节的片外存储空间，大大方便了多媒体应用程序和数据的存储. 1 . 8 本文主要研究工作和内容安排本文的主要研究工作都围绕媒体数字信号处理器m d 1 6的设计展开的主要1作和后面各章的内容安排如下第二章探讨了指令集设计，讨论了v l i w指令和md1 6 指令。对 md 1 6 核的设计，重点在流水线数据竟争的克服，以及功能单元和内部存储器的构造。为了提高系统的性能.需要硬件逻辑尽量并行化。本章提出了部分并行的概念，以及部分 s imd 第三章给出了md1 6的总线设计，结合md l 6 和 md 3 2的d ma控制器设计框架，从软、硬件两个方面，结合 d s p的特点，对d m a控制器进行了设计给出了md1 6 和 m d 3 2 d ma 的传输时间公式以及多传输序列的实现方法第四章给出了u s b ip核在md1 6 测试验证平台上的集成，同时还给出了md 1 6的芯片在该平台上的测试方法浙江大学硕 _ 学位论文第二章数字信号处理器核微结构设计 2 . 1 指令集体系结构设计 2 . 1 . 1 指令集设计数字信号处理器指令集首先决定于处理器的功能，其次决定于哪些功能由硬件来实现 ( 提供专用指令 ) ，哪些功能由软件实现山基本指令组合实现) 。此外选择指令集的指令时，还应考虑其对处理器性能的影响以及实际使用的统计分布，同时还应考虑对编译性能的影响。 .处理器应用范围在选择指令时，首先需要考虑的是处理器的应用范围。根据不同的处理器的应用范围，可以添加不同的专用指令，添加专用硬件实现特殊的功能。指令按应用范围分为三类: 基本指令，提供用户最常用的指令: 专用指令，根据应用领域的特殊要求设计，供用户使用; 特权指令，供系统程序员和操作系统使用，一般不允许普通用户使用。 . 指令使用概率根据a m d a h l 定律，处理器性能的改善程度受其采用的快速部件( 被提高性能的部件) 在任务中使用所占的时间百分比限制 12 - 1 1 提高使用概率高的指令执行速度就可以提高系统性有 en . .其他因素指令的设计还适应技术的发展和实际应用情况，同时还应能支持编译系统工作，支持编泽高效性、简易性和可移植性等。此外，设计的指令使硬件译码单元结构简单、速度快。因此，指令设计还应做到: a . 正交性。指令编码的正交性是指各指令构成要素的编码相互正交，不允许出现彼此重复的现象。指令编码正交性保证了微结构译码的唯一性，也保证了指令功能的唯一性。 b规整性。规整性指相同类型的指令应具有相同的指令编码段。指令编码具有规整的结构能够大大简化译码单元的设计，加快译码速度，而译码单元速度往往是处理器速度的瓶颈所在。 c可扩充性。指令编码要保留一定的空间以备今后的扩展。 d 对称性尽可能保持源操作数和目的操作数对称，这样有利于提高编译的效率。在嵌入式系统领域， m ip s 指令 12 -2 1 12 -3 1 以其简单、规整的特点成为r i s c 12 4 1处理器中较为典型的指令结构。而对于 d s p ，有采用类 r i s c指令格式的 ( 例如 t i公司的丁 ms 3 2 0 c 4 x ) ，也有采用编码格式的 ( 例如a d公司的a d 2 1 8 x ) . 浙江大学硕士学位论文 2 . 1 . 2 v l i w指令超长指令字 (v e r y l o n g i n s t r u c t i o n w o r d , v l l w ) 结构 i2 -5 1 是8 0 年代提出来的一种计算机体系结构，在很多领域最新的，高性能的处理器设计中己经被广泛使用。 v l i w类微处理器的指令格式各有不同，但是总的结构特征就是将很多标准的指令捆绑到一条长的指令字中，这个指令字包含了可以在不同的片上或者同一片上的不同功能单元里同时执行的指令。例如在工 a - 6 4 12 .6 1体系结构中( i a - 6 4 指令构成见图 2 - 2 ) ，邮条类 r 工 s c 指令和一个指令模j r ( t e m p l a t e , 5 位) 构成指令束( b u n d l e ) ,指令束中每条指令长度为4 1 位，包括操作码、判断寄存器( p r e d i c a t e r e g i s t e r ) , 源寄存器1 ( s o u r c e r e g i s t e r i ) , 源寄存器2 ( s o u r c e r e g i s t e r 2 ) 、目标寄存器 ( d e s t i n a t i o n r e g i s t e r )操作码扩展、分支目标等 ( o p c o d e x t e n s i o n / b r a n c h t a r g e t / m i s c ) 。模板包括成束信息和预取提示( g r o u p i n g i n f o r m a t i o n a n d p r e f e t c h h i n t s ) 。成束信息用于指明束中指令的类型。这些信息在处理器取出1 束指令时指明各指令分配的功能单元。 i n s t r u c t i o n 2 s l o t i n s t r u c t i o n 1 s l o t i n s t r u c t i o n 0 s l o t t e m p l a t e 图2 - 2 i a - 6 4 指令构成 v l 工 w 结构通过编译器来发现指令间的并行性，通过全局调度技术 ( g l o b a l s c h e d u l i n g t e c h n 咖e ) 12 -7 1* 能够并行执行的指令合并在一起成为一个超长的指令，一次发射一条长指令，其中包含多个操作，由执行部件中的多个功能单元同时执行。 v l i w 指令的最重要的思想，即把若干条可以同时发射的指令可以采用r i s c 指令集，也可以采用其他编码指令集)打包为一条长字指令。对于d s p 系统，设计相应的v l i w 指令，一方面要设计好相应的多条指令的打包策略，另一方面还要注意使每条长指令中包含的多个指令适应d s p 的应用。 v l 工 w 结构可以有效地缓解c p u 内部和外围的i / 0 瓶颈。由于高度的并行性，v l i w 系统的 ( c y c l e p e r i n s t r u c t i o n , c p i ) 平均每条指令所需的周期数是很低的，每条指令周期数大约只有0 . 2 - 0 . 4 . 2 . 1 . 3 md 1 6 指令集 d s p的应用程序一般都是放到片上存储器中的，为了减少芯片面积和功耗要限制指令的宽度。选择指令宽度、芯片的数据宽度、或存储器单元位宽，一般d s p有 1 6 , 2 4 , 3 2 位宽的指令形式。md 1 6 指令位宽选定为2 4 位浙江大学硕士学位论文 d sp 指令针对数据处理领域而设计，重点在于数据处理能力的提高方面，具有丰富的指令寻址模式和指令操作，可进行大量的、实时的数据算术运算，在数据处理程序执行方面功能强大而灵活。d s p处理器除了l o 耐s to re指令外，其它指令也可以直接访问存储单元，并且一条指令可以同时访问多个存储单元，加快了数据的访问速度。除了面向存储器寻址， d s p指令所支持的寻址模式和地址产生方式也是灵活多样如窗口寻址、比特反转) ，指令操作较为丰富 ( 如乘累加、零开销循环等) ，一条指令可以在一个时钟周期内执行多项操作。 m d16 的指令采用编码指令形式 12 一 81 ，即不同指令的控制段可能是不同的字段。正确的译码由指令中的指定位数的值来决定。d s p处理器的指令译码将翻译指令到各控制信号，来控制不同的运算单元。对于编码指令形式 ( 即要限制指令的位宽) ，要获得很大程度上的指令并行性是个很大的挑战。指令结构见表 2 一 2 。图 j 左】 “阿严匹门“ ” 尸il尸川妞，川j 4 _ 尸一曰半干件洲恶巴丝 = 一一 l 缈一华毕一井月奥共 - -l 竺二井一书 - ， 3ijo 。匡丫限面盛 d dr 1 扛q l4- 沙 1 曰冈卜匡，萝一a 盯如pl 沐姐。以以件) 珍目书弓月于甲瓷【互日论 1 恤1 荞峥1 知姚心 - ;漏尸兰一 2 : 。 0 生 1【丁，口昭 p 一 id山_1 地蜻! 月条争任，用曰图书争一- 一一碍需洲麦器一斗手黑辫台示渠黔罕竿升份 l9 luu ll陌，口尸一1下，a 盯肠乡知pl 心 0 卜。 10 1 切州 d 门加幻 1 1 可了阿- r 一鑫 m 鉴冈 o l xdpl 。 o idll一 1 山n di 厂节口 u ll【 r一阿一口- 博研曰，1 场ic灯那1 1 11 寸廿曰于别宁圈甲事墨粉，卜缪，华率一牛今尸粤- 心 o j刃匕，之乙日了，甲，尸一一 1 11。 00 一阵-匡一一 t 一血心 r 吹丁沼犯日 1 1 2 。。0 1匹下【万一万一盯，匹二i d i 犷父。 p 一力吐肠1 11 . 阁 uuu 万cc 一甲甲甲甲甲括斗1升一 -雀毛黔一一拐各瓷旨一一锰锰黔一 1 ， 000匡二叮一厅一门，门一 u 汁1 1 如趁叮一口不，0 00 口立二口，犷. 口一尸产。 1 5 犷卜叉峥。仰卜。 10 一 1 祠划军 1 ，门 lu 。。匡 - 口一日，匡叮一。 ! 。。 u 此，石州 3 肚胜由卜 u 即拉g一 o u 盆么堆幼】 11 。臼。 1口一门，厂万，爪产，i ll m mi 部1 以日亏皿口助1 0 1 0 1 9 uoo 1了，口，丫口一厂 r ，门一川。。 1 0 0 。 1u u lu 且。， c i尸目 d ”1 哥 uuu 1 厂，一布一甲曰图田田侣州侣斗料召月于侣丹瑞从争瑞斗酱丹等一伪m 心工 m 一 22 1! u uo 1芍门日下了， rr 口门u 0 0 1 0 冲 0 1 0 u i卜 u 四 1 o 101 伪. dl 哥于干一豁田图干田田升钊钊七件镖共科召斗号书一别舟险份 l 丝 i o uo 一阿牛陌一门产 - 口一口一了 1 0 10 lu l u lo 旧阳1 。 1 0 10 u lol 。。 l u l o 1 1 2 1 o ou 一而川匡一币，可一1 节一山 0 冲。 10 0 1 0 1 o 1 一 u u l o 101 勃 ilpl 。切朋 uuu 000 田甲甲甲田血洲补己 ld 白 01 和扣1 和下哪污硫曰里习二圈 000 000 -甲孚甲哥田令普鹦锦币巾日分布卡卞石六卜携午旷亩 3 11 i o u。口门冈下了门口勺1 飞门 ll u 。卜 u lu 妞 10 。 1 o i u iu lu l ! u u l o l u l 表2- 2指令结构类型表编码指令同mips指令的区别是显而易见的，那就是期i p s指令的规则性，而编码指令则显的有点凌乱。编码方式的差异直接影响到处理器译码电路的复杂度差异，进而对处理器的结构产生影响。但是编码指令也有自己的优势，即编码自由，可以随意添加新的相今浙江大学硕士学位论文 2 . 2 m d 1 6 核的微结构设计 2 . 2 . 1 md 1 6 流水线 m d 1 6采用四级流水线结构:即 i f( 取指) 级， i d ( 指令译码) 级， e x( 执行) 级， m e m / w r ( 存储器访问和指令结果生成) 级，其中 m e m 和 w r功能时域重叠在第四级。流水线结构和功能见图2 - 3 . .i f级从程序存储器中读取单条2 4 位指令，并产生下一条指令地址。 .工 d级译码i f级读取的指令、产生各种控制信号以及从源寄存器读取数据。检查各种数据和控制相关性，从而决定下一条指令的流向。 .e x级执行算术、逻辑、移位和乘累加等运算，产生存储器访问地址。 .me m/ wr级读写数据存储器和程序存储器的数据段，选择判断指令运行最终结果并向下一个i d级传递数据和写寄存器的控制信号。 c l o c k i s t a g e 1 - . . . t l p p f e rn 1 i ns e . u c hp n d. . . d , dma心已心昌吕 f u n c t i o n r n e x t p c g - . . . tp . p ip e lin , c o n tr o lsh i ft pm - r e 日，之 . . f i l e s 人 c 色，， m a c i m a e 1 人 r .o n a . - 图2 - 3 m d 1 6 流水线结构和功能划分设计流水线时，必须要考虑流水的均衡问题，即各级流水的时延应大致相等。由于处理器的时钟频率决定于流水线的时延最大的流水级，所以当流水级间时延差异过大，将会致使流水线的性能下降。流水各级均衡，可以避免流水线时钟频率受制于少数时延较大的复杂运算操作，提高系统的运行频率。流水均衡示意图见图2 - 4 . 浙江大学硕十学位论文 2 。2m d i6 核的微结构设计 2 2 1 m d l 6 流水线 m d l 6 采用四级流水线结构：即i f m e m w r ( 存储器访问和指令结果生成) 级，水线结构和功能见图2 3 。一 1 f 级 ( 取指) 级，i d ( 指令译码) 级，e x ( 执行) 级，其中m e m 和w r 功能时域重叠在第四级。流从程序存储器中读取单条2 4 位指令，并产生下一条指令地址。 i d 级译码i f 级读取的指令、产生各种控制信号以及从源寄存器读取数据。检查各种数据和控制相关性，从而决定下一条指令的流向。 e x 级执行算术、逻辑、移位和乘累加等运算，产生存储器访问地址。一m e m w r 级读写数据存储器和程序存储器的数据段，选择判断指令运行最终结果并向下一个i d 级传递数据和写寄存器的控制信号。 c l o c k s t a g e f u n c t i o 1 田冈m r o g is t e tf i ics 图2 - 3m d l 6 流水线结构和功能划分设计流水线时，必须要考虑流水的均衡问题，即各级流水的时延应大致相等。由于处理器的时钟频率决定于流水线的时延最大的流水级，所以当流水级间时延差异过大，将会致使流水线的性能下降。流水各级均衡，可h 避免流水线时钟频率受制于少数时延较大的复杂运算操作，提高系统的运行频率。流水均衡示意图见图2 - 4 。 6 浙江大学硕士学位论文厂厂厂露薹薹薹互卫 = 互互互卫区王互夏互圈臣薹窭趸互卫均衡流水示意厂厂厂臣互互噩瑟譬如囵圆匦圃图2 - 4 流水均衡示意图 m d l 6 流水线在取指、译码、回写等级所需的时间大致相当，但在执行级某些功能单元计算上所需的时间就可能相差很大。根据m d l 6 流水线结构，综合流水线各级以及执行级各功能单元的硬件综合的时延数据。m d l 6 的1 6 x 1 6 位乘累加运算单元( m a c ) 的时延远大于其他功能单元。当时钟设计为1 5 0 m h z 时，执行级的a l u 、s h i f t e r 、地址产生( a g u ) 等功能单元可以一拍内完成，取指、译码、回写等级也可以保证在一拍内完成，而m a c 则不能。根据初步综合的结果，m a c 关键路径占e x 级总关键路径9 0 以上。为避免m a c 的影响而致使m d l 6 的系统频率上不去，m d l 6 采用了一种基于按序发射按序完成的可伸缩e x 级流水扩展方案；即e x 级的流水级数是可变的( 1 拍或2 拍) ，相对于不同的指令，e x 级执行不同的流水拍数。m a c 运算功能部件根据运算操作的复杂度和流水时钟周期约束，分解成适当的流水级数。由于采用按序发射按序完成，因此不会带来控制的复杂化，同时可以有效避免w a w 型数据竞争。可扩展流水线结构的原理图见图2 - 5 。将流水线扩展后，从概率统计的角度看程序在流水线上时每条指令运行时间的长度大于4 个时钟而小于5 个时钟，但是m d l 6 的系统频率可以满足15 0 m h z 的要求，流水线的性能优于不扩展时的性能。经过内部流水扩展，m a c 关键路径占e x 级总关键路径的7 41 ，而此时的e x 级总的关键路径缩短了1 2 1 2 。图2 - 5 可扩展e x 级流水线结构原理示意图 2 2 2 数据竞争的克服流水线丁作时的主要障碍就是流水线竞争。流水线竞争会使处理器的加速比远小于理想 7 浙江大学硕士学位论文情况，而加速比是衡量流水线的一个重要指标【2 1 j 。必须要采取措施克服流水线的竞争问题。一般在i d 级检测所有的数据竞争。如果检测到有数据竞争存在，则在指令发射前插入 s t a l l 或者启动旁路机构。数据竞争检测是越早越好，这样可以减少硬件的复杂性。对旁路情况的检测可以在进入使用相关操作数流水级开始时进行。对于数据竞争叫以通过软件和硬件的方法加以克服： ( 1 ) 硬件 a 旁路机制 m d l 6 中的旁路分为以下几类： _ 流水级间的旁路 i d 接受i d 本身的界面寄存器的输出、e x 级界面寄存器的输出和m e m 级界面寄存器的输出三路旁路通路。这些旁路通路节省了典型r i s c 结构处理器的写回级，在构造上为降低c p i 做出了贡献。功能单元间的旁路作为内部流水扩展的m a c 算术功能单元它的部分输出为下一个时钟周期m a c 运算的输入，故需要有内部的旁路。可以看到，这类旁路也是寄存器锁存后输出，故不会引起组合逻辑的回路，导致核关键路径的延长。 _ 寄存器文件的旁路当寄存器文件在当前时钟周期被写入，同时又被后续指令读取时，这类旁路的存在进一步加快寄存器文件的访问，降低了数据竞争的出现概率。 m d l 6 的旁路机制包括数据和控制旁路通道。目标数据从译码产生控制信号到将其写入寄存器之前在流水线中需要经过四个周期的流动，如果当前操作需要此数据，本着即得即用的原则，数据一得出，通过专用的数据通道直接传送，而前置的控制通道可以同步的提供控制选择信号；通过这种机制，程序的数据冲突可以有效消除，流水线的停顿亦大大减少。旁路数据通道都是基于时钟锬存后输出，不会在各流水级中形成回路，因此各级流水线的关键路径时延不会显著增加。 b 停顿旁路机制可以有效消除大部分的数据竞争，但仍有少部分的数据竞争不能消除，可以采用在流水中加入插入s t a l l 的方法。在流水线内锁电路检测数据相关，并插入s t a l l ，直到数据竞争可以用旁路电路消除为止。 ( 2 ) 软件用编译调度来调度指令的序列，即流水线静态调度或者指令调度。编译调度改善流水线性能，不仅可以连续指令问的次序调度，在同一个基本块中还可以调用其他的指令，插入l o a d 指令后来消除竞争。采用这种软件调度避免数据竞争是成功的。l o a d 操作后的指令不用其浙江大学硕士学位论文结果的方法也称为延时加载( d e l a y e dl o a d ) ，而在l o a d 指令后，要安插调度指令的地方称为延时槽( d e l a vs l o t ) 1 2 9 】当编译器没有指令可用来调入延时槽时，可以用n o p 空操作指令代替，这样不会影响执行时间，仅仅是增加了代码空间。 2 2 3 m d l 6 功能单元 alu a l u 模块除了完成基本的a l u 操作外，还必须处理寄存器问数据移动。a l u 模块中的核心部件是a l u ，它是一个组合电路，能完成加减、逻辑等基本操作。寄存器间数据移动主要通过对寄存器使能信号的控制来实现。 a l u 是一个1 6 位宽的有着两个1 6 位输入端口x 和y ，以及一个输出端口r 。x 端口的源可以为：a x o ，a x i ，a r ，m r 0 ，m r i ，m r 2 ，s r 0 ，s r l ：y 端口的源可以为：a y 0 ，a y l ，a f ； r 端口的目的可以为：a r , a f 。a l u 接收一个进位c i ，这个进位是从处理器的算术状态寄存器( a s t a t ) 得到的。a l u 产生6 个状态信号零状态( a z ) 信号，负状态( a n ) ，进位状态( a c ) ，溢出状态( a v ) ，x 输入符号状态( a s ) ，以及商状态( a q ) 。所有的算术状态信号在周期的最后都被锁存在算术状态寄存器( a s r a t ) 中。 a l u 的输入x 端口可以接收两个来源的数据：a x 寄存器文件或者r 总线。r 总线连接输出寄存器的所有的计算单元，允许它们可以直接用作输入操作数。a x 寄存器文件专门为x 输入端口，它由两个寄存器a x 0 和a x l 。这些a x 寄存器是可以被d m d 总线可读可写的。指令集也提供指令在p m d 总线上可以读取这些寄存器，但是没有直接的连接，这些操作是采用p m d ，d m d 总线交换单元。a x 寄存器文件输出是一个双端口，以便一个寄存器可以提供输入到a l u 而同时可以驱动d m d 总线。 a l u 的y 端口输入可以接收两个来源的数据：a y 寄存器文件和a l u 反馈( a f ) 寄存器。a y 寄存器是专门对于y 输入端口，它由两个寄存器组成，a y 0 和a y l 。这些寄存器是 d m d 总线可读可写的，对于p m d 总线也是可写的。指令集也提供在p m d 总线上读这些寄存器，但是没有直接的连接，这些操作是采用p m d d m d 总线交换单元。a y 寄存器单元输出同样也是双口的：一个a y 寄存器可以提供输入到a l u 中去，而另一个同时驱动d m d 总线。 a l u 的输出载入到a f 寄存器或者a l u 结果寄存器( a r ) 或者被丢弃。a f 寄存器是一个a l u 内部的寄存器，允许a l u 的结果作为y 的输入，直接应用。a r 寄存器可以驱动 d m d 总线和r 总线。它同样也是可以从d m d 总线直接载入。指令集同样提供在p m d 总线上读a r ，但是还是没有直接的连接，这些操作采用p m d d m d 总线交换单元。所有同a l u 操作相关的寄存器可以在同一个时钟周期内同时读取和写。在一个处理器时钟开始的时候读寄存器，在结束的时候写寄存器。一个寄存器读，读出的值是在上一个周期的结束时写

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）数字信号处理器的设计研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）数字信号处理器的设计研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档