




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、计算机体系结构重点1、 并行线索:时间,空间的并行并行性:计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作2、 资源重复,时间重叠,资源共享资源重复:通过重复设置硬件资源,大幅度提高计算机系统的性能。(多处理机系统)时间重叠:多个处理过程在时间上相互错开,轮流、重叠地使用同一套硬件设备的各个部分。(流水线)资源共享:软件方法,使多个任务按一定时间顺序轮流使用同一套硬件设备。(多道程序、分时系统)3、 数据并行:字、位(1) 流水线的指令并行(2) 超流水线:细分时间(3) 超标量流水线:重复设置流水线(4) 向量机:流水线,数据并行(5) 提高cache命中率(6) 多机系统,线程级并
2、行(CMP)4、 局部性(1) 存储系统原理(2) 提高cache命中率(victim cache,伪相联cache)(3) cache有好程序(空间、时间局部性)有些去年的题都没有被老师的提纲点出来,崩溃了。蓝色的没查到,晕了。红色的太庞大,懒了。-卖萌了by备(分章解读)一、概论1、 计算机体系结构与组成原理,实现的关系,基本概念(兼容、模拟、仿真)层次:微程序语言、机器语言、(操作系统虚拟机)、<-解释的方法实现-用翻译的方法实现->汇编语言、高级语言、应用语言硬件逻辑优点:速度快虚拟机:由软件实现的机器,以区别于由硬件/固件实现的物理机器计算机系统结构:程序员所看到的计算机
3、属性,即概念性结构与功能特性计算机组成:计算机系统结构的逻辑实现,包含物理机器中的数据通道和控制信号的组成以及逻辑设计等。计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。计算机系统机构的研究对象:计算物理系统的抽象和定义;具体包括:数据表示;寻址方式;寄存器定义;指令系统;存储结构;中断系统;机器工作状态定义和切换;I/O系统;总线结构;系统安全与保密;结构、组成和实现三者关系:结构是计算机系统的软、硬件界面;组成是计算机系统结构的逻辑实现;实现是九三级组成的物理实现;软件兼容:同一个软
4、件可以不加修改地运行于系统结构相同的各个机器上,而且所得结果一致;向上(下)兼容:低(高)档机器的目标程序不加修改就可以运行于高(低)档机器。一般向上兼容。前后兼容:指按系列机投放市场先后,实现软件兼容。一般向后兼容。模拟:用机器语言解释实现程序移植的方法;(用机器语言,程序在主存储器)仿真:直接用微程序去解释另一种机器的指令系统;(用微程序,程序在微程序存储器)2、 Amdahl(定律加速比公式)S=Fi:可改进比例Si:部件加速比应用见大题;3、 计算机体系结构设计的主要方法(三个方面。软硬件平衡)(1) 确定用户对计算机系统的功能、价格和性能要求(2) 软、硬件平衡:性价比与实现的难易程
5、度(3) 系统结构设计应符合今后发展方向4、 计算机体系结构的评价标准(,CPI,平均CPI,MIPS)CPI:(IC:指令数;CPI:每条指令周期)5、 冯诺依曼计算机(顺序执行(串行执行),程序存储,集中控制,以ALU为核心)控制流计算机(1) 以ALU为中心(2) 在存储器中,指令和数据同等对待(3) 存储器是按地址访问、按顺序线性编址的一维结构,每个存储单元的位数是固定的(4) 指令是顺序执行的(5) 指令由操作码和地址码组成(6) 指令和数据均以二进制编码表示,采用二进制运算6、 体系结构分类方法(Flynn分类法:指令流,数据流,多倍性)Flynn:按指令流和数据流的多倍性进行分类
6、。指令流:机器执行的指令序列数据流:由指令流调用的数据序列多倍性:在系统受限的部件上,同时处于同一执行阶段的指令或数据的最大数目SISD(单指令流单数据流(缩写):传统的顺序处理计算机、标量流水线处理机SIMD:阵列处理机、向量流水线处理机、相联处理机MISD:无MIMD:大多数多处理机和多计算机系统;(处理机之间相互作用程度高,紧密耦合)7、 非冯诺依曼计算机(数据流驱动、需求驱动)二、流水线(并行概念)1、 流水线基本概念(如何实现并行、多个取指、分析、执行部件)(1) 流水线:加快指令的解释过程,提高指令的并行性(2) 如何实现:(重叠技术)取指分析子过程在指令分析器里完成,执行子过程在
7、执行部件实现。这两个部件是独立的。如果分析子过程所需时间=执行子过程所需时间(分析周期=执行周期),那么执行部件里处理第n条指令的执行子过程时,分析器里处理的是第n+1条指令的分析子过程。2、 先行控制技术(预处理、缓冲),锁存技术(1) 先行控制技术:缓冲+预处理技术结合;通过对指令流和数据流的先行控制,尽量使指令分析部件和执行部件处于忙碌状态。(2) 缓冲技术:在工作速度不固定的两个功能部件之间设置缓冲器,用以平滑他们的工作(3) 预处理技术:预取指令、对指令进行加工以及预取操作数等。3、 指令并行的空间并行和时间并行性:时空图*主要见大题 时钟周期 指令123456789指令kIFIDE
8、XMEMWB指令k+1IFIDEXMEMWB指令k+2IFIDEXMEMWB指令k+3IFIDEXMEMWB指令k+4IFIDEXMEMWB指令周期取处存处修改IF(取指令周期)存储器指令寄存器IRPC+=4ID(指令译码/读寄存器周期)IR寄存器编号、通用寄存器组读出操作数EX(执行/有效地址计算周期)-MEM(存储器访问/分支完成周期)存储器(load指令)(store指令)存储单元PC(分支指令)WB(写回周期)通用寄存器组IF-MEM可能冲突ID-WB可能冲突4、 线性流水线(动静态)的性能分析(加速比、吞吐率、效率、瓶颈)(1) 静态流水线:在同一时间段内,多功能流水线中的各段只能按
9、同一种功能的连接方式工作(2) 动态流水线:-可以按照不同的方式连接,同时执行多种功能(3) 线性流水线:流水线的各段串行连接,没有反馈回路(4) 非线性流水线:-,还有反馈回路(5) 吞吐率(TP):单位时间内流水线所完成的任务数量或输出结果的数量(6) 加速比(S):完成同样一批任务,不用流水线所用时间与使用之比(流水线各段时间相等)(流水线各段时间相等)(7) 效率(E):流水线中的设备实际使用时间与整个运行时间的比(流水线各段时间相等)(流水线各段时间相等)(流水线各段时间相等)(各段时间不等)(8) 细分瓶颈段:把大的瓶颈分为若干等时间的小的段(9) 重复设置瓶颈段:把连续几次大的瓶
10、颈并行5、 非线性流水线的调度问题(性能分析)*主要见大题,以下是会做的方便记的自我总结的方法(1) 禁止表F:每行X(或)相隔距离组合(2) 冲突向量:从右向左书写禁止表(有的地方写1,没的写0)(3) 状态有向图:不断右移冲突向量,出1继续移,出0按位或,得新状态再继续(4) 最优调度策略:所有策略列表,算平均时间间隔,如策略(x,y,z)时间为(x+y+z)t/3(5) 实际吞吐率、加速比、效率:按照定义来算;吞吐率:加速比:效率:流水线中的设备实际使用时间与整个运行时间的比6、(1) 流水线相关性分析(数据,名,控制相关)i,j,k指令两两数据相关:,:,:,i,j指令名相关(反相关、
11、输出相关):,:,S1与p1控制相关:if p1 S1;(2) 相应引起的冒险(冲突)(数据,结构,控制冒险)结构冲突:因硬件资源满足不了指令重叠执行的要求而发生的冲突(硬件资源冲突)数据冲突:当指令在流水线中重叠执行时,因需要用到前面指令的执行结果而发生的冲突(数据相关&名相关)控制冲突:流水线遇到分支指令和其他会改变PC值得指令所引起的冲突(控制相关)(3) 处理方式*(见大题)数据相关,结构冒险(写读、读写、写写)推后执行(加入stall)设置相关专用通路(定向技术)静态调度技术(编译技术、乱序)动态调度技术(Tomasulo算法->要求不高,理解;寄存器换名,动态监测,保
12、留栈)控制相关延迟转移提前形成条件码编译技术(分支失败、分支成功、延迟槽(ReOrderBuffer)动态转移预测技术(分支历史表BHT)7、 精确断点与不精确断点(1) 不精确断点:流水线可以不断流;需要的硬件比较少,控制逻辑比较简单;中断响应时间加长;(2) 精确断点:流水线一定中断;要设置一定数量的后援寄存器(3) 定义:对于输入输出设备的中断服务,使中断指令现场和其后已进入流水线的指令得到保护,并保证流水线可以恢复中断。8、 超标量与超流水线处理机(概念指令并行度(ILP),区别,指令相关性分析,超标量发射性能分析)(1) 超流水线处理机:一个时钟周期内能够分时流出多条指令的处理机(指
13、令流水线级数为8+)(2) 超标量处理机:使用了多指令流水线,每个时钟周期发射多条指令并产生多个结果(3) 不同: 处理机不同超流水线处理机超标量处理机并行性时间并行性空间并行性指令发射度2-5ILPm>ILP>1(m条指令)9、 循环展开和指令调度(1) 循环展开:是一种牺牲程序的尺寸来加快程序的执行速度的优化方法。<-来自百度0.0!增加指令间并行性,开发循环级并行性。循环的不同迭代之间存在的并行性。三、向量机(并行性)->要求不高,概念,方式1、 向量机的基本概念和原理:流水线,多处理机(向量指令、内部寄存器),链接技术,半性能向量长度(1) 向量处理机:设置了向
14、量数据表示和相应的向量指令的流水线处理机(2) 半性能向量长度n1/2:向量处理机的运行性能达到其峰值性能R的一半时所必须满足的向量长度。越小越好(3) 流水线:讲一个重复的时序过程分解为若干子过程,而每个子过程都可以有效地在其专用功能上与其他子过程同时执行。(4) 多处理机:包含两个或两个以上功能大致相同的处理器;所有处理器共享一个公共内存;所有处理器共享I/O通道、控制器和外围设备;整个系统由统一的操作系统控制,在处理器和程序之间实现作业、任务、程序段、数组和数组元素等各级的全面并行。2、 满足运算器带宽要求的存储系统(存储器-存储器结构,寄存器-寄存器结构)(1) 存储器-存储器结构:主
15、存由多个模块构成,流水处理部件与主存系统之间有三条独立的数据通路(两条输入,一条输出),个数据通路可以同时工作,但一个存储模块在某一个时刻只能为一个通路服务。工作特点:源向量都取自主存,且结果向量也存放到主存中(2) 寄存器-寄存器结构:主存系统和向量功能部件之间插入了一个小容量的高速向量寄存器组,可以得到较大的带宽。大部分操作在向量寄存器之间进行,减少访存次数,降低对主存带宽要求。工作特点:源向量都取自向量寄存器,且结果也存放到向量寄存器中3、 向量处理方式(横向,纵向,纵横向):D=A*(B+C)(1) 横向处理方式:for(i=1,i<=n,i+)ki=bi+ci;di=ki*ai
16、(2) 纵向处理方式:for(i=1,i<=n,i+)ki=bi+cifor(i=1,i<=n,i+)di=ki*ai(3) 纵横向处理方式:N=S*n+r;(N为向量长度,S为组数,n为每组长度,r为余数)for(j=1,j<=S+1,j+)for(i=(j-1)n+1,i<j*n,i+)ki=bi+cifor(i=(j-1)n+1,i<j*n,i+)di=ki*ai4、 向量处理机性能分析(指令执行时间,编队)(1) 向量指令流水线处理时间TVP:5、 提高向量处理机性能常用方法(设置多个功能部件,向量链接技术,分段开采技术,向量递归)(1) 链接技术:具有先
17、写后读相关的两条指令,在不出现功能部件冲突和源向量冲突的情况下,可以把功能部件链接起来进行流水处理,以达到加快执行的目的。-流水线的定向技术在向量处理机中的应用-省去每个元素多余的存储时间(2) 分段开采技术:向量的长度大于向量寄存器长度->把长向量分成长度固定的段,然后循环分段处理,每一次循环只处理一个向量段。(3) 向量递归:对一维数组归约求值结果是一个标量-两种方法解决->1、 将归约操作分解为可向量化部分和递推求和部分;2、或者在递推求和部分采用递归折叠技术,他是加快向量归约操作的有效方法。四、存储系统(局部性)1、 体系结构的存储系统(虚拟存储器、容量、cache存储系统
18、,速度)(1) 虚拟存储器:“主存-辅存”层次进一步发展的结果。(2) 容量、速度、价格的关系:容量:每位价格:(3) Cache存储系统:作用:弥补主存速度不足结构:分成块(行),每块由若干字(字节)组成速度:主存的2-4倍2、 三个主要问题(地址映像、地址变换、替换算法)详见大题(1) 映像规则:全相联(n:1)、直接相联(1:n)、组相联(n:n)(2) 替换算法:随机法;FIFO;LRU3、 存储系统性能分析(访问周期、命中、访问效率、CPI)令:M1和M2两个存储器构成两级存储层次结构,假设M1的容量、访问时间和每位价格分别为S1、TA1、C1;M2的参数为S2、TA2、C2(1)
19、存储层次的平均每位价格C:(2) 命中率H:(3) 失效率F:F=1-H(4) 平均访存时间TA:TM为失效开销“()”TA2为M2的访问时间(5) CPI见上。4、 虚拟存储器(同样的三个问题)段式、页式、段页式(1) 页式:把空间划分为大小相同的块-页面。机械划分(2) 段式:把空间划分为可变长的块-段。逻辑划分(3) 段页式:每段被划分成若干页面。5、 高速缓冲存储器(地址映像、地址变换、替换算法、写入)全相联(1) 地址变换:用硬件实现;(2) 替换算法:采用堆栈算法或比较对法等硬化处理;绝大多数采用LRU算法(3) 地址映像:一般采用组相联映像。全相联将使变换表容量过大而降低访问速度
20、(4) 写入:采用预取算法:提高命中率(不一定提高)6、 替换算法(FIFO,LRU,LFU,OPT)大家都懂。(1) FIFO先进先出(2) LRU最近最久未使用7、 Cache Friendly(局部性)(1) 程序访问局部化性质:Cache得以实现的原理基础(2) 在一个较短的时间间隔内,程序所产生的访存地址往往集中在存储器地址空间的小范围内。8、 cache 一致性问题(写直达、写回法)(1) 写直达法(存直达法):执行“写”操作时,不仅把信息写入Cache中相应块,而且也写入下一级存储器中相应块(2) 写回法(拷回发):只把信息写入Cache中相应块,该块只有在被替换时,才被写回主存
21、。9、 改进cache性能(三种失效3C、失效率、失效开销、命中时间)(1) 降低失效率(2) 减少失效开销(3) 减少命中时间(4) 三种失效3C:强制性失效:当第一次访问一个块时,该块不在Cache中,需从下一级存储器中调入Cache。容量失效:程序执行时所需的块不能全部调入Cache中,则当某些块被替换后,被重新访问,就会失效。冲突时效:在组相联或直接映像Cache中,若太多的块映像到同一组块中,则会出现该组中某个块被别的块替换、然后又被重新访问的情况。10、 改进cache性能方法:(1) 增加cache块大小(2) 提高相联度(3) victim cache(4) 伪相联cache(
22、5) 编译器优化(6) 非阻塞cache技术(7) 多级cache(8) 写缓冲合并(9) 结构简单的cache五、互连网络:并行性(概念、理解)1、 互连网络基本概念:CPU耦合(定时方法:同步异步;交换方法;控制策略;拓补结构)(1) 互连网络:一种由开关元件按照一定的拓补结构和控制方式构成的网络,用来实现计算机系统中结点之间的相互连接(2) 定时方式:同步:使用一个统一的时钟(SIMD阵列处理机);异步:没有统一时钟;(3) 交换方法:线路交换:源结点和目的结点之间的物理通路在整个数据传送期间一直保持连接;分组交换:把信息分割成许多组(包),将他们分别送入互联网络。数据包可通过不同路径传
23、送,到达目的后再拼合成原数据。结点之间不存在固定连接的物理通路;(4) 控制策略:集中式:有个全局的控制器接收所有的通信请求,并由他设置互联网络的开关连接;分散式:不存在全局控制器,通信请求的处理和开关的设置由互联网络分散进行;(5) 拓补结构:静态:在各结点之间有专用的连接通路,且在运行过程中不能改变;动态:可根据需要设置互联网络中的开关,从而对结点之间的连接通路进行重新组合,实现所要求的通信模式。2、 互连网络的特性和性能参数(网络规模、结点度、距离、网络直径)(1) 特性:网络规模:网络中结点的总数,反映网络连接的部件多少结点度:与结点相连接的边数距离:两个结点间相连的最少边数网络直径:网络中任意两个结点之间距离的最大值聚集带宽:从一半结点到另一半结点,每秒传输的最大位数(b/s)或字节数(B/s)等分带宽:当某一网络被分成相等的两半时,沿分界面的最小边数结点间的线长:两个结点间连线的长度网络对称性:如果从网络任一结点看出去的拓补结构都是一样的,则称该网络为对称网络(2) 性能参数:频宽:网络传输信息的最大速率,也称传输速率(b/s)传输时间:消息(报文)通过网络的时间,等于消息长度除以频宽传播时延:报文的第一位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年艺术与文化管理专业考试题及答案
- 2025年通信产品开发工程师考试试题及答案
- 会计学第一章试题及答案
- 民法总论考试题库及答案
- 北京南天java面试题及答案
- 2025年市场调查与分析能力测试题及答案
- 2025年空间设计与规划专业考试试题及答案
- 市场营销策略在互联网行业的应用与实践试题集
- 网络工程基础知识强项试题及答案
- 食品采购供货合同
- 小学生认识医生的课件
- 2023-2024学年人教版数学八年级下册期末复习试卷(含答案)
- 拔火罐法操作流程及评价标准
- 药棒穴位按摩治疗技术
- 传递过程原理知到智慧树章节测试课后答案2024年秋华南理工大学
- 中国科学院大学《机器学习(一级核心)》2021-2022学年第一学期期末试卷
- 风幕机安装施工方案
- 《学科建设》课件
- 【MOOC】树木学-北京林业大学 中国大学慕课MOOC答案
- 宁德时代推出“宁家服务”
- LNG供应链优化方案
评论
0/150
提交评论