计算机组成原理第三章多层次的存储器.ppt

上传人：油*** IP属地：浙江上传时间：2020-03-22 格式：PPT 页数：134 大小：4.27MB 积分：35 举报 版权申诉

已阅读5页，还剩129页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 第三章多层次的存储器 3 1存储器概述3 2SRAM存储器3 3DRAM存储器3 4只读存储器和闪速存储器3 5并行存储器3 6Cache存储器3 7虚拟存储器3 8奔腾系列机的虚存组织返回 2 3 1存储器概述 3 1 1存储器的分类3 1 2存储器的分级3 1 3主存储器的技术指标返回 3 1 1存储器的分类一个双稳态半导体电路或一个晶体管或一个磁性材料的存储元可以存储一位二进制代码这个二进制代码位是存储器中的最小存储单元称作存储位元一个存储单元由多个存储位元组成存储器由多个存储单元组成 4 3 1 1存储器的分类按存储介质分类磁表面半导体存储器按存取方式分类随机顺序存取随机存取存储内容能被随机读取存取时间与物理位置无关半导体顺序存取存储内容只能按顺序访问磁带磁盘结构柱面磁道扇区半顺序存储器按读写功能分类 ROM RAMRAM 双极型 MOSROM MROM PROM EPROM EEPROM按信息的可保存性分类永久性和非永久性的按存储器系统中的作用分类主辅缓 5 磁表面存储器的读写原理写操作当写线圈中通过一定方向的脉冲电流时铁芯内就产生一定方向的磁通读操作当磁头经过载磁体的磁化元时由于磁头铁芯是良好的导磁材料磁化元的磁力线很容易通过磁头而形成闭合磁通回路不同极性的磁化元在铁芯里的方向是不同的磁盘结构盘片的上下两面都能记录信息通常把磁盘片表面称为记录面记录面上一系列同心圆称为磁道每个盘片表面通常有几百到几千个磁道每个磁道又分为若干个扇区从图中看出外面扇区比里面扇区面积要大磁盘上的这种磁道和扇区的排列称为格式磁盘地址由记录面号磁道号扇区号三部分组成为进行读写操作要求定出磁道的起始位置称为索引索引标志在传感器检索下可产生脉冲信号再通过磁盘控制器处理便可定出磁道起始位置磁盘读写操作以扇区为单位一位一位串行进行每个扇区记录一个数据块磁盘上信息的分布 8 磁盘上信息的分布空白段留出时间作为磁盘控制器的读写时间序标磁盘控制器的同步定时信号校验字用来校验磁盘读出的数据是否正确 9 3 1 2存储器的分级目前存储器的特点是速度快的存储器价格贵容量小价格低的存储器速度慢容量大在计算机存储器体系结构设计时我们希望存储器系统的性能高价格低那么在存储器系统设计时应当在存储器容量速度和价格方面的因素作折中考虑建立了分层次的存储器体系结构如下图所示 10 3 1 2存储器的分级高速缓冲存储器简称cache 它是计算机系统中的一个高速小容量半导体存储器主存储器简称主存是计算机系统的主要存储器用来存放计算机运行期间的大量程序和数据外存储器简称外存它是大容量辅助存储器 CAI 外存主存 Cache CPU 读取时间依次为 ms200ns20ns10nsCPU能直接访问内存不能直接访问外存主存 Cache 主存与CPU速度匹配问题外存主存容量 12 3 1 3主存储器的技术指标字存储单元存放一个机器字的存储单元相应的单元地址叫字地址字节存储单元存放一个字节的单元相应的地址称为字节地址一个机器字可以包含多个字节例如一个16位的二进制存储单元可以存放两个字节可以按字编址也可以按字节编址存储容量指一个存储器中可以容纳的存储单元总数存储容量越大能存储的信息就越多存取时间又称存储器访问时间指一次读操作命令发出到该操作完成将数据读出到数据总线上所经历的时间通常取写操作时间等于读操作时间故称为存储器存取时间存储周期指连续启动两次读操作所需间隔的最小时间通常存储周期略大于存取时间其时间单位为ns 存取周期存取时间恢复时间存储器带宽单位时间里存储器所存取的信息量通常以位秒或字节秒做度量单位存取周期500ns 每个存取周期可访问16位带宽是16 500 10 9 32 106位秒 13 3 2SRAM存储器 3 2 1基本的静态存储元阵列3 2 2基本的SRAM逻辑结构3 2 3读写周期波形图 14 3 2SRAM存储器主存内部存储器是半导体存储器根据信息存储的机理不同可以分为两类静态读写存储器 SRAM 触发器存取速度快存储容量不如DRAM大动态读写存储器 DRAM 电容 15 3 2 1基本的静态存储元阵列 1 存储位元2 三组信号线地址线数据线行线列线控制线R W高电平读低电平写 CAI 16 3 2 2基本的SRAM逻辑结构 SRAM芯大多采用双译码方式以便组织更大的存储容量采用了二级译码将地址分成x向 y向两部分如图所示读入时 G1关闭 G2打开 8输入缓冲器关闭 8输出缓冲器打开写入时 G1打开 G2关闭 8输入打开 8输出关闭 CAI 17 3 2 2基本的SRAM逻辑结构存储体 256 128 8 通常把各个字的同一个字的同一位集成在一个芯片 32K 1 中 32K位排成256 128的矩阵 8个片子就可以构成32KB 地址译码器采用双译码的方式减少选择线的数目 A0 A7为行地址译码线A8 A14为列地址译码线 18 3 2 2基本的SRAM逻辑结构读与写的互锁逻辑控制信号中CS是片选信号 CS有效时低电平门G1 G2均被打开 OE为读出使能信号 OE有效时低电平门G2开启当写命令WE 1时高电平门G1关闭存储器进行读操作写操作时 WE 0 门G1开启门G2关闭注意门G1和G2是互锁的一个开启时另一个必定关闭这样保证了读时不写写时不读 19 3 2 3读写周期波形图读周期读出时间Taq读周期时间TrcTeq 片选有效Tgq 读出使能有效写周期写周期时间Twc写时间twdThd维持时间存取周期读周期时间Trc 写时间twc CAI 20 例1 图3 5 a 是SRAM的写入时序图其中R W是读写命令控制线当R W线为低电平时存储器按给定地址把数据线上的数据写入存储器请指出图3 5 a 写入时序中的错误并画出正确的写入时序图 CAI 21 3 3DRAM存储器 3 3 1DRAM存储位元的记忆原理3 3 2DRAM芯片的逻辑结构3 3 3读写周期刷新周期3 3 4存储器容量的扩充3 3 5高级的DRAM结构3 3 6DRAM主存读写的正确性校验 22 3 3 1DRAM存储位元的记忆原理 SRAM存储器的存储位元是一个触发器它具有两个稳定的状态而DRAM存储器的存储位元是由一个MOS晶体管和电容器组成的记忆电路如图3 6所示 23 3 3 1DRAM存储位元的记忆原理 CAI 24 3 3 2DRAM芯片的逻辑结构下面我们通过一个例子来看一下动态存储器的逻辑结构如图图3 7 a 示出1M 4位DRAM芯片的管脚图其中有两个电源脚两个地线脚为了对称还有一个空脚 NC 图3 7 b 是该芯片的逻辑结构图与SRAM不同的是 1 增加了行地址锁存器和列地址锁存器由于DRAM存储器容量很大地址线宽度相应要增加因此增加了芯片地址线的管脚数目为避免这种情况采取的办法是分时传送地址码若地址总线宽度为10位先传送地址码A0 A9 由行选通信号RAS打入到行地址锁存器然后传送地址码A10 A19 由列选通信号CRS打入到列地址锁存器芯片内部两部分合起来地址线宽度达20位存储容量为1M 4位 2 增加了刷新计数器和相应的控制电路 DRAM读出后必须刷新而未读写的存储元也要定期刷新而且要按行刷新所以刷新计数器的长度等于行地址锁存器刷新操作与读写操作是交替进行的所以通过2选1多路开关来提供刷新行地址或正常读写的行地址 25 3 3 2DRAM芯片的逻辑结构 CAI 26 3 3 3读写周期刷新周期 1 读写周期读周期写周期的定义是从行选通信号RAS下降沿开始到下一个RAS信号的下降沿为止的时间也就是连续两个读周期的时间间隔通常为控制方便读周期和写周期时间相等 CAI 27 3 3 3读写周期刷新周期 2 刷新周期刷新周期 DRAM存储位元是基于电容器上的电荷量存储这个电荷量随着时间和温度而减少因此必须定期地刷新以保持它们原来记忆的正确信息刷新操作有两种刷新方式集中式刷新 DRAM的所有行在每一个刷新周期中都被刷新例如刷新周期为8ms的内存来说所有行的集中式刷新必须每隔8ms进行一次为此将8ms时间分为两部分前一段时间进行正常的读写操作后一段时间 8ms至正常读写周期时间做为集中刷新操作时间 3 3 3读写周期刷新周期分散式刷新每一行的刷新插入到正常的读写周期之中例如p70图3 7所示的DRAM有1024行如果刷新周期为8ms 则每一行必须每隔8ms 1024 7 8us进行一次动态RAM和静态RAM的比较 DRAM 主存 SRAM Cache 存储原理电容触发器存储容量大小功耗低高价格低高速度慢快刷新有无 30 3 3 4存储器容量的扩充 1 字长位数扩展给定的芯片字长位数较短不满足设计要求的存储器字长此时需要用多片给定芯片扩展字长位数三组信号线中地址线和控制线公用而数据线单独分开连接 d 设计要求的存储器容量选择芯片存储器容量例2 利用1K 4位的SRAM芯片设计一个存储容量为1K 8位的SRAM存储器解所需芯片数量 1K 8 1K 4 2片设计的存储器字长为8位存储器字数不变连接三组信号线即地址线控制线公用数据线分高4位低4位但数据线是双向的与SRAM芯片的I O端相连接见书上图3 9所示 4 2 32 3 3 4存储器容量的扩充 2 字存储容量扩展给定的芯片存储容量较小字数少不满足设计要求的总存储容量此时需要用多片给定芯片来扩展字数三组信号组中给定芯片的地址总线和数据总线公用控制总线中R W公用使能端EN不能公用它由地址总线的高位段译码来决定片选信号所需芯片数仍由 d 设计要求的存储器容量选择芯片存储器容量决定例3 利用1K 8位的DRAM芯片设计2K 8位的DRAM存储器解所需芯片数d 2K 8 1K 8 2 片设计的存储器见书上图3 10所示字长位数不变地址总线A0 A9同时连接到2片DRAM的地址输入端地址总线最高位有A10 A10 分别作为两片DRAM的片选信号两个芯片不会同时工作 3 字位同时扩展1K 4位存储芯片组成4K 8位的存储器 35 3 3 4存储器容量的扩充 3 存储器模块条存储器通常以插槽用模块条形式供应市场这种模块条常称为内存条它们是在一个条状形的小印制电路板上用一定数量的存储器芯片组成一个存储容量固定的存储模块如图所示内存条有30脚 72脚 100脚 144脚 168脚等多种形式 30脚内存条设计成8位数据线存储容量从256KB 32MB 72脚内存条设计成32位数据总线100脚以上内存条既用于32位数据总线又用于64位数据总线存储容量从4MB 512MB 36 3 3 5高级的DRAM结构 1 FPMDRAM 快速页模式动态存储器它是根据程序的局部性原理来实现的读周期和写周期中为了寻找一个确定的存储单元地址首先由低电平的行选通信号RAS确定行地址然后由低电平的列选信号CAS确定列地址下一次寻找操作也是由RAS选定行地址 CAS选定列地址依此类推如下图所示 CAI 37 3 3 5高级的DRAM结构 2 CDRAMCDRAM称为带高速缓冲存储器 cache 的动态存储器它是在通常的DRAM芯片内又集成了一个小容量的SRAM 从而使DRAM芯片的性能得到显著改进如图所示出1M 4位CDRAM芯片的结构框图其中SRAM为512 4位 CAI 38 3 3 5高级的DRAM结构 3 SDRAMSDRAM称为同步型动态存储器计算机系统中的CPU使用的是系统时钟 SDRAM的操作要求与系统时钟相同步在系统时钟的控制下从CPU获得地址数据和控制信息换句话说它与CPU的数据交换同步于外部的系统时钟信号并且以CPU 存储器总线的最高速度运行而不需要插入等待状态其原理和时序关系见下一页图和动画 39 CAI 40 3 3 5高级的DRAM结构例4 CDRAM内存条组成实例一片CDRAM的容量为1M 4位 8片这样的芯片可组成1M 32位4MB的存储模块其组成如下图所示 CAI 41 3 3 6DRAM主存读写的正确性校验 DRAM通常用做主存储器其读写操作的正确性与可靠性至关重要为此除了正常的数据位宽度还增加了附加位用于读写操作正确性校验增加的附加位也要同数据位一起写入DRAM中保存其原理如图所示 CAI 42 3 4只读存储器和闪速存储器 3 4 1只读存储器ROM3 4 2FLASH存储器 43 3 4 1只读存储器ROM ROM叫做只读存储器顾名思义只读的意思是在它工作时只能读出不能写入然而其中存储的原始数据必须在它工作以前写入只读存储器由于工作可靠保密性强在计算机系统中得到广泛的应用主要有两类掩模ROM 掩模ROM实际上是一个存储内容固定的ROM 由生产厂家提供产品可编程ROM 用户后写入内容有些可以多次写入一次性编程的PROM多次编程的EPROM和E2PROM 44 3 4 1只读存储器ROM 1 掩模ROM 1 掩模ROM的阵列结构和存储元 CAI 45 3 4 1只读存储器ROM 1 掩模ROM 2 掩模ROM的逻辑符号和内部逻辑框图 CAI 46 3 4 1只读存储器ROM 2 可编程ROMEPROM叫做光擦除可编程可读存储器它的存储内容可以根据需要写入当需要更新时将原存储内容抹去再写入新的内容现以浮栅雪崩注入型MOS管为存储元的EPROM为例进行说明结构如右图所示 47 3 4 1只读存储器ROM 2 可编程ROME2PROM存储元EEPROM 叫做电擦除可编程只读存储器其存储元是一个具有两个栅极的NMOS管如图 a 和 b 所示 G1是控制栅它是一个浮栅无引出线 G2是抹去栅它有引出线在G1栅和漏极D之间有一小面积的氧化层其厚度极薄可产生隧道效应如图 c 所示当G2栅加20V正脉冲P1时通过隧道效应电子由衬底注入到G1浮栅相当于存储了 1 利用此方法可将存储器抹成全 1 状态 48 3 4 2FLASH存储器 FLASH存储器也翻译成闪速存储器它是高密度非失易失性的读写存储器高密度意味着它具有巨大比特数目的存储容量非易失性意味着存放的数据在没有电源的情况下可以长期保存总之它既有RAM的优点又有ROM的优点称得上是存储技术划时代的进展 49 3 4 2FLASH存储器 1 FLASH存储元在EPROM存储元基础上发展起来的由此可以看出创新与继承的关系如右图所示为闪速存储器中的存储元由单个MOS晶体管组成除漏极D和源极S外还有一个控制栅和浮空栅 CAI 50 3 4 2FLASH存储器 2 FLASH存储器的基本操作编程操作读取操作擦除操作如图 a 表示编程操作时存储元写0 写1的情况实际上编程时只写0 不写1 因为存储元擦除后原始状态全为1 要写0 就是要在控制栅C上加正电压一旦存储元被编程存储的数据可保持100年之久而无需外电源 CAI 51 3 4 2FLASH存储器 3 FLASH存储器的阵列结构FLASH存储器的简化阵列结构如右图所示在某一时间只有一条行选择线被激活读操作时假定某个存储元原存1 那么晶体管导通与它所在位线接通有电流通过位线所经过的负载上产生一个电压降这个电压降送到比较器的一个输入端与另一端输入的参照电压做比较比较器输出一个标志为逻辑1的电平如果某个存储元原先存0 那么晶体管不导通位线上没有电流比较器输出端则产生一个标志为逻辑0的电平 CAI 52 3 5并行存储器 3 5 1双端口存储器3 5 2多模块交叉存储器 53 3 5并行存储器由于CPU和主存储器之间在速度上是不匹配的这种情况便成为限制高速计算机设计的主要问题为了提高CPU和主存之间的数据传输率除了主存采用更高速的技术来缩短读出时间外还可以采用并行技术的存储器 54 3 5 1双端口存储器 1 双端口存储器的逻辑结构双端口存储器由于同一个存储器具有两组相互独立的读写控制电路而得名由于进行并行的独立操作因而是一种高速工作的存储器在科研和工程中非常有用举例说明双端口存储器IDT7133的逻辑框图如下页图 55 3 5 1双端口存储器 CAI 56 3 5 1双端口存储器 2 无冲突读写控制当两个端口的地址不相同时在两个端口上进行读写操作一定不会发生冲突当任一端口被选中驱动时就可对整个存储器进行存取每一个端口都有自己的片选控制 CE 和输出驱动控制 OE 读操作时端口的OE 低电平有效打开输出驱动器由存储矩阵读出的数据就出现在I O线上 3 有冲突读写控制当两个端口同时存取存储器同一存储单元时便发生读写冲突为解决此问题特设置了BUSY标志在这种情况下片上的判断逻辑可以决定对哪个端口优先进行读写操作而对另一个被延迟的端口置BUSY标志 BUSY变为低电平即暂时关闭此端口 57 3 5 1双端口存储器有冲突读写控制判断方法 1 如果地址匹配且在CE之前有效片上的控制逻辑在CEL和CER之间进行判断来选择端口 CE判断 2 如果CE在地址匹配之前变低片上的控制逻辑在左右地址间进行判断来选择端口地址有效判断无论采用哪种判断方式延迟端口的BUSY标志都将置位而关闭此端口而当允许存取的端口完成操作时延迟端口BUSY标志才进行复位而打开此端口 58 3 5 1双端口存储器 CAI 59 3 5并行存储器 1 存储器的模块化组织一个由若干个模块组成的主存储器是线性编址的这些地址在各模块中如何安排有两种方式一种是顺序方式一种是交叉方式 CAI 60 3 5 2多模块交叉存储器 1 顺序方式例 M0 M3共四个模块则每个模块8个字顺序方式 M0 0 7M1 8 15M2 16 23M3 24 315位地址组织如下 XXXXX高位选模块低位选块内地址特点某个模块进行存取时其他模块不工作优点是某一模块出现故障时其他模块可以照常工作通过增添模块来扩充存储器容量比较方便缺点是各模块串行工作存储器的带宽受到了限制 61 3 5 2多模块交叉存储器例 M0 M3共四个模块则每个模块8个字交叉方式 M0 0 4 除以4余数为0M1 1 5 除以4余数为1M2 2 6 除以4余数为2M3 3 7 除以4余数为35位地址组织如下 XXXXX高位选块内地址低位选模块特点连续地址分布在相邻的不同模块内同一个模块内的地址都是不连续的优点是对连续字的成块传送可实现多模块流水式并行存取大大提高存储器的带宽使用场合为成批数据读取 62 3 5 2多模块交叉存储器 2 多模块交叉存储器的基本结构右图为四模块交叉存储器结构框图主存被分成4个相互独立容量相同的模块M0 M1 M2 M3 每个模块都有自己的读写控制电路地址寄存器和数据寄存器各自以等同的方式与CPU传送信息在理想情况下如果程序段或数据块都是连续地在主存中存取那么将大大提高主存的访问速度 CPU同时访问四个模块由存储器控制部件控制他们分时使用数据总线进行信息传递对每一个模块来说从CPU给出访存命令直到读出信息仍然使用了一个存取周期对CPU来说它可以在一个存取周期内连续访问四个模块各模块读写重叠进行所以多模块交叉存储器是一种并行存储结构 CAI 63 3 5 2多模块交叉存储器通常在一个存储器周期内 m个存储体必须分时启动则各个存储体的启动间隔为t T m m为交叉存取度连续读取m个字所需时间分别是 CAI 64 例5设存储器容量为32字字长64位模块数m 4 分别用顺序方式和交叉方式进行组织存储周期T 200ns 数据总线宽度为64位总线传送周期 50ns 若连续读出4个字问顺序存储器和交叉存储器的带宽各是多少解顺序存储器和交叉存储器连续读出m 4个字的信息总量都是 q 64b 4 256b顺序存储器和交叉存储器连续读出4个字所需的时间分别是 t2 mT 4 200ns 800ns 8 10 7st1 T m 1 t 200ns 150ns 350ns 3 5 10 7s顺序存储器和交叉存储器的带宽分别是 W2 q t2 256b 8 10 7 s 320Mb sW1 q t1 256b 3 5 10 7 s 730Mb s 65 3 二模块交叉存储器举例 3 5 2多模块交叉存储器 CAI 66 3 二模块交叉存储器举例 3 5 2多模块交叉存储器 CAI 67 3 6cache存储器 3 6 1cache基本原理3 6 2主存与cache的地址映射3 6 3替换策略3 6 4cache的写操作策略3 6 5Pentium4的cache组织3 6 6使用多级cache减少缺失损失 68 3 6 1cache基本原理 1 cache的功能解决CPU和主存之间的速度不匹配问题基于程序运行的空间局部性和时间局部性原理时间局部性是指如果程序中的某条指令一旦执行则不久之后该指令可能再次被执行如果某数据被访问则不久之后该数据可能再次被访问空间局部性是指一旦程序访问了某个存储单元则不久之后其附近的存储单元也将被访问 69 3 6 1cache基本原理 CACHE是介于主存与CPU之间的小容量存储器一般采用高速的SRAM构成 Cache典型值是几百KB Cache能向CPU高速提供指令和数据加快程序执行速度CPU和主存之间的速度差别很大采用两级或多级Cache系统早期的一级Cache在CPU内二级在主板上现在的CPU内带L1Cache和L2Cache 片内Cache速度接近CPU全由硬件调度对用户透明 70 3 6 1cache基本原理当CPU读取内存中的一个字时便发出该字的内存地址到Cache和主存 Cache控制逻辑根据地址判断此字当前是否在Cache中若是此字立即传送给Cache 若不是则用主存读周期把此字从主存读出送到CPU 与此同时把含有这个字的整个数据块从主存读出送到Cache中 2 cache基本原理CPU Cache以字为单位 Cache 主存以块为单位一个块由若干个字组成是定长的图中Cache分成4行每行4个字 W 分配给Cache的地址存放在一个相联存储器CAM中当CPU执行访存指令时把所需访问字的地址放到CAM 如果W不在Cache中则将W从主存传送到Cache 与此同时把包含W的前后相继的4个字所在的一行数据放到Cache 71 3 6 1cache基本原理 3 Cache的命中率从CPU来看增加一个cache的目的就是在性能上使主存的平均读出时间尽可能接近cache的读出时间为了达到这个目的在所有的存储器访问中由cache满足CPU需要的部分应占很高的比例即cache的命中率应接近于1 由于程序访问的局部性实现这个目标是可能的 72 3 6 1cache基本原理 3 cache命中率公式命中率Cache 主存系统的平均访问时间访问效率Cache与内存的速度比 73 例6CPU执行一段程序时 cache完成存取的次数为1900次主存完成存取的次数为100次已知cache存取周期为50ns 主存存取周期为250ns 求cache 主存系统的效率和平均访问时间解 h Nc Nc Nm 1900 1900 100 0 95r tm tc 250ns 50ns 5e 1 r 1 r h 1 5 1 5 0 95 83 3 ta tc e 50ns 0 833 60ns 74 3 6 2主存与Cache的地址映射无论选择那种映射方式都要把主存和cache划分为同样大小的块选择哪种映射方式要考虑硬件是否容易实现地址变换的速度是否快主存空间的利用率是否高主存装入一块时发生冲突的概率以下我们介绍三种映射方法 75 1 全相联的映射方式 1 将地址分为两部分块号和字在内存块写入Cache时同时写入块号标记主存的一个块可以映射到Cache任意一行 2 CPU给出访问地址后也将地址分为两部分块号和字比较电路块号与Cache表中的标记进行比较相同表示命中访问相应单元如果没有命中访问内存 CPU直接访问内存并将被访问内存的相对应块写入Cache 3 6 2主存与cache的地址映射 76 1 全相联的映射方式 CAI 77 3 6 2主存与cache的地址映射 1 全相联的映射方式转换公式主存地址长度 s w 位寻址单元数 2w个字或字节块大小行大小 2w个字或字节主存的块数 2s标记大小 s位cache的行数不由地址格式确定 78 3 6 2主存与cache的地址映射 1 全相联的映射方式特点优点冲突概率小 Cache的利用高缺点比较器难实现需要一个访问速度很快代价高的相联存储器应用场合适用于小容量的Cache 79 3 6 2主存与cache的地址映射 2 直接映射方式映射方法多对一如 i jmodm m是Cache总行数主存第j块内容拷贝到Cache的i行一般I和m都是2N级例 cache容量16字主存容量256字则地址2 18 34 242等都存放在cache的地址2内如果第一次2在cache中下次访问34内容则不管cache其他位置的内容访问情况都会引起2块内容的替换 80 2 直接映射方式 2 基本原理利用行号选择相应行把行标记与CPU访问地址进行比较相同表示命中访问Cache 如果没有命中访问内存并将相应块写入Cache CAI 81 3 6 2主存与cache的地址映射 2 直接映射方式转换公式主存地址长度 s w 位寻址单元数 2s w个字或字节块大小行大小 2w个字或字节主存的块数 2scache的行数 m 2r标记大小 s r 位 82 3 6 2主存与cache的地址映射 2 直接映射方式特点优点比较电路少m倍线路所以硬件实现简单 Cache地址为主存地址的低几位不需变换缺点冲突概率高若块号相距m整数倍的两个块存于同一Cache行时就要发生冲突解决的办法是将原来存入的行换出去但可能过段时间又要换入频繁的置换会使Cache的效率下降抖动应用场合适合大容量Cache 采用更多的行可以减少冲突 83 3 6 2主存与cache的地址映射 3 组相联映射方式全相联存放位置灵活命中率高直接映射比较器电路和硬件实现简单组相联是前两者的组合Cache分组组间采用直接映射方式组内采用全相联的映射方式Cache分组U 组内容量V行映射方法一对多 q jmodu主存第j块内容拷贝到Cache的q组中的某行地址变换设主存地址x 看是不是在cache中先y xmodu 则在y组中一次查找 84 3 6 2主存与cache的地址映射 3 组相联映射方式分析比全相联容易实现冲突低v 1 则为直接相联映射方式u 1 则为全相联映射方式v的取值一般比较小一般是2的幂称之为v路组相联cache 85 CAI 86 3 6 2主存与cache的地址映射 3 组相联映射方式转换公式主存地址长度 s w 位寻址单元数 2s w个字或字节块大小行大小 2w个字或字节主存的块数 2s每组的行数 k每组的v 2dcache的行数 kv标记大小 s d 位 87 3 6 2主存与cache的地址映射例7直接映射方式的内存地址格式如下所示标记s r行r字地址w8位14位2位若主存地址用十六进制表示BBBBBB 用十六进制格式表示直接映射方式Cache的标记行字地址的值解 BBBBBB 16 1011101110111011101110111011 2标记s r 10111011 2 BB 16行r 10111011101110 2 2EEE 16字地址w 11 2 3 16 88 3 6 2主存与cache的地址映射例8 一个组相联cache由64个行组成每组4行主存包含4K个块每块128字请表示内存地址的格式解块大小行大小 2w个字 128 27 w 7每组的行数k 4cache的行数 kv K 2d 4 2d 64 d 4组数v 2d 24 16主存的块数2s 4K 22 210 22 s 12标记大小 s d 位 12 4 8位主存地址长度 s w 位 12 7 19位主存寻址单元数2s w 219故k 4各组相联的内存地址格式如下所示 8位4位7位 3 6 2主存与cache的地址映射例9有一个处理器主存容量是1MB 字长1B 块大小16B Cach容量64KB 采用全相联映射对内存地址B0010给出相应的标记和字号解块大小行大小 16B 24 所以W 4位主存寻址单元数2s w 1M 120 s w 20 s 16位内存地址格式标记s字地址w16位4位内存地址B0010 10110000000000010000标记s 1011000000000001 2字地址 0000 2 3 6 2主存与cache的地址映射例10假设主存容量是512KB Cache容量是4KB 每块16个字每个字32位 1 Cache地址多少位可容纳多少块 2 主存地址多少位可容纳多少块 3 在直接映射方式下主存的第几块映射到Cache中的第5块设起始块为第一块 4 画出直接映射方式下主存地址格式 3 6 2主存与cache的地址映射解答 1 Cache容量是4KB 212 4K cache地址12位 cache块数 4KB 16 4B 64 2 主存容量512KB 219 512K 主存地址19位主存块数 512KB 16 4B 8192 3 在直接映射方式下 cache64块所以主存的5 64 5 2 64 5 213 64 5块映射到cache的第5块 4 标记块地址字地址766 3 6 2主存与cache的地址映射例11设某机主存容量是16MB cache容量是8KB 每块8个字每字32位设计一个四路组相连映射的cache组织 1 画出主存地址各字段的位数 2 设cache状态为空 CPU依次从主存第0 1 2 99号单元读出100个字主存一次读出一个字并重复此程序读10次求命中率 3 若cache的速度是主存速度的5倍有cache和无cache相比速度提高多少倍 4 系统的效率是多少 3 6 2主存与cache的地址映射解答 1 每个块有8个字每字32b 4B 块内字地址5位 Cache组数8KB 8 32 8 4B 64组组地址6位主存容量16MB 224B 主存地址24位标记位24 6 5 13位标记组地址字地址1365 2 由于每个块有8个字而且Cache初态为空因此cpu读0号单元未命中必须访问主存同时将该字所在的主存块调入cache第0组的任一块内接着读1 7号单元均命中同理CPU读第8 16 96号单元均未命中可见CPU在连续读100个字共有13次未命中而后9次循环读100个字全部命中命中率 100 10 13 100 10 0 987 3 6 2主存与cache的地址映射 3 设主存存取周期是5t cache存取周期是t 没有cache的访问时间是5t 1000 有cache的访问时间是t 1000 13 5t 13 速度提高倍数是5t 1000 t 1000 13 5t 13 1 3 75 4 e t 0 987 t 1 0 987 5t 95 95 3 6 3替换策略直接映射一个主存块只有一个特定位置存放全相联和组相联从允许存放新主存块的若干行选择一行LFU 最不经常使用将一段时间内被访问次数最少的行换出每行设置一个计数器新行建立后从0开始计数每访问一次被访问的行计数器增加1 替换时对特定行的计数值进行比较换值小的行同时将这些特定行的计数器清零该算法将计数周期限定在对特定行两次替换之间的间隔时间内不能反映近期cache的访问情况 LRU 近期最少使用近期内长久没被访问的行换出每行也设置一个计数器 Cache命中时被访问的行计数器置0 其他的计数器增加1 替换时换值大的行保护了刚拷贝到Cache中的新数据行符合cache的工作原理使Cache有较高的工作效率随机替换随机替换策略实际上是不要什么算法从特定的行位置中随机地选取一行换出即可这种策略在硬件上容易实现且速度也比前两种策略快缺点是随意换出的数据很可能马上又要使用从而降低命中率和cache工作效率但这个不足随着cache容量增大而减小随机替换策略的功效只是稍逊于前两种策略 96 3 6 4写操作策略由于cache的内容只是主存部分内容的拷贝它应当与主存内容保持一致而CPU对cache的写入更改了cache的内容如何与主存内容保持一致可选用如下三种写操作策略写回法 CPU写Cache命中时只修改Cache的内容不立即写入主存只有当此行被换出时才写回主存对一个Cache行的多次写命中都在Cache中完成只是需要替换的时候才写回速度较慢的主存减少了访问主存的次数实现时每行设置一个修改位反映此行是否被CPU修改过换出时对行的修改位进行判断决定是写回还是简单舍掉如果CPU写Cache未命中为了包含欲写字的主存块在Cache分配一行将此块整个拷贝到Cache后再进行修改对主存的读写操作统一保留到换出时进行写Cache与写主存是异步的方式减少了访问主存的次数但是存在不一致性的隐患 3 6 4写操作策略全写法写Cache命中时 Cache与内存一起写维护了主存与Cache的一致性当写Cache未命中时只能向主存直接写入是否将修改过的主存块取到Cache 有两种方法 WTWA 取主存块到Cache WTNWA 不取主存块到Cache 优点是每行不需要设置修改位和逻辑判断缺点是 Cache对CPU向主存的写操所无高速缓存的功能降低了Cache的功效写一次法与命中与写未命中时与写回法一致但是第一次Cache命中时采用全写法写入主存因为第一次写Cache命中时 CPU要在总线上启动一个写周期其他Cache监听到此主存块及写信号后即可拷贝该块或者及时作废以便维护系统全部Cache的一致性 98 3 6 5Pentium4的Cache组织主要包括四个部分取指译码单元顺序从L2cache中取程序指令将它们译成一系列的微指令并存入L1指令cache中乱序执行逻辑依据数据相关性和资源可用性调度微指令的执行因而微指令可按不同于所取机器指令流的顺序被调度执行执行单元它执行微指令从L1数据cache中取所需数据并在寄存器组中暂存运算结果存储器子系统这部分包括L2cache L3cache和系统总线当L1 L2cache未命中时使用系统总线访问主存系统总线还用于访问I O资源不同于所有先前Pentium模式和大多数处理器所采用的结构 Pentium4的指令cache位于指令译码逻辑和执行部件之间其设计理念是 Pentium4将机器指令译成由微指令组成的简单RISC类指令而使用简单定长的微指令可允许采用超标量流水线和调度技术从而增强机器的性能 99 3 6 5Pentium的Cache组织基本原理见下图 CAI 100 3 6 6使用多级cache减少缺失损失为进一步缩小现代CPU和DRAM访问速度的差距 CPU支持附加一级的cache 二级cache在访问主cache缺失时被访问各级cache都不包含所访问数据时需要访问主存储器例10 现有一处理器基本CPI为1 0 所有访问在第一级cache中命中时钟频率5GHz 假定访问一次主存储器的时间为100ns 其中包括所有缺失处理设平均每条指令在第一级cache中产生的缺失率为2 若增加一个二级cache 命中或缺失的访问时间都为5ns 且容量大到可使必须访问主存的缺失率降为0 5 问处理器速度提高多少解得只有一级cache的CPU 总的CPI 11 0有二级cache的CPU 总的CPI 4 0后者是前者CPU性能的 11 0 4 0 2 8倍 101 3 7虚拟存储器 3 7 1虚拟存储器的基本概念3 7 2页式虚拟存储器3 7 3段式虚拟存储器和段页式虚拟存储器3 7 4虚存的替换算法返回 102 3 7 1虚拟存储器的基本概念 1 实地址与虚地址用户编制程序时使用的地址称为虚地址或逻辑地址其对应的存储空间称为虚存空间或逻辑地址空间而计算机物理内存的访问地址则称为实地地或物理地址其对应的存储空间称为物理存储空间或主存空间程序进行虚地址到实地址转换的过程称为程序的再定位 103 3 7 1虚拟存储器的基本概念 2 虚存的访问过程虚存空间的用户程序按照虚地址编程并存放在辅存中程序运行时由地址变换机构依据当时分配给该程序的实地址空间把程序的一部分调入实存每次访存时首先判断该虚地址所对应的部分是否在实存中如果是则进行地址转换并用实地址访问主存否则按照某种算法将辅存中的部分程序调度进内存再按同样的方法访问主存由此可见每个程序的虚地址空间可以远大于实地址空间也可以远小于实地址空间前一种情况以提高存储容量为目的后一种情况则以地址变换为目的后者通常出现在多用户或多任务系统中实存空间较大而单个任务并不需要很大的地址空间较小的虚存空间则可以缩短指令中地址字段的长度 104 3 7 1虚拟存储器的基本概念 3 cache与虚存的异同从虚存的概念可以看出主存辅存的访问机制与cache 主存的访问机制是类似的这是由cache存储器主存和辅存构成的三级存储体系中的两个层次 cache和主存之间以及主存和辅存之间分别有辅助硬件和辅助软硬件负责地址变换与管理以便各级存储器能够组成有机的三级存储体系 cache和主存构成了系统的内存而主存和辅存依靠辅助软硬件的支持构成了虚拟存储器 105 3 7 1虚拟存储器的基本概念在三级存储体系中 cache 主存和主存辅存这两个存储层次有许多相同点 1 出发点相同二者都是为了提高存储系统的性能价格比而构造的分层存储体系都力图使存储系统的性能接近高速存储器而价格和容量接近低速存储器 2 原理相同都是利用了程序运行时的局部性原理把最近常用的信息块从相对慢速而大容量的存储器调入相对高速而小容量的存储器但cache 主存和主存辅存这两个存储层次也有许多不同之处 3 侧重点不同cache主要解决主存与CPU的速度差异问题而就性能价格比的提高而言虚存主要是解决存储容量问题另外还包括存储管理主存分配和存储保护等方面 4 数据通路不同CPU与cache和主存之间均有直接访问通路 cache不命中时可直接访问主存而虚存所依赖的辅存与CPU之间不存在直接的数据通路当主存不命中时只能通过调页解决 CPU最终还是要访问主存 5 透明性不同cache的管理完全由硬件完成对系统程序员和应用程序员均透明而虚存管理由软件操作系统和硬件共同完成由于软件的介入虚存对实现存储管理的系统程序员不透明而只对应用程序员透明段式和段页式管理对应用程序员半透明 6 未命中时的损失不同由于主存的存取时间是cache的存取时间的5 10倍而主存的存取速度通常比辅存的存取速度快上千倍故主存未命中时系统的性能损失要远大于cache未命中时的损失 106 3 7 1虚拟存储器的基本概念 4 虚存机制要解决的关键问题 1 调度问题决定哪些程序和数据应被调入主存 2 地址映射问题在访问主存时把虚地址变为主存物理地址这一过程称为内地址变换在访问辅存时把虚地址变成辅存的物理地址这一过程称为外地址变换以便换页此外还要解决主存分配存储保护与程序再定位等问题 3 替换问题决定哪些程序和数据应被调出主存 4 更新问题确保主存与辅存的一致性在操作系统的控制下硬件和系统软件为用户解决了上述问题从而使应用程序的编程大大简化 107 3 7 2页式虚拟存储器 1 页式虚存地址映射页式虚拟存储系统中虚地址空间被分成等长大小的页称为逻辑页主存空间也被分成同样大小的页称为物理页相应地虚地址分为两个字段高字段为逻辑页号低字段为页内地址偏移量实存地址也分两个字段高字段为物理页号低字段为页内地址通过页表可以把虚地址逻辑地址转换成物理地址页式虚拟存储器的地址映射过程见下图 108 3 7 2页式虚拟存储器 1 页式虚存地址映射 CAI 109 3 7 2页式虚拟存储器 1 页式虚存地址映射在大多数系统中每个进程对应一个页表页表中对应每一个虚存页面有一个表项表项的内容包含该虚存页面所在的主存页面的地址物理页号以及指示该逻辑页是否已调入主存的有效位地址变换时用逻辑页号作为页表内的偏移地址索引页表将虚页号看作页表数组下标并找到相应物理页号用物理页号作为实存地址的高字段再与虚地址的页内偏移量拼接就构成完整的物理地址现代的中央处理机通常有专门的硬件支持地址变换每个进程所需的页数并不固定所以页表的长度是可变的因此通常的实现方法是把页表的基地址保存在寄存器中而页表本身则放在主存中由于虚存地址空间可以很大因而每个进程的页表有可能非常长例如如果一个进程的虚地址空间为2G字节每页的大小为512字节则总的虚页数为231 29 222 110 3 7 2页式虚拟存储器为了节省页表本身占用的主存空间一些系统把页表存储在虚存中因而页表本身也要进行分页当一个进程运行时其页表中一部分在主存中另一部分则在辅存中保存另一些系统采用二级页表结构每个进程有一个页目录表其中的每个表项指向一个页表因此若页目录表的长度表项数是m 每个页表的最大长度表项数为n 则一个进程最多可以有m n个页在页表长度较大的系统中还可以采用反向页表实现物理页号到逻辑页号的反向映射页表中对应每一个物理页号有一个表项表项的内容包含该物理页所对应的逻辑页号访存时通过逻辑页号在反向页表中逐一查找如果找到匹配的页则用表项中的物理页号取代逻辑页号如果没有匹配表项则说明该页不在主存中这种方式的优点是页表所占空间大大缩小但代价是需要对反向页表进行检索查表的时间很长有些系统通过散列哈希表加以改进 111 3 7 2页式虚拟存储器 2 转换后援缓冲器由于页表通常在主存中因而即使逻辑页已经在主存中也至少要访问两次物理存储器才能实现一次访存这将使虚拟存储器的存取时间加倍为了避免对主存访问次数的增多可以对页表本身实行二级缓存把页表中的最活跃的部分存放在高速存储器中组成快表这个专用于页表缓存的高速存储部件通常称为转换后援缓冲器 TLB 保存在主存中的完整页表则称为慢表 112 3 7 2页

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机组成原理第三章多层次的存储器.ppt

文档简介

温馨提示

最新文档

评论

计算机组成原理第三章多层次的存储器.ppt

文档简介

温馨提示

最新文档

评论

相关文档