计算机系统结构电子教案清华版省公开课一等奖全国示范课微课金奖_第1页
计算机系统结构电子教案清华版省公开课一等奖全国示范课微课金奖_第2页
计算机系统结构电子教案清华版省公开课一等奖全国示范课微课金奖_第3页
计算机系统结构电子教案清华版省公开课一等奖全国示范课微课金奖_第4页
计算机系统结构电子教案清华版省公开课一等奖全国示范课微课金奖_第5页
已阅读5页,还剩164页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机系统结构第1页.3.20计算机系统结构2第一章基本概念(P1)本章介绍计算机系统结构一些基本知识。包含定性知识和定量知识两大组内容。为了便于学习,本章各节重新编号,与教材编号不一样。

定性知识:本课程经常使用一些名词概念,以及对计算机定性认识、分析方法。

定量知识:对计算机性能进行定量评价几个主要公式。第2页.3.20计算机系统结构31.1.1什么是计算机系统结构?(P4)别名:计算机体系结构,英文名:ComputerArchitecture(其中Architecture原义是“建筑学”)学科定义:提升计算机性能系统理论特点:①综合性:将硬、软件统一考虑,整体优化,强调功效效果(因为计算机是一个工具),偏重于硬件;②结构性:与微电子学饰演角色不一样,它不研究器件性能,而研究系统结构,尤其是并行处理结构,即经过时间重合分配来缩短程序执行时间;③定量性:用数学建模方法,尽可能准确地计算各种技术性能高低。1.1定性知识───几个基本概念第3页.3.20计算机系统结构4实体定义:①广义定义:使用者必须了解机器外部特征知识②狭义定义:低级语言程序员必须了解机器外部特征知识。(这里“外部特征”特指整个硬件外部特征)(注:速度/运行时间不属于系统结构,因为只看最终运算结果)透明性概念:使用者能够不了解知识。(意义:让一部分技术透明,可使同一个功效容纳各种实现方法)附:“计算机系统结构”学科定义3个版本①版本1:合理分配硬软件分工方法;②版本2:程序员必须了解硬件知识;③版本3:提升计算机性能理论。(意义:当前流行主要技术,都属于并行处理类型,即经过时间重合分布来缩短总执行时间。课文各章都表达了这一点)计算机系统结构广义、狭义定义第4页.3.20计算机系统结构5“计算机系统结构”狭义定义包含内容(P4)1.数据表示(硬件能够直接识别和处理数据类型和格式等);2.寻址方式(包含最小寻址单位、寻址方式种类、表示和地址计算等);3.存放器组织(包含各种存放器配置数目和功效定义);4.指令系统(包含机器指令操作类型和格式、指令间排序方式和控制机构等);5.存放系统(包含编址方式、存放容量、最大编址空间等);6.中止机构(中止源分类管理和中止服务功效设计);7.机器工作状态(如管态、目态等)定义和切换;8.输入/输出子系统结构与管理;9.信息保护伎俩及其实现。第5页.3.20计算机系统结构6第5级专用应用语言机器特定应用用户(使用特定应用语言)(经应用程序翻译成高级语言)第4级通用高级语言机器高级语言程序员(使用通用高级语言)(经编译程序翻译成汇编语言)第3级汇编语言机器汇编语言程序员(使用汇编语言)(经汇编程序翻译成机器语言、操作系统原语)第2级操作系统语言机器操作系统用户(使用操作系统原语)(经原语解释子程序翻译成机器语言)第1级传统机器语言机器传统机器程序员(使用二进制机器语言)(由微程序解释成微指令序列)第0级微指令语言机器微指令程序员(使用微指令语言)(由硬件译码器解释成控制信号序列)图1.1计算机系统多级层次模型1.1.2计算机系统多级层次模型(P3)第6页.3.20计算机系统结构71.1.3其它主要名词概念(自学)[计算机组成]计算机系统结构逻辑实现。(P5)[计算机实现]计算机组成物理实现。(P5)[计算机系统设计3种主要方法]:“由下往上”、“由上往下”、“由中间开始”。(P14)[系列机](P23)[兼容性](P24)[模拟](P24)[仿真](P24)[虚拟机](P24)[宿主机](P24)[并行性]求解一个问题若干操作在时间安排上可重合性。第7页.3.20计算机系统结构81.1.4冯.诺依曼(VonNeumann)型机器特点(P22)传统计算机又称为冯.诺依曼型机器,它由运算器、控制器、存放器、输入设备和输出设备5部分组成,并含有以下特点:1.以运算器为数据流动中枢,以控制器为控制命令中枢;2.存放程序而且执行,程序象数据一样能够修改;3.存放器按地址访问,线性次序编址;4.程序次序执行;5.指令由操作码与操作数两部分组成;6.数据用二进制编码;7.机器由硬件与软件组成,硬件功效不能改变。第8页.3.20计算机系统结构91.1.5当代计算机系统分类(Flynn分类法,P6)按照指令流和数据流多倍性情况把计算机分为:1.单指令流单数据流(SISD---SingleInstructionStreamSingleDataStream)2.单指令流多数据流(SIMD---SingleInstructionStreamMultipleDataStream)3.多指令流单数据流(MISD---MultipleInstructionStreamSingleDataStream)4.多指令流多数据流(MIMD---MultipleInstructionStreamMultipleDataStream)思索题(不交):P32,题7,题8,题9。第9页.3.20计算机系统结构101.2定量知识───3个性能公式1.2.1Amdahl定律(加紧经常性事件原理,P9)其中:Sn──全局加速比;

To──原执行时间(old);Tn──新执行时间(new);Se──被改进部分局部加速比;

Fe──被改进部分原执行时间占原来总时间百分比。第10页.3.20计算机系统结构11Amdahl定律推导第11页.3.20计算机系统结构12Amdahl定律图形从图1.2能够看出,增大Se和Fe对Sn都有提升作用;但当Fe固定时,一味增大Se对Sn作用会越来越不显著。第12页.3.20计算机系统结构13Amdahl定律意义

Amdahl定律指出,在局部改进力度Se相同情况下,选择原来最费时间(即Fe最大)工作内容作为改进对象,能够取得最大全局改进效果Sn。

所以能够认为,Amdahl定律(加紧最费时间事件)是经济学“烂桶板原理”(木桶最大盛水量由最短桶板决定,要增加木桶盛水量,必须将短木板加长)一个定量化诠释。第13页.3.20计算机系统结构141.2.2CPI与程序执行时间Te(P11)CPI是衡量CPU执行指令效率主要指标。让我们先考虑一个标准测速程序全部执行时间Te和其中全部第i种指令累计时间Ti,易知第14页.3.20计算机系统结构151.2.3每秒百万指令数MIPS与每秒百万浮点数MFLOPS(P11)第15页.3.20计算机系统结构16本章小结本章从定性知识和定量知识两个方面介绍计算机系统结构基本概念。相关重点以下:(1)计算机系统结构广义定义与狭义定义(9项内容),计算机系统结构与计算机组成主要分工;(2)计算机系统多级层次模型(6级),以及基于该模型透明性判断方法;(3)计算机实现、计算机系统设计主要思绪、模拟、仿真、虚拟机、宿主机、系列机、兼容性、并行性等主要名词含义;(4)冯.诺依曼型机器7个特点;(5)当代计算机系统分类Flynn法(4类);(6)Amdahl定律;(7)平均周期数CPI公式,程序执行时间Te公式;(8)每秒百万指令数MIPS公式,每秒百万浮点数MFLOPS公式。习题:P33,题12(快20倍就是Se=20),题15,题19。第16页.3.20计算机系统结构17第二章指令系统(P36)本章介绍指令系统设计中2个最基本内容:数据表示、操作码优化。2.1数据表示[数据表示]就是计算机硬件能够直接识别与处理数据类型。人们通常使用数据类型有整数、实数、逻辑数(布尔数)、字符串、队列、堆栈、链表、文件等,它们运算方法各不相同。所谓“硬件能够直接识别与处理”,指是对该数据类型各种运算操作都有对应实现硬件电路。硬件不能直接识别与处理数据类型就要依据数据结构知识编制软件转化为硬件能处理数据类型。下面介绍通用型计算机数据表示集合中一个基本组员──浮点数据分析与设计。第17页.3.20计算机系统结构182.1.1浮点数据表示(P38,P39)浮点数据就是高级语言课程中所说“实型数”。2.1.1.1浮点数组成浮点数组成与人们通常所说“科学记数法”非常相同,唯一不一样是各部分均为有限位数,以下所表示它主要参数有8个:

m──尾数,普通为纯小数,符合规格化标准(即最高位绝对值不为0),用原码或补码表示;

e──阶码,整数,惯用移码表示(见下文解释);

rm──尾数基值,简称尾基,常见有2进制、8进制、16进制、10进制等,选定以后不变;

re──阶码基值,简称阶基,当前都采取2,也是选定以后不变;

p──尾数位数,未将符号位计入;

q──阶码位数,未将符号位计入。

mf──尾数符号,表示数正负,简称数符;

ef──阶码符号,表示阶码正负,简称阶符。但对移码表示来说,这仅仅是额外1位2进制数,不决定正负。第18页.3.20计算机系统结构19移码(P41)移码是一个2进制记数方法,它真值等于相同编码无符号数加上一个指定偏移量d。比如,一样是2进制编码000000~111111,看作6位无符号数时取值范围是0~63,而看作6位移-10码取值范围就是–10~53。以下列图所表示。移码是一个有符号数,但它最高位通常不决定数正负,不应称为符号位。它独特之处于于其最小取值2进制编码是全0,这给机器零判断和处理电路设计带来很大方便。第19页.3.20计算机系统结构202.1.1.2浮点数机内格式(P39)一个浮点数中每个数据尾基rm、阶基re都是相同,在设计运算电路已经作为默认值来使用,各个详细数据在存放时只需要存入以下参数即可:第20页.3.20计算机系统结构212.1.1.3浮点数性能(P38)浮点数性能主要用表数范围、表数精度和表数效率来刻画,下面分别进行分析。(1)表数范围(P39)表数范围由这么一些参数组成:最小负数、最大负数、最小正数、最大正数、最小绝对值|N|min、最大绝对值|N|max。它们几何意义能够在数轴上表示,以下列图。图中阴影部分为浮点数表数范围。依据浮点数组成表示式可知,图2.3中4个边界值分别由尾数m、阶码e各自边界值两两组合而成,以下所表示。最大正数──最大正尾数/最大阶码;最小正数──最小正尾数/最小阶码;最大负数──最大负尾数/最小阶码;最小负数──最小负尾数/最大阶码。第21页.3.20计算机系统结构22对规格化浮点数,尾数为原码,阶码为移码,写出表数范围。(P40)解:因为原码在数轴零点两边对称分布,即最大正数与最小负数绝对值相等、最小正数与最大负数绝对值相等,所以能够用最小、最大绝对值来描述它分布。首先依据图2.2和式2.1以及移码基本定义,能够确定绝对值极值表示式:例2.1写在一起就是:再用阶码偏移量代换式中-d得:第22页.3.20计算机系统结构23能够代入详细数字来帮助了解:第23页.3.20计算机系统结构24显然它伴随阶码ek增大而快速增大,即在不一样区间里会有不一样值。表数精度用最大表数误差表示(指相对误差)。而计算相对误差之前先要计算绝对误差。

最大绝对误差是真实值与可表示值之间可能最大距离,按“舍入法”它等于相邻两个可表示值间距1/2,如图2.4所表示。依据浮点数组成式,能够写出任一对邻点Nk与Nk+1之间区间内最大绝对误差为(为了简便,可先假设Nk与Nk+1阶码相同来推导,其实阶码不一样结果也一样)(2)表数精度(P42)第24页.3.20计算机系统结构25最大相对误差与阶码e无关,但与尾数m值相关。按相对误差基本定义,上述区间内最大相对误差为一样也不是常数,各区间内并不一致,只是它受是尾数影响。为了找到全部区间中最大(即全局最大相对误差),我们应取分母最小值。从上文已知尾数取值范围,这么就能得到第25页.3.20计算机系统结构26(3)表数效率(P45)定义:此式说明效率之所以低于100%,是因为规格化尾数最高位m1只能有rm-1种取值缘故。能够看出,

极小值与极大值分别是[隐藏位技术]是一个提升表数效率方法,但仅适合用于rm=2情况:尾数最高位m1

在二进制条件下只有0和1两种可能,按照规格化要求,m1可由其它位推出,。“隐藏”了m1之后,尾数只存放后面p-1位,它们中任一位都有rm种取值,所以表数效率η=100%。第26页.3.20计算机系统结构272.3指令格式优化(P90)2.3.2操作码优化当前惯用编码方法有3种:定长编码,Huffman编码,扩展编码。2.3.2.1定长编码就是全部指令使用相同代码位数,其最小码长等于式中是平均码长,是第i种指令码长,n是指令总数。例2.2已知n=15,求定长编码最小平均码长。解:第27页.3.20计算机系统结构282.3.2.2Huffman压缩编码(P91)(1)Huffman压缩概念(最正确编码定理):当用n个长度不等代码分别代表n种发生概率不等事件时,按照短代码给高概率事件、把长代码给低概率事件标准分配,可使平均码长到达最低。(2)Huffman编码方法

这种编码方法由两个过程组成。 频度合并:将全部n个事件(在此即为n条指令)频度值排序,选取其中最小2个频度合并,然后将剩下n-1个频度再次排序,再合并最小2个频度,如此重复,直至剩下1个频度为止。统计全部合并关系,形成一棵二叉树──Huffman树,全部原始频度值充当树叶,而最终剩下总频度1为树根; 码元分配:从树根开始,对每个中间结点左右2个分支边各赋予一位代码“0”和“1”(“0”在哪一侧不限)。读出从根结点到任一片树叶路径上依次出现代码位就排成了这个事件(即指令)完整编码。因为频度高事件较晚被合并,它编码位数也就较少,符合Huffman压缩标准。上面所说频度值就是各事件实际出现次数百分比,它是理论出现概率近似值。第28页.3.20计算机系统结构292.3.2.3扩展编码方法(等长扩展法,P93)用码长表示:比如4-8-12法。这并不能说明详细编码方法,例以下面两种编码方法都是4-8-12法。用码点数表示:比如15/15/15法,8/64/512法15/15/15法,每一个码长都有4位可编码位(前头能够有相同扩展标识前缀),可产生16个码点(即编码组合),不过至多只能使用其中15个来表示事件,留下1个或多个码点组合作为更长代码扩展标识前缀。已经用来表示事件码点组合不能再作为其它更长代码前导部分,不然接收者会混同。这就是“非前缀标准”。8/64/512法,每一个码长按4位分段,每一段中最少要留下1位或多位作为扩展标识。各段剩下可编码位一起编码,所产生码点用来对应被编码事件。每一段中标识位指出后面还有没有后续段。第29页.3.20计算机系统结构30以3-6-9位为例36bit目标:平均码长最小化33bit平均码长=P1l1+P2l2+……+P84l8430bit27bit24bit21bit18bit15bit12bit9bit6bit3bit7/7/7法码长分布7条7条7条7条7条7条7条7条7条7条7条7条9bit6bit3bit4/16/64法码长分布4条16条64条指令频度分布悬殊

P1

……P84指令频度分布均匀

P1

……P84两种等长扩展码适用性比较第30页.3.20计算机系统结构312.3.2.4编码方法性能指标(P91-P93)信息量:依据信息论基本知识,在n种可能发生事件集合中,汇报第i种事件发生消息中包含信息量为其中Pi是第i种事件发生先验概率,a是编码基值。信息量单位是表示位数(最少所需位数)。这个定义式表明事件发生概率越低,关于它消息中信息量越大。熵(entropy)──平均信息量:一个消息源对n种事件公布消息信息量平均值,记为第31页.3.20计算机系统结构32平均码长:各事件编码长度数学期望。信息冗余量:它表明消息编码中“无用成份”所占百分比。从降低存放与传输量角度看,编码方法平均码长越短越好。不过平均码长不可能无限制缩短,它下限就是熵(即R=0时)。假如短于熵就一定会丢失有用信息(即混同不一样指令),这是不允许。第32页.3.20计算机系统结构33例2.3已知频度序列为0.1,0.1,0.15,0.15,0.2,0.3,求Huffman编码、等长扩展3/3/3码、定长编码、三者平均码长、信息冗余量以及熵。

解:

熵H=–(2×0.1×log20.1+2×0.15×log20.15+0.2×log20.2+0.3×log20.3)

≈2.47

依据Huffman编码方法作Huffman树如图2.5所表示,三种编码方法结果列于表2.1中。第33页.3.20计算机系统结构34表2.1Huffman编码、等长扩展3/3/3码及定长编码第34页.3.20计算机系统结构352.3.3操作数优化───寻址方式比较(P95)指令中操作数占用位数由操作数个数与寻址方式决定。按操作数个数划分,有零操作数指令、一操作数指令、二操作数指令、三操作数指令共四种形式。应该按机器用途来选择(P99,表2.20)。缩短操作数长度惯用方法是间址和变址(P99页末)。第35页.3.20计算机系统结构36本章主要内容有数据表示和操作码优化两个部分。详细细节以下:(1)浮点数表数范围(在数轴上4个端点)、表数精度

、表数效率

;(2)Huffman编码方法;(3)等长扩展编码方法(15/15/15法,8/64/512法);(4)编码方法性能指标(熵H,平均码长L,信息冗余量R)。习题:P124,题3(忽略P124倒1行~P125第8行文字),题13。本章小结第36页.3.20计算机系统结构37第三章存放系统(P130)

MemoryHirarchy长久存在问题:在合理总价格限制下,单纯性主存设备速度跟不上CPU发展,容量不能满足软件尺寸扩大。本章学习两种提升主存系统性能/价格比结构化方法:并行存放器与存放层次技术。后者为主。第37页.3.20计算机系统结构383.1并行存放器(P136)并行存放器技术能够提升主存系统整体等效速度,实际应用中,常将它与存放层次技术组合使用,能够互为补充,取得很高性能。并行存放器技术基本思想是用多个独立存放部件组成主存系统,让它们并行工作,在一个存放周期内能够访问到多个数据,从而实现较高存取流量。并行存放器包含各种类型,我们仅介绍提升访问速度效果最显著低位交叉访问这一个。第38页.3.20计算机系统结构39低位交叉访问并行存放器结构:它由n个存放体组成(普通n为2整次幂),每个体都有独立地址译码器和数据缓冲器,以主存地址低位字段(最低log2n位)作为体选译码信号,而剩下高位字段则是体内地址。如图所表示(设n=4)。第39页.3.20计算机系统结构40主存地址与结构参数换算(P139):其中:n──存放体个数,A──主存地址,

j──体内地址,k──体序号(k=0,1,2,…,n-1)例3.1已知n=4,问主存地址13是在几号体几号单元?解:因为n=4,体选译码信号使用主存地址最低log2n=2位,所以地址13(其二进制为1101B)对应体号k=1(即01B)、体内地址j=3(即11B),也就是说,地址13位于1号体3号单元(参看前一页插图)。 依据上式,全部k值(即体号)相同地址之间均相差n整倍数,称之为“模n同余”。第40页.3.20计算机系统结构41低位交叉访问并行存放器加速机理:我们衡量存放器件速度惯用指标是存放周期Tm,它是同一存放单元连续两次开启最小时间间隔,数值越小表明存放器件速度越快。传统存放系统只有一套地址译码器和数据缓冲器,所以各单元必须串行工作,也就是说每个Tm周期内至多只能完成一次访问。由多个存放体组成并行存放器中,各个存放体都有独立地址译码器和数据缓冲器,它们能够并行工作,使得一个Tm周期内可完成屡次访问,相当于加速了多倍。最好情况下一个Tm周期内可完成n次访问。当前Tm周期中只要发觉有一个新访问地址与前面地址属于同一个存放体,该地址及其后面地址就会被阻塞(称为访存冲突),留到下一个Tm周期访问。机器地址序列经常含有次序性,按照低位交叉规律分配地址可使相继出现地址落在相同存放体概率降到最低(参见上图)。考虑到地址总线与数据总线拥挤问题,一个Tm周期里发送多个访问请求最好彼此错开Tm/n时间,如P140图3.11所表示,不然实现复杂度会增加。第41页.3.20计算机系统结构42

Kg=010.0g=0.24.463.682.00g=0.51.00g=10110n计算平均加速倍数(P141):1.只考虑取指地址序列(假设地址次序递增,直至出现一条转移指令):其中g是指令序列中出现转移指令概率。此公式在右图中用绿线表示。2.只考虑取数地址序列(假设地址完全随机)此公式在右图中用红线表示。第42页.3.20计算机系统结构43例题:P203,题5第43页.3.20计算机系统结构443.2存放层次原理及性能指标3.2.1基本原理定义:(参见P131第二段)由2种或各种存放部件组成复合存放系统,经过内部管理机构自动更换机制,能够不停将大容量低速存放部件中活跃内容复制到小容量高速存放部件中(后者作为前者局部副本)。它既能满足CPU快速存取需要,又有很大存放容量,平均单位价格也很低,等效于同时满足3方面要求理想单一存放部件。依据:程序访问局部化原理(时间局部化,空间局部化)。模型:如右图所表示,存放层次由n层组成,满足3个不等式:Ti<Ti+1,ci>ci+1,Si<Si+1。第44页.3.20计算机系统结构453.2.2性能指标(P132-P134)(1)容量:S=S2(理论上)(2)单价:(美分/bit)第45页.3.20计算机系统结构46(3)速度:表现访问速度参数很多命中率:反应被访问数据事先已在M1发生概率等效访问时间:命中时访问时间为T1,不命中时访问时间为T2,等效访问时间则是它们概率均值第46页.3.20计算机系统结构47访问效率:这是一个相对值,便于不一样系统之间比较。访问效率e受H和r影响(参见右图):第47页.3.20计算机系统结构48

Cache预取技术对命中率提升作用(P134):这里所说“预取”技术,并不是依据对程序执行未来趋势进行猜测以提前调入数据,而仅仅是在发生不命中情况时把调入1个数据字改为调入1个数据块策略。依据程序局部化原理,离当前使用数据较近处数据未来被使用几率大于较远处数据,所以该数据块中被提前调入邻近数据很有可能成为未来命中点,从而提升命中率。采取这种预取技术后新命中率为其中:H──原命中率(即按照不命中时取入1字策略);

H’──新命中率(即按照不命中时取入1块策略);

n──每块数据内实际被访问数据个数,即非重复数据访问次数。(注:教材定义n为块内数据个数与每个数被重复访问次数乘积,即每块数据被访问总次数,这是不正确。见下文例题证实。)第48页.3.20计算机系统结构49设N──每块数据被访问总次数,n──每块数据内实际被访问数据个数。不预取时,块内任何数据第一次访问都不命中,而全部重复访问都命中,所以有 ,也就是 ……(1)预取时,该块只有第一次访问不命中,其后全部访问都命中,所以又有 ,也就是 ……(2)由(1)式可推出 ……(3)将(3)式代入(2)式,得到,公式成立。H’推导:第49页.3.20计算机系统结构50对H’公式了解预取策略在访问块内第一个数据时将其它数据一同调入,也就是对其它数据提前调入。假如n=1,表示提前调入其它数据并不使用,命中率不会因它们提前调入而提升,所以H'=H;

假如n>1,表示块内最少还有一个数据要被访问,在访问第一个数据时将它提前调入,会使它第一次访问由不命中变成命中,所以H'>H。第50页.3.20计算机系统结构51教材P1343.1.1节末尾有一个例子,已知块大小为4个字,每个数据使用次数为5。先直接计算命中率,不预取时每个数据头1次访问不命中,后4次访问都命中,所以命中率 ,而预取时只有第一个数据第1次访问不命中,后面19次访问都命中,所以命中率 。再经过公式计算命中率,教材上取n=20,算出 ,而 。这显然是不正确。假如取n=4,一样算出H=0.8,而。与直接计算结果相符,才是正确。例题分析第51页.3.20计算机系统结构52加速比(P193)

Cache-主存层次主要作用是提升访问速度,系统等效速度应高于主存(即M2)原有速度,两个速度之比称为加速比。第52页.3.20计算机系统结构53

M1103BT1=1us103B

M2106BTB2=10usM3109BTB3=100us109B(a)(b)例3.2有一个109字节程序被装入右图所表示M3准备运行。假定指令字长=1字节,程序中无转移指令和内存读/写指令。(1)按图(a)求T和e;增加中间层对e影响(2)按图(b)推导三层体系T公式;(3)按图(b)求T和e;(4)比较(1)(3)结果,有何结论?第53页.3.20计算机系统结构54解:第54页.3.20计算机系统结构55习题:P202,题3。第55页.3.20计算机系统结构56存放层次管理方式(P148)依据程序局部化性质,存放层次机构对用户文件管理应该划分成较小基本调度单位来进行。依划分标准不一样,存在3种存放层次管理方式。(1)段式管理(P148)。段是程序中一个逻辑单位,能够是一个程序模块,或者是一个数据结构。段长度不一,但段内全部数据信息属性普通是相同,便于统一进行信息保护。每段使用独立逻辑地址空间,即都从0开始计算地址。段式管理方法主要缺点是各段长短不一,调进调出之后轻易形成大量不规则零碎空间。段式管理方法虚实变换算法是查段表(P150)。课堂讨论题:P203,题11(复习段页式管理)。第56页.3.20计算机系统结构57(2)页式管理(P151)。页是系统要求固定长度单位。按页划分用户文件能够防止上述零碎空间浪费。我们把用户文件划分得到一个长度单位称为“虚页”,因为它页号是在虚地址空间中编排;实地址空间按页大小划分得到一个长度单位称为“实页”。页式管理方法主要缺点是按固定长度分出来同一页内常有不一样属性信息,不便于信息保护实现。页式管理方法虚实变换算法是查页表(P152)。(3)段页式管理(P153)。它把上述两种管理方式结合起来,首先将整个文件分段,然后在各段内分页,所以有一个段表和若干个页表。其虚实变换算法是先查段表,查出该段页表起始地址再查对应页表(P154)。段页式管理主要缺点是多查一次表,虚实变换费时较多,占用空间也较大。因为段页式管理方法最小调度单位仍是页,或者说它是分段之后分页管理,为了叙述简单,下面分析还是以页式管理为模型。第57页.3.20计算机系统结构583.3地址映象与变换(P174)基本术语:逻辑地址(又称为相对地址、虚地址)是程序员在编写和编译一个程序模块时分配指令和数据空间单位序号,总是从0开始(能够按字节编址、按CPU字编址等)。逻辑地址取值范围称为逻辑地址空间、虚空间或虚存。物理地址(又称为绝对地址、实地址)是任一级存放器为全部存放单元分配序号。物理地址取值范围称为物理地址空间、实空间或实存。从M1到Mn各层都有自己物理地址空间,而对当前执行程序模块来说,逻辑地址空间只有一个。地址映象方式指是虚页集合与实页集合对应规则,或者说是约束关系。地址变换(又叫虚实变换)指逻辑地址到物理地址变换过程或者算法。页失效指当前被访问存放级中没有所需信息,也就是不命中现象。实页争用又叫实页冲突,指虚页调入时,依据地址映象方式划定实空间范围内已没有空闲实页情况。第58页.3.20计算机系统结构59相联目录表技术1.页表占用空间过大问题页表必须存放在实存M1里。实际上,命中情况下访存时间等于查表时间加上访问目标数据时间,所以页表不能放在M2。页表占用空间=页表行数×每行宽度其中,页表行数=虚存容量/页面大小以PC机为例,页表行数≥60G/4K=236/212=224

≈1600万!按每行宽度6字节估算约需96MB。降低页表空间思绪分降低行数和降低行宽两类。2.相联目录表方法(P158)仅保留页表中已装入虚页统计。为防止逐行比对,利用相联存放器存放此表,它含有并行比较功效,但价格远高于普通存放器。3.快慢表方法(P159)4.经过地址映象降低行宽以下文所表示第59页.3.20计算机系统结构604种常见地址映象方式3.3.1全相联(P174)全相联就是无约束对应,或者说是一个完全关系,意思就是一个虚页能够调入任何一个实页。这种关系可用下页示意图(a)、(b)表示。全相联虚实变换信息完全来自于变换表,查表过程如图(c)所表示。全相联映象方式使虚页调入有最大选择范围,发生实页争用可能性最小,调入/调出操作开销也最少,有利于命中率提升。但这种方式页表占用空间和查表时间开销都比较大,也就是说实现成本比较高,在命中情况下花费在虚实变换上时间也比较多。因为页表必须常驻在实存中,而主存-辅存层次实存(即主存)相对Cache-主存层次实存(即Cache存放器)要低廉一些,所以全相联映象方式普通用于主存-辅存层次。第60页.3.20计算机系统结构61全相联地址映象方式与地址变换原理示意图(a)(b)第61页.3.20计算机系统结构62全相联地址映象方式与地址变换原理示意图(c)第62页.3.20计算机系统结构633.3.2直接相联(P176)直接相联是一个最强约束关系,它要求每个虚页只对应唯一实页。为了便于虚实变换,用求模运算作为变换关系式:将虚页号对实页总数求模得到实页号。实现起来非常简单,因为在二进制中,任何数X对2整次幂n求模等价于截取X最低log2n位,以下页示意图(c)所表示。例3.3已知虚页号=7,实页总数=4,用直接相联求实页号。解:可用十进制形式求:7mod4=3;也可用二进制形式求:因为n=4,所以log2n=2,取7二进制形式111B最低2位,得11B,即3。直接相联映象方式不需要借助页表来进行虚实变换,显然大大节约了对应空间与时间(当然页表中装入位和修改位还得保留),不过因为每个虚页选择范围太小,实页争用发生频率较高,常出现明明实存有空闲空间却不得不调出一个现有虚页以腾出所在实页情况,这使系统命中率和运行效率大大下降。这种映象方式主要用于一些对实存价格非常敏感Cache-主存层次。第63页.3.20计算机系统结构64直接相联地址映象方式与地址变换原理第64页.3.20计算机系统结构653.3.3组相联(P178)组相联映象方式是全相联与直接相联一个折中方案,性能也是二者折中。详细做法是先将实存分组,每组内有若干实页,然后将虚存空间也以一样大小分组。全部虚组按照直接相联方式映射到实组集合,对应虚实组之间各页则用全相联映射,以下页示意图(a)、(b)所示(设实组数为2)。因为包含了两层不一样映射关系,页表须按虚组划分成许多子表。在虚实变换时,首先依据虚页号所在虚组号,经过求模运算确定实组号,再按虚组号在对应子表内读出组内页号,拼接在一起就是实页号。简记为“组号计算、组内查表”。如图(c)所表示。采取组相联映象方式时,每个虚页在对应实组范围内有若干映象实页可供选择,实页争用发生频率比直接相联要低;另首先,因为页表内原来存放实页号改成存组内页号,省略了实组号字段,所以页表占用空间也降低了。当然这两方面优点是相互抵触:组内页数越多,实存空间划分组数就越少,实组号字段所占位数也少,这时改进实页争用现象效果很好,而节约页表空间效果较差,反之亦然。实际使用中可依据性能要求选取适当参数。这种映象方式性价比很好,在Cache-主存层次中被普遍使用。第65页.3.20计算机系统结构66组相联地址映象方式与地址变换原理(a)(b)第66页.3.20计算机系统结构67组相联地址映象方式与地址变换原理(c)第67页.3.20计算机系统结构683.3.4段相联(P184)段相联映象方式也是全相联与直接相联一个折中方案。它分段方法与组相联相同,不一样是全部虚段按照全相联方式映射到实段集合,对应虚实段之间各页则用直接相联映射(因为虚实段大小相同,所以实际上是一一对应),以下页示意图(a)、(b)所表示(设实段数为2)。段相联虚实变换与组相联类似,不过能够经过计算来确定部分不是在段外,而是在段内,即页表内只储存各虚页对应实段号,段内页号则从虚页号中简单直接复制,拼接在一起就是实页号,简记为“段号查表、段内复制”。如图(c)所表示。段相联映象方式虚实段内页号对应关系是固定,每个虚页在调入时能够选择只是实段号。因为虚实段大小相同,所以虚段号比实段号位数多,也就意味着“多→少”映射(组相联是等量映射),其实页争用发生频率比组相联要高。在节约页表存放空间方面,性能与组相联差不多。第68页.3.20计算机系统结构69段相联地址映象方式与地址变换原理(a)(b)第69页.3.20计算机系统结构70段相联地址映象方式与地址变换原理(c)第70页.3.20计算机系统结构71多用户虚地址格式在多用户或多进程并发环境下,因为机器中同时保留并交替运行多个程序模块,各模块中相同虚页号会发生混同。这时从CPU发出虚地址还需要在前面拼接上一个“当前用户号”字段,形成“多用户虚地址”,以下列图所表示(参见P154)。

在虚实变换时,上面所说各种查表操作之前还得先去查一个“段表基址存放器组”或“页表基址存放器组”小表格(P150,P152),确定现在该查哪一张段表或页表。这个小表格建立在CPU里,读写时间很短。第71页.3.20计算机系统结构723.4替换算法(P164)上面所讲地址映象方式是在虚页调入时“选址”规则,而地址变换方法则是命中时取得实地址伎俩。不命中时需要增加操作就是首先调出一页,调出之后再调入称为“替换”。替换算法要处理是选择调出对象问题。替换算法目标是在发生实页争用(即依据地址映象方式,将要调入虚页被允许进入全部实页均被其它虚页占用)时,选择未来不太可能使用或者使用最晚虚页作为调出对象,以腾出一个实页来。第72页.3.20计算机系统结构733.4.1几个惯用替换算法(P164)(1)随机算法RAND──在比较范围内任取一页作为淘汰页;(2)先进先出算法FIFO──在比较范围内选取调入最早一页作为淘汰页;(3)最不经常使用算法LFU──在比较范围内选取最近一个单位时间内使用次数最少一页作为淘汰页;(4)最不靠近使用算法LRU──在比较范围内选取最终一次使用离现在最久一页作为淘汰页;(5)最优替换算法OPT──在比较范围内选取下一次使用时间离现在最久一页作为淘汰页。第73页.3.20计算机系统结构74从LFU到LRU近似逻辑推理:近期最少使用LFU→最近一个单位时间内使用次数最少→相邻两次使用平均间隔时间最大→上次使用时间离现在最久→最久没有使用LRU偶然偏差:使用稀疏页面有可能恰巧刚才用过,离现在更近。统计性能:“现在”离“上次”使用时间平均距离,应为相邻两次使用时间距离1/2,所以大多数情况下LRU与LFU判断结论应该是一致。第74页.3.20计算机系统结构75算法模拟:实存情况图(P166图3.32)以下依次是FIFO、LRU、OPT算法,其中*号表示被选中淘汰页第75页.3.20计算机系统结构76比较:LRU与OPT对称性算法:LRU选择"过去"末次访问离现在最远,OPT选择"未来"首次访问离现在最远。第76页.3.20计算机系统结构773.5虚拟存放器与Cache特点(P146,P172)虚拟存放器与Cache主要区分 (P173表3.4)

Cache主要组成与工作流程 (P173图3.38)第77页.3.20计算机系统结构78本章小结(1)并行存放系统原理;(2)存放层次原理及5项性能指标;(3)存放层次3种管理方式;(4)4种地址映象与地址变换方式;(5)5种替换算法;(6)堆栈型替换算法;(7)主存-辅存层次与Cache-主存层次特点;(8)实存情况图、堆栈模拟图(2种分析工具)。习题:P202,题3,题19(3)(4)(6)(8)。第78页.3.20计算机系统结构79第四章输入输出系统(P208)

输入输出系统是计算机系统中实现各种输入输出任务资源总称。它包含各种输入输出设备、相关管理软件等等。因为输入输出设备特殊工作性质使其数据吞吐率通常远低于主机,设计输入输出系统就是要建立数据交换最正确方案,使双方都能高效率地工作。本章重点是中止优先级管理、通道流量设计。第79页.3.20计算机系统结构804.1基本输入输出方式(P212)4.1.1程序控制I/O方式4.1.2中止I/O方式4.1.3DMA方式4.1.4通道方式4.1.5I/O处理机方式第80页.3.20计算机系统结构814.2中止优先级管理(P219)中止是为实时任务优先取得处理机资源而采取一个调度技术,当系统中存在多个中止源时必须依据实时性强弱设定优先次序,这也被称为中止分级。为了兼顾中止响应时效与配置灵活,通常采取两套机制结合组成中止优先序管理体系。(1)硬件响应优先序:未被屏蔽几个中止源同时提出申请时,CPU选择服务对象次序。它由硬件电路实现,用户不能修改。如P226图4.11所表示。(2)软件服务优先序:在各中止服务程序开头,用软件设置自己中止屏蔽字(在主程序中也设置)。以此改变实际服务次序(P230)。比如某个硬件响应优先级高中止源,其中止服务程序执行中屏蔽了本身,而开放了某个硬件响应优先级比它低中止源,后者就能够在前者刚开放中止时就打断它,从而在实际上先得到服务。中止服务过程示意图如P231图4.14所表示。因为常规用户主程序对处理机需求紧迫性最低,所以它中止屏蔽字是“全部开放”。(3)实例分析:屏蔽字表、中止服务过程图。例4.1(P230倒数第8行开始)第81页.3.20计算机系统结构824.3通道处理机(P233)(1)定义:通道处理机(简称"通道")是隶属于主处理机输入输出专用协处理机。(2)特点:有一套输入输出功效很强专用指令系统;与主处理机共享主存,存放对应程序和数据;一个通道能够连接多台外部设备;主处理机可用"开启I/O"指令来开启一个通道;当通道访存与主处理机冲突时,存控部件赋予通道较高优先权;通道程序执行完成自动转入休眠状态,同时向主处理机发出一个特定中止申请,通知该事件。(3)地位:隶属于主处理机。第82页.3.20计算机系统结构83字节多路通道:以字节为单位交叉为多台设备传输。子通道概念。选择通道:完成一台设备全部传输再去为另一台设备服务。数组多路通道:以数组为单位交叉为多台设备传输。(5)通道传输过程实际有效工作时间(P241,其中P是设备台数):字节多路通道: ,其中n是单台设备数据传输量;选择通道:数组多路通道: ,其中k是块尺寸, 。(4)分类(P238):第83页.3.20计算机系统结构84(6)通道流量分析(P243):通道最大能力流量:第84页.3.20计算机系统结构85通道实际最大负荷流量:通道正常工作条件:第85页.3.20计算机系统结构86实例分析:通道时间关系图例4.2(P243倒数第2行开始)第86页.3.20计算机系统结构874.4I/O处理机(P245)定义:有独立内存和操作系统I/O专用计算机。第87页.3.20计算机系统结构88本章小结(1)5种I/O方式;(2)中止优先级管理(屏蔽字表、中止服务过程图);(3)3种通道处理机特点;(4)3种通道最大能力流量;(5)3种通道实际最大负荷流量;(6)通道正常工作条件;(7)通道时间关系图(字节多路通道);习题:P250,题5,题8。第88页.3.20计算机系统结构89第五章标量流水线技术(P253)

Pipeline本章学习标量计算机上使用流水加速技术。主要内容有流水技术分类、流水线性能指标计算、非线性流水线调度算法。标量计算机指只能直接进行标量运算计算机,与能够直接进行向量运算向量计算机相对应。流水处理方式特征,是让多个依次开启任务,尽可能同时使用系统不一样部件,经过时间重合来提升处理速率。这种技术理论上不增加成本。标量计算机上使用流水加速技术属于指令级并行技术。每条指令处理过程,能够划分为取指、译码、取数、运算、送结果5个子过程,也能够分得更细或更粗一些。划分标准是各部分时间长度大致相等、并使用CPU中不一样部件,这么才有利于多任务重合处理。第89页.3.20计算机系统结构905.2流水处理与逻辑相关概念

CPU中各个部件按流水处理次序连接起来,就称为一条流水线。5.2.1流水线工作原理

处理机解释程序方式有次序方式、重合方式、流水方式等。次序方式是解释完一条指令再开始解释下一条(P254);流水方式是把一个重复过程分解为若干个子过程,每个子过程能够与其它子过程同时进行,以此提升单位时间内解释指令数目(P277);重合方式是一个简单流水方式,它把指令分成2个子过程,每条指令只与下一条指令相重合(P255)。第90页.3.20计算机系统结构91流水线结构图(P278)第91页.3.20计算机系统结构92流水线工作时空图(P278—P279)第92页.3.20计算机系统结构935.2.2逻辑相关(P263-276)相关定义:(P263倒数第4段)一条指令必须等候前一条指令解释完成才能开始解释。相关分类及其对策1.全局性相关/局部性相关(P312、P269/P263、P303);2.指令相关/数相关(P264/P263);3.主存数相关/存放器数相关(P265/P266);4.数值相关/变址值相关(P266/P268)。第93页.3.20计算机系统结构945.3流水技术分类(P280)线性/非线性(P280):部件级/处理机级/处理机间级(宏流水线)(P281):单功效/多功效(P282):静态/动态(P283):标量/向量(P285):同时/异步(P285):次序/乱序(P285、P304):第94页.3.20计算机系统结构955.4.1吞吐率TP(P285)

吞吐率(TP───ThroughPut)指流水线在单位时间内执行任务数,能够用输入任务数或输出任务数表示。 ,其中k表示流水线划分段数。当满足 条件时,有 。5.4线性流水线性能分析(P285)第95页.3.20计算机系统结构96其中5.4.2加速比(即吞吐率之比,P288)第96页.3.20计算机系统结构97段效率: , 各段平均效率:其中表示第i段设备量占整条流水线全部设备量百分比。当满足 条件(即"等长"、"等权")时,有:5.4.3效率(设备利用率,P289)上式指出,S=E×k,就是说当效率到达100%时,流水方式(一个任务/Δt)吞吐率为次序方式(一个任务/(k×Δt))k倍。第97页.3.20计算机系统结构98例5.1(P292)分析:已知以下表示式,有相关,单功效,k=4,n=7。要求最少相关,用“二叉树算法”以降低相关。

Z=A+B+C+D+E+F+G+H ① ② ③ ④ ⑤ ⑥ ⑦时空图和算式见P293。5.4.4实例分析(P292)第98页.3.20计算机系统结构99例5.2(P293)分析:已知以下表示式,二功效,有切换,有相关,k=8,n=7。要求用最少切换、最少相关算法。

Z=A

B+C

D+E

F+G

H乘法: ① ② ③ ④加法: ⑤ ⑥加法: ⑦时空图和算式见P293-P294。第99页.3.20计算机系统结构100(1)瓶颈:瓶颈就是Δti最大段,它使流水线“流速”减慢(P287图5.37)。

S1 S2 S3 S4

Δt 3Δt Δt Δt(2)方法1:再细分───将瓶颈设备再细分为下一级流水线(P287图5.38)。

S1 S2a S2b S2c S3 S4

Δt Δt Δt Δt Δt Δt(3)方法2:并行设置───将瓶颈设备重复设置多套,轮番接收任务(P288图5.39)。

S2a

3Δt S1 S2b S3 S4

Δt 3Δt Δt Δt S2c注意两种方法时空图不一样。 3Δt5.4.5“瓶颈”问题及其处理方法(P286-P288)第100页.3.20计算机系统结构101对“设备并联”分析“设备并联”方法对“瓶颈”段投入与产出倍数相同,局部性能/价格比没有改进(本例局部改变率为3/3=1),不过整条流水线性能也提升了相同倍数,所以性能/价格比就提升了(本例全局改变率为3/1.5=2)。这也是Amdahl定律(加紧最费时间事件)一个详细应用。第101页.3.20计算机系统结构1025.5非线性流水线调度技术(P294)调度问题提出:一个任务在经过非线性流水线时对有些功效段要经过屡次(非线性定义),所以轻易与紧跟而来后继任务发生设备争用。调度机构作用就是合理安排前后任务进入流水线相差时间,既要防止争用,又要使相差时间尽可能少,以提升吞吐率。第102页.3.20计算机系统结构103算法:共5个步骤第1步.分析预约表R(P295图5.44)描述非线性流水线有2种图形:(a)连接图,仅给出各段之间静态空间连接关系;(b)预约表,就是一个任务经过流水线时空图,能全方面反应该流水线动态特征。要检验2个任务相距k拍是否冲突,可将它们预约表错位k列重合(上图)。第2步.作禁止表F(P297倒数第2段)F是1-N之间可冲突拍数集合,N是预约表列数减1。详细操作是将同一行中任意2个标识之间拍数差记下来,再将各行这类数字汇成一个集合,即为禁止表。本例中F={3,4,6}

5.5.1不改变流水线结构调度方法(P295)第103页.3.20计算机系统结构104第3步.作原始冲突向量C(P298倒数第3段)为了设计调度机构,需将禁止表转化为原始冲突向量C(Collision)。C是含N个分量布尔向量,普通形式为C=(cN...c1),其中N是预约表列数减1,也能够是禁止表中最大元素。第i个分量取值标准为:本例中C=(101100)第104页.3.20计算机系统结构105

动态冲突向量 (初值000000)右移存放器: 0010110 右移出0“或”运算器: 按位“或” 0接通

1断开常量发生器: 101100 原始冲突向量时钟输入 流水线 任务排队1.每个时钟脉冲使流水线中现有任务前深入,也使右移存放器移出一位;2.假如新任务进入,则用它原始冲突向量与右移存放器内容相“或”。使用冲突向量C实现调度原理图第105页.3.20计算机系统结构106第4步.作状态转移图(P299图5.51)这是为了研究无穷多个任务时任务之间可能存在正当间隔情况。从表示方便考虑,用动态冲突向量作为状态变量。详细作图方法是:(1)先画“根结点”,它就是第一个任务进入后右移存放器状态,数值等于原始冲突向量;(2)分析当前结点各位,假如ci=0则发出一个旁标i值箭头,ci=1则不能发出箭头,因为1表示“禁止”。另外还发出一个旁标“N+1*”箭头,“N+1*”意为“≥N+1”;(3)每个箭头末端产生一个新结点,其状态等于原结点状态右移i位后与原始冲突向量相“或”;(4)假如新结点状态与已经有结点重复,则取消它,箭头指向已经有那个结点。第106页.3.20计算机系统结构107第5步.作平均延迟拍数表(P300表5.1)(1)在状态转移图中寻找全部简单循环填入右表第1栏。所谓简单循环是指其中各结点仅经过一次闭合路径。注意它不一定要经过根结点;(2)计算各简单循环平均间隔拍数填入右表第2栏。平均间隔拍数等于该简单循环中全部数字之和除以数字个数;(3)取平均延迟拍数最少方案作为最优方案。本例为(1,1,7);(4)调度机构实现:计数器加译码电路。本例可用模9计数器,译码条件是计数值等于0、1、2时允许进入流水线。第107页.3.20计算机系统结构108第108页.3.20计算机系统结构109右移相"或"运算示例(以教材P299图5.51右下角结点为例):结果成为该结点上面新结点。第109页.3.20计算机系统结构1105.5.2改变流水线结构优化调度方法──预留算法(P301)目标:等间隔最小延迟调度方案方法:插入延迟器件第1步,确定相邻任务间隔拍数:因为最小间隔拍数是一行内“×”最大数目(第11行),取最小间隔拍数。第2步,确定插入延迟器件位置标准(P302第2行):从第一个“×”开始,凡是相距最小间隔拍数整倍数位置“×”都要向后推迟。实例(P301倒数第7行): 1.确定间隔拍数(最多3个“×”,所以是3拍); 2.插入延迟器件(使各行“×”间距不为3倍数); 3.修改预约表(P302图5.53(a)); 4.写调度方案(3)。 (示意图见下页)第110页.3.20计算机系统结构111第111页.3.20计算机系统结构1125.6超标量/超流水/超长指令字/超线程技术(P320) 本节学习其它指令级并行技术。主要内容有多操作部件技术、超标量技术、超流水技术、超长指令字技术、超线程技术。下面是一些相关名词术语(P253)标量处理机,超标量处理机:标量处理机指只能进行标量运算处理机,超标量处理机指能在一个时钟周期内同时发射多条指令处理机;指令级并行技术:指能使多条指令并行执行技术,包含流水技术、多操作部件技术和超长指令字技术;流水线处理机,超流水线处理机:流水线处理机指用流水作业方式并行解释多条指令处理机,超流水线处理机指能在一个时钟周期内分时发射多条指令处理机;超长指令字技术VLIW:指让一条指令包含多个独立操作字段,而且分别控制多个功效部件并行工作技术。第112页.3.20计算机系统结构1135.6.1多操作部件处理机(P321倒数第2段)。它是经过“设备并联”技术扩充单流水线,被扩充部件通常是运算部件、访存部件等“瓶颈”部件。多操作部件技术发展到多流水线,就成为“超标量技术”技术。第113页.3.20计算机系统结构1145.6.2超标量技术:一个时钟节拍内同时发射多条指令(P324倒2行)。时空图见P323图5.71(b)。第114页.3.20计算机系统结构1155.6.3超流水技术:一个时钟节拍内分时发射多条指令(P333第1行)。时空图见P333图5.79。第115页.3.20计算机系统结构1165.6.4超长指令字技术VLIW(P253)把多条无相关关系常规指令储存在一个超长指令字中,让它们同时被处理,分别控制多个功效部件并行工作技术。这种技术实质,是把超标量技术中相关性识别任务,由CPU硬件转移给程序员或编译程序去实现。第116页.3.20计算机系统结构1175.6.5超线程技术HT通俗了解就是将一颗含有超线程功效“实体”处理器虚拟成两个“逻辑”处理器,让多个应用程序或单一应用程序多个线程,能够同时在同一颗处理器上执行。超线程技术优点是提升了CPU中关键资源利用率,过去因为很多原因,CPU执行单元并没有被充分使用。在超线程运行方式下,该利用率可提升30~40%(最高65%),也就是说CPU在一样时间里可多执行相同倍数指令,其性能能够与含双处理器系统相媲美,但含有低得多价格。为了同时执行多个线程,使用超线程技术新一代P4HT处理器需要增加一个逻辑处理器单元。所以面积比以往P4增大了5%。而其余部分如ALU(整数运算单元)、FPU(浮点运算单元)、L2Cache(二级缓存)则保持不变,这些部分是被分享。即使采取超线程技术能同时执行两个线程,但它并不象两个真正CPU那样,每个CPU都含有独立资源。当两个线程都同时需要某一个资源时,其中一个要暂时停顿,并让出资源,直到这些资源闲置后才能继续。所以超线程性能并不等于两颗CPU性能。含有超线程技术CPU需要主板(包含芯片组和BIOS)、软件(包含操作系统和应用软件,如XP)支持,才能比较理想地发挥该项技术优势。第117页.3.20计算机系统结构1185.7精简指令系统(RISC)技术(P111)什么是RISC?(P107)CISC和RISC是指令系统设计两种思绪,前者重视功效多,后者重视速度快。双方各自发展了很多特色技术。

RISC主要用于工作站和其它高性能计算机,以UNIX操作系统为主。IBM-PC个人计算机以CISC为主,吸收了RISC若干适宜技术。20%与80%规律(P112)

统计表明,CISC中20%惯用指令使用率高达80%,其它都是非惯用指令。

RISC定义与特点(P115)①一个周期;②一个访存寻址方式;③硬联译码;④简化指令;⑤固定指令格式;⑥优化译码。降低CPI是RISC思想精华(P116)

分析公式:T=IC·

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论