




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-Ch 1 摩尔定律(芯片技术)当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。安德厚定律计算机分类的依据: 现代计算机应用新的分类:个人移动设备(Personal Mobile Device (PMD):智能手机、平板电脑等,强调高效和实时性;桌面计算(Desktop Computing):PC业务,强调性价比(price performance);服务器:强调可用性(availability)、规模化/可扩展性(scalability)、吞吐率;仓库级计算机(Clusters / Warehouse Scale Computers(WSA):用于软件及服务(SaaS)服务,强调性价比和可用性。嵌入式计算(Embedded Computers):强调价格。 应用程序中的两种并行数据级并行(Data-Level Parallelism (DLP)):可以同时操作许多数据项任务级并行(Task-Level Parallelism (TLP)):创建一些能够单独处理但大量采用并行方式执行的工作任务。 Classes of architectural parallelism / 计算机硬件实现DLP和TLP两种并行的4种方式指令级并行(Instruction-Level Parallelism (ILP)):流水线向量体系结构和图形处理器(Vector architectures/Graphic Processor Units (GPUs)):将单条指令并行应用于一个数据集,以开发数据级并行。线程级并行(Thread-Level Parallelism)请求级并行(Request-Level Parallelism)v Flynns Taxonomy (弗林分类法)SISD标准的顺序计算机,可以利用指令级并行SIMD开发数据级并行MISD没有这种类型的商用多处理器,但是包含这种类型后,分类变得完整MIMD开发线程级并行v 计算机体系结构经典:机器语言程序员所看到的传统机器级所具有的属性,即概念性结构与功能特性。计算机组成:计算机系统结构的逻辑实现一种体系结构可以有多种组成。e.g. X86一种组成可以有多种物理实现现代计算机体系结构则包括组成与实现,即计算机系统的层次结构。 ISA(指令集体系结构)ARM & MIPS80 x 86ISA分类载入-存储ISA寄存器-存储器ISA存储器寻址必须对齐不需要对齐寻址模式MIPS:寄存器寻址、立即数寻址、位移量寻址ARM:.+程序计数器寻址、两个寄存器之和.+位移量的3种变化形式(寄存器间接寻址、基址寻址、变址寻址)操作数的类型和大小8、16、32、64、IEEE 754浮点数还支持80位浮点数操作指令简单、易于实现流水化丰富、大控制流指令MIPS条件分支检测寄存器中的内容;ARM和MIPS将返回地址放在寄存器中和ARM分支测试条件代码位;将返回地址放在存储器的一个栈中ISA的编码定长 32位变长 1-18字节 趋势技术趋势(5)集成电路逻辑技术;半导体DRAM;半导体闪存;磁盘技术;网络技术性能趋势带宽优于时延集成电路中的功率和能耗趋势在时钟频率和电源电压保持不变的情况下,提高能耗效率成本趋势构建成本:技术改进运行成本:需要高效利用能源来降低 虚拟机:由软件实现的机器 系列机:由同一厂家生产的具有相同的系统结构,但具有不同的组成和实现的一系列不同型号的机器。v WSC和服务器:相同:非常看重可用性WSC以很多廉价组件作为构建模块,依靠软件层来捕获和隔离在这一级别进行计算时发生的许多故障。WSC的可扩展性通过连接这些计算机的局域网实现,而服务器则是通过集成计算机硬件来实现。v WSA和超级计算机:相同:非常昂贵超级计算机强调浮点性能,常用于运行大型的、通信 密集的批程序,这些程序可能一次运行几个星期。这种紧密耦合性决定了超级计算机要使用非常快速的内部网络;而WSC则更重视互动应用程序、大规模存储、可靠性和很高的因特网带宽。v Principles of Computer Design 充分利用并行 局部性原理(时间局部性、控件局部性) 以经常性事件为重点 Amdahl定律加快某部件执行速度所能获得的系统性能加速比,受限于该部件的执行时间占系统中总执行时间的百分比。加速比依赖于两个因素:可改进比例和部件加速比 CPU性能公式CPU时间 = 指令数 x CPI x 时钟周期数 MTTF : 平均无故障时间MTTR:平均修复时间MTBF:平均故障间隔时间 MTBF = MTTF + MTTR -Ch 2 存储器层次结构服务器:CPU(寄存器) L1缓存 L2缓存 L3缓存 存储器 磁盘存储PMD:CPU(寄存器) L1缓存 L2缓存 存储器 磁盘存储 从用户的角度来看,存储器的三个主要指标:容量、速度和价格(指每位价格) 从主存的角度来看:“Cache主存”层次:弥补主存速度的不足“主存辅存”层次: 弥补主存容量的不足 全相联:主存中的任一块可以被放置到Cache中的任意一个位置。直接映象:主存中的每一块只能被放置到Cache中唯一的一个位置。组相联:主存中的每一块可以被放置到Cache中唯一的一个组中的任何一个位置。 Cache对于低CPI、高时钟频率的CPU来说更加重要。 优化缓存性能的16种方法增大块降低失效率增大缓存提高相联程度采用多级缓存让读失效优先于写在缓存索引期间避免地址转换缩短命中时间容量小、结构简单的cache缩短命中时间路预测实现缓存访问的流水化增加缓存带宽采用无阻塞缓存采用多种缓存合并写缓冲区降低缺失代价编译器优化(循环交换、分块)降低缺失率对指令和数据进行硬件预取降低缺失代价或缺失率用编译器控制预取 -Ch 3 SIMD vs MIMD (3个优势)v SIMD的3种变体:向量体系结构、多媒体SMD指令集扩展、图形处理单元GPU VMIPS的主要组件(4) 流水线冲突是指对于具体的流水线来说,由于相关的存在,使得指令流中的下一条指令不能在指定的时钟周期执行。流水线冲突有三种类型:结构冲突、数据冲突、控制冲突 Tomasulo算法:核心思想:记录和检测指令相关,操作数一旦就绪就立即执行,把发生RAW冲突的可能性减少到最小;通过寄存器换名来消除WAR冲突和WAW冲突。 - 缓存一致性协议(Cache coherence protocols):为多个处理器保存缓存一致性的协议 解决缓存一致性的两种协议:基于目录的协议(directory based):用特定的物理存储快来保存每一个块的共享状态。监听式的协议(snooping):如果一个缓存拥有某一物理存储器块中的数据副本,它就可以跟踪该块的共享状态。 监听一致性协议写入失效协议(write invalidate protocol):确保处理器在写入某一数据项之前,获取对改数据项的独占访问,在执行写操作时会使其他副本失效。使用总线来执行失效操作。在获得总线访问权限之前,无法实际完成共享数据项的写入操作。写入更新协议(write update):在写入一个数据项时更新该数据项的所有缓存副本计算机的发展历程:数据处理、信息处理、知识处理、智能处理 解决一致性问题的策略: - WSC v.s. HPC HPC的处理器和节点之间的网络通常比WSC中快得多,因为HPC应用程序的独立性更强,通信更频繁。 HPC倾向于使用定制硬件(特别是在网络中),通常不能通过使用大众化商用芯片来降低成本。 HPC强调线程级并行或数据级并行,通常强调完成单项任务的延迟,WSC强调请求级并行。 HPC集群通常拥有长时间的运行的作业,会使服务器满荷运行,甚至能持续数周以上,而WSC中服务器的利用率在10%-50%之间,而且每天都会发生变化。 WSC v.s. Datacenters 数据中心集不同的硬件和软件于一身,为一家组织中的不同客户提供服务。WSC使仓库中的硬件和软件看起来像只有一台计算机,只是在上面运行着各种不同的应用程序。 传统数据中心的最大成本是维护人员的费用,WSC中,服务器硬件是最大的成本。 传统数据中心不具备WSC的规模,无法获得规模经济效应,也没有WSC面对的挑战和机遇,无论是体系结构方面还是运转方面。 WSC的成本构建成本【Capital expenditures (CAPEX)资本性支出】:服务器、电力与制冷基础设备、网络设备、其他基础设备运行成本【Operational expenditures (OPEX)运行性支出】:用电成本、安全与设施管理人力成本 PUE(Power Utilization Effectiveness 功率利用效率)测量WSC的效率PUE = 总设施功率 / IT设备功率PUE 1,PUE越大,WSC的效率就越低 云计算的三个特点:风险转移、成本相关性、按需付费 云计算服务的框架“SPI ”。这个缩写代表着云计算提供的三种主要的服务:软件即服务(software-as-a-service,SaaS ),平台即服务(platform-as-a-service,PaaS ),以及基础设施即服务(infrastructure-as-a-service,IaaS )。图2-3 描述了云计算的服务、用户和类型之间的关系。性能的发展趋势带宽优于时延2014.10.163计算机技术的飞速发展得益于两个方面:计算机制造技术的发展、计算机系统结构的创新计算机系统中的透明性举例:浮点运算器、多核透明性虚拟化云计算计算机体系结构:必考:定量原理(5个)30%1、 以经常性事件为重点(大概率事件优先原则)2014、10、23软件应满足可以向上和向后兼容。解释方法:一条一条指令地调进内存,一条一条地解释。时间长但花费空间少提高并行性的技术途径:时间重叠(流水技术)资源重复:引入空间因素,以数量取胜。资源共享计算机的分类划代主要以器件作为划分标准2014.10.30优化缓存性能的16种方法(必考)2014.11.27第4章 考试比例较小开发ILP涉及到的主要技术(可能考)参考课件后的:ILP研究中为客服各种停顿所采取的相关技术。2014.12.4开放考题:GPU、云计算(软件级服务,平台式服务。3个)(与书上第六章相关,并适当查询新资料)E.g.超算中心有什么特别之处(可能考)Thamosulo 算法核心思想、基本概念第4章 没有计算题,主要考GPU和SIMD.SIMD的三个变体加速比(必考)2014.12.18考点:看书上相关的例子重新写消除相关(寄存器重命名)期末考试不考流水线2014.12.25考:填空:云计算的三个特点:风险转移、成本相关性、按需付费考:概念题:PUEPUE总是大于等于1PUE等于1最佳 大于1时说明资源浪费考:解释WSC的成本:构建成本和运行成本画出SPM模型(3个服务)HPC 服务器2015.1.8(考点)计算机性能的变迁:从单处理器到多核将来的计算机:智能 并行性分级存储结构相联3C 4C模式3C模式:强制(Compulsory)、容量(C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省江门市第九中学2024-2025学年九年级上学期期中考试化学试卷(含答案)
- 电生理知识培训课件
- 电焊课件模板
- 北中高三期末考试试卷及答案
- 北京高考化学考试真题及答案
- 3-Oxoeicosa-cis-cis-11-14-dienoyl-CoA-3-Oxoeicosa-cis-cis-11-14-dienoyl-coenzyme-A-生命科学试剂-MCE
- 北海物理中考试卷真题及答案
- 高温用车安全知识培训课件
- 保利地产入职考试试题及答案
- 中考山脉考试题及答案
- 国家开放大学电大专科《政治经济学》网络课机考网考形考单项选择题题库及答案
- 公开课教学评价表
- 消防验收规范标准(最新完整版)19844
- 教研工作手册
- 电工电子技术基础教学大纲
- 独树一帜的中国画(课堂PPT)
- 制钵机的设计(机械CAD图纸)
- 生产设备控制程序
- 艾草深加工项目可行性研究报告写作范文
- LCM不良命名规范
- 《融资租赁业务介绍》PPT课件.ppt
评论
0/150
提交评论