




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
云计算内容总结与习题参考答案第1章大数据与云计算重点知识点1、大数据的定义及特征(P3);2、云计算的定义及特征(P34);3、云计算与大数据的关系(P3,大数据是需求,云计算是手段);4、云计算服务的3种类型(P45,IAAS、PAAS、SAAS);5、云计算的体系结构(P8,分为4层物理资源层、资源池层、管理中间件层、SOA层);6、全球企业的IT开销及其发展趋势(P9,图16,分为3个部分硬件开销、能耗、管理成本);7、使用云计算的数据中心对比传统数据中心的优势(P912,图19)习题参考答案1大数据现象是怎么形成的答题要点(P23)先回答大数据的概念,再回答大数据产生(即全球数据量增长快)的原因。答大数据就是海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。大数据产生的原因可以从2个方面来看一是数据产生方式的改变。过去的信息是由手工产生的,而随着人类进入信息社会,信息的产生越来越自动化。二是人类的活动越来越依赖数据。产生数据的主要源头有(1)人类的日常生活已经与数据密不可分(如使用个人智能设备产生的数据);(2)科学研究进入了“数据科学”时代(科学研究产生的数据);(3)各行各业也越来越依赖大数据手段来开展工作(各行各业工作过程中所产生的数据)。2新摩尔定律的含义是什么答题要点(P1)答由图灵奖获得者JIMGRAY提出,内容是每18个月全球新增信息总量是计算机有史以来全部信息量的总和。3云计算有哪些特点答题要点(P4)答云计算的特点(1)超大规模。指的是提出云计算数据中心的建设规模,谷歌云拥有上百万台服务器,亚马逊、IBM、微软、YAHOO、阿里、百度和腾讯等公司的“云”都拥有几十万台服务器。(2)虚拟化。程序可以运行在云“中”,并对外提供服务。因此,户不必知道提供服务的程序是在哪个位置运行,只需要用一台终端设备(如计算机、PAD或手机)就可方便地获得程序提供的服务。(3)高可靠性。“云”使用了数据多副本容错、计算机节点同构可互换等措施,使运行和存储在“云”上的程序和数据比运行和存储在本地计算机更可靠。(4)通用性。云计算不针对特定的应用,在“云”上可以开发出不同的程序,提供各种服务。(5)高可伸缩性。“云”的规模可动态伸缩,可以较好满足应用和用户规模增长的需求。(6)按需服务。“云”是一个庞大的资源池,由用户按需购买,按使用量计费。(7)极其廉价。相对于传统数据中心“云”计算中心更大,管理成本更低;“云”计算中心的硬件使用率更高;“云”计算中心更适合建立在电力资源丰富的较偏远地区。4云计算按照服务类型可以分为哪几类答题要点(P45)分别答出三种分类及其代表产品。答云计算按服务类型可以分为三类(1)将基础设施作为服务,IAAS(INFRASTRUCTUREASASERVICE),如AMAZONEC2/S3;(2)将平台作为服务,PAAS(PLATFORMASASERVICE),如GOOGLEAPPENGINE、MICROSOFTWINDOWSAZURE;(3)将软件作为服务,SAAS(SOFTWAREASASERVICE),如SALESFORCEONLINECRM。5云计算技术体系结构可以分为哪几层答题要点(P78)答出分层的名称,简单说明其内涵。答云计算技术体系结构分为4层(1)物理层包括计算机、存储器、网络设置、数据库和软件等;(2)资源池层将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池等;(3)管理中间件层负责对云计算的资源进行管理,对众多应用任务进行调度;(4)SOA(面向服务体系结构)构建层将云计算能力封装成标准的WEBSERVICES服务,以SOA体系进行管理,并提供各项接口供用户访问。6在性价比上云计算相比传统技术为什么有压倒性的优势答题要点(P9P11)要分为成本的降低和资源利用率的提高两方面来回答。答云计算较传统技术有两方面的优势(1)由于主流云服务供应商使用的数据中心多是大型云计算数据中心,其管理和运营成本(人员费用、电力费用等)是传统数据中心成本的1/51/7,因此云计算在性价比上比传统技术有57倍的优势;(2)传统数据中心按照峰值要求来配置服务器和网络资源,资源的平均利用率只有1015;而云计算平台是有弹性的服务,它根据租用者的需要在一个超大的资源池中动态分配和释放资源,不需要为每个租用者预留峰值资源,因此云计算资源的利用率可以达到80左右,是传统技术的57倍。第2章GOOGLE云计算原理与应用重点知识点1、GOOGLE云计算系统的组成部分(P13,各重要部分的名称及作用);2、GOOGLE云计算系统中的GFS对比传统分布式文件系统的区别(P13,利用软件的方法实现容错);3、GFS的系统架构(P14,图21);4、GFS的容错机制(P16);5、MAPREDUCE的运行模型与执行流程(P1820,图22,图23);6、CHUBBY的功能、作用(P2223,使用PAXOS算法实现的分布式锁服务);7、CHUBBY的系统架构(P2426,图27);8、BIGTABLE的数据模型(P33,图212,行、列族、列、时间戳);9、BIGTABLE的系统架构及其各组成部分的作用(P3439,图213);习题参考答案1GOOGLE云计算技术包括哪些内容答题要点(P13)要答出有关技术的分类和名称。答GOOGLE云计算技术包括GOOGLE分布式文件系统GFS,分布式计算编程模型MAPREDUCE,分布式锁服务CHUBBY,分布式结构化数据表BIGTABLE,分布式存储系统MEGASTORE,分布式监控系统DAPPER,数据交互分析工具DREMEL和POWERDRILL,等等。2当前主流分布式文件系统有哪些各有什么优缺点答题要点(P13)此题的问法有些不完整,题义应该是问传统分布式文件系统的实现方法与GOOGLE的分布式文件系统GFS的区别。答REDHAT、IBM、SUN等公司都有分布式文件系统的解决方案,这些解决方案依靠RAID技术、SAN存储区域网来容错(是基于硬件的容错),对构建分布式文件系统的硬件有较高的要求,存储成本高。GOOGLE的GFS是使用软件的方式,在文件系统上实现容错,可以使用廉价的机器构建,存储成本低。相对于传统的分布式文件系统,GOOGLE的GFS分布式文件系统的容错性能在可靠性和存储成本上,都具有优势。3GFS采用了哪些容错措施来确保整个系统的可靠性答题要点(P1617)除了要把容错技术的名称答出来以外,还要简单说明机理。答GOOGLE的GFS采用的容错机制可以分为(1)MASTER容错。MASTER上保存着GFS的元数据(包括命名空间(NAME)和CHUNK映射表等),这些元数据及MASTER的操作日志保存在磁盘中,MASTER出错时而磁盘数据完好时,可以通过磁盘数据恢复MASTER。GFS对MASTER进行远程实时备份,如果MASTER彻底死机,另外一台MASTER可以迅速接替其工作。(2)CHUNKSERVER容错。CHUNK是GFS的数据块,一个CHUNK默认存储3个位于不同CHUNKSERVER的副本,MASTER会检查CHUNK的副本数,在出现CHUNK副本丢失或不可恢复时,MASTER自动将该副本复制到其他CHUNKSERVER。另外,CHUNK以文件的形式保存在CHUNKSERVER,CHUNK文件以BLOCK(64K)来划分,每一个BLOCK对应一个32位的校验和,CHUNKSERVER会检查数据和检验和,如果不匹配就返回错误。4MAPREDUCE与传统的分布式程序设计相比有何优点答题要点(P18)答MAPREDUCE封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的接口。通过这个接口,可以把大尺度的计算自动地并发和分布执行,使编程变得非常容易。另外,MAPREDUCE也具有较好的通用性,大量不同的问题都可以简单地通过MAPREDUCE来解决。5CHUBBY的设计目标是什么PAXOS算法在CHUBBY中起什么作用答题要点(P2427)答CHUBBY的设计目标主要有(1)高可用性和高可靠性。(2)高扩展性。(3)支持粗粒度的建议性锁服务。(4)服务信息的直接存储。(5)支持通报机制。(6)支持缓存机制。PAXOS算法在CHUBBY中起到保证副本之间数据一致的作用(CHUBBYCELL(单元)中的所有副本都要保持完全一致)。6阐述BIGTABLE的数据模型和系统架构。答题要点(P3339)答BIGTABLE的数据模型是一个多维映射表,通过行关键字、列关键字和时间戳进行索引(定位数据)(1)行。行关键字用于标识BIGTABLE中不同的行,可以是任意字符串,大小不能超过64KB。BIGTABLE中的数据是通过行关键字按字典序进行排序的。(2)列。BIGTABLE中的列,以列族进行组织,一个列关键字以“族名列名”的形式表示,每个列族中的列属于同种数据类型,并且访问控制(ACCESSCONTROL)是在列族上进行定义的。(3)时间戳。用于在区别BIGTABLE中数据的版本,同一个行、列定位的数据,可以根据设置保存具有不同时间戳的数据值。BIGTABLE主要由三个部分组成主服务器MASTERSERVER、子表服务器TABLETSERVER和客户端程序库(CLIENTLIBRARY)。主服务器主要进行一些元数据操作以及子表服务器之间的负载调度问题,子表服务器则以子表的形式(通过GFS以SSTABLE类型文件)保存BIGTABLE的数据,一个子表服务器负责存储若干个(通常100个左右)子表。访问BIGTABLE服务需要使用BIGTABLE的客户端。7分布式存储系统MEGASTORE的核心技术是什么答题要点(P47)答MEGASTORE最核心的技术是复制。8大规模分布式系统的监控基础架构DAPPER关键技术是什么答题要点(P56)答DAPPER关键技术主要有两个方面(1)轻量级的核心功能库。DAPPER的监控过程基本对应用层透明。(2)二次抽样技术。利用二次抽样技术成功解决了低开销及广泛可部署性的问题。9相比于行存储,列存储有哪些优点答题要点(P62)答相对于行存储,列存储以属性为单位,每次存储一个属性。列存储的主要好处在于处理时只需要使用涉及的列数据,且列存储更有利于数据的压缩。10为什么MAPREDUCE不适合实时数据处理答题要点(P61)答MAPREDUCE是一种面向批处理的框架,在编写完成代码后,要提交到集群运行后才能验证代码的正确性。如果代码有误需要修改,则需要返利修改运行验证。这种数据探索(DATAEXPLORATION)的方式比较耗时。而传统的SQL查询则是交互式的,用户提交完自己的请求后就可以在相对可以接受的时间内得到返回结果。11简单阐述DREMEL如何实现数据的无损表示。答题要点(P64)原理较复杂,简单说明一下就好。答DREMEL采用嵌套模型,采用列存储,因此需要把存储的数据进行重组才能还原为记录的形式。DREMEL的每一列会被存储为块的集合,每个块又包含重复深度和定义深度,根据重复深度和定义深度确定相应块的字段值属于哪条记录的哪个字段。12POWERDRILL能实现高效的数据处理,在存储部分主要依赖哪两方面的技术答题本点(P72)答POWERDRILL实现高效数据处理在存储部分主要依赖(1)列式存储。(2)内存计算。13GOOGLEAPPENGINE提供了哪些服务答题要点(P8088)答GOOGLEAPPENGINE提供了哪些服务包括(1)图像操作API。(2)邮件API。(3)MEMCACHEAPI。(4)用户API。(5)数据库API。14GOOGLEAPPENGINE的沙盒对开发人员有哪些限制答题要点(P79)答沙盒将用户应用程序隔离在自身的安全可靠的环境中,该环境和网络服务器的硬件、系统及物理位置完全无关,并且沙盒仅提供对基础操作系统的有限访问权限。第3章AMAZON云计算AWS重点知识点1、AWS提供的服务主要包括有哪些(P90,名称和作用);2、DYNAMO在AWS里的地位和作用(P90,基础存储架构);3、DYNAMO架构(P9198,特点节点无中心环状分布,图35,图39,DHT、GOSSIP协议在其中发挥的作用);4、EC2架构(P99100,图311);5、S3的基本结构(P103104,图315);6、非关系数据库与传统关系数据库的比较(P108);7、RDS架构的特点(P111,图321,图322,SHARENOTHING);8、SQS的消息采样机制(P114,图324);9、CDN机制的原理(P116117,图326,图327);习题参考答案1在DYNAMO中添加一个新的节点时,原告各节点保存的数据是否需要改变如果改变,应该如何变化答案要点(P92)答在DYNAMO中添加一个新的节点时,会使新节点的前驱节点保存的数据发生改变,原存储在前驱节点上的部分数据会迁移到新节点上。而其他节点保存的数据不变。同样,在删除节点时,被删除节点的数据会迁移到其前驱节点上,而对其他节点没有影响。2MERKLE哈希树的创建需要较大的时间开销。频繁地重建MERKLE树会对系统造成很大的负担。假设MERKLE树的叶子节点表示的是数据分区的HASH值,请设计一个MERKLE树重建方案,尽量减少MERKLE树的重建工作。答案要点(P9798)就是回答DYNAMO中永久性故障处理,如磁盘损坏等情况,需要重建节点数据时,如何加快检测和减少数据传输量的机制。答把MERKLE哈希树设计为二叉树或多叉树,其中每个节点叶子节点的值为单个数据文件的哈希值,非叶子节点的值为该节点所有子节点组合后的哈希值。当采用MERKLE哈希树检测数据是否一致时,可先比较根节点的值,如果值相同则说明所有数据一致,否则需要继续比较,直到哈希值不同的叶子节点。这种方法可以快速地进行数据对比,检测数据的一致性,并大大减少了需要传输的数据量,提高了系统效率。3私有IP、公有IP和弹性IP的区别在哪里答案要点(P101103)答EC2的IP地址包括三大类私有IP、公有IP和弹性IP。EC2的实例一旦被创建,就会动态地分配两个IP地址,即私有IP和公有IP。私有IP地址与实例相对应,由动态主机配置协议(DHCP)分配产生。公有IP地址和私有IP地址之间通过网络地址转换(NAT)技术实现相互之间的转换,实例通过这个公有IP地址和外界通信,实例每次启动时,公有IP都会发生变化。弹性IP则是与用户账号绑定,使用时可以代替公有IP通过NAT的方式实现与私有IP转换,从而连接到EC2实例。4地理区域和可用区域有哪些区别答案要点(P100101)答AWS中采用了两种区域(ZONE),地理区域(REGIONZONE)和可用区域(AVAILABILITYZONE)。地理区域是按实际的地理位置划分的。可用区域是根据是否有独立的供电系统和冷却系统划分,通常将每个数据中心看作一个可用区域。EC2系统中包含多个地理区域,而每个地理区域又包含多个可用区域。5、简单存储服务S3与传统的文件系统有哪些区别答案要点(P103105)教材上没有直接给出答案,应该对比传统的文件系统的原理和特点来说明其区别。答简单存储服务S3与传统的文件系统的区别有以下几个方面(1)S3构架在DYNAMO上,本身就具有分布式的特点,是容错的存储系统;(2)S3存储内容的分层结构与传统文件系统不同,是以桶(BUCKET)和对象(OBJECT)作为其基本结构;(3)S3对数据内容的附加描述信息可以是系统默认的元数据,也可以是用户指定的自定义元数据,而传统的文件系统则不具有这种灵活性。6简单阐述SQS在AMAZON云计算中的作用。答案要点(P113)答由于想要构建一个灵活且可扩展的系统,低耦合度是很必要的。AWS中的各个组件就是这样的一个低耦合度的系统,系统中的各个组件关联度很低,可以根据系统需要随时从系统中增加或删除某些组件。组件之间的通信,就是由SQS解决的。SQS实现了AWS组件之间安全、高效的通信,是云计算平台各个组件之间沟通的桥梁。7如何理解传统数据库在可扩展性方面的能力较弱答案要点(P108)教材上没有直接给出答案,但可以根据基于分布式结构的数据库与传统数据库的区别进行分析。答数据库的扩展,可以从存储能力和处理能力两个方面考虑。传统数据库系统如果需要扩展存储能力,则需要迁移到空间更大的物理存储设备上(如更换更大的磁盘,等等);如需要扩展处理能力,则需要把系统迁移到计算能力、数据吞吐能力更强的计算机上。这些迁移工作,对于分布式系统的扩展只需要把服务器增加到集群中而言,是困难得多的工作。因此,相比分布式系统,传统数据库在可扩展性方面的能力较弱。8非关系数据库是如何解决可扩展性问题的答案要点(P108)应该要答出分布式系统的基本原理和特点。答非关系数据库是建立在分布式文件系统(如GFS、DYNAMO等)的基础上的,而分布式文件系统本身就是可扩展、容错的,因此,非关系数据库也具备这样的特性。另外,非关系数据库还可以把表格划分成更小的部分(如域),并通过散列把这些更小的部分分配到不同的元数据服务器进行管理,同时实现了负载均衡和横向可扩展性。9简述SHARENOTHING架构的特点。答案要点(P111)AWS关系数据库服务的架构特点。答SHARENOTHING架构,即每台数据库服务器都是完全独立的计算机系统,通过网络相连,不共享任何资源。当数据库处理能力不足时,可以通过增加服务器数量来提高处理能力,同时也可以增加数据库的并发访问能力。把一张大表按归业务特点的需要,划分成多个小表,分别存储到互不共享的独立服务器上。这个划分工作是要由人来开展的,对设计人员的要求很高。10简述AWS如何支持在线数据流应用。答案要点(P130)答AMAZONKINESIS是AWS的数据流服务,用于实时地处理快速流转的数据,它可以调集弹性网络服务来处理单一或分布式的大容量数据库,适用于网站点击、金融信息分析、社交媒体、运行日志等大规模数据传输和事务处理应用。11描述一下基于AMAZONAWS的应用实例。答案要点(P130132)答SMUGMUG、ANIMOTO、ALEXA三个实例中的一个。(内容略)第4章微软云计算WINDOWSAZURE重点知识点1、微软云计算平台的体系结构及组成部分(P136137,图41);2、WINDOWSAZURE计算服务所支持的虚拟机类型(P139,图43,WEBROLE、WORKERROLE、VMROLE);3、WINDOWSAZURE存储服务所支持的数据类型(P140,图44,BLOBS、TABLES、QUEUES、FILES);4、WINDOWSAZURECDN的信息访问(P148,图49);5、SQLAZURE数据同步技术(P152153,图413,“轮辐式”模型);6、SQLAZURE和SQLSERVER的区别(P153154);7、APPFABRIC的关键技术(P155159,总线服务、访问控制、高速缓存)。习题参考答案1微软云计算平台包含几部分每部分的作用是什么答案要点(P136137)答微软云计算平台包含4个部分(1)WINDOWSAZURE。位于云计算平台的最底层,提供一个在微软数据中心服务器上运行应用程序和存储数据的WINDOWS环境。(2)SQLAZURE。云关系数据库,提供类似于SQLSERER的云关系型数据库。(3)WINDOWSAZUREAPPFABRIC。为云中或本地系统中的应用程序提供基于云的基础架构服务。部署和管理云基础架构。(4)WINDOWSAZUREMARKETPLACE。为购买云计算环境下的数据和应用提供在线服务。2WINDOWSAZURE存储服务提供了几种类型的存储方式阐述每种存储方式主要的存储对象。答案要点(P140)答WINDOWSAZURE存储服务提供了4种主要的数据存储结构(1)BLOB数据类型存储二进制数据,可以存储大型的无结构数据,容量巨大,能够满足海量数据存储需求;(2)TABLE数据类型能够提供更加结构化的数据存储,但是它不同于关系数据库管理系统中的二维关系表,查询语言也不是SQL;(3)QUEUE类型与微软消息队列(MSMQ)相近,用来支持在WINDOWSAZURE应用程序组件之间进行通信;(4)FILE类型使用标准SMB21(服务器信息块协议,是一种IBM协议,用于在计算机间共享文件、打印机、串口等)协议提供文件共享,可以在应用程序和虚拟机之间共享文件。3阐述WEBROLE实例和WORKERROLE实例之间的通信机制。答案要点(P139)先答两种实例的特点,再答通信机制。答(1)每个WEBROLE实例都提前在内部安装了IIS7,可以很方便地创建WEB应用程序。(2)WORKERROLE实例内部没有安装IIS,WORKERROLE设计用来运行各种各样的基于WINDOWS的代码,比如运行一个模拟、进行视频处理等。(3)应用通过WEBROLE实例与用户进行交互,然后利用WORKERROLE实例进行任务处理。4SQLAZURE数据同步技术主要有几种分别如何实现答案要点(P152153)先回答SQLAZURE数据同步的涵义与作用,再回答SQLAZURE数据同步技术的种类和实现。答为了提高存储数据的访问性能,同时确保网络发生故障时应用仍能够访问数据库,需要在本地拥有SQLAZURE的数据库副本,因此需要使用SQLAZURE数据同步技术。SQLAZURE数据同步技术主要包括两种(1)SQLAZURE数据库与SQLSERVER数据库之间的数据同步;(2)SQLAZURE数据库之间的同步,可以在全球的不同数据中心进行同步。SQLAZURE数据同步使用“轮幅式(HUBANDSPOKE)”模式,所有的变化将会首先被复制到“HUB”(必须是SQLAZURE数据库)上,然后再传送到其他“SPOKE”(可以是SQLAZURE数据库,也可以是本了SQLSERVER数据库)上。SQLAZURE数据同步的过程可以同步整个数据库,也可以只同步有更新的数据库表格。5阐述SQLAZURE和SQLSERVER的相同点和不同点。答案要点(P153154)着重在于不同点,要简单说明一下各不同点。答相同点都是关系数据库,都支持TRANSACTSQL。不同点(1)物理管理方面。SQLAZURE的物理资源是自行管理的,SQLAZURE不能使用SQLSERVER的备份机制。(2)服务提供方面。SQLSERVER在使用时需要准备软件和硬件,并要进行安装和配置;SQLAZURE的这些工作都由SQLAZURE服务程序来完成。(3)TRANSACTSQL支持方面。SQLSERVER可以支持TRANSACTSQL的关于指定文件组或物理文件路径的参数,而SQLAZURE并不支持这些参数。(4)特征和数据类型方面。SQLAZURE不能支持SQLSERVER所有的特征和数据类型。6APPFABRIC高速缓存技术是如何实现的答案要点(P155158)先答高速缓存的涵义,再简述其实现。答应用程序在很多情况下需要重复访问存取同一个数据,为提升数据的访问效率,可以缓存这些经常被访问的信息,减少查询数据库的次数。APPFABRIC高速缓存提供了一种服务,实现了这样的功能。APPFABRIC高速缓存为WINDOWSAZURE应用程序提供了一个分布式缓存,如果WINDOWSAZURE应用程序需求的数据不在本地缓存中,则会连接高速缓存服务,从高速缓存读取数据并更新本地缓存。7利用VISUALSTUDIO2010开发一个简单的应用程序,并将其部署到WINDOWSAZURE平台上。8WINDOWSAZURE是如何支持大数据处理的答案要点(P164)答WINDOWSAZURE支持HADOOP服务来进行大数据处理。可以使用WINDOWSAZURE提供的虚拟机运行HADOOP集群,并在集群上使用MAPREDUCE等工具对大数据进行处理。WINDOWSAZURE的HADOOP集群可以使用BLOB存储数据。第5章HADOOP20主流开源云架构重点知识点1、HADOOP20体系架构(P182,包括HDFS、YARN、COMMON);2、HDFS的体系架构(P184186,图57,图58,图59,NAMENODE、DATANODE角色及其作用);3、YARN的体系架构(P190193,图511,图512,图513,RESOURCEMANAGER、NODEMANAGER、CONTAINER、APPLICATIONMASTER之间的关系)。习题参考答案1简述HADOOP10与HADOOP20的优缺点,并比较二者区别与联系。答案要点在教材上并无直接答案,主要要说明其区别。请参考HTTP/BLOGCSDNNET/U012050154/ARTICLE/DETAILS/52353545答HADOOP20是对HADOOP10的发展与完善。其区别有(1)从HADOOP整体框架来说。HADOOP10即第一代HADOOP,由分布式存储系统HDFS和分布式计算框架MAPREDUCE组成,其中HDFS由一个NAMENODE和多个DATENODE组成,MAPREDUCE由一个JOBTRACKER和多个TASKTRACKER组成。HADOOP20即第二代HADOOP为克服HADOOP10中的不足针对HADOOP10单NAMENODE制约HDFS的扩展性问题,提出HDFSFEDERATION,它让多个NAMENODE分管不同的目录进而实现访问隔离和横向扩展,同时彻底解决了NAMENODE单点故障问题;针对HADOOP10中的MAPREDUCE在扩展性和多框架支持等方面的不足,它将JOBTRACKER中的资源管理和作业控制分开,分别由RESOURCEMANAGER(负责所有应用程序的资源分配)和APPLICATIONMASTER(负责管理一个应用程序)实现,即引入了资源管理框架YARN。同时YARN作为HADOOP20中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度,不仅限于MAPREDUCE一种框架,也可以为其他框架使用,如TEZ、SPARK、STORM等(2)从MAPREDUCE计算框架来讲MAPREDUCE10计算框架主要由三部分组成编程模型、数据处理引擎和运行时环境。它的基本编程模型是将问题抽象成MAP和REDUCE两个阶段,其中MAP阶段将输入的数据解析成KEY/VALUE,迭代调用MAP函数处理后,再以KEY/VALUE的形式输出到本地目录,REDUCE阶段将KEY相同的VALUE进行规约处理,并将最终结果写到HDFS上;它的数据处理引擎由MAPTASK和REDUCETASK组成,分别负责MAP阶段逻辑和REDUCE阶段的逻辑处理;它的运行时环境由一个JOBTRACKER和若干个TASKTRACKER两类服务组成,其中JOBTRACKER负责资源管理和所有作业的控制,TASKTRACKER负责接收来自JOBTRACKER的命令并执行它。MAPREDUCER20具有与MRV1相同的编程模型和数据处理引擎,唯一不同的是运行时环境。MRV2是在MRV1基础上经加工之后,运行于资源管理框架YARN之上的计算框架MAPREDUCE。它的运行时环境不再由JOBTRACKER和TASKTRACKER等服务组成,而是变为通用资源管理系统YARN和作业控制进程APPLICATIONMASTER,其中YARN负责资源管理的调度而APPLICATIONMASTER负责作业的管理。2简述解压包方式部署HADOOP的弊端。答案要点(P175)答使用解压包方式部署HADOOP,要求用户对LINUX较为熟悉,在逐个解压、配置HADOOP组件的过程中,步骤较多,烦琐且容易出错。3简述HADOOP20安全机制,试分析其优缺点。答案要点(P198)简述机制就可,优缺点不需要分析。请参考HTTP/DONGXICHENGORG/MAPREDUCENEXTGEN/HADOOPYARNSECURITY/答系统安全机制由认证AUTHENTICATION和授权AUTHORIZATION两大部分构成。认证就是简单地对一个实体的身份进行判断;而授权则是向实体授予对数据资源和信息访问权限的决策过程。HADOOP20中的认证机制采用KERBERO和TOKEN两种方案,而授权则是通过引入访问控制列表(ACCESSCONTROLLIST,ACL)实现的。在HADOOP20中,CLIENT与NAMENODE和CLIENT与RESOURCEMANAGER之间初次通信均采用了KERBEROS进行身份认证,之后便换用DELEGATIONTOKEN以较小开销,而DATANODE与NAMENODE和NODEMANAGER与RESOURCEMANAGER之间的认证始终采用KERBEROS机制。HADOOPYARN的授权机制是通过访问控制列表(ACL)实现的,按照授权实体,可分为队列访问控制列表、应用程序访问控制列表和服务访问控制列表。4简述YARN编程过程,再简述MR编程过程,说明二者有何关系。答案要点(P205)简述YARN的编程模型即可。答YARN是一个资源框架,由RM(RESOURCEMANAGER)和NM(NODEMANAGER)组成,RM和NM不参与计算逻辑,计算逻辑代码由APPLICATIONMASTER和CLIENT实现,具体计算则由APPLICATIONMASTER和CONTAINER完成。在资源框架中,RM负责资源分配,NM负责管理本地资源。在计算框架中,CLIENT负责提交任务,RM启动任务对应的APPLICATIONMASTER,APPLICATIONMASTER则再向RM申请资源,并与NM协商启动CONTAINER执行任务。YARN是资源框架,MR是该资源框架下的编程模板。5试从架构上分析HADOOP的优缺点。答案要点优点主要是来源于分布式系统,缺点是仍存在单点故障。请参考HTTP/WWWCNBLOGSCOM/BESTER/P/3255307HTML答HADOOP是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在HADOOP上开发和运行处理海量数据的应用程序。它主要有以下几个优点(1)高可靠性。HADOOP按位存储和处理数据的能力值得人们信赖。(2)高扩展性。HADOOP是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。(3)高效性。HADOOP能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。(4)高容错性。HADOOP能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。由于HADOOP各组件采用了主从结构(如HDFS、YARN),并发访问较多时存在性能问题,并且仍存在单点故障的可能。第6章HADOOP20大家族重点知识点1、常用的HADOOP分布式组件及其分类(P215217);2、ZOOKEEPER的功能和作用(P223224);3、HBASE的逻辑模型和体系框架(P227229,表64,图64,HMASTER、HREGIONSERVER、CLIENT以及ZOOKEEPER各种角色的作用);4、PIG、HIVE的功能简介(P232235,简单来说就是把一些风格的数据操作句转换为MAPREDUCE作业的平台工具);习题参考答案补充1请列举一些HADOOP分布式组件及其功能简介。答案要点(P215217)回答出具有代表性的几种即可答(1)ZOOKEEPER一个为分布式应用所设计的分布式、开源的协调服务(或简单回答为分布式锁即可)。(2)HBASE一种高可靠、高性能、面向列、可伸缩的分布式表。(3)PIG构建在HADOOP之上的,用来处理大数据集的脚本语言平台,使用的量种描述数据流的语言PIGLATIN。(4)HIVE构建在HADOOP之上的数据仓库框架,使用类SQL的方式查询数据集。(5)OOZIE工作流引擎服务,用于管理和协调运行在HADOOP平台上的各种类型任务。(6)FLUME分布式日志数据聚合与传输工具,可用于日志数据收集、处理和传输。(7)MAHOUT基于HADOOP的机器学习和数据挖掘的一个分布式程序库。等等。补充2请简述ZOOKEEPER集群的工作原理。答案要点(P223224)答ZOOKEEPER是一种服务,是一个一致性的小型文件系统。当ZOOKEEPER集群中的各台机器上的服务启动后,它们首先会选择一个作为领导者,其他则作为追随者,领导者的选举,采用的是少数服从多数的原则。当ZOOKEEPER的客户端发生读/写操作时,规定读操作可以在各个节点上实现,写操作则必须发送到领导者,并经领导者同意才可执行。补充3请简述HBASE的逻辑模型。答案要点(P227)答HBASE以表的形式存储数据,每个表由行和列组成,每个列属于一个特定的列族(COLUMNFAMILY)。表中的行和列确定的存储单元称为一个元素(CELL),每个元素保存了同一份数据的多个版本,由时间戳(TIMESTAMP)来标识。行键是数据行在表中的唯一标识,并作为检索记录的主键。行键可以是任意字符串,默认按字段顺序进行存储。补充4请简述HBASE的架构。答案要点(P228229)答HBASE采用主从结构(MASTER/SLAVER),主节点运行的服务为HMASTER,从节点运行的服务为HREGIONSERVER,底层采用HDFS存储数据。HMASTER可以有多个,但同一时刻只能有一个作为主服务,需要由ZOOKEEPER来选定主HMASTER。HMASTER把要存储的表数据分为多个分区(REGION),并负责把REGION分配给不同的HREGIONSERVER。每个HREGIONSERVER负责管理若干个REGION,负责响应REGION的读/写请求,并且当REGION所对应的存储文件超过一定的大小时,HREGIONSERVER会把一个REGION拆分为2个REGION。新的REGION将由HMASTER分配到相应的HREGIONSERVER上。补充5PIG、HIVE组件分别可以实现什么功能其相似处在哪里。答案要点(P215)相似之处在教材上没有。答PIG是构建在HADOOP之上的,用来处理大数据集的脚本语言平台,使用的量种描述数据流的语言PIGLATIN。HIVE是构建在HADOOP之上的数据仓库框架,使用类SQL的方式查询数据集。这两个工具都可以看作是数据操作语言的翻译工具,分别把PIGLATIN和类SQL翻译成MAPREDUCE程序代码,然后提交到HADOOP集群上运行这些任务。第7章虚拟化技术重点知识点1、虚拟化技术的作用(P250,把资源整合为资源池,实现服务器虚拟化、存储虚拟化、网络虚拟化和桌面虚拟化);2、服务器虚拟化的分类及其区别(P251252,图71,图72,寄居虚拟化、裸机虚拟化);3、虚拟机动态迁移的内容(P254255);4、虚拟机动态迁移中的内存迁移的三个阶段及其含义(P254255,PUSH、STOPANDCOPY、PULL);5、存储虚拟化的实现方式(P259260);6、网络虚拟化包括哪三个方面(PP262263);7、桌面虚拟化的涵义和作用(P265266)。习题参考答案1虚拟化技术在云计算中的哪些地方发挥了关键作用答案要点(P250)答云计算中运用虚拟化技术主要体现在对数据中心的虚拟化上。数据中心虚拟化是通过服务器虚拟化、存储虚拟化和网络虚拟化实现的。2比较VMWARE、XEN等虚拟化产品的关键技术,以及对云计算技术提供的支持。答案要点此题教材上也没有答案。对于各种常用的虚拟化平台的优劣与选择,请参考HTTP/WWW3LIANCOM/EDU/2014/0628/152540HTML3服务器虚拟化、存储虚拟化和网络虚拟化都有哪些实现方式答案要点(P251252、P259260、P262)答虚拟器虚拟化的实现方式可以分为寄居虚拟化、裸机虚拟化。存储虚拟化的实现方式可以分为基于主机的存储虚拟化、基于存储设备的存储虚拟化、基于网络的存储虚拟化。网络虚拟化的实现可以分为核心层网络虚拟化、接入层网络虚拟化、虚拟机网络虚拟化。4讨论桌面虚拟化的实现和作用。答案要点(P265266)答桌面虚拟化是指利用虚拟化技术将用户桌面的镜像文件存放到数据中心,每个桌面镜像对用户来说就是一个带有应用软件的操作系统。终端用户通过一个虚拟显示协议来访问他们的桌面系统。虚拟桌面是一种瘦客户端模型,它能够让系统管理员和用户同时获得两种应用方式的优点用户获得完整的PC使用体验;管理员仅维护部署在中心服务器的系统即可。第8章OPENSTACK开源虚拟化平台重点知识点1、OPENSTACK的作用及管理的对象(P269270,管理数据中心的计算资源、存储资源和网络资源);2、OPENSTACK的主要服务(P270271,名称及功能简介);3、RABBITMQ的消息交换机制(P275282,图86,消息的生产者、交换器、队列、消费者,交换器的类型及与队列的绑定);4、SWIFT的功能和特性(P282283);5、SWIFT的主要组件(P284285);6、SWIFT的一致性模型及NWR策略的内容(P286);7、SWIFT的数据模型和系统架构(P287289,图817,图818,图819,账户容器对象,环的数据结构);8、GLANCE的功能和组成(P291292)。习题参考答案1OPENSTACK是什么答案要点(P267)答OPENSTACK是一个管理计算、存储和网络资源的数据中心云计算开放平台,通过一个仪表板,为管理员提供了所有的管理控制,同时通过WEB界面为其用户提供资源。2总结OPENSTACK的主要组件及其功能。答案要点(P270271)答OPENSTACK的主要组件有(1)NOVA。提供计算服务,是OPENSTACK云计算架构的控制器,管理计算资源、网络、授权和扩展需求。(2)SWIFT。提供对象存储服务,允许对文件进行存储或检索。(3)GLANCE。提供一个虚拟硬盘镜像的目录和存储仓库,可以提供对虚拟机镜像的存储和检索。(4)KEYSTONE。为OPENSTACK上的所有服务提供身份验证和授权。(5)CINDER。提供块存储服务。(6)HORIZON。提供一个WEB界面,便用户可以用图形化的方式直观、方便地使用OPENSTACK。3请根据学过的知识总结一下各服务模块之间如何协同工作。答案要点(P275282)答OPENSTACK各组件之间是松耦合的,通过一个符合AMQP协议的消息队列RABBITMQ进行组件之间的通信。RABBITMQ是OPENSTACK的信息交换中枢,有交换器、队列、绑定等概念,实现组件间信息的存储和转发。4请通过学过的知识概括一下OPENSTACK与AWS的异同。答案要点(P267)答OPENSTACK与AWS的不同之处(1)OPENSTACK是开源软件,而AWS并不开源;(2)OPENSTACK用于构建私有云,而AWS则是公有云。OPENSTACK与AWS的相同之处OPENSTACK所实现的私有云架构和功能与AWS相类似。第9章云计算数据中心重点知识点1、云计算数据中心应该具备的几个特征(P292,高设备利用率、绿色节能、高可用性、自动化管理);2、云计算数据中心的绿色节能技术有哪些(P305315,配电系统节能技术、空调系统节能技术、新能源的应用);3、数据中心PUE指标(P318,PUE数据中心总能耗/IT设备能耗);4、云计算数据中心自动化管理的特征(P321,全面可视性、自动的控制执行、多层次的无缝集成、综合与实时的报告和全生命周期支持);5、容灾备份的程度及标准(P324235,表92,数据级容灾、系统级容灾,国际标准和国家标准都是分为6级)。习题参考答案1集装箱数据中心有哪些优点常见的节能措施有哪些答案要点(P311312)答集装箱数据中心的优点有以下几个方面(1)高密度。在相同的空间内可以容纳更多的CPU、内存和存储系统,提供更多的计算能力和存储能力。(2)模块化。有利于建立一个最优化的数据中心系统,具有恰如所需的供电、冷却和计算能力。(3)按需快速部署。由于是模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长春市中石化2025秋招写作申论万能模板直接套用
- 营口市中石化2025秋招笔试模拟题含答案新材料与新能源岗
- 中国广电北京市2025秋招心理测评常考题型与答题技巧
- 广西地区中储粮2025秋招笔试模拟题及答案
- 2025年防雷检测考试题及答案
- 2025年医院呼吸考试题及答案
- 七台河市中储粮2025秋招综合管理岗高频笔试题库含答案
- 崇左市中石油2025秋招笔试模拟题含答案炼油设备技术岗
- 宜春市中石化2025秋招面试半结构化模拟题及答案油田工程技术岗
- 大唐电力常州市2025秋招采矿工程专业面试追问及参考回答
- 2025至2030中国大宗物资供应链行业发展趋势分析与未来投资战略咨询研究报告
- 胰岛素储存知识培训课件
- GB 46039-2025混凝土外加剂安全技术规范
- 2025至2030年中国卡丁车俱乐部行业市场调研分析及投资战略咨询报告
- 加油站职业健康危害因素分析
- 辽宁省沈阳市2025届高考语文模拟试卷(含答案)
- 危重症患者的疼痛管理
- 电力建设安全规程2025新版
- 2024年法考真题及答案解析
- 2025年苏州市中考数学试卷真题(含答案解析)
- 面向下一代互联网Web3.0可信数字身份基础设施白皮书(2024年)
评论
0/150
提交评论