韶关学院云计算内容总结与习题参考答案.pdf_第1页
韶关学院云计算内容总结与习题参考答案.pdf_第2页
韶关学院云计算内容总结与习题参考答案.pdf_第3页
韶关学院云计算内容总结与习题参考答案.pdf_第4页
韶关学院云计算内容总结与习题参考答案.pdf_第5页
已阅读5页,还剩11页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云计算内容总结与习题参考答案云计算内容总结与习题参考答案 第第 1 章章 大数据与云计算大数据与云计算 重点知识点:重点知识点: 1、大数据的定义及特征(P3) ; 2、云计算的定义及特征(P3-4) ; 3、云计算与大数据的关系(P3,大数据是需求,云计算是手段) ; 4、云计算服务的 3 种类型(P4-5,IaaS、PaaS、SaaS) ; 5、云计算的体系结构(P8,分为 4 层:物理资源层、资源池层、管理中间件层、SOA 层) ; 6、全球企业的 IT 开销及其发展趋势(P9,图 1-6,分为 3 个部分:硬件开销、能耗、管理 成本) ; 7、使用云计算的数据中心对比传统数据中心的优势(P9-12,图 1-9) 习题参考答案:习题参考答案: 1大数据现象是怎么形成的? 答题要点: (P2-3)先回答大数据的概念,再回答大数据产生(即全球数据量增长快)的原 因。 答:大数据就是:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合 理时间内获取、存储、管理、处理并提炼以帮助使用者决策。 大数据产生的原因可以从 2 个方面来看: 一是数据产生方式的改变。过去的信息是由手工产生的,而随着人类进入信息社会,信息的 产生越来越自动化。 二是人类的活动越来越依赖数据。产生数据的主要源头有: (1)人类的日常生活已经与数据 密不可分(如使用个人智能设备产生的数据) ; (2)科学研究进入了“数据科学”时代(科 学研究产生的数据) ; (3)各行各业也越来越依赖大数据手段来开展工作(各行各业工作过 程中所产生的数据) 。 2新摩尔定律的含义是什么? 答题要点: (P1) 答:由图灵奖获得者 Jim Gray 提出,内容是:每 18 个月全球新增信息总量是计算机有史以 来全部信息量的总和。 3云计算有哪些特点? 答题要点: (P4) 答:云计算的特点: (1)超大规模。指的是提出云计算数据中心的建设规模,谷歌云拥有上 百万台服务器,亚马逊、IBM、微软、Yahoo、阿里、百度和腾讯等公司的“云”都拥有几 十万台服务器。 (2)虚拟化。程序可以运行在云“中” ,并对外提供服务。因此,户不必知 道提供服务的程序是在哪个位置运行,只需要用一台终端设备(如计算机、PAD 或手机)就 可方便地获得程序提供的服务。 (3)高可靠性。 “云”使用了数据多副本容错、计算机节点 同构可互换等措施,使运行和存储在“云”上的程序和数据比运行和存储在本地计算机更可 靠。 (4)通用性。云计算不针对特定的应用,在“云”上可以开发出不同的程序,提供各种 服务。 (5)高可伸缩性。 “云”的规模可动态伸缩,可以较好满足应用和用户规模增长的需 求。 (6)按需服务。 “云”是一个庞大的资源池,由用户按需购买,按使用量计费。 (7)极 其廉价。相对于传统数据中心: “云”计算中心更大,管理成本更低; “云”计算中心的硬件 使用率更高; “云”计算中心更适合建立在电力资源丰富的较偏远地区。 4云计算按照服务类型可以分为哪几类? 答题要点: (P4-5)分别答出三种分类及其代表产品。 答:云计算按服务类型可以分为三类: (1)将基础设施作为服务,IaaS(Infrastructure as a Service) , 如: Amazon EC2/S3; (2) 将平台作为服务, PaaS (Platform as a Service) , 如: Google App Engine 、 Microsoft Windows Azure; (3)将软件作为服务, SaaS (Software as a Service) , 如:Salesforce online CRM。 5云计算技术体系结构可以分为哪几层? 答题要点: (P7-8)答出分层的名称,简单说明其内涵。 答:云计算技术体系结构分为 4 层: (1)物理层:包括计算机、存储器、网络设置、数据库 和软件等; (2)资源池层:将大量相同类型的资源构成同构或接近同构的资源池,如计算资 源池、数据资源池等; (3)管理中间件层:负责对云计算的资源进行管理,对众多应用任务 进行调度; (4)SOA(面向服务体系结构)构建层:将云计算能力封装成标准的 Web Services 服务,以 SOA 体系进行管理,并提供各项接口供用户访问。 6在性价比上云计算相比传统技术为什么有压倒性的优势? 答题要点: (P9-P11)要分为成本的降低和资源利用率的提高两方面来回答。 答:云计算较传统技术有两方面的优势: (1)由于主流云服务供应商使用的数据中心多是大 型云计算数据中心,其管理和运营成本(人员费用、电力费用等)是传统数据中心成本的 1/51/7,因此云计算在性价比上比传统技术有 57 倍的优势; (2)传统数据中心按 照峰值要求来配置服务器和网络资源,资源的平均利用率只有 10%15%;而云计算平台 是有弹性的服务, 它根据租用者的需要在一个超大的资源池中动态分配和释放资源, 不需要 为每个租用者预留峰值资源,因此云计算资源的利用率可以达到 80%左右,是传统技术的 5 7 倍。 第第 2 章章 Google 云计算原理与应用云计算原理与应用 重点知识点:重点知识点: 1、Google 云计算系统的组成部分(P13,各重要部分的名称及作用) ; 2、Google 云计算系统中的 GFS 对比传统分布式文件系统的区别(P13,利用软件的方法实 现容错) ; 3、GFS 的系统架构(P14,图 2-1) ; 4、GFS 的容错机制(P16) ; 5、MapReduce 的运行模型与执行流程(P18-20,图 2-2,图 2-3) ; 6、Chubby 的功能、作用(P22-23,使用 Paxos 算法实现的分布式锁服务) ; 7、Chubby 的系统架构(P24-26,图 2-7) ; 8、Bigtable 的数据模型(P33,图 2-12,行、列族、列、时间戳) ; 9、Bigtable 的系统架构及其各组成部分的作用(P34-39,图 2-13) ; 习题参考答案:习题参考答案: 1Google 云计算技术包括哪些内容? 答题要点: (P13)要答出有关技术的分类和名称。 答: Google 云计算技术包括: Google 分布式文件系统 GFS, 分布式计算编程模型 MapReduce, 分布式锁服务 Chubby,分布式结构化数据表 Bigtable,分布式存储系统 Megastore,分布式 监控系统 Dapper,数据交互分析工具 Dremel 和 PowerDrill,等等。 2当前主流分布式文件系统有哪些?各有什么优缺点? 答题要点: (P13)此题的问法有些不完整,题义应该是问传统分布式文件系统的实现方法与 Google 的分布式文件系统 GFS 的区别。 答:RedHat、IBM、Sun 等公司都有分布式文件系统的解决方案,这些解决方案依靠 RAID 技 术、SAN 存储区域网来容错(是基于硬件的容错) ,对构建分布式文件系统的硬件有较高的 要求,存储成本高。Google 的 GFS 是使用软件的方式,在文件系统上实现容错,可以使用 廉价的机器构建,存储成本低。相对于传统的分布式文件系统,Google 的 GFS 分布式文件 系统的容错性能在可靠性和存储成本上,都具有优势。 3GFS 采用了哪些容错措施来确保整个系统的可靠性? 答题要点: (P16-17)除了要把容错技术的名称答出来以外,还要简单说明机理。 答:Google 的 GFS 采用的容错机制可以分为: (1)Master 容错。 Master 上保存着 GFS 的元数据(包括命名空间(Name)和 Chunk 映射表等) ,这些元数据 及 Master 的操作日志保存在磁盘中,Master 出错时而磁盘数据完好时,可以通过磁盘数据 恢复 Master。 GFS 对 Master 进行远程实时备份,如果 Master 彻底死机, 另外一台 Master 可以迅速接替其 工作。 (2)Chunk Server 容错。 Chunk 是 GFS 的数据块,一个 Chunk 默认存储 3 个位于不同 Chunk Server 的副本,Master 会检查 Chunk 的副本数,在出现 Chunk 副本丢失或不可恢复时,Master 自动将该副本复制 到其他 Chunk Server。 另外,Chunk 以文件的形式保存在 Chunk Server,Chunk 文件以 Block(64K)来划分,每一 个 Block 对应一个 32 位的校验和,Chunk Server 会检查数据和检验和,如果不匹配就返回错 误。 4MapReduce 与传统的分布式程序设计相比有何优点? 答题要点: (P18) 答:MapReduce 封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一 个简单而强大的接口。通过这个接口,可以把大尺度的计算自动地并发和分布执行,使编程 变得非常容易。另外,MapReduce 也具有较好的通用性,大量不同的问题都可以简单地通 过 MapReduce 来解决。 5Chubby 的设计目标是什么?Paxos 算法在 Chubby 中起什么作用? 答题要点: (P24-27) 答:Chubby 的设计目标主要有: (1)高可用性和高可靠性。 (2)高扩展性。 (3)支持粗粒 度的建议性锁服务。 (4)服务信息的直接存储。 (5)支持通报机制。 (6)支持缓存机制。 Paxos 算法在 Chubby 中起到保证副本之间数据一致的作用(Chubby Cell(单元)中的所有副 本都要保持完全一致) 。 6阐述 Bigtable 的数据模型和系统架构。 答题要点: (P33-39) 答: Bigtable 的数据模型是一个多维映射表, 通过行关键字、 列关键字和时间戳进行索引 (定 位数据) : (1)行。行关键字用于标识 Bigtable 中不同的行,可以是任意字符串,大小不能 超过 64KB。Bigtable 中的数据是通过行关键字按字典序进行排序的。 (2)列。Bigtable 中的 列,以列族进行组织,一个列关键字以“族名:列名”的形式表示,每个列族中的列属于同 种数据类型,并且访问控制(Access Control)是在列族上进行定义的。 (3)时间戳。用于在 区别 Bigtable 中数据的版本,同一个行、列定位的数据,可以根据设置保存具有不同时间戳 的数据值。 Bigtable 主要由三个部分组成:主服务器 Master Server、子表服务器 Tablet Server 和客户端 程序库(Client Library) 。主服务器主要进行一些元数据操作以及子表服务器之间的负载调度 问题,子表服务器则以子表的形式(通过 GFS 以 SSTable 类型文件)保存 Bigtable 的数据, 一个子表服务器负责存储若干个 (通常100个左右) 子表。 访问Bigtable服务需要使用Bigtable 的客户端。 7分布式存储系统 Megastore 的核心技术是什么? 答题要点: (P47) 答:Megastore 最核心的技术是复制。 8大规模分布式系统的监控基础架构 Dapper 关键技术是什么? 答题要点: (P56) 答:Dapper 关键技术主要有两个方面: (1)轻量级的核心功能库。Dapper 的监控过程基本 对应用层透明。 (2)二次抽样技术。利用二次抽样技术成功解决了低开销及广泛可部署性的 问题。 9相比于行存储,列存储有哪些优点? 答题要点: (P62) 答:相对于行存储,列存储以属性为单位,每次存储一个属性。列存储的主要好处在于处理 时只需要使用涉及的列数据,且列存储更有利于数据的压缩。 10为什么 MapReduce 不适合实时数据处理? 答题要点: (P61) 答:MapReduce 是一种面向批处理的框架,在编写完成代码后,要提交到集群运行后才能 验证代码的正确性。如果代码有误需要修改,则需要返利修改运行验证。这种数据 探索(Data Exploration)的方式比较耗时。而传统的 SQL 查询则是交互式的,用户提交完自 己的请求后就可以在相对可以接受的时间内得到返回结果。 11简单阐述 Dremel 如何实现数据的无损表示。 答题要点: (P64)原理较复杂,简单说明一下就好。 答:Dremel 采用嵌套模型,采用列存储,因此需要把存储的数据进行重组才能还原为记录 的形式。Dremel 的每一列会被存储为块的集合,每个块又包含重复深度和定义深度,根据 重复深度和定义深度确定相应块的字段值属于哪条记录的哪个字段。 12PowerDrill 能实现高效的数据处理,在存储部分主要依赖哪两方面的技术? 答题本点: (P72) 答:PowerDrill 实现高效数据处理在存储部分主要依赖: (1)列式存储。 (2)内存计算。 13Google App Engine 提供了哪些服务? 答题要点: (P80-88) 答: Google App Engine 提供了哪些服务包括:(1) 图像操作 API。(2) 邮件 API。(3) Memcache API。 (4)用户 API。 (5)数据库 API。 14Google App Engine 的沙盒对开发人员有哪些限制? 答题要点: (P79) 答:沙盒将用户应用程序隔离在自身的安全可靠的环境中,该环境和网络服务器的硬件、系 统及物理位置完全无关,并且沙盒仅提供对基础操作系统的有限访问权限。 第第 3 章章 Amazon 云计算云计算 AWS 重点知识点:重点知识点: 1、AWS 提供的服务主要包括有哪些(P90,名称和作用) ; 2、Dynamo 在 AWS 里的地位和作用(P90,基础存储架构) ; 3、Dynamo 架构(P91-98,特点:节点无中心环状分布,图 3-5,图 3-9,DHT、Gossip 协议 在其中发挥的作用) ; 4、EC2 架构(P99-100,图 3-11) ; 5、S3 的基本结构(P103-104,图 3-15) ; 6、非关系数据库与传统关系数据库的比较(P108) ; 7、RDS 架构的特点(P111,图 3-21,图 3-22,Share-Nothing) ; 8、SQS 的消息采样机制(P114,图 3-24) ; 9、CDN 机制的原理(P116-117,图 3-26,图 3-27) ; 习题参考答案:习题参考答案: 1在 Dynamo 中添加一个新的节点时,原告各节点保存的数据是否需要改变?如果改变, 应该如何变化? 答案要点: (P92) 答:在 Dynamo 中添加一个新的节点时,会使新节点的前驱节点保存的数据发生改变,原存 储在前驱节点上的部分数据会迁移到新节点上。而其他节点保存的数据不变。 同样,在删除节点时,被删除节点的数据会迁移到其前驱节点上,而对其他节点没有影响。 2 Merkle 哈希树的创建需要较大的时间开销。 频繁地重建 Merkle 树会对系统造成很大的负 担。假设 Merkle 树的叶子节点表示的是数据分区的 Hash 值,请设计一个 Merkle 树重建方 案,尽量减少 Merkle 树的重建工作。 答案要点: (P97-98)就是回答 Dynamo 中永久性故障处理,如磁盘损坏等情况,需要重建 节点数据时,如何加快检测和减少数据传输量的机制。 答:把 Merkle 哈希树设计为二叉树或多叉树,其中每个节点叶子节点的值为单个数据文件 的哈希值,非叶子节点的值为该节点所有子节点组合后的哈希值。当采用 Merkle 哈希树检 测数据是否一致时,可先比较根节点的值,如果值相同则说明所有数据一致,否则需要继续 比较, 直到哈希值不同的叶子节点。 这种方法可以快速地进行数据对比, 检测数据的一致性, 并大大减少了需要传输的数据量,提高了系统效率。 3私有 IP、公有 IP 和弹性 IP 的区别在哪里? 答案要点: (P101-103) 答:EC2 的 IP 地址包括三大类:私有 IP、公有 IP 和弹性 IP。EC2 的实例一旦被创建,就会 动态地分配两个 IP 地址,即私有 IP 和公有 IP。私有 IP 地址与实例相对应,由动态主机配置 协议(DHCP)分配产生。公有 IP 地址和私有 IP 地址之间通过网络地址转换(NAT)技术实 现相互之间的转换,实例通过这个公有 IP 地址和外界通信,实例每次启动时,公有 IP 都会 发生变化。弹性 IP 则是与用户账号绑定,使用时可以代替公有 IP 通过 NAT 的方式实现与私 有 IP 转换,从而连接到 EC2 实例。 4地理区域和可用区域有哪些区别? 答案要点: (P100-101) 答: AWS 中采用了两种区域 (Zone) , 地理区域 (Region Zone) 和可用区域 (Availability Zone) 。 地理区域是按实际的地理位置划分的。 可用区域是根据是否有独立的供电系统和冷却系统划 分,通常将每个数据中心看作一个可用区域。EC2 系统中包含多个地理区域,而每个地理区 域又包含多个可用区域。 5、简单存储服务 S3 与传统的文件系统有哪些区别? 答案要点: (P103-105)教材上没有直接给出答案,应该对比传统的文件系统的原理和特点 来说明其区别。 答: 简单存储服务 S3 与传统的文件系统的区别有以下几个方面:(1) S3 构架在 Dynamo 上, 本身就具有分布式的特点,是容错的存储系统; (2)S3 存储内容的分层结构与传统文件系 统不同,是以桶(Bucket)和对象(Object)作为其基本结构; (3)S3 对数据内容的附加描 述信息可以是系统默认的元数据, 也可以是用户指定的自定义元数据, 而传统的文件系统则 不具有这种灵活性。 6简单阐述 SQS 在 Amazon 云计算中的作用。 答案要点: (P113) 答:由于想要构建一个灵活且可扩展的系统,低耦合度是很必要的。AWS 中的各个组件就 是这样的一个低耦合度的系统, 系统中的各个组件关联度很低, 可以根据系统需要随时从系 统中增加或删除某些组件。组件之间的通信,就是由 SQS 解决的。SQS 实现了 AWS 组件之 间安全、高效的通信,是云计算平台各个组件之间沟通的桥梁。 7如何理解传统数据库在可扩展性方面的能力较弱? 答案要点: (P108)教材上没有直接给出答案,但可以根据基于分布式结构的数据库与传统 数据库的区别进行分析。 答:数据库的扩展,可以从存储能力和处理能力两个方面考虑。传统数据库系统如果需要扩 展存储能力,则需要迁移到空间更大的物理存储设备上(如更换更大的磁盘,等等) ;如需 要扩展处理能力,则需要把系统迁移到计算能力、数据吞吐能力更强的计算机上。这些迁移 工作, 对于分布式系统的扩展只需要把服务器增加到集群中而言, 是困难得多的工作。 因此, 相比分布式系统,传统数据库在可扩展性方面的能力较弱。 8非关系数据库是如何解决可扩展性问题的? 答案要点: (P108)应该要答出分布式系统的基本原理和特点。 答:非关系数据库是建立在分布式文件系统(如 GFS、Dynamo 等)的基础上的,而分布式 文件系统本身就是可扩展、容错的,因此,非关系数据库也具备这样的特性。另外,非关系 数据库还可以把表格划分成更小的部分(如:域) ,并通过散列把这些更小的部分分配到不 同的元数据服务器进行管理,同时实现了负载均衡和横向可扩展性。 9简述 Share-Nothing 架构的特点。 答案要点: (P111)AWS 关系数据库服务的架构特点。 答:Share-Nothing 架构,即每台数据库服务器都是完全独立的计算机系统,通过网络相连, 不共享任何资源。当数据库处理能力不足时,可以通过增加服务器数量来提高处理能力,同 时也可以增加数据库的并发访问能力。把一张大表按归业务特点的需要,划分成多个小表, 分别存储到互不共享的独立服务器上。 这个划分工作是要由人来开展的, 对设计人员的要求 很高。 10简述 AWS 如何支持在线数据流应用。 答案要点: (P130) 答:Amazon Kinesis 是 AWS 的数据流服务,用于实时地处理快速流转的数据,它可以调集弹 性网络服务来处理单一或分布式的大容量数据库,适用于网站点击、金融信息分析、社交媒 体、运行日志等大规模数据传输和事务处理应用。 11描述一下基于 Amazon AWS 的应用实例。 答案要点: (P130-132) 答:SmugMug、Animoto、Alexa 三个实例中的一个。 (内容略) 第第 4 章章 微软云计算微软云计算 Windows Azure 重点知识点:重点知识点: 1、微软云计算平台的体系结构及组成部分(P136-137,图 4-1) ; 2、Windows Azure 计算服务所支持的虚拟机类型(P139,图 4-3,Web Role、Worker Role、 VM Role) ; 3、 Windows Azure 存储服务所支持的数据类型 (P140, 图 4-4, Blobs、 Tables、 Queues、 Files) ; 4、Windows Azure CDN 的信息访问(P148,图 4-9) ; 5、SQL Azure 数据同步技术(P152-153,图 4-13, “轮辐式”模型) ; 6、SQL Azure 和 SQL Server 的区别(P153-154) ; 7、AppFabric 的关键技术(P155-159,总线服务、访问控制、高速缓存) 。 习题参考答案:习题参考答案: 1微软云计算平台包含几部分?每部分的作用是什么? 答案要点: (P136-137) 答:微软云计算平台包含 4 个部分: (1)Windows Azure。位于云计算平台的最底层,提供 一个在微软数据中心服务器上运行应用程序和存储数据的 Windows 环境。 (2)SQL Azure。 云关系数据库,提供类似于 SQL Serer 的云关系型数据库。 (3)Windows Azure AppFabric。 为云中或本地系统中的应用程序提供基于云的基础架构服务。部署和管理云基础架构。 (4) Windows Azure Marketplace。为购买云计算环境下的数据和应用提供在线服务。 2Windows Azure 存储服务提供了几种类型的存储方式?阐述每种存储方式主要的存储对 象。 答案要点: (P140) 答:Windows Azure 存储服务提供了 4 种主要的数据存储结构: (1)Blob 数据类型存储二进 制数据,可以存储大型的无结构数据,容量巨大,能够满足海量数据存储需求; (2)Table 数据类型能够提供更加结构化的数据存储, 但是它不同于关系数据库管理系统中的二维关系 表,查询语言也不是 SQL; (3)Queue 类型与微软消息队列(MSMQ)相近,用来支持在 Windows Azure 应用程序组件之间进行通信; (4)File 类型使用标准 SMB 2.1(服务器信息 块协议,是一种 IBM 协议,用于在计算机间共享文件、打印机、串口等)协议提供文件共 享,可以在应用程序和虚拟机之间共享文件。 3阐述 Web Role 实例和 Worker Role 实例之间的通信机制。 答案要点: (P139)先答两种实例的特点,再答通信机制。 答: (1)每个 Web Role 实例都提前在内部安装了 IIS7,可以很方便地创建 Web 应用程序。 (2) Worker Role 实例内部没有安装 IIS, Worker Role 设计用来运行各种各样的基于 Windows 的代码,比如运行一个模拟、进行视频处理等。 (3)应用通过 Web Role 实例与用户进行交 互,然后利用 Worker Role 实例进行任务处理。 4SQL Azure 数据同步技术主要有几种?分别如何实现? 答案要点: (P152-153)先回答 SQL Azure 数据同步的涵义与作用,再回答 SQL Azure 数据同 步技术的种类和实现。 答:为了提高存储数据的访问性能,同时确保网络发生故障时应用仍能够访问数据库,需要 在本地拥有 SQL Azure 的数据库副本,因此需要使用 SQL Azure 数据同步技术。SQL Azure 数 据同步技术主要包括两种: (1) SQL Azure 数据库与 SQL Server 数据库之间的数据同步; (2) SQL Azure 数据库之间的同步,可以在全球的不同数据中心进行同步。SQL Azure 数据同步使 用 “轮幅式 (hub-and-spoke) ” 模式, 所有的变化将会首先被复制到 “hub”(必须是 SQL Azure 数据库) 上, 然后再传送到其他 “spoke”(可以是 SQL Azure 数据库, 也可以是本了 SQL Server 数据库)上。SQL Azure 数据同步的过程可以同步整个数据库,也可以只同步有更新的数据 库表格。 5阐述 SQL Azure 和 SQL Server 的相同点和不同点。 答案要点: (P153-154)着重在于不同点,要简单说明一下各不同点。 答:相同点:都是关系数据库,都支持 Transact-SQL。不同点: (1)物理管理方面。SQL Azure 的物理资源是自行管理的, SQL Azure 不能使用 SQL Server 的备份机制。 (2) 服务提供方面。 SQL Server 在使用时需要准备软件和硬件, 并要进行安装和配置; SQL Azure 的这些工作都由 SQL Azure 服务程序来完成。 (3)Transact-SQL 支持方面。SQL Server 可以支持 Transact-SQL 的关于指定文件组或物理文件路径的参数,而 SQL Azure 并不支持这些参数。 (4)特征和数 据类型方面。SQL Azure 不能支持 SQL Server 所有的特征和数据类型。 6AppFabric 高速缓存技术是如何实现的? 答案要点: (P155-158)先答高速缓存的涵义,再简述其实现。 答:应用程序在很多情况下需要重复访问存取同一个数据,为提升数据的访问效率,可以缓 存这些经常被访问的信息,减少查询数据库的次数。AppFabric 高速缓存提供了一种服务, 实现了这样的功能。 AppFabric 高速缓存为 Windows Azure 应用程序提供了一个分布式缓存, 如果 Windows Azure 应用程序需求的数据不在本地缓存中,则会连接高速缓存服务,从高速 缓存读取数据并更新本地缓存。 7 利用 Visual Studio 2010 开发一个简单的应用程序, 并将其部署到 Windows Azure 平台上。 8Windows Azure 是如何支持大数据处理的? 答案要点: (P164) 答:Windows Azure 支持 Hadoop 服务来进行大数据处理。可以使用 Windows Azure 提供的 虚拟机运行 Hadoop 集群,并在集群上使用 MapReduce 等工具对大数据进行处理。Windows Azure 的 Hadoop 集群可以使用 Blob 存储数据。 第第 5 章章 Hadoop 2.0:主流开源云架构:主流开源云架构 重点知识点:重点知识点: 1、Hadoop 2.0 体系架构(P182,包括 HDFS、Yarn、Common) ; 2、HDFS 的体系架构(P184-186,图 5-7,图 5-8,图 5-9,NameNode、DataNode 角色及其 作用) ; 3、 Yarn 的体系架构 (P190-193, 图 5-11, 图 5-12, 图 5-13, ResourceManager、 NodeManager、 container、ApplicationMaster 之间的关系) 。 习题参考答案:习题参考答案: 1简述 Hadoop 1.0 与 Hadoop 2.0 的优缺点,并比较二者区别与联系。 答案要点:在教材上并无直接答案,主要要说明其区别。 请参考:/u012050154/article/details/52353545 答: Hadoop 2.0 是对 Hadoop 1.0 的发展与完善。 其区别有: (1)从 Hadoop 整体框架来说。 Hadoop1.0 即第一代 Hadoop, 由分布式存储系统 HDFS 和分布式计算框架 MapReduce 组成, 其中 HDFS 由一个 NameNode 和多个 DateNode 组成,MapReduce 由一个 JobTracker 和多个 TaskTracker 组成。 Hadoop2.0 即第二代 Hadoop 为克服 Hadoop1.0 中的不足:针对 Hadoop1.0 单 NameNode 制 约 HDFS 的扩展性问题,提出 HDFS Federation,它让多个 NameNode 分管不同的目录进而实 现访问隔离和横向扩展,同时彻底解决了 NameNode 单点故障问题;针对 Hadoop1.0 中的 MapReduce 在扩展性和多框架支持等方面的不足, 它将 JobTracker 中的资源管理和作业控制 分开,分别由 ResourceManager(负责所有应用程序的资源分配)和 ApplicationMaster(负 责管理一个应用程序)实现,即引入了资源管理框架 Yarn。同时 Yarn 作为 Hadoop2.0 中的 资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度,不 仅限于 MapReduce 一种框架,也可以为其他框架使用,如 Tez、Spark、Storm 等 (2)从 MapReduce 计算框架来讲 MapReduce1.0 计算框架主要由三部分组成:编程模型、数据处理引擎和运行时环境。它的 基本编程模型是将问题抽象成 Map 和 Reduce 两个阶段,其中 Map 阶段将输入的数据解析 成 key/value,迭代调用 map()函数处理后,再以 key/value 的形式输出到本地目录,Reduce 阶段将 key 相同的 value 进行规约处理,并将最终结果写到 HDFS 上;它的数据处理引擎由 MapTask 和 ReduceTask 组成,分别负责 Map 阶段逻辑和 Reduce 阶段的逻辑处理;它的运行 时环境由一个 JobTracker 和若干个 TaskTracker 两类服务组成,其中 JobTracker 负责资源管理 和所有作业的控制,TaskTracker 负责接收来自 JobTracker 的命令并执行它。 MapReducer2.0 具有与 MRv1 相同的编程模型和数据处理引擎,唯一不同的是运行时环境。 MRv2 是在 MRv1 基础上经加工之后, 运行于资源管理框架 Yarn 之上的计算框架MapReduce。 它的运行时环境不再由 JobTracker 和 TaskTracker 等服务组成,而是变为通用资源管理系统 Yarn 和作业控制进程 ApplicationMaster,其中 Yarn 负责资源管理的调度而 ApplicationMaster 负责作业的管理。 2简述解压包方式部署 Hadoop 的弊端。 答案要点: (P175) 答:使用解压包方式部署 Hadoop,要求用户对 Linux 较为熟悉,在逐个解压、配置 Hadoop 组件的过程中,步骤较多,烦琐且容易出错。 3简述 Hadoop 2.0 安全机制,试分析其优缺点。 答案要点: (P198)简述机制就可,优缺点不需要分析。 请参考:/mapreduce-nextgen/hadoop-yarn-security/ 答:系统安全机制由认证(authentication)和授权(authorization)两大部分构成。认证就是简单 地对一个实体的身份进行判断; 而授权则是向实体授予对数据资源和信息访问权限的决策过 程。Hadoop 2.0 中的认证机制采用 Kerbero 和 Token 两种方案,而授权则是通过引入访问控 制列表(Access Control List,ACL)实现的。 在 Hadoop 2.0 中,Client 与 NameNode 和 Client 与 ResourceManager 之间初次通信均采用了 Kerberos 进行身份认证, 之后便换用 Delegation Token 以较小开销, 而 DataNode与 NameNode 和 NodeManager 与 ResourceManager 之间的认证始终采用 Kerberos 机制。 Hadoop YARN 的授权机制是通过访问控制列表(ACL)实现的,按照授权实体,可分为队列 访问控制列表、应用程序访问控制列表和服务访问控制列表。 4简述 Yarn 编程过程,再简述 MR 编程过程,说明二者有何关系。 答案要点: (P205)简述 Yarn 的编程模型即可。 答:Yarn 是一个资源框架,由 RM(Resource Manager)和 NM(Node Manager)组成,RM 和 NM 不参与计算逻辑,计算逻辑代码由 Application Master 和 Client 实现,具体计算则由 Application Master 和 Container 完成。 在资源框架中,RM 负责资源分配,NM 负责管理本地资源。在计算框架中,Client 负责提交 任务,RM 启动任务对应的 Application Master,Application Master 则再向 RM 申请资源,并 与 NM 协商启动 Container 执行任务。 Yarn 是资源框架,MR 是该资源框架下的编程模板。 5试从架构上分析 Hadoop 的优缺点。 答案要点:优点主要是来源于分布式系统,缺点是仍存在单点故障。 请参考:/bester/p/3255307.html 答:Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。它主要有以下几个优点: (1)高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。 (2)高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可 以方便地扩展到数以千计的节点中。 (3)高效性。Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此 处理速度非常快。 (4)高容错性。Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分 配。 由于 Hadoop 各组件采用了主从结构(如 HDFS、Yarn) ,并发访问较多时存在性能问题,并 且仍存在单点故障的可能。 第第 6 章章 Hadoop 2.0 大家族大家族 重点知识点:重点知识点: 1、常用的 Hadoop 分布式组件及其分类(P215-217) ; 2、ZooKeeper 的功能和作用(P223-224) ; 3、 Hbase 的逻辑模型和体系框架 (P227-229, 表 6-4, 图 6-4, HMaster、 HRegionServer、 Client 以及 ZooKeeper 各种角色的作用) ; 4、 Pig、 Hive的功能简介 (P232-235, 简单来说就是把一些风格的数据操作句转换为MapReduce 作业的平台工具) ; 习题参考答案:习题参考答案: 补充 1请列举一些 Hadoop 分布式组件及其功能简介。 答案要点: (P215-217)回答出具有代表性的几种即可 答: (1)ZooKeeper:一个为分布式应用所设计的分布式、开源的协调服务(或简单回答为 分布式锁即可) 。 (2)Hbase:一种高可靠、高性能、面向列、可伸缩的分布式表。 (3)Pig:构建在 Hadoop 之上的,用来处理大数据集的脚本语言平台,使用的量种描述数 据流的语言 Pig Latin。 (4)Hive:构建在 Hadoop 之上的数据仓库框架,使用类 SQL 的方式查询数据集。 (5)Oozie:工作流引擎服务,用于管理和协调运行在 Hadoop 平台上的各种类型任务。 (6)Flume:分布式日志数据聚合与传输工具,可用于日志数据收集、处理和传输。 (7)Mahout:基于 Hadoop 的机器学习和数据挖掘的一个分布式程序库。 等等。 补充 2请简述 ZooKeeper 集群的工作原理。 答案要点: (P223-224) 答:ZooKeeper 是一种服务,是一个一致性的小型文件系统。当 ZooKeeper 集群中的各台机 器上的服务启动后,它们首先会选择一个作为领导者,其他则作为追随者,领导者的选举, 采用的是少数服从多数的原则。当 ZooKeeper 的客户端发生读/写操作时,规定读操作可以 在各个节点上实现,写操作则必须发送到领导者,并经领导者同意才可执行。 补充 3请简述 Hbase 的逻辑模型。 答案要点: (P227) 答: Hbase 以表的形式存储数据, 每个表由行和列组成, 每个列属于一个特定的列族 (Column Family) 。表中的行和列确定的存储单元称为一个元素(Cell) ,每个元素保存了同一份数据 的多个版本,由时间戳(Time Stamp)来标识。行键是数据行在表中的唯一标识,并作为检 索记录的主键。行键可以是任意字符串,默认按字段顺序进行存储。 补充 4请简述 Hbase 的架构。 答案要点: (P228-229) 答:Hbase 采用主从结构(Master/Slaver) ,主节点运行的服务为 HMaster,从节点运行的服 务为 HRegionServer,底层采用 HDFS 存储数据。HMaster 可以有多个,但同一时刻只能有一 个作为主服务,需要由 ZooKeeper 来选定主 HMaster。HMaster 把要存储的表数据分为多个 分区(Region) ,并负责把 Region 分配给不同的 HRegionServer。每个 HRegionServer 负责管 理若干个 Region, 负责响应 Region 的读/写请求, 并且当 Region 所对应的存储文件超过一定 的大小时,HRegionServer 会把一个 Region 拆分为 2 个 Region。新的 Region 将由 HMaster 分 配到相应的 HRegionServer 上。 补充 5Pig、Hive 组件分别可以实现什么功能?其相似处在哪里。 答案要点: (P215)相似之处在教材上没有。 答:Pig 是构建在 Hadoop 之上的,用来处理大数据集的脚本语言平台,使用的量种描述数 据流的语言 Pig Latin。Hive 是构建在 Hadoop 之上的数据仓库框架,使用类 SQL 的方式查询 数据集。 这两个工具都可以看作是数据操作语言的翻译工具, 分别把 Pig Latin 和类 SQL 翻译 成 MapReduce 程序代码,然后提交到 Hadoop 集群上运行这些任务。 第第 7 章章 虚拟化技术虚拟化技术 重点知识点:重点知识点: 1、虚拟化技术的作用(P250,把资源整合为资源池,实现服务器虚拟化、存储虚拟化、网 络虚拟化和桌面虚拟化) ; 2、服务器虚拟化的分类及其区别(P251-252,图 7-1,图 7-2,寄居虚拟化、裸机虚拟化) ; 3、虚拟机动态迁移的内容(P254-255) ; 4、虚拟机动态迁移中的内存迁移的三个阶段及其含义(P254-255,Push、Stop-and-Copy、 Pull) ; 5、存储虚拟化的实现方式(P259-260) ; 6、网络虚拟化包括哪三个方面(PP262-263) ; 7、桌面虚拟化的涵义和作用(P265-266) 。 习题参考答案:习题参考答案: 1虚拟化技术在云计算中的哪些地方发挥了关键作用? 答案要点: (P250) 答: 云计算中运用虚拟化技术主要体现在对数据中心的虚拟化上。 数据中心虚拟化是通过服 务器虚拟化、存储虚拟化和网络虚拟化实现的。 2比较 VMware、Xen 等虚拟化产品的关键技术,以及对云计算技术提供的支持。 答案要点:此题教材上也没有答案。 对于各种常用的虚拟化平台的优劣与选择,请参考: /edu/2014/06-28/152540.html 3服务器虚拟化、存储虚拟化和网络虚拟化都有哪些实现方式? 答案要点: (P251-252、P259-260、P262) 答:虚拟器虚拟化的实现方式可以分为:寄居虚拟化、裸机虚拟化。 存储虚拟化的实现方式可以分为:基于主机的存储虚拟化、基于存储设备的存储虚拟化、基 于网络的存储虚拟化。 网络虚拟化的实现可以分为:核心层网络虚拟化、接入层网络虚拟化、虚拟机网络虚拟化。 4讨论桌面虚拟化的实现和作用。 答案要点: (P265-266) 答: 桌面虚拟化是指利用虚拟化技术将用户桌面的镜像文件存放到数据中心, 每个桌面镜像 对用户来说就是一个带有应用软件的操作系统。 终端用户通过一个虚拟显示协议来访问他们 的桌面系统。 虚拟桌面是一种瘦客户端模型,它能够让系统管理员和用户同时获得两种应用方式的优点: 用户获得完整的 PC 使用体验;管理员仅维护部署在中心服务器的系统即可。 第第 8 章章 OpenStack 开源虚拟化平台开源虚拟化平台 重点知识点:重点知识点: 1、OpenStack 的作用及管理的对象(P269-270,管理数据中心的计算资源、存储资源和网络 资源) ; 2、OpenStack 的主要服务(P270-271,名称及功能简介) ; 3、RabbitMQ 的消息交换机制(P275-282,图 8-6,消息的生产者、交换器、队列、消费者, 交换器的类型及与队列的绑定) ; 4、Swift 的功能和特性(P282-283) ; 5、Swift 的主要组件(P284-285) ; 6、Swift 的一致性模型及 NWR 策略的内容(P286) ; 7、Swift 的数据模型和系统架构(P287-289,图 8-17,图 8-18,图 8-19,账户容器 对象,环的数据结构) ; 8、Glance 的功能和组成(P291-292) 。 习题参考答案:习题参考答案: 1OpenStack 是什么? 答案要点: (P267) 答:OpenStack 是一个管理计算、存储和网络资源的数据中心云计算开放平台,通过一个仪 表板,为管理员提供了所有的管理控制,同时通过 Web 界面为其用户提供资源。 2总结 OpenStack 的主要组件及其功能。 答案要点: (P270-271) 答:OpenStack 的主要组件有: (1)Nova。提供计算服务,是 OpenStack 云计算架构的控制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论