




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
考点:云计算部分云计算定义;云计算的特点;云计算的三种不同部署模式;Google 文件系统的特点及平台结构;云存储的相关解决方案;云服务的三种类型及其特点;虚拟化技术的特点;虚拟化的业界集中不同的解决方案;云桌面的定义;桌面云的基本架构;无盘工作站的特点;大数据处理部分大数据的4V特征;掌握hdfs中namenode与datanode的作用;MapReduce处理模型;理解WordCount程序处理流程;Hadoop中运行MapReduce作业的工作原理;1. Memcache主要应用于(B)A.静态页面缓存B.动态页面缓存C.页面片段缓存D.数据缓存2. Mapreduce适用于(D)A.任意应用程序B.任意可在windowsservet2008上运行的程序C.可以串行处理的应用程序D.可以并行处理的应用程序1. 云计算的特点?(ABCDE)A大规模 B.平滑扩展 C.资源共享 D.动态分配 E.跨地域2. 与传统的分布式程序设计相比,MapReduce封装了(ABCD)等细节,还提供了一个简单而强大的接口。A.并行处理B.容错处理C.本地化计算D.负载均衡3. 云存储解决方案价值有哪些?(ABCD)A.海量小文件的高效管理B.PB级的存储空间和线行扩展能力C.可动态提升的性能D.数据高可靠性4. 目前,选用开源的虚拟化产品组建虚拟化平台,构建基于硬件的虚拟化层,可以选用(BCD)A.XenB.VMwareC.Hyper-vD.Citrix5. 在云计算中,虚拟层主要包括(ABC)A.服务器虚拟化B.存储虚拟化C.网络虚拟化D.桌面虚拟化6. 云安全主要的考虑的关键技术有哪些?(ABC)A.数据安全B.应用安全C.虚拟化安全D.服务器安全7. Google文件系统将整个系统的节点分为(ABC)的角色A.客户端B.主服务器C.数据块服务器D.监测服务器8. 云计算基础架构的层次结构中包含(ABCD)A.基础设施层B.中间件层C.显示层D.管理层9. 下列属于Google云计算平台技术架构的是(ABC)A.并行数据处理MapReduceB.分布式锁ChubbyC.结构化数据表BigTable D.弹性云计算EC210. Hadoop项目包括(ABD)A.HadoopDistributedFileSystem(HDFS) B.HadoopMapReduce编程模型C.HadoopStreaming D.HadoopCommon云计算部分:云计算定义:云计算模型能以按需方式,通过网络,方便的访问云系统的可配置计算资源共享池(如:网络,服务器,存储,应用程序和服务) 。同时它以最少的管理开销及最少的与供应商的交互,迅速配置提供或释放资源。 1、狭义云计算 :是指IT基础设施的交付和使用模式,通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。 提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。2、广义云计算 :是指服务的交付和使用模式,通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT、软件和互联网相关的,也可以是其他任意的服务。云计算特点:1、自助式服务:消费者无需同服务提供商交互就可得到自助的计算、资源能力,如服务器的服务、网络存储等。2、无所不在的网络访问:借助于不同的客户端来通过标准的应用对网络访问的可用能力。3、服务可计量:云系统对服务类型通过计量的方法来自动控制和优化资源使用,如存借助于不同的客户端来通过标准的应用对网络访问的可用能力。4、划分独立资源池:根据消费者的需求来动态地划分或释放不同的物理和虚拟资源。5、快速弹性:提供:资源快速和弹性提供的能力 释放:资源快速和弹性释放的能力。对消费者来说,所提供的这种能力是无限的并且可在任何时间以任何量化方式购买。云计算的三种不同部署模式:公有云:在此种模式下,应用程序、资源、存储和其他服务,都由云服务供应商来提供给用户,这些服务多半都是免费的,也有部分按需按使用量来付费,这种模式只能使用互联网来访问和使用。同时,这种模式在私人信息和数据保护方面也比较有保证。这种部署模型通常都可以提供可扩展的云服务并能高效设置。私有云:这种云基础设施专门为某一个企业服务,不管是自己管理还是第三方管理,自己负责还是第三方托管,都没有关系。只要使用的方式没有问题,就能为企业带来很显着的帮助。不过这种模式所要面临的是,纠正、检查等安全问题则需企业自己负责,否则除了问题也只能自己承担后果,此外,整套系统也需要自己出钱购买、建设和管理。这种云计算模式可非常广泛的产生正面效益,从模式的名称也可看出,它可以为所有者提供具备充分优势和功能的服务。混合云:混合云是两种或两种以上的云计算模式的混合体,如公有云和私有云混合。他们相互独立,但在云的内部又相互结合,可以发挥出所混合的多种云计算模型各自的优势。Google 文件系统的特点及平台结构:特点:以用户数据为中心;数据存储在云中;数据访问不收地理位置限制;数据能够很方便的共享。平台结构:Google文件系统海量数据分布存储技术( GFS)、分布式计算编程模型MapReduce、分布式锁服务Chubby 分布式结构化数据存储系统Bigtable等。云存储的解决方案:1、DAS采用直接外挂存储方案的服务器结构如同PC机架构,外部数据存储设备采用SCSI技术,或者FC(Fibre Channel)技术,直接挂接在内部总线上的方式,数据存储是整个服务器结构的一部分。DAS依赖服务器主机操作系统进行数据的IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统IO等),数据流需要回流主机再到服务器连接着的磁带机(库),数据备份通常占用服务器主机资源20-30%,直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。2、NAS(上图答案)NAS是将存储设备作为存储系统的附加设备,通过网络连接到系统中。网络附加存储是一个相对于普通服务器只少了大量计算功能的专用文件服务器,因此它的功能很完备。它是一种将分布、独立的数据整合为大型、集中化管理的数据中心,以便于对不同主机和应用服务器进行访问的技术。NAS是一种文件级的网络存储模式。NAS拥有自己的文件系统,一般通过网络文件系统(Network File System,NFS)或通用因特网文件系统(Common Internet File System,CIFS)对外提供文件访问服务。NAS 提供统一的存储接口,所有的存储设备连接到现有网络的网络拓扑结构相同,因此NAS的共享性很好。NAS不仅仅是作为存储设备,更多的是作为数据备份和恢复的设备。3、SANSAN是一种快速的专用子网,子网内部是通过光纤交换机、光纤路由器、光纤集线器等网络连接设备,将磁盘阵列、磁带等存储设备与相关服务器连接起来的。SAN(存储区域网络)根据连接的方式分为光纤通道(Fiber Channel,FC)SAN和IP SAN。 FC SAN是以光纤通道作为传输介质; IP SAN技术是一种在传统IP以太网上架构一个SAN存储网络,通过IP以太网把服务器与存储设备连接起来的SAN存储技术。IP SAN技术采用的是集中存储方式,大大提高了存储空间的利用率。云服务的三种类型及特点:三种类型:IaaS、PaaS、 SaaSSaaS:通过网络向最终用户提供软件应用服务。SaaS能降低企业信息化成本,提高企业信息化水平,为用户提供一站式服务。PaaS:通过网络向用户提供可定制,可开发的平台服务。 例如应用开发环境、数据库服务、电信能力开放等。IaaS:通过网络为用户提供IT基础设施服务。包括计算存储和网络资源出租、以及灾备、负载均衡、网络加速、综合信息等服务。虚拟化技术的特点:软件实现:以软件的方式模拟硬件,通过软件的方式逻辑切分服务器资源,形成统一虚拟资源池,创建虚拟机运行的独立环境。隔离运行:运行在同一物理服务器上的多个虚拟机之间隔离,虚拟机与虚拟机之间互不影响。包括计算隔离、数据隔离、存储隔离、网络隔离、访问隔离,虚拟机之间不会泄露数据,应用程序只能通过配置的网络连接进行通信。封装抽象:操作系统和应用被封装成虚拟机,封装是虚拟机具有自由迁移能力的前提。真实硬件被封装成标准化的虚拟硬件,整个虚拟机以文件形式保存,便于进行备份、移动和复制。硬件独立:服务器虚拟化带来了虚拟机和硬件相互依赖性的剥离,为虚拟机的自由移动提供了良好的平台。广泛兼容:兼容多种硬件平台,支持多种操作系统平台。6.标准接口:虚拟硬件遵循业界标准化接口,以保证兼容虚拟化的业界集中不同的解决方案:1.基于VirtualBox的虚拟化技术模拟的环境:VirtualBox能够安装多个客户端操作系统,每个客户端系统皆可独立打开、暂停与停止。主端操作系统与客户端操作系统皆能相互通信,多个操作系统同时运行的环境也彼此能够同时使用网络。功能特色:支持64位客户端操作系统,及时主机使用32位CPU;支持SATA硬盘NCQ技术;虚拟硬盘快照;无缝视图模式;能够在主机端与客户端共享剪贴板;在主机端与客户端间创建共享文件夹;自带远程桌面服务器;支持VMware VMDK软盘档及Virtual PC VHD软盘档格式;3D虚拟化技术支持OpenGL;最多虚拟32颗CPU;支持VT-x与AMD-V硬件虚拟化技术;iSCSI支持;USB与USB2.0支持。2.基于VMware的虚拟化技术 VMware是真正“同时”运行,多个操作系统在主系统的平台上,就像标准Windows程序那样切换。而且每个操作系统用户都可以进行虚拟的分区、配置而不影响真实硬盘的数据,用户甚至可用过网卡将几台虚拟机用网卡连接成一个局域网。主要产品:VMware-ESX-Server、VMware-GSX-Server、VMware-WorkStationVMware产品的主要功能:不需要分区或重开机就能在同一台计算机上使用两种以上的OS;完全隔离并且保护不同OS的操作环境及所有安装在OS上的应用软件和资料;不同的OS之间还能互动操作,包括网络、周边、文件分享及复制、粘贴功能;有复原功能;能够设定并且随时修改OS的操作环境;能够热迁移, 具有高可用性。 3.基于KVM的硬件虚拟化技术 KVM是通过简单地加载内核模块而将Linux内核转换成一个系统管理程序。安装KVM 之后,可以在用户空间启动客户操作系统。每个客户操作系统都是主机操作系统的一个单个进程。KVM向Linux中引入了一种除现有的内核和用户模式之外的新进程模式客户模式,它用来执行客户的操作系统代码,但是只针对那些非I/O的代码。4.基于Xen的虚拟化系统Xen是一款半虚拟化的虚拟机监视器,调用系统管理程序时,要有选择地修改操作系统,不需要修改操作系统上运行的应用程序。 Xen虚拟机可以在不停止的情况下在多个物理主机之间实时迁移。在操作过程中,虚拟机在没有停止工作的情况下内存被反复的复制到目标机器。虚拟机在最终目的地开始执行之前,会有一次60-300秒的非常短暂的暂停以执行最终的同步化,给人无缝迁移的感觉。云桌面的定义:可以通过瘦客户端或者其他任何与网络相连的设备来访问跨平台的应用程序,以及整个客户桌面。桌面云的基本架构:虚拟桌面架构(VDI):通过在数据中心的服务器运行Windows XP,将用户的桌面进行虚拟化。用户通过来自客户端设备的瘦客户计算协议与虚拟桌面进行连接,用户访问虚拟桌面就像是访问传统的本地安装桌面一样。两种方式实现:运行若干Windows XP虚拟机的Microsoft Virtual Server的VMware Server,每个用户以一对一的方式连接到他们的VM;安装Windows XP刀片的刀片式服务器,每个用户以一对一的方式连接到刀片服务器。基于服务器计算技术(server-based computing,简称SBC):多用户共享一台主机,通过不同会话区分用户。无盘工作站的特点:只能分配固定的资源只能运行一个统一的操作系统需要保留除了硬盘以外传统 PC 所有硬件前端设备有特殊的要求大数据部分:大数据的4V特征:大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。多样化(Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。价值化(Value):大量的不相关信息,浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)掌握hdfs读写过程:HDFS文件写入过程: 1)Client(客户端)向NameNode发起文件写入的请求。2)NameNode根据文件大小和文件块配置情况,检查用户是否具有写入文件的权限。如果有,则可进行写入操作,否则返回异常。3)文件写入过程中,Client将文件划分为多个packets,并向NameNode申请多个Block,返回DataNode的地址信息,然后顺序地以流水线的形式通过管道把packets送到每一个DataNode块中。HDFS文件读取过程:1)通过HDFS的Client向NameNode发起文件读取的请求。2)NameNode返回文件存储的部分或者全部Block列表,对于每一个Block,Name Node返回该Block的DataNode的信息,即首地址。3)Client选择最近的DataNode读取Block,如果Client本身就是一个DataNode,将直接读取本地Block信息。4)读取完一个Block后,关闭与当前DataNode的连接,再重复前一个过程读取下一个Block,直到读取完所有的Block。5)读完一批Block列表后,将读取下一批Block列表,直到读取完整个文件。掌握hdfs中namenode与datanode的作用:名称节点管理文件系统的命名空间。它维护着这个文件系统树及这个树内所有的文件和索引目录。这些信息以两种形式将文件永久保存在本地磁盘上:命名空间镜像和编辑日志。名称节点也记录着每个文件的每个块所在的数据节点,但它并不永久保存块的位置,因为这些信息会在系统启动时由数据节点重建。数据节点是文件系统的工作者。它们存储并提供定位块的服务(被用户或名称节点调用时),并且定时的向名称节点发送它们存储的块的列表。MapReduce处理模型:网络版本:MapReduce 是一个用于数据处理的编程模型,它简化了复杂的数据处理计算过程,它将数据处理过程分为两个阶段,即map阶段和reduce阶段。每个阶段都将一系列key/value对作为输入和输出,其中的键和值的类型为MapReduce用户指定。用户同时指定两个函数:map 函数和 reduce 函数。用户自定义的 map 函数,接受一个输入 key/value 对,然后产生一系列临时中间 key/value 对。我们把所有具有相同中间 key 的临时 key/value 对聚合在一起,然后把它们传递给 reduce 函数。用户自定义的 reduce 函数,接受一个中间 key 和相关的一个 value 集。它合并这些value,形成一个比较小的value集。通常,每次reduce调用只产生1个输出value。以这种函数式编写的程序能自动的在大规模的普通机器上并行的执行。我们设计基于 MapReduce 模型的分布式系统时要特别关注以下细节:分割输入数据;在机群上的执行调度;机器的错误处理;管理机群内机器之间必要的通信。这样就允许系统用户在没有任何并行或分布式系统经验的情况下容易地利用大量分布式系统的资源。其他版本:在经典的MapReduce运行作业如图6-1所示。在最高级别,有四种独立的实体:客户端, 负责提交MapReduce工作。JobTracke, 负责协调作业运行。它是一个Java应用程序,其主类是JobTrackerTaskTracker,它运行已被分配好的作业任务。它是一个Java应用程序, 其主类是TaskTracker。分布式文件系统(普通的HDFS),用于与其他实体间共享作业文件。作业提交 hadoop jar mainClass args. hadoop jar wordcount.jar test.WordCount Jobclient的runJob() 创建JobClient实例并通过submitJob()。 runJob()每秒轮询作业进度,如果发现进度报告变化,便把进度报告到控制台。作业完成后,如果成功就显示作业计数器。如果失败,导致作业失败的错误被记录到控制台。 理解WordCount程序处理流程:(1)将文件拆分为splits,并由MapReduce框架自动完成分割,将每一个split分割为对(2)每一对调用一次map函数,处理后生产新的对,由Context传递给reduce处理(3)Mapper对对进行按key值进行排序,并执行Combine过程,将key值相同的value进行合并。最后得到Mapper的最终输出结果(4)reduce处理,处理后将新的对输出。Hadoop中运行MapReduce作业的工作原理:第一部分:MapReduce工作原理 MapReduce 角色Client :作业提交发起者。JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业。TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务。提交作业在作业提交之前,需要对作业进行配置程序代码,主要是自己书写的MapReduce程序。输入输出路径其他配置,如输出压缩等。配置完成后,通过JobClinet来提交作业的初始化客户端提交完成后,JobTracker会将作业加入队列,然后进行调度,默认的调度方法是FIFO调试方式。任务的分配TaskTracker和JobTracker之间的通信与任务的分配是通过心跳机制完成的。TaskTracker会主动向JobTracker询问是否有作业要做,如果自己可以做,那么就会申请到作业任务,这个任务可以使Map也可能是Reduce任务。任务的执行申请到任务后,TaskTracker会做如下事情: 拷贝代码到本地 拷贝任务的信息到本地 启动JVM运行任务状态与任务的更新任务在运行过程中,首先会将自己的状态汇报给TaskTracker,然后由TaskTracker汇总告之JobTracker。任务进度是通过计数器来实现的。 作业的完成JobTracker是在接受到最后一个任务运行完成后,才会将任务标志为成功。此时会做删除中间结果等善后处理工作。 第二部分:错误处理任务失败MapReduce在设计之出,就假象任务会失败,所以做了很多工作,来保证容错。一种情况: 子任务失败另一种情况:子任务的JVM突然退出任务的挂起TaskTracker失败TaskTracker崩溃后会停止向Jobtracker发送心跳信息。Jobtracker会将该TaskTra
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件比例设置
- 螃蟹谜语导入课件
- 许愿荷花灯课件
- 体智能新人培训大纲
- 课件标题设置颜色的目的
- 快乐的派对课件
- 礼仪考试题及答案中职
- 2025年中国汽车雾灯灯具数据监测研究报告
- 客运中心考试题及答案
- 科学防疫考试题及答案
- 中小学生文明上网主题班会课件
- 十四年抗战史
- 餐饮业管理规范标准
- 2024年成都隆科城乡发展集团有限公司招聘笔试冲刺题(带答案解析)
- 中华人民共和国医师法解读培训课件
- (正式版)YST 1682-2024 镁冶炼行业绿色工厂评价要求
- DL-T 5148-2021水工建筑物水泥灌浆施工技术条件-PDF解密
- 电工技能训练(第6版)中职技工电工类专业全套教学课件
- 泛光夜景照明亮化工程项目实施的重点难点和解决方案
- 输血科三基培训课件
- 塑料成型工艺课件
评论
0/150
提交评论