




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 云计算与大数据基础1.在信息产业的发展历程中。硬件驱动力,网络驱动力,作为两个重要的内在动力在不同的时期起着重要的作用25西摩 克雷超级计算机之父约翰 麦克锡云计算之父蒂姆 伯纳斯 李万维网发明人 第一个网页开发者吉姆 格雷大数据之父6 MapReduce思想来源LISP语言7.按照资源封装层次,云计算分为 Iaas paas saas三种8.10. 教材P8 1.2.211. 教材P第二章 云计算与大数据相关技术1.一致性hash算法原理:哈希算法是一种从稀疏值到紧密值范围的映射方法,在存储和计算定位时可以被看做是一种路由算法。通过这种路与哦算法文件块能被唯一的定位到一个节点的位置。
2、传统的hash算法容错性和扩展性都不好,无法有效的适应面向数据系统节点的动态变化。意思就是当集群需要增加节点,传统的hash算法不容易检测到新增加的节点,此为扩展性不好,而一致性hash算法增加一个节点只会影响增加的这个节点到前一个节点之间的数据。容错性就是如果不幸一个机器C宕机了,那么机器B和C之间的数据都会被D执行,那么受影响的数据只是机器B和C之间的数据。当然,容错性和扩展性对于节点数较多的集群是比较有意义的,对于节点较少的集群似乎这两个特性并没有什么诱惑力。一致性hash的实际目的就是解决节点频繁变化时的任务分配问题,一致性hash将整个hash值空间组织成一个虚拟圆环,我们这里假设某
3、hash函数H值空间为0(232-1),即32位无符号整形。下面简述一下一致性hash的原理:这是一致性hash的整个值空间0(232-1)下一步将各个服务器使用Hash进行一个哈希,具体可以选择服务器的ip或主机名作为关键字进行哈希,这样每台机器就能确定其在哈希环上的位置,假设使用四台机器进行hash:将数据key使用相同的函数Hash计算出哈希值,并确定此数据在环上的位置,从此位置沿环顺时针“行走”,第一台遇到的服务器就是其应该定位到的服务器。例如我们有Object A、Object B、Object C、Object D四个数据对象,经过哈希计算后,在环空间上的位置如下:根据一致性哈希算
4、法,数据A会被定为到Node A上,B被定为到Node B上,C被定为到Node C上,D被定为到Node D上下面我们看看当集群机器比较少的情况例如系统中只有两台服务器,其环分布如下,此时必然造成大量数据集中到Node A上,而只有极少量会定位到Node B上。为了解决这种数据倾斜问题,一致性哈希算法引入了虚拟节点机制,即对每一个服务节点计算多个哈希,每个计算结果位置都放置一个此服务节点,称为虚拟节点。具体做法可以在服务器ip或主机名的后面增加编号来实现。例如上面的情况,可以为每台服务器计算三个虚拟节点,于是可以分别计算 “Node A#1”、“Node A#2”、“Node A#3”、“N
5、ode B#1”、“Node B#2”、“Node B#3”的哈希值,于是形成六个虚拟节点:同时数据定位算法不变,只是多了一步虚拟节点到实际节点的映射,例如定位到“Node A#1”、“Node A#2”、“Node A#3”三个虚拟节点的数据均定位到Node A上。这样就解决了服务节点少时数据倾斜的问题。在实际应用中,通常将虚拟节点数设置为32甚至更大,因此即使很少的服务节点也能做到相对均匀的数据分布。2.科学研究的四个范式:观测实验、理论、计算仿真、数据3.物联网产业链分为:标识,感知,处理,信息传送4.非关系型数据库分为:(1) Column-Oriented面向检索的列式存储,其存储结
6、构为列式结构 如:Google的big table,apache的hbase(2) Key-Value面向高性能的并发读/写的缓存存储,结构类似于Hash表(hash算法真的要好好学,用的地方太多了,性能的确也是最高的),每个key分别对应一个value,这种数据库适合用来作为缓存系统使用,比如:MemcacheDB,Berkeley DB,redis,flare(3) Document-Oriented面向海量数据访问的文档存储,这类存储类似key-value形式,只是value主要以JSON或者XML等格式进行存储,比如:mongoDB,CouchDB第三章 虚拟化技术1.Popek和Go
7、ldberg 指出:虚拟机具有 同一性,高效性,可控性2.虚拟化技术从计算机体系结构层次上可分为以下5类: 指令集架构级虚拟化,硬件抽象层虚拟化,操作系统层虚拟化,编程语言上的虚拟化,库函数虚拟化3.常用的虚拟化软件系统有 VirtualBox ,VMware Workstation ,KVM4.系统虚拟化具有 硬件无关性,隔离性,多实例,特权功能等优点。5.系统虚拟化可分为 服务器虚拟化 桌面虚拟化 网络虚拟化6.服务器虚拟化按照虚拟化的部分可分为 CPU虚拟化,内存虚拟化,I/O虚拟化7.什么是广义虚拟化技术:答:虚拟化技术是一种逻辑简化技术,实现物理层向逻辑层的变化,对物理层运动复杂性的
8、屏蔽,是系统对外运动呈现出简单的逻辑运行状态8虚拟化技术有哪些优势劣势?优势:1.虚拟化技术可提高资源利用率2.提供相互隔离,高效的应用执行环境3.虚拟化可以简化资源和资源管理4.虚拟化实现软件和硬件的分离劣势 1.可能会使物理计算机负载过重2.升级和维护引起的安全问题3.物理计算机的影响第四章 集群系统基础1.云计算领域存在两个主要技术路线,一个是基于集群技术的云计算资源整合技术,一个是基于虚拟机的云计算资源切分技术2.集群的设计要考虑5个关键的问题是 可用性 单一系统映像 作业管理 并行文件系统 高效通信3.传统的集群系统可以分为 高可用性 系统负载均衡 高性能 虚拟化 4类。4简述Beo
9、wulf系统的主要特点答:1 Beowulf系统通常由一个管理节点和多个计算节点构成2 Beowulf 系统通常用最常见的硬件设备组成3 Beowulf 系统同城采用哪些廉价且广为传播的软件5 Lustre存储系统的组成有 MDS, MDT, OSS, OST, Client6.简述面向计算分布式系统,混合分布式系统,面向数据的分布式系统的实现机制,分析三种系统的区别.分析区别:P64 表4.2 3中分布式系统的对比第五章 MPI-面向计算的高性能集群技术1,什么是MPIMPI(Message Passing Interface)消息传递接口。它本身不是一个具体的实现,而只是一种标准描述。2,
10、MPI支持 FORTRAN77 、C 、Fortran90 、 C+ 等语言的调用,能满足大多数科学计算的应用需要。3,简述MPICH并行环境建立的主要步骤。(1).配置好NFS服务,实现所有节点对主节点指定文件夹的共享,该文件夹为MPICH的安装位置,数据和程序的存储位置,这样就可以避免在每个节点安装MPICH,启动计算时也可以避免每次向各个节点分发程序。(2).配置好各个节点间的互信,这一步就是实现集群内部个节点间无密码访问,因为MPICH在计算时需要在各节点进行数据交换,集群内的节点应用相互信任的节点。(3).编译安装配置MPICH。4.动手配置MPI节点间的ssh无密码访问。(1)生成
11、私钥id_dsa和公钥id_dsa.pub(2)将该密钥用作认证,进行访问授权。(3)将/.ssh目录下的文件复制到所有节点。(4)检查是否可以直接(不需要密码)登录其他节点。5,简述基于蒙特卡罗思想求值的编程方法,并编写用MPI程序。蒙特卡罗方法,又称为随机抽样或统计试验方法。代码在 Page 83 -84第六章 Hadoop-分布式大数据系统1.谷歌三宝:mapreduce,bigtable,gfs2.gfs的工作过程: p933.HDFS分块策略: p95第七章 HPCC-面向数据的高性能计算集群系统1,简述HPCC的主要特点。(1) 强大灵活的ECL语言,显著提升了程序员编程的效率。(
12、2) HPCC系统提供的Roxie集群提供了高效的在线查询和分析服务。(3) ECL程序首先编译为优化的C+,高速性能得到保证。(4) 高效的错误恢复和冗余备份机制。(5) 稳定和可靠的系统。(6) 相对于其他平台,在较低的系统消耗上实现了更高的性能。2,高性能计算目前可以分为两类:一类是面向 计算 的高性能计算,另一类是面向 数据 的高性能计算。3,数据密集型集群计算系统主要有 Hadoop HPCC Storm Apache Drill Rapid Miner Pentaho4,HPCC系统从总体物理上可以看作在同一个集群上部署了 Thor(数据加工处理平台) 、 Roxie(数据查询、分析和数据仓库) 两套集群计算系统。5,HPCC的系统服务器包含 ECL服务器 、 Dali服务器 、 Sasha服务器 、 DFU服务器 、 ESP服务器 6,简述HPCC平台数据检索任务的执行过程。(1) 加载原始数据(2) 切分、分发待处理的数据(3) 分发后原始数据的ETL处理(4) 向Roxie集群发布Page 117-1187,熟悉HPCC网页化管理界面ECLWatch。Page
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业版艺术品租赁合同(含交接回执)5篇
- 福建省茶叶购销合同8篇
- 夜市摊位租赁协议书范本与大件货物运输合同7篇
- 劳动合同(无固定期限)7篇
- 北京市体育培训服务合同7篇
- 2025年房地产经纪人职业资格考试模拟试卷:房地产经纪业务合同签订与履行
- 2025果园承包经营合同 管理资料
- 公共卫生应急中的医养融合教育
- 医学检验结果的质量保障措施
- 医疗改革背景下科室管理的挑战与机遇
- 预防老年人痴呆
- 三年级信息科技第23课《分解描述问题》教学设计、学习任务单及课后练习
- 数据库应用技术-第三次形考作业(第10章~第11章)-国开-参考资料
- 设备调试工作流程
- 农业水利工程基础知识单选题100道及答案
- 2024江苏南通醋酸纤维有限公司第二批次招聘33人笔试参考题库附带答案详解
- 四川乐山历年中考语文现代文阅读真题37篇(截至2024年)
- 机器学习与非线性方程-深度研究
- 2023年小学科学实验知识竞赛试题库含答案
- 农村自建房主体包工包料承包合同模板
- 破釜沉舟成语故事课件全
评论
0/150
提交评论