




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章
OpenStack入门体验理论讲解01-OpenStack入门体验.pptx02-OpenStack常见模块详解.pptx03-OpenStack云平台管理.pptx04-搭建Openstack多节点的企业私有云平台.pptx05-OpenStackHA部署.pptx06-Hadoop基础.pptx07-HBase部署与使用.pptx08-部署CDH.pptx09-容器与云平台实战.pptx本章结构云计算概述OpenStack概述OpenStack一键安装Dashboard介绍创建云主机云计算概述概念狭义的云计算是指IT基础设施的交付和使用模式广义的云计算是指服务的交付和使用模式云资源网络资源存储资源服务器资源……请扫描二维码观看视频讲解什么是云计算云计算服务模型IaaS(基础架构即服务)提供底层IT基础设施服务,包括处理能力、存储空间、网络资源等一般面向对象是IT管理人员PaaS(平台即服务)把安装好开发环境的系统平台作为一种服务通过互联网提供给用户一般面向对象是开发人员SaaS(软件即服务)直接通过互联网为用户提供软件和应用程序的服务一般面向的对象是普通用户OpenStack概述一款云计算模型中的一个项目NASA(美国国家航空航天局)和Rackspace合作研发并发起以Apache许可证授权的自由软件和开放源代码项目旨在为公共及私有云的建设与管理提供软件的开源项目覆盖了网络、虚拟化、操作系统、服务器等各个方面OpenStack服务服务项目名称描述Compute(计算服务)Nova负责实例生命周期的管理,计算资源的单位。对Hypervisor进行屏蔽,支持多种虚拟化技术(红帽默认为KVM),支持横向扩展Network(网络服务)Neutron负责虚拟网络的管理,为实例创建网络的拓扑结构。是面向租户的网络管理,可以自己定义自己的网络,各个租户之间互不影响Identity(身份认证服务)Keystone类似于LDAP服务,对用户、租户和角色、服务进行认证与授权,且支持多认证机制Dashboard(控制面板服务)Horizon提供一个WEB管理界面,与OpenStack底层服务进行交互ImageService(镜像服务)Glance提供虚拟机镜像模板的注册与管理,将做好的操作系统拷贝为镜像模板,在创建虚拟机时直接使用,可支持多格式的镜像BlockStorage(块存储服务)Cinder负责为运行实例提供持久的快存储设备,可进行方便的扩展,按需付费,支持多种后端存储ObjectStorage(对象存储服务)Swift为OpenStack提供基于云的弹性存储,支持集群无单点故障Telemetry(计量服务)Ceilometer用于度量、监控和控制数据资源的集中来源,为OpenStack用户提供记账途径小结云计算服务模型OpenStack主要服务OpenStack一键安装2-1部署前准备工作开启CPU虚拟化功能(虚拟机关机状态下)配置IP地址(36)禁止防火墙和NetworkManager开机启动关闭SELinux修改主机名重新启动操作系统OpenStack一键安装2-2开始部署OpenStack安装openstack-ocata源安装openstack-packstack软件包安装OpenStack所需要的基础环境和所有组件[root@localhost~]#yuminstall-ycentos-release-openstack-ocata[root@localhost~]#yuminstall-yopenstack-packstack[root@localhost~]#packstack--allinone等待约30分钟,安装完成后会提示successfully字样Dashboard介绍4-1登录Dashboard36/dashboard[root@localhost~]#catkeystonerc_adminunsetOS_SERVICE_TOKENexportOS_USERNAME=adminexportOS_PASSWORD=3b2e71028ac240d1……登录用户名和密码Dashboard介绍4-2项目功能介绍计算类概况:主要是云计算各资源的使用情况,会有一些上限的限制,默认有一个安全组实例:所有创建过的云主机会在实例中显示,也可以新创建云主机卷:云主机所用到的存储卷,可以创建卷和做快照,另外还能转让镜像:所有的镜像会在这显示,可以创建镜像和删除镜像等操作密钥对:可以通过创建密钥对进行云主机远程连接的管理访问API:显示所有组件的服务端点,比如计算,注册等服务网络类网络拓扑:显示默认的网络和以后创建的网络拓扑图,可以很明显看到云主机的网络关系网络:显示已经创建的云主机网络路由:可以创建路由器实现三层转发安全组:类似于防火墙的功能,可以通过安全组对入口和出口,协议等的设置,默认会有一个安全组浮动IP:一般用于公网访问云主机对象存储类容器表示存储数据的地方,和Windows的文件夹,Linux的目录相似Dashboard介绍4-3管理员功能介绍概况:显示每个项目的硬件使用信息,支持过滤查询虚拟机管理器:用于控制节点和计算节点的集合主机聚合:将一些硬件配置更优的主机进行划分单独使用实例类型:创建云主机的规格默认值:资源限制元数据定义:列出对一些命名空间的使用或者对其修改系统信息:列出一些接口的地址Dashboard介绍4-4身份管理功能介绍项目:默认会有三个项目用户:记录组成OpenStack所有组件的用户,默认存在示例用户demo,支持新增或者删除用户操作组:用户的集合,组中可以添加用户角色:默认有四个角色,一般我们只需要关注_member_租户这个角色,也可以进行添加或者删除操作创建云主机创建实例类型创建网络创建路由创建云主机并连接测试外网连接连接外部网络接口连接内部网络接口通过控制台连接云主机点击超链接本章总结云计算概念云计算服务模型OpenStack一键部署方法Dashboard操作界面云主机的创建第一章
OpenStack入门体验本章实验实验:搭建OpenStack并创建云主机实验环境CentOS7.3操作系统需求描述通过一键安装OpenStack配置外部网络为,内部网络为实现云主机对外通信第二章
OpenStack常见模块详解理论讲解本章结构OpenStack概述OpenStack架构OpenStack模块介绍OpenStack概述OpenStack背景Rackspace和NASA在2010年共同发起的OpenStack项目NASA贡献NovaRackspace贡献SwiftOpenStack架构云计算概念图四个核心模块Nova、Glance、Cinder、Neutron四个辅助模块
Horizon、Cellometer、Keystone、Swift小结OpenStack核心模块OpenStack模块介绍8-1控制台Horizon管理、控制OpenStack服务的Web控制面板Horizon特点实例管理访问与安全管理偏好设定镜像管理查看服务目录管理用户、配额及项目用途用户管理卷管理对象存储处理为项目下载环境变量OpenStack模块介绍8-2身份认证模块Keystone负责管理身份验证、服务规则和服务令牌功能的模块Keystone涉及概念User(用户)Tenant/Project(租户/项目)Role(角色)Service(服务)Token(令牌)Endpoint(端点)Keystone工作流程图OpenStack模块介绍8-3镜像模块Glance提供发现、注册和下载的镜像服务,虚拟机镜像的集中式仓库通过虚拟机镜像创建虚拟机Glance主要组件glance-apiglance-registrydatabasestoragerepositoryforimagefiles镜像的格式RAWQCOW2VHDVMDKVDIISOAKI、ARI、AMIOpenStack模块介绍8-4计算模块Nova负责虚拟机实例的生命周期管理、网络管理、存储卷管理、用户管理以及其他的相关云平台管理功能Nova主要组件APIServerRabbitMQServerNova-VomputeNova-NetworkNova-VolumeNova-SchedulerOpenStack模块介绍8-5网络模块Neutron实现实例和实例之间以及实例和外部网络的通信提供二层(L2)vSwitch交换和三层(L3)Router路由抽象的功能实现功能Router:为租户提供路由、NAT等服务Network:对应于一个真实物理网络中的二层局域网(VLAN)Subnet:指定一段IPV4或IPV6地址并描述其相关的配置信息OpenStack模块介绍8-6虚拟网络对二层物理网络Network的抽象与管理虚拟交换机/网桥虚拟路由器NamespaceDHCP/浮动IP地址组网模型Local模型Flat模型VLAN模型Overlay模型OpenStack模块介绍8-7块存储Cinder提供对Volume从创建到删除整个生命周期的管理Cinder功能提供RESTAPI调度Volume创建请求,合理优化存储资源的分配支持多种back-end(后端)存储方式Cinder组件Cinder-ApiCinder-VolumeCinder-SchedulerCinder-BackupMessageQueueOpenStack模块介绍8-8Volume创建的步骤客户向API发送请求API向Messaging(RabbitMQ)发送消息Scheduler从Messaging获取到消息,执行调度算法,选出节点AScheduler向Messaging发送消息(让存储节点A创建Volume)请扫描二维码观看视频讲解OpenStack主要模块介绍本章总结OpenStack各模块的作用第二章
OpenStack常见模块详解本章实验实验:Horizon中功能模块使用实验环境完成Openstack的安装环境需求描述在Horizon中依次操作本章节涉及的功能模块第三章
案例:OpenStack云平台管理理论讲解本章结构案例概述案例前置知识点案例环境案例实施案例概述Dashboard概述OpenStack的管理工具通过Web页面实施管理可以执行网络、实例、安全组、密钥对、卷、快照以及镜像等相关功能的管理案例前置知识点浮动IP地址NAT转换中的内部全局地址可以被外部网络所访问需要绑定云主机快照以创建镜像的方式保存在Glance中通过镜像创建一个全新的云主机不包含任何快照链信息,只保留磁盘信息,无法回滚至快照点请扫描二维码观看视频讲解浮动IP地址案例环境云主机挂载新卷云主机创建快照创建CentOS镜像IP地址系统版本CPU内存磁盘OpenStack版本36CentOS7.3(64位)4核8GB30GBO版本主机列表基于第一章实验环境案例需求创建云主机云主机可以访问外部网络通过SSH协议免密码访问云主机案例环境案例实施:创建网络
删除默认的网络删除路由删除网络创建网络和路由创建网络和子网创建路由案例实施:创建云主机依次打开项目—计算—实例—创建实例云主机访问互联网[root@localhost~]#ifconfigbr-exnetmaskup[root@localhost~]#iptables-tnat-APOSTROUTING-s/24-oeth0-mcomment--comment"000nat"-jMASQUERADE解决云主机访问互联网问题案例实施:浮动IP概述
云主机私有地址的外部映射地址(NAT映射)通常是宿主机外部网络地址用于外部网络访问云主机外部网络不能直接访问云主机IP地址通过将预先定义的浮动IP地址关联云主机实现外部网络访问云主机案例实施:绑定浮动IP依次打开项目—网络—浮动IP需要配置安全组规则案例实施:添加安全组规则项目—网络—安全组默认安全组:default添加规则宿主机可以ping云主机宿主机可以ssh云主机案例实施:创建密钥对密钥对提高云主机安全性创建密钥对项目—计算—密钥对完成后会自动下载一个my-auth.pem文件//宿主机执行以下操作[root@localhost~]#useraddcirros[root@localhost~]#mkdir/home/cirros/.ssh//把my-auth.pem文件上传到/home/cirros/.ssh目录下面[root@localhost~]#mv/home/cirros/.ssh/my-auth.pem/home/cirros/.ssh/id_rsa[root@localhost~]#chmod700/home/cirros/.ssh[root@localhost~]#chown-Rcirros.cirros/home/cirros/.ssh[root@localhost~]#chmod600/home/cirros/.ssh/id_rsa重新创建云主机实例将自动使用密钥对,可以在宿主机上使用cirros用户以ssh方式免密码登录云主机案例实施:创建卷项目—计算—卷创建卷连接到实例云主机查看卷扩容卷分离卷扩展卷下拉列表选择“管理连接”可以正常对卷进行分区以及格式化案例实施:快照管理快照类型基于实例的快照基于卷的快照案例实施:创建镜像下载镜像镜像官网地址:/centos/7/images下载CentOS-7-x86_64-GenericCloud-1802.qcow2创建镜像管理员—系统—镜像12本章总结创建OpenStack网络绑定浮动IP到云主机添加安全组规则创建密钥对卷管理快照管理镜像管理第四章
案例:搭建OpenStack
多节点的企业私有云平台理论讲解本章结构案例概述案例前置知识点案例环境案例实施案例概述企业环境中部署OpenStack在部署方案的选择上,除了单节点部署外,还可以选择多节点部署,尤其是在生产环境中。单节点的计算资源远远无法满足企业的真实需求,OpenStack可以通过添加计算节点的方式横向扩展所需的计算资源,也可以将不同的服务部署到多个节点以减轻负载,提高效率案例前置知识点OpenStack核心组件Compute(Nova):提供计算服务ObjectStorage(Swift):提供对象存储服务Identity(Keystone):提供认证服务Dashboard(Horizon):提供Web管理控制台服务BlockStorage(Cinder):提供块存储服务Network(Neutron):提供网络服务ImageService(Glance):提供镜像服务案例环境案例拓扑图主机名IP地址用途controller5028控制节点compute1729计算节点block14存储节点节点配置信息案例实施基本部署部署Keystone部署Glance部署Nova部署Neutron部署Dashboard部署Cinder具体步骤请参考教材本章总结OpenStack多节点部署方法第五章
案例:OpenStackHA部署理论讲解本章结构案例概述案例前置知识点案例环境案例实施案例概述高可用概述高可用(HighAvailable,简称HA),是保证核心业务不中断的一种技术,是保证业务连续性的有效解决方案,通过给核心主节点增加一个或多个可用节点实现。多个节点可以同时工作提供负载均衡效果案例前置知识点HA的计算公式非宕机时间=1-(宕机时间)/(宕机时间+运行时间)2个9:87.6小时/年的宕机时间4个9:52.56分钟/年的宕机时间5个9:5.265分钟/年的宕机时间11个9:几年宕机几分钟HA的分类有状态服务无状态服务Active/PassiveHAActive/ActiveHA案例环境部署环境案例需求避免控制节点单点故障使用DRBD+Pacemaker+Corosync部署OpenStackHA主机操作系统主机名/IP地址服务器CentOS7.3Controller01/服务器
CentOS7.3Controller02/虚拟IP地址Controller/00案例实施案例环境准备修改hostname安装drbd配置时间同步关闭防火墙配置hosts文件配置drbdCorosync安装和配置安装Pacemaker、Corosync配置CorosyncPacemaker配置配置集群初始属性配置集群详细属性MariaDB安装和配置Memcache的安装配置RabbitMQ安装和配置配置OpenStackAPI安装及配置Dashboard验证OpenStack验证HA切换本章总结HA中非宕机时间的计算公式OpenStackHA部署的方法第六章
案例:Hadoop基础理论讲解本章结构案例概述案例前置知识点案例环境案例实施案例概述Hadoop在大数据背景下,Hadoop是一个核心代表首先,带领读者初步了解Hadoop的体系结构,掌握Hadoop运行环境与开发环境的安装,了解Hadoop程序的运行然后,介绍HDFS基本原理及常用的HDFS管理操作,学习MapReduce编程框架案例前置知识点大数据定义指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的巨量数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据概述3-1大数据特点数据体量巨大数据类型多样价值密度低产生和要求处理速度快大数据概述3-2名称类型说明Hadoop开源Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序Spark开源类似HadoopMapReduce的并行框架Stom开源实时的、分布式以及具备高容错的计算系统MongoDB开源面向文档的NoSql数据库IBMPureData商用基于Hadoop,属于IBM专家集成系统PureSystem家族中的组成部分,主要面向大数据应用OracleExadata商用Oracle的新一代数据库云服务器SAPHana商用提供高性能的数据查询功能,用户可以直接对大量实时业务数据进行查询和分析TeradataAsterData商用非结构化数据解决方案EMCGreenPlum商用采用了大规模并行处理,支持50PB级海量存储与管理HPVertica商用列式大数据分析数据库常见的大数据处理系统大数据概述3-3Hadoop是Apache基金会旗下的分布式系统基础架构用户可以在不了解分布式底层细节的情况下,开发分布式程序充分利用集群的威力进行高速运算和存储Hadoop概述Hadoop特点高可靠性高扩展性高效性高容错性低成本可构建在廉价机器上Hadoop运行模式单机模式伪分布式模式完全分布式模式Hadoop组件Hadoop框架的核心构成分布式文件系统(HDFS)分布式计算系统(MapReduce)分布式资源管理系统(YARN)Hadoop生态圈Hadoop特点高可用性高扩展性高容错性低成本可构建在廉价机器上Hadoop运行模式单机模式伪分布式完全分布式分布式文件系统(HDFS)HDFS定义是一个主/从体系结构的、以分布式进行存储的分布式文件系统主要负责群集数据的存储与读取HDFS优缺点优点缺点存储超大文件不适合低延迟数据访问标准流式访问不适合小文件存取可构建在廉价机器上不适合并发写入,文件随机修改HDFS体系结构HDFS群集组成一个NameNode节点多个DateNode节点HDFS基础概念4-1数据块(Block)HDFS默认最基本的存储单位是数据块默认大小为64MB有些发布版本为128MBHDFS64MB64MB64MB64MBHDFS基础概念4-2元数据节点(NameNode)负责管理文件系统的命名空间将所有文件和文件夹的元数据保存至一个文件系统树中元数据存放目录NameNode节点的hadoop/dfs/name/current目录中由hdfs-site.xml中的.dir属性指定目录中包括具体文件类型fsimage_*、edits_*、VERSION、......HDFS基础概念4-3数据节点(DateNode)文件系统中真正存储数据的地方一个文件被拆分成多个数据块后,分别存储至对应的数据节点上数据存储目录DateNode节点的hadoop/dfs/data目录中由hdfs-site.xml中的dfs.datanode.data.dir属性指定目录中包括具体文件类型blk_<id>、blk_<id>.meta、......HDFS基础概念4-4从元数据节点(SecondaryNameNode)用于周期性备份NameNode节点上的元数据可以用来恢复NameNode节点,但不能作为备用节点为了防止宕机,通常是将SecondaryNameNode和NameNode设置为不同的主机使用hdfs-site.xml中配置的node.secondary.http-address属性值可以通过浏览器查看SecondaryNameNode运行状态HDFS集群的数据读写流程数据读流程由客户端向NameNode请求访问某个文件,NameNode返回该文件所在DataNode,然后客户端向DataNode读取数据数据写流程客户端向NameNode发出文件写请求,NameNode告诉客户该向哪个DataNode写入文件客户将文件写入该DataNode节点DataNode将自动复制数据到其它DataNode节点上,默认3份拷贝分布式计算系统(MapReduce)2-1MapReduce是一个实现了并行计算编程模型,用以进行大数据量的计算MapReduce包括map(映射):map负责把任务分解成多个任务reduce(归约):负责把分解后多任务的处理结果进行汇总MapReduce框架包括JobTrackeTaskTracker分布式计算系统(MapReduce)2-2MapReduce工作原理inputsplitmapshufflereduceMapReduce作业在MapReduce框架中的工作原理重点关注部分MapTask程序:Mapper的实现ReduceTask程序:Reducer的实现Job相关配置请扫描二维码观看视频讲解MapReduce工作原理Hadoop部署模式单机模式伪分布式完全分布式分布式资源管理系统(YARN)产生背景Hadoop1.0中的MapReduce架构面临的问题JobTracke单点故障JobTracke扩展瓶颈作业延迟高编程框架不够灵活......作用目的是使Hadoop数据处理能力超越MapReduceYARN架构将JobTracker的职能进行了拆分改善MapReduceV1面临的扩展性瓶颈问题YARN架构中各实体角色的职责2-1资源管理器包括两个功能组件调度器和应用管理器调度器仅负责协调集群上计算资源的分配,不负责监控各个应用的执行情况应用管理器负责接收作业,协商获取第一个资源容器用于启动作业所属的应用主体并监控应用主体的存在情况节点管理器负责启动和监视集群中机器上的计算资源容器(Container)YARN架构中各实体角色的职责2-2应用主体应用主体与应用一一对应,负责协调运行MapReduce作业的任务,它和MapReduce任务都在资源容器中运行资源容器对节点自身内存、CPU、磁盘、网络带宽等资源的抽象封装,由资源管理器分配并由节点管理器进行管理主要职责是运行、保存或传输应用主体提交的作业或需要存储和传输的数据YARN配置文件基于MapReduceV1编写的程序无需修改也可以运行在YARN中启动YARN需要单独配置,共涉及到如下文件yarn-env.sh:加入JDK路径mapred-site.xml:指定为yarnyarn-site.xml:YARN具体配置信息YARN具体配置信息详解属性默认值说明yarn.reourcemanager.addresshostname:8032ResourceManager对客户端暴露的地址。客户端通过该地址向ResourceManager提交、终止应用程序yarn.resourcemanager.scheduler.address.hostname:8030ResourceManage对ApplicationMaster暴露的地址。ApplicationMaster通过该地址向ResourceManager申请、释放资源yarn.resourcemanager.resource-tracker.addresshostname:8031ResourceManage对NodeManager暴露的地址。NodeManager通过该地址向ResourceManager汇报心跳,领取任务yarn.resourcemanager.admin.addresshostname:8033ResourceManage对管理员暴露的地址。管理员通过该地址向ResourceManager发送管理命令yarn.resourcemanager.webapp.addresshostname:8088ResourceManage对外Web访问地址。用户可通过该地浏览器中查看集群各类信息YARN作业执行流程与优势YARN作业执行流程YARN优势分散了JobTracker的任务,资源管理器和应用主体各司其责,解决了JobTracker的瓶颈问题,提高了集群的扩展性YARN中应用主体是一个用户可自定义的部分,用户可以针对编程模型编写自己的应用主体程序,扩展了YARN的适用范围集群资源统一组织成资源容器,提高了集群资源的利用率案例环境实验环境案例实施主机名IP地址所分配的角色node133Master,NameNode,JobTrackernode234Slave,DataNode,TaskTrackernode335Slave,DataNode,TaskTracker配置Hadoop运行环境修改hosts文件创建用户安装JDK配置SSH免密码登录Hadoop完全分布式安装安装Hadoop配置Hadoop验证Hadoop配置运行Hadoop的WordCount程序创建测试文本文件启动HDFS后创建HDFS目录将测试文件保存至HDFS目录HDFS的命令行操作2-1调用Hadoop的文件系统Shell(FileSystemShell)命令格式为hadoop命令位于$HADOOP_HOME/bin目录下fs为其参数表示FSShell<args>是fs的子命令示例hadoopfs<args>hadoopfs-lsfile:///home/hduserHDFS的命令行操作2-2Hadoop文件系统可以支持多种文件系统的访问,访问时均使用URI路径作为参数,URI格式为Local(本地文件系统)HDFSscheme://authority/pathfile://pathhdfs://NameNodeIP:NameNodePort/pathscheme和authority为可选,若未指定,则使用Hadoop配置中fs.defaultFS参数的默认值“file:///”fs操作常用子命令创建目录:mkdir列表文件:ls查看文件:cat转移文件:put、get、mv、cp删除文件:rm、rmr管理命令:test、du、expunge本章总结Hadoop体系结构MapReduce计算模型YARN作业执行流程Hadoop完全分布式安装HDFS命令行操作第七章
案例:HBase部署与使用理论讲解本章结构案例概述案例前置知识点案例环境案例实施案例概述本案例带领读者了解Hadoop中的HBase组件及其相关的概念。同时介绍HBase的安装部署,并在部署后的环境中介绍HBaseShell的常见操作案例前置知识点HBase简介HBase建立在Hadoop文件系统之上的分布式面向列的数据库。属于开源项目,可以进行横向扩展适用于需要实时地随机访问超大规模数据集的场景不支持关系型数据库的SQL,是以键值对的方式按列存储HBase和HDFS关系HBaseHDFS是建立在HDFS之上的数据库适于存储大容量文件的分布式文件系统提供在较大的表快速查找不支持快速单独记录查找提供了数十亿条记录低延迟访问单个行记录(随机存取)提供了高延迟批量处理;没有批处理概念内部使用哈希表和提供随机接入,并且其存储索引,可将在HDFS文件中的数据进行快速查找提供的数据只能顺序访问HBase和HDFSHBase体系结构是Master/Slaves的主从结构,由一个HMaster和多个HRegionServer构成所有服务器都是通过ZooKeeper来进行协调并处理各服务器运行期间可能遇到的错误HMaster负责管理所有的HRegionServerHRegionServer负责存储许多HRegionHRegion是对HBase逻辑表的分块HRegion3-1是HBase集群上分布式存储和负载均衡的最小单位一个HRegion中保存一个表中一段连续的数据通过表名和主键范围(开始主键~结束主键)来区分每一个HRegionHRegion3-2HRegion分裂HRegion3-3HRegion组成HRegionHStoreMemStoreHFileStoreFileHFileStoreFile...HStoreMemStoreHFileStoreFileHFileStoreFile......HregionServer负责响应用户I/O请求,向HDFS中读写数据,一台机器上只运行一个HRegionServer构成组件HLog部分用于存储数据日志,实质是HDFS的SequenceFile到达HRegion的写操作首先被追加到日志中,然后才被加入内存中的MemStoreHRegion部分由多个HRegion组成,每个HRegion对应了表中的一个分块,并且每一个HRegion只会被一个HRegionServer管理HRegionServerHRegionHLogHMaster是HBase主/从集群架构中的中央节点在HBase中可以启动多个HMaster通过ZooKeeper的Master选举保证总有一个Maste在运行具体功能管理用户对表的增、删、改、查操作管理HRegionServer的负载均衡,调整HRegion分布在HRegion分裂后,负责新HRegion的分配HRegionServer停机后,负责失效HRegionServer的HRegion迁移ZooKeeper2-1是存储HBase中的根数据表(ROOT)和元数据表(META)表的位置META表记录普通用户表的HRegion标识符信息每个HRegion的标识符为:表名+开始主键+唯一IDROOT表保存META表的HRegion信息是不能被分割的ZooKeeper2-2工作原理HBase数据模型重要术语表行关键字列族列关键字存储单元格时间戳概念视图物理视图HBase与关系型数据库区别
HBase关系型数据库数据类型只有简单的字符串类型,它只保存字符串有丰富的类型选择和存储方式数据操作只有简单的插入、查询、删除、清空等操作,表之间没有关联操作有多种连接操作存储模式基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的基于表格结构和行模式存储数据维护更新操作实际上是插入了新的数据,它的旧版本依然会保留更新操作是替换修改可伸缩性具体有良好的可伸缩性需要增加中间层才能实现类似的功能请扫描二维码观看视频讲解HBase体系结构案例环境主机列表案例拓扑主机名IP地址所分配的角色node133Master,NameNode,JobTracker,HMasternode234Slave,DataNode,TaskTracker,HRegionServernode335Slave,DataNode,TaskTracker.HRegionServer案例实施4-1
案例实施运行分布式HBase需要满足条件JDK环境SSH免密码登录Hadoop环境单机模式伪分布式模式完全分布式模式案例实施4-2HBaseShell操作数据定义创建表create、查看所有表list、修改表alter、删除表drop数据操纵添加数据put、扫描表scan、获取数据get、删除数据delete案例实施4-3MapReduce与HBase集成后的作用HBase可以作为MapReduce作业的输入和输出对HBase中的数据进行非实时性的统计分析对HBase的表数据进行分布式计算在多个MapReduce间使用HBase作为中间存储介质MapReduce、HBase、HDFS之间关系案例实施4-4MapReduce与HBase集成集成环境中,输入/输出的内容从文件变为表(HTable)表的输入/输出格式通过TableInputFormat和TableOutputFormat实现使用集成环境前,需要做额外调整工作本章总结HBase体系结构HBase数据模型HBase的安装配置方法HBaseShell常见操作MapReduce与HBase集成第八章
案例:部署CDH理论讲解本章结构案例概述案例前置知识点案例环境案例实施案例概述ApacheHadoop是目前最主流的在通用硬件构建大型群集上运行应用程序的分布式架构。除此之外,另外一个比较流行的版本是Cloudera版本。本章围绕Cloudera版本进行介绍案例前置知识点ClouderaHadoop(CDH)概述Hadoop发行版除了社区的Apachehadoop外,Cloudera、Hortonworks、MapR、EMC、IBM、INTEL、华为等都提供自己的商业版本比较流行Hadoop版本ApacheHadoop维护人员比较多,更新频率比较快,稳定性相对比较差ClouderaHadoop(CDH)Cloudera公司的发行版本,基于ApacheHadoop的二次开发,优化了组件兼容和交互接口、简化安装配置、增加Cloudera兼容特性CDH安装方式CDH常用安装方式ClouderaManager在线安装Parcel安装YUM安装RPM安装使用的安装介质3-1ClouderaManager下载地址:/cm5/cm/5/软件包:cloudera-manager-centos7-cm5.14.0_x86_64.tar.gzJDBC驱动下载地址:/downloads/connector/j/软件包:mysql-connector-java-5.1.46.tar.gz使用的安装介质3-2CDHPercel包下载地址/cdh5/parcels/软件包CDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcelCDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcel.sha1manifest.jso使用的安装介质3-3KafkaCSD包下载地址/kafka/parcels/latest/软件包KAFKA-2.0.2-.p0.5-el7.parcelKAFKA-2.0.2-.p0.5-el7.parcel.sha1下载地址/csds/kafka/软件包KAFKA-1.2.0.jar案例环境案例环境案例需求部署CDH群集使用管理控制台对CDH群集进行管理主机名IP地址内存cdhmaster33至少6Gcdhslave0134至少4Gcdhslave0235至少4G案例实施5-1案例环境准备修改系统的主机名关闭防火墙与SELinux增加hosts解析同步各节点的时间安装JDK环境设置节点之间免密钥登录设置交换分区和透明大页案例实施5-2安装数据库(cdhmaster节点)卸载mariadb下载MySQL官方社区版本下载地址/downloads/mysql/使用软件包:mysql-5.7.22-linux-glibc2.12安装MySQL数据库无需编译安装案例实施5-3安装CDH安装依赖包安装ClouderaManager安装JDBC驱动创建ClouderaManager用户初始化ClouderaManag
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 超声助理面试题及答案
- 浙大中控信息java面试题及答案
- java奇葩面试题及答案
- 酒店实务考试题及答案
- 延吉烟草面试题及答案
- 职位经历清晰的职场工作经历证明(6篇)
- 现代农业种植园区承包合同
- 校外培训门禁管理制度
- 样本出库追踪管理制度
- 格力电器成本管理制度
- 2025年高考英语全国二卷试题含答案
- 抚州市乐安县招聘城市社区工作者笔试真题2024
- 仪器仪表制造职业技能竞赛理论题库
- 税收分析试题及答案
- 2025年西式面点师(中级)面包烘焙实操考试试卷
- 回迁楼房买卖合同协议书
- 新课程理念下语文课堂教学体系重建
- 工程完工后的回访与保修服务承诺
- 从技术革新到应用拓展:高效便捷三维人体重建的多维探索
- 2025年湖南省中考数学模拟试卷(二)
- 广东省大湾区2025届普通高中毕业年级联合模拟考试(二)化学(含答案)
评论
0/150
提交评论