版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章Hadoop
介绍.pptx第2章Hadoop
集群的搭建及配置.pptx第3章
Hadoop
基础操作.pptx第4章MapReduce编程入门.pptx第5章MapReduce进阶编程.pptx第6章Hive数据仓库.pptx第7章HBase分布式数据库.pptx第8章项目案例:电影网站用户影评分析.pptxHadoop介绍泰迪智能科技TIPDMINTELLIGENT
TECHNOLOGY大数据时代下,针对大数据处理的新技术也在不断地开发和运用中,并逐渐成为数据处理挖掘行业广泛使用的主流技术之一。在大数据时代,
Hadoop
作为处理大数据的分布式存储和计算框架,在国内外大、中、
小型企业中已得到了广泛应用。学习Hadoop技术是从事大数据行业工作必不可少的一步。本章将主要介绍Hadoop分布式框架的理论知识。·
首先介绍Hadoop
框架及其发展历史、特点,并重点讲解Hadoop的3大核心组件HDFS
、YARN
和
MapReduce。·接着对Hadoop生态系统中的组件进行简单的介绍,包括组件的特点和应用。·最后简要介绍Hadoop的应用场景。官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY任务背景2目
录1
认识Hadoop框架2
了解Hadoop核心组件3
了解Hadoop生态系统4
了解Hadoop应用场景泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-52593TIPDMINTELLIGENTTECHNOLOGY在使用Hadoop的核心组件之前,首先需要对Hadoop框架的理论知识有一定的了解。本小节的任务是了解Hadoop框架及其发展历史、特点,带领读者走进Hadoop。官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY任务描述4Hadoop由Apache基金会开发,(
开源的
可靠的
可扩展的用于分布式计算
的分布式系统基础架构或框架。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
5TIPDMINTELLIGENTTECHNOLOGY什么是Hadoop●可扩展、高容错、高性能的分布式文件系统●
负责数据的分布式存储和备份●Map
(映射)●Reduce
(规约)Hadoop分布式文件系统HDFS分布式计算框架MapReduceHadoop
框架核心什么是Hadoop官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDMINTELLIGENTTECHNOLOGY6Facebook
创建了基于
Hadoop
的组件:HiveCloudera
公司成立20082004用910个节点对1TB20032006209sa0
ooo道格
·卡廷加入雅虎公司2002
并带走了HadoopHadoop
转换处理道格
·卡廷和迈克
·卡法雷拉创建Nutch泰迪智能科技
官网:
电话:189-2756-52597TIPDMINTELLIGENTTECHNOLOGY了解Hadoop
发展历史道格
·卡廷和其他开发者们开始
研究NDFS和MapReduce推出YARN框架的
第一个版本2012开发人员在100个亚马逊的虚拟机服务器上使用2009道格
·卡廷加入
Cloudera
公司Hadoop及其生态圈组
件得到广泛的应用2020Hadoop3.1.4发布谷歌公司发表了GFS
和MapReduce论文Hortonworkers公司完全开源2007
数据排序,仅用Hortonworkers
公司成立Hadoop3.x发布Hadoop2.x快速发展了4TB
的图片数据2016
2017201420132011高容错性Hadoop
基本框架用Java语言编写高可靠性高扩展性高效性可构建在廉价机器上了解Hadoop的特点官网:http://www.tipdm.com
电话:189-2756-5259低成本8目
录1
认识Hadoop框架2
了解Hadoop核心组件3
了解Hadoop生态系统4
了解Hadoop应用场景泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-52599TIPDMINTELLIGENTTECHNOLOGYHadoop有3大核心组件,分别是分布式文件系统HDFS
、分布式计算框架MapReduce
和集群资源管理器YARN。本小节的任务是介绍Hadooop
的3大核心组件,了解不同核心组件的架构和工作原理,为后续深入学习Hadoop奠定基础。官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY任务描述101.HDFS
简介及架构HDFS
是以分布式进行存储的文件系统,主要负责集群数据的存储与读取。HDFS是一个主/从
(Master/Slave)
体系架构的分布式文件系统。客户端
—元数据操作
→读写操作_DataNodeA
—备份数据块一B备份元数据Secondary
NameNodeDataNodeA
B数据块NameNodefsimageeditsDataNodesDataNodeA
B了解分布式文件系统
HDFS官网:
电话:189-2756-5259HDFS架构如图所示。泰迪智能科技TIPDMINTELLIGENTTECHNOLOGY11NameNode·NameNode用于存储元数据以及处理客户端发出的请求。●在NameNode中存放元信息的文件是fsimage文件。SecondaryNameNode·SecondaryNameNode用于备份NameNode的数据。DataNode·DataNode是真正存储数据的地方。HDFS文件系统主要包含一个NameNode、一个SecondaryNameNode和多个DataNode。了解分布式文件系统——HDFS官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY12了解分布式文件系统——HDFS2.分布式原理HDFS作为一个分分布式系统可以划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络
通信进行协作,实现最终的整体功能。利用多个节点共同协
作完成一项或多项具体业务功能的系统即为分布式系统。分布式文件系统,主要体现在3个方面。HDFS
并不是一个单机文件系统,而是分布在多个集群节点上的文件系
统
。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
13TIPDMINTELLIGENTTECHNOLOGY当存储文件时文件的数据将分布在多个节点上。数据从多个节点读取。冗余备份
副本傈措施3.
宕
机
处
理数据存储在文件系统中,如果某个节点宕机了,那么很容易造成数据流失。官网:http://www.tipdm.com
电话:189-2756-525914了解分布式文件系统——HDFS泰迪智能科技TIPDMINTELLIGENTTECHNOLOGY宕机处理?在数据存储的过程中,对每个数据块都进行了副本备份,副本个数可以自行设置。目前使用的策略是,以存放3个副本
(dfs.replication=3)为例,在同一机器的两个节点上各备份一个副本,再在另一台机器的某个节点上存放一个副本,前者可
防止当该机器的某个节点宕机使可恢复数据,后者则防止当某个机器宕机时可恢复
数
据
。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-525915TIPDMINTELLIGENTTECHNOLOGY了解分布式文件系统——HDFS③当HDFS
存储数据时,如果需要存放数据的节点宕机,那么HDFS
将再重新分配一个节点给该数据块,并备份宕机节点中的数据。官网:http://www.tipdm.com
电话:189-2756-5259
16
①
如
果NameNode
在预定的时间内没有收到心跳信息(默认是10min),
将该DataNode
从集群中移除。②当HDFS
读取某个数据块时,如果正好存储该数据块的某个节点宕机了,那么客户端将会在存储该数据块的其他节点上读取数据块信息。了解分布式文件系统——HDFS高容错性·HDFS上传的数据自动保存多个副本,通过增加副本的数量增加HDFS的容错性。
如果某一个副本丢失,那么HDFS将复制其他节点上的副本。·HDFS
以流式数据访问模式存储超大文件,有着“一次写入,多次读取”的特点,文件一旦写入,不能修改,只能增加,以保证数据的一致性。适合大规模数据的处理·HDFS
能够处理上百万的GB
、TB甚至PB级别的数据,数量非常大。流式数据访问了解分布式文件系统——HDFS4.HDFS
特点HDFS的优点官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDMINTELLIGENTTECHNOLOGY17泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-525918TIPDMINTELLIGENTTECHNOLOGY了解分布式文件系统——HDFS4.HDFS
特点HDFS的缺点无法高效存储大量小
文件不支持多用户写入及
任意修改文件不适合低延迟数据访
问1.MapReduce简
介MapReduce是Hadoop
的核心计算框架,是用于大规模数据集(大于1TB)并行运算的编程模型,主要包括Map
(映射)和Reduce(
规
约
)
两
个
阶
段
。MapReduce的核心思想是,当启动
一
个MapReduce任
务
时
,Map
端将会读取HDFS上的数据,将数据映射成所需要的键值对类型并传至Reduce端。Reduce端
接
收Map
端键值对类型的中间数据,并根据不同键进行分
组,对每
一
组键相同的数据进行处理,得到新的键值对并输出至HDFS。官网:
电话:189-2756-5259
19了解分布式计算框架——MapReduce泰
迪
智
能
科
技TIPDMINTELLIGENTTECHNOLOGY个文件块对应一个Map
其值进行整合
端处理分片Map→
MapHDFSMapMap2.MapReduce
工
作
原
理一个完整的MapReduce
过程包含数据的输入与分片、
Map
阶段数据处理、Shuffle&Sort
阶段数据整合、Reduce
阶段数据处理、数据输出等阶段。了解分布式计算框架——MapReduce官网:
电话:189-2756-5259针对所有键相
整合后的数据
同的数据,对
传送到Reduce分区1分区2分区3分区4根据设置的分片大小划分文件,得到一到多个文件块,
一Shuffle&Sort输出输入文件Reduce20从HDFS分布式文件系统中读取的,根据所设置的分片大小对文件重新分片
(Split)。数据将以键值对的形式被读入,键的值一般为每行首字符与文件最初始位置的偏移量,即中间所隔字符个数,值为该行的数据记录。根据具体的需求对键值对进行处理,映射成新的键值对,将新的键值对传输至
Reduce端。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-525921TIPDMINTELLIGENTTECHNOLOGY了解分布式文件系统——HDFS将同
一
个Map
中输出的键相同的数据先进行整合,减少传输的数据量,并且在整合后将数据按照键进行排序。针对所有键相同的数据,对数据进行规约,形成新的键值对。官网:http://www.tipdm.com
电话:189-2756-525922了解分布式文件系统——HDFS将数据文件输出至HDFS,输出的文件个数和Reduce
的个数一致,如果只有一个Reduce,
那么输出的只有一个数据文件,默认命名为
“part-r-00000”。官网:http://www.tipdm.com
电话:189-2756-525923了解分布式文件系统——HDFS泰迪智能科技TIPDMINTELLIGENTTECHNOLOGY<K1,V1><K2,V2>Shuffle/Sort阶段Reduce阶段<K2,(V2,V2,V2,V2)>MapReduce的本质将一组键值对<K1,V1>经过Map阶段映射成新的键值对<K2,V2>,
接着经过Shuffle/Sort
阶段进行排序和整合,最后经过Reduce
阶段,将整合后的键值对组进行规约处理,输出新的键值对<K3,V3>。官网:http://www.tipdm.com
电话:189-2756-525924了解分布式计算框架——MapReduceMap阶段<K3,V3>MapV=V*VK->V
Map1->4
1->162->8
2->64V=V*VMap:
映射,对键值对使用函数映射成新的键值对K->V1->92->49
Reduce
1->252->113K->V
V=V+V1->162->64Reduce:规约,把键值对中相同键的值进行整
合,同时使用函数生成新的键值对官网:
电话:189-2756-525925了解分布式计算框架——MapReduceMapReduce映射实例K->V
1->3
2->71->9
2->491.YARN
简介YARN是
Hadoop的
资
源
管
理
器,
提
交
应
用
至YARN上
执
行
可以
提
高
资
源
在
集
群
的
利
用
率
,
加
快
执
行
速
率
。Hadoop
YARN的目的
是
使
得Hadoop
数
据
处
理
能
力
超
越MapReduce。YARN的
另
一
个目
标
就
是
拓
展Hadoop,使得YARN
不
仅
可以
支
持MapReduce计
算,
而
且
还
可以
很
方
便
地
管理
如Hive
、HBase
、Pig
、Spark/Shark
等
组
件的
应
用
程
序
。了解集群资源管理器——YARN泰迪智能科技TIPDMINTELLIGENTTECHNOLOGY官网:电话:189-2756-525926NodeManagerApplicationMasterResourceManagerClient
Application2.YARN的
基
本
架
构
和
任
务
流
程YARN
的基本组成结构YARN
主要由ResourceManager
、NodeManager
、ApplicationMaster
和Client
Application这4部分构成。官网:http://www.tipdm.com
电话:189-2756-525927了解集群资源管理器——YARN一个全局的资源管理器,负责整个系统的资源管理和分配,ResourceManager
主要由两个组件构成,即调度器
(Scheduler)
和应用程序
管理器
(Applications
Manager,ASM)。每个节点上的资源和任务管理器。
一方面,会定时地向RM
汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,将接收并处
理来自ApplicationMaster
的Container
启动或停止等各种请求。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
28TIPDMINTELLIGENTTECHNOLOGY了解分布式文件系统——HDFS·
与ResourceManager
调度器协商以获取资源(用Container
表示)。·
将得到的任务进行进一步的分配。·
与NodeManager
通信以启动或停止任务。·
监控所有任务运行状态,并在任务运行失败时重新为任务申请资源并重
启任务。Client
Application是客户端应用程序,客户端将应用程序提交到RM时,首先将创建一个Application上下文件对象,再设置AM
必需的资源请
求信息,最后提交至RM。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
29TIPDMINTELLIGENTTECHNOLOGY了解分布式文件系统——HDFS④NodeManagerNodeManager⑨⑥②⑤⑤
⑥
⑥MapTaskContainerApplicationMaster↑Container⑦⑦MapTaskContainerReduceTaskContainer了解集群资源管理器——YARN①
Application
Manager官网:http://www.tipdm.com
电话:189-2756-5259YARN
的工作流程②
③,⑧ResourceManager客户端Scheduler30目录1
认识Hadoop框架2
了解Hadoop核心组件3
了解Hadoop生态系统4
了解Hadoop应用场景泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-525931TIPDMINTELLIGENTTECHNOLOGYHadoop经过多年的发展,已经形成了一个相当成熟的生态系统。现代生活节奏快速,各行各业无时无刻产生着大量的数据,
Hadoop
也应用于各种行业中,发挥着重要的作用。因为不同的需求,所以还需要在Hadoop
的基础上进行一些改进和优化,也因此产生了许多围绕Hadoop
展开的工具,逐渐地演变成一个庞
大
的Hadoop
生态系统。本小节的任务是了解Hadoop
的生态系统,着重了解几个生态系统的组件,如HBase、Hive
和Sqoop
等
。官网:http://www.tipdm.com
电话:189-2756-525932泰迪智能科技TIPDMINTELLIGENTTECHNOLOGY任
务
描
述Thrift≤HadoopCore>hadoap
iapRe6be2LadoopCassandrascribeBigtopchuhuzR≤Hadoop
Ecosystem>Hadoop
生态系统中组件LOGO机
ahBahoutAscheSolrPigHAMA
ZooKeeperHadoop生态系统官网:
电话:189-2756-5259hado0p回店BIVEE33·HBase
是一个针对非结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。·提供了对大规模数据的随机、实时读写访问。·
保存的数据可以使用MapReduce
进行处理。·将数据存储和并行计算很好地结合在一起。·
大数据量
(TB级数据)且有快速随机访问的需求,如淘宝交易记录等;·及时响应用户的需求;·业务场景简单,不需要关系型数据库中的很多特殊操作,如交叉查询、连接查询等。应用场景简介泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
34TIPDM
INTELLIGENTTECHNOLOGYHadoop生态系统
HBase·Hive
是建立在Hadoop上的数据仓库基础构架。·提供了一系列的工具,可存储、查询和分析存储在Hadoop中的大规模数据。·
定义了一种类SQL语言为HQL(Hive
Query
Language),HQL语句在Hive的底层将被转换为复杂
的MapReduce程序,运行在Hadoop大数据平台上。简介泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
35TIPDMINTELLIGENTTECHNOLOGY·大数据集的批处理作业,如网络日志分析。Hadoop生态系统应用场景▶
Hive·Pig
是一个基于Hadoop的大规模数据分析框架。·
提供的类SQL
语言为Pig
Latin
。Pig
Latin语言的编译器会将类SQL的数据分析请求转换成一系列经过
优化处理的MapReduce
程序进行计算。·
支持的数据格式非常灵活,可以自由转化,并且在运算过程中用关系进行存储,减少了文件的输出。简介应用场景·
支持常见的数据操作,如筛选、排序和连接;●适用于日志数据的处理。雅虎和推特均采用了Pig处理数据。·
对数据存储的要求较低,适用于非结构化的数据集,支持复合数据类型,如Map
、Tuple
、Bag
等;泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259TIPDM
INTELLIGENT
TECHNOLOGYHadoop生态系统Pig36·Sqoop是一款开源的工具。·主要用于在Hadoop与关系型数据库(如MySQL
、PostgreSQL
等)之间传输数据,可以将一个关系
型数据库中的数据导入至Hadoop的HDFS中,也可以将HDFS的数据导出至关系型数据库中。●对于结构化数据库,采用Sqoop
进行数据传输是合适的,可以实现结构化数据库中的数据并行批量入库至HDFS进行存储。应用场景简介Hadoop生态系统官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY
Sqoop37·Flume
是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统。●支持在日志系统中定制各类数据发送方,用于收集数据。●可以对数据进行简单处理,并传输至各种数据接收方。应用场景简介泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
38TIPDMINTELLIGENTTECHNOLOGYHadoop生态系统●
日志文件的采集。Flume Oozie简
介
·Oozie
是基于Hadoop
的调度器,编写xml
格式的文件制定调度流程,可以调度MapReduce
、Pig
、
Hive
、Shell
等任务。●当一个工作任务中需要调用几个任务时,
一个任务完成再启动另一个是比较麻烦的,在这种情况
下即可使用Oozie将任务串联,通过Oozie
调动整个任务进程。官网:http://www.tipdm.com
电话:189-2756-525939Hadoop生
态
系
统泰迪智能科技TIPOM
INTELLIGENTTECHNOLOGY·ZooKeeper
可解决分布式环境下的数据管理问题,如统一命名、状态同步、集群管理、配置同步等。·ZooKeeper的使用主要是为了保证集群各项功能正常进行,并在出现异常时能够及时通知处理,保
持数据一致性,是对整个集群的监控。简介Hadoop生态系统官网:http://www.tipdm.com
电话:189-2756-5259
ZooKeeper泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY40·Mahout的主要目标是创建一些可扩展的机器学习领域经典算法,旨在帮助开发人员更加方便快捷
地创建智能应用程序。●现已包含了聚类、分类、推荐(协同过滤)和关联规则等广泛使用的机器学习算法。●除了算法外,Mahout还包含数据输入和输出的工具、与其他存储工具(如MySQL、MongoDB
等
)
集成等支持架构。●通过提供机器学习算法包使得用户在使用的过程中能够直接通过调用算法包缩短编程时间,同时也减少用户复杂的算法程序对资源的消耗。应用场景简介Hadoop生态系统官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY
Mahout41目
录1
认识Hadoop框架2
了解Hadoop核心组件3
了解Hadoop生态系统4
了解Hadoop应用场景泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-525942TIPDMINTELLIGENTTECHNOLOGY在大数据背景下,Apache
Hadoop作为一种分布式存储和计算框架,已经被广泛应用到各行各业,业界对于Hadoop这一开源分布式技术的应用也在不断地拓展中。本小节的任务是了解Hadoop
的应用场景,让读者深刻地了解到Hadoop
在实际生活中的应用。官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY任务描述43目前全球范围内大多数在线旅游网站都使用了Cloudera公司提供的Hadoop
发行版,Expedia
作为全球最大的在线旅游公司之一也在使用Hadoop
。在国内目前比
较受欢迎的一些旅游网站如携程、去哪儿网等也采用了大数据技术存储和计算。中国移动于2010年5月正式推出大云BigCloud1.0,
集群节点达到了1024个。华为对Hadoop的HA方案及HBase领域也有深入研究,并已经向业界推出了自己的基
于Hadoop的大数据解决方案。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
44TIPDMINTELLIGENTTECHNOLOGYHadoop
应用场景阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、一淘、聚划算、
CBU
、支付宝提供底层的基础计算和存储服务。Chevron公司是一家大型石油公司,该公司利用Hadoop进行数据的收集和处理,数据主要指海洋的地震数据,以便于找到油矿的位置。Hadoop
应用
场
景官网:http://www.t电话:189-2756-525945Skybox
Imaging创业公司使用Hadoop
存储并处理图片数据,从卫星拍摄的高清图像中探测地理变化。自2008年4月起,CbIR(Content-basedImageRetrieval)
公司在亚马逊的AmazonEC2上使用Hadoop
构建图像处理环境,用于图像产品推
荐系统。一般金融服务或政府机构会使用Hadoop存储所有的客户交易数据,包括一些非结构化的数据,能够帮助机构发现客户的异常活动,预防欺诈行为。国内支付宝、
微信钱包作为庞大的互联网支付平台,诈骗、黑客、病毒的防护十分重要,为了线
上资金的安全,阿里巴巴和腾讯在大数据技术检测方面的技术日臻成熟。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
46TIPDMINTELLIGENTTECHNOLOGYHadoop
应用场景除企业IT基础机构的管理外,Hadoop
还可以用于处理机器生成的数据以便识别出来自恶意软件或网络中的攻击。国内奇虎360安全软件在应用方面也使用Hadoop
的HBase组件进行数据存储,缩短异常恢复的时间。医疗行业可以使用到Hadoop,
如IBM
Watson技术平台则使用Hadoop
集群作为一些分析服务的基础,如语义分析等高级分析技术。医疗机构可以利用语义分析为
患者提供医护人员,并协助医生更好地为患者进行诊断。Hadoop
应用
场
景官网:http://www.t电话:189-2756-525947搜索引擎无疑会产生大规模的数据,在对海量数据挖掘上使用Hadoop确实能提高效率。在国外,雅虎的Hadoop应用中包括了搜索引擎,国内的百度和阿里巴
巴也将Hadoop应用至搜索引擎、推荐、数据分析等多个领域。目前网络社交已经成为人们日常生活的一部分,网络社交平台每天产生的数据量十分庞大。腾讯和脸书等互联网社交巨头,在数据库存储方面均利用了Hadoop生态系统中的Hive组件进行数据存储和处理。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
48TIPDMINTELLIGENTTECHNOLOGYHadoop
应用场景介绍了Hadoop的概念,
Hadoop的历史、特点。了解了Hadoop的主要思想。通过介绍Hadoop的HDFS
、MapReduce
和YARN这3大主要的核心组件,深入了解Hadoop的整体架构。
最后简要介绍了Hadoop的生态系统和应用场景。官网:http://www.tipdm.com
电话:189-2756-525949小结Thankyou!了
T
A①
门相关的培训动态:http://www.tipdm.com/pxdt/index.jhtml相关的实训、课程视频等资源:https://edu.tipdm.org打造数据智能职业教育领军企业Hadoop
集群的搭建及配置泰迪智能科技TIPDMINTELLIGENT
TECHNOLOGY为了更好地学习Hadoop,需要读者先搭建好Hadoop
集群环境,Hadoop
集群环境可以分为单机环境、伪分布式环境和完全分布式环境。·单机环境是指在一台单机上运行Hadoop,没有分布式文件系统,直接读取本地操作系统的文件。·伪分布式环境可以看作在一台单机上模拟并组建多节点集群。·
完全分布式环境则是在多台单机上组建分布式集群。为贴近真实的生产环境,建议搭建完全分布式模式的Hadoop
集群环境。因此,本章将介绍在个人计算机上安装配置虚拟机,并在虚拟机中搭建Hadoop
完全分布式集群的完整过程。官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY任务背景52软
件版
本安
装
包
名
称备注Linux
OSCentOS
7.8CentOS-7-x8664-DVD-2003.iso64位JDK1.8+jdk-8u281-linux-x64.rpm64位VMware15VMware-workstation-full-15.5.7-17171714.exe虚拟机软件Hadoop3.1.4hadoop-3.1.4.tar.gz已编译好的安装包IDEA2018.3.6ideaIC-2018.3.6.exe64位SSH连接工具5Xme5.exe远程连接虚拟机为了保证能顺畅地运行Hadoop
集群,并能够进行基本的大数据开发调试,建议个人计算机硬件的最低配置为:内存至少8GB,硬盘可用容量至少100GB,CPU为Intel
i5以上的多核(建议八核及以上)处理器。Hadoop相关软件安装包及其版本说明。官网:http://www.tipdm.com
电话:189-2756-5259任务背景53Hadoop完全分布式集群是主从架构,
一般需要使用多台服务器组建。本书中使用的Hadoop集群拓扑结构。master30NameNode/JobHistoryServer/ResourceManager/SecondaryNameNodeslave232DataNode/NodeManager官网:http://www.tipdm.com
电话:189-2756-525954slavel31DataNode/NodeManagerslave333DataNode/NodeManager任务背景目录1
安装及配置虚拟机2
搭建Hadoop完全分布式集群泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-525955TIPDMINTELLIGENTTECHNOLOGY从安全性等方面考虑,Hadoop
集群搭建在Linux
系统上安全性会更有保障。因为个人计算机大部分是windows
系统,所以需要安装一个虚拟机软件VMware
Workstation并创建一个Linux
操作系统的虚拟机。
本小节的任务如下。·
在个人计算机上安装及配置Linux虚拟机。·
使
用Xshell工具通过远程访问的方式对虚拟机进行管理。·
最后配置本地YUM
源并在线安装常用的软件包。官网:http://www.tipdm.com
电话:189-2756-5259
56泰迪智能科技TIPOM
INTELLIGENTTECHNOLOGY任
务
描
述>VMware
Workstation是一款功能强大的虚拟机软件,在不影响本机操作系统的情况下,用户可以在虚拟机中同时运行不同版本的操作系统。>从VMware
官网中下载VMware
安装包,安装包名称为“VMware-workstation-full-15.5.7-17171714.exe”。安装VMware
Workstation的过程比较简单,双击下载的VMware安装包,选择安装的目录,再单击“下一
步”按钮,继续安装,之后输入产品序列号,即成功安装VMware软件。创建Linux虚拟机官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY57打开安装好的VMware软件,进入VMware主界面,选择“创建新的虚拟机”选项。WanareWorkstanion文件内蜘旧查看(M虚拟LM)选场*)帮的H岛
四
口回四WORKSTATION
15PROT(+自主新的世拟机
打开虚拟机
连接选程服务器创建Linux虚拟机官网:http://www.tipdm.com
电话:189-2756-5259在此处健入内容…口预的计监机all□uado晖re2n□hanhi□linustest
mastermasterdemo田口集阳%建◎共事的世n58vmware新建虚拟机向导
×欢迎使用新建虚拟机向导您希望使用什么类型的配置?◎典型(推荐)(T)通过几个简单的步骤创建
Workstation15.x虚拟机。O
自定义(高级)(C)创建带有SCSI
控制器类型、虚拟磁盘类
型以及与旧版
VMware产品兼容性等高
级选项的虚拟机。帮助
<上
一
步(B)
下一步(N)>
取消弹出“新建虚拟机向导”对话框,选择“典型(推荐)(T)”模式,再单击“下一步”按钮。官网:http://www.tipdm.com
电话:189-2756-525959NPRO"WORKVMWARE创建Linux虚拟机新建虚拟机向导
×安装客户机操作系统虚拟机如同物理机,需要操作系统。您将如何安装客户机操作系统?安装来源:○安装程序光盘(D):无可用驱动器O
安装程序光盘映像文件(so)(M):D:\dashujupeixun\VMware\Ubuntu\ubuntu-20.04-beta∨
浏览(R)...◎稍后安装操作系统(S)。创建的虚拟机将包含一个空白硬盘。帮助
<
上
一
步(B)
下一步(N)>
取消安装客户机操作系统,选择“稍后安装操作系统(S)”单选按钮,单击“下一步”按钮。官网:http://www.tipdm.com
电话:189-2756-525960创建Linux虚拟机选择客户机操作系统,选择“Linux(L)”单选按钮,版本是CentOS
764位,选择好之后直接单击“下一步”按钮。新建虚拟机向导
×选择客户机操作系统此虚拟机中将安装哪种操作系统?客户机操作系统OMicrosoft
Wndows(W)
OLnux(L)OVMware
ESX(X)O其他(O)C
e
n
t
O
S
7
6
4位创建Linux虚拟机泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY官网
:http://www.帮助电话:189-2756-5259取消<上
一
步(B)下一步(N)>版本(V)61虚拟机的位置读者可根据个人计算机的硬盘资源情况进行调整。master位置(L):E:\VMware\master在“编辑">"首选项”中可更改默认位置。<上
一
步(B)
下一步(N)>
取消命名虚拟机,虚拟机的名称命名为
“master”
。
在E盘创建一个以VMware
命名的文件夹,并在该文件夹下建立一个文件命名为master。本文选择的安装位置为“E:IVMware\master”,单击“下一步”按钮。泰迪智能科技
官网:http://www.tipdm.com
电话:189-2756-5259
62TIPDMINTELLIGENTTECHNOLOGY创建Linux虚拟机新建虚拟机向导命名虚拟机虚拟机名称(V):您希望该皮浏览(R)..指定磁盘容量,指定最大磁盘大小为“20GB”,选择“将虚拟磁盘拆分成多个文件(M)”
单选按钮,单击“下一步”按钮。新建虚拟机向导
×指定磁盘容量磁盘大小为多少?虚拟机的硬盘作为一个或多个文件存储在主机的物理磁盘中。这些文件最初很小,
随着您向虚拟机中添加应用程序、文件和数据而逐渐变大。最大磁盘大小(GB)(S):
20.0针对
CentOS
764位的建议大小:20GBO
将虚拟磁盘存储为单个文件(O)◎将虚拟磁盘拆分成多个文件(M)拆分磁盘后,可以更轻松地在计算机之间移动虚拟机,但可能会降低大容量磁
盘的性能。创建Linux虚拟机官网:http://www.tipdm.com
电话:189-2756-5259<
上
一
步(B)
帮助下一步(N)>取消63准备创建虚拟机,单击“自定义硬件(C).…”按钮。新建虚拟机向导
×已准备好创建虚拟机单击“完成”创建虚拟机。然后可以安装
CentOS
764位
。将使用下列设置创建虚拟机:名称:位置:版本:操作系统:硬盘:内存:网络适配器:其他设备:masterE:\VMware\masterWorkstation
16.xCentOS
764位20GB,拆分1024
MB
NATCD/DVD,USB控制器,打印机,声卡创建Linux虚拟机官网:http://www.tipdm.com
电话:189-2756-5259
自
定
义
硬
件(
C
)
.
…
.
<上
一
步(B)取消完成64进入“硬件”对话框,单击“新CD/DVD(IDE)”选项所在的行,在右侧的“连接”组中选择“使用ISO
映像文件(M)”单选
按钮,并单击“浏览(B).…”
按钮,指定CentOS-7-x86_64-DVD-2003.iso镜像文件的位置,最后单击“关闭”按钮,单击“完成”
按
钮
。设备二内存C处理器摘要1GB1◎新CD/DVD(IDE)自动检测网络适配器图USB控制器NAT存在10声卡自动检测打印机存在口显示器自动检测移除
(
R)连接
○使用物理驱动器(P):高级(V.…官网:http://www.tipdm.com
电话:189-2756-5259
65设备状态□已连接(C)☑启动时连接(O)创建Linux虚拟机泰迪智能科技TIPDM
INTELLIGENT
TECHNOLOGY硬件
×自动检测◎
使用
IS
O映
像
文
件
(
M
)
:帮助关
闭entos-7-x86
64-DVD-2003.iso浏
览(
B
)
. 添加(A)
.
.开启此虚拟机编辑虚拟机设置▼设备粤内存1GB□处理器
1一硬盘(SCSI)
20
GB◎CD/DVD(IDE)正在使用文
….
网络适配器
NATUSB控制器存在)声卡
自动检测打印机
存在显示器
自动检测▼描述在此处键入对该虚拟机的描述。▼虚拟机详细信息状
态
:已关机配置文件:E:\VMware\master\master.vmx硬件兼容性:Workstation16.x虚拟机主IP地址:网络信息不可用我的计算机×master打开虚拟机,选择虚拟机
“master”,单击“开启此虚拟机”选项。创建Linux虚拟机官网:http://www.tipdm.com
电话:189-2756-5259master66CentOSInstall
CentOS
7Test
this
media
&install
CentOS
7TroubleshootingPress
Tab
for
full
configuration
options
on
menu
items.Autonaticboot
in
36seconds...开启虚拟机后,将出现CentOS
7的安装界面,选择“InstallCentOS7”选项。官网:http://www.tipdm.com
电话:189-2756-525967创建Linux虚拟机进入语言选择页面,左侧列表框选择“
English”
选项,右侧列表框选择
“English
(United
States)”选项,并单击
“Continue”
按钮。EnglishEnglishAfrikaansAfrikaansัติAmharicayyoJlArabicঅসমিযAssameseAsturianuAsturianБеларускаяBelarusiarБългарскиBulgarian×CentOSEnglish
(United
Kingdom)
English
(India)English(Australia)English(Canada)English
(Denmark)English
(Ireland)English
(New
Zealand)
English
(Nigeria)WELCOMETOCENTOS
7.What
language
would
you
like
to
use
during
the
installation
process?创建Linux虚拟机官网:http://www.tipdm.com
电话:189-2756-5259泰迪智能科技TIPDMINTELLIGENTTECHNOLOGYEnglish
(United
States)ContinueCENTOS7
INSTALLATIONHelpl68Quitus7
INSTALLATIONHelplCentoS
LOCALIZATIONDATE&TIMEAsia/Shanghai
tmezoneLANGUAGE
SUPPORTEnglish
(United
States)SOFTWAREINSTALLATIONSOURCELocal
mediaSYSTEMQuit
Begin
Installationwewonttouchyourdsntloulec
Beginsalatonicontinuntothe
net
step.单击
“LOCALIZATION”组中的
“DATE&TIME”选项,如左图。进入地区和时间选择界面,选择“Asia”
和“Shanghai”,完成后单击
“Done”按钮,如右图。DATE
&TIMECENTOS
7二usINSTALLATIONHelplRegion:AsiaCityShanghaiNetworkTimeOFF创建Linux虚拟机官网:
电话:189-2756-5259泰迪智能科技TIPDMINTELLIGENTTECHNOLOGYSOFTWARE
SELECTIONMinimalInstallKEYBOARDEnglish
(US)INSTALLATION
SUMMARYCENTOS69usINSTALLATION
SUMMARYCENTOS7
INSTALLATIONus
HelplLANGUAGE
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宠物毛发护理的社区服务
- 新政下劳动合同签订与解除技巧
- 2026年商业合作协议书范文
- 个人劳动合同模板:2026版详细解析
- 毕业设计(论文)-单相Buck型ACAC变换器设计与仿真
- 2026大一年度思想个人总结报告(2篇)
- 小儿口炎的护理风险控制
- 呼吸功能训练与护理
- 防空地下室维护管理操作手册
- 车间技术资料管理规定
- 市政道路设施巡查制度与问题上报处理流程
- 2026云南省投资控股集团有限公司招聘168人备考题库含答案详解(完整版)
- 2026福建漳州高新区区属国有企业招聘工作人员48人备考题库含答案详解(基础题)
- 【成都】2025年中国铁路成都局集团有限公司招聘高校毕业生1102人(一)笔试历年典型考题及考点剖析附带答案详解
- 2026年山东医学技术理论-通关题库及参考答案详解(研优卷)
- 2026新版中国废旧金属回收拆解项目可行性研究报告
- 桥梁工程半成品、成品保护措施
- 生物山西太原市2026年高三年级模拟考试(一)(太原一模)(3.25-3.27)
- 广东省深圳市福田区2026年中考历史一模试卷附答案
- 纺粘针刺非织造布制作工操作知识考核试卷含答案
- CMA程序文件(2025版)-符合27025、评审准则
评论
0/150
提交评论