《Spark技术》-《Spark技术》-项目三_第1页
《Spark技术》-《Spark技术》-项目三_第2页
《Spark技术》-《Spark技术》-项目三_第3页
《Spark技术》-《Spark技术》-项目三_第4页
《Spark技术》-《Spark技术》-项目三_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目三Spark基于Yarn搭建延时符序言02延时符项目描述

上一项目介绍了Spark集群的搭建,实际上搭建的就是Spark的Standalone集群,也就是说,提交Spark任务运行所依赖的资源调度是Spark集群,任务就是运行在Spark集群中的Worker节点上。项目分析

在Hadoop生态圈中Hadoop2.x版本之后映入了Yarn,引入Yarn的目的是将MapReduce任务的资源调度和任务调度分离,Yarn只管理资源调度框架进行调度,Spark任务同样也可以基于Yarn资源调度框架进行调度。0301OPTION02OPTION基于Yarn搭建环境配置基于Yarn搭建目录页延时符基于Yarn搭建环境配置04任务105基于Yarn搭建环境配置Spark任务基于Yarn资源调度框架进行调度时,首要条件是搭建好Hadoop集群环境。Hadoop集群环境中重要的角色如下。NameNodeNameNode管理HDFS文件系统的命名空间,它维护着文件系统及文件系统内所有的文件和目录,这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。NameNode也记录着每个文件中各个数据快所在的数据节点信息,但它并不永久保存数据快的位置信息,因为这些信息会在系统启动时根据数据节点信息重建。DataNodeDataNode是HDFS文件系统的工作节点,它们根据需要存储并检索数据块(受NameNode调度),并且定时向NameNode发送它们存储的数据块的列表。ResourceManagerResourceManager是管理集群所有可用资源的中心节点,并能够帮助管理Yarn上的分部署applications。它与每个节点上的NodeManagers(NMs)和ApplicationMaster(AMs)一起工作。NodeManagerNodeManager是yarn中每个节点上的代理,它管理Hadoop集群中单个计算机节点,包括与ResourceManager保持通信、监督Container的生命周期管理、监控每一个Container的资源使用(内存、CPU等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务(auxiliaryservice)等。07基于Yarn搭建环境配置Hadoop集群节点角色划分搭建Hadoop集群的完全分布式,需要依赖zookeeper分布协调系统进行协调管理,因此,还需要安装zookeeper集群。zookeeper集群角色节点划分基于Yarn搭建08任务209基于Yarn搭建环境配置节点划分配置Saprk任务也可以基于Yarn资源调度框架进行资源调度,即Spark任务可以提交到Yarn上运行。基于Yarn提交任务之前,需要做简单的配置。

以mynode4为Saprk客户端,在mynode上向Yarn资源调度提交任务。客户端要提交Spark任务,需要在mynode4上有Spark的安装包,目前在mynode4/software路径下有Spark安装包,这样在/software/spark-2.3.1/bin路径下就可以写入基于Yarn提交Spark任务的命令。10基于Yarn搭建环境配置配置SparkonYarn

在客户端提交Spark任务之前,需要在客户端/software/spark-2.3.1/conf配置spark-env.sh文件,指定Hadoop的配置文件路径,这样基于Yarn提交任务时,Spark就可以找到Yarn的节点有哪些,从而利用Yarn资源调度框架来调度Spark。11基于Yarn搭建环境配置

除了以上配置之外,还需要在Hadoop每个NodeManager节点的/software/hadoop-2.6.5/etc/hadoop/yarn-site.xml文件中配置关闭虚拟内存检查。这里Hadoop中默认检查虚拟内存,如果实际节点的内存不足,就会有问题。完成上述配置后,重启Hadoop集群,此时,环境准备就绪,在mynode4Spark的客户端上可以基于Yarn提交任务。12基于Yarn搭建环境配置验证SparkonYarn基于Yarn提交Spark任务,仍然选用Spark源码中自带的计算SparkPi任务为例。SparkPi任务的主类class为org.apache.spark.examples.SaprkPi,当前主类所在的jar包路径为/software/spark-2.3.1/examples/jars/spark

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论