spark培训4架构及实现剖析_第1页
spark培训4架构及实现剖析_第2页
spark培训4架构及实现剖析_第3页
spark培训4架构及实现剖析_第4页
spark培训4架构及实现剖析_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主要内内部原运行模主要内内部原运行模 概念—分布在集群中的只读对象集合(由多个Partition构成可 在磁盘或内存中(多 级别通过并行“转换”操作构失效后自动重RDD基本操作RDD基本操作可通过Scala集合或者Hadoop数据集构造一个新的通过已有的RDD产生新的举例:map,通过RDD计算得到一个或者一举例OperatorOperatorRDD

RDD

12345612345672345678MAP(+1作用在RDD上的Transformation与Transformation与ActionTransformationTransformation与Action

queryquery

beacons=beacons=spark.textFile(“hdfs://...”)cachedBeacons=8

query..••storage一个完整的实importSparkContext._objectWordCountdefmain(args:Array[String]){if(args.length!=3){println("usageisorg.test.WordCount<master><input>Master地 作业名}

依赖的jarSpark

valsc=newSparkContext(args(0),"WordCount",valtextFile=

输入数据所 ,比如valresult=textFile.flatMap(line=>.map(word=>(word,1)).reduceByKey(_+}}

主要内内部原运行模SparkSpark调度并执行Spark内部原RDD

构造操作符

wordcount—生成逻辑查询计valtextFile=valresult=.flatMap(line=>RDD[(String,.map(word=>(word,RDD[(String,RDD[(String,RDD[(String, wordcount—生成逻辑查询计 StageStageStageStagewordcount—生成物理查询计StageStageStageStage

Stage Stage

wordcount—调度并执行StageStageStageStageStageStageStageSpark中task类每个stage的task数目FirstStage:由hdfsblock或hbaseOtherStages:由用户设置,默认与第Spark中基本概念总Stage:由一系列可以并行执行的Task构DAG:RDD操作符组成的逻辑执行由若干分片(Partition)组成的并行 计算—map

partitionsortpartition,sort,combineandspillto

copy mergesort reduce

buffer

memoryandother other 计算— 计算— 计算—

reduceByKey(_+User

Local P

计算—shuffleCoreMapTask

Core MapTask

K5,K1,K5,K1,K3,K5,…

计算—shuffleTotalshufflefileM*1millionfiles,if1kmapperand1kWritebufferCore*R*256MB,if8coresand1000 计算—shuffleCore

Core

K5,…

计算—shuffleTotalshufflefilenumberM*Core*Writebuffersize–Core*R* 计算—shufflereduceByKey(_+User

Local P

计算—shuffle

PP

K5,K3,K5,K3,K1,K5,…K5,K3,K1,K5,… 计算—reduceByKey(_+

User

Local P

计算— P K3,K1,K3,K1,K5,…K5,K1,K5,K1,K3,K5,…

计算—K5,K1,K3,K5,K1,K3,K5,…

K3,K3,K1,K5,K5,f(V5,K3,K1,K5,…functionK3,K1,K5,…

计算—MemorynotK5,K5,K3,K1,

K3,K3,

K3,K3,K5,K3,K5,K3,K1,spilltoK5,K1,K5,K1,

spilltoK5,K5,K3,K1, 计算—MemorynotK1,K1,f(V1,K5,K3,K5,K3,K1,K5,K3,K1,

计算—

K5,K1,K3,K5,K5,K1,K3,K5,…K3,K1,K5,…

K3,K3,K1,K1,K5,K5,f(V5, 计算—User

1,2,1,3,1,3,

1,2,1,1,3,fNomap-side

1,(a,d,2,3,(e, 计算—shuffle比SparkMMmergegroup主要内内部原运行模Spark程序框WorkerWorkerWorker程序原型模式:独立(Standlone)模

程序原型模式:YARN分布式MRMR

AppSparkSpark20,0001.0:90,0002.0:220,000Spark生态系统Spark生态系统Sparkcore:16,000Sparkcore:16,000Blockmanager:Broadcast:Accumulators:Netw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论