版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主要内内部原运行模主要内内部原运行模 概念—分布在集群中的只读对象集合(由多个Partition构成可 在磁盘或内存中(多 级别通过并行“转换”操作构失效后自动重RDD基本操作RDD基本操作可通过Scala集合或者Hadoop数据集构造一个新的通过已有的RDD产生新的举例:map,通过RDD计算得到一个或者一举例OperatorOperatorRDD
RDD
12345612345672345678MAP(+1作用在RDD上的Transformation与Transformation与ActionTransformationTransformation与Action
queryquery
beacons=beacons=spark.textFile(“hdfs://...”)cachedBeacons=8
query..••storage一个完整的实importSparkContext._objectWordCountdefmain(args:Array[String]){if(args.length!=3){println("usageisorg.test.WordCount<master><input>Master地 作业名}
依赖的jarSpark
valsc=newSparkContext(args(0),"WordCount",valtextFile=
输入数据所 ,比如valresult=textFile.flatMap(line=>.map(word=>(word,1)).reduceByKey(_+}}
主要内内部原运行模SparkSpark调度并执行Spark内部原RDD
构造操作符
wordcount—生成逻辑查询计valtextFile=valresult=.flatMap(line=>RDD[(String,.map(word=>(word,RDD[(String,RDD[(String,RDD[(String, wordcount—生成逻辑查询计 StageStageStageStagewordcount—生成物理查询计StageStageStageStage
Stage Stage
wordcount—调度并执行StageStageStageStageStageStageStageSpark中task类每个stage的task数目FirstStage:由hdfsblock或hbaseOtherStages:由用户设置,默认与第Spark中基本概念总Stage:由一系列可以并行执行的Task构DAG:RDD操作符组成的逻辑执行由若干分片(Partition)组成的并行 计算—map
partitionsortpartition,sort,combineandspillto
copy mergesort reduce
buffer
memoryandother other 计算— 计算— 计算—
reduceByKey(_+User
Local P
计算—shuffleCoreMapTask
Core MapTask
K5,K1,K5,K1,K3,K5,…
计算—shuffleTotalshufflefileM*1millionfiles,if1kmapperand1kWritebufferCore*R*256MB,if8coresand1000 计算—shuffleCore
Core
K5,…
计算—shuffleTotalshufflefilenumberM*Core*Writebuffersize–Core*R* 计算—shufflereduceByKey(_+User
Local P
计算—shuffle
PP
K5,K3,K5,K3,K1,K5,…K5,K3,K1,K5,… 计算—reduceByKey(_+
User
Local P
计算— P K3,K1,K3,K1,K5,…K5,K1,K5,K1,K3,K5,…
计算—K5,K1,K3,K5,K1,K3,K5,…
K3,K3,K1,K5,K5,f(V5,K3,K1,K5,…functionK3,K1,K5,…
计算—MemorynotK5,K5,K3,K1,
K3,K3,
K3,K3,K5,K3,K5,K3,K1,spilltoK5,K1,K5,K1,
spilltoK5,K5,K3,K1, 计算—MemorynotK1,K1,f(V1,K5,K3,K5,K3,K1,K5,K3,K1,
计算—
K5,K1,K3,K5,K5,K1,K3,K5,…K3,K1,K5,…
K3,K3,K1,K1,K5,K5,f(V5, 计算—User
1,2,1,3,1,3,
1,2,1,1,3,fNomap-side
1,(a,d,2,3,(e, 计算—shuffle比SparkMMmergegroup主要内内部原运行模Spark程序框WorkerWorkerWorker程序原型模式:独立(Standlone)模
程序原型模式:YARN分布式MRMR
AppSparkSpark20,0001.0:90,0002.0:220,000Spark生态系统Spark生态系统Sparkcore:16,000Sparkcore:16,000Blockmanager:Broadcast:Accumulators:Netw
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高校教师资格证之高等教育法规考试题库及参考答案(综合卷)
- 2026年质量员之土建质量专业管理实务考试题库200道附参考答案【完整版】
- HTML5编程基础课后作业答题指导
- 2026年设备监理师之设备工程监理基础及相关知识考试题库200道及答案【历年真题】
- 幼儿园教师工作日志规范模板
- 钻井平台水手安全文明竞赛考核试卷含答案
- 2026年质量员之土建质量基础知识考试题库及答案(夺冠系列)
- 2026年高校教师资格证之高等教育法规考试题库及答案【必刷】
- 吉林省吉林市舒兰市2023-2024学年八年级上学期第二次月考物理试题含参考答案
- 淀粉糖制造工安全实操评优考核试卷含答案
- 股东合作合同模板
- 有机无机复合肥料制造技术介绍
- 2024-2034年中国新疆哈密及中亚地区重点装备制造行业市场现状分析及竞争格局与投资发展研究报告
- 个人签证协议书
- 太平鸟服装库存管理系统的设计与实现的任务书
- 辅导员基础知识试题及答案
- 75个高中数学高考知识点总结
- 《公共部门人力资源管理》机考真题题库及答案
- 《数字影像设计与制作》统考复习考试题库(汇总版)
- 国际学术交流英语知到章节答案智慧树2023年哈尔滨工业大学
- DB14-T 2644-2023旅游气候舒适度等级划分与评价方法
评论
0/150
提交评论