版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
思维导图PPT模板《Spark技术内幕深入解析Spark内核架构设计与实现原理》最新版读书笔记,下载可以直接修改数据小结处理架构实现整体第章模块计算简介依赖任务创建详解系统机制检查点执行存储本书关键字分析思维导图01Foreword序第1章Spark简介第3章RDD实现详解Preface前言第2章Spark学习环境的搭建第4章Scheduler模块详解目录030502040607第5章Deploy模块详解第7章Shuffle模块详解第9章企业应用概述第6章Executor模块详解第8章Storage模块详解目录0901108010内容摘要Spark是不断壮大的大数据分析解决方案家族中备受关注的新成员。它不仅为分布式数据集的处理提供了一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批处理,提供了统一的解决方案,因此极具竞争力。本书以源码为基础,深入分析Spark内核的设计理念和架构实现,系统讲解各个核心模块的实现,为性能调优、二次开发和系统运维提供理论支持,为更好地使用SparkStreaming、MLlib、SparkSQL和GraphX等奠定基础。Foreword序一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新Spark实现了一种分布式的内存抽象,称为弹性分布式数据集(ResilientDistributedDataset,RDD)什么是RDD?RDD是只读的、分区记录的集合。Preface前言RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。第1章Spark简介这些确定性操作称为转换用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。1.1Spark的技术背景1.2Spark的优点1.3Spark架构综述1.4Spark核心组件概述1.5Spark的整体代码结构规模12345第1章Spark简介1.4.1SparkStreamin...1.4.2MLlib1.4.3SparkSQL1.4.4GraphX1.4Spark核心组件概述第2章Spark学习环境的搭建默认值就是程序所分配到的CPUCore的数目RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。2.1源码的获取与编译2.3小结2.2构建Spark的源码阅读环境第2章Spark学习环境的搭建2.1.2源码编译2.1.1源码获取2.1源码的获取与编译第3章RDD实现详解RDD支持两种操作:转换(trans-formation),即从现有的数据集创建一个新的数据集;动作(action),即在数据集上进行计算后,返回一个值给Driver程序。3.1概述3.2什么是RDD3.3RDD的转换和DAG的生成3.4RDD的计算3.5RDD的容错机制3.6小结010302040506第3章RDD实现详解3.2.1RDD的创建3.2.2RDD的转换3.2.3RDD的动作3.2.4RDD的缓存3.2.5RDD的检查点123453.2什么是RDD3.3.1RDD的依赖关系3.3.3WordCount的RDD...3.3.2DAG的生成3.3RDD的转换和DAG的生成3.4.1Task简介3.4.2Task的执行起点3.4.3缓存的处理3.4.4checkpoint的处理3.4.5RDD的计算逻辑123453.4RDD的计算第4章Scheduler模块详解DAGScheduler主要负责分析用户提交的应用,并根据计算任务的依赖关系建立DAG,然后将DAG划分为不同的Stage(阶段),其中每个Stage由可以并发执行的一组Task构成,这些Task的执行逻辑完全相同,只是作用于不同的数据。4.1模块概述4.2DAGScheduler实现详解4.3任务调度实现详解4.4WordCount调度计算过程...4.5小结12345第4章Scheduler模块详解4.1.2Scheduler的实现概述4.1.1整体架构4.1模块概述4.2.1DAGScheduler的创...4.2.2Job的提交4.2.3Stage的划分4.2.4任务的生成4.2DAGScheduler实现详解4.3.1TaskScheduler的...4.3.2Task的提交概述4.3.3任务调度具体实现4.3.4Task运算结果的处理4.3任务调度实现详解第5章Deploy模块详解因此宽依赖就是Spark划分Stage的依据,即Spark根据宽依赖将DAG划分为不同的Stage。5.1Spark运行模式概述5.2模块整体架构5.3消息传递机制详解5.4集群的启动第5章Deploy模块详解5.5集群容错处理5.7小结5.6MasterHA实现详解第5章Deploy模块详解5.1.1local5.1.3YARN5.1.2Mesos5.1Spark运行模式概述5.3.1Master和Worker5.3.3Client和Executo...5.3.2Master和Client5.3消息传递机制详解5.4.2Worker的启动5.4.1Master的启动5.4集群的启动5.5.1Master异常退出5.5.3Executor异常退出5.5.2Worker异常退出5.5集群容错处理5.6.1Master启动的选举和数据...5.6.2集群启动参数的配置5.6.3CuratorFramew...5.6.4ZooKeeperLeade...5.6MasterHA实现详解第6章Executor模块详解为了避免缓存丢失重新计算带来的开销,Spark又引入了检查点(checkpoint)机制。6.1Standalone模式的Exe...6.2Task的执行6.3参数设置6.4小结第6章Executor模块详解6.1.1SchedulerBacke...6.1.2AppClient向Mast...6.1.3Master根据AppCli...6.1.4Worker根据Master...6.1Standalone模式的Exe...6.2.1依赖环境的创建和分发6.2.2任务执行6.2.3任务结果的处理6.2.4Driver端的处理6.2Task的执行6.3.1spark.executor...6.3.3spark.executor...6.3.2日志相关6.3参数设置第7章Shuffle模块详解大多数现有的集群计算系统都是基于非循环的数据流模型。7.1HashBasedShuff...7.2ShufflePluggabl...7.3SortBasedWrite7.4ShuffleMapTask...第7章Shuffle模块详解7.5ShuffleRead7.7小结7.6性能调优第7章Shuffle模块详解7.1.1BasicShuffle...7.1.2存在的问题7.1.3ShuffleConsol...7.1.4小结7.1HashBasedShuff...7.2.1org.apache.spa...7.2.2org.apache.spa...7.2.3org.apache.spa...7.2.4org.apache.spa...7.2.5如何开发自己的Shuffle...123457.2ShufflePluggabl...7.4.2Driver端的处理7.4.1Executor端的处理7.4ShuffleMapTask...7.5.1整体流程7.5.2数据读取策略的划分7.5.3本地读取7.5.4远程读取7.5ShuffleRead7.6.1spark.shuffle....7.6.2spark.shuffle....7.6.3spark.shuffle....7.6.4spark.shuffle....7.6性能调优7.6.5spark.shuffle....7.6.6spark.shuffle....7.6.7spark.shuffle....7.6.8spark.reducer....7.6性能调优第8章Storage模块详解即从稳定的物理存储(如分布式文件系统)中加载记录,记录被传入由一组确定性操作构成的DAG(DirectedAcyclicGraph,有向无环图),然后写回稳定存储。8.1模块整体架构8.2存储实现详解8.3性能调优8.4小结第8章Storage模块详解8.1.1整体架构8.1.3Master和Slave的消...8.1.2源码组织结构8.1模块整体架构8.2.1存储级别8.2.2模块类图8.2.3org.apache.spa...8.2.4org.apache.spa...8.2.5org.apache.spa...8.2.6Block存储的实现0103020405068.2存储实现详解8.3.1spark.local.di...8.3.2spark.executor...8.3.3spa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市公园声景偏好与情绪恢复关系跨文化比较
- 组态控制技术项目化教程(微课版)-课件 3.1智能粮仓系统的画面设计
- 城市街道空间步行环境的老年人活动促进研究意义
- 餐饮业厨师烹饪技艺提升训练手册
- 城市滨水区生态修复与城市更新的协同研究意义
- 智能科技发展促进承诺书3篇
- 医患关系正确看待指南
- 2026天津港保税区临港社区卫生服务中心派遣制人员招聘5人备考题库参考答案详解
- 2026福建宁德市蕉城区教育局补充招聘紧缺急需人才6人备考题库(三)及答案详解【名校卷】
- 膀胱结石处理方法
- 保密要害部门部位管理制度范文(四篇)
- 全国气象台站经纬度海拔信息
- 液压与气动技术fluidsim36中文版
- CosaGPS说明书完整版
- 环境水中湿法氧化法测量水中的C
- 第一章气体放电的基本物理过程
- 社区工作者经典备考题库(必背300题)
- 胸科手术期间低氧血症课件
- 心理护理基本技能
- 金属熔焊原理及材料焊接绪论
- QCT302023年机动车用电喇叭技术条件
评论
0/150
提交评论