Flink内核原理与实现_第1页
Flink内核原理与实现_第2页
Flink内核原理与实现_第3页
Flink内核原理与实现_第4页
Flink内核原理与实现_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Flink内核原理与实现读书笔记模板01思维导图读书笔记目录分析内容摘要精彩摘录作者介绍目录0305020406思维导图原理内核代码关键原理内核从业人员第章数据作业过程类型组件执行总结状态原理核心管理关键字分析思维导图内容摘要内容摘要《Flink内核原理与实现》既讲解了Flink的入门、安装、流计算开发入门、类型和序列化系统、监控运维、安全管理配置等基础知识,又讲解了Flink的时间概念、Window的实现原理及其代码解析,Flink的容错机制原理,Flink容错的关键设计、代码实现分析,FlinkJob从源码到执行整个过程的解析,FlinkJob的调度策略、资源管理策略、内存管理、数据交换的关键设计和代码实现分析,Flink的RPC通信框架等深度内容。《Flink内核原理与实现》适合对实时计算感兴趣的大数据开发、运维领域的从业人员阅读,此外对机器学习工程技术人员也有所帮助。读书笔记读书笔记用到堆外内存,用到了akka,用到了java代码生成,这些倒是没太想到的。这本书偏原理,归纳的比较全,之前开发中遇到的一些疑惑在这里找到了答案!不足之处就是有少量错别字。flink内核章节讲得不错,比较不足之处缺少整个流程图,然后flinksql章节讲得一般,不过这本书是我目前看过最好的flink书籍,感谢作者写出这么优秀的书。开卷有益,比较有意思的三点1.flink用netty作为数据通信层,同时也借鉴了netty的设计思想实现了数据应用层2.基于两阶段提交的端到端的exactly-once讲的还行,但可以讲得更好3.flink用akka实现组件间的消息通信,很妙但是这本书应该可以写得更好本书typo较多,作者也有很多地方没有讲透,本可以写的更好。作为一名flink新手,初见“内核原理”还是有点担心的,担心看不懂,不过全程读下来居然还比较流畅,没有想象中读不下去的感觉。精彩摘录精彩摘录横向拆分是将作业中的步骤并行执行,用并行度(Parallism)来表示一个步骤有多少个实例并行执行。纵向拆分是将作业的步骤进行拆分,拆分出来的每一个实体叫作Task,每个Task最终会分配到一台服务器上执行,最终形成一个由Task组成的有向无环图(DAG)Flink集群采用Master-Slave架构,Master的角色是JobManager,负责集群和作业管理,Slave的角色是TaskManager,负责执行计算任务。而Flink利用检查点特性,在框架层面提供了Exactly-Once的支持,内置了支持Exactly-Once语义的Sink,即使出现故障,也能保证数据只写出一次。无界数据就是持续产生的数据流,有界数据是过去一个时间窗口内不变的数据流。对无界数据的处理就是流处理,对有界数据的处理就是批处理Flink为了提供有状态计算的性能,针对本地状态访问进行了优化,任务状态始终驻留在内存中,如果状态大小超过可用内存,则保存在高效磁盘上的数据结构中。Flink提供了检查点的执行异步和增量检查点,以便尽量降低生成和保存检查点带来的计算负荷,避免数据处理的延迟异常变大和吞吐量的短暂剧降。目录分析1.1核心特点1.3Flink的未来1.2架构第1章Flink入门1.5总结1.4准备工作第1章Flink入门2.1Flink应用开发2.2API层次2.3数据流2.4数据流API2.5总结12345第2章Flink应用3.1环境对象3.3数据转换3.2数据流元素第3章核心抽象3.4算子3.5函数体系3.6数据分区3.7连接器3.8分布式ID3.9总结010302040506第3章核心抽象4.1时间类型4.2窗口类型4.3窗口原理与机制4.4水印4.5时间服务12345第4章时间与窗口4.7总结4.6窗口实现第4章时间与窗口5.1DataStream类型系统5.2SQL类型系统5.3数据序列化5.4总结第5章类型与序列化6.1自主内存管理6.2内存模型6.3内存数据结构6.4内存管理器第6章内存管理6.6总结6.5网络缓冲器第6章内存管理7.1状态类型7.2状态描述7.3广播状态7.4状态接口7.5状态存储12345第7章状态原理7.6状态持久化7.7状态重分布7.8状态过期7.9总结第7章状态原理8.1提交流程8.2Graph总览8.3流图8.4作业图第8章作业提交8.6总结8.5执行图第8章作业提交9.1资源抽象9.2资源管理器9.3Slot管理器9.4SlotProvider9.5Slot选择策略12345第9章资源管理9.6Slot资源池9.8总结9.7Slot共享第9章资源管理10.1调度10.2执行模式10.3数据交换模式10.4作业生命周期第10章作业调度10.5关键组件10.6作业启动10.7作业停止10.8作业失败调度10.9组件容错10.10总结010302040506第10章作业调度11.1作业执行图11.2核心对象11.3Task执行11.4总结第11章作业执行12.1数据传递模式12.2关键组件12.3数据传递12.4数据传递过程第12章数据交换12.6总结12.5网络通信第12章数据交换13.1容错保证语义13.2检查点与保存点13.3作业恢复13.4关键组件第13章应用容错13.5轻量级异步分布式快照13.6检查点执行过程13.7检查点恢复过程13.8端到端严格一次13.9总结12345第13章应用容错14.1ApacheCalcite14.2动态表14.3TableEnvironment14.4TableAPI14.5SQLAPI14.6元数据010302040506第14章FlinkSQL14.7数据访问14.8SQL函数14.9Planner关键抽象14.10BlinkPlanner和FlinkPlanner对比14.11Blink与Calcite关系14.12BlinkSQL执行过程010302040506第14章FlinkSQL14.13BlinkTableAPI执行过程14.15FlinkSQL执行过程14.14Flink与Calcite的关系第14章FlinkSQL14.16FlinkTableAPI执行过程14.17SQL优化14.18Blink优化14.19Flink优化14.20代码生成14.21总结010302040506第14章FlinkSQL15.1监控指标15.2指标组15.3监控集成15.4指标注册中心第15章运维监控15.5指标查询服务15.7总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论