版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
OutLin
Flink
—
—Flink
—Flink
Flink
Flink
Flin AP
—关键概念
SparkStreaming: —流处理v 批处
—Flink
一个简单的实现“wordcount”的流处理程序,其StreamGraph —
DataSet —
flow),它拥有任意数量的Task来接收和产生datastreamDataStreamAPI和DataSetAPI都会使用单独编译的处理方式生成JobGraph。DataSetAPI使用optimizer来决定针对程序的优化方法,而DataStreamAPI则使用streambuilderFlink附随了一些产生DataSet或DataStreamAPI程序的的类库和API:处理逻辑表查询 —streamin dataflo
Flink程序实际执行,映射到流数据流(Streamingdataflow),由流和转化符FlinkTransformation和spark算子 —streamin dataflo
Streamin dataflo
—流的重分布
—时间操作
时间(event 时间(Ingestion 进入到FlinkDataflow的时 window操作
时间窗口:time ,[12:01-12:05]->[12:06- ,[12:01-12:05]->[12:02-12:06]->[12:03- OutLin
Flink —Flin API概览
式FlinkAPI—
仅提供有状态流:通过processfunction嵌入DataStreamAPI — API:DataStreamAPI(有界 过程函数与DataStreamAPI相集成 —Table
TableAPI程序 允许混合使用,类似sparksql和rdd混合使用 —SQLFlink提 层级的抽象是SQL,表达能力上与TableAPI类以SQL语言表达形式,可以在TableAPI
DataStreamAPI—Source
) —
readFile(fileInputFormat,path):指定文件输入格 readFile(fileInputFormatpathwatchTypeintervalpathFilter): —基于Scoket
: generateSequence(fromto):创建一个指定区间范围内的数据序列的并行数 —
读入一个元素,返回0个、1保留返回true按key做hash对keyBy对keyBy数据做fold折叠,需要(初始+当前值)+窗口操作//定义一个5windowwindow在窗口上运用reduce —
window在窗口上运用foldaggregationonunion-window给定key和公共窗口上连接(join)两个--在一个ConnectedStream上做类似map和flatMap流在SplitStreami在流中创建“反馈”-DataStream- —
print()/printToErr(): —OutLin
Flink
—分布式Runtime
Task执行并行程序的worker
Job
hash
— FlinkOnOutLin
Flink
—
kStreaming: 还必须对job状态进行管理,确保能从任何情况引起的jobfailure中恢复,而且确保exactlyonce可靠性,这样就会带来性能的开销,增加数据延迟和吞吐量的降低。 —Flink
SparkStreaming就像水坝一样,一批一批地放水,上一批放的水处理完了,才注意:如果是多个数据流,那么都同步地增加的同样的barrier,同时在job处 —分组标记栏(barrier机制
向 —对齐
1Operator先接收一个SnapshotBarriern,然后暂停处理,直到其他数据流的Barriern也到达该Operator2stream数据不处理,暂存在buffer中,等所有barriern到齐,才会把buffer中的数据发送出去,然后向chechpointCoordinator发送Snapshotn —
— —
处理时间 水位线生成用withperiodic条日志时间为2018-01-0108:00:10,如 —
—基于processtime
valinput:DataStream[T]=....keyBy(<key.<windowedtransformation>(<windowfunction>) —基于eventtimevalinput:DataStream[T]=.keyBy(<key.<windowedtransformation>(<window —撤 在FlinkTableAPI和SQL中,引入了retractStream — Storm:通过
—OutLin
Flink
—:tarxvfflink-1.4.0-bin-hadoop26-主要注意要修改jobmanager.rpc.address和hadoop,spark中的slaves注意:masters 到从节点slave01和scp-rflink-1.4.0slave01:/usr/local/src/scp-rflink-1.4.0
slaves
-在master节点:bin/start-bin/jobmanager.sh(startcluster)|stop|stop-bin/taskmanager.shstart|stop|stop- —一个简单 /bin/start-scala- .shvalpath="/home/badou/ valdataSet=benv.readTextFile
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省湛江市雷州市雷州市第五中学集团2025-2026学年七年级上学期11月期中联考语文试题(含答案)(含答案)
- 全国范围内节能减排政策解读:绿色发展理念普及试卷
- 《GB-T 30853-2014牵引电机用铜及铜合金锻环》专题研究报告
- 2026年湖北省抗菌药物临床应用管理办法试题及答案
- 2026年兰州现代职业学院单招职业适应性考试题库附参考答案详解(完整版)
- 2026年南充文化旅游职业学院单招职业技能测试题库含答案详解(b卷)
- 2026年保险职业学院单招职业适应性测试题库含答案详解(典型题)
- 2026年内蒙古交通职业技术学院单招综合素质考试题库附参考答案详解(b卷)
- 2026年华北理工大学轻工学院单招职业倾向性测试题库附答案详解(培优b卷)
- 2026年兰考三农职业学院单招职业技能测试题库附答案详解(研优卷)
- (2025年)焊工(初级)考试题库及答案
- 北京市丰台区2025-2026学年上学期八年级期末英语试卷(原卷+解析)
- 终末期患者恶心呕吐的护理干预策略优化研究
- 2026 年民政局制式离婚协议书正式范本
- 田地种菜出租合同范本
- 2025-2030传统滋补品现代化转型与年轻化营销及投资价值研判
- 神经重症患者的气道管理策略
- 急性前壁再发心肌梗死的护理查房
- 装修避坑知识
- 《风景谈》(教学课件)-统编版高中语文选择性必修下册
- 谈恋爱被骗民事起诉状范本
评论
0/150
提交评论