讲义文稿讲义flink_第1页
讲义文稿讲义flink_第2页
讲义文稿讲义flink_第3页
讲义文稿讲义flink_第4页
讲义文稿讲义flink_第5页
已阅读5页,还剩48页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

OutLin

Flink

—Flink

—Flink

Flink

Flink

Flin AP

—关键概念

SparkStreaming: —流处理v 批处

—Flink

一个简单的实现“wordcount”的流处理程序,其StreamGraph —

DataSet —

flow),它拥有任意数量的Task来接收和产生datastreamDataStreamAPI和DataSetAPI都会使用单独编译的处理方式生成JobGraph。DataSetAPI使用optimizer来决定针对程序的优化方法,而DataStreamAPI则使用streambuilderFlink附随了一些产生DataSet或DataStreamAPI程序的的类库和API:处理逻辑表查询 —streamin dataflo

Flink程序实际执行,映射到流数据流(Streamingdataflow),由流和转化符FlinkTransformation和spark算子 —streamin dataflo

Streamin dataflo

—流的重分布

—时间操作

时间(event 时间(Ingestion 进入到FlinkDataflow的时 window操作

时间窗口:time ,[12:01-12:05]->[12:06- ,[12:01-12:05]->[12:02-12:06]->[12:03- OutLin

Flink —Flin API概览

式FlinkAPI—

仅提供有状态流:通过processfunction嵌入DataStreamAPI — API:DataStreamAPI(有界 过程函数与DataStreamAPI相集成 —Table

TableAPI程序 允许混合使用,类似sparksql和rdd混合使用 —SQLFlink提 层级的抽象是SQL,表达能力上与TableAPI类以SQL语言表达形式,可以在TableAPI

DataStreamAPI—Source

) —

readFile(fileInputFormat,path):指定文件输入格 readFile(fileInputFormatpathwatchTypeintervalpathFilter): —基于Scoket

: generateSequence(fromto):创建一个指定区间范围内的数据序列的并行数 —

读入一个元素,返回0个、1保留返回true按key做hash对keyBy对keyBy数据做fold折叠,需要(初始+当前值)+窗口操作//定义一个5windowwindow在窗口上运用reduce —

window在窗口上运用foldaggregationonunion-window给定key和公共窗口上连接(join)两个--在一个ConnectedStream上做类似map和flatMap流在SplitStreami在流中创建“反馈”-DataStream- —

print()/printToErr(): —OutLin

Flink

—分布式Runtime

Task执行并行程序的worker

Job

hash

— FlinkOnOutLin

Flink

kStreaming: 还必须对job状态进行管理,确保能从任何情况引起的jobfailure中恢复,而且确保exactlyonce可靠性,这样就会带来性能的开销,增加数据延迟和吞吐量的降低。 —Flink

SparkStreaming就像水坝一样,一批一批地放水,上一批放的水处理完了,才注意:如果是多个数据流,那么都同步地增加的同样的barrier,同时在job处 —分组标记栏(barrier机制

向 —对齐

1Operator先接收一个SnapshotBarriern,然后暂停处理,直到其他数据流的Barriern也到达该Operator2stream数据不处理,暂存在buffer中,等所有barriern到齐,才会把buffer中的数据发送出去,然后向chechpointCoordinator发送Snapshotn —

— —

处理时间 水位线生成用withperiodic条日志时间为2018-01-0108:00:10,如 —

—基于processtime

valinput:DataStream[T]=....keyBy(<key.<windowedtransformation>(<windowfunction>) —基于eventtimevalinput:DataStream[T]=.keyBy(<key.<windowedtransformation>(<window —撤 在FlinkTableAPI和SQL中,引入了retractStream — Storm:通过

—OutLin

Flink

—:tarxvfflink-1.4.0-bin-hadoop26-主要注意要修改jobmanager.rpc.address和hadoop,spark中的slaves注意:masters 到从节点slave01和scp-rflink-1.4.0slave01:/usr/local/src/scp-rflink-1.4.0

slaves

-在master节点:bin/start-bin/jobmanager.sh(startcluster)|stop|stop-bin/taskmanager.shstart|stop|stop- —一个简单 /bin/start-scala- .shvalpath="/home/badou/ valdataSet=benv.readTextFile

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论