实时流计算优化工程师考试试卷及答案_第1页
实时流计算优化工程师考试试卷及答案_第2页
实时流计算优化工程师考试试卷及答案_第3页
实时流计算优化工程师考试试卷及答案_第4页
实时流计算优化工程师考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实时流计算优化工程师考试试卷及答案一、填空题(每题1分,共10分)1.ApacheFlink中负责任务调度的核心组件是______。2.处理乱序数据的时间机制是______。3.Flink保证数据不丢不重的语义是______。4.SparkStreaming默认微批间隔是______秒。5.Kafka______数决定消费者最大并行度。6.Flink复杂事件处理库是______。7.窗口聚合类型包括滚动、滑动和______窗口。8.Checkpoint是Flink实现______的核心。9.数据从产生到处理完成的时间是______延迟。10.SparkStructuredStreaming输出模式中,仅输出最终结果的是______模式。二、单项选择题(每题2分,共20分)1.不属于Flink状态后端的是?A.HashMapStateBackendB.RocksDBStateBackendC.FileSystemStateBackendD.KafkaStateBackend2.Watermark延迟过大导致______。A.数据丢失B.处理延迟增加C.乱序无法处理D.任务崩溃3.SparkStreaming的DStream本质是______集合。A.RDDB.DataFrameC.DatasetD.Stream4.Kafka偏移量默认存储在______。A.ZooKeeperB.__consumer_offsetsC.本地文件D.HDFS5.FlinkExactly-Once依赖______机制。A.CheckpointB.StateBackendC.WatermarkD.Window6.高吞吐量流处理优先选______。A.SparkStreamingB.FlinkC.StormD.MapReduce7.滚动窗口特点是______。A.窗口重叠B.不重叠且连续C.大小可变D.基于会话8.不属于流处理延迟来源的是?A.传输延迟B.处理延迟C.存储延迟D.编译延迟9.SparkStructuredStreaming不支持的数据源是?A.KafkaB.FileC.JDBCD.Redis10.FlinkTimeCharacteristic不包括______。A.EventTimeB.ProcessingTimeC.IngestionTimeD.BatchTime三、多项选择题(每题2分,共20分)1.Flink相比SparkStreaming的优势有______。A.支持Exactly-OnceB.事件时间语义C.微批延迟更低D.状态管理2.实时流计算优化方向包括______。A.调整并行度B.优化状态后端C.减少序列化开销D.增大窗口3.Kafka优化要点包括______。A.合理分区数B.调整批大小C.优化消费者组D.无上限增加副本4.Flink状态一致性级别有______。A.At-Most-OnceB.At-Least-OnceC.Exactly-OnceD.None5.SparkStructuredStreaming输出模式有______。A.AppendB.UpdateC.CompleteD.Delete6.乱序数据处理方法包括______。A.WatermarkB.延迟触发C.重发D.无序处理7.Flink窗口类型包括______。A.滚动B.滑动C.会话D.全局8.CEP应用场景有______。A.异常检测B.实时监控C.订单分析D.批量计算9.Checkpoint作用包括______。A.容错恢复B.状态快照C.数据重放D.并行调整10.流处理与批处理区别包括______。A.数据有界性B.处理延迟C.并行方式D.存储机制四、判断题(每题2分,共20分)1.Flink默认是Exactly-Once语义。()2.Watermark标记已处理的最大事件时间。()3.SparkStreaming是微批处理框架。()4.Kafka分区越多性能越好。()5.RocksDB适合存储超大状态。()6.端到端延迟含产生、传输、处理、输出时间。()7.FlinkCEP可检测连续事件模式。()8.Checkpoint只能定时触发。()9.SparkStructuredStreamingAppend适合增量输出。()10.Kafka消费者组中每个消费者仅消费一个分区。()五、简答题(每题5分,共20分)1.简述FlinkExactly-Once实现原理。2.说明Watermark的作用及设置原则。3.简述Kafka在流计算中的角色及优化要点。4.列举窗口聚合常见类型及适用场景。六、讨论题(每题5分,共10分)1.某任务延迟达10s,分析原因及优化方向。2.如何选择Flink状态后端?说明不同场景依据。答案部分一、填空题答案1.JobManager2.Watermark(水印)3.Exactly-Once4.15.分区6.FlinkCEP7.会话8.容错9.端到端10.Complete二、单项选择题答案1.D2.B3.A4.B5.A6.B7.B8.D9.D10.D三、多项选择题答案1.ABD2.ABC3.ABC4.ABC5.ABC6.AB7.ABCD8.ABC9.AB10.ABC四、判断题答案1.×2.√3.√4.×5.√6.√7.√8.×9.√10.×五、简答题答案1.FlinkExactly-Once原理:通过Checkpoint实现。JobManager触发快照,各Task将状态写入后端并记录偏移量;Source预提交偏移量,快照完成后正式提交。失败时从最近快照恢复,重放未处理数据,确保数据仅处理一次。2.Watermark作用及原则:处理乱序数据,标记最大事件时间,触发窗口计算。原则:统计99%数据的最大乱序延迟(如5s);避免过大导致延迟;多数据源取最大延迟;低乱序设小值提升实时性。3.Kafka角色及优化:角色是数据缓冲、解耦、并行管道。优化:合理分区(匹配消费者并行度);调整批大小平衡延迟与吞吐量;设2-3副本;配置日志清理策略。4.窗口类型及场景:①滚动窗口(不重叠,如5分钟用户活跃数);②滑动窗口(重叠,如1分钟统计过去5分钟订单);③会话窗口(基于会话间隔,如30分钟无活动结束会话);④全局窗口(自定义触发,如统计大额订单总数)。六、讨论题答案1.延迟原因及优化:原因:并行度不足、状态后端不当(HashMap内存溢出)、Watermark延迟大、Kafka分区不匹配、序列化开销大。优化:调整并行度;换RocksDB存大状态;优化Wate

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论