实时计算引擎工程师考试试卷及答案_第1页
实时计算引擎工程师考试试卷及答案_第2页
实时计算引擎工程师考试试卷及答案_第3页
实时计算引擎工程师考试试卷及答案_第4页
实时计算引擎工程师考试试卷及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实时计算引擎工程师考试试卷及答案填空题(每题1分,共10分)1.ApacheFlink中负责执行任务的核心组件是______。答案:TaskManager2.Kafka中每个主题可划分为多个______。答案:分区(Partition)3.Flink的三种时间语义包括事件时间、处理时间和______。答案:摄入时间(IngestionTime)4.SparkStreaming的核心抽象是______。答案:DStream5.实时计算常用的消息队列(写出1个)是______。答案:Kafka6.Flink中窗口按触发策略分为滚动、滑动和______窗口。答案:会话(Session)7.Kafka生产者默认的分区策略是______。答案:轮询(RoundRobin)8.Flink状态管理分为算子状态和______状态。答案:键控(Keyed)9.SparkStructuredStreaming基于______数据模型。答案:结构化(DataFrame/Dataset)10.实时计算数据延迟包括处理延迟和______延迟。答案:传输单项选择题(每题2分,共20分)1.以下属于Flink时间语义的是?A.事件时间B.计算时间C.存储时间D.传输时间答案:A2.Kafka消费者组的作用是?A.隔离业务消费B.增加存储容量C.提高生产者速度D.减少重复答案:A3.滚动窗口的特点是?A.窗口重叠B.大小固定不重叠C.大小动态D.会话触发答案:B4.SparkStreaming与Flink的主要区别是?A.Flink不支持状态管理B.SparkStreaming是微批处理C.两者都不支持精确一次D.无区别答案:B5.Kafka主题分区数应?A.越多越好B.越少越好C.与消费者数量匹配D.固定为1答案:C6.Flink协调任务执行的组件是?A.TaskManagerB.JobManagerC.DataStreamD.StateBackend答案:B7.“精确一次”语义指?A.每条处理1次B.至少1次C.最多1次D.无限制答案:A8.SparkStructuredStreaming输出模式不包括?A.AppendB.UpdateC.CompleteD.Delete答案:D9.Kafka消息保留时间由哪个配置决定?A.retention.msB.max.message.bytesC.batch.sizeD.linger.ms答案:A10.Flink状态后端不包括?A.MemoryStateBackendB.FsStateBackendC.RocksDBStateBackendD.KafkaStateBackend答案:D多项选择题(每题2分,共20分)1.Flink支持的窗口类型包括?A.滚动B.滑动C.会话D.全局答案:ABCD2.Kafka核心组件包括?A.BrokerB.TopicC.PartitionD.ConsumerGroup答案:ABCD3.精确一次语义实现方式包括?A.两阶段提交B.幂等写入C.事务D.消息重发答案:ABC4.SparkStreaming的缺点包括?A.微批延迟高B.不支持状态管理C.时间语义弱D.无法处理乱序答案:AC5.Flink状态管理优势包括?A.支持大状态B.增量CheckpointC.多种状态后端D.仅算子状态答案:ABC6.属于实时计算场景的是?A.实时报表B.离线分析C.实时风控D.批量清洗答案:AC7.Kafka生产者配置参数包括?A.bootstrap.serversB.group.idC.acksD.key.serializer答案:ACD8.FlinkDataStreamAPI支持的操作包括?A.mapB.reduceC.joinD.filter答案:ABCD9.SparkStructuredStreaming优势包括?A.统一批流B.支持SQLC.精确一次D.基于微批答案:ABC10.乱序数据处理方式包括?A.水印B.允许延迟C.窗口合并D.丢弃乱序答案:AB判断题(每题2分,共20分)1.Flink是微批处理流引擎。()答案:×2.Kafka一个分区只能被一个消费者组的一个消费者消费。()答案:√3.Flink事件时间是数据被处理的时间。()答案:×4.SparkStreaming默认支持精确一次语义。()答案:×5.Kafka消息持久化存储。()答案:√6.Flink状态后端只能存内存。()答案:×7.实时计算延迟比离线低。()答案:√8.SparkStructuredStreaming是SparkStreaming升级版。()答案:√9.Kafka生产者acks=0不等待确认。()答案:√10.Flink水印用于处理乱序数据。()答案:√简答题(每题5分,共20分)1.简述Flink事件时间与处理时间的区别。答案:事件时间是数据本身携带的产生时间(如日志timestamp),与系统时间无关,能配合水印处理乱序,结果准确;处理时间是Flink节点处理数据的实际系统时间,简单但无法处理乱序,延迟低但结果易受数据到达顺序影响。实时计算中需准确时间窗口时优先用事件时间。2.什么是Kafka分区?作用是什么?答案:分区是Kafka主题的物理子单元(日志文件)。作用:①并行消费:多消费者同时消费不同分区,提升吞吐量;②负载均衡:消息分散存储,避免单节点压力;③局部有序:同一分区内消息按序存储;④可靠性:分区可分布在多Broker,提升容错。3.简述FlinkCheckpoint机制的作用。答案:Checkpoint是Flink容错核心,定期保存算子状态和数据流快照;任务失败时从最近快照恢复,保证数据不丢失;支持增量Checkpoint(如RocksDB),减少资源消耗;配合两阶段提交实现端到端精确一次语义。需配置间隔、超时等平衡容错与性能。4.SparkStreaming与StructuredStreaming的区别?答案:①处理模型:SparkStreaming是微批处理(秒级),StructuredStreaming是连续流+结构化;②抽象层:DStreamvsDataFrame/Dataset(统一批流);③语义:StructuredStreaming精确一次更完善,SparkStreaming默认至少一次;④灵活性:StructuredStreaming支持SQL、事件时间窗口;⑤延迟:StructuredStreaming更低(毫秒级)。讨论题(每题5分,共10分)1.如何选择实时流处理引擎(Flink、SparkStreaming)?答案:需结合业务:①延迟:毫秒级选Flink,秒级选StructuredStreaming;②语义:精确一次(金融)选Flink/StructuredStreaming;③生态:依赖Spark(Hive、SQL)选StructuredStreaming;④状态:大状态(用户会话)选Flink(RocksDB);⑤团队技能:熟悉Spark选StructuredStreaming,熟悉Flink选Flink。综合来看,Flink适合低延迟、强语义场景,StructuredStreaming适合Spark生态统一批流。2.如何优化Kafka性能(生产者、消费者、Broker)?答案:①生产者:调大batch.size/linger.ms减

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论