版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年大数据工程师(Flink2026年方向)岗位知识考试题库含答案一、单项选择题(每题2分,共30分)1.在Flink2026中,以下哪项不是CheckpointCoordinator的默认优化策略?A.增量快照合并B.异步对齐屏障C.本地状态复制D.跨作业共享状态答案:D解析:跨作业共享状态在2026版仍被社区视为高危操作,默认关闭,需手动开启并签署SLA豁免协议。2.FlinkSQL2026对TemporalJoin的新增语法关键字是:A.VERSIONEDB.SYSTEM_TIMEC.SNAPSHOTD.INTERVAL答案:A解析:VERSIONEDBETWEEN…AND…语法取代了旧版FORSYSTEM_TIMEASOF,支持对版本表进行精确区间关联。3.当使用HybridSource读取Pulsar+Iceberg时,SourceCoordinator在发现Pulsar分区数量动态增加后,触发的事件是:A.SplitDiscoveryEventB.PartitionExpansionEventC.SourceRebalanceEventD.DynamicParallelismEvent答案:B解析:2026版引入PartitionExpansionEvent,下游算子可据此自动扩并发,无需重启作业。4.在FlinkonK8s2026中,以下哪项参数可让TaskManager在Spot实例被回收前30秒收到SIGTERM预警?A.kubernetes.spot.grace-periodB.taskmanager.preempt-warningC.kubernetes.preemption-noticeD.resourcemanager.spot-handler答案:C解析:kubernetes.preemption-notice=30会在K8s给Pod发送Preemption信号前30秒由FlinkResourceManager转发至TaskManager。5.对于精确一次写入Hive4.x,Flink2026要求文件提交器使用的格式是:A.ACIDDeltaB.IcebergV3C.Hudi1.4D.HiveStreamingV4答案:A解析:Hive4.x官方仅承认ACIDDelta格式为精确一次载体,Flink集成模块已移除对旧StreamingV3的支持。6.在ReactiveMode下,JobMaster发现某个TaskManager网络缓冲区持续90%以上占用,触发的策略是:A.BackpressureSkewRebalanceB.NettyAdaptiveBuffersC.BufferPoolAutoScaleD.Credit-basedFlowControl答案:C解析:2026版新增BufferPoolAutoScale,可在ReactiveMode中动态扩大网络缓冲池,避免假反压。7.使用TableStore1.2时,合并小文件的新触发条件是:A.paction.min-sizeB.paction.ratioC.ervalD.paction.delete-ratio答案:B解析:当小文件总大小与当前层大小之比低于paction.ratio时,合并才会触发,防止写放大。8.FlinkML2026中,若要在DataStream上调用在线学习算法,必须实现的接口是:A.OnlineTrainingB.StreamableModelC.IncrementalLearnerD.RealTimeAlgorithm答案:C解析:IncrementalLearner接口定义了updateModel、predict两个核心方法,并由FlinkML引擎托管状态。9.在SQLGateway2026中,支持多租户隔离的最小粒度是:A.SessionB.CatalogC.DatabaseD.StatementSet答案:B解析:Catalog级隔离可绑定独立的元数据、UDF、权限,Session复用同一Catalog仍共享资源。10.若将作业从Flink1.17迁移到2026,需要手动处理的废弃API是:A.DataStream#assignTimestampsAndWatermarksB.StreamTableEnvironment#registerDataStreamC.Table#insertIntoD.StateTtlConfig#newBuilder答案:B解析:registerDataStream已在2026移除,需改用fromDataStream并声明Schema。11.使用Zeppelin2026连接Flink集群时,默认的会话回收时间是:A.30minB.60minC.120minD.0min(不回收)答案:A解析:ZeppelinNotebook中erpreter.lifecycle.timeout=30min,超时自动释放集群资源。12.在FlinkCDC3.2中,支持MySQL并行快照的新算法是:A.Chunk-basedLockFreeB.ConsistentSplitStreamingC.SnapshotIsolationReadD.BinlogBackfill答案:B解析:ConsistentSplitStreaming通过全局一致性位点切分表,实现无锁并行快照。13.对于PaimonCatalog,以下哪项不是2026版支持的元数据后端?A.RDSMySQLB.TiDBC.SQLiteD.PostgreSQL答案:C解析:SQLite仅用于测试,生产环境官方推荐MySQL、TiDB、PG三者之一。14.当开启AdaptiveBatchScheduler后,决定TaskSlot数量的首要因子是:A.数据量大小B.算子并行度C.历史执行时间D.用户预算标签答案:C解析:Scheduler会读取历史执行时间,通过强化学习模型预测最优Slot数,实现分钟级收敛。15.在Flink2026中,以下哪项指标可直接用于判断是否存在数据倾斜?A.numRecordsInPerSecondB.busyTimeMsPerSecondC.backPressuredTimeMsPerSecondD.latencySkewIndex答案:D解析:latencySkewIndex为2026新增指标,综合输入速率、处理延迟、缓冲区占用三维计算,>1.5即判定倾斜。二、多项选择题(每题3分,共30分)16.关于Flink2026的存算分离架构,下列说法正确的是:A.TaskManager可挂载远程ShuffleServiceB.JobManager不再保存Checkpoint元数据到本地C.TableStore支持S3、OSS、GCS统一访问D.通过RocksDBStateBackend可完全避免本地磁盘答案:A、B、C解析:RocksDB仍需本地磁盘作为缓存,无法完全避免。17.使用SQLHints进行JoinReorder时,可指定的Hint包括:A./+BROADCAST(t1)/B./+SHUFFLE_HASH(t2)/C./+NEST_LOOP(t1,t2)/D./+MERGE(t1,t2)/答案:A、B、D解析:NEST_LOOP在流模式已被移除,批模式也仅保留实验性支持。18.在Flink2026中,以下哪些操作会触发StateMigration?A.修改StateDescriptorTTLB.改变AvroPOJO字段顺序C.切换StateBackend为ForStDBD.增加RichMapFunction局部变量答案:A、B、C解析:局部变量不进入快照,不会触发迁移。19.关于Exactly-once与Checkpoint的关系,正确的是:A.开启Checkpoint即自动开启Exactly-onceB.需Sink支持两阶段提交C.需Source支持可重放D.需关闭异步快照才能精确一次答案:B、C解析:异步快照与Exactly-once无冲突,A、D错误。20.以下哪些场景适合使用DynamicTableFunction?A.维表每小时更新一次B.调用REST接口补全字段C.读取MySQLbinlog作为维表D.将Kafka流转换为表答案:A、B、C解析:D属于普通TableSource,无需DTF。21.在Flink2026中,支持作为时间属性的字段类型有:A.TIMESTAMP_LTZ(3)B.TIMESTAMP(9)C.BIGINTD.DATE答案:A、B、C解析:DATE无法表达毫秒精度,不能作为Rowtime。22.关于ReactiveMode的资源伸缩,下列说法正确的是:A.需开启kubernetes.autoscaler.enabledB.需使用AdaptiveSchedulerC.需关闭SlotSharingD.需配置min/maxTaskManager数答案:A、B、D解析:SlotSharing仍可提高并发度,无需关闭。23.使用ForStDB作为StateBackend的优势包括:A.支持存算分离B.支持KV分离存储C.支持列式压缩D.支持RocksDB兼容API答案:A、B、C解析:ForStDB采用全新API,不兼容RocksDB。24.以下哪些指标可用于衡量Checkpoint健康度?A.checkpointStartDelayNanosB.checkpointDurationC.checkpointFailureRateD.numBytesLocal答案:A、B、C解析:numBytesLocal仅反映本地字节,不直接衡量健康。25.在FlinkML2026中,在线特征工程算子包括:A.StreamStandardScalerB.StreamSQLTransformerC.StreamVectorAssemblerD.StreamPCA答案:A、C、D解析:StreamSQLTransformer属于TableAPI,非算子级。三、判断题(每题1分,共10分)26.Flink2026默认使用Application模式提交作业。(√)27.TableStore的LSM树层数越多,读放大越小。(×)28.使用UNIONALL后再进行GroupBy,一定不会产生数据倾斜。(×)29.ForStDB支持将状态直接映射到S3对象,无需本地缓存。(×)30.SQLGateway2026支持JWT+RBAC双因子认证。(√)31.HybridSource在切换Source时,会自动对齐Watermarks。(√)32.开启MiniBatch优化后,Latency一定增加。(√)33.FlinkCDC3.2支持Oracle19c原生LogMiner。(√)34.Paimon支持将Kafka作为LogStore,用于流读。(√)35.AdaptiveBatchScheduler可在作业运行时动态修改并行度。(√)四、填空题(每题2分,共20分)36.Flink2026中,新的统一DAG描述格式为________。答案:JsonPlanSpec37.在TableStore中,用于控制写入缓存条目的参数为________。答案:write-buffer-size38.使用ReactiveMode时,JobMaster地址通过________发现。答案:KubernetesLeaderElection39.若要将状态后端从RocksDB迁移到ForStDB,需指定________工具。答案:StateMigrationCLI40.FlinkSQL中,用于声明版本表的关键字为________。答案:WITH('versioned'='true')41.在Zeppelin里,设置并行度需调用________魔法命令。答案:%flink.confparallelism.default=N42.2026版新增的流批一体调度器名称为________。答案:AdaptiveBatchScheduler43.用于衡量Checkpoint对齐时间的指标为________。答案:alignmentDuration44.在FlinkML中,在线学习状态后端默认使用________。答案:ForStDB45.若要在Kubernetes上开启Spot实例优雅退出,需设置环境变量________。答案:KUBERNETES_PREEMPTION_NOTICE=30五、简答题(每题10分,共30分)46.描述Flink2026实现跨作业状态共享的完整流程,并说明其风险点。答案:(1)流程:a.在flink-conf.yaml中设置state.shared-store.base-path为分布式存储路径;b.作业A使用QueryableStateDescriptor注册状态;c.作业B通过SharedStateClient根据jobID、descriptorID拉取状态句柄;d.Flink内部通过SharedStateRegistry完成引用计数,确保状态文件不被误删;e.作业B在启动时通过StateMigrationCLI挂载远程状态,完成初始化。(2)风险点:a.一致性风险:作业A更新状态同时作业B读取,可能读到中间值;b.生命周期风险:作业A意外终止导致引用计数归零,状态文件被物理删除;c.安全隔离风险:多租户场景下可能出现状态泄露;d.版本兼容风险:状态序列化器升级后,作业B反序列化失败;e.性能风险:跨机房读取延迟高,导致作业B启动时间分钟级增长。缓解措施:引入租约机制、状态不可变快照、SchemaEvolution校验、网络限速、只读挂载。47.说明Flink2026中如何使用HybridSource实现Pulsar到Iceberg的Exactly-once切换,并给出核心代码片段。答案:(1)原理:HybridSource先以Pulsar作为活跃源,当检测到Pulsar消费滞后小于5秒且Iceberg快照包含Pulsar最新位点时,自动切换至Iceberg历史分区,并通过统一Watermarks保证连续性。(2)核心代码:```javaHybridSource<String>source=HybridSource.builder(newPulsarSource<>()).addSource(newIcebergSource<>()).setSwitchCondition(SwitchCondition.lagThreshold(Duration.ofSeconds(5))).setWatermarkStrategy(WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3))).build();StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.enableCheckpointing(60000,CheckpointingMode.EXACTLY_ONCE);env.fromSource(source,WatermarkStrategy.noWatermarks(),"Hybrid").map(...).sinkTo(newFlinkIcebergSink());```(3)关键点:a.PulsarSource需实现getCurrentOffsets返回可比较位点;b.IcebergSource需实现getLatestSnapshotId,与Pulsar位点进行时间戳对齐;c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 树状图求概率课件
- 心脏病患者的日常护理要点
- 2024-2025学年山东省青岛市高二下学期期中考试历史试题(解析版)
- 2026年新媒体运营技巧与法规遵守考核题集
- 2026年文学创作技巧小说写作与故事构思进阶试题
- 2026年艺术鉴赏与创作能力选择题
- 万圣节的由来的习俗
- 湖北省圆创高中名校联盟2026届高三2月第三次联合测评语文试卷(含答案解析)
- 河北计生政策培训
- 宿州辅警面试题目及答案
- 电力工程安全培训课件
- 中粮贸易录用通知书
- 高二半期考试物理考题及答案
- 2025年食品安全检测服务协议书标准版(含检测项目+报告时效+填写指导)
- 防灾减灾日应急知识培训课件
- 2025-2030教育考试身份核验设备市场格局与政策影响研究
- 政府投资类项目回购协议书4篇
- 2025年高级会计师资格考试《高级会计实务》试题及答案
- 《植物景观设计》课件-项目三 花卉景观设计
- DB11-T 1835-2021 给水排水管道工程施工技术规程
- 中医承包协议书
评论
0/150
提交评论