大数据流式计算工程师岗位招聘考试试卷及答案

上传人：社*** IP属地：山东上传时间：2026-01-21 格式：DOC 页数：6 大小：34KB 积分：3.6 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据流式计算工程师岗位招聘考试试卷及答案一、填空题（共10题，每题1分）1.Hadoop生态中负责分布式存储的核心组件是______。2.ApacheFlink中协调作业执行的核心组件是______。3.流计算中基于事件时间的窗口触发依赖于______。4.Kafka中消息的持久化存储单位是______。5.SparkStreaming的核心抽象是______（微批次数据流）。6.Flink中管理状态的API是______。7.流计算处理迟到数据的常见策略是______（写1种）。8.HBase的列族是______的集合。9.Storm拓扑由Spout和______组成。10.Exactly-Once语义实现依赖于端到端ACK和______。二、单项选择题（共10题，每题2分）1.不属于流计算框架的是？A.FlinkB.SparkStreamingC.HiveD.Storm2.FlinkWatermark的作用不包括？A.记录延迟B.触发窗口C.保证顺序D.存储数据3.Kafka消费者组的特点是？A.一个消费者仅属一个组B.组内可消费同一分区C.消费者数可超分区数D.以上都对4.SparkStreaming默认微批次间隔是？A.100msB.500msC.1sD.10s5.FlinkCheckpoint默认不存储在？A.HDFSB.本地文件C.S3D.Kafka6.可靠性最高的流处理语义是？A.AtMostOnceB.AtLeastOnceC.ExactlyOnceD.都一样7.StormSpout的作用是？A.处理数据B.发送数据到BoltC.存储数据D.协调拓扑8.HBaseRegion数量由什么决定？A.行键数B.列族数C.数据大小D.配置参数9.流计算窗口类型不包括？A.滚动窗口B.滑动窗口C.会话窗口D.随机窗口10.FlinkDataStreamAPI面向？A.批次B.流C.混合D.都不是三、多项选择题（共10题，每题2分）1.流计算核心特点包括？A.低延迟B.高吞吐量C.实时处理D.批处理优先2.Flink支持的时间语义有？A.事件时间B.处理时间C.摄入时间D.存储时间3.Kafka核心组件包括？A.BrokerB.TopicC.PartitionD.Consumer4.SparkStreaming与Flink的区别是？A.Flink是真流，SparkStreaming是微批次B.Flink默认Exactly-OnceC.Flink状态管理更丰富D.SparkStreaming依赖SparkCore5.流计算状态管理的必要性是？A.保存中间结果B.支持窗口计算C.实现Exactly-OnceD.提高吞吐量6.HBase优势包括？A.列存储B.高可靠性C.实时读写D.支持复杂查询7.Storm拓扑执行流程包括？A.Spout发数据B.Bolt处理C.数据流向指定BoltD.持续运行8.流计算处理数据倾斜的方法是？A.分区加盐B.调整并行度C.优化数据分布D.减少数据量9.FlinkCheckpoint依赖于？A.分布式快照B.状态后端C.端到端ACKD.数据复制10.流计算应用场景包括？A.实时推荐B.日志分析C.监控告警D.离线报表四、判断题（共10题，每题2分）1.HDFS适合存储小文件。（）2.FlinkWatermark≥所有已达数据的事件时间。（）3.KafkaPartition数量可动态调整。（）4.SparkStreamingDStream不可变。（）5.Flink状态仅能存内存。（）6.Storm拓扑提交后不能修改。（）7.HBase列族可动态添加删除。（）8.所有场景都能实现Exactly-Once。（）9.Kafka消费者可从任意偏移量消费。（）10.FlinkTableAPI是流关系型API。（）五、简答题（共4题，每题5分）1.简述FlinkExactly-Once语义实现原理。2.比较SparkStreaming与Flink的流处理模式差异。3.简述Kafka工作原理。4.流计算窗口的作用及常见类型。六、讨论题（共2题，每题5分）1.如何优化流计算高吞吐量场景的性能？2.流计算处理迟到数据的策略及适用场景？---答案部分一、填空题答案1.HDFS2.JobManager3.Watermark（水印）4.Partition（分区）5.DStream6.StateAPI7.允许迟到（AllowedLateness）/侧输出（SideOutput）8.列限定符（ColumnQualifier）9.Bolt10.状态快照（Checkpoint）二、单项选择题答案1.C2.D3.A4.C5.B6.C7.B8.C9.D10.B三、多项选择题答案1.ABC2.ABC3.ABCD4.ABCD5.ABC6.ABC7.ABCD8.ABC9.ABC10.ABC四、判断题答案1.×2.√3.×4.√5.×6.√7.√8.×9.√10.√五、简答题答案1.FlinkExactly-Once实现原理：通过分布式快照（Checkpoint）和端到端ACK机制实现。JobManager触发Checkpoint，每个Task保存状态快照到HDFS等后端，记录输入偏移量；配合数据源（如Kafka）和sink的两阶段提交/幂等写入，确保数据仅处理一次。故障时从最近快照恢复，重放未确认数据，保证端到端一致性。2.SparkStreaming与Flink差异：SparkStreaming是微批次流（固定间隔切分微批次，本质批处理扩展），Flink是真流（事件级处理，无固定批次）。差异：①延迟：Flink毫秒级，SparkStreaming微批次延迟高；②状态：Flink支持丰富状态类型/快照，SparkStreaming弱；③语义：Flink默认Exactly-Once，SparkStreaming默认AtLeastOnce；④时间：Flink支持事件/处理/摄入时间，SparkStreaming主要支持处理时间。3.Kafka工作原理：分布式消息队列，生产者将消息发至Topic的Partition（有序日志），存储在Broker。消费者通过ConsumerGroup消费，每个Partition仅被组内一个消费者消费。通过分区并行提吞吐量，复制（Replica）保证可靠性，消息持久化磁盘，适合实时数据流传输存储。4.窗口的作用及类型：作用：将无界流切分为有界窗口，实现聚合/统计。常见类型：①滚动窗口（固定大小无重叠，如1分钟）；②滑动窗口（固定大小有重叠，如1分钟每30秒滑动）；③会话窗口（基于事件间隔，如间隔超10分钟开新窗口）；④全局窗口（无固定大小，手动触发）。六、讨论题答案1.高吞吐量优化：①并行度调整：匹配数据量与资源，避免倾斜；②状态优化：用RocksDB后端，增量Checkpoint减少开销；③数据源优化：Kafka增加Partition，生产者批量发送；④算子优化：简化算子链，用AggregateFunction替代GroupBy；⑤资源配置：增CPU/内存，优化网络带宽；⑥监控：跟踪延迟/吞吐量，动态调参。2.迟到数据处

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据流式计算工程师岗位招聘考试试卷及答案

文档简介

温馨提示

最新文档

评论

大数据流式计算工程师岗位招聘考试试卷及答案

文档简介

温馨提示

最新文档

评论

相关文档