大数据流处理架构工程师岗位招聘考试试卷及答案_第1页
大数据流处理架构工程师岗位招聘考试试卷及答案_第2页
大数据流处理架构工程师岗位招聘考试试卷及答案_第3页
大数据流处理架构工程师岗位招聘考试试卷及答案_第4页
大数据流处理架构工程师岗位招聘考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据流处理架构工程师岗位招聘考试试卷及答案一、填空题(每题1分,共10分)1.ApacheFlink中负责调度任务和资源管理的核心组件是______。2.SparkStreaming的核心抽象是______,表示连续数据流的离散片段。3.Kafka中消息被组织在______中,每个该单元可分为多个分区。4.Flink中基于时间的无重叠固定窗口称为______窗口。5.SparkStreaming属于______处理,而非真正的流处理。6.ZooKeeper在Kafka集群中主要用于______选举和状态管理。7.Flink中存储算子状态的类型是______State。8.Kafka消费者组内,每个消费者负责一个或多个______的消息消费。9.ApacheStorm中从外部读取数据的组件是______。10.流处理中“至少被处理一次”的语义是______。答案:1.JobManager2.DStream3.Topic4.Tumbling(滚动)5.微批6.Controller(控制器)7.Operator8.Partition(分区)9.Spout10.At-Least-Once二、单项选择题(每题2分,共20分)1.以下支持真正流处理(非微批)的框架是?A.SparkStreamingB.FlinkC.StormD.KafkaStreams2.KafkaTopic创建后,分区数量可______。A.任意修改B.只增不减C.只减不增D.不可修改3.Flink中无重叠时间范围的窗口是?A.TumblingB.SlidingC.SessionD.Count4.SparkStreaming默认微批间隔是?A.100msB.500msC.1sD.5s5.不是Flink核心组件的是?A.JobManagerB.TaskManagerC.ZooKeeperD.StandaloneManager6.Kafka消费者默认偏移量提交方式是?A.自动B.手动同步C.手动异步D.不提交7.Flink实现Exactly-Once的核心是?A.两阶段提交B.CheckpointC.水印D.状态快照8.适合SessionWindow的场景是?A.每小时订单量B.用户会话内操作数C.每分钟PVD.固定消息数统计9.Storm每个Worker默认启动多少Executor?A.1B.2C.4D.810.KafkaStreams的键值数据流抽象是?A.DStreamB.DataStreamC.KStreamD.Table答案:1.B2.B3.A4.C5.C6.A7.B8.B9.A10.C三、多项选择题(每题2分,共20分)1.属于流处理框架的是?A.FlinkB.SparkStreamingC.KafkaStreamsD.Elasticsearch2.Flink支持的状态类型是?A.OperatorStateB.KeyedStateC.GlobalStateD.LocalState3.Exactly-Once语义依赖的技术是?A.消息可重放B.状态快照与偏移量对齐C.两阶段提交D.消息无重复4.Kafka的主要作用是?A.消息队列B.流存储C.流处理D.搜索引擎5.Flink的部署模式包括?A.StandaloneB.YARNC.KubernetesD.Mesos6.SparkStreaming的缺点是?A.延迟较高B.无Exactly-Once支持C.状态管理弱D.不支持事件时间7.Kafka生产者的配置项是?A.bootstrap.serversB.group.idC.acksD.auto.offset.reset8.Flink水印的作用是?A.处理乱序数据B.延迟数据C.窗口触发D.状态清理9.Storm拓扑的组件是?A.SpoutB.BoltC.NimbusD.Supervisor10.流处理的应用场景是?A.实时分析B.实时监控C.实时推荐D.离线计算答案:1.ABC2.AB3.ABC4.AB5.ABCD6.AC7.AC8.ABC9.AB10.ABC四、判断题(每题2分,共20分)1.SparkStreaming是真正的流处理框架。(×)2.Kafka分区只能被一个消费者组的一个消费者消费。(√)3.FlinkCheckpoint默认是增量快照。(×)4.ZooKeeper是Flink必备组件。(×)5.KafkaStreams无需额外部署。(√)6.Storm拓扑提交后不能修改。(×)7.FlinkKeyedState只能在按Key分组的流上使用。(√)8.At-Most-Once语义可能丢失消息。(√)9.SparkStreamingDStream不可变。(√)10.KafkaTopic可动态创建。(√)五、简答题(每题5分,共20分)1.简述Flink与SparkStreaming的核心区别。答案:Flink是事件驱动的真正流处理,延迟毫秒级;SparkStreaming是微批处理,默认1秒批次,延迟较高。Flink天然支持Exactly-Once(Checkpoint),SparkStreaming需额外配置。Flink状态管理更强大(Operator/KeyedState、增量快照),SparkStreaming状态管理较弱。Flink支持事件/处理/摄入时间,SparkStreaming早期仅支持处理时间。2.什么是流处理窗口?常见类型有哪些?答案:窗口是将无界数据流分段计算的机制。常见类型:①滚动窗口(固定长度、无重叠);②滑动窗口(固定长度、有重叠);③会话窗口(基于用户活跃会话,无固定长度);④计数窗口(按消息数量分段)。3.简述Kafka的工作原理。答案:Kafka以Topic为核心,Topic分多个Partition。生产者向Topic发消息,按序存于Partition;消费者从Partition拉取,消费者组内每个消费者负责一个或多个Partition,保证分区内顺序。ZooKeeper用于Controller选举和集群状态管理,消息持久化到日志。4.Exactly-Once语义依赖哪些技术?答案:①消息源可重放(如Kafka偏移量);②状态快照(Checkpoint,记录偏移量和状态);③两阶段提交(协调消息和状态一致性);④幂等操作(避免重复处理结果不一致)。六、讨论题(每题5分,共10分)1.设计高吞吐量低延迟订单系统,如何选择流处理框架?答案:优先选Flink。理由:①低延迟(事件驱动,毫秒级)满足实时订单需求;②Exactly-Once保证订单不重复丢失,避免账务错误;③强大状态管理支持用户订单状态存储;④灵活窗口(滚动窗口统计实时订单量、会话窗口分析用户下单行为)。若初期规模小,可考虑KafkaStreams(轻量集成Kafka),但Flink扩展性更强

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论