大数据实时分析工程师岗位招聘考试试卷及答案_第1页
大数据实时分析工程师岗位招聘考试试卷及答案_第2页
大数据实时分析工程师岗位招聘考试试卷及答案_第3页
大数据实时分析工程师岗位招聘考试试卷及答案_第4页
大数据实时分析工程师岗位招聘考试试卷及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据实时分析工程师岗位招聘考试试卷及答案大数据实时分析工程师岗位招聘考试试卷一、填空题(共10题,每题1分)1.Kafka中负责存储消息的核心组件是______。2.ApacheFlink的______组件负责任务调度与资源管理。3.SparkStreaming的核心抽象是______,表示数据流的分段。4.实时计算中,数据产生到结果输出的时间间隔称为______。5.Hadoop生态中,用于实时查询的列式引擎是______。6.Kafka主题分区数通常与______数量关联,提升并行度。7.Flink中跨任务并行实例共享的状态是______状态。8.SparkStructuredStreaming中,仅适用于无状态查询的输出模式是______。9.实时数据采集流转的常用工具是______。10.Kafka消息的默认保留时间是______天。二、单项选择题(共10题,每题2分)1.以下不属于实时计算生态的是?A.FlinkB.SparkStreamingC.HiveD.KafkaStreams2.Kafka消费者从哪个位置读取消息?A.分区起始偏移量B.消费者偏移量C.生产者偏移量D.分区结束偏移量3.Flink基于时间的滚动窗口是?A.TumblingWindowB.SlidingWindowC.SessionWindowD.GlobalWindow4.更适合实时计算的场景是?A.月度报表B.实时用户行为分析C.历史归档D.离线清洗5.SparkStructuredStreaming默认处理无界数据的方式是?A.微批处理B.纯流处理C.批处理D.混合处理6.Kafka副本因子最小为?A.1B.2C.3D.无限制7.不适合Flink大状态存储的后端是?A.MemoryStateBackendB.FsStateBackendC.RocksDBStateBackendD.无8.“Exactly-Once”语义指?A.至少一次B.最多一次C.恰好一次D.任意次9.实时数据可视化常用工具是?A.TableauB.GrafanaC.ExcelD.Hive10.Kafka分区的作用不包括?A.提升并行度B.数据持久化C.负载均衡D.数据压缩三、多项选择题(共10题,每题2分)1.实时计算的核心特点是?A.低延迟B.高吞吐量C.无界数据处理D.离线分析2.Flink支持的部署模式有?A.LocalB.StandaloneC.YARND.Kubernetes3.Kafka核心组件包括?A.BrokerB.TopicC.PartitionD.ConsumerGroup4.属于实时计算框架的是?A.FlinkB.KafkaStreamsC.StormD.MapReduce5.SparkStructuredStreaming支持的数据源有?A.KafkaB.FileC.SocketD.HDFS6.Flink状态管理类型包括?A.算子状态B.键控状态C.广播状态D.全局状态7.实时pipeline的环节包括?A.数据采集B.清洗C.实时计算D.可视化8.Kafka消息保留策略是?A.基于时间B.基于大小C.基于偏移量D.基于主题数9.适合Exactly-Once的场景是?A.金融交易统计B.实时订单监控C.日志收集D.广告点击计数10.实时窗口聚合操作有?A.计数B.求和C.平均值D.最大值四、判断题(共10题,每题2分)1.Kafka主题可动态创建。()2.FlinkJobManager不支持高可用。()3.SparkStreaming是微批处理框架。()4.实时计算延迟一定低于离线计算。()5.新版Kafka消费者偏移量存储在ZooKeeper。()6.Flink窗口仅支持时间窗口。()7.SparkStructuredStreaming支持Exactly-Once。()8.Grafana仅支持Prometheus数据源。()9.Kafka分区越多性能越好。()10.Flink广播状态跨所有并行实例共享。()五、简答题(共4题,每题5分)1.简述Flink与SparkStreaming的核心区别。2.什么是Kafka的Exactly-Once语义?如何实现?3.实时计算中窗口聚合的作用及常见类型。4.实时数据pipeline的典型架构。六、讨论题(共2题,每题5分)1.列举3个Flink实时任务的性能优化点并说明。2.实时计算中数据倾斜的常见原因及解决方法。---参考答案一、填空题答案1.Broker2.JobManager3.DStream4.端到端延迟5.Impala6.消费者组内消费者7.广播8.Append9.ApacheNiFi10.7二、单项选择题答案1.C2.B3.A4.B5.A6.A7.A8.C9.B10.D三、多项选择题答案1.ABC2.ABCD3.ABCD4.ABC5.ABCD6.ABC7.ABCD8.AB9.AB10.ABCD四、判断题答案1.√2.×3.√4.√5.×6.×7.√8.×9.×10.√五、简答题答案1.Flink与SparkStreaming区别:Flink是纯流处理,支持Exactly-Once,窗口类型丰富(时间/计数/会话),状态管理强(大状态、增量快照);SparkStreaming是微批处理,默认At-Least-Once,窗口依赖微批间隔,大状态支持有限。Flink延迟毫秒级,SparkStreaming秒级,适配不同实时性需求。2.KafkaExactly-Once:每条消息仅处理一次。实现:①生产者:幂等+事务(跨分区原子);②消费者:偏移量提交与结果写入原子;③Broker:日志压缩、副本同步。核心是将“消费+提交+写入”作为原子操作。3.窗口聚合作用及类型:作用是将无界数据流分段聚合(如1分钟订单量)。类型:①滚动窗口(固定大小、无重叠);②滑动窗口(固定大小、有重叠);③会话窗口(基于活动间隔);④计数窗口(按消息量分段)。4.实时pipeline架构:①采集层(Flume/NiFi/Debezium);②消息层(Kafka缓冲);③计算层(Flink/SparkStreaming);④存储层(Redis/HBase/ClickHouse);⑤可视化层(Grafana/Tableau)。各层解耦,支持高并发低延迟。六、讨论题答案1.Flink性能优化:①状态管理:用RocksDB替代Memory,支持大状态和增量快照,减少GC;②并行度:根据数据量调整,避免数据倾斜(如KeyBy前预聚合);③窗口优化:选滚动窗口减少计算,设置allowedLateness处理迟到数据;④资源调优:分配合理CPU/内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论