大数据开发工程师岗位招聘考试试卷及答案_第1页
大数据开发工程师岗位招聘考试试卷及答案_第2页
大数据开发工程师岗位招聘考试试卷及答案_第3页
大数据开发工程师岗位招聘考试试卷及答案_第4页
大数据开发工程师岗位招聘考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据开发工程师岗位招聘考试试卷及答案填空题(10题,1分/题)1.HDFS默认的数据块大小是______MB。2.Spark的核心数据结构(Spark2.0后)包括RDD和______。3.Hive元数据默认存储在______数据库中。4.Flink的核心特性是______计算(批流一体)。5.MapReduce的两个核心阶段是Map和______。6.数据从源系统到目标系统的过程称为______。7.Kafka中负责存储消息的核心组件是______(分区)。8.SparkSQL处理结构化数据的接口是______。9.HBase是基于______模型的分布式数据库。10.数据湖存储______格式的数据(原始/半结构化)。单项选择题(10题,2分/题)1.以下不是Hadoop核心组件的是?A.HDFSB.MapReduceC.SparkD.YARN2.Spark中触发实际计算的算子是?A.mapB.filterC.reduceD.flatMap3.Hive执行查询的语言是?A.HQLB.SQLC.SparkSQLD.PigLatin4.Flink不包含的窗口类型是?A.TumblingB.SlidingC.SessionD.Rolling5.属于实时计算框架的是?A.MapReduceB.SparkBatchC.FlinkD.Hive6.Kafka生产者分区策略不包括?A.轮询B.哈希C.自定义D.随机7.HBaseRowkey设计原则不包括?A.唯一B.长度适中C.避免热点D.必须有序8.数据仓库维度建模的核心表是?A.事实表B.维度表C.临时表D.视图9.Spark本地模式的参数是?A.localB.standaloneC.yarnD.mesos10.属于列式存储数据库的是?A.MySQLB.PostgreSQLC.HBaseD.ClickHouse多项选择题(10题,2分/题)1.Hadoop核心组件包括?A.HDFSB.MapReduceC.YARND.Spark2.Spark运行模式有?A.localB.standaloneC.yarnD.mesos3.大数据处理场景包括?A.离线计算B.实时计算C.交互式分析D.机器学习4.Hive元数据可存储于?A.DerbyB.MySQLC.PostgreSQLD.Oracle5.Flink核心特性有?A.批流一体B.Exactly-OnceC.状态管理D.低延迟6.Kafka核心组件包括?A.ProducerB.ConsumerC.BrokerD.Topic7.数据仓库建模方法包括?A.维度建模B.关系建模C.StarSchemaD.SnowflakeSchema8.Spark转换算子包括?A.mapB.filterC.reduceD.count9.HBase特点包括?A.列式存储B.无SchemaC.高可靠D.实时读写10.大数据存储技术包括?A.HDFSB.HBaseC.KafkaD.ClickHouse判断题(10题,2分/题)1.HDFS适合存储大文件,采用主从架构。()2.SparkRDD是不可变的分布式数据集。()3.Hive是数据库,不是数据仓库工具。()4.Flink支持Exactly-Once,SparkStreaming仅At-Least-Once。()5.KafkaTopic可包含多个分区。()6.数据湖存储结构化数据,数据仓库存储原始数据。()7.MapReduce适合离线批处理,模型为“先Map后Reduce”。()8.SparkSQL可直接查询Hive表。()9.HBaseRowkey必须唯一且有序。()10.ClickHouse适合OLAP场景,是列式存储。()简答题(4题,5分/题)1.简述HDFS架构及组件作用。2.SparkRDD的核心特性有哪些?3.简述ETL的三个核心步骤及作用。4.Flink批流一体的设计思路是什么?讨论题(2题,5分/题)1.分析Spark与Flink在实时计算场景的差异及适用场景。2.如何设计高可用的大数据存储架构?---答案填空题1.1282.DataFrame/DataSet3.Derby4.流批一体5.Reduce6.ETL7.Broker(分区)8.DataFrame9.键值(KV)10.原始单项选择题1.C2.C3.A4.D5.C6.D7.D8.A9.A10.D多项选择题1.ABC2.ABCD3.ABCD4.ABCD5.ABCD6.ABCD7.ABCD8.AB9.ABCD10.ABCD判断题1.√2.√3.×4.√5.√6.×7.√8.√9.×10.√简答题1.HDFS架构:主从架构,含NameNode(主节点,存储元数据、管理命名空间)、DataNode(从节点,存储实际数据块)、SecondaryNameNode(辅助合并元数据日志,防止丢失)。2.RDD特性:弹性(容错、动态存储)、分布式、不可变、分区、依赖关系(窄/宽依赖)。3.ETL步骤:①抽取(从源系统取数);②转换(清洗、格式转换、聚合);③加载(写入目标系统,支持增量/全量)。4.Flink批流一体:将所有数据视为流(批是有界流),统一运行时引擎,共享API,兼顾批吞吐量与流延迟,支持Exactly-Once。讨论题1.SparkvsFlink实时场景:-Spark:基于微批处理,延迟较高(百毫秒级),适合准实时(如日志分析);-Flink:基于事件驱动,延迟低(毫秒级),支持状态管理,适合实时(如风控

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论