大数据开发工程师考试试卷及答案_第1页
大数据开发工程师考试试卷及答案_第2页
大数据开发工程师考试试卷及答案_第3页
大数据开发工程师考试试卷及答案_第4页
大数据开发工程师考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据开发工程师考试试卷及答案一、填空题(共10题,每题1分)1.Hadoop的三大核心组件包括HDFS、MapReduce和______。2.Spark中不可变的分布式数据集简称______。3.Hive元数据默认存储的数据库是______。4.Kafka中消息的存储载体称为______。5.Flink状态管理分为键控状态和______状态。6.MapReduce的核心阶段是Map和______。7.HDFS默认文件块大小为______MB。8.SparkSQL默认执行引擎是______。9.ZooKeeper的核心角色包括Leader、Follower和______。10.NoSQL数据库类型包括键值型、文档型、列族型和______型。答案:1.YARN2.RDD3.Derby4.主题(Topic)5.算子6.Reduce7.1288.Catalyst9.Observer10.图二、单项选择题(共10题,每题2分)1.属于Hadoop分布式文件系统的是()A.MapReduceB.HDFSC.YARND.Spark2.Spark核心计算模型是()A.磁盘计算B.内存计算C.CPU计算D.网络计算3.Kafka生产者默认分区策略是()A.轮询B.哈希C.随机D.自定义4.Hive定义表结构的语句是()A.CREATETABLEB.SELECTC.INSERTD.UPDATE5.Flink处理实时流的核心是()A.微批B.流处理C.批处理D.混合处理6.MapReduce中Map输出先存于()A.HDFSB.本地磁盘C.ZooKeeperD.Kafka7.Spark中带Schema的数据集是()A.RDDB.DataFrameC.元组D.列表8.Kafka主题可包含多个()A.分区B.消费者C.生产者D.以上都是9.HDFS存储实际数据的节点是()A.NameNodeB.DataNodeC.SecondaryNameNodeD.ZooKeeper10.实时计算框架是()A.MapReduceB.HiveC.FlinkD.HBase答案:1.B2.B3.A4.A5.B6.B7.B8.D9.B10.C三、多项选择题(共10题,每题2分)1.Hadoop生态组件包括()A.HDFSB.MapReduceC.YARND.Spark2.Spark优点有()A.内存计算B.容错性好C.实时处理D.兼容Hadoop3.Flink窗口类型包括()A.滚动窗口B.滑动窗口C.会话窗口D.全局窗口4.Kafka核心组件包括()A.生产者B.消费者C.主题D.Broker5.Hive支持的存储格式有()A.CSVB.ParquetC.ORCD.JSON6.Spark运行模式包括()A.本地模式B.伪分布式C.YARN模式D.Standalone7.NoSQL特点有()A.非结构化B.高扩展性C.分布式D.强ACID8.HDFS高可用方案包括()A.NameNodeHAB.DataNodeHAC.联邦HDFSD.ZooKeeperHA9.Flink状态后端包括()A.MemoryStateBackendB.FsStateBackendC.RocksDBStateBackendD.HDFSStateBackend10.大数据场景包括()A.离线分析B.实时计算C.数据挖掘D.机器学习答案:1.ABCD2.ABCD3.ABCD4.ABCD5.ABCD6.ABCD7.ABC8.AC9.ABC10.ABCD四、判断题(共10题,每题2分)1.HDFS的NameNode存储实际数据。()2.Spark的RDD是不可变的。()3.Kafka消费者采用拉模式。()4.Hive是列式存储数据库。()5.Flink支持Exactly-Once语义。()6.MapReduce的Reduce阶段可多个。()7.ZooKeeper协调分布式节点。()8.SparkSQL只能处理结构化数据。()9.Kafka主题分区可动态调整。()10.HBase是列式NoSQL数据库。()答案:1.×2.√3.√4.×5.√6.√7.√8.×9.×10.√五、简答题(共4题,每题5分)1.简述Hadoop三大核心组件及作用。答案:Hadoop三大组件为HDFS、MapReduce、YARN。HDFS是分布式文件系统,NameNode管理元数据,DataNode存储实际数据;MapReduce是分布式计算框架,拆分任务为Map和Reduce并行处理;YARN是资源管理框架,调度集群资源,为上层应用(如Spark)提供服务,提升集群利用率。2.对比RDD、DataFrame、Dataset的区别。答案:RDD是Spark早期抽象,无Schema、强类型,性能低;DataFrame带Schema,以Row为单位,支持SQL,性能优于RDD但无强类型;Dataset结合两者优势,支持类型安全和高效SQL,是Spark2.0+推荐抽象,兼顾灵活与性能。3.简述Kafka工作原理。答案:Kafka是流平台,生产者向主题发送消息,主题分多分区存储;Broker存储分区数据;消费者通过消费者组拉取消息,实现并行消费;通过日志持久化消息,支持高吞吐量、容错,适用于实时流处理、日志收集。4.Flink与SparkStreaming的区别。答案:Flink是真正流处理,事件驱动,低延迟(毫秒级)、Exactly-Once;SparkStreaming是微批处理,拆分为小批次(1秒),延迟高(秒级)。Flink状态管理更灵活,窗口丰富;SparkStreaming依赖SparkCore,生态成熟。Flink适用于高实时场景,SparkStreaming适用于准实时。六、讨论题(共2题,每题5分)1.如何优化Spark作业性能?答案:优化可从多方面:①数据:用Parquet/ORC列式存储,Snappy压缩,减少IO;②计算:合理分区(避免倾斜),用广播变量减少Shuffle,避免笛卡尔积;③资源:调整Executor内存/CPU,用YARN队列调度;④API:优先Dataset/DataFrame(比RDD高效);⑤参数:设置Shuffle分区数、Executor内存占比。通过这些提升效率,降低资源消耗。2.如何设计高可用Kafka集群?答案:需:①多Broker(至少3个),避免单点;②副本机制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论