大数据运维工程师岗位招聘考试试卷及答案_第1页
大数据运维工程师岗位招聘考试试卷及答案_第2页
大数据运维工程师岗位招聘考试试卷及答案_第3页
大数据运维工程师岗位招聘考试试卷及答案_第4页
大数据运维工程师岗位招聘考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据运维工程师岗位招聘考试试卷及答案一、填空题(10题,每题1分)1.HDFS默认的数据块大小是______MB2.YARN中负责资源调度的核心组件是______3.Spark的核心抽象是______4.Hive元数据默认存储在______数据库5.ZooKeeper的leader选举算法是______6.Kafka消息分区的默认策略是______7.Flume中负责收集数据的组件是______8.HBase行键设计应避免______9.Storm拓扑的核心组件包括Spout和______10.大数据治理的核心目标是______二、单项选择题(10题,每题2分)1.以下不属于HDFS核心组件的是?A.NameNodeB.DataNodeC.ResourceManagerD.SecondaryNameNode2.YARN容器不调度的资源是?A.CPUB.内存C.磁盘D.网络带宽3.Spark中属于宽依赖的算子是?A.mapB.filterC.groupByKeyD.flatMap4.Hive中错误的描述是?A.分区按列值分目录B.分桶按哈希值分文件C.分区提高查询效率D.分桶不支持Join优化5.Kafka消费者偏移量默认存储在?A.ZooKeeperB.本地文件C.Kafka内部主题D.HDFS6.ZooKeeper永久节点类型是?A.EPHEMERALB.PERSISTENTC.EPHEMERAL_SEQUENTIALD.PERSISTENT_SEQUENTIAL7.Flume中Avro类型的Source是?A.ExecSourceB.SpoolingDirectorySourceC.AvroSourceD.KafkaSource8.HBaseRegion分裂触发条件是?A.行数阈值B.存储大小阈值C.时间阈值D.请求数9.StormWorker默认端口是?A.6700B.6701C.8080D.909210.大数据平台常用监控工具是?A.NagiosB.JenkinsC.MavenD.Git三、多项选择题(10题,每题2分,多选/少选/错选不得分)1.YARN核心组件包括?A.ResourceManagerB.NodeManagerC.ApplicationMasterD.Container2.Spark部署模式有?A.LocalB.StandaloneC.YARND.Mesos3.Hive优化方法包括?A.分区B.分桶C.向量化查询D.数据压缩4.Kafka架构组件包括?A.BrokerB.TopicC.PartitionD.ConsumerGroup5.ZooKeeper应用场景有?A.分布式锁B.配置中心C.集群管理D.leader选举6.Flume拦截器类型包括?A.TimestampInterceptorB.HostInterceptorC.RegexInterceptorD.AvroInterceptor7.HBase特性包括?A.列式存储B.无schemaC.高可靠D.实时读写8.Storm流分组方式包括?A.ShuffleGroupingB.FieldsGroupingC.AllGroupingD.GlobalGrouping9.大数据安全措施包括?A.数据加密B.访问控制C.审计日志D.脱敏处理10.常见大数据计算框架有?A.MapReduceB.SparkC.FlinkD.Storm四、判断题(10题,每题2分,√/×)1.HDFS数据块默认复制3份。______2.YARNNodeManager负责资源调度。______3.SparkRDD是不可变的。______4.Hive内部表删除时删除元数据和数据文件。______5.Kafka分区内消息有序。______6.ZooKeeper保证严格线性一致性。______7.Flume事务基于Channel实现。______8.HBase列族创建后可修改。______9.Storm拓扑可动态调整并行度。______10.大数据价值密度高于传统数据。______五、简答题(4题,每题5分)1.简述HDFS架构及核心组件作用。2.简述YARN与MapReduce1.x的区别。3.简述Spark核心概念(RDD、DAG、宽/窄依赖)。4.大数据运维常见监控指标有哪些?六、讨论题(2题,每题5分)1.如何设计大数据平台高可用架构(HDFS、YARN、ZooKeeper)?2.大数据运维中数据倾斜的排查与解决方法?---答案部分一、填空题1.128;2.ResourceManager;3.RDD;4.Derby;5.FastLeaderElection;6.轮询;7.Source;8.热点问题;9.Bolt;10.数据安全、质量、合规二、单项选择题1.C;2.D;3.C;4.D;5.C;6.B;7.C;8.B;9.A;10.A三、多项选择题1.ABCD;2.ABCD;3.ABCD;4.ABCD;5.ABCD;6.ABC;7.ABCD;8.ABCD;9.ABCD;10.ABCD四、判断题1.√;2.×;3.√;4.√;5.√;6.×;7.√;8.×;9.√;10.×五、简答题1.HDFS架构及组件:HDFS是分布式文件系统,核心组件为NameNode(元数据管理,存储文件目录、块位置)、DataNode(存储实际数据块,定期汇报块信息)、SecondaryNameNode(辅助合并元数据日志,避免单点故障时元数据丢失)。2.YARN与MR1.x区别:MR1.x用JobTracker(资源+任务管理)+TaskTracker,存在单点故障;YARN分离资源调度(ResourceManager)和任务管理(ApplicationMaster),支持多框架(Spark/Flink),资源利用率更高、扩展性更好。3.Spark核心概念:RDD(弹性分布式数据集,不可变、分区、依赖);DAG(作业转化为有向无环图,调度任务);窄依赖(子分区仅依赖父1分区,如map);宽依赖(子分区依赖父多分区,如groupByKey,触发Shuffle)。4.常见监控指标:集群资源(CPU/内存/磁盘使用率)、组件状态(NameNode/DataNode存活)、作业指标(Spark作业耗时/失败率)、数据指标(HDFS块复制数、Kafka消息堆积)、系统指标(服务器负载、磁盘IO)。六、讨论题1.高可用架构设计:-HDFS:配置NameNodeHA,用QJM/共享存储同步元数据,ZKFC自动故障切换;-YARN:ResourceManagerHA,依赖ZooKeeper选举;-ZooKeeper:奇数节点部署(3/5),ZAB协议保证一致性;-冗余:DataNode/NodeManager多节点部署,监控(Nagios)实时告警。2.数据倾斜排查与解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论