版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年大数据运维工程师专业笔试题库及答案解析1.以下哪种存储系统最适合存储TB-PB级别的非结构化冷数据,且存储成本最低?A.SSD本地盘B.HDFSC.对象存储D.SAN网络存储答案:C解析:SSD本地盘读写速度快但单位容量成本高,一般用来做热数据缓存或者计算节点本地存储;HDFS是分布式文件系统,适合存储结构化半结构化的大数据批量处理数据,对于海量非结构化冷数据来说,HDFS的运维成本和存储成本都高于对象存储;对象存储基于扁平地址空间,扩展性极强,单位存储成本很低,针对冷数据可以进一步做归档存储降本,非常适合TB-PB级别的冷非结构化数据存储;SAN是块存储,成本高,容量扩展难度大,不适合海量冷存储。2.大数据场景下,YARN中哪个角色负责整个集群的资源分配与调度?A.NodeManagerB.ResourceManagerC.ApplicationMasterD.Container答案:B解析:NodeManager是单节点的资源管理器,负责本节点的资源监控、容器启动与任务执行汇报;ResourceManager是YARN的全局资源调度核心,负责整个集群的资源分配和调度,处理客户端请求,启动监控ApplicationMaster;ApplicationMaster是每个应用对应的调度角色,负责向RM申请资源,和NM沟通启动容器,调度内部任务;Container是YARN中资源的抽象,封装了节点的CPU、内存等资源,不负责调度分配。3.HDFS默认一个块的大小是多少(Hadoop3.x版本默认配置)?A.64MBB.128MBC.256MBD.512MB答案:B解析:Hadoop2.x和3.x版本默认HDFS块大小都是128MB,早期Hadoop1.x默认是64MB,随着磁盘容量和性能提升,块大小调整为128MB,部分业务会根据需求调整到256MB,但官方默认配置为128MB。4.以下命令中,可以查看Linux系统当前所有网络连接监听端口的是?A.netstat-anp|grepLISTENB.ps-aux|grepLISTENC.top-pLISTEND.df-h|grepLISTEN答案:A解析:ps命令用于查看系统进程信息,top用于查看系统资源占用和进程运行状态,df用于查看磁盘挂载和空间使用情况,只有netstat(同功能的ss命令也可实现)可以查看网络连接和端口状态,参数anp中a表示展示所有连接状态,n表示不解析域名以数字格式显示端口号,p表示显示对应进程信息,过滤LISTEN状态即可得到所有正在监听的端口。1.大数据运维中,常见的HDFS高可用故障场景包括以下哪些?A.NameNode单点故障B.DataNode磁盘坏道导致块丢失C.JournalNode节点数据不同步D.YARN节点资源耗尽答案:ABC解析:HDFS高可用场景针对的是HDFS组件本身的可用性故障,NameNode单点故障是HDFS最核心的高可用问题,HA架构设计就是为了解决该问题;DataNode磁盘坏道导致存储的数据块损坏丢失,属于HDFS常见的存储故障,直接影响数据可靠性,需要运维介入处理;JournalNode在HDFSHA架构中负责存储NameNode的edits操作日志,多个JournalNode数据不同步会导致主备NameNode切换失败,属于HDFS高可用相关故障;YARN资源耗尽是YARN资源调度组件的问题,不属于HDFS本身的高可用故障场景。2.以下属于大数据集群监控系统需要采集的核心指标的是?A.节点CPU使用率、负载、内存使用率B.HDFSNameNode的剩余可用存储、块丢失数C.YARN的可用内存、排队应用数D.Kafka的分区消息堆积量、ISR同步状态答案:ABCD解析:大数据集群监控分为基础设施层和大数据组件业务层两个核心层级,基础设施层需要采集节点本身的CPU、内存、磁盘、网络等基础指标,对应A选项;组件层面需要采集各核心组件的健康和业务指标,HDFS核心指标包括总容量、剩余容量、块损坏丢失数量、NameNode堆内存使用率等,对应B选项;YARN作为资源调度组件,核心指标包括总资源量、可用资源量、排队应用数、运行应用数等,对应C选项;Kafka作为大数据生态主流的消息队列组件,分区消息堆积量、ISR同步状态直接影响整个数据链路的可用性,属于必须采集的核心指标,因此四个选项全部正确。3.下列关于Kafka消费者Rebalance发生的场景,说法正确的有?A.消费者组内新增消费者实例时会触发RebalanceB.消费者组内已有消费者实例宕机离线时会触发RebalanceC.Topic的分区数量发生变化时会触发RebalanceD.消费者订阅的Topic列表发生变化时会触发Rebalance答案:ABCD解析:Kafka的Rebalance本质是消费者组内所有消费者重新分配分区消费权限的过程,只要消费者组成员变化、订阅的分区信息变化,都会触发Rebalance:消费者组新增实例、已有实例宕机离线都属于成员变化,会触发;Topic本身分区数量增加或减少,会导致可分配的分区总量变化,会触发;消费者新增或减少订阅的Topic,订阅列表变化后也会触发Rebalance,因此四个场景全部正确。请简述HDFS写数据的完整流程。答案解析:HDFS写数据流程主要分为以下核心步骤:第一,客户端发起写文件请求,通过RPC调用和NameNode交互,NameNode会校验客户端权限、检查目标文件是否已经存在、检查目录结构是否合法,校验通过后会记录文件元信息,返回可写入该文件块的DataNode地址列表给客户端,地址列表一般按照机架感知的副本放置策略排序,默认三副本的情况下,第一个副本放在客户端所在节点(客户端不在集群内则随机选一个),第二个放在同机架不同节点,第三个放在不同机架的节点,兼顾性能和可靠性。第二,客户端将要写入的文件切割为多个默认大小128MB的数据块,针对第一个块,根据NameNode返回的DataNode列表建立数据传输流水线(pipeline)。第三,客户端开始将块切分为更小的数据包,以流式方式写入第一个DataNode,第一个DataNode接收完数据包后转发给第二个DataNode,第二个再转发给第三个,完成整个流水线的数据传输。第四,每个DataNode写入完成后会向客户端返回确认包,所有数据包全部写入、所有DataNode确认完成后,一个块的写入就完成了,所有块都写入完成后,客户端会向NameNode发送写入完成通知,NameNode完成元信息的最终持久化提交,整个写流程结束。大数据集群出现HDFS块丢失告警,作为运维工程师,你该如何排查处理?答案解析:处理需要按照先排查临时故障再处理永久故障的顺序,步骤如下:第一,先查看告警详情,确认丢失块的数量和影响范围,首先检查集群中是否有DataNode节点处于正在重启、下线维护的状态,有没有节点宕机未上线,如果是节点临时下线导致的告警,只需要等待节点恢复上线,HDFS会自动修复块副本状态,等待10到15分钟后再查看告警是否消除,如果消除则不需要额外处理。第二,如果所有DataNode都正常在线,接下来检查DataNode节点的磁盘状态,查看对应存储目录所在磁盘是否出现坏道、磁盘空间满、挂载点意外脱落等问题,如果是磁盘硬件故障,先将故障DataNode节点安全退役下线,更换新磁盘后重新将节点加入集群,等待HDFS自动复制块副本补全缺失的块即可。第三,如果磁盘状态正常,所有节点都在线,下一步排查是否为NameNode元信息误报,或者文件本身已经无用,可以执行hdfsfsck/命令检查整个HDFS文件系统,定位到丢失块对应的具体文件路径,如果该文件是无用的临时文件、已经废弃的业务数据,直接删除该文件即可清除告警。如果是需要保留的重要文件,先检查是否有其他可用的完整副本,如果因为多个副本同时损坏导致块丢失,只能从最近的备份中恢复对应文件。第四,处理完成后,再次执行hdfsfsck命令确认文件系统没有损坏块,确认监控告警清除,跟进HDFS的块复制进度,直到所有缺失副本补全,集群回到健康状态即可。请说一下大数据运维中降本增效的核心方向,常见的落地措施有哪些?答案解析:大数据集群的存储和计算资源成本占比很高,降本增效是大数据运维的核心工作之一,核心目标是在不影响核心业务SLA的前提下,提升集群资源利用率,降低集群整体拥有成本。常见的落地措施主要分为几个方向:第一,存储层面降本:对数据做冷热分层,热数据存在高速SSD本地盘保障读写性能,温数据存储在HDFS普通磁盘,冷数据归档到低成本对象存储,进一步降低存储成本;定期清理集群中的无用历史数据、临时中间表、任务产生的垃圾文件,对大文件做压缩存储,减少空间占用,同时合并大量小文件,既节省NameNode内存,也提升存储利用率。第二,计算层面降本:对离线任务做错峰调度,利用夜间闲时的空闲资源运行非核心大任务,避免高峰期资源拥堵;回收长期闲置的资源队列,调整各队列的资源配额,让资源向高优先级业务倾斜;基于云原生架构做计算节点的弹性扩缩容,业务高峰期自动扩容节点,闲时自动缩容释放资源,避免闲时资源闲置浪费;优化慢任务和资源倾斜的任务,减少不必要的资源浪费。第三,架构层面降本:合并多个重复建设的小业务集群,整合资源提升整体利用率,下线不再维护的老旧业务集群和废弃业务;推广存算分离架构,存储和计算可以按需独立扩容,避免资源绑定导致的浪费。第四,成本管控层面:建立资源计费体系,给各业务线核算存储和计算资源的使用成本,推动业务主动优化自身资源使用,逐步淘汰低效业务。某公司100节点的Hadoop大数据集群,同时承载日增10TB的离线数仓业务和实时计算业务,某天早间运维收到大量告警,显示YARN所有资源队列都出现大量任务排队,大量MapReduce和Spark任务提交失败,同时监控显示NameNode堆内存使用率达到92%,HDFS整体存储使用率达到88%,请分析可能的故障原因,并给出对应的故障处理步骤。答案解析:可能的故障原因:第一,资源耗尽类原因:前一日夜间批量任务运行结束后,出现YARN容器资源泄漏,大量失败任务的容器没有正常释放,导致集群整体可用资源被占满,新任务无法申请到资源,进而引发排队和提交失败;也可能是业务新增了大量定时任务或者超大任务,整体资源需求量超过了集群总可用资源,引发任务排队。第二,组件性能瓶颈原因:NameNode堆内存使用率达到92%,已经超过了安全阈值,大量元数据占用内存导致NameNodeGC频繁,响应客户端请求变慢,任务申请元信息超时,大量任务重试进一步占用调度和系统资源,加剧了排队和失败。NameNode内存过高大概率是因为集群中存在大量未清理的小文件,小文件会过多占用NameNode堆内存空间,引发性能问题。第三,存储不足引发的连锁故障:HDFS存储使用率达到88%,已经接近集群预设的90%使用率警戒阈值,部分DataNode节点磁盘余量不足,无法写入任务运行产生的中间结果,导致任务写入失败,失败任务不断重试,进一步占用调度资源,最终引发全队列排队。故障处理步骤:第一,紧急恢复,优先保障核心业务:首先清理集群中的僵尸容器和僵尸进程,登陆各NodeManager节点,kill掉已经失败但未正常退出的容器进程,先释放一部分可用资源;然后协调业务方暂时停止非核心任务的提交,优先保障核心数仓任务的运行,缓解调度压力。第二,排查定位根因:查看YARN监控面板,确认集群整体剩余的CPU、内存资源,判断是否是真的资源耗尽:如果确实资源被占满,查看资源占用Top的队列和任务,确认是否是误提交的大任务或者非核心任务,如果是直接终止这些任务释放资源;如果资源剩余充足依然排队,检查ResourceManager本身的运行状态,查看是否GC频繁、进程卡顿,再进一步确认NameNode状态,NameNode堆内存92%已经异常,需要排查是否是大量小文件堆积导致的内存占用过高,执行hdfscount/查看各目录的文件数量,定位小文件堆积的目录。最后确认HDFS存储使用情况,查看是否有大量未清理的临时文件占用空间。第三,针对根因处理:如果是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 焊管机组操作工岗前技能安全考核试卷含答案
- 刻瓷工冲突解决测试考核试卷含答案
- 圆机操作工岗前安全生产规范考核试卷含答案
- 数字孪生应用技术员创新思维水平考核试卷含答案
- 稀硝酸工岗前基础操作考核试卷含答案
- 深圳体检科工作制度
- 清扫机构拆解工作制度
- 湖南乡村医生工作制度
- 澡堂如何运行工作制度
- 煤矿应急岗位工作制度
- 松木桩围挡施工方案
- 机械设备基本知识培训课件
- 零工经济中的女性劳动者权益保障研究
- 消防设施操作员初级实操考试评分标准
- 中药灌肠护理操作规范
- 中国企业出海人力资源挑战白皮书(2024-2025版)
- 大排档租赁合同协议模板
- 西科大雷达对抗原理讲义
- 数智企业经营沙盘模拟实训教程-财务规则
- 流体机械课程设计说明书
- 上肢CT检查技术
评论
0/150
提交评论