版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年运营运维能力测试题及答案1.(单选)某电商大促期间,订单峰值达日常12倍,系统CPU利用率飙至95%,以下哪项措施能在不扩容的前提下最快降低CPU压力并保障用户支付链路可用?A.立刻关闭所有非支付接口的日志落盘B.将Redis持久化策略由AOF每秒同步改为noappendfsynconwriteC.动态下调支付链路中库存预占的缓存过期时间从30s到5sD.在线关闭订单详情页推荐模块的实时算法接口答案:D解析:推荐算法接口通常计算密集且非核心,可秒级降级;A、B对CPU缓解有限且风险高;C会放大缓存击穿概率。2.(单选)Kubernetes集群中,某Deployment滚动更新时频繁触发“Podpending”,describe发现“0/3nodesareavailable:3node(s)hadtaint{noderole.kubernetes.io/master:},thatthepoddidn’ttolerate”。最优雅的修复方式是:A.给该Deployment增加tolerations匹配mastertaintB.手动删除master节点上的taintC.在工作节点池扩容并关闭master的ScheduleDisableD.将该Deployment的nodeSelector改为worker节点标签答案:D解析:master默认不跑业务负载,最优雅做法是让Pod调度到worker,而非强行容忍污点。3.(单选)某业务使用RocketMQ4.9,消费组出现大量“RECONSUME_LATER”,排查发现消费逻辑幂等且RT<100ms,最可能根因是:A.消费线程池核心线程数过少B.broker写入量突增导致拉取流量限速C.消费者实例数量大于队列数D.订阅表达式使用了SQL92过滤且broker未开启过滤服务器答案:C解析:RocketMQ要求实例数≤队列数,否则多出的实例永远分不到队列,只能反复重试返回RECONSUME_LATER。4.(单选)为了把MySQL8.0从云厂商A迁移到B,要求停机窗口<3min,数据量600GB,以下方案中最可行的是:A.mysqldump+gzip压缩跨云导入B.基于GTID的异步复制+业务低峰期切换VIPC.使用select…intooutfile+并行loaddataD.通过binlog+Kafka+自研消费程序回放答案:B解析:GTID复制可保证一致性,切换仅需秒级;dump/outfile耗时远超窗口;D复杂且易延迟。5.(单选)某Serverless平台收到用户投诉“冷启动平均8s”,平台使用Containerd+Knative,以下优化手段收益最大的是:A.将基础镜像从ubuntu:22.04换成alpine并做multistagebuildB.在QueueProxysidecar中开启HTTPkeepaliveC.把并发请求阈值从10调到100D.使用PVC预热代码仓库答案:A解析:镜像体积是冷启动瓶颈,alpine可减少70%拉取时间;B、C对冷启动无直接收益;D与Serverless瞬时扩缩容理念冲突。6.(单选)某企业采用GitLabCI,流水线中“mvntest”阶段频繁因内存溢出失败,runner为dockerexecutor,以下哪项调整最治本?A.在.gitlabci.yml里增大maven的Xmx并给runner容器分配更多memoryB.将runnerexecutor改为shell,避免dockeroverlay2开销C.把单元测试拆成并行矩阵任务D.升级GitLab至最新版答案:A解析:OOM直接原因是JVM堆不足,治本需调大堆并同步调大容器limit;C可缓解但非根因;B、D无关。7.(单选)某业务日志格式为“2025062014:23:10.345|INFO|traceId=abc123|userId=10086|…”,现需在Loki中实现“按userId查询最近7天所有trace”,最佳实践是:A.在promtailpipeline阶段将userId提取为labelB.直接通过LogQL的|=“userId=10086”过滤C.把userId写入日志头部并开启Loki的structuredmetadataD.在Grafana中创建变量userId,使用正则变量捕获答案:B解析:高基数字段(userId)若做label会击爆index;LogQL流式过滤即可;C的structuredmetadata尚处实验阶段。8.(单选)某接口SLA要求99.99%,近30天可用性为99.8%,错误主要由“connectionreset”引起,以下哪项监控指标最能直接定位问题?A.TCP重传率B.进程文件句柄数C.非200状态码占比D.网卡softnetbacklog答案:A解析:connectionreset多由丢包或RST触发,重传率直接反映网络质量;B、D为间接指标;C已包含在可用性计算中。9.(单选)某团队使用Terraform管理多云资源,因状态文件过大导致plan耗时5min,以下优化措施无效的是:A.开启state文件consul锁B.使用terraformtarget分批执行C.将历史状态迁移到remotes3+workspace拆分D.启用graph并行度选项答案:A解析:consul锁仅保证并发安全,不缩短plan时间;B、C、D均可减少需解析的资源量。10.(单选)某AI推理服务使用TeslaT4GPU,白天流量高峰RT从80ms涨到600ms,GPU利用率却从35%降到15%,最可能瓶颈在:A.PCIe带宽B.CPU预处理队列C.GPU显存带宽D.推理框架的batchsize动态收缩答案:B解析:GPU利用率下降说明数据供给不足,CPU预处理(图片解码、resize)跟不上;A、C与RT涨GPU降矛盾;D会使GPU利用率升高。11.(单选)某公司在阿里云使用ECS+ESS弹性伸缩,发现扩容时新实例经常“启动中”超过15min,最终失败,最可能原因是:A.自定义镜像未安装cloudinitB.伸缩组关联负载均衡权重为0C.镜像市场费用欠费D.实例规格库存不足答案:A解析:cloudinit缺失导致实例无法向ESS汇报“运行中”,伸缩组判定超时;B、C、D均会报错但现象不同。12.(单选)某团队将Zookeeper3.4升级到3.7后,客户端频繁出现“ConnectionLoss”,排查发现服务端maxClientCnxns=60,以下哪项可根治?A.在客户端把连接池maxConnsPerHost下调到30B.在zoo.cfg中增大maxClientCnxns到0(无限制)C.开启客户端jute.maxbuffer=4MBD.将sessionTimeout从20s提到60s答案:B解析:3.7默认maxClientCnxns=0,升级后若保留老配置60,高并发下会主动踢掉连接;设为0即关闭限制。13.(单选)某业务使用Nginx+Lua实现WAF,规则更新后CPU飙至100%,以下哪项手段可在线回滚且零流量损失?A.重启nginxmaster进程B.使用lua_code_cacheoff重新加载C.通过ngx.timer.at异步清空共享内存字典D.在Consul下发标记,Lua逻辑中动态跳过新规则答案:D解析:Consul配置中心+代码开关可实现秒级无损降级;A、B、C均有断链或性能抖动。14.(单选)某企业私有云采用CephRBD,客户端IO延迟偶发飙至2s,发现对应OSD有“slowrequest”日志,以下哪项排查顺序最合理?①检查OSD主机负载②检查backfill&recovery状态③检查磁盘smartctl④检查网络rttA.①②③④B.④③①②C.②①④③D.③④①②答案:C解析:Ceph先排除内部backfill抢占,再看负载,再查网络,最后磁盘硬件。15.(单选)某团队使用Istio1.18,发现同一服务两个版本并行时,偶尔出现“503UCupstream_reset”,以下哪项配置调整可解决?A.在DestinationRule中设置trafficPolicy.connectionPool.tcp.maxConnections=1024B.在VirtualService中增加timeout=30sC.在Sidecar代理中关闭protocolDetectionTimeoutD.将PeerAuthentication的mTLS模式设为DISABLE答案:A解析:UCupstream_reset常因连接池超限主动断流;调大maxConnections即可;B、C、D与reset无直接关联。16.(单选)某日志系统使用Elasticsearch8.11,写入TPS8万,集群出现“circuit_breaking_exception”,以下哪项优化风险最大?A.把indices.memory.index_buffer_size从10%提到30%B.在写入端批量把doc_values关闭C.降低fielddata断路器限制到5%D.把translog.durability改为async答案:B解析:doc_values关闭后聚合查询将依赖fielddata,极易触发内存熔断且无法回退;A、D为常规写优化;C是只读优化。17.(单选)某公司业务跑在ARM服务器,容器镜像为x86编译,使用QEMU用户态模拟,启动耗时3min,以下方案最能提速?A.在Dockerfile中引入multiarch并buildx编译出arm64原生镜像B.将宿主机内核升级至5.15C.在dockerdaemon中开启experimental特性D.使用alpine镜像答案:A解析:原生arm64镜像可消除二进制翻译;B、C、D对QEMU模拟收益有限。18.(单选)某团队使用Prometheus+Thanos,查询7天前的指标超时,发现ThanosStoreGateway内存占用80GB,以下哪项调优最见效?A.调大Store的–chunkpoolsizeB.调小–indexcachesize到1GBC.开启–shipper.uploadcompactedD.将块大小从2h降到1h答案:B解析:indexcache过大会导致查询扫描索引膨胀,适当调小并依赖memcached可显著降低latency;A、C、D与查询7天指标无直接关联。19.(单选)某银行核心系统使用IBMMQ9.2,要求“零消息丢失”,以下哪项配置组合最能满足?A.非持久消息+镜像队列+Fastpath通道B.持久消息+同步磁盘写+队列全日志+HA组C.持久消息+异步刷盘+批处理提交D.非持久消息+内存通道+自动扩展队列答案:B解析:持久+同步写+全日志+HA可保证单机宕机零丢失;A、C、D均存在宕机丢数据窗口。20.(单选)某SaaS平台使用多租户共享MySQL,为防租户数据倾斜,以下哪种分片策略最能避免热点?A.按租户ID哈希分128库B.按租户创建时间范围分表C.按订单ID雪花算法高低位分库D.按租户ID+月份联合哈希答案:D解析:纯租户哈希易使大租户集中,加入月份可打散;C与租户无关;B会造成时间热点。21.(多选)某视频直播APP晚高峰出现“花屏+卡顿”,排查发现CDN回源带宽充足、源站CPU<30%,以下哪些指标最有帮助?A.GOP大小B.播放器首帧时间C.上行推流丢包率D.CDN节点TCP连接数E.源站磁盘I/Outil答案:A、B、C解析:花屏多与GOP错乱、丢包有关;首帧时间长说明关键帧缺失;D、E与花屏无直接关联。22.(多选)某团队使用ClickHouse23.3,以下哪些做法会导致查询结果非幂等?A.使用MergeTree并开启fsync_after_insert=1B.查询语句包含rand()C.使用ReplacingMergeTree但未finalD.使用MaterializedMySQL引擎,MySQL端更新主键E.查询时设置max_threads=16答案:B、C、D解析:rand()每次结果不同;Replacing未final可能返回重复;MaterializedMySQL主键更新会生成多版本;A、E不影响幂等。23.(多选)某企业混合云使用IPSecVPN打通阿里云与AWS,出现“间歇性SSH卡顿”,以下哪些排查方向合理?A.检查IPSecPMTUD是否被禁止B.检查阿里云侧源/目的检查C.检查AWSVGWBGP路由抖动D.检查两端安全组是否放行TCP22E.检查VPN监控隧道重协商次数答案:A、B、C、E解析:D已能建立SSH,与卡顿无关;其余均可导致MTU或路由抖动。24.(多选)某团队使用ArgoCD做GitOps,以下哪些操作会导致ApplicationSet生成的Application出现“OutOfSync”?A.手动kubectlscaledeployment副本B.在Git仓库修改ApplicationSet的generator列表C.集群内CRD版本升级字段变更D.在ArgoCDUI中勾选SkipSchemaValidationE.修改Application的syncPolicy.automated.selfHeal=true答案:A、C解析:A直接改现场副本数;C导致字段diff;B改的是ApplicationSet本体,不会导致OutOfSync;D、E为同步策略,不改变期望状态。25.(多选)某业务使用SpringCloudGateway,以下哪些Filter会阻塞Nettyworker线程?A.AddRequestHeaderB.ModifyRequestBodyC.RetryD.RequestRateLimiter基于Redis令牌桶E.SecureHeaders答案:B、C解析:ModifyRequestBody需聚合body;Retry需等待重试;A、D、E均为异步。26.(多选)某团队使用Flink1.17做实时风控,以下哪些场景会导致checkpoint超时?A.使用AsyncI/O且超时设为60sB.使用RockDBStateBackend并开启增量checkpoint,磁盘IO饱和C.使用atleastonce模式,barrier对齐超时D.使用DataStreamkeyBy后并行度大于Kafka分区数E.使用UnalignedCheckpoint但网络缓冲不足答案:B、C、E解析:IO饱和、对齐超时、缓冲不足均会超时;A的AsyncI/O超时与checkpoint无关;D会导致数据倾斜,不直接超时。27.(多选)某公司使用WindowsAD+LinuxKerberos打通身份认证,以下哪些端口必须开放?A.88B.135C.389D.445E.3268答案:A、C、E解析:88Kerberos;389LDAP;3268GC;135、445用于RPC文件共享,非必需。28.(多选)某团队使用NginxIngress,以下哪些Annotation可实现“灰度发布按权重50%”?A.nginx.ingress.kubernetes.io/canary:“true”B.nginx.ingress.kubernetes.io/canaryweight:“50”C.nginx.ingress.kubernetes.io/canarybyheader:“gray”D.nginx.ingress.kubernetes.io/canarybycookie:“version”E.nginx.ingress.kubernetes.io/upstreamhashby:“$remote_addr”答案:A、B解析:A开启灰度,B设权重;C、D为header/cookie分流;E为一致性哈希。29.(多选)某企业使用Vault管理密钥,以下哪些做法符合“零信任”原则?A.启用AppRole+responsewrappingB.把roottoken写入CI环境变量C.使用短期动态AWSSTS凭据D.给每个Pod注入独立identitytokenE.关闭audit日志减少IO答案:A、C、D解析:B违反最小权限;E关闭审计不可追溯;A、C、D均体现动态身份与最小暴露。30.(多选)某团队使用KubeVirt运行虚拟机,以下哪些操作会导致VMI磁盘数据落盘不一致?A.在线快照时VMI负载IO>5GB/sB.使用hostpath存储且宿主机断电C.使用CDI导入镜像时强制中断D.在VM内执行fsfreeze–freeze后立刻打快照E.使用RWX模式PVC同时挂载到2个VMI答案:A、B、C、E解析:A高IO打快照可能缺一致性;B、C易损坏文件系统;Dfreeze后快照一致;E并发写导致损坏。31.(填空)某系统使用Raft协议,Leader向Follower复制日志时,若网络出现分区,Follower在__________超时时间内未收到心跳,会发起新一轮选举。答案:electiontimeout(或选举超时)32.(填空)Linux内核参数__________用于控制TIME_WAITsocket最大数量,避免因端口耗尽无法建立新连接。答案:net.ipv4.tcp_max_tw_buckets33.(填空)在PostgreSQL中,使用__________扩展可以创建基于倒排索引的GIN索引,加速全文检索。答案:pg_trgm(或btree_gin,但pg_trgm更通用)34.(填空)某云函数冷启动耗时900ms,经profiling发现Pythonimport占600ms,可将依赖打包成__________层以减少重复拉取。答案:LambdaLayer(或“层”,答“容器镜像”亦可)35.(填空)在BGP协议中,__________属性用于防止路由在AS之间环路。答案:AS_PATH36.(填空)使用DockerBuildKit时,在Dockerfile中加入语法声明__________可启用更高效的mount缓存。答案:syntax=docker/dockerfile:1.4(或含mount=type=cache)37.(填空)某企业使用WindowsServer2022SMBoverQUIC,默认监听__________端口。答案:44338.(填空)在Istio中,__________资源用于定义外部服务的TLS模式,可实现EgressmTLS。答案:DestinationRule(或ServiceEntry+DestinationRule,答DestinationRule即可)39.(填空)某团队使用Cilium,__________特性可替代kubeproxy实现eBPF加速的Service负载均衡。答案:KubeProxyReplacement40.(填空)使用Linuxtc做流量控制时,__________队列规则可实现令牌桶限速。答案:tbf(TokenBucketFilter)41.(判断)在Zookeeper中,临时节点在客户端session超时后会被自动删除。答案:正确42.(判断)MySQL的redolog采用WAL机制,因此binlog落盘一定先于redolog。答案:错误解析:redolog先落盘,binlog后落盘,两阶段提交保证一致性。43.(判断)使用Nginx的proxy_cache_background_update可在缓存过期时异步回源,减少客户端等待。答案:正确44.(判断)在Flink中,使用ProcessingTime窗口可以保证消息乱序场景下的结果一致性。答案:错误解析:ProcessingTime受机器时钟影响,无法处理乱序。45.(判断)Ceph的CRUSH算法可保证在扩容OSD后数据立即自动均衡,无需触发backfill。答案:错误解析:需触发backfill,只是CRUSH计算出新位置。46.(判断)Linux的SO_REUSEPORT选项允许多个进程监听同一端口,由内核做负载均衡。答案:正确47.(判断)在HTTP/2中,服务端推送(ServerPush)可以跨域推送第三方资源。答案:错误解析:需遵循同源策略。48.(判断)使用Terraform的count循环创建资源时,删除中间某个元素会导致后续资源重建。答案:错误解析:使用count索引,删除中间元素仅重建被删及后续;若用for_each则不会。49.(判断)在Kubernetes中,EphemeralContainer必须声明resources.limits,否则无法调度。答案:错误解析:临时容器共享目标容器资源,无需单独limits。50.(判断)Windows的NTFS文件系统支持稀疏文件(SparseFile),可节省磁盘空间。答案:正确51.(简答)描述一次“Pod频繁重启”的完整排查思路,至少包含6个步骤。答案:1.kubectldescribepod查看LastState与ExitCode,区分OOM、Error、CrashLoopBackOff;2.kubectllogs–previous获取上次退出日志,定位异常栈;3.查看limits/requests是否合理,对比实际内存/CPU使用;4.检查liveness/readiness探针路径、延迟、阈值;5.查看节点资源压力:kubectltopnode、/var/log/messages、OOMkiller记录;6.检查依赖服务(DB、缓存)是否超时导致进程自杀;7.若镜像为latest,核对imagePullPolicy与digest是否变动;8.使用kubectldebug或ephemeral容器在线strace、jstack;9.最后查看CM、Secret是否挂载失败导致启动脚本退出。52.(简答)说明RedisBigKey的危害及3种在线治理手段。答案:危害:1.阻塞单线程,延迟飙高;2.主从同步、RDB、AOF重写耗时剧增;3.分片集群中造成数据倾斜,节点内存不均;4.删除时导致卡顿,甚至触发lazyfree阻塞。治理手段:1.使用rediscli–bigkeys扫描,结合memoryusage命令定位;2.对string>10KB、list>5000元素采用“拆分”或“压缩”(如intset、ziplist升级);3.使用UNLINK替代DEL,启用lazyfree;4.在低峰期通过SCAN+SSCAN分片删除,避免一次性阻塞;5.对可过期数据设置随机TTL,打散删除时间点;6.采用Redis6.2以上版本,开启activeexpireeffort动态调整。53.(简答)阐述一次“全链路灰度”在微服务场景下的落地关键点。答案:1.流量染色:网关层根据用户ID、header、cookie打标签,传递trace染色;2.路由隔离:注册中心(Nacos、Consul)支持元数据路由,灰度服务带version标签;3.数据隔离:灰度流量写影子库/影子表,或采用字段version区分;4.配置隔离:Apollo、Nacos配置namespace按label下发;5.中间件兼容:RocketMQ、RabbitMQ使用灰度topic或消息属性过滤;6.监控对比:灰度与基线分别建大盘,对比错误率、RT、SA;7.可回滚:支持一键切断染色路由,秒级回到基线;8.资源成本:灰度实例占比<10%,采用HPA弹性;9.安全合规:灰度数据脱敏,避免真实用户敏感信息泄露;10.验收标准:灰度通过率>99.9%且业务指标无异常持续24h,方可全量。54.(简答)列举Linux系统“假死”现象的4种常见根因及快速恢复手段。答案:1.进程D状态(不可中断睡眠):由磁盘IOhang引起,echow>/proc/sysrqtrigger查看D栈,快速恢复需重启IO路径或更换硬盘;2.内存耗尽触发OOM但未选中关键进程:关闭swap、调大min_free_kbytes,手动触发OOMkiller;3.软死锁(softlockup):内核模块死循环,升级内核或kprobe禁用模块;4.文件描述符耗尽:systemd设置DefaultLimitNOFILE=65535,快速恢复通过lsof|awk统计后kill泄漏进程;5.cgroupthrottle:CPU带宽被严格限制,echo1>cpu.cfs_quota_us;6.inode耗尽:dfi查看,快速删除小文件目录。55.(简答)说明一次“Kafka集群扩容”的平滑方案,要求零数据迁移、对生产无感。答案:1.新节点以空broker加入集群,关闭自动leaderrebalance;2.使用kafkareassignpartitions工具生成迁移计划,但先不执行;3.对新broker设置空confluent.balancer.enable,避免自动均衡;4.通过kafkaconfigs给新broker添加follower.replication.throttled.rate=0,暂时禁止数据复制;5.逐topic、逐分区使用–generate但–execute分批次,避开高峰;6.迁移过程动态观察ISR、UnderReplicatedPartitions,确保副本同步完成;7.迁移后逐步放开throttle,降低限流阈值;8.最后开启自动均衡,删除throttle配置;9.全程在业务低峰操作,客户端开启metadata.max.age.ms=10s,秒级感知新分区;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年长沙商贸旅游职业技术学院单招职业适应性测试题库有答案详解
- 2025年江西长旅商业运营管理集团公开招聘备考题库及1套完整答案详解
- 浙江省肿瘤医院2026年公开招聘128人备考题库及一套参考答案详解
- 2026年山西省忻州市高职单招综合素质考试题库附答案详解
- 2026年重庆建筑科技职业学院单招职业适应性测试题库及答案详细解析
- 杭州职业技术大学2025年下半年公开招聘高层次人才29人备考题库含答案详解
- 云南铝业股份有限公司2026年高校毕业生招聘73人备考题库(含答案详解)
- 2025年内蒙古能源集团招聘504人备考题库及答案详解参考
- 2025年重庆大学继续教育学院劳务派遣管理人员招聘备考题库及参考答案详解1套
- 2025年“才聚齐鲁成就未来”山东钢铁集团有限公司高校毕业生招聘备考题库及参考答案详解一套
- 2026届广东华南师大附中数学高一下期末达标检测模拟试题含解析
- 2025年郑州电力高等专科学校单招职业技能考试试题及答案解析
- 2025年宜春职业技术学院单招综合素质考试试题及答案解析
- 家政保洁服务标准化手册
- 2026天津宏达投资控股有限公司及所属企业招聘工作人员16人备考题库带答案详解(完整版)
- 洁净灯具施工方案(3篇)
- 政治试题-汕头市2025-2026学年度普通高中毕业班教学质量监测(含解析)
- 2026-2030中国一次性餐盒行业深度调研及投资前景预测研究报告
- 2026年春苏教版新教材小学科学二年级下册(全册)教学设计(附教材目录P97)
- 三项管理制度及生产安全事故应急救援预案
- 2026年国家电网招聘之电网计算机考试题库500道含完整答案(历年真题)
评论
0/150
提交评论