版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年人工智能运维基础考试试题及答案一、单项选择题(每题2分,共20分)1.在Kubernetes集群中,当某Pod频繁重启且日志显示“OOMKilled”,最优先排查的指标是A.`container_cpu_usage_seconds_total`B.`container_memory_working_set_bytes`C.`kube_pod_status_phase`D.`container_network_receive_bytes_total`2.使用Prometheus监控GPU节点时,为获取显存占用率,应部署的Exporter是A.node-exporterB.dcgm-exporterC.kube-state-metricsD.nvidia-docker3.某训练任务使用PyTorchDDP,发现NCCL报错`unhandledsystemerror`,首先应检查的环境变量是A.`CUDA_VISIBLE_DEVICES`B.`NCCL_DEBUG=INFO`C.`OMP_NUM_THREADS`D.`PYTHONPATH`4.在GitOps流水线中,ArgoCD检测到HelmChart版本变更却未触发同步,最可能的原因是A.未设置`spec.syncPolicy.automated`B.未配置`imagePullSecrets`C.未启用`podSecurityPolicy`D.未安装`argocd-notifications`5.当Istiosidecar代理出现`503UC`响应码,最可能指向的故障是A.上游Pod健康检查失败B.下游客户端TLS版本不兼容C.目标服务未注册到EurekaD.VirtualService中缺失`timeout`字段6.对大规模推理服务做灰度发布,若采用Knative,可用来按流量比例分流的资源对象是A.RouteB.ConfigurationC.RevisionD.Service7.在OpenTelemetry链路追踪中,用于跨进程传递Trace上下文的协议头名称是A.`X-Trace-ID`B.`traceparent`C.`X-Request-ID`D.`sw8`8.使用Terraform管理多云GPU实例,为降低抢占式实例被回收的风险,应优先选择的策略是A.`spot_max_price="on-demand-price"`B.`instance_initiated_shutdown_behavior="terminate"`C.`placement_group`D.`monitoring=true`9.当KubeflowPipelines的某个组件持续处于“Pending”状态,通过`kubectldescribe`看到`FailedScheduling`事件,消息包含`0/3nodesareavailable:3Insufficientnvidia/gpu`,合理的运维动作是A.给节点打上`nvidia/gpu=true`标签B.安装GPUDevicePluginC.降低`requests.gpu`数值D.删除Pod后重建10.在模型热更新场景,使用TorchServe的`--models`参数启动时,为保证零中断,必须启用的特性是A.`batch_size>1`B.`response_timeout=30`C.`model_snapshot_mode=incremental`D.`model_store=/tmp`答案:1.B2.B3.B4.A5.A6.A7.B8.A9.B10.C解析:1.OOMKilled直接关联内存使用,working-set为Prometheus最贴近内核OOM计量的指标。2.dcgm-exporter基于NVIDIADCGM库,可输出显存、温度、功耗等GPU专属指标。3.NCCL_DEBUG=INFO会打印NCCL初始化与通信细节,是定位系统级错误的首要手段。4.ArgoCD的自动同步由syncPolicy.automated控制,未开启则仅标记OutOfSync。5.503UC(upstreamconnecterror)表示sidecar无法连接上游,通常因Pod未通过健康检查被Envoy剔除。6.KnativeRoute通过流量条目直接控制不同Revision之间的比例。7.W3CTrace-Context规范规定traceparent为官方头部。8.将spot_max_price设为on-demand-price可避免价格超出导致强制回收。9.GPUDevicePlugin负责向kubelet注册nvidia/gpu资源,缺失则调度器无法感知。10.incremental快照仅加载变更权重,无需重启服务器,实现零中断热更新。二、多项选择题(每题3分,共15分;每题至少两个正确答案,多选少选均不得分)11.以下哪些措施可有效降低Transformer大模型推理时的P99延迟A.启用continuousbatchingB.使用FP16权重C.将`max_batch_size`设为1D.开启CUDAGraph捕获E.提升`num_threads`至12812.关于Kubernetes集群级资源治理,合理做法包括A.为GPU节点配置`taints`与`ResourceQuota`B.使用`LimitRange`限制容器最大内存C.通过`PodDisruptionBudget`保护关键离线训练任务D.在`kubelet`中关闭`--fail-swap-on`以支持SwapovercommitE.为Namespace设置`priorityClassName=system-cluster-critical`13.下列属于云原生AI调度框架的是A.VolcanoB.KoordinatorC.YARND.HTCondorE.KubeflowTrainingOperator14.当使用Harbor作为镜像仓库且启用漏洞扫描,以下哪些情况会阻断CI流水线A.镜像包含CRITICAL级别CVE且策略设置为阻塞B.镜像未签名且策略要求Notary签名校验C.镜像大小超过10GiBD.镜像`created`时间戳早于30天E.镜像未配置`scanners/clair`15.在Ray集群运维中,导致`raystatus`显示“noavailablenodes”的常见原因有A.head节点`raystart`未加`--include-dashboard`B.worker节点与head节点`--redis-password`不一致C.安全组未放行6379端口D.worker镜像未安装`ray[default]`E.未设置`AUTOSCALER_MAX_NUM_NODES`答案:11.ABD12.AB13.ABE14.AB15.BCD解析:11.Continuousbatching提高吞吐降低排队,FP16减少显存带宽,CUDAGraph降低kernellaunch开销;max_batch_size=1会增大排队;num_threads过高反而上下文切换加剧。12.关闭swap-on可能导致节点OOM,但AI任务常需关闭swap避免性能抖动;PDB对离线批任务无意义;priorityClassName仅用于系统组件。13.Volcano、Koordinator、TrainingOperator均为CNCF或阿里开源的云原生AI调度组件;YARN与HTCondor非云原生。14.Harbor策略仅关注CVE等级与签名;镜像大小、时间戳、扫描器配置不影响阻塞。15.Redis端口与密码不一致导致worker无法注册;缺失`ray[default]`缺组件;dashboard参数与autoscaler上限不直接影响节点注册。三、判断题(每题1分,共10分;正确打“√”,错误打“×”)16.Kubelet的`--serialize-image-pulls=false`可并行拉取镜像,一定缩短大规模Pod启动时间。17.在Istio中,DestinationRule的`trafficPolicy.tls.mode=SIMPLE`表示双向mTLS。18.使用Horovod进行多机训练,若出现`HorovodAllreduce`挂起,可通过`hvd.shutdown()`后重连恢复。19.Terraform的`local-exec`provisioner会在资源创建完成后于Terraform所在主机执行命令。20.当KnativeService的`containerConcurrency`设为1时,每个Pod同时只处理一个请求,可避免GPU显存抢占。21.`kubectltopnodes`直接读取etcd中的资源使用数据。22.在PyTorch2.x中,`<torchpile>`默认使用Triton生成GPUkernel,因此无需安装CUDAToolkit。23.若Harbor的redis哨兵模式宕机,镜像拉取不受影响。24.使用Slurm运行AI作业,可通过`--gres=gpu:4`申请4张GPU。25.OpenTelemetry的`Baggage`可用于传递业务标签,但不会对Trace采样决策产生影响。答案:16.×17.×18.×19.√20.√21.×22.×23.×24.√25.√解析:16.并行拉取需Docker/containerd配置配合,磁盘I/O或镜像层冲突反而可能降低效率。17.SIMPLE表示单向TLS,MUTUAL才是双向mTLS。18.HorovodAllreduce挂起通常需重启训练进程,hvd.shutdown()仅释放资源,无法重连。19.local-exec确在Terraform执行机运行。20.containerConcurrency=1保证单并发,适合显存常驻场景。21.top命令读取metrics-server,非etcd。22.torchpile仍需CUDAToolkit提供nvcc与驱动。23.Harbor的redis存储token与缓存,哨兵宕机会导致认证失败,拉取受阻。24.Slurmgres语法正确。25.Baggage仅携带键值,不参与采样。四、填空题(每空2分,共20分)26.在Kubernetes中,当使用______卷插件可将对象存储挂载为POSIX文件系统,常用于只读模型权重共享。27.Prometheus的______函数可计算CPU使用率:C28.在KubeflowTrainingOperator的PyTorchJobCRD中,设置______字段可让worker节点在失败时自动重启。29.使用______命令可查看Docker镜像中每层命令及大小,常用于瘦身基础镜像。30.当Istio启用mTLS后,若需让传统HTTP客户端调用,需在DestinationRule中设置______模式。31.在Linux系统,通过______文件可永久修改GPU最大功耗限制。32.若TorchServe返回`OOM_ERROR`,需在`perties`调大______参数。33.在OpenTelemetryCollector配置中,______处理器可用于按TraceID做一致性哈希,实现多实例负载均衡。34.使用______工具可对ONNX模型进行常量折叠与算子融合,减少推理延迟。35.当KnativeAutoscaler采用`kpa`模式,缩容至零的等待时间由______注解控制。答案:26.CSI-s3fs(或s3fs-fuse)27.container_cpu_usage_seconds_total28.restartPolicy=OnFailure29.dockerhistory30.ISTIO_MUTUAL31./etc/nvidia/nvidia-smi.conf(或nvidia-smi-pl持久化)32.default_workers_per_model33.loadbalancing34.onnxruntime-tools(或onnxoptimizer)35.autoscaling.knative.dev/window五、简答题(每题8分,共24分)36.描述一次线上GPU训练任务因NCCL通信hang导致loss不下降的完整排查流程,要求包含使用的Linux命令、Prometheus指标、以及根因定位方法。参考答案:1.观测现象:Grafana面板中`kube_pod_status_phase=Running`但`gpu_utilization`持续为0,训练日志loss停止更新。2.登录worker-0节点,执行`nvidia-smitopo-m`查看NVLink拓扑,确认GPU间链路正常。3.执行`strace-fp<python-pid>`,发现卡在`futex`等待。4.查看NCCL日志:重新提交任务,环境变量加e日志出现`Ring000->001failed:Connecttimeout`。5.Prometheus指标:查询`node_sockstat_TCP_inuse`发现worker-1节点连接数异常高,达28k。6.使用`conntrack-L|grep40127`发现大量`SYN_SENT`状态,定位到安全组未放行40000-40199端口。7.修复安全组后重启任务,loss恢复正常。37.说明如何利用Knative+Istio实现推理服务的金丝雀发布,并给出YAML关键片段,要求支持按Header(X-Canary:v2)进行流量分流。参考答案:1.部署KnativeService:```yamlapiVersion:serving.knative.dev/v1kind:Servicemetadata:name:image-clsspec:template:metadata:name:image-cls-v1spec:containers:image:harbor.example/ai/cls:v1traffic:tag:v1percent:100revisionName:image-cls-v1```2.发布v2revision后,更新Service:```yamltraffic:tag:v1percent:90tag:v2percent:10```3.创建IstioVirtualService实现Header级精准分流:```yamlapiVersion:networking.istio.io/v1beta1kind:VirtualServicemetadata:name:image-cls-canaryspec:hosts:image-cls.default.svc.cluster.localhttp:match:headers:X-Canary:exact:v2route:destination:host:image-cls-v2.default.svc.cluster.localroute:destination:host:image-cls-v1.default.svc.cluster.local```4.验证:`curl-H"X-Canary:v2"`持续命中v2revision,其余流量按90:10分配。38.解释在多云GPU弹性场景下,如何利用Cluster-API与Cluster-Autoscaler协同实现“训练完成即缩容”,并给出Terraform关键代码段用于创建Cluster-APIGPU节点池。参考答案:1.架构:Cluster-API管理节点生命周期,Autoscaler根据PodPending状态调用MachineDeployment扩容;训练Job完成后节点闲置,Autoscaler缩容。2.关键CR:MachineDeployment:replicas=0为初始状态KubeadmConfigTemplate:预装NVIDIA驱动与containerd3.Terraform创建AWSGPU节点池:```hclresource"aws_instance""gpu_template"{count=0instance_type="p4d.24xlarge"ami=data.aws_ami.ubuntu_gpu.idsubnet_id=aws_sub
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三委会相关工作制度
- 互助院管理工作制度
- 保卫处员工工作制度
- 颈部疾病护理基础与实践
- 公司法务部工作制度
- 办案区值班工作制度
- 劳务工管理工作制度
- 北京市禁牧工作制度
- 老年心理护理中的情绪调节
- 医疗委员会工作制度
- 2025中国能源建设集团云南省电力设计院有限公司春季招聘笔试历年典型考点题库附带答案详解试卷2套
- 期货交易指标应用策略及实战分析
- 下载食品安全法课件
- 表面处理工艺规定
- 2025年事业编e类护理类试题及答案
- 2026春夏·淘宝天猫运动户外鞋服趋势白皮书
- 《商务谈判与沟通-理论、技巧和案例》(第3版)人邮社-章末习题答案
- 2025租房合同范本下载(可直接打印)
- 2025年金融数学专业题库- 高频交易的数学技术
- 个人简历撰写技巧指南
- 早期语言发展神经机制-洞察及研究
评论
0/150
提交评论