大模型部署工程师考试试卷及答案_第1页
大模型部署工程师考试试卷及答案_第2页
大模型部署工程师考试试卷及答案_第3页
大模型部署工程师考试试卷及答案_第4页
大模型部署工程师考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型部署工程师考试试卷及答案一、填空题(每题1分,共10分)1.大模型推理常用的开源框架有TensorRT、ONNXRuntime和______。2.模型量化中,将FP32转换为INT8的关键是______校准。3.Kubernetes调度GPU资源的核心插件是______。4.大模型分布式推理的并行策略包括数据并行、模型并行和______并行。5.容器化部署常用的私有镜像仓库是______。6.大模型推理优化内存的核心技术是______。7.NVIDIA推出的大模型推理加速库是______。8.ONNX的全称是______。9.大模型性能监控工具除Prometheus外,常用______做可视化。10.量化感知训练(QAT)在______阶段进行量化优化。二、单项选择题(每题2分,共20分)1.直接降低精度但提升推理速度的量化方式是?A.FP32B.INT8C.FP16D.BF162.模型并行的核心是?A.复制模型到多卡B.拆分模型层到多卡C.拆分数据到多卡D.流水线执行层3.不属于容器编排工具的是?A.KubernetesB.DockerComposeC.MesosD.Git4.大模型低延迟推理框架是?A.vLLMB.HuggingFaceTransformersC.PyTorchLightningD.TensorFlow5.KV缓存的作用是?A.减少前向计算B.存储激活值C.缓存注意力结果D.优化显存6.最适合大模型推理的硬件是?A.CPUB.GPUC.FPGAD.ASIC7.量化的非关键步骤是?A.校准B.转换C.重训练D.验证8.Kubernetes暴露服务的资源是?A.PodB.DeploymentC.ServiceD.ConfigMap9.Batchsize增大的影响是?A.延迟增、吞吐量升B.延迟降、吞吐量升C.延迟增、吞吐量降D.延迟降、吞吐量降10.大模型部署常见瓶颈是?A.显存不足B.CPU频率过高C.网络带宽低D.内存过大三、多项选择题(每题2分,共20分)1.大模型推理加速技术包括?A.量化B.模型并行C.KV缓存D.蒸馏2.容器化部署工具是?A.DockerB.KubernetesC.HelmD.Git3.分布式推理策略是?A.数据并行B.模型并行C.流水线并行D.混合并行4.量化类型包括?A.后量化B.QATC.动态量化D.静态量化5.监控核心指标是?A.推理延迟B.吞吐量C.显存使用率D.CPU使用率6.支持大模型推理的GPU厂商是?A.NVIDIAB.AMDC.IntelD.ARM7.大模型推理框架是?A.vLLMB.TensorRT-LLMC.ONNXRuntimeD.PyTorch8.GPU资源管理组件是?A.NVIDIAGPUOperatorB.DevicePluginC.KubeletD.Docker9.部署常见场景是?A.在线推理B.离线批量推理C.边缘推理D.云端推理10.模型优化技术是?A.剪枝B.量化C.蒸馏D.并行四、判断题(每题2分,共20分)1.量化完全丢失精度,无法用于生产。()2.Kubernetes可自动调度GPU资源。()3.KV缓存仅用于自回归生成。()4.模型并行更适合小模型。()5.TensorRT仅支持NVIDIAGPU。()6.容器化可解决环境一致性问题。()7.QAT精度比后量化高。()8.Batchsize越大越好。()9.ONNX是跨框架格式。()10.FasterTransformer是NVIDIA开发的。()五、简答题(每题5分,共20分)1.简述大模型部署中量化的作用及常见方式。2.简述Kubernetes在大模型部署中的核心组件及作用。3.简述大模型分布式推理的核心策略及适用场景。4.简述大模型部署监控的关键指标及常用工具。六、讨论题(每题5分,共10分)1.讨论大模型部署中如何平衡推理速度、精度和成本?2.讨论大模型边缘部署的挑战及解决方案?---答案一、填空题1.vLLM2.量化3.NVIDIAGPUOperator4.流水线5.Harbor6.KV缓存7.FasterTransformer8.OpenNeuralNetworkExchange9.Grafana10.训练二、单项选择题1.B2.B3.D4.A5.C6.B7.C8.C9.A10.A三、多项选择题1.ABC2.ABC3.ABCD4.ABCD5.ABCD6.AB7.ABC8.AB9.ABCD10.ABC四、判断题1.×2.√3.√4.×5.√6.√7.√8.×9.√10.√五、简答题1.量化作用:降低参数/激活精度,减少显存占用、提升推理速度、降低成本。常见方式:①后量化(训练后转低精度,无需重训);②QAT(训练时模拟量化误差,精度损失小);③动态量化(仅激活值转INT8,参数保持FP32);④混合精度(部分层低精度、部分高精度)。2.核心组件:①Pod(部署最小单元);②Deployment(管理Pod扩缩容);③Service(暴露服务+负载均衡);④GPUOperator(调度GPU);⑤ConfigMap(存储配置)。作用:实现容器编排、资源自动调度、弹性伸缩、环境一致性。3.核心策略:①数据并行(复制模型到多卡,拆分数据,适合小模型);②模型并行(拆分模型层到多卡,适合大模型);③流水线并行(层顺序分配,重叠计算通信);④混合并行(结合多策略,适合超大规模模型)。4.关键指标:①性能(延迟、吞吐量);②资源(GPU显存/利用率、CPU/内存);③业务(请求成功率、错误率)。常用工具:Prometheus(采集)、Grafana(可视化)、DCGM(GPU监控)、Jaeger(追踪)。六、讨论题1.平衡策略:①精度适配:敏感场景用QAT/混合精度,非敏感用INT8;②速度优化:vLLM低延迟框架、KV缓存、分布式推理;③成本控制:选性价比GPU(A10G)、弹性伸缩、量化降显存;④场景区分:在线用小batch+低延迟,离线用大batch+高吞吐量;⑤监控迭代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论