大模型分布式推理优化工程师考试试卷及答案_第1页
大模型分布式推理优化工程师考试试卷及答案_第2页
大模型分布式推理优化工程师考试试卷及答案_第3页
大模型分布式推理优化工程师考试试卷及答案_第4页
大模型分布式推理优化工程师考试试卷及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型分布式推理优化工程师考试试卷及答案一、填空题(共10题,每题1分)1.大模型分布式推理中,TensorParallelism的缩写是____。2.PipelineParallelism的核心是将模型按____维度划分。3.Transformer注意力中,Q、K、V的维度用____表示。4.GPU间分布式通信常用库是____。5.将FP16参数转为INT8的技术是____。6.模型并行的两种主要类型是TP和____。7.LoRA的全称是____。8.缓存历史K/V张量的技术是____。9.分布式通信常见拓扑包括环形和____。10.推理延迟的主要来源包括计算、通信和____。二、单项选择题(共10题,每题2分)1.单卡显存无法容纳完整模型时,优先采用____?A.数据并行B.模型并行C.流水线并行D.参数服务器2.不属于模型量化的是____?A.INT8量化B.FP16量化C.LoRAD.GPTQ3.NCCL主要用于____通信?A.CPU间B.GPU间C.CPU-GPUD.网络节点4.KV缓存的核心作用是____?A.减少参数B.加速注意力C.提升精度D.降硬件成本5.TP通常切分模型的____?A.输入层B.QKV/全连接层C.输出层D.嵌入层6.引入PipelineBubble的是____?A.数据并行B.模型并行C.流水线并行D.混合并行7.属于计算优化的是____?A.量化B.拓扑优化C.KV缓存D.剪枝8.LoRA推理时是否需额外通信?A.是B.否C.仅TP时D.仅PP时9.不支持大模型分布式推理的框架是____?A.TensorFlowB.PyTorchC.HuggingFaceD.以上都支持10.增大batchsize通常提升____?A.吞吐量B.延迟C.精度D.显存占用率三、多项选择题(共10题,每题2分)1.分布式推理核心目标包括____?A.提升吞吐量B.降低延迟C.减少显存D.提升精度2.模型并行类型有____?A.TPB.PPC.数据并行D.LoRA3.推理优化技术包括____?A.量化B.KV缓存C.剪枝D.动态batch4.通信优化方法有____?A.重叠通信与计算B.量化通信C.拓扑优化D.增带宽5.量化优势包括____?A.减显存B.提速度C.无精度损失D.降硬件成本6.适合PP的场景是____?A.模型层数极多B.单卡无法容纳C.追求高吞吐D.对延迟不敏感7.KV缓存设计要点____?A.适配动态序列B.缓存所有历史K/VC.仅缓存最近10个D.兼容模型并行8.支持分布式推理的工具____?A.vLLMB.TensorRT-LLMC.FasterTransformerD.Llama.cpp9.混合并行(TP+PP+DP)优势____?A.适配不同硬件B.平衡计算与通信C.最大化资源D.完全消除延迟10.内存优化技术____?A.量化B.模型分片C.KV缓存D.动态内存分配四、判断题(共10题,每题2分)1.数据并行复制完整模型到每个GPU,适合小模型。()2.TP切分模型的层到不同GPU。()3.KV缓存将注意力计算量从O(n²)降至O(n)。()4.LoRA是模型量化技术。()5.NCCL仅支持NVIDIAGPU通信。()6.PP存在PipelineBubble问题。()7.batchsize越大,推理延迟越低。()8.量化模型推理速度一定更快。()9.混合并行可解决超大规模模型显存问题。()10.通信开销是推理延迟主要来源之一。()五、简答题(共4题,每题5分)1.简述TP的原理及适用场景。2.说明KV缓存的作用及核心设计思路。3.简述模型量化的原理及分布式推理优势。4.说明PP的原理及存在的问题。六、讨论题(共2题,每题5分)1.如何平衡大模型分布式推理的吞吐量与延迟?结合具体技术说明。2.讨论通信开销的优化方法及不同硬件环境的适配策略。答案部分一、填空题答案1.TP2.层3.d_k4.NCCL5.量化6.PipelineParallelism(PP)7.Low-RankAdaptation8.KV缓存9.树状(星型)10.内存访问(显存访问)二、单项选择题答案1.B2.C3.B4.B5.B6.C7.A8.B9.D10.A三、多项选择题答案1.ABC2.AB3.ABCD4.ABC5.ABD6.ABCD7.ABD8.ABCD9.ABC10.ABCD四、判断题答案1.√2.×3.√4.×5.√6.√7.×8.×9.√10.√五、简答题答案1.TP原理:将模型中可并行化的张量(如注意力QKV、全连接权重)按维度切分到多GPU,各GPU处理部分张量计算,最后聚合结果。适用场景:模型含大量可切分大张量,单卡无法容纳单一层,需配合PP等并行方式。2.KV缓存作用:避免重复计算历史token的K/V,加速注意力计算。设计思路:缓存所有历史K/V、适配动态序列长度、兼容模型并行、动态扩展缓存大小。3.量化原理:将浮点参数/激活值转换为低bit(如INT8),通过校准确定scale。分布式优势:减少显存/通信量、提升推理速度、适配低端硬件。4.PP原理:模型按层切分阶段,微batch流水线执行,重叠通信与计算。问题:PipelineBubble(气泡)、阶段计算不均、通信开销、动态batch适配难。六、讨论题答案1.平衡策略:①混合并行(TP/PP/DP):DP提升吞吐量,TP/PP解决显存问题;②动态batch(vLLMPagedAttention):适配多请求,控制延迟;③KV缓存+量化:降低延迟同时提升速度;④硬件适配:NVLink高带宽减少通信延迟,负载均衡调度避免单卡过载。例:vLLM通过PagedAttention实现高吞吐与低延迟平衡。2.通信优化:①减少量:量化/稀疏通信;②重叠:CUDAS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论