2026年人工智能大模型基础考试试题及答案

上传人：1*** IP属地：四川上传时间：2026-04-11 格式：DOCX 页数：15 大小：44.65KB 积分：12 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能大模型基础考试试题及答案1.单项选择题（每题2分，共20分）1.1在Transformer架构中，用于将输入序列中任意两个位置直接关联起来的核心机制是A.卷积操作 B.循环连接 C.自注意力 D.池化答案：C解析：自注意力通过Query-Key-Value计算实现任意位置间的直接权重关联，摆脱距离限制。1.2下列哪种技术最直接地缓解了大规模语言模型预训练中的“梯度爆炸”问题？A.LayerNormalization B.ReLU激活 C.随机裁剪 D.权重衰减答案：A解析：LayerNorm通过标准化中间层输入的均值与方差，稳定梯度传播。1.3在混合精度训练（FP16+FP32）中，为防止下溢而对损失函数进行的常用调整是A.损失缩放 B.梯度裁剪 C.权重平滑 D.余弦退火答案：A解析：损失缩放将损失乘系数后反向传播，放大微小梯度，更新前再缩放回来。1.4当模型参数量超过单张GPU内存时，DeepSpeedZeRO-3阶段的核心优化是A.参数分片到数据并行进程 B.激活检查点 C.流水线并行 D.张量并行答案：A解析：ZeRO-3将参数、梯度、优化器状态全部切片，每个进程仅存储1/N。1.5在RLHF（人类反馈强化学习）中，用于拟合人类偏好的奖励模型通常采用A.交叉熵分类 B.Bradley-Terry排序损失 C.MSE回归 D.FocalLoss答案：B解析：Bradley-Terry将成对偏好转化为排序概率，适合对比式标注。1.6以下哪种位置编码可天然外推到比训练时更长的序列？A.可学习绝对位置向量 B.Sinusoidal位置编码 C.相对位置偏置 D.ALiBi答案：D解析：ALiBi在注意力分数上直接加线性偏置，无需新增参数即可外推。1.7当使用GroupQueryAttention（GQA）时，显存占用下降的主要原因是A.Key/Value头数减少 B.Query维度减半 C.注意力稀疏化 D.低秩投影答案：A解析：多Query共享同一组Key-Value头，降低KV缓存。1.8在MoE（混合专家）模型中，若专家容量因子=1.0，则A.每个token最多被1位专家处理 B.每个专家最多处理1个token C.专家数等于隐藏层大小 D.门控输出为One-hot答案：A解析：容量因子1.0表示每个token仅路由到1位专家，无溢出。1.9衡量生成文本与参考文本n-gram重叠的自动指标是A.BLEU B.ROUGE-L C.BERTScore D.Perplexity答案：A解析：BLEU基于修正的n-gram精确率。1.10在PromptTuning中，随着softprompt长度增加，以下现象最先出现的是A.训练步数线性下降 B.过拟合风险上升 C.推理延迟显著增加 D.梯度消失答案：B解析：可学习token增多，参数量增大，易在小数据集上过拟合。2.不定项选择题（每题3分，共15分；多选少选均不得分）2.1关于FlashAttention，下列说法正确的是A.将注意力计算拆分为若干tile，利用共享内存减少HBM读写 B.等价于标准注意力的数学输出 C.支持任意稀疏模式 D.降低显存复杂度至O(N)答案：AB解析：FlashAttention通过重排循环和softmax数值稳定技巧，输出数值完全一致；但仅支持稠密注意力，显存复杂度O(N)需结合其他技术。2.2以下哪些方法可直接用于“消除”大模型在敏感问答中的有害输出？A.SupervisedFine-Tuningwithsafetysamples B.ConstitutionalAI C.知识蒸馏 D.输出层添加负向偏置答案：ABD解析：蒸馏主要压缩模型，不直接保证安全性。2.3在BFloat16格式中A.动态范围与FP32相同 B.尾数位宽比FP16少 C.在AMDGPU上不可用 D.可减轻溢出风险答案：ABD解析：BFloat16保留8位指数，动态范围同FP32；AMDMI系列已支持。2.4关于LoRA（Low-RankAdaptation），正确的是A.仅训练低秩矩阵A、B B.推理时可合并A、B至原权重，实现零额外延迟 C.秩越大可恢复全参数微调效果 D.必须修改优化器状态答案：ABC解析：LoRA不改变原优化器状态，只优化低秩参数。2.5当使用DPO（DirectPreferenceOptimization）时A.无需显式训练奖励模型 B.直接用偏好数据优化策略 C.损失函数包含对数比值差 D.需要强化学习框架答案：ABC解析：DPO把RLHF中的奖励+RL两步合并为一步，损失为Bradley-Terry对数比值差，无需PPO。3.填空题（每空2分，共20分）3.1设Transformer隐藏层维度为d，注意力头数为h，则每个头的维度为。答案：d/h解析：多头并行后拼接，保持总维度不变。3.2在RoPE（旋转位置编码）中，对Query向量q_m施加的位置编码矩阵为=(c其中=b答案：10000解析：base控制波长，经验值10000。3.3若使用AdamW优化器，权重衰减系数为0.1，则参数更新规则为←其中̂为的偏差修正。答案：一阶动量解析：AdamW把权重衰减从梯度中解耦，直接加在参数上。3.4在数据并行DDP中，梯度同步采用算法，通信量与参数总量成线性关系。答案：All-Reduce解析：RingAll-Reduce将带宽利用率最大化。3.5当使用KV-cache自回归解码时，显存占用随序列长度呈增长。答案：线性解析：KV-cache需存储每层每个token的Key、Value向量。3.6若模型参数量|Θ答案：14解析：1参数=2字节，7G×2=14GB。3.7在指令微调阶段，若采用packing方式将多条样本拼接，需引入掩码防止跨样本注意力。答案：attentionmask解析：attentionmask把样本边界外的位置置为−∞。3.8衡量模型输出概率分布尖锐程度的指标是，其值越低表示模型越自信。答案：perplexity（困惑度）解析：PPL=exp(−1/N∑logp)。3.9若使用张量并行对矩阵乘法Y=答案：All-Gather解析：各设备计算部分列，需All-Gather拼接完整输出。3.10在MoE层中，若Top-2门控且引入loadbalancingloss，其系数通常设为量级。答案：1e-2解析：经验值0.01可平衡专家利用率与主任务损失。4.判断题（每题1分，共10分；正确打“√”，错误打“×”）4.1使用ReLU激活的Transformer在反向传播时一定会出现神经元死亡。 ×解析：现代大模型常用GELU/Swish，且即使ReLU也可用较小学习率缓解。4.2BFloat16在训练阶段可完全避免数值溢出。 ×解析：动态范围虽大，但极端大梯度仍可能溢出。4.3梯度累积可以在不增加GPU数量的情况下模拟更大batchsize。 √解析：多步累加梯度后统一更新，等价于大batch。4.4RoPE只能用于自注意力，不能用于交叉注意力。 ×解析：RoPE可推广到任意注意力，只要位置可定义。4.5在Deepspeed中开启ZeRO-Offload会把优化器状态卸载到CPU内存。 √解析：Offload利用CPU内存节省GPU。4.6使用BeamSearch时，beam宽度越大，生成速度一定越快。 ×解析：beam越大，序列并行度下降，速度反而降低。4.7LoRA在推理阶段必须保留额外分支，无法合并。 ×解析：可将A、B乘积合并至原权重，实现零开销。4.8知识蒸馏中，教师模型输出的softtarget能提供比one-hot更丰富的类别相似度信息。 √解析：softmax温度升高后，暗含类间关系。4.9当使用INT8权重激活量化时，矩阵乘法的计算密度（TFLOPS）通常高于FP16。 √解析：INT8利用TensorCore整数单元，吞吐翻倍。4.10在RLHF中，PPO的clip系数ε越大，策略更新越保守。 ×解析：ε越大允许更大比值变化，更新更激进。5.简答题（每题8分，共24分）5.1描述FlashAttention的tile-wise计算流程，并说明其如何保持数值等价性。答案：1)将输入Q,K,V按行划分为若干tile，每个tile大小由共享内存容量决定；2)外层循环遍历K,Vtile，内层循环遍历Qtile；3)在每个tile内部计算局部注意力分数S=QK^T，立即减去当前块最大值进行online-softmax，更新全局归一化项ℓ、m；4)利用softmax的尺度不变性，通过累积的m、ℓ修正输出O，保证与全局softmax数值一致；5)无需一次性加载整个注意力矩阵，HBM访问从O(N²)降至O(N)，实现内存高效且数学等价。5.2对比FullFine-Tuning、Adapter、LoRA三者在参数量、训练显存、推理延迟上的差异。答案：参数量：Full需更新100%参数；Adapter增加<1%额外参数；LoRA仅训练低秩矩阵A、B，占比约0.1–1%。训练显存：Full需存储完整梯度与优化器状态，显存最大；Adapter需存储原模型梯度+新增参数状态，略低；LoRA只优化低秩参数，优化器状态最小。推理延迟：Full与基线相同；Adapter引入额外模块，延迟增加约2–5%；LoRA可在推理前合并A、B至原权重，延迟零增加。5.3解释“涌现能力”在大模型中的定义，并给出两种可量化的检测指标。答案：涌现能力指模型规模超过某阈值后，在零样本或少样本任务上性能突然跃升，而非线性增长。检测指标：1)指标绝对值跃升：如CoT推理任务，当参数量>10B时，准确率从随机→>60%；2)缩放律指数突变：拟合性能~N^α，若α在阈值后显著增大，表明涌现。6.计算与推导题（共31分）6.1（10分）给定单头注意力输入Q,K,V∈ℝ^{n×d}，标准注意力O现采用稀疏化策略，仅保留每行最大的k个元素，其余置−∞。(1)写出稀疏softmax的等价掩码矩阵M∈{0,1}^{n×n}表达式；(2)推导在n=2048,d=128,k=32时，计算复杂度降低比例（乘法次数比）。答案：(1)设top-k索引集合为=t={1(2)标准：QK^T乘法次数n²d=2048²×128=5.37×10⁸；稀疏后：每行仅k=32非零，乘法次数ndk=2048×32×128=8.39×10⁶；降低比例=1−8.39/537≈98.4%。6.2（10分）使用LoRA对线性层W∈ℝ^{d×d}进行低秩分解，秩r=16。(1)计算可训练参数量；(2)若原权重以FP16存储，LoRA以FP16训练，求显存节省比例（假设仅存储权重与梯度，忽略优化器状态）。答案：(1)可训练参数量=2dr=2×d×16=32d；(2)原存储：d²权重+d²梯度=2d²；LoRA存储：d²权重（冻结）+32d梯度=d²+32d；节省比例=1−(d²+32d)/2d²=0.5−16/d；当d=4096，节省≈0.5−0.0039=49.61%。6.3（11分）给定一个两专家Top-1MoE层，隐藏维度d=1024，专家容量因子=1.0，batch大小B=32，序列长度L=512。(1)计算每个专家处理的token数；(2)若采用FP16激活，求MoE层前向激活显存（仅存储专家输出，忽略门控与中间激活）；(3)若改用GQA，KV头数=8，求解码阶段KV-cache显存（层数=1）。答案：(1)总token数N=B×L=16384；Top-1路由，两专家负载均衡，每专家处理16384/2=8192token；(2)每专家输出8192×d=8192×1024=8.39×10⁶元素；两专家共1.68×10⁷；FP16=2字节，显存=33.6MB；(3)KV-cache：每层存储K+V，头数8，维度d/h=1024/8=128；每token缓存=2×8×128=2048字节；总缓存=N×2048=16384×2048=32MB；层数1，总显存32MB。7.综合设计题（15分）设计一个“7B参数稠密+8专家MoE”的混合架构，要求：a)总参数量≤13B；b)推理时仅激活7B；c)支持最长128k上下文；d)单卡A100-80GB可推理（batch=1）。请给出：(1)模块划分与专家激活策略；(2)位置编码方案及外推理由；(3)显存预算表（参数、激活、KV-cache、中间buffer）。答案：(1)底层6层为7B稠密，上层20层为MoE；每MoE层8专家，Top-2，专家隐藏层按SwiGLU设计，中间扩大倍数=2；通过门控负载均衡loss保证Top-2激活参数量=0.3B/层，总激活=7B+20×0.3B=13B；推理时仅加载激活专家，满足7B激活。(2)采用LongRoPE，先对预训练4k模型进行128k二次搜索最优位置插值因子，再微调1Btoken

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能大模型基础考试试题及答案

文档简介

温馨提示

最新文档

评论

2026年人工智能大模型基础考试试题及答案

文档简介

温馨提示

最新文档

评论

相关文档