版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年高级人工智能训练师核心备考试题库及答案一、单选题(每题1分,共30分)1.在Transformer架构中,用于防止未来信息泄露的核心机制是A.层归一化B.位置编码C.自注意力掩码D.残差连接答案:C解析:自注意力掩码(LookaheadMask)在解码器训练阶段将当前位置之后的token置为−∞,softmax后概率为0,确保预测仅依赖已知历史信息。2.当使用Adam优化器时,若梯度长时间接近零,最可能触发的机制是A.L2权重衰减B.梯度裁剪C.偏置修正D.二阶动量累积导致学习率动态下降答案:D解析:Adam维护梯度二阶动量v_t,若梯度持续小,v_t→0,有效学习率≈α/√(v_t+ε)会急剧降低,造成“学习率消失”。3.在联邦学习场景下,为抵御模型投毒攻击,下列聚合策略对异常梯度最鲁棒的是A.FedAvgB.KrumC.FedProxD.FedSGD答案:B解析:Krum选择与其他梯度“距离”最近的梯度作为全局更新,对拜占庭容错有理论保证,可抑制投毒梯度。4.将FP32模型离线量化到INT8时,若校准集分布与真实运行分布差异大,最可能出现的误差是A.溢出误差B.舍入误差C.量化噪声D.偏移误差答案:C解析:分布漂移导致量化尺度(scale)与零点(zeropoint)估计不准,INT8离散化后引入额外噪声,表现为精度骤降。5.在DiffusionModel训练阶段,网络通常拟合的是A.原始图像B.噪声图像C.噪声分量ε_θ(x_t,t)D.均值μ_θ(x_t,t)答案:C解析:DDPM框架令网络直接预测添加到x_t上的高斯噪声ε,训练目标为MSE(ε_θ(x_t,t),ε),简化学习难度。6.当使用DeepSpeedZeRO3时,下列哪部分参数被切分到所有GPUA.优化器状态B.梯度C.模型参数D.激活值答案:C解析:ZeRO3将模型参数、梯度、优化器状态全部切片,每张GPU仅保存1/N,实现万亿参数训练。7.在强化学习PPO算法中,clip参数ε通常取0.2,若将其调到0.5,最可能的结果是A.策略更新更保守B.策略更新更激进C.价值网络收敛加速D.熵奖励增大答案:B解析:ε扩大,剪切区间变宽,允许概率比r_t远离1,策略可大步更新,但可能引发不稳定。8.使用混合精度训练时,LossScaling的主要目的是A.减少显存占用B.避免梯度下溢C.加速通信D.提高数值精度答案:B解析:FP16梯度容易下溢到0,LossScaling将损失乘系数S,反向梯度同步放大,维护可表示范围。9.在VisionTransformer中,若将patchsize从16×16改为32×32,模型参数量变化为A.线性减少一半B.平方减少至1/4C.几乎不变D.线性增加一倍答案:C解析:参数量集中在Transformer层,patch大小仅影响embedding层矩阵维度,从(768×768)变为(768×1536),占比极小,总体几乎不变。10.当使用知识蒸馏,教师模型输出为软标签,温度参数T→∞时,软标签分布趋近A.均匀分布B.独热分布C.高斯分布D.伯努利分布答案:A解析:T→∞,logits差异被极度压缩,softmax输出各分量趋1/K,形成均匀分布。11.在AutoMLNAS中,基于强化学习的控制器采用REINFORCE梯度,若基线baseline降低,则A.策略梯度方差减小B.策略梯度方差增大C.探索熵增加D.学习率自动放大答案:A解析:降低baseline可减小梯度估计方差,加速收敛,但过低会引入偏差。12.当使用GroupNorm替代BatchNorm时,对batchsize的敏感性A.升高B.降低C.不变D.先升后降答案:B解析:GroupNorm计算沿通道分组,与batch维无关,故对小batch更鲁棒。13.在BERT预训练中,NextSentencePrediction任务被移除后,对下游任务影响最小的是A.文本分类B.命名实体识别C.问答匹配D.语义相似度答案:B解析:NER主要依赖token级表示,句子间关系影响最小;问答与相似度任务直接依赖句间交互。14.当使用EarlyStopping时,若patience=5且监控指标为验证损失,则训练将在A.连续5轮验证损失不下降时停止B.任意5轮验证损失上升时停止C.连续5轮训练损失不下降时停止D.训练损失连续5轮上升时停止答案:A解析:EarlyStopping以验证集为准,patience定义容忍轮数,连续不下降即触发。15.在MoE(MixtureofExperts)模型中,若topk=2,则每次推理激活的参数占比约为A.1/2B.k/NC.k×单专家参数量/总参数量D.与门控网络大小成正比答案:C解析:激活参数=2个专家参数+门控,若专家均分,则占比≈2/N,N为专家总数。16.当使用梯度累积模拟batchsize=2048时,若GPU显存仅支持batch=32,则累积步数应为A.32B.64C.128D.64答案:B解析:2048/32=64步,每步梯度累加,更新一次权重。17.在TorchScript编译中,导致graphbreak的常见原因是A.使用torch.matmulB.使用PythonifonTensorC.使用nn.Conv2dD.使用torch.relu答案:B解析:TorchScript无法追踪依赖Tensor值的Python控制流,需改用torch.jit.script装饰器或符号条件。18.当使用A100的TF32精度训练时,相比FP32,矩阵乘峰值算力提升约A.2倍B.4倍C.8倍D.16倍答案:C解析:A100TF32利用TensorCore,理论峰值312TFLOPS,FP32仅19.5TFLOPS,提升约16倍,但选项最大为8倍,取最接近实测均值。19.在模型压缩技术中,可将权重稀疏度提升至90%而精度无损的方法通常是A.随机剪枝B.幅度剪枝+迭代重训练C.量化感知训练D.低秩分解答案:B解析:幅度剪枝后重训练可恢复精度,迭代多次可达极高稀疏度。20.当使用Horovod进行多机训练时,若出现梯度停滞,最可能未正确配置的是A.NCCL_P2P_DISABLEB.HOROVOD_FUSION_THRESHOLDC.OMP_NUM_THREADSD.CUDA_VISIBLE_DEVICES答案:A解析:NCCL_P2P_DISABLE=1会禁用GPU间P2P,跨机通信回退到PCIe+TCP,带宽骤降导致梯度同步极慢。21.在StableDiffusion中,用于降低采样步数的核心技术是A.DDIM采样B.EMA权重平均C.VAE正则化D.Crossattention答案:A解析:DDIM通过非马尔可夫链采样,可在10–20步内生成高质量图像。22.当使用FlashAttention时,内存复杂度从O(n²)降至A.O(nlogn)B.O(n)C.O(√n)D.O(1)答案:B解析:FlashAttention通过分块计算,将注意力矩阵物化取消,内存仅与序列长度n线性相关。23.在多任务学习中,若任务梯度冲突严重,采用GradNorm的主要目标是A.平衡任务权重B.归一化梯度幅值C.自动调整损失系数D.投影梯度至共享子空间答案:C解析:GradNorm通过约束各任务梯度范数相对比例,动态调整损失权重,缓解任务竞争。24.当使用RandAugment时,若Magnitude=10,则数据增强强度A.最大B.最小C.随机D.与N无关答案:A解析:Magnitude∈[0,10],10对应最强变换幅度。25.在模型服务阶段,使用TensorRTINT8校准出现精度掉点,优先尝试的补救手段是A.提高校准batchsizeB.降低学习率C.使用QATD.开启AMP答案:C解析:量化感知训练(QAT)在训练阶段模拟INT8,能显著恢复精度。26.当使用DeepspeedMoE训练时,若专家并行度=2,数据并行度=4,则总GPU数至少为A.4B.6C.8D.2答案:C解析:专家并行与数据并行正交,2×4=8。27.在自监督学习SimSiam中,防止崩溃的关键组件是A.动量编码器B.停止梯度C.负样本队列D.预测MLP答案:B解析:停止梯度切断对称分支的梯度回传,避免模型退化为常数输出。28.当使用ONNXRuntimeWeb部署模型时,首选的执行提供者是A.CUDAB.TensorRTC.WASMD.DML答案:C解析:浏览器环境仅支持WebAssembly后端,即WASM。29.在GPT3训练中,采用SPMD(SingleProgramMultipleData)模式,主要解决A.显存碎片B.计算图调度C.大规模数据并行D.动态shape答案:C解析:SPMD将同一程序分发到不同数据分片,实现千亿参数数据并行。30.当使用LearningRateWarmup时,若warmup步数设置过大,可能导致A.收敛速度变慢B.梯度爆炸C.过拟合D.学习率周期性震荡答案:A解析:warmup阶段学习率线性增加,过大则长时间处于低学习率,拖慢收敛。二、多选题(每题2分,共20分)31.下列哪些技术可有效缓解Transformer长序列显存占用A.GradientCheckpointingB.FlashAttentionC.ALiBi位置编码D.SparseAttention答案:A,B,D解析:ALiBi不改变内存复杂度,仅改善外推;其余均降低显存。32.关于混合专家模型MoE,正确的有A.专家路由可学习B.负载均衡损失用于防止专家塌陷C.专家数量增加会线性增加激活参数量D.专家可部署在不同GPU答案:A,B,D解析:激活参数仅与topk相关,与专家总数无关。33.以下属于PosttrainingQuantization方法的是A.DynamicQuantizationB.StaticQuantizationC.QATD.AdaRound答案:A,B,D解析:QAT属于训练中量化。34.在PPO中,下列哪些超参数增大将提升策略探索性A.clipratioεB.熵系数c2C.价值损失系数c1D.折扣因子γ答案:A,B解析:熵系数直接奖励探索;clip放宽限制允许更大偏离。35.当使用DeepSpeedZeROOffload时,可被卸载到CPU的资源包括A.优化器状态B.梯度C.模型参数D.激活值答案:A,B,C解析:激活值卸载需额外框架,ZeROOffload默认不支持。36.以下哪些操作可能导致TorchScript追踪失败A.使用字典Tensor索引B.使用列表推导C.使用torch.jit.annotateD.使用for循环迭代Tensor长度答案:A,B,D解析:C为显式类型注解,不会导致失败。37.在DiffusionModel采样阶段,可加速的技术有A.DDIMB.DPMSolverC.ProgressiveDistillationD.EMA答案:A,B,C解析:EMA仅平滑权重,不减少步数。38.关于GroupNorm,正确的有A.对小batch稳定B.可替换LayerNormC.需要学习affine参数D.与batchsize无关答案:A,B,C,D解析:GroupNorm完全独立于batch维。39.在联邦学习安全聚合中,可实现隐私保证的技术有A.SecureMultipartyComputationB.HomomorphicEncryptionC.DifferentialPrivacyD.GradientCompression答案:A,B,C解析:压缩仅减少通信,不提供隐私保证。40.当使用RandAugment时,需手动设定的超参数有A.N(变换次数)B.M(幅度)C.概率pD.具体策略组合答案:A,B解析:RandAugment无需搜索策略,仅N、M。三、判断题(每题1分,共10分)41.使用LayerwiseLearningRateDecay时,越靠近输入层,学习率应越大。答案:错误解析:靠近输入层通常使用更小学习率,避免破坏低级特征。42.FlashAttention支持任意attentionmask形状。答案:错误解析:当前实现要求mask为因果或块稀疏,任意mask需额外分支。43.在MoE中,若所有专家被路由到同一GPU,则专家并行度为1。答案:正确解析:专家并行度指专家分片数,全在同一GPU则为1。44.INT8量化后,模型推理延迟一定低于FP16。答案:错误解析:若硬件无INT8单元,需模拟,延迟反而增加。45.使用GradClip时,clipnorm越大,更新越保守。答案:错误解析:clipnorm越大,梯度越不易被裁剪,更新更激进。46.EMA权重平均可提升模型鲁棒性,但会增加显存占用。答案:正确解析:需额外保存影子参数,显存翻倍。47.在SimCLR中,负样本数量增加会提升性能,但计算复杂度线性增长。答案:正确解析:负样本越多,对比学习越充分,计算随batch线性增加。48.使用TorchScript后,模型必须重新训练。答案:错误解析:TorchScript仅为转换格式,无需重训。49.在StableDiffusion中,VAE解码器也可量化为INT8。答案:正确解析:VAE计算量大,INT8可加速,但需QAT保持画质。50.当使用Deepspeed流水线并行时,bubble比率与microbatch数量成反比。答案:正确解析:microbatch越多,空闲时间占比越小。四、填空题(每题2分,共20分)51.在Transformer中,若隐藏维度d_model=1024,前馈维度常见设置d_ff=________。答案:4096解析:通常d_ff=4×d_model。52.若学习率调度为cosinedecay,初始lr=1e3,总步数T_max=1000,则第500步学习率为________。答案:5e4解析:cosine曲线在T_max/2处降至一半。53.使用AdamW时,权重衰减系数λ=0.01,则参数更新公式中衰减项为________。答案:−ηλθ_t解析:AdamW将权重衰减从梯度中解耦,直接衰减参数。54.在DDPM中,扩散过程方差schedule常采用________schedule。答案:linear解析:原始DDPM使用线性β_t。55.若模型参数量1.2B,使用FP16+ZeRO2,则优化器状态显存约为________GB。答案:4.8解析:FP16参数2GB,Adam状态2倍FP32=8GB,ZeRO2分片后每GPU8/2=4GB,参数2/2=1GB,总计约4.8GB含碎片。56.当使用RandAugment,N=2,M=9,则每次随机选择________种变换。答案:2解析:N即选择次数。57.在TorchScript中,将模型转为静态图的核心API为torch.jit.________。答案:trace或script解析:trace用于无控制流,script支持复杂逻辑。58.若校准集大小为512,使用entropy校准法,输出为________维直方图。答案:2048解析:TensorRT默认bin=2048。59.在GPT3175B模型中,注意力头数h=________。答案:96解析:公开配置hidden=12288,head_dim=128,h=12288/128=96。60.使用混合专家MoE,topk=2,专家数E=64,则每次token激活专家比例为________%。答案:3.125解析:2/64=3.125%。五、简答题(每题10分,共30分)61.描述FlashAttention的分块计算流程,并说明其如何降低内存复杂度。答案:FlashAttention将注意力矩阵按块(tile)划分,利用GPU共享内存,在计算QK^T时不再物化完整的n×n矩阵,而是分块计算softmax的归一化因子,采用onlinesoftmax技巧,逐块更新输出。由于无需存储完整注意力图,内存从O(n²)降至O(n),同时利用TensorCore保持算力,实现2×速度提升与显存减半。62.解释在联邦学习中,如何通过LocalSGD与DifferentialPrivacy协同保护用户隐私,并给出噪声注入公式。答案:LocalSGD让客户端多步本地更新后再聚合,减少通信泄露频率;每轮上传梯度时,对梯度clip到范数C,然后添加高斯噪声:g̃=g/max(1,‖g‖₂/C)+𝒩(0,σ²C²I),其中σ≥√(2ln(1.25/δ))/ε,满足(ε,δ)DP。聚合服务器对噪声梯度求平均,由于噪声均值为0,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北地方导游基础知识
- 小数简化成分数的题目及答案
- 消防安全标识设计方案
- 隧道施工健康监测方案
- 2025 小学六年级道德与法治上册台风防范知识课件
- 热力系统运行数据采集方案
- 儿童病房实习生培训管理方案
- 农村社区卫生服务设施建设方案
- 施工环境监测与验收方案
- 企业环保主题团建方案
- GB/T 31831-2025LED室内照明应用技术要求
- 2025年上交所金融笔试题目及答案
- 服务外包人员保密管理制度(3篇)
- 2026中国电信四川公用信息产业有限责任公司社会成熟人才招聘备考题库及答案详解(夺冠系列)
- 成都高新区桂溪街道公办幼儿园招聘编外人员考试备考题库及答案解析
- 2025年医院病历管理操作规范
- 汽车后市场培训课件
- 2026云南保山电力股份有限公司校园招聘50人笔试备考题库及答案解析
- GB 4053.2-2025固定式金属梯及平台安全要求第2部分:斜梯
- 2026届上海市长宁区市级名校高一上数学期末学业质量监测模拟试题含解析
- 2026年烟草公司笔试综合试题及考点实操指引含答案
评论
0/150
提交评论