版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年人工智能训练师三级理论试题(带答案)一、单项选择题(每题1分,共30分。每题只有一个正确答案,错选、多选、不选均不得分)1.在PyTorch中,若需冻结某一层参数使其不参与反向传播,应优先使用下列哪段代码?A.layer.requires_grad=FalseB.layer.trainable=FalseC.layer.eval()D.torch.no_grad()答案:A解析:requires_grad是PyTorch张量的属性,直接控制是否计算梯度;其余选项或作用域不符,或仅改变运行模式。2.当使用Adam优化器时,下列超参数对初期梯度更新幅度影响最大的是:A.epsB.weight_decayC.beta1D.lr答案:D解析:lr(学习率)直接缩放梯度更新步长,对初期幅度影响最显著;beta1仅控制一阶动量衰减。3.在Transformer中,ScaledDotProductAttention除以√d_k的主要目的是:A.增加非线性B.防止梯度消失C.防止softmax饱和D.降低计算量答案:C解析:当d_k较大时点积方差大,softmax易饱和;缩放后分布更平滑,梯度更稳定。4.联邦学习场景下,客户端上传的梯度被恶意放大100倍,以下防御机制最有效的是:A.梯度压缩B.差分隐私C.安全聚合+范数裁剪D.增加本地epoch答案:C解析:范数裁剪可限制单点异常梯度幅值,安全聚合避免服务器看到个体梯度,双重防护。5.在StableDiffusion中,将文本提示“acat”改为“acat::1.5”表示:A.提示词截断B.提示词权重提升50%C.提示词权重降低50%D.使用第1.5层特征答案:B解析:双冒号+数值为Compel语法,权重=1.5倍,增强该提示影响。6.使用LoRA微调LLM时,若r=8,原矩阵维度为4096×4096,则新增参数量约为:A.4096×8B.2×4096×8C.4096×4096×2D.8×8答案:B解析:LoRA增加两个低秩矩阵BA,参数量=4096×8+8×4096=2×4096×8。7.在深度强化学习中,优先经验回放(PER)的关键改进是:A.均匀采样B.按TD误差加权采样C.增加batchsizeD.使用nstep回报答案:B解析:PER根据TD误差赋予采样优先级,使重要经验被重复学习。8.当训练数据出现“标签噪声”时,以下损失函数天然具备一定鲁棒性的是:A.MSEB.CrossEntropyC.GeneralizedCrossEntropyD.KLD答案:C解析:GCE在CE与MAE间插值,对错误标签不敏感。9.在ONNX导出过程中,若模型包含“einsum”算子,最可能触发的报错是:A.OPSET版本过低B.动态轴未声明C.算子不支持D.权重溢出答案:C解析:部分einsum方程在ONNX早期版本无对应算子,需改写或升级OPSET。10.使用DeepSpeedZeRO3时,优化器状态被划分到不同设备,其通信压缩算法是:A.1bitAdamB.FP16C.INT8量化D.GradientAccumulation答案:A解析:1bitAdam在ZeRO3中用于压缩优化器状态通信,保持收敛性。11.在CV领域,CutMix数据增强与MixUp相比,主要优势是:A.保留更多局部位置信息B.计算更快C.无需标签D.降低显存答案:A解析:CutMix通过裁剪粘贴保留像素坐标,使模型感知空间位置。12.当BERT模型出现“过度稳定”现象(loss几乎不变)时,优先尝试的调参策略是:A.增大warmup步数B.减小hiddendropoutC.增大weight_decayD.减小lr答案:A解析:warmup不足易导致优化器陷入局部平坦区,增大warmup可缓解。13.在目标检测中,使用CIoULoss相比GIoULoss新增的核心变量是:A.中心点距离B.长宽比C.交集面积D.并集面积答案:B解析:CIoU额外惩罚预测框与GT框长宽比差异,加速收敛。14.当使用FlashAttention时,下列硬件特性被充分利用的是:A.TensorCoreB.NVLinkC.GPUL2CacheD.主机内存答案:C解析:FlashAttention通过分块驻留L2Cache,减少HBM读写。15.在LLM推理阶段,采用“投机解码”(SpeculativeDecoding)的核心假设是:A.小模型能近似大模型分布B.温度越高越好C.KVCache无限大D.BatchSize=1答案:A解析:用小模型生成候选序列,大模型并行验证,加速不损失精度。16.若将ReLU替换为GELU,模型参数量将:A.增加0B.增加一倍C.减少一半D.增加10%答案:A解析:激活函数无参数量变化,仅计算方式不同。17.在NLP数据清洗中,使用“MinHashLSH”主要针对的问题是:A.拼写错误B.语义重复C.标签不平衡D.编码错误答案:B解析:MinHashLSH用于快速近似去重,识别近似重复文档。18.当使用DeeplabV3+时,ASPP模块中不同膨胀率的空洞卷积主要捕获:A.多尺度信息B.颜色信息C.边缘信息D.深度信息答案:A解析:不同rate对应不同感受野,融合多尺度特征。19.在模型蒸馏中,若教师模型输出已做softmax,学生模型使用logits+温度T,损失函数应选择:A.MSEB.KL散度C.MAED.Cosine答案:B解析:KL散度衡量分布差异,与温度缩放匹配。20.当训练出现NaN,首先应检查的指标是:A.梯度范数B.准确率C.F1值D.学习率调度答案:A解析:梯度爆炸是NaN最常见原因,需监控梯度范数。21.在推荐系统“多任务学习”中,MMoE结构相比SharedBottom主要改进是:A.引入专家门控B.减少参数量C.取消激活函数D.使用卷积答案:A解析:MMoE通过门控网络动态加权专家输出,缓解任务冲突。22.使用Horovod做分布式训练时,以下操作必须放在hvd.DistributedOptimizer之后的是:A.梯度裁剪B.学习率缩放C.权重初始化D.数据分片答案:B解析:DistributedOptimizer内部需根据worker数量缩放lr,保证收敛一致性。23.在语音合成WaveGlow中,仿射耦合层使用1×1可逆卷积的主要目的是:A.通道混洗B.降低采样率C.增加感受野D.引入非线性答案:A解析:1×1可逆卷积实现通道维度置换,增强表达能力。24.当使用EarlyStopping时,若patience=5且min_delta=0.001,意味着:A.连续5轮验证集提升小于0.001则停B.连续5轮训练集下降小于0.001则停C.任意5轮验证集下降则停D.训练5轮后必停答案:A解析:EarlyStopping监控验证集指标,提升不足即触发。25.在LLM预训练语料中,使用“困惑度”筛选文档,阈值设置过高会:A.过滤太多低质量文本B.保留太多重复文本C.增加多样性D.减少训练步数答案:B解析:阈值高→保留更多文档,但可能混入低质量或重复内容。26.当使用TorchScriptJIT编译模型时,出现“Tensortypemismatch”最可能原因是:A.动态shape未标注B.使用了numpy数组C.显存不足D.使用了Pythonlist答案:A解析:TorchScript需静态类型,动态shape需显式标注。27.在图像分割评价中,Dice系数与IoU的数学关系为:A.Dice=2IoU/(1+IoU)B.Dice=IoU/(2IoU)C.Dice=IoUD.Dice=1IoU答案:A解析:推导可得Dice=2TP/(2TP+FP+FN)=2IoU/(1+IoU)。28.当使用GradientCheckpointing时,显存占用下降,但计算量大约增加:A.10%B.20%C.50%D.0%答案:B解析:需重新前向计算激活,约增加20%计算时间。29.在推荐冷启动阶段,使用“元学习”(MAML)的核心优势是:A.快速适应新用户B.减少特征工程C.降低延迟D.增加稀疏性答案:A解析:MAML学习良好初始化,少量梯度步即可适应新任务。30.当使用Kaiming初始化时,若激活函数为ReLU,方差缩放系数应为:A.2/fan_inB.1/fan_outC.sqrt(fan_in)D.1答案:A解析:Kaiming针对ReLU的负半轴归零,方差需乘以2。二、多项选择题(每题2分,共20分。每题有两个或以上正确答案,多选、少选、错选均不得分)31.以下哪些技术可有效缓解LLM“幻觉”现象?A.检索增强生成(RAG)B.强化学习人类反馈(RLHF)C.增大TemperatureD.思维链提示(CoT)答案:A、B、D解析:RAG引入外部知识,RLHF对齐人类偏好,CoT提升推理一致性;增大Temperature反而增加随机性。32.在DiffusionModel训练阶段,以下哪些损失函数可直接用于噪声预测?A.L1B.L2C.HuberD.CrossEntropy答案:A、B、C解析:噪声预测为回归任务,CE用于分类不符。33.当使用TensorRT加速推理时,以下哪些层可能被融合?A.Conv+BN+ReLUB.MatMul+AddC.Softmax+CrossEntropyD.Embedding+Lookup答案:A、B解析:TensorRT对常见组合做垂直融合,Softmax+CE训练阶段才组合,Embedding通常不融合。34.在联邦学习系统中,以下哪些攻击属于模型投毒?A.反向梯度缩放B.标签翻转C.数据下采样D.添加随机噪声答案:A、B解析:反向缩放与标签翻转直接恶意修改更新;数据下采样与随机噪声属数据降质但非投毒。35.以下哪些指标可用于评估文本生成多样性?A.SelfBLEUB.Distinct1C.ROUGELD.Entropyn答案:A、B、D解析:SelfBLEU越低越多样,Distinct1统计不同ngram,Entropyn衡量分布信息熵;ROUGEL侧重忠实度。36.在VisionTransformer中,以下哪些操作可降低计算复杂度?A.稀疏注意力B.卷积替代QKVC.降低patchsizeD.窗口注意力答案:A、D解析:稀疏与窗口注意力减少计算;卷积替代改变结构,降低patchsize反而增加序列长度。37.以下哪些方法可用于“无数据量化”?A.AdaRoundB.DFQC.QATD.BitSplit答案:A、B解析:AdaRound与DFQ无需原始数据,QAT需数据,BitSplit需校准集。38.在强化学习探索策略中,以下哪些属于countbased方法?A.HashcountB.RNDC.UCBD.Epsilongreedy答案:A、C解析:Hashcount与UCB显式统计访问次数;RND属predictionbased,Epsilongreedy无计数。39.以下哪些技术可用于防止生成式模型“模式崩塌”?A.谱归一化B.梯度惩罚C.历史平均D.标签平滑答案:A、B、C解析:谱归一化与梯度惩罚稳定训练,历史平均鼓励多样性;标签平滑用于分类。40.在LLM推理阶段,以下哪些操作可减少首Token延迟(TTFT)?A.连续批处理B.KVCache预填充C.投机解码D.增加Temperature答案:B、C解析:预填充与投机解码可并行生成首Token;连续批处理提升吞吐,对TTFT无直接帮助;Temperature增加随机性。三、判断题(每题1分,共10分。正确打“√”,错误打“×”)41.使用混合精度训练时,损失缩放(lossscaling)主要用于解决梯度下溢。答案:√解析:FP16动态范围小,损失缩放可将梯度放大避免下溢。42.在DiffusionModel中,DDIM采样过程必须依赖随机噪声。答案:×解析:DDIM可deterministic采样,无需随机噪声。43.当使用GroupNorm时,batchsize=1也能正常训练。答案:√解析:GroupNorm按通道分组归一化,与batchsize无关。44.在推荐系统“深度召回”中,使用负采样越多,召回率一定越高。答案:×解析:负采样过多会引入难负例,导致模型收敛困难,召回率可能下降。45.使用TorchScript后,模型必须运行在CPU上。答案:×解析:TorchScript可运行在CPU或GPU,仅图固化。46.在VisionTransformer中,位置编码去掉后,模型仍具备平移不变性。答案:×解析:ViT无卷积,去掉位置编码后无位置感知,平移不变性丧失。47.使用RLHF时,奖励模型越大,策略模型效果一定越好。答案:×解析:奖励模型过大可能过拟合人类标注,导致策略模型学到虚假信号。48.在量化感知训练中,伪量化节点需在前向插入,反向需直通估计(STE)。答案:√解析:伪量化模拟低精度,反向用STE传递梯度。49.当使用DeepSpeedZeROOffload时,优化器状态可卸载到NVMeSSD。答案:√解析:ZeROOffload支持CPU/NVMe卸载,扩展显存。50.在图像分类中,使用RandAugment时,magnitude越大,模型泛化一定越好。答案:×解析:magnitude过大导致过度增强,破坏语义,泛化下降。四、填空题(每空2分,共20分)51.在Transformer中,若隐藏维度为512,注意力头数为8,则每个头的维度为________。答案:64解析:512/8=64。52.使用AdamW时,weight_decay等价于在损失函数中添加________范数正则项。答案:L2解析:AdamW将权重衰减从梯度更新中解耦,等效L2。53.在StableDiffusion中,用于编码文本的CLIP模型其最大上下文长度为________Token。答案:77解析:OpenAICLIP文本端最大77。54.若使用FSDP(FullyShardedDataParallel)训练LLM,则梯度同步通信发生在________之后。答案:反向传播解析:FSDP在反向计算后立即分片通信梯度。55.在语音合成VITS中,时长预测器使用________损失函数鼓励单调对齐。答案:MonotonicAlignmentSearch(MAS)解析:MAS强制单调,避免跳帧。56.当使用Kfold交叉验证时,若K=N(样本数),则称为________交叉验证。答案:留一法(LeaveOneOut)解析:每轮留一个样本做验证。57.在目标检测YOLOv8中,CIoU损失里的中心点距离度量采用________范数。答案:L2解析:欧氏距离即L2。58.若将FP32模型直接量化为INT8,其理论压缩比为________倍。答案:4解析:32/8=4倍。59.在LLM推理阶段,KVCache的显存复杂度与序列长度成________关系。答案:线性(正比)解析:O(n)随长度线性增长。60.使用RandAugment时,若N=2,M=9,表示每张图随机选________种变换,强度为________。答案:2;9解析:N为变换个数,M为magnitude。五、简答题(每题10分,共30分)61.描述“检索增强生成”(RAG)在LLM中的应用流程,并说明其如何缓解幻觉。答案:1)离线阶段:将知识库切片为chunk,使用嵌入模型(如BERT)计算向量,存入向量数据库(FAISS、Pinecone)。2)在线阶段:用户查询经同一嵌入模型编码,在向量库中检索TopK相关chunk。3)拼接:将检索结果与用户查询按模板组合,形成扩展提示。4)生成:LLM基于扩展提示生成答案。缓解幻觉机制:提供可追踪的外部知识,使生成内容受限于检索片段,降低模型编造概率;同时支持引用来源,便于人工校验。62.解释“梯度累积”与“微批次”在显存受限场景下的区别与联系,并给出PyTorch伪代码。答案:区别:梯度累积不改变并行度,通过多次前向反向累加梯度后一次性更新权重;微批次是将原batch拆小,每步即时更新,权重变化频繁。联系:二者均可使有效batchsize大于显存一次性可容纳的size。伪代码:```pythonmodel.zero_grad()fori,(x,y)inenumerate(dataloader):loss=model(x,y)/accumulation_stepsloss.backward()if(i+1)%accumulation_steps==0:optimizer.step()model.zero_grad()```通过除以steps保证损失尺度正确。63.对比“PostTrainingQuantization”与“QuantizationAwareTraining”在流程、精度、耗时上的差异,并给出适用场景。答案:流程:PTQ用校准数据直接统计min/max并量化权重/激活,无需重新训练;QAT在训练图中插入伪量化节点,模拟低精度,需反向传播。精度:PTQ易掉点,尤其对敏感模型(如LLM);QAT通常<0.5%掉点甚至无损。耗时:PTQ分钟级;QAT需额外训练,小时~天级。适用:PTQ适合部署快速迭代、精度要求中等场景;QAT适合精度敏感、可接受再训练成本的场景,如生产级LLM、高精度CV模型。六、计算与推导题(每题15分,共30分)64.已知某Transformer模型隐藏维度d=1024,序列长度n=2048,batchsizeb=4,头数h=16,计算标准自注意力的一次完整前向的FLOPs,并给出推导步骤。答案:步骤:1)QKV投影:3×(b×n×d×d)=3×4×2048×1024×1024=3×4×2048×1,048,576≈2.58×10^10FLOPs2)注意力Score:b×h×n×d_h×n,d_h=d/h=64→4×16×2048×64×2048=4×16×64×2048²≈1.72×10^103)加权求和:b×h×n×n×d_h→同上量级1.72×10^104)输出投影:b×n×d×d=4×2048×1024×1024≈8.6×10^9总计≈(2.58+1.72+1.72+0.86)×
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年在线教育平台用户体验评估试卷及答案
- 2026年大学(纺织科学与工程)纺织材料学综合测试题及答案
- 2025年(储能工程师)储能师试题及答案
- 雨伞展馆介绍
- 2025年初级统计师考试报名系统操作试卷及答案
- 幼儿认知风格差异测试试题及答案
- 城市社区服务与管理专业知识题库冲刺卷
- 听课评课专业能力测试标准试题及答案
- 高速铁路路桥过渡段及锥坡施工质量通病防治
- 2025-2030服装零售品牌加盟行业市场现状供需分析及投资评估规划分析研究报告
- 企业销售团队绩效考核标准及方案
- 山东省潍坊市2025届高三高考模拟考试物理试题及答案
- 短暂性脑缺血发作课件
- DBJ51T 181-2021 地下工程水泥基渗透结晶型防水材料应用技术标准
- 造价咨询成果文件审核表-模板
- 奔腾B30EV汽车说明书
- 新教材北师大版高中英语必修第二册全册重点单词短语句型归纳总结
- 《功能材料制备与成形》全书教学课件
- 家装工程施工工艺流程
- m5水泥砂浆配合比计算书
评论
0/150
提交评论