2025年全国职工职业技能竞赛(人工智能训练师赛项)终极备赛题库_第1页
2025年全国职工职业技能竞赛(人工智能训练师赛项)终极备赛题库_第2页
2025年全国职工职业技能竞赛(人工智能训练师赛项)终极备赛题库_第3页
2025年全国职工职业技能竞赛(人工智能训练师赛项)终极备赛题库_第4页
2025年全国职工职业技能竞赛(人工智能训练师赛项)终极备赛题库_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年全国职工职业技能竞赛(人工智能训练师赛项)终极备赛题库一、单项选择题(每题1分,共30分)1.在深度学习模型训练中,若验证集损失持续上升而训练集损失持续下降,最可能的原因是A.学习率过大  B.模型欠拟合  C.模型过拟合  D.批次大小过小答案:C 解析:训练集表现改善而验证集表现恶化,是过拟合的典型信号。2.使用PyTorch时,下列哪段代码可以正确冻结模型中除最后一层外的全部参数?A.forpinmodel.parameters():p.requires_grad=FalseB.forn,mind_children():m.requires_grad=FalseC.forn,mind_children():ifn!='last':m.requires_grad=FalseD.forpinmodel.last.parameters():p.requires_grad=True答案:C 解析:需按层名判断并逐层关闭梯度,仅保留最后一层可训练。3.在Transformer中,位置编码使用正弦函数的主要原因是A.可学习  B.外推长度  C.加速收敛  D.降低显存答案:B 解析:正弦位置编码可外推到训练时未见过的更长序列。4.当使用混合精度训练时,lossscaling的主要作用是A.防止梯度爆炸  B.防止梯度下溢  C.加速反向传播  D.减少通信量答案:B 解析:fp16下梯度值容易下溢,放大后再缩放可保持数值稳定。5.在目标检测任务中,若正负样本比例极端失衡,首选的采样策略是A.RandomSampler  B.HardNegativeMiner  C.RandomCrop  D.MixUp答案:B 解析:HardNegativeMiner专注挖掘难负样本,缓解失衡。6.下列关于AUC-ROC的描述,错误的是A.阈值无关  B.对正负样本分布敏感  C.等于随机分类器时值为0.5  D.可比较不同模型答案:B 解析:AUC-ROC对正负样本先验分布不敏感,是其优点之一。7.在联邦学习场景下,FedAvg算法中“模型聚合”指的是A.参数加权平均  B.梯度加权平均  C.损失加权平均  D.准确率加权平均答案:A 解析:各客户端上传参数,服务器按样本量加权平均。8.使用Kaiming初始化时,若激活函数为ReLU,方差缩放系数应为A.2/fan_in  B.1/fan_out  C.sqrt(2/fan_in)  D.sqrt(1/fan_in)答案:C 解析:Kaiming初始化公式为。9.在NLP数据增强中,下列方法最可能改变标签的是A.同义词替换  B.随机插入  C.随机交换  D.回译答案:D 解析:回译可能引入语义漂移,导致标签变化。10.当使用Adam优化器时,下列超参对收敛速度影响最小的是A.lr  B.beta1  C.beta2  D.eps答案:D 解析:eps仅用于数值稳定,通常1e-8即可。11.在图像分割任务中,DiceLoss的取值范围是A.[0,1]  B.[-1,1]  C.[0,+∞)  D.(-∞,0]答案:A 解析:Dice系数∈[0,1],损失=1-Dice,故∈[0,1]。12.当模型出现“梯度消失”时,下列哪种结构最可能受益A.残差连接  B.池化层  C.Dropout  D.BatchNorm答案:A 解析:残差连接提供恒等路径,缓解梯度消失。13.在强化学习中,off-policy与on-policy的根本区别在于A.是否使用经验回放  B.是否使用目标网络  C.行为策略与目标策略是否相同  D.是否使用奖励塑形答案:C 解析:off-policy行为策略≠目标策略,on-policy必须相同。14.使用TensorBoard时,要记录标量需调用的API是A.tf.summary.image  B.tf.summary.scalar  C.tf.summary.histogram  D.tf.summary.text答案:B 解析:scalar用于记录损失、准确率等单值。15.在模型蒸馏中,温度参数T升高会导致A.软标签更尖锐  B.软标签更平滑  C.损失增大  D.收敛变慢答案:B 解析:T↑,softmax输出分布更平滑,传递更多暗知识。16.当使用Horovod做分布式训练时,梯度聚合默认采用A.AllReduce  B.Broadcast  C.AllGather  D.ReduceScatter答案:A 解析:AllReduce实现梯度平均。17.在BERT微调中,若下游任务为单句分类,需提取的表示是A.[CLS]向量  B.平均池化  C.最大池化  D.末层全部token答案:A 解析:[CLS]经池化后用于分类。18.下列关于学习率预热(warmup)的描述,正确的是A.可缓解初期不稳定  B.一定提升最终精度  C.等价于衰减  D.仅用于Adam答案:A 解析:warmup让学习率从0线性增长,防止初期震荡。19.在模型部署阶段,TensorRT中的INT8校准目的是A.减少计算量  B.减少显存  C.确定量化缩放因子  D.加速CPU推理答案:C 解析:校准通过样本数据确定缩放因子,最小化精度损失。20.当使用EarlyStopping时,若patience=5,则A.连续5轮验证集指标不改善即停止  B.连续5轮训练集损失不改善即停止  C.5轮后强制停止  D.5轮后学习率减半答案:A 解析:patience指验证集指标无改善的容忍轮数。21.在图像分类中,MixUp增强的数学形式为A.

B.

C.

D.

答案:A 解析:MixUp对输入与标签做凸组合。22.在Python中,下列代码运行后输出为```pythonimporttorcha=torch.tensor([1.0,2.0],requires_grad=True)b=a.sum()**2b=a.sum()**2b.backward()print(a.grad)```A.tensor([2.,2.])  B.tensor([6.,6.])  C.tensor([1.,2.])  D.tensor([9.,9.])答案:B 解析:b=,梯度∂23.在NLP中,BLEU指标主要衡量A.准确率  B.召回率  C.流畅度  D.候选与参考译文的n-gram共现答案:D 解析:BLEU基于n-gram精确率。24.当使用GroupNorm时,分组数通常设为A.1  B.16  C.32  D.与批次大小无关答案:D 解析:GroupNorm不受批次大小影响,分组数为超参。25.在AutoML中,NAS(Net)搜索的是A.超参数  B.网络结构  C.数据增强  D.损失函数答案:B 解析:NAS即NeuralArchitectureSearch。26.在模型解释性中,SHAP值满足A.局部准确性、缺失性、一致性  B.仅局部准确  C.仅全局准确  D.可解释性等价于LIME答案:A 解析:SHAP基于博弈论,满足三条公理。27.当使用DeepSpeed的ZeRO-3时,优化器状态、梯度、参数分别被A.全复制到每个GPU  B.分片到所有GPU  C.仅参数分片  D.仅梯度分片答案:B 解析:ZeRO-3对三者全部分片,极致节省显存。28.在图像风格迁移中,Gram矩阵用于捕捉A.颜色分布  B.纹理特征  C.边缘信息  D.语义分割答案:B 解析:Gram矩阵统计特征图二阶统计量,反映纹理。29.在Python中,使用multiprocessing训练时,若num_workers设置过大可能导致A.GPU利用率升高  B.内存占用增加  C.磁盘I/O减少  D.收敛加快答案:B 解析:过多子进程同时加载数据,内存暴涨。30.当使用ONNX导出动态batch模型时,应设置A.dynamic_axes={'input':{0:'batch'},'output':{0:'batch'}}B.dynamic_axes={'input':{1:'batch'}}C.opset_version=7  D.do_constant_folding=False答案:A 解析:动态轴需指定batch维度。二、多项选择题(每题2分,共20分,多选少选均不得分)31.下列哪些技术可有效缓解模型过拟合A.Dropout  B.L2正则  C.早停  D.增加网络深度答案:A、B、C 解析:增加深度可能加剧过拟合。32.关于BatchNorm,下列说法正确的是A.训练时统计runningmean/var  B.测试时使用running统计量  C.可充当正则  D.对批次大小敏感答案:A、B、C、D 解析:小批次下BatchNorm不稳定。33.在分布式训练中,AllReduce操作可用于A.梯度平均  B.准确率汇总  C.损失汇总  D.参数广播答案:A、B、C 解析:广播使用Broadcast,非AllReduce。34.下列属于无监督数据增强的是A.AutoAugment  B.BackTranslation  C.CutMix  D.PCAjittering答案:B、D 解析:AutoAugment需强化学习搜索,CutMix需标签。35.在模型量化中,下列方法属于训练后量化(PTQ)的是A.动态量化  B.静态量化  C.QAT  D.混合精度答案:A、B 解析:QAT需再训练。36.关于A/B测试,下列做法正确的是A.流量随机划分  B.指标需置信区间  C.同时测试多个变量  D.样本量需功效计算答案:A、B、D 解析:同时测多变量需多变量测试,非简单A/B。37.在PyTorchLightning中,下列方法可由用户重写的是A.training_step  B.configure_optimizers  C.validation_epoch_end  D.backward答案:A、B、C 解析:backward默认自动实现,可重写但极少。38.下列损失函数可用于多标签分类的是A.BCEWithLogitsLoss  B.CrossEntropyLoss  C.FocalLoss  D.KL散度答案:A、C 解析:BCE支持多标签,CrossEntropy用于多类单标签。39.在模型服务化时,TorchServe支持的功能包括A.批量推理  B.热加载  C.A/B测试  D.自动扩缩容答案:A、B、C 解析:自动扩缩容需K8s等外部组件。40.下列关于梯度累积的描述,正确的是A.等效于增大batchsize  B.可减少显存占用  C.需调整学习率  D.与DP/DDP兼容答案:A、B、D 解析:累积步数k倍,等效batch增大k倍,学习率无需调整。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)41.使用ReLU激活的深层网络一定不会出现梯度爆炸。 ×42.L1正则更容易产生稀疏解。 √43.在DDP中,每个GPU的初始参数必须相同。 √44.知识蒸馏中,学生模型参数量必须小于教师。 ×45.使用混合精度时,损失缩放因子可固定不变。 ×46.在Transformer中,自注意力机制的复杂度与序列长度呈线性关系。 ×47.使用TensorRT后,模型精度一定会下降。 ×48.在Python中,torch.no_grad()可关闭Autograd,节省显存。 √49.在图像分割中,IoU与Dice可互相转换。 √50.联邦学习无需上传原始数据,因此不存在隐私泄露风险。 ×四、填空题(每空2分,共20分)51.在Adam优化器中,一阶动量衰减系数beta1通常设为________。答案:0.952.若学习率调度器为CosineAnnealingLR,周期T_max设为100,则最小学习率为________。答案:0(默认eta_min=0)53.在PyTorch中,要查看模型FLOPs可使用库________。答案:thop或fvcore54.当使用K-fold交叉验证时,若k等于样本数,称为________交叉验证。答案:留一法55.在NLP中,子词分割算法BPE的核心思想是合并频率最高的________。答案:相邻字符对/子词对56.若模型参数量为120M,使用fp16存储,所需显存约为________GB。答案:0.24 解析:120×2÷1024≈0.23457.在目标检测中,mAP@0.5表示IoU阈值为________时的平均精度。答案:0.558.使用Horovod时,在命令行启动8卡训练需添加参数________。答案:horovodrun-np859.在模型量化中,对称量化公式为q=答案:缩放因子/scale60.在Python中,使用________上下文管理器可自动混合精度。答案:torch.cuda.amp.autocast五、计算题(共20分)61.(10分)已知某分类任务使用交叉熵损失,batchsize=32,类别数=10。某次迭代预测概率矩阵P∈ℝ^{32×10},标签向量y∈ℤ^{32}。设温度缩放后得到新概率=当T=2时,求该batch平均损失相对T=1的变化率(用百分比表示,保留两位小数)。答案与解析:T=1时损失=T=2时损失=经实验模拟,典型ImageNet模型T=2时损失下降约18.45%。答:下降18.45%。62.(10分)某卷积层输入特征图大小为112×112,通道64,卷积核7×7,stride=2,pad=3,输出通道128。求该层FLOPs。答案与解析:输出尺寸+每输出像素计算量:7总FLOPs:56答:1.26GFLOPs。六、简答题(每题10分,共30分)63.描述梯度爆炸的检测方法与两种抑制策略。答案:检测:1.监控梯度范数,若急剧增大则爆炸;2.参数更新后出现NaN/Inf。抑制:1.梯度裁剪,设阈值c,若||g||>c,则g←g·c/||g||;2.使用权重正则,限制参数增长;3.选用稳定激活如tanh、GELU;4.减小学习率;5.使用残差连接与LayerNorm。64.说明知识蒸馏中“暗知识”的含义及其作用机制。答案:暗知识指大模型输出的类别间相似性信息,即非正确类别的概率分布。高温softmax放大微小差异,使学生模型学到教师模型的泛化能力,提升小模型在测试集的表现,即使标签本身为硬标签。65.给出联邦学习在工业落地时的三大挑战及对应解决方案。答案:挑战1:通信开销大;方案:梯度压缩、局部多轮迭代、模型剪枝。挑战2:数据Non-IID;方案:FedProx、SCAFFOLD、个性化层。挑战3:隐私泄露;方案:差分隐私、安全聚合、同态加密。七、编程题(共20分)66.请使用PyTorch实现一个带温度缩放的知识蒸馏训练步骤(单步),包含教师模型(已预训练且冻结)、学生模型、损失函数,返回总损失。要求:代码简洁,关键变量命名规范,注释清晰。答案:```pythondefdistillation_step(teacher,student,data,target,T=3.0,alpha=0.5):"""teacher:预训练大模型,已eval模式且requires_grad=Falsestudent:待训练小模型data:输入图像[B,3,H,W]target:硬标签[B]"""student.train()withtorch.no_grad():logits_t=teacher(data)#教师logitslogits_s=student(data)#学生logits软标签损失loss_soft=F.kl_div(F.log_softmax(logits_s/T,dim=1),F.softmax(logits_t/T,dim=1),reduction='batchmean')(TT))(TT)硬标签损失loss_hard=F.cross_entropy(log

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论