2025年人工智能训练师职业技能竞赛参考试题库50题(含答案)_第1页
2025年人工智能训练师职业技能竞赛参考试题库50题(含答案)_第2页
2025年人工智能训练师职业技能竞赛参考试题库50题(含答案)_第3页
2025年人工智能训练师职业技能竞赛参考试题库50题(含答案)_第4页
2025年人工智能训练师职业技能竞赛参考试题库50题(含答案)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年人工智能训练师职业技能竞赛参考试题库50题(含答案)一、单选题(每题1分,共20分)1.在PyTorch中,若需冻结某一层参数使其不参与反向传播,应执行的操作是A.layer.requires_grad=FalseB.layer.trainable=FalseC.layer.eval()D.torch.no_grad()答案:A解析:requires_grad属性直接控制张量是否参与梯度计算,设置为False即可冻结。2.使用混合精度训练时,下列哪项不是NVIDIAApex自动损失缩放(AMP)的默认行为A.动态调整lossscaleB.在反向传播前放大梯度C.跳过导致inf/nan的batchD.将FP16梯度转回FP32再更新权重答案:B解析:放大的是损失值而非梯度,梯度在反向过程中被动态缩放。3.在Transformer中,若将positionalencoding直接加到wordembedding后,再输入MultiHeadAttention,则位置信息将通过下列哪种方式传播A.仅通过残差连接B.通过Q、K、V矩阵乘法C.通过LayerNormD.通过FeedForward网络答案:B解析:Q、K、V均由输入线性投影而来,位置编码已混入其中,注意力权重会体现位置关系。4.当使用Adam优化器时,若beta1=0.9,beta2=0.999,则第t步的偏差修正后学习率与初始lr的关系为A.随t增大单调递减B.随t增大单调递增C.先增后减D.与t无关答案:A解析:偏差修正分母随t增大趋近于1,分子因指数移动平均导致有效步长递减。5.在目标检测任务中,YOLOv5的anchorfree分支通过以下哪项机制实现中心点预测A.中心点热力图B.中心点偏移量回归C.中心点高斯核D.中心点IoU分支答案:B解析:YOLOv5仍基于anchor,但v8才引入anchorfree,其中心点偏移量直接回归。6.若将BERTbase的隐藏层维度从768降至512,参数量约减少A.25%B.33%C.50%D.66%答案:B解析:注意力与FFN权重均与隐藏层维度平方相关,整体参数量下降约1/3。7.在联邦学习场景下,采用FedAvg算法,若客户端本地epoch增大,则全局模型收敛速度通常A.加快B.减慢C.不变D.先加快后减慢答案:A解析:本地多epoch使客户端更新更充分,减少通信轮次,但可能加剧nonIID偏差。8.使用DeepSpeedZeRO3时,下列哪项内存占用不会被分片A.优化器状态B.梯度C.模型参数D.激活值答案:D解析:ZeRO3仅对参数、梯度、优化器状态做分片,激活仍按正常流水线占用。9.在强化学习PPO算法中,若clip参数ε从0.2调至0.5,则策略更新幅度A.增大B.减小C.不变D.先增大后减小答案:A解析:ε扩大允许更激进的概率比,策略更新步长增大。10.当使用Kfold交叉验证时,若K=N(样本数),则该方式称为A.留一法B.留P法C.蒙特卡洛法D.自助法答案:A解析:K=N即每次留一个样本做验证,其余训练,故称留一法(LOO)。11.在图像分类任务中,MixUp增强将两张图片线性插值,其标签处理方式为A.硬标签取argmaxB.软标签按比例分配C.标签不变D.标签随机丢弃答案:B解析:MixUp产生凸组合标签,保持概率分布。12.若LSTM的隐藏层维度为h,输入维度为x,则单个LSTM细胞可训练参数量为A.4(hx+h²+h)B.3(hx+h²+h)C.2(hx+h²+h)D.hx+h²+h答案:A解析:四个门控,每门权重矩阵含Wx[h×x]、Wh[h×h]及偏置[h],共4组。13.在TensorFlow中,tf.keras.callbacks.ReduceLROnPlateau监控指标默认是A.lossB.val_lossC.accuracyD.val_accuracy答案:B解析:默认监控验证损失,若连续patience轮无下降则降低学习率。14.当使用知识蒸馏时,教师模型输出温度T升高,则软标签分布A.更尖锐B.更平滑C.不变D.先尖锐后平滑答案:B解析:温度升高softmaxlogits差异缩小,分布趋于均匀。15.在NLP数据清洗中,若采用SentencePiece的BPE算法,下列哪项操作会导致词表膨胀A.提高字符级回退阈值B.降低合并频次阈值C.增加最大句子长度D.启用nbest采样答案:B解析:降低频次阈值会保留更多低频合并,词表增大。16.当使用AUCROC评估二分类器时,若正负样本比例从1:1变为1:10,AUC值A.一定下降B.一定上升C.不受影响D.无法确定答案:C解析:AUC对类别分布不敏感,仅与排序能力相关。17.在PyTorchLightning中,若需自定义梯度累积步数,应重写的钩子是A.optimizer_stepB.training_stepC.accumulate_grad_batchesD.on_after_backward答案:C解析:通过trainer参数或重写accumulate_grad_batches属性即可。18.当使用RandAugment时,若Magnitude=10,则每张图片应用变换强度A.固定最大B.随机0~10C.线性递增D.离散均匀答案:A解析:Magnitude直接决定最大强度,变换幅度固定。19.在模型压缩技术中,KnowledgeDistillation的“暗知识”主要指A.权重矩阵稀疏模式B.软标签高阶相关性C.激活值直方图D.梯度方向答案:B解析:软标签蕴含类别间相似性,即暗知识。20.若将ReLU替换为GELU,则网络前向计算量A.减少B.增加C.不变D.先减后增答案:B解析:GELU含erf或tanh近似,计算复杂度高于分段线性ReLU。二、多选题(每题2分,共10分)21.下列哪些操作可有效缓解Transformer在长序列上的O(n²)内存问题A.LinformerB.PerformerC.GradientCheckpointingD.ALiBi答案:A、B、C解析:Linformer与Performer通过低秩或核方法降复杂度;Checkpointing以时间换空间;ALiBi仅替换位置编码,不降低复杂度。22.关于BatchNorm与LayerNorm,下列说法正确的是A.BatchNorm依赖batchsizeB.LayerNorm对RNN更友好C.BatchNorm在推理时使用移动平均统计量D.LayerNorm可学习仿射参数答案:A、B、C、D解析:四项均正确,LayerNorm在序列长度维度归一化,不依赖batch。23.在数据并行训练时,以下哪些因素可能导致不同GPU上模型权重不一致A.随机种子未固定B.非确定性cuDNN算法C.异步AllReduceD.混合精度溢出答案:A、B、D解析:异步AllReduce在算法层面保证一致性,溢出与随机性才会导致差异。24.下列哪些指标可用于评估生成式摘要质量A.ROUGE1B.ROUGELC.BLEUD.BERTScore答案:A、B、D解析:BLEU偏向翻译,摘要任务更常用ROUGE与BERTScore。25.当使用EarlyStopping时,以下哪些策略可降低过拟合风险A.增大patienceB.监控验证集性能C.保存最优权重D.同步降低学习率答案:B、C解析:增大patience反而延迟停止;同步降学习率属学习率调度,非EarlyStopping本身。三、判断题(每题1分,共10分)26.使用GroupNorm时,分组数等于1时等价于LayerNorm。答案:对解析:GroupNorm在单组时沿通道归一化,与LayerNorm计算方式一致。27.在PyTorch中,inplace操作如relu_会阻碍梯度计算图构建。答案:错解析:inplace操作只要不被autograd检测到覆盖即可,通常不会阻断。28.将Dropout率设为0.5时,训练阶段输出期望是推理阶段的2倍。答案:对解析:训练时以概率0.5置零,需缩放1/(10.5)=2保持期望一致。29.使用混合精度时,损失缩放因子一旦固定不变,训练必定崩溃。答案:错解析:若梯度未出现inf,固定scale仍可收敛,但鲁棒性差。30.在VisionTransformer中,移除clstoken并改用全局平均池化,模型仍可收敛。答案:对解析:GAP可替代clstoken,实验已验证有效性。31.当使用余弦退火学习率时,重启次数越多,最终性能一定越好。答案:错解析:过多重启可能破坏收敛稳定性,需权衡。32.对于类别不平衡数据,采用focalloss时γ=0等价于交叉熵。答案:对解析:γ=0时调制系数为1,退化为普通CE。33.在TensorFlow中,tf.function装饰的函数首次执行会生成Graph,后续调用不再进入Python。答案:对解析:Graph模式缓存计算图,避免Python开销。34.使用梯度裁剪(clipbynorm)时,裁剪阈值越小,训练速度一定越慢。答案:错解析:阈值过小导致梯度信息丢失,可能无法收敛,而非单纯减速。35.在DDP训练中,若某张卡batch=0,则AllReduce会自动跳过该卡。答案:错解析:DDP要求所有卡同步,空batch会导致挂起或nan。四、填空题(每题2分,共10分)36.在PyTorch中,若需将模型搬移至GPU并设置数据类型为float16,可一次性完成的代码为:model.________().________()答案:cuda;half解析:链式调用先搬移再降精度。37.当使用Kaiming初始化时,ReLU激活的卷积层权重方差应设为________。答案:2/fan_in解析:He初始化针对ReLU,方差为2/前层神经元数。38.在Transformer中,若d_model=512,head=8,则每个head的维度为________。答案:64解析:512/8=64。39.若学习率调度采用OneCycle,最大lr=1e2,则初始lr约为________。答案:1e4解析:OneCycle从峰值1/10开始线性上升。40.当使用TensorBoard记录图像时,默认通道顺序为________。答案:NCHW解析:PyTorch与TB默认NCHW,需转置若用HWC。五、简答题(每题5分,共10分)41.描述梯度累积与增大batchsize在数学上的等价条件,并指出其实现差异。答案:等价条件:累积步数m×单卡batchsize=目标大batchsize,且学习率同步放大m倍,同时保证BN统计量一致。实现差异:梯度累积在反向传播后、优化器更新前进行AllReduce,而数据并行在每次反向即刻同步;BN统计量方面,累积仅基于当前小batch,导致均值方差估计噪声更大,需调整momentum或采用GhostBN缓解。42.解释为何在知识蒸馏中,温度T升高可提升学生模型泛化,并给出温度选择的经验区间。答案:高温使softmax输出分布更平滑,暴露更多类别间相似性,学生可学习教师暗知识,缓解过拟合标签噪声;经验上,T∈[3,7]对大多数CV任务有效,NLP任务可升至10,需配合权重λ平衡硬标签损失,通常λ从0.9递减至0.5。六、编程题(共20分)43.请用PyTorch实现一个带梯度累积的VisionTransformer微调脚本,要求:1)使用timm库加载vit_base_patch16_224;2)支持混合精度与DeepSpeedZeRO2;3)每4步累积一次,总batchsize=256,单卡batch=32;4)记录训练loss与Top1准确率到TensorBoard;5)保存最佳验证集模型。答案与解析:```pythonimporttorch,timm,deepspeed,os,timefromtorch.utils.tensorboardimportSummaryWriterfromtorch.cuda.ampimportautocast,GradScalerdefmain():rank=int(os.environ['RANK'])local_rank=int(os.environ['LOCAL_RANK'])torch.cuda.set_device(local_rank)deepspeed.init_distributed()model=timm.create_model('vit_base_patch16_224',pretrained=True,num_classes=1000)train_loader=torch.utils.data.DataLoader(dataset,batch_size=32,shuffle=True,num_workers=8,pin_memory=True)val_loader=torch.utils.data.DataLoader(val_dataset,batch_size=32,shuffle=False,num_workers=8)parameters=model.parameters()model_engine,optimizer,_,_=deepspeed.initialize(args=None,model=model,model_parameters=parameters,config_params={"train_batch_size":256,"gradient_accumulation_steps":4,"fp16":{"enabled":True},"zero_optimization":{"stage":2}})writer=SummaryWriter(log_dir='./tb')ifrank==0elseNonebest_acc,step=0.0,0criterion=torch.nn.CrossEntropyLoss()forepochinrange(10):model_engine.train()running_loss,running_correct,running_total=0.0,0,0fori,(x,y)inenumerate(train_loader):x,y=x.cuda(),y.cuda()withautocast():out=model_engine(x)loss=criterion(out,y)/4累积步数model_engine.backward(loss)if(i+1)%4==0:model_engine.step()model_engine.zero_grad()step+=1ifrank==0andstep%50==0:writer.add_scalar('train/loss',loss.item()4,step)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论