全省首届职业技能竞赛(人工智能训练师赛项)备赛试题库_第1页
全省首届职业技能竞赛(人工智能训练师赛项)备赛试题库_第2页
全省首届职业技能竞赛(人工智能训练师赛项)备赛试题库_第3页
全省首届职业技能竞赛(人工智能训练师赛项)备赛试题库_第4页
全省首届职业技能竞赛(人工智能训练师赛项)备赛试题库_第5页
已阅读5页,还剩12页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

全省首届职业技能竞赛(人工智能训练师赛项)备赛试题库一、单项选择题(每题1分,共15分)1.在Transformer中,位置编码使用正余弦函数的核心原因是A.可学习参数更少,加速收敛B.可以直接捕捉绝对位置C.便于外推到更长序列D.增强多头注意力非线性答案:C解析:正余弦函数编码具有周期性,未参与训练,故可外推。2.当使用混合精度训练时,下列哪项操作最能抑制梯度下溢?A.动态损失缩放B.权重衰减C.LabelsmoothingD.梯度裁剪答案:A解析:动态损失缩放通过放大损失值,使反向梯度保持可用动态范围。3.在联邦学习场景下,为防御模型投毒攻击,服务器端常用的聚合策略是A.FedAvgB.FedProxC.KrumD.SGD答案:C解析:Krum选择与大多数更新向量最接近的一个更新,可抵抗拜占庭攻击。4.若将BatchNorm替换为GroupNorm,下列说法正确的是A.对小batch更鲁棒B.需要同步跨卡统计量C.会增加GPU显存占用D.仅适用于RNN答案:A解析:GroupNorm不依赖batchsize,故在小batch下更稳定。5.在目标检测任务中,YOLOv7引入的“辅助头”主要作用是A.提供多尺度特征B.增加正样本数量C.加速推理D.仅用于蒸馏答案:B解析:辅助头在训练阶段增加正样本锚点,提升召回。6.使用AdamW优化器时,权重衰减系数λ应加在A.梯度B.一阶动量C.二阶动量D.参数更新步答案:D解析:AdamW将衰减从梯度中解耦,直接作用于参数更新步。7.在DiffusionModel中,DDIM采样相比DDPM的最大优势是A.采样步数可任意少B.似然更高C.训练更快D.网络参数量更少答案:A解析:DDIM通过非马尔可夫过程,实现确定性采样,可用20步生成高质量图像。8.当使用EarlyStopping时,若监控指标10个epoch未提升即终止,这种策略的偏差属于A.过拟合B.欠拟合C.高方差D.高偏差答案:D解析:提前停止限制模型容量,可能欠拟合,表现为高偏差。9.在模型压缩中,KnowledgeDistillation的最小化目标通常表示为A.KL(p||q)B.KL(q||p)C.MSED.MAE答案:B解析:学生网络q拟合教师网络p,最小化KL(q||p)。10.当使用混合专家模型MoE时,门控网络输出经Softmax后,再引入噪声Top-K的作用是A.提升稀疏性B.降低通信开销C.负载均衡D.防止梯度消失答案:C解析:噪声Top-K使不同专家被均匀激活,避免“赢者通吃”。11.在NLP数据增强中,Back-translation的主要风险是A.引入语法错误B.改变标签分布C.增加计算量D.降低词汇多样性答案:B解析:回译可能改变句子极性,导致标签翻转。12.当使用RayTune进行超参搜索时,ASHAscheduler的“异步”体现在A.提前终止差试验B.并行运行多试验C.动态分配资源D.以上全部答案:D解析:ASHA通过并行与早停实现异步超参优化。13.在模型可解释性中,IntegratedGradients需使用基准输入x′,通常选取A.全零向量B.训练均值C.随机高斯D.对抗样本答案:A解析:零基准满足线性公理,且计算高效。14.当使用Horovod做分布式训练时,梯度压缩算法PowerSGD的核心思想是A.低秩近似B.量化到8bitC.稀疏Top-KD.哈希压缩答案:A解析:PowerSGD将梯度矩阵做低秩分解,减少通信量。15.在AutoML中,超网络HyperNet的输出是A.权重张量B.学习率C.网络结构编码D.损失值答案:A解析:HyperNet为子网络生成权重,实现权重共享。二、多项选择题(每题2分,共10分,多选少选均不得分)16.下列哪些技术可有效缓解类别不平衡?A.FocalLossB.过采样少数类C.代价敏感矩阵D.GAN生成少数类样本答案:ABCD解析:四项均可改变损失或数据分布,缓解不平衡。17.在模型服务阶段,以下哪些做法可降低P99延迟?A.动态批处理B.TensorRT加速C.模型分片D.异步IO答案:ABCD解析:四项均通过计算或IO优化降低长尾延迟。18.关于Transformer自注意力,说法正确的是A.计算复杂度O(n²d)B.可并行计算C.不受序列长度限制D.可视为完全图消息传递答案:ABD解析:复杂度与n²成正比,C错误。19.在联邦学习中,参与方可能面临哪些隐私泄露风险?A.梯度泄露B.模型逆向C.成员推理D.属性推理答案:ABCD解析:梯度、模型输出均可被攻击者利用。20.下列哪些指标可直接用于评估图像生成模型?A.FIDB.ISC.LPIPSD.BLEU答案:ABC解析:BLEU用于文本,不适用于图像。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)21.使用ReLU激活一定不会发生梯度消失。×解析:ReLU在负区间梯度为零,仍可能导致“死亡神经元”。22.AUC指标对类别不平衡不敏感。√解析:AUC基于排序,对正负比例不敏感。23.在卷积网络中,空洞卷积会增加参数量。×解析:空洞卷积扩大感受野,但参数量不变。24.使用混合专家模型时,专家网络可共享底层参数。√解析:MoE允许共享底层,专家仅在上层分叉。25.知识蒸馏中,温度T越高,软标签越平滑。√解析:T增大,Softmax输出更均匀。26.在目标检测中,mAP@0.5一定大于mAP@0.5:0.95。×解析:后者取多IoU均值,通常更低。27.使用梯度裁剪会改变梯度方向。×解析:裁剪仅缩放模长,方向不变。28.在GAN中,判别器损失越低,生成器性能一定越好。×解析:判别器过强会导致梯度消失,生成器反而变差。29.使用PyTorch时,model.eval()会关闭Dropout。√解析:eval模式下Dropout自动关闭。30.在AutoML中,超网络训练完成后,子网络无需再训练即可部署。×解析:子网络权重为预测值,通常需微调。四、填空题(每空2分,共10分)31.若BatchSize=64,初始学习率0.1,采用线性缩放规则,当BatchSize扩大到256时,新学习率应为______。答案:0.4解析:线性缩放lr′=lr×(256/64)=0.4。32.在Transformer中,若隐藏维度d=512,头数h=8,则每个头的维度为______。答案:64解析:512/8=64。33.若使用4bit量化,原始32bit浮点模型可压缩至原大小的______%。答案:12.5解析:4/32=1/8=12.5%。34.在YOLOv5中,若输入图像640×640,下采样5次,则特征图最小尺度为______×______。答案:20×20解析:640/2⁵=20。35.若使用FSDP(FullyShardedDataParallel)训练,模型参数量1.2B,fp16精度,则每张卡完整存储参数需______GB。答案:2.4解析:1.2×10⁹×2Byte=2.4×10⁹Byte≈2.4GB。五、计算题(共25分,须给出LaTeX公式与数值结果)36.(8分)给定二分类数据集,正类1200条,负类800条。模型预测结果:TP=1080,FP=160,TN=640,FN=120。(1)计算精确率P、召回率R、F1值;(2)计算加权准确率BalancedAccuracy。答案:精确率P=召回率R=F1F1=平衡准确率BACC=37.(8分)某卷积层输入特征图224×224×3,卷积核7×7,stride=2,padding=3,输出通道64,bias=True。(1)输出特征图尺寸;(2)该层参数量;(3)若采用组卷积groups=32,参数量变为多少?答案:(1)H输出112×112×64。(2)参数量Params=(7×7×3×64)+64=9408+64=9472(3)组卷积分组32,每组输入通道3/32非整数,需先调整输入通道为32的倍数,假设输入通道改为32,则Params=(7×7×1×64)+64=3136+64=320038.(9分)给定学习率调度:cosineannealing,初始lr₀=0.1,最小lr_min=1×10⁻⁵,总epochT=100,当前epocht=40。(1)写出学习率公式;(2)计算当前lr;(3)若采用warm-up10epoch,重新计算t=40时的lr。答案:(1)lr(t)=l(2)lr(40)=1×(3)warm-up阶段线性增长,10epoch后启动cosine。此时t′=30,lr=1×六、实操题(共30分,须提交可运行代码与训练日志)39.任务描述:基于给定子集ImageNet-1k(共100类,每类500张),训练一个参数量≤5M的图像分类模型,要求:(1)Top-1准确率≥78%;(2)使用知识蒸馏,教师为ResNet50预训练模型;(3)记录训练曲线、超参、最终指标;(4)写出核心代码片段(≤60行),并说明蒸馏损失权重、温度T的选择依据。答案与解析:核心代码(PyTorch):```pythonclassDistillLoss(nn.Module):def__init__(self,T=4.0,alpha=0.5):super().__init__()self.T,self.alpha=T,alphaself.kl=nn.KLDivLoss(reduction='batchmean')self.ce=nn.CrossEntropyLoss()defforward(self,student_out,teacher_out,labels):soft_loss=self.kl(F.log_softmax(student_out/self.T,dim=1),F.softmax(teacher_out/self.T,dim=1))(self.T**2)F.softmax(teacher_out/self.T,dim=1))(self.T**2)hard_loss=self.ce(student_out,labels)returnself.alphasoft_loss+(1-self.alpha)hard_loss

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论