2025年全省职业技能竞赛(人工智能训练师赛项)备赛试题库(含答案)_第1页
2025年全省职业技能竞赛(人工智能训练师赛项)备赛试题库(含答案)_第2页
2025年全省职业技能竞赛(人工智能训练师赛项)备赛试题库(含答案)_第3页
2025年全省职业技能竞赛(人工智能训练师赛项)备赛试题库(含答案)_第4页
2025年全省职业技能竞赛(人工智能训练师赛项)备赛试题库(含答案)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年全省职业技能竞赛(人工智能训练师赛项)备赛试题库(含答案)一、单选题(每题1分,共30分)1.在PyTorch中,若模型在GPU上训练,下列哪段代码可将张量x从CPU迁移到GPU?A.x.cuda()B.x.to("cuda:0")C.x.gpu()D.x.device("gpu")答案:B解析:PyTorch使用`.to("cuda:0")`或`.cuda()`均可,但官方推荐`.to()`以支持设备字符串,兼容性更好;C、D为无效API。2.使用Adam优化器时,若beta1=0.9、beta2=0.999,则二阶矩估计的偏差修正项在t=2步时为:A.1/(10.999²)B.1/(10.999)C.10.999²D.10.999答案:A解析:二阶矩偏差修正分母为1beta2^t,t=2时为10.999²,取倒数即A。3.在Transformer中,ScaledDotProductAttention的缩放因子为:A.1/d_kB.1/√d_kC.√d_kD.d_k答案:B解析:防止点积过大进入softmax饱和区,需除以√d_k。4.联邦学习场景下,客户端上传的参数最可能是:A.原始训练数据B.模型权重梯度C.完整模型权重D.验证集准确率答案:B解析:联邦学习强调数据不出域,上传梯度或加密后的权重更新。5.在YOLOv8中,若输入图像640×640,下采样倍数为32,则特征图尺寸为:A.20×20B.40×40C.80×80D.160×160答案:A解析:640/32=20。6.使用混合精度训练时,lossscaling的主要目的是:A.加速收敛B.防止梯度下溢C.减少显存D.提高学习率答案:B解析:fp16动态范围小,乘以scale因子可避免梯度下溢。7.在DiffusionModel前向加噪过程中,若T=1000,β_t线性递增,则q(x_t|x_{t1})的方差:A.固定为β_tB.固定为1β_tC.固定为α_tD.固定为α_t的累积乘积答案:A解析:前向过程方差即为β_t。8.当使用LoRA微调LLM时,可训练参数集中在:A.Embedding层B.Attention矩阵的旁路低秩分解C.LayerNormD.输出头答案:B解析:LoRA将ΔW分解为低秩矩阵BA,仅训练B、A。9.在深度强化学习中,RainbowDQN未采用以下哪项改进?A.DoubleDQNB.DuelingNetworkC.PolicyGradientD.PrioritizedReplay答案:C解析:Rainbow整合六项,PolicyGradient不在其列。10.当使用TensorRT加速时,FP16模式相对FP32的显存占用约:A.不变B.减半C.翻倍D.减少75%答案:B解析:FP16数据大小为FP32一半。11.在CLIP模型中,图像编码器最后一层输出经什么操作得到embedding?A.GlobalAvgPoolB.L2归一化C.SoftmaxD.LayerNorm答案:B解析:图文对比学习需L2归一化后计算余弦相似度。12.若学习率调度器为CosineAnnealingLR,T_max=10,则第5轮学习率为:A.lr_max×0.5B.lr_max×(1+cos(π/2))/2C.lr_max×(1+cos(π))/2D.lr_max×cos(π/2)答案:B解析:cos(5π/10)=cos(π/2)=0,代入公式得0.5。13.在数据并行DP模式下,若batch=32、GPU=4,则每张卡实际处理样本:A.32B.16C.8D.4答案:C解析:32/4=8。14.使用Kaiming初始化时,若激活函数为ReLU,则方差增益为:A.1B.2C.√2D.0.5答案:B解析:He初始化考虑ReLU负半轴为0,增益取2。15.在NLP任务中,若词汇表大小为50000,Embedding维度512,则参数量为:A.50000×512B.50000×512×2C.50000+512D.50000/512答案:A解析:纯Lookup表,无共享。16.当使用EarlyStopping时,若patience=5,monitor='val_loss',则连续几次不下降触发停止?A.4B.5C.6D.3答案:B解析:patience即容忍次数。17.在VisionTransformer中,位置编码常用:A.绝对正弦B.可学习1D向量C.相对旋转D.无需位置编码答案:B解析:ViT默认1D可学习位置编码。18.若模型参数量1.2B,使用Adam+FP32,则显存约:A.4.8GBB.9.6GBC.14.4GBD.19.2GB答案:C解析:参数量×12字节(参数4+动量4+二阶4)≈14.4GB。19.在StableDiffusion中,文本编码器采用:A.BERTB.CLIPTextEncoderC.T5D.GPT2答案:B解析:SD1.x使用CLIPViTL/14文本塔。20.当使用F1score评估多分类时,宏平均与微平均差异主要在于:A.是否加权样本B.是否加权类别C.是否考虑混淆矩阵D.是否使用softmax答案:B解析:宏平均对每个类别平等,微平均全局统计。21.在模型蒸馏中,温度T→∞时,softmax输出趋向:A.onehotB.均匀分布C.零向量D.原logits答案:B解析:温度越高分布越平滑,极限均匀。22.若使用混合专家MoE,Top2gating,则每次激活参数量约为总专家参数的:A.100%B.50%C.2/k(k为专家数)D.固定128M答案:C解析:Top2即激活2个专家,比例2/k。23.在AutoML中,NASNet搜索空间属于:A.链式结构B.单元级重复C.随机连线D.全连接答案:B解析:NASNet搜索Normal+Reduction单元,堆叠重复。24.当使用梯度累积时,accum_steps=4,则等效batch扩大:A.2倍B.4倍C.8倍D.不变答案:B解析:显式扩大batch。25.在图像分割中,若DiceLoss=0.25,则IoU约为:A.0.25B.0.2C.0.17D.0.33答案:C解析:Dice=2IoU/(1+IoU),反解IoU≈0.17。26.当使用DeepSpeedZero3时,优化器状态分片后显存减少约:A.1/NB.2/NC.4/ND.不变答案:A解析:Zero3对参数、梯度、优化器状态全分片,线性减少。27.在语音合成Tacotron2中,位置敏感注意力机制主要解决:A.长序列遗忘B.单调对齐C.语速变化D.音色迁移答案:B解析:强制单调,避免重复或跳过。28.若使用RandAugment,默认n=2、m=9,则单张图最大变换次数:A.2B.9C.11D.18答案:A解析:n即选择变换个数。29.在模型部署阶段,若使用ONNX导出动态轴,应设置:A.dynamic_axes={'input':{0:'batch'}}B.dynamic_axes={'input':0}C.input_names=['batch']D.opset_version=7答案:A解析:字典指定轴名。30.当使用AUCROC评估,若正负样本比1:99,则随机分类器AUC期望:A.0.5B.0.99C.0.01D.1答案:A解析:随机分类器ROC对角线,AUC=0.5。二、多选题(每题2分,共20分,多选少选均不得分)31.下列哪些操作可有效缓解目标检测中小目标漏检?A.增大输入分辨率B.引入FPNC.使用CopyPaste数据增强D.降低NMS阈值答案:A、B、C解析:D降低阈值会增加误检。32.关于Transformer自注意力时间复杂度,正确的是:A.序列长度n,复杂度O(n²d)B.稀疏注意力可降至O(n√n)C.FlashAttention降低显存但复杂度不变D.线性注意力可做到O(nd)答案:A、B、C、D解析:线性注意力通过核技巧近似。33.在联邦学习中,以下哪些属于隐私威胁?A.模型逆向攻击B.成员推理攻击C.梯度泄露D.参数聚合答案:A、B、C解析:D为正常流程。34.使用混合专家MoE时,可能出现的问题包括:A.专家崩塌B.负载不均C.通信开销D.显存爆炸答案:A、B、C、D解析:均需通过auxiliaryloss、Topk、专家并行缓解。35.在LLM推理加速中,以下哪些技术可行?A.KVCacheB.动态批处理C.投机解码D.量化到INT4答案:A、B、C、D解析:均为工业界主流方案。36.下列属于无监督图像分割方法的是:A.Kmeans聚类B.Felzenszwalb算法C.GrabCutD.MaskRCNN答案:A、B、C解析:D为全监督。37.在深度伪造检测中,有效的线索包括:A.眨眼频率异常B.颜色直方图不一致C.面部landmark抖动D.压缩伪影答案:A、B、C、D解析:多模态特征融合。38.关于DiffusionModel采样加速,正确的是:A.DDIM可确定性采样B.DPMSolver多步加速C.蒸馏减少步数D.提高β_schedule即可无限加速答案:A、B、C解析:D盲目提高会失真。39.在模型压缩中,通道剪枝的关键挑战:A.如何评估通道重要性B.如何保持结构规整C.如何恢复精度D.如何增加FLOPs答案:A、B、C解析:D与目标相反。40.使用DeepSpeed训练时,以下哪些优化可同时开启?A.Zero2B.梯度累积C.FP16D.Pipeline并行答案:A、B、C、D解析:正交优化,可叠加。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)41.在PyTorch中,`torch.no_grad()`会关闭自动求导并节省显存。答案:√解析:上下文管理器禁用梯度计算。42.BatchNorm在推理阶段仍更新running_mean。答案:×解析:推理时固定,训练才更新。43.使用LabelSmoothing后,交叉熵损失可能为负值。答案:×解析:平滑后目标分布非零,损失仍≥0。44.在VisionTransformer中,移除CLStoken仍可进行图像分类。答案:√解析:可全局平均池化。45.混合精度训练一定导致模型精度下降。答案:×解析:配合lossscaling可无损。46.联邦学习中的SecureAggregation可防止服务器看到单个用户梯度。答案:√解析:同态加密或秘密共享。47.RandAugment策略空间大小与ImageNetC无关。答案:×解析:ImageNetC为鲁棒性测试集,策略空间固定。48.在YOLOv8中,AnchorFree机制意味着无需任何先验框。答案:√解析:中心点+回归偏移。49.使用TensorRTINT8量化时必须进行校准。答案:√解析:需代表性数据计算缩放因子。50.当使用AUCPR评估时,正负样本比例变化会影响基线。答案:√解析:PR曲线受先验影响。四、填空题(每题2分,共20分)51.在Transformer中,若d_model=512,h=8,则每个头的维度为______。答案:64解析:512/8=64。52.若使用Cosine学习率衰减,初始lr=0.1,最小lr=0.001,则衰减倍数为______。答案:100解析:0.1/0.001=100。53.在StableDiffusion中,UNet输入通道数为______(含条件)。答案:9解析:4latent+4context+1timestep。54.当使用FocalLoss,γ=2时,易分类样本权重相对CE缩小约______倍(pt=0.9)。答案:100解析:(10.9)²=0.01。55.若模型大小1.3B,使用INT8量化后,权重文件约______GB。答案:1.3解析:1.3B×1Byte≈1.3GB。56.在LLM评估中,衡量模型知识边界的指标缩写为______。答案:MMLU解析:MassiveMultitaskLanguageUnderstanding。57.当使用DeepSpeedZero3,N=64GPU,则每卡存储参数量占比为______。答案:1/64解析:全分片。58.在图像分割中,若预测mask概率0.8,gt=1,则BCE损失为______(ln取自然对数)。答案:0.223解析:ln(0.8)≈0.223。59.若使用RandAugment,变换幅度m=10,则旋转最大角度为______度。答案:30解析:m=10对应30°。60.在联邦学习FedAvg中,本地epoch增大可能导致模型______。答案:漂移解析:数据非独立同分布引起客户端漂移。五、简答题(每题5分,共30分)61.描述FlashAttention的核心思想及其对长序列训练的实际收益。答案:FlashAttention通过分块(tiling)将注意力计算拆分为可在SRAM中完成的小块,避免实例化大的n×n注意力矩阵,从而将显存复杂度从O(n²)降至O(n)。收益:1)显存节省,可在A100上训练n=16k的Transformer;2)运行速度提升24×,因减少HBM读写;3)精度无损,保持softmax数值稳定性。62.说明LoRA低秩适应为何能在大模型微调中减少显存占用,并给出参数压缩比公式。答案:LoRA将可训练矩阵ΔW分解为B∈ℝ^{d×r}、A∈ℝ^{r×k},原始参数量dk,现变为(d+k)r。压缩比=dk/((d+k)r)。当r≪min(d,k)时,比接近dk/(dr+kr)=dk/(r(d+k)),可缩小数十倍;冻结原权重,仅需存储低秩矩阵与梯度,优化器状态也同比例减少,显存占用下降。63.列举三种无监督语音合成方法,并比较其优缺点。答案:1)GlowTTS结合Flow,无需对齐,优点:自然度好,缺点:计算量大;2)VITS使用VAE+GAN,端到端,优点:实时性好,缺点:训练不稳定;3)YourTTS基于SpeakerEncoder,优点:零样本,缺点:音色相似度依赖数据。64.解释DINOv2自监督训练中的“动量教师”机制,并说明为何能避免崩溃解。答案:DINOv2维护一个动量更新的教师网络,权重θ_t←mθ_t+(1m)θ_s,学生θ_s通过梯度更新。教师输出经Centering与Sharpness处理,学生用交叉熵匹配教师。动量提供一致性目标,Centering防止所有输出相同,Sharpness增加峰值,共同避免崩溃。65.给出一种在边缘端部署YOLOv8nano的完整优化链路,含量化、剪枝、编译。答案:1)训练后量化:使用Ultralytics自带`exportformat=engineint8=True`,用100张校准图;2)通道剪枝:基于BN层γ排序,剪30%通道,微调50epoch;3)TensorRT编译:开启FP16+INT8混用,设置workspace=2GB,maxBatch=8;4)部署:JetsonOrinNano,时钟maxn,推理速度从30FPS提升至120FPS,mAP下降<1%。66.说明在联邦学习场景下如何利用SecureAggregation抵御半诚实服务器,并给出基于秘密共享的加法流程。答案:客户端i对本地梯度g_i生成随机数r_i,满足Σr_i=0;发送g_i+r_i到服务器;服务器聚合得到Σ(g_i+r_i)=Σg_i;因r_i和为零,服务器无法获知单个g_i。使用Shamir(t,n)秘密共享,可容忍t1客户端掉线,保证隐私与鲁棒。六、计算题(每题10分,共30分)67.给定一个Transformer块,d_model=1024,序列长度n=2048,batch=4,heads=16,计算标准自注意力与FlashAttention的显存占用差值(单位GB,保留两位小数)。答案:标准:QKV投影输出4×2048×1024×3×4Byte=0.75GB;注意力矩阵4×16×2048×2048×4Byte=8GB;合计≈8.75GB。Flash:无需存储大矩阵,仅分块中间结果,假设块大小128,需4×16×128×128×4Byte×(Q+K+V+Softmax)=0.13GB。差值:8.750.13=8.62GB。68.若使用LoRA微调GPT3175B,r=16,仅对Attention的QKV投影做适应,求可训练参数量及占比。答案:GPT3Attention参数量=96层×3投影×12288×12288≈43B。LoRA每投影参数量=2×12288×16=393k,总=96×3×393k≈113M。占比=113M/175B≈0.065%。69.在StableDiffusionv2.1中,UNet模型一次前向需计算TFLOPs。给定输入latent64×64×4,模型参数量865M,采用FP16,假设FLOPs≈2×参数量×token数,token=64×64=4096,求TFLOPs。答案:FLOPs=2×865M×4096≈7.1×10¹²,即7.1TFLO

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论