2025年职业技能竞赛(人工智能训练师赛项)参考试题库(含答案)_第1页
2025年职业技能竞赛(人工智能训练师赛项)参考试题库(含答案)_第2页
2025年职业技能竞赛(人工智能训练师赛项)参考试题库(含答案)_第3页
2025年职业技能竞赛(人工智能训练师赛项)参考试题库(含答案)_第4页
2025年职业技能竞赛(人工智能训练师赛项)参考试题库(含答案)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年职业技能竞赛(人工智能训练师赛项)参考试题库(含答案)一、单选题(每题1分,共30分)1.在PyTorch中,若需冻结某一层参数使其不参与反向传播,应执行的操作是A.layer.requires_grad=FalseB.layer.train(False)C.optimizer.zero_grad()D.layer.eval()答案:A解析:requires_grad=False直接关闭张量梯度计算,其余选项仅影响BN/Dropout行为或优化器状态。2.使用KerasFunctionalAPI构建多输入模型时,合并两个分支的推荐层是A.ConcatenateB.AddC.DotD.Maximum答案:A解析:Concatenate沿指定轴拼接特征图,保留全部信息,适合异构输入融合。3.在目标检测任务中,YOLOv8引入的DFL(DistributionFocalLoss)主要解决A.正负样本不平衡B.边界框分布建模C.多尺度特征融合D.标签噪声答案:B解析:DFL将框坐标建模为概率分布,用交叉熵回归位置,降低量化误差。4.Transformer中,位置编码使用正弦余弦函数而非可学习向量的核心原因是A.减少显存B.支持任意长度外推C.加速注意力计算D.提升多头分裂效率答案:B解析:正弦编码具有周期性且与位置线性相关,可泛化到训练未见长度。5.联邦学习场景下,客户端上传梯度而非原始数据的主要隐私风险来自A.模型反演攻击B.梯度泄露攻击C.成员推理攻击D.后门攻击答案:B解析:梯度与原始数据存在解析关系,攻击者可重建输入,如DLG算法。6.在NLP数据增强中,对中文采用同义词替换时,最可靠的词向量模型是A.Word2VecB.GloVeC.ERNIE3.0D.EDA答案:C解析:ERNIE3.0基于知识增强,同义词判别准确率高于静态向量。7.当训练ResNet出现loss=NaN,首先应检查A.学习率是否过大B.是否使用LabelSmoothingC.是否开启混合精度D.是否使用Warmup答案:A解析:过大学习率导致梯度爆炸,最先表现为NaN;混合精度需配合LossScaling。8.在TensorRT加速中,INT8校准若出现精度骤降,优先尝试A.启用QATB.减少校准批次C.关闭LayerFusionD.提高最大工作空间答案:A解析:QAT在训练阶段模拟量化,可显著恢复INT8精度。9.使用LoRA微调LLM时,秩r的选取经验法则是A.与attentionhead数成正比B.与模型层数成正比C.与下游数据量成正比D.与原始矩阵维度无关答案:A解析:秩r通常取464,head数越多可设更大r以捕获多样子空间。10.在DiffusionModel采样中,DDIM与DDPM的主要差异是A.是否随机B.步长是否固定C.是否可逆D.损失函数答案:C解析:DDIM构造非马尔可夫链,支持确定性采样,可逆生成潜码。11.当使用混合精度训练时,LossScaling的初始值通常设为A.128B.1024C.动态自适应D.1答案:B解析:1024为经验值,可覆盖大多数模型梯度范围,动态缩放需额外监控。12.在AutoML中,NASNet采用的搜索策略是A.强化学习B.进化算法C.可微分结构D.贝叶斯优化答案:C解析:NASNet通过连续松弛将离散结构可微,用梯度下降优化。13.在CTR预估中,DeepFM相对Wide&Deep的改进是A.共享EmbeddingB.引入AttentionC.使用DCND.多任务学习答案:A解析:DeepFM共享FM与DNN的Embedding,减少参数量并缓解不一致。14.当使用Horovod多卡训练时,出现慢节点拖尾,可启用A.HierarchicalAllReduceB.GradientCompressionC.弹性训练D.NCCL_P2P_DISABLE答案:A解析:分层AllReduce减少跨交换机通信,缓解带宽不均。15.在图像分割中,DiceLoss相对交叉熵的优势是A.对类别不平衡鲁棒B.计算更快C.支持多标签D.可导性更好答案:A解析:Dice直接优化重叠度,对前景像素少的情况更稳定。16.使用ONNX导出动态batch模型时,应设置A.dynamic_axesB.opset_versionC.do_constant_foldingD.export_params答案:A解析:dynamic_axes指定动态维度,其余为优化或版本参数。17.在强化学习PPO中,clip参数ε通常取A.0.1B.0.5C.0.9D.1.2答案:A解析:0.1为OpenAI默认,平衡方差与稳定。18.当使用EarlyStopping时,若monitor='val_loss',mode应设为A.minB.maxC.autoD.任意答案:A解析:val_loss越小越好,需明确min避免误判。19.在VisionTransformer中,PatchEmbedding的卷积核大小通常等于A.patch_sizeB.strideC.1D.3答案:A解析:核大小=patch_size,步长=patch_size,实现无重叠分块。20.使用DeepspeedZero3时,优化器状态分片带来的显存节省约A.1/2B.2/3C.3/4D.4/5答案:C解析:Zero3分片参数、梯度、优化器状态,显存与卡数成反比,理论节省3/4。21.在中文文本分类中,使用MacBERT预训练模型时,最应保留的预处理是A.全角转半角B.繁简转换C.分词D.无需分词答案:D解析:MacBERT基于字符,无需分词,其余为可选清洗。22.当使用知识蒸馏,教师为Ensemble时,学生最佳模仿对象是A.平均logitsB.投票标签C.最高置信度D.随机教师答案:A解析:平均logits保留更多信息,方差更低。23.在图像风格迁移中,Gram矩阵计算的是A.通道间相关性B.空间位置C.颜色直方图D.边缘强度答案:A解析:Gram表征特征图通道二阶统计,捕捉纹理。24.使用RayTune进行超参搜索时,ASHA调度器属于A.早停型B.贝叶斯型C.进化型D.网格型答案:A解析:ASHA通过异步早停淘汰差试验,节省算力。25.在语音合成Tacotron2中,停止token的激活函数是A.SigmoidB.ReLUC.TanhD.Softmax答案:A解析:Sigmoid输出01概率,判断序列结束。26.当使用混合专家模型MoE,专家容量因子过大会导致A.负载不均B.显存溢出C.路由崩溃D.梯度消失答案:B解析:容量因子=每个专家处理的token上限,过大显存线性增加。27.在推荐系统冷启动中,使用元学习MAML的核心优势是A.快速适应新用户B.减少特征工程C.降低延迟D.提高召回答案:A解析:MAML学习良好初始化,少量梯度步即可泛化新任务。28.使用CLIP进行ZeroShot分类时,提示模板“aphotoofa{label}”属于A.上下文优化B.手工模板C.可学习向量D.对抗样本答案:B解析:手工模板无需训练,简单有效。29.在模型可解释性中,IntegratedGradients相对于GradCAM的改进是A.满足敏感性公理B.支持中间层C.无需baselineD.计算更快答案:A解析:IG满足敏感性、实现不变性,GradCAM仅定位。30.当使用Weights&Biases记录直方图时,log_freq参数控制A.记录间隔步数B.直方图分桶数C.数据上传压缩D.图像分辨率答案:A解析:log_freq指定每多少步记录一次,减少存储。二、多选题(每题2分,共20分)31.下列哪些操作可降低Transformer显存占用A.GradientCheckpointingB.FlashAttentionC.FP16D.SeqLengthWarmup答案:A,B,C解析:Checkpointing用时间换空间;FlashAttention重排计算减少峰值;FP16减半;Warmup仅防震荡。32.在StableDiffusion中,ClassifierFreeGuidance的实现依赖A.条件dropB.双模型推理C.无分类器D.对抗损失答案:A,B解析:训练时随机drop条件,推理时联合有/无条件预测,外推提升保真。33.以下属于联邦学习安全聚合协议A.SecAggB.DPSGDC.Paillier加密D.DoubleMasking答案:A,C,D解析:SecAgg与DoubleMasking基于秘密共享;Paillier同态;DPSGD为噪声机制,非聚合协议。34.在CTR模型中,可有效捕获高阶特征交互的模块A.DCNCrossNetworkB.xDeepFMCINC.FiBiNetSENetD.AutoIntMultihead答案:A,B,D解析:CIN显式阶乘;CrossNetwork隐式高阶;AutoInt用注意力;SENet为通道加权,不提升阶数。35.以下对TensorFlowRecommenders库描述正确A.支持TwoTowerB.内置SamplingBias校正C.提供FactorizedTopK指标D.仅支持TF1.x答案:A,B,C解析:TFRS基于TF2.x,含SamplingBias与FactorizedTopK。36.在VisionTransformer微调中,常用数据增强A.RandAugmentB.MixUpC.CutMixD.RandomErasing答案:A,B,C,D解析:ViT同样受益,尤其RandAugment提升鲁棒。37.以下属于DiffusionModel加速采样算法A.DPMSolverB.UniPCC.PLMSD.VQGAN答案:A,B,C解析:DPMSolver为ODE求解器;UniPC、PLMS改进噪声调度;VQGAN为生成架构。38.在模型压缩中,可实现结构化稀疏的方案A.magnitudebased剪枝B.SSL(StructuredSparsityLearning)C.N:M稀疏D.LotteryTicket答案:B,C解析:SSL学习通道稀疏;N:M为2:4结构;magnitude与LTH非结构化。39.以下对HuggingFacePEFT库描述正确A.支持LoRAB.支持AdaLoRAC.支持PromptTuningD.需修改模型源码答案:A,B,C解析:PEFT即插即用,无需改源码。40.在自动驾驶感知中,多传感器融合常用方法A.EarlyFusionB.LateFusionC.IntermediateFusionD.FederatedFusion答案:A,B,C解析:联邦为训练范式,非融合阶段。三、判断题(每题1分,共10分)41.使用GroupNorm时,batch_size=1也能稳定训练。答案:对解析:GroupNorm与batch无关,按通道分组。42.在PyTorch中,nn.DataParallel比DistributedDataParallel速度更快。答案:错解析:DDP采用多进程,通信更高效。43.CLIP的图像编码器只能使用ViT,不能用CNN。答案:错解析:CLIP原文提供ResNet与ViT双骨干。44.在知识蒸馏中,温度τ越高,softmax分布越尖锐。答案:错解析:τ越高分布越平滑。45.使用ONNXRuntime时,开启TensorRT后端需安装onnxruntimegpu>=1.12。答案:对解析:1.12后官方集成TensorRTEP。46.在GPT生成中,TopK采样比TopP采样更易出现重复。答案:对解析:TopK固定候选集,缺乏动态调整。47.在推荐系统冷启动中,使用元特征(如性别、年龄)对MoE路由无帮助。答案:错解析:元特征可指导路由,提升新用户效果。48.使用Deepspeed时,开启CPUOffload会增加通信量。答案:对解析:参数需频繁在GPUCPU间搬运。49.在图像分类中,MixUp标签采用线性插值,对应损失函数需改为交叉熵。答案:错解析:应使用软标签交叉熵,非硬标签。50.在StableDiffusion中,UNet去噪网络仅含卷积块,不含Attention。答案:错解析:UNet含CrossAttention注入文本条件。四、填空题(每题2分,共20分)51.PyTorch中,若需将模型参数转为FP16,同时保持FP32主副本,应使用________优化器。答案:torch.cuda.amp.GradScaler(或MixedPrecision,答auto_cast+GradScaler即给分)52.Transformer中,自注意力的时间复杂度为________。答案:O(n²d)53.在CTR预估中,FM的二阶交互参数矩阵秩为________。答案:k(隐向量维度)54.使用TensorRTINT8校准时,校准集样本数通常不少于________。答案:50055.在PPO中,GAE(λ)用于估计________。答案:优势函数56.若要将ResNet50的Top1精度从76.1%提升到77%,常用技巧之一是引入________学习率调度。答案:CosineAnnealing(或LabelSmoothing、AugMix等,答出任意一种即给分)57.在VisionTransformer中,PatchSize=16,输入224×224,则序列长度为________。答案:19658.使用HuggingFaceTransformers下载模型时,设置local_dir_use_symlinks=False可避免________。答案:磁盘重复占用(或硬链接问题)59.在StableDiffusion中,采样步数从50减到20,常用________采样器保持质量。答案:DPMSolver++(或UniPC)60.联邦学习安全聚合中,双掩码方案需________轮通信完成解密。答案:2(或两轮)五、简答题(每题10分,共30分)61.描述如何使用LoRA在消费级GPU上微调LLaMA7B,并给出关键代码片段与显存占用估算。答案:1.环境:PyTorch2.0+CUDA11.8,bitsandbytes量化,peft库。2.步骤:a.加载4bit量化模型:fromtransformersimportAutoModelForCausalLM,BitsAndBytesConfigbnb=BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_use_double_quant=True)model=AutoModelForCausalLM.from_pretrained("decapodaresearch/llama7bhf",quantization_config=bnb,device_map="auto")b.准备LoRA配置:frompeftimportLoraConfig,get_peft_modellora_config=LoraConfig(r=16,lora_alpha=32,target_modules=["q_proj","v_proj"],lora_dropout=0.05,bias="none")model=get_peft_model(model,lora_config)c.训练:使用QLoRA+DeepSpeedZero2,batch_size=1,gradient_accumulation=16,max_length=512。3.显存:量化后基模型约3.5GB,LoRA参数≈2×16×4096×2×2=0.5MB,激活≈1GB,总峰值≈5GB,单RTX306012GB可训。解析:双量化减少0.4GB;仅训练LoRA,反向传播无需全量;Zero2分片优化器状态。62.说明如何在目标检测任务中利用伪标签(PseudoLabeling)提升YOLOv8在无标注数据上的性能,给出置信度阈值选择策略与实验结果预期。答案:1.流程:a.用有标注数据训练教师YOLOv8至收敛;b.对无标注图像预测,保留置信度>τ的框作为伪标签;c.合并真标签与伪标签,重新训练学生模型;d.可选:教师EMA更新。2.阈值策略:a.初

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论