2025年人工智能训练师(三级)职业技能鉴定理论考试题库(含答案)_第1页
2025年人工智能训练师(三级)职业技能鉴定理论考试题库(含答案)_第2页
2025年人工智能训练师(三级)职业技能鉴定理论考试题库(含答案)_第3页
2025年人工智能训练师(三级)职业技能鉴定理论考试题库(含答案)_第4页
2025年人工智能训练师(三级)职业技能鉴定理论考试题库(含答案)_第5页
已阅读5页,还剩24页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年人工智能训练师(三级)职业技能鉴定理论考试题库(含答案)一、单项选择题(每题1分,共40分。每题只有一个正确答案,错选、多选、未选均不得分)1.在PyTorch中,若需冻结某一层参数使其不参与反向传播,应使用的代码是A.layer.requires_grad=FalseB.layer.trainable=FalseC.layer.eval()D.torch.no_grad()答案:A解析:requires_grad属性直接控制张量是否参与梯度计算,是冻结参数的标准做法。2.使用混合精度训练时,下列哪项操作可最大限度避免梯度下溢?A.手动放大损失值B.使用GradScaler自动缩放C.降低学习率D.改用FP64精度答案:B解析:GradScaler在反向前对损失乘以可动态调整的scale因子,抵消FP16下溢风险。3.在目标检测任务中,若正负样本比例极端失衡(1:1000),首选的采样策略是A.RandomSamplerB.HardNegativeMinerC.OHEMD.RandomCrop答案:C解析:OHEM(OnlineHardExampleMining)在线挖掘难负例,兼顾效率与精度。4.Transformer中,位置编码使用正弦函数的主要优点是A.可外推到更长序列B.加速注意力计算C.降低显存占用D.增强非线性答案:A解析:正弦位置编码具有周期性且与序列长度无关,可直接外推。5.在联邦学习场景下,为防止模型更新泄露用户隐私,常用的安全聚合协议是A.FedSGDB.SecureAggregationC.FedProxD.SCAFFOLD答案:B解析:SecureAggregation通过同态加密与秘密共享,实现服务器无法看到单个客户端梯度。6.当使用Kfold交叉验证时,若数据集存在“同一用户的多条样本”,最合理的划分方式是A.随机KfoldB.StratifiedKfoldC.GroupKfoldD.TimeSeriesSplit答案:C解析:GroupKfold确保同一用户(组)只出现在一个折中,避免信息泄漏。7.在深度强化学习中,造成“高估偏差”(overestimation)的主要原因是A.策略熵过低B.最大化操作与函数逼近误差耦合C.奖励稀疏D.环境非平稳答案:B解析:DoubleDQN论文指出,max操作会累积Q网络正误差,导致系统性高估。8.若BERT模型在下游任务微调时显存不足,下列方案中显存节省最显著的是A.冻结全部Transformer层B.使用gradientcheckpointingC.降低batchsize到1D.改用ALBERT答案:B解析:gradientcheckpointing以前向重计算换取显存,可在几乎不掉点情况下节省30%–50%显存。9.在图像分割评价指标中,Dice系数与IoU的数学关系为A.Dice=2IoU/(1+IoU)B.Dice=IoU/(2–IoU)C.Dice=IoUD.无确定关系答案:A解析:令IoU=TP/(TP+FP+FN),则Dice=2TP/(2TP+FP+FN)=2IoU/(1+IoU)。10.当使用Adam优化器时,若β1=0.9,β2=0.999,初始学习率1e3,则第t步有效学习率约为A.1e3×√(1–β2^t)/(1–β1^t)B.1e3×(1–β1^t)/√(1–β2^t)C.1e3×β1^tD.1e3×β2^t答案:B解析:Adam偏差修正项为(1–β1^t)与√(1–β2^t),对应B。11.在文本生成任务中,为避免模型重复输出相同句子,最简洁有效的解码策略是A.Topk采样B.Temperature采样C.RepetitionPenaltyD.BeamSearch答案:C解析:RepetitionPenalty直接对已生成token降权,抑制循环。12.当使用Horovod做分布式训练时,下列环境变量控制AllReduce算法选择A.HOROVOD_FUSION_THRESHOLDB.HOROVOD_CYCLE_TIMEC.HOROVOD_AUTOTUNED.HOROVOD_AUTOTUNE_LOG答案:A解析:FUSION_THRESHOLD决定张量融合大小,间接影响AllReduce算法。13.在模型蒸馏中,若学生网络logits与教师logits的KL散度损失权重为α,硬标签交叉熵权重为1–α,则α一般取值范围A.0.1–0.3B.0.5–0.7C.0.7–0.9D.1.0答案:C解析:蒸馏强调“软标签”,α通常>0.7。14.当使用TensorRT加速推理时,若网络中含DynamicResize,需设置的flag为A.explicitBatchB.workspaceC.optProfileD.fp16答案:C解析:Dynamicshape需配置optimizationprofile。15.在AutoML中,基于贝叶斯优化的超参搜索,其采集函数为EI时,EI的物理意义是A.期望改善量B.后验概率C.置信上界D.熵答案:A解析:EI(ExpectedImprovement)衡量在何处采样可期望提升最优值。16.当使用EarlyStopping时,若patience=5且min_delta=0.001,则触发停止的条件是A.连续5轮验证集指标提升<0.001B.连续5轮验证集指标下降<0.001C.任意5轮指标提升<0.001D.任意5轮指标下降<0.001答案:B解析:min_delta控制“显著性”,patience控制“耐心”。17.在语音合成Tacotron2中,停止token预测使用A.MSE损失B.BCE损失C.CTCLossD.L1损失答案:B解析:停止token为二分类,用BCE。18.当使用混合专家模型(MoE)时,若topk=2,则每次激活参数占总参数比例约为A.1/2B.2/experts总数C.k/experts总数D.100%答案:C解析:仅选中k个专家,比例=k/专家数。19.在图神经网络中,GCN的层数过深会导致A.过平滑B.梯度爆炸C.节点特征维度爆炸D.邻接矩阵奇异答案:A解析:深层GCN使节点表示趋于一致,即过平滑。20.当使用DALI加载数据时,其加速原理主要是A.GPU解码+流水线B.多进程PythonC.压缩传输D.内存映射答案:A解析:DALI把解码搬到GPU,并用CUDA流水线掩盖延迟。21.在模型可解释性中,IntegratedGradients需指定基线,对图像任务常用的基线是A.全黑图B.全白图C.随机噪声D.训练集均值图答案:A解析:黑图无信号,满足“缺失”语义。22.当使用混合精度时,下列哪项操作必须在FP32下完成A.卷积前向B.批归一化C.权重更新D.激活函数答案:C解析:主权重保持FP32避免精度误差累积。23.在推荐系统冷启动中,利用用户注册信息(性别、年龄)的模型属于A.协同过滤B.内容过滤C.混合过滤D.矩阵分解答案:B解析:利用sideinformation即内容过滤。24.当使用PyTorchLightning时,若要在多卡训练时同步BN统计量,应设置A.sync_batchnorm=TrueB.distributed_backend='ddp'C.precision=16D.gradient_clip_val=1.0答案:A解析:SyncBN需显式开启。25.在文本分类中,若类别极度不平衡,对少数类影响最大的指标是A.AccuracyB.MacroF1C.MicroF1D.AUC答案:B解析:MacroF1对每类平等加权,少数类权重高。26.当使用DeepSpeedZero3时,优化器状态、梯度、参数都被切分,其通信量为A.O(1)B.O(N)C.O(N/√P)D.O(N/P)答案:D解析:Zero3把参数分片到P卡,每卡只存1/P,通信量线性下降。27.在目标检测YOLOv5中,anchorfree分支被称为A.ObjectnessB.AnchorC.GridD.Anchorfree答案:D解析:YOLOv5仍用anchor,但v6引入anchorfree分支。28.当使用知识蒸馏做NER时,教师输出为CRF转移矩阵,学生无法直接拟合,解决方法是A.蒸馏CRF边缘概率B.蒸馏维特比路径C.蒸馏发射矩阵D.弃用CRF答案:A解析:边缘概率可微,可用KL散度。29.在模型压缩中,剪枝后稀疏矩阵使用CSR格式,其计算加速比主要取决于A.稀疏度与硬件支持B.稀疏度与批大小C.稀疏度与精度D.稀疏度与温度答案:A解析:需GPU支持结构化稀疏才能加速。30.当使用自监督学习SimSiam时,防止模型崩溃的关键是A.停止梯度B.对比损失C.动量编码器D.预测头答案:A解析:停止梯度切断对称分支,避免平凡解。31.在语音增强中,若损失函数为SISDR,其值域为A.(–∞,+∞)B.[0,1]C.[–1,1]D.[0,+∞)答案:A解析:SISDR可负,表示劣于零信号。32.当使用ONNX导出动态轴模型时,需指定的参数是A.dynamic_axesB.input_namesC.output_namesD.opset_version答案:A解析:dynamic_axes字典定义哪维动态。33.在模型部署中,若使用TritonInferenceServer,其并发执行单元是A.ModelInstanceB.BackendC.EnsembleD.Scheduler答案:A解析:ModelInstance对应GPU流。34.当使用对抗训练FGM时,扰动范数通常取A.1.0B.0.1C.0.01D.10答案:B解析:经验值0.1–1.0,0.1常见。35.在图注意力网络GAT中,注意力系数计算使用A.点积B.加性C.乘性D.余弦答案:B解析:LeakyReLU(Wh_i+Wh_j)。36.当使用多任务学习时,若任务梯度冲突,可采用的梯度修正方法是A.GradNormB.PCGradC.WeightDecayD.Dropout答案:B解析:PCGrad投影冲突梯度。37.在模型监控中,若发现PSI>0.3,说明A.数据漂移显著B.模型过拟合C.训练不足D.学习率过高答案:A解析:PSI(PopulationStabilityIndex)>0.3为显著漂移。38.当使用RandAugment时,控制增强幅度的超参是A.N,MB.p,mC.alpha,betaD.num_layers答案:A解析:N为变换次数,M为幅度。39.在模型安全中,成员推理攻击(MIA)主要利用A.预测置信度B.模型大小C.训练时间D.批大小答案:A解析:置信度分布差异泄露成员信息。40.当使用DeepQLearning时,经验回放池最小容量一般设为A.批大小B.1000C.10000D.100000答案:D解析:100K为Atari环境常用下限,确保多样性。二、多项选择题(每题2分,共20分。每题至少有两个正确答案,多选、少选、错选均不得分)41.下列哪些技术可有效缓解Transformer长序列O(N²)显存问题A.LinformerB.PerformerC.ReformerD.GradientCheckpointing答案:ABC解析:三者均用低秩或哈希近似注意力,D是显存换时间,不降低复杂度。42.关于BatchNorm折叠(fold)到Conv层,下列说法正确的是A.可减少推理时间B.需重新计算权重C.需重新计算偏置D.训练阶段也可折叠答案:ABC解析:训练阶段不可折叠,需保留BN统计量。43.下列属于自监督视觉预训练方法的有A.MoCov3B.SimCLRC.BYOLD.MaskRCNN答案:ABC解析:MaskRCNN为全监督检测器。44.当使用DeepSpeed时,ZeRO阶段划分包括A.ZeRO1B.ZeRO2C.ZeRO3D.ZeROOffload答案:ABCD解析:Offload为子选项,但官方文档单列。45.下列哪些指标可用于评估生成文本多样性A.SelfBLEUB.Distinct1C.MAUVED.ROUGEL答案:ABC解析:ROUGEL衡量与参考相似度,非多样性。46.在模型鲁棒性测试中,常见的对抗攻击方法有A.PGDB.CWC.FGSMD.BIM答案:ABCD解析:均为白盒攻击。47.当使用混合专家(MoE)时,下列哪些技术可降低门控网络负载A.LoadBalancingLossB.ExpertCapacityFactorC.TopkRoutingD.RandomRouting答案:ABC解析:RandomRouting无目的,反而恶化。48.下列哪些操作会改变Transformer注意力矩阵的稀疏模式A.SparsePatternsB.LocalWindowC.StridedD.SoftmaxTemperature答案:ABC解析:Temperature仅缩放值,不改变稀疏位置。49.在推荐系统实时特征平台中,常用的特征存储有A.RedisB.HBaseC.KafkaD.Cassandra答案:ABD解析:Kafka为消息队列,非存储。50.当使用ONNXRuntime量化时,支持的量化为A.DynamicQuantizationB.StaticQuantizationC.QATD.FP16答案:ABC解析:ORT支持前三,FP16非量化。三、判断题(每题1分,共10分。正确打“√”,错误打“×”)51.使用LayerNorm的模型在batchsize=1时也能稳定训练。答案:√解析:LayerNorm沿特征维度归一化,与batch无关。52.在分布式训练中,RingAllReduce的通信量与参数服务器架构相同。答案:×解析:Ring为O(N),PS为O(2N)。53.使用混合精度训练必然导致模型精度下降。答案:×解析:配合lossscaling可不掉点。54.在知识蒸馏中,温度τ越高,softmax分布越尖锐。答案:×解析:τ越高越平滑。55.当使用ReLU激活时,He初始化比Xavier初始化更适合深层网络。答案:√解析:He初始化考虑ReLU方差。56.在联邦学习中,FedAvg的通信轮次一定少于本地SGD。答案:×解析:取决于本地epoch与lr。57.使用CTCLoss时,blank标签可以出现在路径任意位置。答案:√解析:CTC允许blank任意插入。58.在目标检测中,mAP@0.5:0.95的0.95表示IoU阈值上限。答案:×解析:0.95为上限,但步长0.05。59.当使用RandAugment时,N与M越大,模型泛化能力一定越强。答案:×解析:过强增强导致欠拟合。60.在图神经网络中,GCN的聚合函数必须是均值池化。答案:×解析:可用max、sum等。四、简答题(每题10分,共30分)61.描述混合专家模型(MoE)在训练阶段出现“专家崩塌”的现象、成因及至少两种缓解方案,并给出PyTorch风格伪代码。答案:现象:少数专家被频繁选中,多数专家几乎无梯度更新,导致参数浪费。成因:门控网络初始偏好+强化效应,即“富者愈富”。缓解:1.LoadBalancingLoss:增加辅助损失,鼓励均匀路由。2.ExpertCapac

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论