版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年人工智能训练师(三级)技能等级认定题库一、单项选择题(每题1分,共30分)1.在PyTorch中,若需将模型参数全部冻结,下列代码片段正确的是A.forpinmodel.parameters():p.requires_grad=FalseB.model.eval()C.torch.no_grad()D.model.zero_grad()答案:A解析:requires_grad=False直接关闭梯度计算,实现参数冻结。2.使用Adam优化器时,若β₁=0.9,β₂=0.999,则二阶矩估计的偏差修正项在t=2步时为A.1/(1−0.999²)B.1/(1−0.9²)C.1−0.999²D.0.999²答案:A解析:二阶矩偏差修正为1/(1−β₂^t)。3.在目标检测任务中,IoU阈值从0.5提升到0.75,最可能导致A.召回率上升B.精确率下降C.召回率下降D.类别不平衡缓解答案:C解析:更高IoU阈值减少正样本,召回率下降。4.对文本进行子词切分时,BPE算法在每一步合并的依据是A.互信息最大的相邻子词对B.频率最高的相邻子词对C.长度最短的相邻子词对D.困惑度下降最大的相邻子词对答案:B解析:BPE优先合并频率最高的相邻对。5.在Transformer中,scaleddot-productattention的缩放因子为A.√d_kB.d_kC.1/√d_kD.d_v答案:C解析:防止点积过大,缩放因子1/√d_k。6.使用混合精度训练时,lossscaling的主要作用是A.加速梯度下降B.防止梯度下溢C.减少显存占用D.提高数值精度答案:B解析:fp16下梯度易下溢,放大loss可保持有效梯度。7.在联邦学习场景下,FedAvg算法的服务器端更新规则为A.加权平均客户端参数B.加权平均客户端梯度C.随机选取一个客户端参数D.对梯度进行Adam更新答案:A解析:FedAvg聚合的是本地参数而非梯度。8.对类别极度不平衡的数据集,以下采样策略最可能引发过拟合的是A.随机欠采样多数类B.SMOTE过采样少数类C.集成欠采样D.TomekLink清理答案:B解析:SMOTE合成样本可能引入噪声导致过拟合。9.在强化学习中,DDPG算法使用以下哪种技巧稳定训练A.经验回放与目标网络B.优势函数C.重要性采样D.树备份答案:A解析:DDPG沿用DQN的经验回放与目标网络。10.对卷积神经网络进行知识蒸馏时,蒸馏温度T→∞时,softmax输出趋向A.one-hotB.均匀分布C.阶跃函数D.高斯分布答案:B解析:高温使softmax分布更均匀。11.在AutoML框架中,Early-Stopping的patience参数设为10,意味着A.连续10轮验证指标无改善即停止B.训练10轮后强制停止C.每10轮保存一次模型D.10轮后降低学习率答案:A解析:patience控制容忍轮数。12.使用BERT进行中文命名实体识别时,最合理的顶层结构是A.单层SoftmaxB.CRFC.平均池化+SoftmaxD.MaxPool+Softmax答案:B解析:CRF可学习标签间转移约束。13.在模型压缩技术中,WeightSharing属于A.量化B.剪枝C.参数共享D.低秩分解答案:C解析:WeightSharing即参数共享。14.当batchsize从128降到16时,若保持epoch总数不变,训练集收敛所需的参数更新步数A.增加8倍B.减少8倍C.不变D.增加64倍答案:A解析:每步样本减少,需更多步数遍历数据。15.在图像分割任务中,DiceLoss的取值范围是A.[0,1]B.[-1,1]C.[0,+∞)D.(-∞,0]答案:A解析:Dice系数∈[0,1],损失=1−Dice。16.对生成对抗网络,若判别器过强,生成器梯度可能A.爆炸B.消失C.不变D.呈正弦波动答案:B解析:判别器饱和导致梯度消失。17.在ONNX模型转换中,若原框架使用动态shape,导出时需指定A.dynamic_axesB.opset_versionC.input_namesD.output_names答案:A解析:dynamic_axes显式声明动态维度。18.使用Horovod做多机训练时,以下环境变量必须一致的是A.CUDA_VISIBLE_DEVICESB.OMP_NUM_THREADSC.NCCL_DEBUGD.SSH_PORT答案:A解析:GPU设备编号需全局一致。19.在推荐系统冷启动阶段,最适合的算法是A.DeepFMB.ItemCFC.Content-BasedD.DIN答案:C解析:Content-Based不依赖交互历史。20.对时序预测模型Informer,其核心改进是A.ProbSparseAttentionB.LSTM+AttentionC.1D-CNND.WaveNet答案:A解析:ProbSparse降低长序列复杂度。21.在模型可解释性方法中,SHAP值满足A.局部准确性、缺失性、一致性B.仅局部准确性C.仅一致性D.无性质保证答案:A解析:SHAP基于博弈论满足三条公理。22.使用混合专家模型MoE时,门控网络输出通常经过A.SoftmaxB.ReLUC.SigmoidD.Tanh答案:A解析:门控需概率化,用Softmax。23.在数据增强中,RandAugment的搜索空间包含A.增强类型与强度两级B.仅类型C.仅强度D.三层树结构答案:A解析:RandAugment离散化类型与幅度。24.对语音合成模型FastSpeech2,其时长预测器输入为A.音素序列B.梅尔谱C.线性谱D.基频答案:A解析:时长预测在音素级别。25.在模型部署阶段,TensorRT的INT8校准需使用A.验证集子集B.训练集全量C.测试集全量D.随机噪声答案:A解析:校准需无标签代表数据。26.使用梯度累积时,若accumulate=4,有效batchsize为64,则单次输入应为A.16B.64C.256D.4答案:A解析:64/4=16。27.在图神经网络中,GCN的层间传播公式为A.H^(l+1)=σ(D̃^(-1/2)ÃD̃^(-1/2)H^(l)W^(l))B.H^(l+1)=AH^(l)+IC.H^(l+1)=Softmax(AH^(l))D.H^(l+1)=ReLU(A²H^(l))答案:A解析:归一化邻接矩阵对称缩放。28.对多任务学习,UncertaintyWeighting方法中,损失函数形式为A.L=∑(1/(2σ²)L_i+logσ)B.L=∑σL_iC.L=∑L_i²D.L=max(L_i)答案:A解析:Kendall不确定性加权。29.在模型安全领域,PGD攻击的迭代步长通常设置为A.α=ϵ/4B.α=ϵC.α=2ϵD.α=0.1ϵ答案:A解析:经验步长ϵ/4。30.使用DeepSpeed的ZeRO-3优化时,优化器状态被A.分片到所有GPUB.复制到所有GPUC.保存在CPUD.卸载到NVMe答案:A解析:ZeRO-3全分片。二、多项选择题(每题2分,共20分)31.以下哪些操作可降低Transformer显存占用A.GradientCheckpointingB.使用FlashAttentionC.增大batchsizeD.混合精度训练答案:ABD解析:增大batchsize反而增加显存。32.在Few-ShotLearning中,PrototypicalNetwork的假设包括A.特征空间同类样本聚集B.使用欧氏距离C.支持集与查询集同分布D.标签空间固定答案:ABC解析:标签空间可扩展。33.关于AUC指标,下列说法正确的是A.对正负样本比例不敏感B.等于ROC曲线下面积C.取值范围[0,1]D.越高模型越差答案:ABC解析:AUC越高越好。34.在模型蒸馏中,logits蒸馏损失与硬标签损失加权组合的优点A.保留教师知识B.防止学生偏离真标签C.加速收敛D.降低内存答案:ABC解析:与内存无关。35.以下属于自监督预训练任务的有A.BERT的MLMB.SimCLR的对比学习C.GPT的自回归D.图像旋转预测答案:ABD解析:GPT属生成式预训练。36.在推荐系统实时特征中,以下适合放在Redis的特征有A.用户最近10次点击IDB.用户性别C.物品标签D.用户实时向量表示答案:AD解析:性别与标签为静态。37.使用K-Fold交叉验证时,可能引入数据泄漏的场景A.先整体做归一化再划分B.每折内独立归一化C.特征选择基于全量数据D.每折内独立特征选择答案:AC解析:全局预处理导致信息泄漏。38.在语音增强任务中,损失函数可选用A.SI-SDRB.STFT-MagnitudeLossC.CrossEntropyD.ComplexSpectralLoss答案:ABD解析:CrossEntropy用于分类。39.以下哪些方法可缓解强化学习稀疏奖励问题A.CuriosityDrivenRewardB.HindsightExperienceReplayC.PPOD.RewardShaping答案:ABD解析:PPO为策略优化算法。40.在模型更新灰度发布中,Canary策略需监控的指标A.线上QPSB.预测延迟P99C.业务转化率D.模型版本号答案:ABC解析:版本号非监控指标。三、判断题(每题1分,共10分)41.使用LayerNorm的模型在batchsize=1时仍可训练。答案:对解析:LayerNorm沿特征维度计算,与batch无关。42.在知识图谱嵌入中,TransE假设关系为平移即h+r≈t。答案:对43.使用EarlyStopping时,monitor='loss'模式应配合mode='max'。答案:错解析:loss越小越好,mode='min'。44.在图像分类中,MixUp增强会增加样本噪声。答案:对解析:线性插值可能产生不真实样本。45.联邦学习必然保证数据不出域。答案:错解析:中间梯度仍可能泄漏信息。46.使用ReLU的神经网络一定存在DeadNeuron问题。答案:错解析:合理初始化与优化可缓解。47.在模型服务中,批量推理的延迟一定低于单条推理。答案:错解析:batch过大反而增加延迟。48.对类别不平衡数据,准确率无法反映模型性能。答案:对49.使用AdamW时,权重衰减与L2正则完全等价。答案:错解析:AdamW解耦衰减步长。50.在VisionTransformer中,位置编码可完全去除。答案:错解析:去除后模型无法感知顺序。四、填空题(每题2分,共20分)51.若学习率调度为cosineannealing,初始lr=0.1,周期T=10,则第5轮的学习率为________。答案:0.05解析:cos(π×5/10)=0,lr=0.1×(1+cosπ/2)/2=0.05。52.在PyTorch中,模型参数总量可通过表达式__________快速获得。答案:sum(p.numel()forpinmodel.parameters())53.若BERT-base的隐藏维度为768,注意力头数为12,则每个头的维度为________。答案:64解析:768/12=64。54.使用FocalLoss时,当γ=0,损失退化为________损失。答案:CrossEntropy55.在CTR预估中,Field-wiseEmbedding的参数量与________的平方成正比。答案:embedding维度56.若卷积核尺寸为3×3,输入通道64,输出通道128,则参数量为________。答案:64×128×3×3=7372857.在DDP训练中,若world_size=4,则梯度通信量为原始梯度的________倍。答案:1解析:AllReduce后总量不变。58.使用混合专家模型时,若top-k=2,则每次激活的专家数为________。答案:259.在语音特征提取中,80维梅尔滤波器组通常对应采样率16kHz、FFT窗长________ms。答案:25解析:标准设置。60.若AUC=0.81,则Gini系数为________。答案:0.62解析:Gini=2×AUC−1。五、简答题(每题10分,共30分)61.描述如何使用梯度累积在单卡上模拟batchsize=256的训练,并给出PyTorch伪代码。答案:设置accumulate=8,单次输入batch=32。```pythonmodel.zero_grad()fori,(x,y)inenumerate(loader):loss=model(x,y)/8loss.backward()if(i+1)%8==0:optimizer.step()model.zero_grad()```解析:每8次更新一次参数,等效batch=32×8=256。62.说明在目标检测模型YOLOv5中,使用Focus结构的计算收益与潜在缺点。答案:收益:将空间信息切片到通道维度,下采样2倍同时保留特征,减少后续层计算量约25%,且无参数量增加。缺点:对边缘设备不友好,需连续内存访问,可能引入缓存未命中;对量化敏感,切片后数值分布变化大,INT8精度下降。63.给出在多任务学习中,使用UncertaintyWeighting平衡回归与分类任务的详细推导。答案:设回归任务损失L₁=‖y−ŷ‖²,分类任务交叉熵L₂。引入同方差不确定性σ₁,σ₂,联合损失L=1/(2σ₁²)L₁+1/(2σ₂²)L₂+logσ₁+logσ₂。对σ₁求导并令导数为零:∂L/∂σ₁=−L₁/σ₁³+1/σ₁=0⇒σ₁²=L₁。同理σ₂²=L₂/2(分类任务推导类似)。实际使用网络预测logσ²,避免数值不稳定。最终损失自动加权,不确定性大的任务权重下降,防止噪声任务主导训练。六、计算题(每题15分,共30分)64.给定一个线性回归模型ŷ=wx+b,训练集{(x_i,y_i)}_{i=1}^
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专家工作站工作制度
- 专利委员会工作制度
- 供应室全套工作制度
- 养殖业员工工作制度
- 不打烊服务工作制度
- 三班倒弹性工作制度
- 中学生社团工作制度
- 办公室内务工作制度
- 加拿大三天工作制度
- 劳动法工时工作制度
- 北京市2025国家发展和改革委员会城市和小城镇改革发展中心面向应届毕业生招聘1人笔试历年参考题库典型考点附带答案详解
- 街道督察督办工作制度
- (正式版)DB22∕T 2130-2014 《叶轮式燃气表》
- 街道办反邪教工作制度
- 2026年教案合集2026年春人教版八年级下册英语Unit 1~Unit 8全册教案新版
- 产业基金设立方案
- 2026年数字化供应链标准研制与贯标试点
- 湖北省武汉市2025-2026学年中考化学模拟精卷(含答案解析)
- 生态环境执法人员跨区域执法协作制度
- 汽车租赁服务规范与流程
- 2026济南市第七人民医院公开招聘派遣制工作人员(2名)考试参考试题及答案解析
评论
0/150
提交评论