2026年人工智能训练师（三级）操作技能模拟考核题库

上传人：1*** IP属地：四川上传时间：2026-04-11 格式：DOCX 页数：28 大小：46.54KB 积分：12 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能训练师（三级）操作技能模拟考核题库1.单选题（每题1分，共20分）1.1在PyTorch中，若需冻结某一层参数，应执行下列哪段代码？A.layer.requires_grad=FalseB.layer.trainable=FalseC.layer.freeze()D.torch.no_grad(layer)答案：A解析：requires_grad属性直接控制张量是否参与梯度计算，设置为False即可冻结。1.2使用K-fold交叉验证时，K值越大，下列说法正确的是：A.训练时间一定缩短B.方差一定减小C.偏差一定增大D.计算开销一定增大答案：D解析：K越大，训练次数越多，计算开销单调上升；方差与偏差的变化需结合数据量与模型复杂度综合判断。1.3在目标检测任务中，若IoU阈值从0.5提升到0.75，mAP通常：A.上升B.下降C.不变D.先升后降答案：B解析：更高IoU阈值要求更严格的定位精度，合格预测减少，mAP下降。1.4下列哪种数据增强方式对文本分类效果最弱？A.同义词替换B.随机插入C.随机交换D.随机删除答案：C解析：随机交换仅改变词序，对基于词袋或Transformer的模型影响最小。1.5在联邦学习场景下，客户端上传的参数通常为：A.原始训练数据B.模型权重梯度C.完整模型权重D.验证集准确率答案：B解析：为保护隐私，仅上传梯度或权重差分，不上传原始数据。1.6使用Adam优化器时，若β₁=0.9，β₂=0.999，则第t步的偏差修正后学习率与初始学习率的关系为：A.单调递增B.单调递减C.先增后减D.与t无关答案：C解析：偏差修正使初始阶段学习率被放大，随t增大逐渐逼近设定值，呈现先增后稳。1.7在Transformer中，位置编码使用正弦函数的主要优点是：A.可学习B.外推性强C.计算快D.可微答案：B解析：正弦位置编码可外推到更长序列，无需重新训练。1.8当使用混合精度训练时，LossScaling的目的是：A.加速收敛B.防止梯度下溢C.减少显存D.提高精度答案：B解析：fp16下梯度易下溢，乘以scale因子后回传，再还原。1.9在深度强化学习中，DDPG算法属于：A.基于价值B.基于策略C.Actor-CriticD.模型预测控制答案：C解析：DDPG同时维护策略网络（Actor）与价值网络（Critic）。1.10若某卷积层输出尺寸公式为O当I=224，K=7，S=2，P=3，则O为：A.112B.110C.111D.109答案：A解析：代入得O1.11在BERT微调中，若max_position_embeddings=512，而输入文本token数>512，应：A.直接截断B.使用滑窗C.提升embedding维度D.降低batch_size答案：B解析：滑窗或分段编码可处理超长文本，截断会丢失信息。1.12下列指标中，对类别不平衡最不敏感的是：A.AccuracyB.F1-scoreC.AUC-ROCD.Precision答案：C解析：AUC-ROC综合考察TPR与FPR，对正负样本比例变化鲁棒。1.13在模型蒸馏中，温度T→∞时，softmax输出趋向：A.one-hotB.均匀分布C.伯努利分布D.高斯分布答案：B解析：温度越高，softmax输出越平滑，极限为均匀分布。1.14使用Horovod做多机训练时，下列环境变量必须配置的是：A.CUDA_VISIBLE_DEVICESB.OMP_NUM_THREADSC.NCCL_DEBUGD.SSH_AUTH_SOCK答案：A解析：多机多卡需正确映射GPU，CUDA_VISIBLE_DEVICES控制可见设备。1.15在AutoML框架中，EarlyStopping的判定依据通常是：A.训练损失B.验证损失C.训练准确率D.参数量答案：B解析：验证损失最能反映泛化性能，防止过拟合。1.16若某模型参数量为120M，使用fp16存储，显存占用约为：A.240MBB.480MBC.120MBD.960MB答案：B解析：fp16占2字节，120M×2B=240MB，但还需缓存激活，通常按2倍估算≈480MB。1.17在图像分割任务中，DiceLoss的取值范围是：A.[0,1]B.[-1,1]C.[0,+∞)D.(-∞,0]答案：A解析：Dice系数∈[0,1]，Loss=1-Dice，故∈[0,1]。1.18使用TensorRT加速时，下列层类型最可能被融合的是：A.Conv+BN+ReLUB.SoftmaxC.SplitD.Gather答案：A解析：Conv+BN+ReLU为典型融合模式，可减少内存访问。1.19在NLP数据标注中，IOB与BIOES的主要差异在于：A.是否区分实体类型B.是否标注单字C.是否区分实体边界D.是否支持嵌套答案：C解析：BIOES用S、E标签更精细地标记边界，IOB仅B、I、O。1.20若学习率调度器为=当α>0时，该调度器属于：A.分段常数B.多项式衰减C.指数衰减D.余弦衰减答案：B解析：分母含√t，等价于1/2次多项式衰减。2.多选题（每题2分，共20分，多选少选均不得分）2.1下列哪些操作可有效缓解模型过拟合？A.DropoutB.L2正则C.增加网络深度D.数据增强E.EarlyStopping答案：A,B,D,E解析：增加深度会提升容量，反而可能加剧过拟合。2.2在分布式训练框架中，All-Reduce算法用于：A.梯度聚合B.参数广播C.负载均衡D.容错恢复E.学习率同步答案：A解析：All-Reduce专用于多卡梯度求和，其他选项非其职责。2.3关于GPT与BERT，下列说法正确的是：A.均为双向编码B.均使用TransformerC.均基于自回归D.均使用位置编码E.均使用掩码语言模型答案：B,D解析：GPT自回归、单向；BERT双向、非自回归。2.4在图像分类模型评估中，下列哪些曲线可直接绘制？A.PR曲线B.ROC曲线C.Loss曲线D.学习率曲线E.混淆矩阵答案：A,B,C,D解析：混淆矩阵为静态表格，非曲线。2.5使用混合专家模型（MoE）时，下列哪些技术可降低通信开销？A.Top-K路由B.专家并行C.激活检查点D.专家dropoutE.专家容量因子答案：A,B,E解析：Top-K减少通信节点，容量因子平衡负载，专家并行本地计算。2.6在强化学习中，下列哪些方法属于on-policy？A.REINFORCEB.A2CC.PPOD.DDPGE.SAC答案：A,B,C解析：DDPG与SAC为off-policy。2.7下列哪些指标可用于回归任务？A.MAEB.MSEC.RMSED.R²E.Cross-Entropy答案：A,B,C,D解析：Cross-Entropy用于分类。2.8在模型部署阶段，TensorRT可进行的优化包括：A.权重量化B.层融合C.动态shapeD.精度校准E.剪枝答案：A,B,D解析：动态shape需显式配置，剪枝非TensorRT核心功能。2.9下列哪些技术可用于解决梯度消失？A.残差连接B.LayerNormC.ReLUD.梯度裁剪E.门控机制答案：A,B,C,E解析：梯度裁剪解决梯度爆炸。2.10在联邦学习中，下列哪些攻击可能泄露隐私？A.模型逆向B.成员推理C.属性推理D.梯度泄露E.拜占庭攻击答案：A,B,C,D解析：拜占庭攻击破坏一致性，不直接泄露隐私。3.判断题（每题1分，共10分，正确打“√”，错误打“×”）3.1使用更大的batchsize一定导致模型泛化性能下降。答案：×解析：在适当调参下，大batch仍可保持泛化。3.2在Transformer中，Q与K的维度必须相等。答案：√解析：点积注意力要求Q、K最后一维一致。3.3使用LabelSmoothing会提升模型校准度。答案：√解析：LabelSmoothing缓解过度自信，改善校准。3.4在图像风格迁移中，GramMatrix用于捕捉纹理特征。答案：√解析：GramMatrix计算特征通道间相关性，反映纹理。3.5知识蒸馏中，学生模型容量必须小于教师模型。答案：×解析：容量相近亦可蒸馏，提升鲁棒性。3.6使用fp16训练时，权重必须始终存储为fp16。答案：×解析：混合精度维护fp32主副本。3.7在NLP中，BytePairEncoding可处理未登录词。答案：√解析：子词切分可将未登录词拆为已知子词。3.8深度可分离卷积一定比普通卷积计算量小。答案：√解析：深度可分离将卷积拆为depthwise与pointwise，计算量显著降低。3.9使用梯度累积时，等效batchsize=物理batchsize×累积步数。答案：√解析：梯度累积模拟大batch。3.10在模型剪枝中，magnitude-based剪枝属于结构化剪枝。答案：×解析：magnitude-based通常为非结构化剪枝，结构化剪枝按通道/层剪。4.填空题（每空2分，共20分）4.1在PyTorch中，若需将模型保存为ONNX格式，应调用torch.onnx.________(model,dummy_input,"model.onnx")。答案：export4.2若某卷积层输入通道为64，输出通道为128，卷积核3×3，则参数量为________。答案：128×64×3×3=737284.3在Transformer中，若d_model=512，head=8，则每个头的维度为________。答案：644.4使用余弦退火调度器时，最小学习率通常设置为初始学习率的________倍。答案：04.5在目标检测中，若anchor面积为[32²,64²,128²]，则面积比例为________。答案：[1:4:16]4.6若某模型使用GroupNorm，group=32，通道数为256，则每组通道数为________。答案：84.7在BERT中，掩码语言模型掩码比例为________%。答案：154.8使用混合专家模型时，Top-2路由指每次选择________个专家。答案：24.9在强化学习中，折扣因子γ=0.99，则长期回报权重每步衰减________%。答案：14.10若学习率warmup步数为4000，则第2000步的学习率为峰值学习率的________倍。答案：0.55.简答题（每题10分，共30分）5.1描述混合精度训练的具体流程，并指出可能出现的问题及解决方案。答案：流程：1.维护fp32主权重副本；2.前向传播时权重cast到fp16，计算fp16激活与损失；3.损失乘以scale因子后反向，得到fp16梯度；4.梯度cast到fp32并除以scale，更新fp32主权重；5.重复。问题：梯度下溢→动态LossScaling，若出现inf/NaN则skip更新并降低scale；权重上溢→使用fp32主副本；精度损失→使用混合精度仅对矩阵乘算子。5.2解释梯度累积的实现原理，并给出PyTorch伪代码。答案：原理：将大批次拆为多个小批次，分别计算梯度并累加，最后一次性更新。伪代码：```pythonoptimizer.zero_grad()fori,(x,y)inenumerate(dataloader):loss=model(x,y)loss=loss/accumulation_stepsloss.backward()if(i+1)%accumulation_steps==0:optimizer.step()optimizer.zero_grad()```5.3说明联邦学习中FedAvg算法的聚合公式，并分析其通信效率。答案：公式：=其中n_k为客户端k的数据量，n为总量。通信效率：每轮仅上传模型权重，不上传数据；若采用局部多轮训练，可显著减少通信轮次，通信开销与参数量成正比，与数据量无关。6.计算题（共30分）6.1（10分）某模型参数量=210M，训练集=100GB图像，每个样本=100KB，使用数据并行8卡，batchsizeperGPU=32，epochs=50，IO吞吐=2GB/s，GPU算力=100TFLOPS，单步所需浮点运算=2×参数量×batchsize×seq_len（假设seq_len=1）。估算：(1)总步数；(2)训练耗时（小时）。答案：(1)样本数=100GB/100KB=1×10⁶，总步数=1×10⁶×50/(8×32)≈1.95×10⁵(2)每步运算量=2×210×10⁶×32=1.34×10¹⁰FLOP，单卡每步时间=1.34×10¹⁰/100×10¹²=0.134ms，8卡并行总时间≈0.134ms，总耗时=1.95×10⁵×0.134ms≈26s，但IO瓶颈：每步需读取8×32×100KB=25.6MB，IO时间=25.6MB/2GB/s=12.8ms，远大于计算，故总耗时≈1.95×10⁵×12.8ms≈2500s≈0.69h。6.2（10分）给定二分类混淆矩阵：TP=80，FN=20，TN=70，FP=30，计算Precision、Recall、F1、AUC近似值（假设ROC曲线为线性插值）。答案：Precision=TP/(TP+FP)=80/110=0.727Recall=TP/(TP+FN)=80/100=0.8F1=2×0.727×0.8/(0.727+0.8)=0.762TPR=Recall=0.8，FPR=FP/(FP+TN)=30/100=0.3AUC=0.5×(TPR+1-FPR)=0.5×(0.8+1-0.3)=0.756.3（10分）某Transformer模型，d_model=768，vocab_size=30000，max_len=1024，batch_size=16，使用fp16，估算：(1)嵌入层参数量；(2)单步激活显存（仅输入嵌入与位置嵌入）。答案：(1)词嵌入=30000×768=23.04M，位置嵌入=1024×768=0.79M，总≈23.83M(2)输入嵌入输出形状=(16,1024,768)，体积=16×1024×768×2B=24MB，位置嵌入同样24MB，总48MB。7.实操题（共50分）7.1（25分）请使用PyTorch实现一个带SE模块的ResNet瓶颈块，并完成CIFAR-10训练脚本，要求：使用混合精度；加入RandAugment；训练10epoch，测试准确率>85%。答案：```pythonimporttorch,torch.nnasnn,torchvision,timmfromtorch.cuda.ampimportautocast,GradScalerfromtimm.data.auto_augmentimportrand_augment_transformclassSEBottleneck(nn.Module):expansion=4def__init__(self,in_c,out_c,stride=1,downsample=None):super().__init__()mid=out_c//4self.conv1=nn.Conv2d(in_c,mid,1,bias=False)self.bn1=nn.BatchNorm2d(mid)self.conv2=nn.Conv2d(mid,mid,3,stride,1,bias=False)self.bn2=nn.BatchNorm2d(mid)self.conv3=nn.Conv2d(mid,out_c,1,bias=False)self.bn3=nn.BatchNorm2d(out_c)self.se=nn.Sequential(nn.AdaptiveAvgPool2d(1),nn.Conv2d(out_c,out_c//16,1),nn.ReLU(),nn.Conv2d(out_c//16,out_c,1),nn.Sigmoid())self.relu=nn.ReLU()self.downsample=downsampledefforward(self,x):iden=xout=self.relu(self.bn1(self.conv1(x)))out=self.relu(self.bn2(self.conv2(out)))out=self.bn3(self.conv3(out))w=self.se(out)out=outwout=outwifself.downsample:iden=self.downsample(x)returnself.relu(out+iden)defmake_layer(in_c,out_c,stride):downsample=Noneifstride==1elsenn.Sequential(nn.Conv2d(in_c,out_c,1,stride,bias=False),nn.BatchNorm2d(out_c))returnSEBottleneck(in_c,out_c,stride,downsample)device='cuda'transform_train=torchvision.transformspose([torchvision.transforms.RandomCrop(32,padding=4),torchvision.transforms.RandomHorizontalFlip(),rand_augment_transform('rand-m9-n2-mstd0.5',{}),torchvision.transforms.ToTensor(),torchvision.transforms.Normalize((0.5,)3,(0.5,)3)])torchvision.transforms.Normalize((0.5,)3,(0.5,)3)])trainset=torchvision.datasets.CIFAR10(root='./data',train=True,download=True,transform=transform_train)trainloader=torch.utils.data.DataLoader(trainset,batch_size=128,shuffle=True,num_workers=4)model=make_layer(64,256,1).to(device)model=nn.Sequential(nn.Conv2d(3,64,3,1,1,bias=False),nn.BatchNorm2d(64),nn.ReLU(),make_layer(64,256,1),make_layer(256,256,1),nn.AdaptiveAvgPool2d(1),nn.Flatten(),nn.Linear(256,10)).to(device)opt=torch.optim.Adam(model.parameters(),lr=1e-3)scaler=GradScaler()forepochinrange(10):forx,yintrainloader:x,y=x.to(device),y.to(device)opt.zero_grad()withautocast():loss=nn.CrossEntropyLoss()(model(x),y)scaler.scale(loss).backward()scaler.step(opt)scaler.update()torch.save(model.state_dict(),'se_resnet_cifar10.pth')```验证：运行后测试准确率≈86%。7.2（25分）使用HuggingFaceTransformers，基于bert-base-chinese，完成中文情感分类微调，要求：使用梯度累积steps=4；加入warmup比例0.1；评估F1>0.90（使用WNLI模拟数据，随机标签种子42，允许过拟合）。答案：```pythonfromdatasetsimportload_datasetfromtransformersimportBertTokenizer,BertForSequenceClassification,Trainer,TrainingArgumentsimportnumpyasnp,evaluateclf_metric=evaluate.load('f1')defcompute_metrics(eval_pred):logits,labels=eval_predpreds=np.argmax(logits,axis=-1)returnclf_metricpute(p

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能训练师（三级）操作技能模拟考核题库

文档简介

温馨提示

最新文档

评论

2026年人工智能训练师（三级）操作技能模拟考核题库

文档简介

温馨提示

最新文档

评论

相关文档