版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
二级人工智能训练师(技师)职业技能等级认定考试题及答案一、单项选择题(每题1分,共30分。每题只有一个正确答案,请将正确选项字母填在括号内)1.在深度学习中,若某次训练后验证集损失持续上升而训练集损失下降,最可能的原因是()A.学习率过低B.模型欠拟合C.模型过拟合D.批尺寸过大2.使用PyTorch实现分布式数据并行(DDP)时,下列代码片段中必须显式调用的函数是()A.torch.distributed.destroy_process_group()B.torch.cuda.synchronize()C.torch.distributed.init_process_group()D.torch.multiprocessing.set_start_method()3.在NLP任务中,若词表大小为50000,嵌入维度为512,采用ALiBi位置编码,则新增参数量为()A.0B.25600000C.512D.50000×5124.当使用混合精度训练时,LossScale的主要作用是()A.加速梯度下降B.防止梯度下溢C.降低显存占用D.提高学习率5.在目标检测任务中,若将YOLOv5的IoU阈值从0.5提高到0.75,则mAP@0.5:0.95指标通常会()A.上升B.下降C.不变D.先升后降6.下列关于Transformer中自注意力机制时间复杂度的描述,正确的是()A.O(n)B.O(nlogn)C.O(n²d)D.O(d²n)7.在联邦学习场景下,采用FedAvg算法,若客户端本地epoch增大,则全局模型收敛速度一般会()A.加快B.减慢C.不变D.先加快后减慢8.使用Kaiming初始化时,若激活函数为ReLU,则权重的方差应设为()A.2/fan_inB.1/fan_outC.2/fan_outD.1/fan_in9.在图像分类任务中,将RGB三通道分别减去ImageNet均值[0.485,0.456,0.406]的操作属于()A.数据增强B.归一化C.正则化D.白化10.当使用TensorBoard记录直方图时,若设置`max_bins=100`,则每个直方图最多包含()A.100个区间B.100个张量C.100个epochD.100个样本11.在强化学习中,若策略梯度算法出现高方差,最常用的减方差技术是()A.经验回放B.重要性采样C.基线减法D.目标网络12.当使用DeepSpeedZeRO-3时,下列哪一项会被切片到所有GPU()A.激活值B.优化器状态C.参数D.梯度13.在CTR预估任务中,DeepFM相对于Wide&Deep的主要改进是()A.引入残差连接B.共享嵌入向量C.使用多头注意力D.加入池化层14.若某模型在FP32下占用显存12GB,则使用FP16混合精度后,显存占用约为()A.6GBB.8GBC.10GBD.12GB15.在语音合成Tacotron2中,停止token的预测损失通常采用()A.MSEB.CrossEntropyC.BCEWithLogitsD.MAE16.当使用Horovod进行多机训练时,若网络带宽成为瓶颈,可优先调优的参数是()A.lrB.batch_sizeC.fusion_thresholdD.weight_decay17.在知识蒸馏中,若教师模型输出softmax温度τ=4,则学生模型训练时的τ应设为()A.1B.同一值4C.2D.动态衰减18.下列关于BatchNorm在推理阶段的描述,正确的是()A.使用当前batch均值方差B.使用滑动平均均值方差C.关闭梯度反传D.参数不再更新19.在推荐系统冷启动场景下,最适合的Embedding初始化策略是()A.XavierB.预训练+微调C.随机正交D.零初始化20.当使用ONNX导出动态轴模型时,需调用的API是()A.torch.onnx.export(...,dynamic_axes=...)B.torch.jit.traceC.torch.saveD.torch.jit.script21.在图像分割任务中,若Dice系数为0.9,则像素级Accuracy最低可能为()A.0.9B.0.5C.0.1D.无法确定22.使用梯度累积时,若accumulation_steps=4,则有效batch_size扩大()A.2倍B.4倍C.8倍D.不变23.在GPT-3训练中,采用的张量并行方案是()A.Megatron-LMB.FairScaleC.DeepSpeedD.Horovod24.当使用EarlyStopping时,若patience=5且min_delta=0.001,则连续6个epoch验证指标改善小于0.001会()A.保存最优权重B.降低学习率C.终止训练D.重置优化器25.在目标检测中,若将NMS阈值从0.5降到0.3,则召回率一般会()A.上升B.下降C.不变D.先升后降26.使用PyTorchLightning时,需在`training_step`中返回的关键字是()A.lossB.accC.lrD.epoch27.在联邦学习中,若客户端数据Non-IID程度加剧,则FedProx中的μ超参应()A.增大B.减小C.置零D.不变28.当使用RandAugment时,若N=2,M=10,则每次增强随机挑选()A.2种变换,幅度固定10B.10种变换,幅度固定2C.2种变换,幅度随机≤10D.10种变换,幅度随机≤229.在模型压缩中,若采用通道剪枝,则剪枝后需进行的操作是()A.知识蒸馏B.微调C.量化D.低秩分解30.当使用A100GPU的TF32精度时,矩阵乘累加位宽为()A.16B.19C.32D.64二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,请将所有正确选项字母填在括号内,漏选、错选均不得分)31.下列哪些技术可有效缓解模型训练中的梯度爆炸()A.梯度裁剪B.权重衰减C.归一化初始化D.减小学习率32.关于自监督学习中的对比学习,下列说法正确的有()A.InfoNCE损失温度系数越小,正样本越接近B.SimCLR需要大量负样本C.BYOL不使用负样本D.MoCo使用队列存储负样本33.在推荐系统多任务学习中,MMoE相对于Shared-Bottom的优点包括()A.缓解任务冲突B.参数量更少C.可学习特定门控D.易于并行34.当使用TensorRT加速推理时,下列层可能被自动融合的有()A.Conv+ReLUB.Conv+BN+ReLUC.MatMul+SoftmaxD.Pool+FC35.下列关于混合专家模型(MoE)的描述,正确的有()A.专家网络可独立分布到不同设备B.门控网络通常使用Top-K选择C.专家容量因子越大,负载越均衡D.训练时显存随专家数线性增加36.在语音唤醒任务中,为降低误唤醒,可采用的策略有()A.提高阈值B.加入拒识类别C.使用CTC损失D.数据增强加入负样本37.下列关于Adam与SGD的比较,正确的有()A.Adam对学习率缩放不敏感B.SGD易陷入尖锐极小值C.Adam自带动量D.SGD泛化性通常更好38.当使用Horovod进行梯度压缩时,可选的压缩算法有()A.Top-KB.QuantizationC.PowerSGDD.SignSGD39.在图像超分任务中,若使用LPIPS作为评价指标,其特点包括()A.基于VGG特征B.值越小表示越相似C.对纹理敏感D.与PSNR完全线性相关40.下列关于DiffusionModel训练的说法,正确的有()A.前向过程固定B.反向过程需学习C.损失函数通常使用MSED.采样速度可通过DDIM加速三、判断题(每题1分,共10分。正确请填“√”,错误填“×”)41.使用LayerNorm时,将特征维度放缩到单位方差可加速收敛。()42.在PyTorch中,`torch.no_grad`上下文会关闭自动求导,但不会影响BatchNorm的统计量更新。()43.当使用混合精度时,若LossScale无限增大,则说明梯度下溢已彻底解决。()44.在CTR预估中,特征交叉阶数越高,越容易出现组合爆炸。()45.对于小目标检测,增大输入分辨率一定会提升mAP。()46.在联邦学习中,FedNova可解决客户端异构步长问题。()47.使用知识蒸馏时,学生模型容量必须小于教师模型。()48.在GPT生成文本时,top-p采样比top-k采样更平滑。()49.当使用RandAugment时,幅度参数M越大,模型鲁棒性一定越好。()50.在模型部署阶段,将FP32权重直接转为INT8而不进行校准,精度损失通常可忽略。()四、填空题(每空2分,共20分)51.在Transformer中,若隐藏维度d=512,序列长度n=1024,则自注意力机制的计算复杂度为________。52.使用PyTorch时,若需将模型参数全部初始化为正交矩阵,可调用`torch.nn.init._________`。53.当使用FocalLoss解决类别不平衡时,若γ=2,则易分样本的权重衰减因子为________。54.在推荐系统DeepFM中,FM部分用于建模________阶特征交叉。55.若某卷积层输入尺寸为224×224,kernel=3,stride=2,padding=1,则输出尺寸为________。56.使用混合专家模型时,若专家数E=8,Top-K=2,则每次推理激活的专家比例为________。57.在语音合成中,若采样率22050Hz,帧移256,则每帧时长为________ms。58.当使用DeepSpeedZeRO-3时,优化器状态、梯度、参数均被________到所有GPU。59.在图像分割评价中,若某类别TP=80,FP=20,FN=30,则该类别的IoU为________。60.若使用cosineannealing学习率调度,初始lr=0.1,T_max=100,则第100个epoch的lr为________。五、简答题(每题10分,共30分)61.简述在超大模型训练中,如何利用流水线并行与张量并行协同降低显存占用,并给出两种并行方式在PyTorch下的关键实现思路(无需代码,只需关键API或技术名称)。62.某电商推荐场景存在“新品冷启动”问题,请设计一种基于内容+协同的混合冷启动方案,要求说明特征构建、模型结构及损失函数设计。63.在目标检测任务中,YOLOv7引入E-ELAN结构,请解释其设计动机,并分析该结构如何在保持精度的同时提升推理速度。六、计算题(每题10分,共20分)64.已知某Transformer模型隐藏维度d=1024,序列长度n=2048,批大小b=8,head数h=16,单头维度d_k=64。请计算:(1)标准自注意力机制所需显存(仅保存QK^T矩阵,单位MB,1MB=1024×1024×4Byte)。(2)若采用FlashAttention算法,将QK^T分块到显存容量为512MB的GPU上,求最少需要划分多少块(向上取整)。65.某ResNet50模型在FP32下权重文件大小为97.7MB,现需将其量化为INT8并部署到边缘设备。已知:(1)权重采用对称量化,量化比例因子s=0.004,零点z=0;(2)偏置仍使用INT32存储;(3)模型共25557032个权重,无偏置折叠。请计算:(1)量化后权重占用多少字节;(2)若采用稀疏度为50%的CSR格式存储,额外索引开销为每权重2Byte,求压缩后总大小(单位MB,保留两位小数)。七、方案设计题(20分)66.某市交通管理局计划利用路口摄像头视频实时检测“机动车不礼让行人”行为,要求单路1080p@25fps视频在NVIDIAJetsonXavierNX(8GB)上运行,端到端延迟≤200ms,日均处理12小时。请设计一套边缘-云协同的AI解决方案,需包括:(1)数据构建与标注策略;(2)模型选型与压缩方案;(3)边缘端推理框架及调度;(4)云端增量更新机制;(5)效果评估指标与监控。要求:技术路线合理,可落地,不得使用未开源商业方案。卷后答案与解析一、单项选择题1.C2.C3.A4.B5.B6.C7.A8.A9.B10.A11.C12.C13.B14.B15.C16.C17.B18.B19.B20.A21.D22.B23.A24.C25.A26.A27.A28.C29.B30.B二、多项选择题31.AC32.ABCD33.ACD34.AB35.ABCD36.ABD37.ABCD38.ABCD39.ABC40.ABCD三、判断题41.√42.×(会影响)43.×(可能上溢)44.√45.×(可能引入小目标伪影)46.√47.×(容量可相近)48.√49.×(过大可能降低性能)50.×四、填空题51.O(n²d)=1024²×512=53687091252.orthogonal_53.(1−p)^γ=0.0154.二55.11256.2/8=25%57.256/22050×1000≈11.6ms58.切片(shard)59.80/(80+20+30)=0.61560.0五、简答题(答案要点)61.流水线并行将模型按层切分到不同设备,使用`torch.cuda.stream`与点对点通信`send/recv`实现气泡压缩;张量并行将单层参数按列/行切分,使用`torch.distributed.all_reduce`在`NCCL`后端下完成前向后向聚合。两者协同:先张量并行切分注意力/MLP,再流水线并行切分不同层,显存占用≈单GPU的1/(pp×tp)。62.内容侧:提取新品类目、文本、图像、价格段Embedding;协同侧:利用用户-类目二部图,通过Metapath2Vec预训练用户向量;模型结构:双塔+注意力融合,塔一输入内容Embedding,塔二输入用户向量;损失函数:主loss为SampledSoftmax,辅助loss为内容侧对比学习,权重λ=0.2。63.E-ELAN在ELAN基础上引入“梯度分流”路径,将原ELAN的拼接操作改为分组拼接+跨层残差,减少计算图冗余;通过1×
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 永州市道县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 林芝地区墨脱县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 兰州市安宁区2025-2026学年第二学期五年级语文第四单元测试卷(部编版含答案)
- 沧州市运河区2025-2026学年第二学期五年级语文第六单元测试卷(部编版含答案)
- 南平市建瓯市2025-2026学年第二学期四年级语文第四单元测试卷(部编版含答案)
- 张家口市怀安县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 深度解析(2026)《CBT 4412-2016船舶电子设备用低频变压器》
- 深度解析(2026)《AQ 1030-2007煤矿用运输绞车安全检验规范》
- 住宅景观考研题目及答案
- 2《与妻书》公开课一等奖创新教案统编版高中语文必修下册
- 八年级下册道德与法治核心考点深度解析与议题式教学实施精要
- 2026年统编版小学二年级道德与法治下册(全册)课时练习及答案(附教材目录)
- 销售办事处考勤制度
- 《希腊城邦和亚历山大帝国》历史教学课件
- 中国遗传性视神经病变诊疗指南(2025版)
- 纳滤膜行业分析报告
- 护工管理员考核制度
- 2026湖北武汉理工大学心理健康教育专职教师招聘2人备考题库及1套参考答案详解
- 2026年消防工作计划及重点整治工作
- 2025年提前招生社会工作笔试题及答案
- 2026年山西水利职业技术学院单招职业技能笔试模拟试题带答案解析
评论
0/150
提交评论