版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026技能考试人工智能训练师三级题库练习试卷附答案1.单项选择题(每题1分,共30分)1.1在PyTorch中,若模型已调用model.eval(),则下列哪一项操作会被自动关闭A.BatchNorm的均值方差更新B.Dropout的随机失活C.梯度反向传播D.权重衰减答案:B1.2给定学习率η=0.01、动量β=0.9的SGD优化器,第t步的动量更新公式为A.v_t=βv_{t-1}+ηg_tB.v_t=ηg_t+βv_{t-1}C.v_t=βv_{t-1}+g_tD.v_t=η(βv_{t-1}+g_t)答案:A1.3在Transformer中,位置编码使用sin/cos的主要原因是A.可学习参数更少B.便于外推到更长序列C.加速注意力计算D.降低显存占用答案:B1.4下列关于F1-score的描述正确的是A.是精确率与召回率的算术平均B.是精确率与召回率的调和平均C.对类别不平衡不敏感D.取值范围在0到正无穷答案:B1.5在目标检测任务中,IoU=0.5的含义是A.预测框与GT框的交集面积占并集面积50%B.预测框面积是GT框面积的50%C.预测框中心点与GT框中心点距离为框对角线50%D.预测框与GT框的交集面积占GT框面积50%答案:A1.6使用混合精度训练时,lossscaling的主要作用是A.防止下溢B.防止上溢C.加速通信D.减少显存答案:A1.7在联邦学习场景下,FedAvg算法中客户端上传的是A.原始数据B.模型参数梯度C.本地更新后的模型参数D.损失函数值答案:C1.8若某卷积层输入通道64,输出通道128,卷积核3×3,padding=1,则参数量为A.64×128×3×3B.64×128×3×3+128C.128×3×3D.64×128×3×3+64答案:B1.9在BERT预训练中,NSP任务的全称是A.NextSentencePredictionB.NaturalStructureParsingC.NegativeSamplePenaltyD.Non-StationaryPosition答案:A1.10下列激活函数中,输出均值最接近0的是A.SigmoidB.TanhC.ReLUD.GELU答案:B1.11在强化学习中,Q-learning属于A.策略梯度方法B.值函数方法C.Actor-Critic方法D.环境模型方法答案:B1.12若使用EarlyStopping,patience=5,monitor='val_loss',则A.连续5轮验证损失不降则停止B.连续5轮训练损失不降则停止C.连续5轮验证准确率不升则停止D.连续5轮训练准确率不升则停止答案:A1.13在图像分割任务中,DiceLoss的取值范围是A.[0,1]B.[-1,1]C.[0,+∞)D.(-∞,+∞)答案:A1.14下列关于L1正则化的说法正确的是A.鼓励稀疏解B.可导处处光滑C.等价于高斯先验D.对异常值不敏感答案:A1.15在超参数搜索中,贝叶斯优化与网格搜索相比主要优势是A.并行度高B.利用先验信息减少评估次数C.实现简单D.对离散空间友好答案:B1.16若BatchSize从32增大到256,通常应如何调整学习率A.保持不变B.线性增大C.平方根增大D.减小一半答案:B1.17在GPT自回归生成中,温度参数τ→0时,采样分布趋近于A.均匀分布B.狄拉克δ分布C.高斯分布D.伯努利分布答案:B1.18下列关于模型蒸馏的说法错误的是A.学生模型通常更小B.蒸馏温度越高越好C.可使用软标签D.可提升推理速度答案:B1.19在文本分类中,使用SubwordTokenization的主要目的是A.减少OOVB.增加序列长度C.降低词表大小D.提高训练速度答案:A1.20若某模型在测试集上准确率为95%,但在线上仅80%,最可能原因是A.测试集过拟合B.训练集欠拟合C.数据分布偏移D.学习率过高答案:C1.21在深度网络中,梯度爆炸的直接表现是A.损失为NaNB.权重全为0C.激活值全负D.学习率自动下降答案:A1.22使用K-fold交叉验证的主要目的是A.增加训练数据B.降低模型方差C.提高推理速度D.减少显存占用答案:B1.23在推荐系统中,冷启动问题通常指A.新用户或新物品无历史交互B.服务器温度过低C.矩阵稀疏D.召回率过低答案:A1.24若采用余弦退火学习率调度,T_max=100,则第50轮学习率为A.η_min+(η_max-η_min)·(1+cos(π·50/100))/2B.η_min+(η_max-η_min)·cos(π·50/100)C.η_max/2D.η_min答案:A1.25在图像增强中,MixUp的线性插值公式为A.\tilde{x}=λx_i+(1-λ)x_j,\tilde{y}=λy_i+(1-λ)y_jB.\tilde{x}=x_i+x_j,\tilde{y}=y_i+y_jC.\tilde{x}=λx_i,\tilde{y}=y_iD.\tilde{x}=x_i⊕x_j答案:A1.26下列关于GAN模式崩塌的描述正确的是A.生成器只输出单一模式B.判别器损失为0C.梯度消失D.生成样本多样性增加答案:A1.27在模型部署阶段,TensorRT的主要作用是A.量化与图优化B.数据标注C.自动超参搜索D.联邦学习答案:A1.28若使用AUC作为评价指标,AUC=0.5表示A.模型无区分能力B.模型完美C.模型过拟合D.模型欠拟合答案:A1.29在语音识别中,CTC损失函数允许A.输入输出长度不等B.强制单调对齐C.禁用空白符D.仅用于seq2seq答案:A1.30在MLOps流水线中,CanaryRelease是指A.灰度发布逐步扩大流量B.全量发布C.回滚D.数据漂移检测答案:A2.多项选择题(每题2分,共20分;多选少选均不得分)2.1下列哪些技术可有效缓解过拟合A.DropoutB.L2正则化C.数据增强D.增加网络深度答案:A,B,C2.2关于Adam优化器,下列说法正确的是A.自适应学习率B.需要存储动量C.对稀疏梯度友好D.不依赖学习率答案:A,B,C2.3在Transformer中,缩放点积注意力的缩放因子为A.\sqrt{d_k}B.d_kC.1/\sqrt{d_k}D.与d_k无关答案:A2.4下列属于无监督学习算法的是A.K-meansB.PCAC.AutoEncoderD.LogisticRegression答案:A,B,C2.5在目标检测评价中,mAP计算涉及A.精确率-召回率曲线B.IoU阈值C.类别平均D.置信度排序答案:A,B,C,D2.6下列关于卷积神经网络的说法正确的是A.权值共享减少参数量B.池化层带来平移不变性C.空洞卷积可扩大感受野D.转置卷积用于上采样答案:A,B,C,D2.7在生成模型中,VAE的损失包含A.重构损失B.KL散度C.对抗损失D.感知损失答案:A,B2.8下列属于图神经网络常见聚合方式的是A.MeanB.MaxC.SumD.LSTM答案:A,B,C,D2.9在模型压缩技术中,可用于减少计算量的有A.通道剪枝B.权重量化C.知识蒸馏D.低秩分解答案:A,B,D2.10下列关于A/B测试的描述正确的是A.需保证流量独立B.需统计显著性检验C.可同时测试多指标D.实验组与对照组样本量必须相等答案:A,B,C3.填空题(每空2分,共20分)3.1若交叉熵损失函数为L=-∑y_ilog(p_i),则当p_i=0.5且y_i=1时,单个样本损失值为______。答案:-log0.5≈0.6933.2在ResNet中,恒等映射分支使用______卷积实现下采样。答案:1×13.3若BatchNorm的γ=1,β=0,则输出分布均值为______,方差为______。答案:0,13.4在GPT中,自注意力掩码为______矩阵,防止当前位置看到未来信息。答案:下三角3.5若使用余弦相似度计算两个向量a,b,则公式为______。答案:cosθ=(a·b)/(‖a‖‖b‖)3.6在强化学习中,贝尔曼最优方程为Q*(s,a)=______。答案:r(s,a)+γmax_{a'}Q*(s',a')3.7若学习率调度采用指数衰减,公式为η_t=η_0·e^{-kt},则k>0时学习率随时间______。答案:单调递减3.8在图像分类中,Top-5错误率指______。答案:真实标签不在模型预测概率最高的5个类别中的比例3.9若使用FocalLoss,α=0.25,γ=2,则易分样本的权重相对交叉熵会______。答案:降低3.10在模型部署中,ONNX定义了一种______格式的中间表示。答案:开放神经网络交换4.简答题(每题10分,共30分)4.1阐述梯度消失与梯度爆炸的产生原因,并给出至少两种有效缓解方法。答案:原因:链式求导导致深层网络连乘小于1或大于1的因子,使梯度指数级缩小或放大。缓解:1)使用ReLU、GELU等非饱和激活函数;2)采用BatchNorm将输出标准化;3)残差连接提供恒等路径;4)梯度裁剪限制梯度范数;5)合理初始化如He、Xavier。4.2解释Transformer中多头注意力的机制及其优势。答案:机制:将查询、键、值线性投影h次到不同子空间,分别计算缩放点积注意力,再将结果拼接并线性变换输出。优势:1)多子空间并行捕获不同语义关联;2)单头失效时其他头可补偿,提高鲁棒性;3)计算可并行,硬件友好;4)参数量仅略有增加,性价比高的特征多样性。4.3描述联邦学习中的隐私保护技术,并比较同态加密与差分隐私的优缺点。答案:技术:安全多方计算(SMC)、同态加密(HE)、差分隐私(DP)、本地差分隐私(LDP)。HE:优点——精度无损,可任意算术运算;缺点——计算开销大,通信量大。DP:优点——实现简单,计算高效;缺点——需权衡隐私与精度,噪声降低模型性能。5.应用题(共50分)5.1计算题(15分)某卷积层输入特征图尺寸为64×64×256,输出通道512,卷积核7×7,stride=2,padding=3,groups=1,dilation=1。(1)求输出特征图空间尺寸;(2)求该层参数量;(3)若使用深度可分离卷积,参数量变为多少?答案:(1)H_out=(64+2×3-7)/2+1=32,W_out=32;(2)普通卷积:256×512×7×7+512=6,453,632;(3)深度可分离:depthwise256×1×7×7+256+pointwise256×512×1×1+512=12,544+131,584=144,128。5.2分析题(15分)某文本分类项目使用BERT-base,训练集准确率99%,验证集仅78%,测试集76%。列出至少四条可能原因并给出对应改进措施。答案:原因1:训练集与验证集分布差异大→采用领域自适应、增加同分布数据。原因2:过度训练→EarlyStopping、减小学习率、减少epoch。原因3:微调学习率过高→改用分层学习率,顶层2e-5,其余5e-6。原因4:标签噪声→清洗训练集,使用置信学习或鲁棒损失。5.3综合设计题(20分)设计一个实时人脸口罩佩戴检测系统,要求:(1)给出模型选型与理由;(2)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村生活污水治理改造提升项目运营管理方案
- 细纱机操作工安全风险强化考核试卷含答案
- 丙烯酸树脂装置操作工岗前岗中技能考核试卷含答案
- 金属炊具及器皿制作工保密意识水平考核试卷含答案
- 煤层气排采工安全演练知识考核试卷含答案
- 路基路面工操作规程模拟考核试卷含答案
- 2026年大苗心理测试题及答案
- 2026年专业腹黑测试题及答案
- 2026年基础技能测试语言测试题及答案
- 润滑油加氢装置操作工岗前纪律考核试卷含答案
- 2025年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析 State of Venture Global 2025 recap
- 广西玉林师范学院招聘考试真题2025
- 2026年人教版中考英语总复习新课标新增词汇
- 车辆调度合作合同范本
- 概率论与数理统计里判断题
- 2025年高职(生物制药技术)药物发酵工艺综合测试卷及答案
- 2024年秋人教版三年级英语上册电子课本
- 新媒体运营专员笔试考试题集含答案
- 文档管理信息化平台资料上传规范模板
- 2025年高考(海南卷)地理试题(学生版+解析版)
- 2025年高考作文素材汇编
评论
0/150
提交评论