2026年人工智能训练师(二级)基础理论考试题库_第1页
2026年人工智能训练师(二级)基础理论考试题库_第2页
2026年人工智能训练师(二级)基础理论考试题库_第3页
2026年人工智能训练师(二级)基础理论考试题库_第4页
2026年人工智能训练师(二级)基础理论考试题库_第5页
已阅读5页,还剩20页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师(二级)基础理论考试题库一、单项选择题(每题1分,共30分)1.在深度学习模型训练中,若验证集损失持续上升而训练集损失持续下降,最可能的原因是A.学习率过低B.模型欠拟合C.模型过拟合D.批大小过大答案:C解析:训练集损失下降而验证集损失上升是过拟合的典型表现。2.下列激活函数中,输出范围在(0,1)之间的是A.ReLUB.TanhC.SigmoidD.LeakyReLU答案:C解析:Sigmoid函数表达式为σ(x)=1/(1+e^{-x}),输出范围(0,1)。3.在Transformer架构中,用于捕捉序列位置信息的核心模块是A.多头注意力B.位置编码C.层归一化D.前馈网络答案:B解析:位置编码通过正弦/余弦函数或学习向量注入顺序信息。4.若某卷积层输入尺寸为32×32×3,使用64个5×5卷积核,步长为1,padding为2,则输出特征图尺寸为A.32×32×64B.30×30×64C.28×28×64D.34×34×64答案:A解析:输出尺寸公式:O=\left\lfloor\frac{I+2P-K}{S}\right\rfloor+1=\left\lfloor\frac{32+4-5}{1}\right\rfloor+1=32,通道数等于卷积核数64。5.在联邦学习场景下,为防止模型更新泄露用户隐私,通常采用A.同态加密B.差分隐私C.梯度裁剪D.以上均可答案:D解析:三种技术可组合使用,分别对抗不同攻击面。6.使用Adam优化器时,超参数β1的常见默认值为A.0.5B.0.9C.0.99D.0.999答案:B解析:Adam论文推荐β1=0.9,β2=0.999。7.在目标检测任务中,YOLOv5使用的边界框回归损失函数为A.SmoothL1B.GIoUC.DIoUD.CIoU答案:D解析:YOLOv5采用CIoULoss,综合考虑重叠、中心点距离与长宽比。8.若某LSTM单元遗忘门输出接近0,则上一时刻细胞状态A.被完全保留B.被完全遗忘C.被部分保留D.被放大两倍答案:B解析:遗忘门输出0表示对上一状态权重为0,即完全遗忘。9.在自监督学习中,SimCLR的核心思想是A.生成对抗B.对比学习C.自回归D.掩码重建答案:B解析:SimCLR通过数据增强构造正样本对,利用对比损失拉近正样本、推远负样本。10.当使用混合精度训练时,为防止梯度下溢,通常引入A.梯度累积B.损失缩放C.权重衰减D.学习率预热答案:B解析:损失缩放将损失乘以大常数,反向传播后再缩放梯度,避免FP16下溢。11.在模型蒸馏中,学生模型主要学习教师模型的A.参数值B.输出软标签C.中间特征D.以上均可答案:D解析:蒸馏可匹配软标签、中间特征甚至注意力矩阵。12.下列评价指标中,对类别不平衡最敏感的是A.AccuracyB.PrecisionC.RecallD.F1-score答案:A解析:Accuracy受多数类主导,不平衡时易虚高。13.若某GAN训练出现模式崩塌,可采取的缓解策略是A.减小判别器学习率B.使用Wasserstein损失C.增加噪声输入D.以上均可答案:D解析:三种方法均可提升GAN多样性。14.在PyTorch中,以下代码执行后x.grad的值为```pythonx=torch.tensor(2.0,requires_grad=True)y=x**3y=x**3y.backward()```A.4B.6C.8D.12答案:D解析:dy/dx=3x²,x=2时梯度为12。15.当使用BERT进行中文文本分类时,最佳分词粒度为A.字B.词C.子词D.句子答案:C解析:中文BERT采用WordPiece子词粒度,兼顾语义与词典未登录词。16.在强化学习中,Q-learning更新公式中的α表示A.折扣因子B.学习率C.探索率D.奖励衰减答案:B解析:α控制新估计与旧值的混合比例。17.若某模型参数量为120M,使用FP32存储,则理论内存占用约为A.120MBB.240MBC.480MBD.960MB答案:C解析:FP32占4字节,120M×4B=480MB。18.在图像分割任务中,DiceLoss的取值范围是A.[0,1]B.[-1,1]C.[0,+∞)D.(-∞,+∞)答案:A解析:Dice系数∈[0,1],损失=1-Dice,故范围[0,1]。19.当训练数据量极小时,最适合的迁移学习策略是A.微调全网络B.仅训练最后一层C.特征提取+线性分类D.随机初始化答案:C解析:小数据下冻结backbone可防过拟合。20.在模型部署阶段,TensorRT进行的优化不包括A.层融合B.量化C.动态形状D.剪枝答案:D解析:剪枝属训练压缩,TensorRT主要做图优化与量化。21.下列关于AUC-ROC的描述正确的是A.阈值相关指标B.等于TPR-FPRC.越接近0.5模型越优D.对正负样本比例不敏感答案:D解析:AUC-ROC衡量排序能力,对类别分布鲁棒。22.在VisionTransformer中,PatchEmbedding的矩阵形状为A.(P²·C)×DB.P²×C×DC.(P²·C)×(H·W)D.D×(P²·C)答案:A解析:将P×P×C展平为P²·C维,再线性投影到D维。23.若某次训练出现NaN,首先应检查A.学习率B.批大小C.权重初始化D.以上均可答案:D解析:学习率过大、初始化不当、数值溢出均可致NaN。24.在联邦平均算法FedAvg中,服务器聚合策略为A.加权平均B.简单平均C.梯度平均D.参数差平均答案:A解析:按客户端数据量加权平均模型参数。25.使用混合专家模型MoE时,门控网络通常采用A.SoftmaxB.SigmoidC.ReLUD.Tanh答案:A解析:Softmax输出专家权重,保证和为1。26.在NLP数据增强中,EasyDataAugmentation(EDA)不包括A.同义词替换B.随机插入C.随机交换D.回译答案:D解析:回译需外部翻译模型,EDA仅基于单语同义词。27.若某模型在测试集上Precision=0.9,Recall=0.8,则F1-score为A.0.85B.0.84C.0.86D.0.83答案:B解析:F1=2PR/(P+R)=2×0.9×0.8/(0.9+0.8)=0.847。28.在AutoML中,神经架构搜索(NAS)的搜索空间不包括A.操作类型B.拓扑结构C.权重值D.超参数答案:C解析:NAS搜索结构,权重值由训练确定。29.当使用DeepSpeed进行千亿参数模型训练时,核心技术是A.数据并行B.模型并行C.ZeroRedundancyOptimizerD.混合精度答案:C解析:ZeRO通过分片优化器状态、梯度、参数降低显存。30.在可解释AI中,SHAP值满足A.局部准确性B.缺失性C.一致性D.以上均可答案:D解析:SHAP基于博弈论,满足三条公理。二、多项选择题(每题2分,共20分)31.下列方法可用于缓解过拟合的有A.DropoutB.L2正则C.早停D.增加网络深度答案:A,B,C解析:增加深度可能加剧过拟合。32.关于BatchNorm的描述正确的有A.可加速收敛B.允许使用更大学习率C.对批大小敏感D.可完全替代Dropout答案:A,B,C解析:BN与Dropout常联合使用,非完全替代。33.在GPT系列模型中,以下结构一致的有A.解码器-onlyB.因果掩码C.双向注意力D.层归一化前置答案:A,B,D解析:GPT为单向自回归,无双向注意力。34.以下属于无监督聚类算法的有A.K-meansB.DBSCANC.GMMD.Agglomerative答案:A,B,C,D解析:四者均无需标签。35.在模型压缩中,量化可能带来的副作用有A.精度下降B.推理加速C.需要校准数据D.硬件依赖答案:A,C,D解析:B为正面效果,非副作用。36.关于A/B测试,正确的有A.需控制变量B.需计算样本量C.可无限期运行D.需双尾检验答案:A,B解析:C应避免无限期,D视业务需求可为单尾。37.在深度强化学习DQN中,经验回放的作用有A.去相关B.提高样本效率C.避免灾难性遗忘D.降低方差答案:A,B,D解析:经验回放不直接解决遗忘。38.以下属于Transformer变体的有A.LinformerB.PerformerC.ReformerD.ELECTRA答案:A,B,C解析:ELECTRA为预训练任务,非结构变体。39.在计算机视觉中,数据增强常用的空间变换有A.随机裁剪B.颜色抖动C.随机旋转D.CutMix答案:A,C,D解析:B为颜色变换。40.关于模型公平性,以下指标可度量群体公平的有A.人口统计均等B.机会均等C.预测平价D.个体公平答案:A,B,C解析:D为个体层面。三、判断题(每题1分,共10分)41.使用ReLU激活函数一定不会出现梯度消失。答案:错解析:ReLU在负区间梯度为0,仍可导致神经元死亡。42.在联邦学习中,客户端数据独立同分布是非必要条件。答案:对解析:FedAvg在非IID数据下仍可收敛,但性能下降。43.模型参数越多,泛化能力一定越差。答案:错解析:适当正则化的大模型可取得更好泛化。44.梯度裁剪可解决梯度爆炸,但不能缓解梯度消失。答案:对解析:裁剪仅限制上限,对下溢无效。45.BERT的掩码语言模型每次掩码15%的token,其中80%用[MASK],10%随机替换,10%不变。答案:对解析:为缓解预训练-微调不一致。46.在图像风格迁移中,Gram矩阵用于捕捉纹理统计信息。答案:对解析:Gram矩阵计算特征通道间相关性。47.使用混合精度训练时,权重主副本必须保持FP16。答案:错解析:主副本应为FP32,避免舍入误差累积。48.在强化学习策略梯度中,增加基线可减少方差但不改变期望。答案:对解析:基线引入的常数项梯度期望为0。49.模型可解释性越高,其性能必然越低。答案:错解析:二者非绝对负相关,如注意力机制可兼顾。50.在模型部署时,ONNX格式可保证跨框架推理结果比特一致。答案:错解析:不同后端实现可能导致数值误差。四、填空题(每空2分,共20分)51.若某卷积层输出尺寸为64×64,步长为2,卷积核7×7,padding为3,则输入尺寸为______。答案:127×127解析:I=(O-1)×S+K-2P=63×2+7-6=127。52.在LSTM中,细胞状态更新公式为c_t=f_t⊙______+i_t⊙\tilde{c}_t。答案:c_{t-1}53.若某模型训练集准确率98%,验证集准确率72%,测试集准确率71%,则其偏差为______%,方差为______%。答案:2,26解析:偏差=100-98=2;方差=98-72=26。54.Transformer中,缩放点积注意力公式为Attention(Q,K,V)=______。答案:softmax(\frac{QK^T}{\sqrt{d_k}})V55.在PyTorch中,将模型移至GPU的函数为______。答案:.to('cuda')或.cuda()56.若使用FocalLoss,当γ=0时,其等价于______损失。答案:交叉熵57.在模型蒸馏中,温度参数T→∞时,软标签分布趋近于______分布。答案:均匀58.若某次A/B测试期望提升2%,标准差0.5%,则最小样本量每组约为______(Z_{0.975}=1.96)。答案:1537解析:n=(\frac{2×1.96×0.5}{2})^2=1536.6→1537。59.在图像分割评价中,Dice系数与IoU的关系为IoU=______。答案:\frac{Dice}{2-Dice}60.使用DeepSpeedZero-3时,优化器状态、梯度、参数均被______到不同设备。答案:分片五、简答题(每题10分,共30分)61.描述Transformer中多头注意力的计算流程,并说明“多头”带来的优势。答案:1.对输入X分别线性投影得到Q_i,K_i,V_i,共h组;2.每组计算缩放点积注意力head_i=softmax(Q_iK_i^T/\sqrt{d_k})V_i;3.拼接所有head,再线性投影输出。优势:多子空间并行关注不同位置与语义信息;单头维度降低,计算与内存开销可控;提升表达能力,类似卷积多核。62.给出模型量化后INT8推理的完整校准流程,并说明如何确定量化尺度(scale)。答案:1.准备代表性无标签校准集;2.前向推理收集各激活/权重张量统计直方图;3.选择量化方法:对称/非对称、逐层/逐通道;4.确定尺度:对称量化:scale=\frac{max(|x|)}{127};非对称:scale=\frac{max(x)-min(x)}{255};5.计算零点zero-point=round(-min(x)/scale);6.生成校准表,写入模型;7.验证INT8推理精度,必要时调整校准集或量化粒度。63.解释梯度消失与爆炸的数学本质,并分别给出两种有效缓解策略及原理。答案:本质:反向传播链式法则导致梯度呈指数级变化。对深度网络,\frac{\partialL}{\partialh_l}=\prod_{k=l}^{L-1}\frac{\partialh_{k+1}}{\partialh_k}\frac{\partialL}{\partialh_L},若雅可比矩阵谱半径<1则消失,>1则爆炸。缓解:消失:1.残差连接:h_{l+1}=f(h_l)+h_l,将连乘变为连加,梯度直接传递;2.门控机制:LSTM通过遗忘门调节细胞状态,保持常数误差流。爆炸:1.梯度裁剪:设定阈值θ,若||g||>θ则g←θ·g/||g||,限制更新幅值;2.权重初始化:Xavier初始化使每层方差一致,避免谱半径过大。六、计算题(每题10分,共20分)64.已知某模型采用Adam优化器,学习率α=0.001,β1=0.9,β2=0.999,ε=1e-8。当前时间步t=5,梯度g_t=0.2,历史一阶动量m_{t-1}=0.15,二阶动量v_{t-1}=0.08。求本次参数更新量Δθ(保留6位小数)。答案:m_t=β1m_{t-1}+(1-β1)g_t=0.9×0.15+0.1×0.2=0.155\hat{m}_t=m_t/(1-β1^t)=0.155/(1-0.9^

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论