版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年《人工智能基础》期末考试试卷附答案一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项的字母填在题后括号内)1.在深度学习中,若将ReLU激活函数替换为LeakyReLU,其主要目的是()A.降低模型参数量B.缓解梯度消失问题C.减少过拟合D.提高卷积核感受野2.下列关于Transformer自注意力机制的说法,正确的是()A.查询向量Q与键向量K的点积直接作为输出B.注意力权重矩阵的每一行和必须为1C.位置编码仅在解码器端使用D.多头注意力无法并行计算3.若某卷积层输入特征图尺寸为112×112×64,采用128个3×3卷积核,步长为2,padding为1,则输出特征图尺寸为()A.56×56×128B.55×55×128C.56×56×64D.112×112×1284.在强化学习中,使用ε-greedy策略时,ε=0表示智能体()A.完全随机探索B.完全利用当前最优策略C.采用玻尔兹曼探索D.执行梯度策略更新5.联邦学习框架中,服务器端聚合各客户端梯度最常用的方法是()A.加权平均B.几何中位数C.联邦随机梯度下降D.局部模型蒸馏6.若某GAN的判别器损失长时间趋近于0,而生成器损失剧烈震荡,最可能的原因是()A.生成器学习率过高B.判别器过强,生成梯度消失C.采用了Wasserstein损失D.批归一化参数冻结7.在BERT预训练中,MaskedLanguageModel任务随机遮蔽15%的词,其中80%用[MASK]替换,10%用随机词替换,剩余10%保持不变,其主要目的是()A.减少预训练时间B.缓解预训练与微调阶段不一致C.增加负样本多样性D.降低显存占用8.若某决策树采用C4.5算法,划分属性a的信息增益率为0.35,而属性b的信息增益为0.40,则()A.必然选择aB.必然选择bC.需比较分裂信息后再决定D.需比较基尼指数后再决定9.在图神经网络中,GraphSAGE采用邻居采样与聚合策略,其主要优势是()A.降低图存储复杂度至O(1)B.支持归纳式学习C.消除邻接矩阵稀疏性D.避免非线性激活10.若某模型在ImageNet上Top-1准确率达到90.5%,使用知识蒸馏将大模型迁移至小模型时,蒸馏温度T的最佳初始搜索区间通常为()A.1~2B.3~5C.10~20D.50~100二、多项选择题(每题3分,共15分。每题有两个或两个以上正确答案,请将所有正确选项的字母填在题后括号内,漏选、错选均不得分)11.下列方法中,可用于缓解神经网络梯度爆炸的有()A.梯度裁剪B.权重衰减C.批归一化D.使用tanh替换ReLU12.关于A搜索算法的评价函数f(n)=g(n)+h(n),下列说法正确的有()12.关于A搜索算法的评价函数f(n)=g(n)+h(n),下列说法正确的有()A.若h(n)可采纳,则A保证找到最优解A.若h(n)可采纳,则A保证找到最优解B.g(n)表示从起点到n的真实代价C.提高h(n)的精度一定能减少扩展节点数D.h(n)为0时,A退化为Dijkstra算法D.h(n)为0时,A退化为Dijkstra算法13.在目标检测模型YOLOv8中,下列组件或策略有助于提升小目标检测精度的有()A.引入P2级检测头B.采用Anchor-Free机制C.使用SiLU激活函数D.增加高分辨率训练阶段14.下列关于AutoML中神经架构搜索(NAS)的描述,正确的有()A.基于强化学习的NAS通常将网络结构编码为离散序列B.可微分NAS通过共享权重降低搜索成本C.一旦搜索结束,子网络无需重新训练即可部署D.零样本NAS利用性能预测器避免训练子网15.在联邦学习场景下,参与方数据Non-IID程度加剧可能导致()A.全局模型收敛速度下降B.本地模型在各自数据上表现更好C.通信轮次显著增加D.服务器端需引入公平性约束三、填空题(每空2分,共20分。请在横线处填写最恰当的内容)16.若某LSTM单元遗忘门输出为0,则上一时刻细胞状态Ct−1对当前细胞状态Ct的影响权重为________。17.在VisionTransformer中,图像块尺寸为16×16,输入图像分辨率为384×384,则序列长度为________。18.若某模型采用混合精度训练,损失缩放因子为1024,当梯度出现NaN时,下一次迭代应将缩放因子调整为________。19.在深度Q网络(DQN)中,目标网络参数每C步硬更新一次,若C过小,则可能导致________不稳定。20.若某卷积神经网络第k层特征图满足Nk=64,Hk=Wk=28,则该层特征图展开成向量后的维度为________。21.在生成扩散模型DDPM中,前向过程第t步的噪声方差β_t通常满足β_1=1×10⁻⁴,β_T=0.02,则当T=1000时,采用________调度策略可保证信噪比单调递减。22.若某模型采用FocalLoss处理类别不平衡,当γ=2时,易分类样本的权重衰减系数为________(保留两位小数)。23.在图卷积网络GCN中,若邻接矩阵A未自环,则添加自环后的新邻接矩阵为________。24.若某模型参数量为1.2×10⁸,采用FP16存储,则显存占用约为________MB(1MB=1024×1024Byte)。25.在模型压缩技术中,KnowledgeDistillation的损失函数通常表示为L=αL_CE+βL_KD,若教师模型Softmax输出为q,学生模型Softmax输出为p,温度T=4,则L_KD=________(用LaTeX公式表示)。四、简答题(每题8分,共24分。请给出关键推导或解释)26.推导BatchNormalization在训练阶段对单个神经元输出x_i的归一化过程,并说明其在测试阶段如何使用滑动平均的μ和σ。27.解释Transformer中ScaledDot-ProductAttention的缩放因子√d_k的数学来源,并说明当d_k过大时若不缩放会导致何种数值问题。28.对比分析模型剪枝中的magnitude-basedpruning与gradient-basedpruning在稀疏结构、恢复能力、计算开销三方面的差异。五、综合应用题(共21分)29.某研究团队希望在边缘设备上部署实时语义分割模型,输入分辨率为512×1024,类别数19,模型需满足:(1)单帧延迟≤30ms(GPU为RTX3060,FP16);(2)显存占用≤1GB;(3)mIoU≥75%。现有基线模型SegFormer-B3在该分辨率下mIoU=78.2%,单帧延迟28ms,显存占用1.1GB。请设计一套改进方案,包含网络结构调整、损失函数、训练策略、推理优化四方面,给出定量分析并证明满足全部约束。要求:(1)给出关键模块的参数量与计算量公式,使用LaTeX表示;(2)说明如何在不降低mIoU的前提下压缩显存至1GB以内;(3)给出最终模型在验证集上的mIoU、延迟、显存三项指标的预测值,并给出误差上界估计。——————————答案与解析——————————一、单项选择题1.B2.B3.A4.B5.C6.B7.B8.C9.B10.C解析:1.LeakyReLU在负半轴引入小斜率,避免ReLU的“神经元死亡”,从而缓解梯度消失。3.输出尺寸公式:⌊(N+2P−K)/S⌋+1=⌊(112+2−3)/2⌋+1=56。6.判别器损失趋零说明判别器过强,生成器梯度被抑制,出现梯度消失。10.蒸馏温度过低则分布过于尖锐,过高则过于平坦,10~20为经验最佳区间。二、多项选择题11.AC12.ABD13.ABD14.ABD15.ACD解析:11.梯度裁剪直接限制梯度范数;批归一化将输出归一化,间接稳定梯度。13.P2级检测头引入更高分辨率特征图;Anchor-Free减少超参;高分辨率训练阶段提升小目标特征。15.Non-IID导致本地梯度方向差异大,全局更新冲突,需更多通信轮次收敛,且可能需公平性约束。三、填空题16.017.57618.51219.训练20.5017621.linear22.0.1423.A+I24.228.8825.L_KD=−∑_iq_i^{(T)}\logp_i^{(T)},其中q_i^{(T)}=\exp(z_i^T/T)/\sum_j\exp(z_j^T/T)解析:17.(384/16)²=24²=576。22.(1−0.5)^2=0.25,再乘以(1−pt)^γ,pt≈0.9,则系数≈0.14。24.1.2×10⁸×2Byte/1024²≈228.88MB。四、简答题26.训练阶段:μ_B=1/m∑_{i=1}^mx_i,σ_B²=1/m∑_{i=1}^m(x_i−μ_B)²\hat{x}_i=(x_i−μ_B)/√(σ_B²+ε)y_i=γ\hat{x}_i+β测试阶段:使用滑动平均μ̂,σ̂²替代μ_B,σ_B²,固定参数不再计算批统计量。27.缩放因子来源:Attention(Q,K,V)=softmax(QK^⊤/√d_k)V若d_k大,点积方差随d_k线性增大,导致softmax输入值过大,梯度趋近0,出现梯度消失;缩放后方差为1,保持数值稳定。28.差异对比表:magnitude-based:基于权重大小,稀疏结构规则,恢复能力弱,计算开销O(n)。gradient-based:基于损失对权重梯度,稀疏结构不规则,恢复能力强,需计算二阶信息,开销O(n×k)。五、综合应用题29.方案要点:(1)网络结构:将SegFormer-B3的Transformer编码器层数由{3,6,18,3}减为{2,4,12,2},嵌入维度由768降至576;解码器采用轻量MLP,通道压缩至128。参数量公式:P=∑_{l=1}^4N_l×(4d²+2d×d_{ff}),其中d_{ff}=4d,N_l为第l阶段块数。计算量:FLOPs≈2×P×H×W/r²,r为下采样率。(2)损失函数:采用OhemCE+Dice混合损失,比例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐厅员工奖惩制度范本
- 养生馆理疗师奖惩制度
- 承包商管理奖惩制度范本
- 卫生室奖惩制度实施细则
- 医院住院病历奖惩制度
- 幼儿园生评比与奖惩制度
- 住院医师教学奖惩制度
- 房产销售部业绩奖惩制度
- 福建省三比一看奖惩制度
- 员工消防奖惩制度
- 【可行性报告】2023年高纯氮化铝粉体行业项目可行性分析报告
- 随机过程十四布朗运动
- 营养支持讲课最终课件
- 出口海运工厂集装箱货物绑扎加固指南
- 电动机检修作业指导书
- TS30测量机器人Geocom中文说明书
- 化工厂监控系统解决方案
- GB/T 3565.1-2022自行车安全要求第1部分:术语和定义
- GB/T 3452.4-2020液压气动用O形橡胶密封圈第4部分:抗挤压环(挡环)
- GB/T 15382-2021气瓶阀通用技术要求
- 公共管理核心与前沿课件
评论
0/150
提交评论