版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年人工智能考研专业课练习题解析测试试卷及答案一、单项选择题(每题2分,共20分)1.在ResNet中引入残差连接的主要目的是A.减少网络参数量B.缓解梯度消失问题C.提高卷积核感受野D.降低显存占用答案:B解析:残差连接将输入直接加到输出,形成恒等映射,使深层网络在反向传播时梯度可直接回传,有效缓解梯度消失。2.下列关于Transformer自注意力机制的说法正确的是A.查询向量Q与键向量K的点积需先经过Softmax再缩放B.缩放点积后需进行Mask操作才能输入SoftmaxC.多头注意力中每个头的维度必须等于模型总维度D.自注意力计算复杂度与序列长度呈线性关系答案:B解析:在解码器自注意力中,未来位置需被Mask;缩放因子为√d_k,点积后先Mask再Softmax,防止信息泄露。3.在强化学习中,若策略π满足π(a|s)>0对所有s,a成立,则该策略被称为A.贪婪策略B.确定性策略C.随机策略D.平稳策略答案:C解析:随机策略对所有动作赋予非零概率,保证探索性;贪婪策略仅选择最优动作,概率为1。4.联邦学习场景下,客户端上传本地模型梯度而非原始数据,主要为了A.降低通信开销B.提高模型精度C.保护用户隐私D.加速服务器聚合答案:C解析:梯度相对原始数据更抽象,且可结合安全聚合协议,防止逆向推断出用户隐私。5.在图神经网络中,GCN的一阶近似卷积公式H^(l+1)=σ(D̃^(1/2)ÃD̃^(1/2)H^(l)W^(l))中,Ã表示A.原始邻接矩阵B.添加自环的邻接矩阵C.归一化邻接矩阵D.拉普拉斯矩阵答案:B解析:Ã=A+I,引入自环使节点在更新时能保留自身信息,避免过度平滑。6.若一个二分类问题的数据集正负样本比例为1:99,下列评价指标最不敏感的是A.F1scoreB.AUCROCC.准确率D.平均精度(AP)答案:C解析:准确率受样本比例影响极大,即使模型全部预测负类也能达99%,无法反映真实性能。7.在PyTorch中,以下代码片段执行后x.grad的值为```pythonx=torch.tensor(2.0,requires_grad=True)y=x3y.backward()```A.4B.6C.8D.12答案:D解析:dy/dx=3x²,x=2时导数为12;backward()自动计算并累加到x.grad。8.关于BERT的预训练任务,下列说法错误的是A.MLM任务中15%的token被选中,其中80%替换为[MASK]B.NSP任务输入为两个句子,预测它们是否相邻C.MLM任务使用交叉熵损失,忽略未掩码位置D.RoBERTa去除了NSP任务并采用动态掩码答案:A解析:15%选中token里80%替换为[MASK],10%随机替换,10%不变,防止预训练与微调不一致。9.在AlphaGoZero中,蒙特卡洛树搜索使用的先验概率P(s,a)由哪个网络输出A.快速走子策略网络B.价值网络C.策略网络D.残差网络答案:C解析:策略网络f_θ(s)输出先验概率P(s,a),价值网络输出v(s)评估局面,二者共同指导MCTS。10.若将YOLOv5的IoU损失替换为CIoU损失,则新增惩罚项为A.中心点距离与对角线距离之比B.长宽比一致性C.重叠面积D.预测框置信度答案:B解析:CIoU在DIoU基础上增加v=(4/π²)(arctan(wgt/hgt)arctan(w/h))²,惩罚长宽比不一致。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列方法可用于缓解神经网络过拟合的是A.DropoutB.BatchNormalizationC.L2权重衰减D.早停(EarlyStopping)答案:ACD解析:Dropout随机失活神经元;L2正则化约束权重;早停防止训练过度;BN主要加速收敛,对过拟合作用有限。12.关于生成对抗网络,下列说法正确的是A.判别器损失越小,生成器梯度消失越严重B.WGAN使用Wasserstein距离替代JS散度C.模式崩塌(ModeCollapse)表现为生成样本多样性下降D.条件GAN通过将类别向量拼接至噪声向量实现控制生成答案:ABCD解析:WGANcritic输出标量而非概率,梯度更平滑;模式崩塌指生成器仅输出少数模式;条件信息可拼接或投影。13.在深度强化学习中,以下属于“onpolicy”算法的是A.A3CB.PPOC.DDPGD.TRPO答案:ABD解析:onpolicy要求行为策略与目标策略相同或近似;DDPG使用经验回放,属于offpolicy。14.关于VisionTransformer(ViT),下列说法正确的是A.图像块线性投影后需添加位置编码B.分类token仅与最后一层MLPHead连接C.使用LayerNorm而非BatchNormD.在小型数据集上通常需先大规模预训练答案:ACD解析:分类token贯穿所有层;LayerNorm对序列更稳定;小数据集直接训练ViT易过拟合。15.下列关于模型压缩技术描述正确的是A.知识蒸馏中温度系数T越大,软标签越平滑B.剪枝后需重新训练以恢复精度C.量化感知训练(QAT)将权重离散化嵌入前向传播D.低秩分解将权重矩阵分解为两个小矩阵相乘答案:ABCD解析:T→∞时分布趋均匀;剪枝破坏原优化点,需微调;QAT模拟量化误差;低秩分解减少参数量。三、填空题(每空2分,共20分)16.若某卷积层输入特征图尺寸为112×112,步长为2,填充为3,卷积核大小为7×7,则输出特征图尺寸为________。答案:56×56解析:o=⌊(i+2pk)/s⌋+1=⌊(112+67)/2⌋+1=56。17.在PyTorch中,若模型参数存储为FP32,占用的字节数为4,则一个参数量为1.2×10⁹的模型约占用________GB显存。答案:4.47解析:1.2×10⁹×4÷1024³≈4.47GB。18.若某GAN的生成器使用谱归一化(SpectralNormalization),则其作用是约束网络层权重矩阵的________范数。答案:谱(或2范数)解析:谱归一化将权重矩阵除以最大奇异值,使其Lipschitz常数≤1,稳定训练。19.在LSTM中,遗忘门输出值接近________时,表示细胞状态信息被保留。答案:1解析:遗忘门f_t=σ(W_f·[h_(t1),x_t]+b_f),f_t→1时保留旧信息。20.若使用混合精度训练,损失缩放(lossscaling)因子为1024,反向传播后发现梯度出现________,则需减小缩放因子。答案:溢出(或NaN/Inf)解析:FP16动态范围小,梯度过小会下溢,过大则上溢,需动态调整缩放。21.在知识图谱嵌入模型TransE中,若关系为“首都”,则期望满足的向量等式为________。答案:h+r≈t解析:TransE假设h+r≈t,即头实体加关系向量接近尾实体。22.若某深度网络使用Swish激活函数f(x)=x·sigmoid(x),则其导数在x=0处的取值为________。答案:0.5解析:f'(x)=sigmoid(x)+x·sigmoid(x)(1sigmoid(x)),x=0时sigmoid(0)=0.5,故f'(0)=0.5。23.在AlphaFold2中,Evoformer模块利用________注意力机制对多序列比对(MSA)和配对表示进行联合更新。答案:轴向(或Axial)解析:轴向注意力沿序列方向和配对方向分别计算,降低O(N²)复杂度。24.若使用RandAugment进行数据增强,其两个超参数分别为________和________。答案:N(变换个数)、M(强度)解析:RandAugment从14种变换中随机选N个,每个强度为M(010)。25.在联邦学习FedAvg算法中,服务器对客户端模型进行加权聚合时,权重通常取客户端________。答案:本地数据量占比解析:加权平均保证全局梯度无偏,权重为n_k/Σn_k。四、简答题(每题10分,共30分)26.描述DDPG算法中目标网络(targetnetwork)的更新方式,并说明为何采用软更新而非硬更新。答案:DDPG维护两套网络:主网络θ^μ、θ^Q与目标网络θ^μ'、θ^Q'。软更新采用指数滑动平均:θ'←τθ+(1τ)θ',其中τ≪1(通常0.005)。原因:(1)硬更新(每隔固定步长直接复制)会导致策略突变,破坏训练稳定性;(2)软更新使目标网络参数缓慢跟踪主网络,相当于在时序上平滑目标,减少非平稳性,提高收敛稳定性;(3)经验回放中的样本由旧策略生成,软更新保证目标值变化连续,与回放数据分布差异更小。27.解释VisionTransformer中“图像块嵌入+位置编码”如何保留二维空间结构,并分析为何使用可学习1D位置编码仍能获得良好效果。答案:ViT将图像切分为16×16块,线性投影为D维向量,形成序列。为保留空间信息,需添加位置编码E_pos∈R^(N×D)。(1)1D可学习编码:按光栅顺序编号0~N1,每个索引对应D维向量,通过训练学习。(2)保留二维结构:虽然编码为1D,但自注意力机制具有排列等变性,模型可通过学习将相邻索引的向量映射到相近表示,间接编码局部邻接关系;同时,高层注意力头可捕获全局依赖。(3)良好效果原因:a.大规模预训练提供充足数据,使模型足以学习隐式2D结构;b.多头注意力机制允许不同头关注不同距离,近似卷积的局部归纳偏置;c.现代ViT引入更精细的2Daware编码(如2Dsinusoid、相对位置)可进一步提升,但1D已足够在ImageNet上取得SOTA,说明数据驱动可弥补归纳偏置不足。28.对比批归一化(BatchNorm)与层归一化(LayerNorm)在计算方式、统计量、适用场景三方面的差异,并说明为何Transformer选择LayerNorm。答案:(1)计算方式:BN:对同一通道、跨样本、跨空间位置求均值方差,输出=(xμ_B)/√(σ²_B+ε)·γ+β;LN:对同一样本、跨特征维度求均值方差,输出=(xμ_L)/√(σ²_L+ε)·γ+β。(2)统计量:BN依赖minibatch,训练时实时计算,推理时用移动平均;LN无batch维度,训练和推理一致。(3)适用场景:BN适合CNN,批量大且固定;LN适合RNN、Transformer,序列长度可变,批量小。Transformer选择LN原因:a.序列长度常变,BN统计量不稳定;b.推理时batchsize可能为1,BN退化;c.LN对特征维度归一化,与自注意力机制配合,消除不同维度尺度差异,加速收敛;d.LayerNorm无batch依赖,更利于分布式训练与动态图。五、计算与推导题(每题15分,共45分)29.给定一个三分类问题,softmax输出为p=[0.7,0.2,0.1],真实标签onehot为y=[0,1,0]。(1)计算交叉熵损失L_CE;(2)求损失对softmax输入z的梯度∂L/∂z;(3)若使用标签平滑(labelsmoothingε=0.1),求新标签y'及新损失L'_CE。答案:(1)L_CE=Σy_ilogp_i=log0.2≈1.6094(2)∂L/∂z_i=p_iy_i,故梯度=[0.7,0.8,0.1](3)y'=(1ε)y+ε/K=[0.0333,0.9,0.0667]L'_CE=Σy'_ilogp_i=0.9log0.20.0667log0.1≈1.49630.考虑一个二维线性可分数据集,正例位于(1,1)、(2,2),负例位于(2,0)、(3,1)。使用硬间隔SVM,求最优超平面方程w^Tx+b=0,并计算几何间隔γ。答案:支持向量为(2,2)与(2,0)。中垂线方向为y轴,故w∝(0,1)。设w=(0,1),则对正例:1·2+b=1⇒b=1;对负例:1·0+b=1⇒b=1。超平面:y1=0。几何间隔γ=2/‖w‖=2/1=2。31.在PPOclip目标函数中,给定旧策略π_θ_old、新策略π_θ,优势函数A_t=G_tV(s_t),clip区间为[1ε,1+ε],ε=0.2。(1)写出目标函数L^CLIP(θ);(2)若r_t(θ)=π_θ(a_t|s_t)/π_θ_old(a_t|s_t)=1.3,A_t=0.5,求clip前后两项值;(3)说明clip操作如何防止策略更新过大。答案:(1)L^CLIP(θ)=E[min(r_t(θ)A_t,clip(r_t(θ),1ε,1+ε)A_t)](2)未clip项:1.3×0.5=0.65;clip项:clip(1.3,0.8,1.2)=1.2,故clip后1.2×0.5=0.6(3)当r_t>1+ε且A_t>0时,clip将目标值限制为(1+ε)A_t,使梯度在此区域为零,阻止θ继续增大该动作概率,避免策略突变导致性能崩溃。六、综
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高职第三学年(海绵城市建设技术)海绵设施施工阶段测试题及答案
- 2025年大学二年级(网络媒体UI设计)UI应用阶段测试题及答案
- 2025年大学第四学年(数字媒体技术)数字媒体交互设计试题及答案
- 2025年大学第四学年(工业设计)产品结构设计综合试题及答案
- 2025年高职老年保健与管理(老年营养与膳食)试题及答案
- 2025年中职(新能源汽车检测与维修)智能驾驶辅助设备基础试题及答案
- 2025年高职(酒店管理综合实训)服务创新实操试题及答案
- 2026年幼儿教育(幼儿语言表达)试题及答案
- 2025年高职老年人服务与管理(心理疏导方法)试题及答案
- 2025年高职模具设计与制造(模具设计制造应用)试题及答案
- DeepSeek零基础到精通手册(保姆级教程)
- 图说01 亚洲的位置和范围-【图说地理】2023-2024年七年级地理下册填图训练手册(人教版)(原卷版)
- 中小企业主的家庭财富管理方案
- 贵州省贵阳市(2024年-2025年小学五年级语文)部编版期末考试((上下)学期)试卷及答案
- 正规装卸合同范本
- 自动控制原理仿真实验课程智慧树知到答案2024年山东大学
- JBT 7946.2-2017 铸造铝合金金相 第2部分:铸造铝硅合金过烧
- 【当代中国婚礼空间设计研究4200字(论文)】
- GB/T 20322-2023石油及天然气工业往复压缩机
- 提捞采油安全操作规程
- DB3211-T 1048-2022 婴幼儿日间照料托育机构服务规范
评论
0/150
提交评论