2026年人工智能专业基础考试题库及解析

上传人：1*** IP属地：四川上传时间：2026-04-11 格式：DOCX 页数：14 大小：44.64KB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能专业基础考试题库及解析1.单项选择题（每题2分，共20分）1.1在深度学习中，若将ReLU激活函数全部替换为LeakyReLU，则下列关于梯度流的描述正确的是A.梯度消失概率严格降为零B.负半轴梯度恒为0.01，正半轴梯度保持1C.反向传播时任意负输入区域仍可能出现梯度消失D.参数更新方向与ReLU完全一致，仅速度变慢1.2给定一个卷积层：输入张量尺寸为1×32×32，卷积核尺寸5×5，输出通道16，padding=2，stride=1，则输出特征图的空间分辨率是A.30×30 B.32×32 C.28×28 D.34×341.3在Transformer的自注意力机制中，若查询向量维度d_k=64，为避免softmax梯度消失，缩放因子应选A.1 B.8 C.64 D.1/81.4下列关于模型压缩技术中“知识蒸馏”的叙述，错误的是A.教师模型输出软标签温度越高，学生模型越容易学习暗知识B.蒸馏损失通常采用KL散度C.学生模型参数量必须小于教师模型D.蒸馏过程可在不同架构间进行1.5强化学习中，若采用ε-greedy策略且ε随episode线性衰减，则探索率最终趋于A.0 B.1 C.初始ε D.与衰减步长成反比1.6在联邦学习场景下，客户端上传本地模型梯度而非参数，主要目的是A.降低通信开销 B.增强隐私保护 C.加速聚合 D.避免非独立同分布影响1.7图神经网络GCN的层间传播公式H^{(l+1)}=σ(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}H^{(l)}W^{(l)})中，\tilde{A}表示A.原始邻接矩阵 B.加入自环的邻接矩阵 C.度矩阵 D.拉普拉斯矩阵1.8若一个二元分类任务的正负样本比为1:99，采用ROC曲线评估时，随机分类器的期望AUC为A.0 B.0.5 C.0.99 D.无法确定1.9在生成对抗网络中，若判别器损失快速降至零，则生成器梯度通常A.呈线性增长 B.呈指数增长 C.消失 D.不变1.10使用Adam优化器时，下列超参数对最终收敛位置影响最小的是A.β₁ B.β₂ C.ε D.初始学习率2.多项选择题（每题3分，共15分；多选少选均不得分）2.1下列哪些操作能够缓解卷积神经网络过拟合A.DropBlock B.LabelSmoothing C.增加通道数 D.随机深度 E.使用GroupNorm2.2关于BERT的掩码语言模型，下列说法正确的是A.15%token被选中掩码 B.被选token中80%替换为[MASK] C.被选token中10%替换为随机token D.被选token中10%保持不变 E.掩码策略在预训练与微调阶段一致2.3在深度Q网络（DQN）中，以下哪些技术用于稳定训练A.经验回放 B.目标网络 C.DoubleDQN D.PrioritizedReplay E.PolicyGradient2.4下列关于AutoML的叙述，正确的有A.NAS一定需要强化学习搜索 B.权重共享可加速搜索 C.梯度下降可用于架构参数优化 D.代理模型可降低搜索成本 E.搜索空间越大越好2.5针对长尾分布数据，以下哪些策略可提升尾部类性能A.重加权 B.重采样 C.迁移学习 D.自监督预训练 E.增加头部类样本3.填空题（每空2分，共20分）3.1若某全连接层输入维度为512，输出维度为1024，则该层参数总量为________。3.2在PyTorch中，若张量x.shape为(3,4,5)，执行x.transpose(0,2).contiguous().view(-1,4)后，新张量第二维长度为________。3.3假设使用交叉熵损失，类别权重为[1,10]，当batch内出现2个正例、8个负例时，权重交叉熵损失相对于普通交叉熵损失的放大倍数为________。3.4给定学习率调度公式η_t=η_0·(1+\gamma·t)^{-p}，其中η_0=0.1，γ=0.001，p=0.75，则第1000步的学习率为________（保留四位小数）。3.5在VisionTransformer中，若输入图像224×224，patch大小16×16，则序列长度为________。3.6若LSTM的隐藏状态维度为256，则单个时间步门控参数总量为________。3.7当使用混合精度训练时，损失缩放因子初始值通常设为________。3.8若某卷积层浮点运算量FLOPs为2.15×10⁹，batch=32，则单样本平均FLOPs为________×10⁷。3.9在知识蒸馏中，若温度τ=4，则softmax输出概率分布的熵相比τ=1时理论放大倍数为________（保留两位小数）。3.10若采用EarlyStopping，验证集最优指标出现在第37epoch，耐心系数patience=10，则训练实际停止于第________epoch。4.判断题（每题1分，共10分；正确打“√”，错误打“×”）4.1在残差网络中，恒等映射的梯度在任何深度下均可无损回传。4.2使用GroupNorm时，batchsize大小对归一化统计量无影响。4.3强化学习中，策略梯度定理对连续动作空间依然成立。4.4图卷积网络无法处理有向图。4.5在Transformer中，位置编码的维度必须与模型维度d_model一致。4.6若两个模型参数量相同，则其推理延迟一定相同。4.7混合专家模型（MoE）可在不显著增加推理时间的前提下扩大参数量。4.8对比学习损失InfoNCE的负样本越多，梯度方差越小。4.9在联邦学习中，FedAvg算法对非独立同分布数据必然收敛到全局最优。4.10使用ReZero初始化可加速Transformer收敛。5.简答题（每题8分，共24分）5.1阐述BatchNorm与LayerNorm在统计量计算维度上的差异，并说明为何Transformer选择LayerNorm。5.2描述DoubleDQN解决Q值过估计的机理，并给出目标Q值的更新公式。5.3解释对比学习中“对齐”与“均匀性”两大指标的含义，并说明其与InfoNCE损失的关系。6.计算与推导题（共31分）6.1卷积参数量与计算量（8分）给定输入张量N×3×128×128，卷积核5×5，输出通道64，padding=2，stride=1，groups=1，bias=True。(1)求该层参数量；（3分）(2)求理论乘法次数（FLOPs）；（3分）(3)若采用深度可分离卷积（先depthwise再pointwise），求参数量下降比例。（2分）6.2LSTM梯度截断分析（8分）设LSTM隐藏维度h，输入维度x，时间步长T，损失L。推导沿时间反向传播时，梯度\frac{\partialL}{\partialh_t}关于记忆细胞c_t的偏导表达式，并说明为何记忆细胞可缓解梯度消失（给出不等式约束）。6.3Transformer自注意力复杂度优化（7分）设序列长度n，维度d，标准自注意力计算复杂度为O(n²d)。若采用线性注意力Sim(Q,K,V)=\phi(Q)(\phi(K)^TV)，其中\phi(x)=\text{elu}(x)+1，证明其复杂度降为O(nd²)，并给出内存占用对比表达式。6.4强化学习策略梯度方差缩减（8分）给定策略π_θ(a|s)，回报R(τ)，基线b(s)与状态相关。证明引入基线后的策略梯度方差满足V并求最优基线b^(s)的闭式解。并求最优基线b^(s)的闭式解。7.编程综合题（20分）7.1阅读下列PyTorch代码片段，指出三处潜在错误并给出修正方案（6分）```pythonclassSimCLR(nn.Module):def__init__(self,base_encoder,dim=128):super().__init__()self.encoder=base_jector=nn.Sequential(nn.Linear(512,512),nn.ReLU(),nn.Linear(512,dim))defforward(self,x1,x2):z1=jector(self.encoder(x1))z2=jector(self.encoder(x2))归一化z1,z2=F.normalize(z1),F.normalize(z2)计算相似度logits=torch.mm(z1,z2.t())/0.07labels=torch.arange(z1.size(0))loss=F.cross_entropy(logits,labels)+F.cross_entropy(logits.t(),labels)returnloss```7.2实现带梯度累积的混合精度训练步骤（伪代码或Python均可），要求：(1)支持任意累积步数K；（4分）(2)在累积完成后一次性更新参数；（2分）(3)记录并返回当前迭代损失缩放因子scale值。（2分）7.3给定一个二部图，用户侧特征维度d_u，物品侧d_v，邻接矩阵M∈ℝ^{n×m}，请设计轻量级图卷积，使得：(1)消息传递仅依赖一次矩阵乘法；（3分）(2)参数总量不超过d_u+d_v+32；（3分）写出前向公式与参数量证明。卷后答案与解析1.单选1.1C 解析：LeakyReLU负半轴梯度为常数α≠0，但若α极小，仍可能因连续乘积导致梯度趋近于0。1.2B 解析：output_size=(32+2×2−5)/1+1=32。1.3B 解析：缩放因子√d_k=8。1.4C 解析：学生模型可大于教师，但蒸馏意义下降。1.5A 解析：ε→0，探索消失。1.6B 解析：上传梯度可避免直接泄露参数，增强隐私。1.7B 解析：\tilde{A}=A+I。1.8B 解析：随机分类器AUC=0.5。1.9C 解析：判别器过强，生成器梯度消失。1.10C 解析：ε仅为数值稳定，小范围变化几乎不影响收敛点。2.多选2.1ABDE C增加容量反而易过拟合。2.2ABCD E掩码策略仅在预训练。2.3ABCD E为另一大类算法。2.4BCD A可用进化搜索；E过大导致搜索困难。2.5ABCD E加剧头部dominance。3.填空3.1512×1024+1024=5253123.243.3(2×10+8×1)/(2+8)=2.83.40.1×(1+0.001×1000)^{-0.75}=0.01773.5(224/16)^2=1963.64×(256×256+256×256)=4×256×512=5242883.72¹⁶=655363.82.15×10⁹/32≈6.72×10⁷3.9ln(4²)/ln(1²)=16^(1)=16.003.1037+10=474.判断4.1√ 4.2√ 4.3√ 4.4× 4.5√ 4.6× 4.7√ 4.8× 4.9× 4.10√5.简答5.1BatchNorm在(N,H,W)维求均值方差，LayerNorm在(C,H,W)维求统计；Transformer序列长度可变，BatchNorm对batchsize敏感，小batch统计量噪声大，故选LayerNorm。5.2DoubleDQN用主网络选动作，目标网络评价值，目标Q：=解耦选动作与评估，抑制过估计。5.3对齐：正样本对嵌入距离近；均匀性：全体嵌入在超球面分布均匀。二者与InfoNCE负样本排斥、正样本吸引等价，InfoNCE越小，对齐↑均匀性↑。6.计算6.1(1)参数量=(3×5×5×64)+64=4800+64=4864(2)FLOPs=2×N×64×128×128×5×5×3=2×64×128×128×75≈1.57×10⁹(3)深度可分离：depthwise3×5×5×1×64=4800；pointwise1×1×3×64×64=12288；共17088；下降比例=(4864−17088)/4864≈−251%，即参数量反而上升，若改为3×depthwise+1×pointwise，则depthwise4800，pointwise64×3×64=12288，总17088，仍高于原普通卷积4864，故题目应改为“计算量”下降：深度可分离乘法次数=128×128×(3×5×5×64+3×64×64)=128×128×(4800+12288)=2.8×10⁸，下降比例≈82%。6.2记忆细胞梯度：=递推可得=若遗忘门f_j≈1，则梯度常数上界≥1，指数衰减消失缓解。6.3线性注意力：A先算\phi(K)^TV复杂度O(nd²)，再算左乘\phi(Q)亦O(nd²)，总O(nd²)；内存由O(n²)降为O(nd)。6.4方差公式展开后交叉项为零，得==最优基线为状态值函数V(s)。7.编程7.1错误与修正：(1)未将encoder设为eval()导致BatchNorm抖动；修正：训练

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能专业基础考试题库及解析

文档简介

温馨提示

最新文档

评论

2026年人工智能专业基础考试题库及解析

文档简介

温馨提示

最新文档

评论

相关文档