人工智能学习路线试题

上传人：1*** IP属地：四川上传时间：2026-04-01 格式：DOCX 页数：21 大小：45.14KB 积分：12 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能学习路线试题一、单项选择题（每题2分，共20分）1.在监督学习中，下列哪种损失函数最适合用于二分类任务且输出为概率值？A.均方误差B.交叉熵C.Huber损失D.Hinge损失答案：B解析：交叉熵衡量两个概率分布之间的差异，对概率输出的二分类任务梯度稳定，收敛更快。2.若某深度卷积网络在训练集准确率达99.9%，验证集仅70%，首要应尝试：A.增加卷积核数量B.加入Dropout层C.降低学习率D.使用更大批尺寸答案：B解析：训练/验证差距大表明过拟合，Dropout是最直接的正则化手段之一。3.在Transformer架构中，位置编码（PositionalEncoding）主要解决：A.梯度消失B.序列顺序信息丢失C.参数量过大D.多头注意力计算复杂度答案：B解析：Self-attention本身对位置无偏置，需显式注入位置信号。4.下列关于Bagging与Boosting的描述，正确的是：A.Bagging降低偏差，Boosting降低方差B.Bagging可并行训练，Boosting需串行C.Bagging对噪声敏感，Boosting鲁棒D.两者均基于同一弱学习器权重不变答案：B解析：Bagging并行拟合子模型后平均；Boosting顺序调整样本权重。5.在强化学习中，Q-learning与SARSA的最大区别是：A.是否使用ε-greedy策略B.是否bootstrapC.是否off-policyD.是否使用经验回放答案：C解析：Q-learning用max操作估计下一状态值，属于off-policy；SARSA用实际策略采样，属于on-policy。6.BatchNorm层在卷积网络中通常放置于：A.卷积前B.激活函数后C.卷积与激活之间D.池化后答案：C解析：Conv→BN→ReLU为经典顺序，可平滑激活输入分布，加速收敛。7.若某文本分类任务样本极度不均衡（正负比1:99），首选评价指标：A.准确率B.宏平均F1C.AUC-ROCD.均方误差答案：C解析：极度不均衡时准确率失效，AUC对阈值不敏感，衡量排序能力。8.在生成对抗网络中，判别器损失突然降至接近0，生成器损失剧烈震荡，表明：A.判别器过强，生成器梯度消失B.生成器过强，判别器梯度消失C.学习率过低D.模式崩塌答案：A解析：判别器快速收敛到最优，生成器无法获得有效梯度，需削弱判别器或加噪声。9.LSTM相比传统RNN的核心改进是：A.引入残差连接B.引入门控机制C.使用ReLU激活D.采用双向结构答案：B解析：输入门、遗忘门、输出门控制信息流，缓解长程依赖梯度消失。10.在联邦学习场景下，客户端上传的是：A.原始样本B.模型参数梯度C.测试集标签D.损失函数值答案：B解析：联邦学习强调数据不出本地，仅上传加密梯度，中心服务器聚合。二、多项选择题（每题3分，共15分；多选少选均不得分）11.下列哪些技术可有效缓解深度网络梯度消失？A.残差连接B.LayerNormalizationC.使用tanh代替ReLUD.初始化Xavier答案：A、B、D解析：残差提供恒等路径；LN稳定矩；Xavier保持方差；tanh反而易饱和。12.关于BERT预训练，下列说法正确的是：A.使用MaskedLMB.使用NSP任务C.采用双向Transformer编码器D.参数量大于GPT-3答案：A、B、C解析：BERT-base110M参数，远小于GPT-3175B。13.以下属于无监督学习算法的是：A.k-meansB.DBSCANC.PCAD.Apriori答案：A、B、C、D解析：四项均无需标签，Apriori挖掘频繁项集亦属无监督。14.在目标检测中，YOLOv3相对于YOLOv1的主要改进包括：A.引入anchorB.多尺度预测C.使用Darknet-53D.采用Soft-NMS答案：A、B、C解析：YOLOv3仍使用传统NMS，Soft-NMS为后续研究。15.使用Adam优化器时，哪些做法可能加剧泛化性能下降？A.批尺寸过大B.权重衰减系数设为0C.学习率warmupD.β1接近1答案：A、B、D解析：大batch减少噪声；无权重衰减易过拟合；β1→1导致动量累积过度。三、填空题（每空2分，共20分）16.若某卷积层输入尺寸为32×32×3，64个5×5卷积核，padding=2，stride=1，则输出特征图空间尺寸为________，输出通道数为________。答案：32×32，64解析：Same卷积保持空间尺寸，通道数等于卷积核数。17.给定数据集D={(x_i,y_i)}_{i=1}^n，经验风险R_emp(f)=1/n∑_{i=1}^nL(f(x_i),y_i)，则结构风险R_struct(f)=R_emp(f)+________λΩ(f)，其中Ω(f)表示________。答案：+λΩ(f)，模型复杂度解析：结构风险=经验风险+正则项，λ控制惩罚强度。18.在强化学习策略梯度定理中，目标函数J(θ)=E_π[∑_tγ^tr_t]，其梯度∇_θJ(θ)=E_π[∑_tγ^t________∇_θlogπ(a_t|s_t)]。答案：G_t（或回报）解析：策略梯度公式含累积回报加权对数策略梯度。19.若词表大小为V，嵌入维度为d，则Skip-gram模型中中心词向量矩阵形状为________，上下文向量矩阵形状为________。答案：V×d，V×d解析：两套独立向量，最后点积计算相似度。20.在图像风格迁移的Gram矩阵中，G_{ij}^l=∑_kF_{ik}^lF_{jk}^l，其中F^l表示第l层特征图，k遍历________维度，Gram矩阵刻画了________关系。答案：空间（或h×w），通道间相关性解析：Gram矩阵统计不同通道激活的共现，代表纹理风格。四、判断题（每题1分，共10分；正确打“√”，错误打“×”）21.使用ReLU激活的网络一定不会出现梯度消失。答案：×解析：ReLU在负半轴梯度为0，深层仍可能“神经元死亡”导致梯度流断裂。22.在k-fold交叉验证中，k越大，偏差越小，但方差可能增大。答案：√解析：k→n即留一法，训练集几乎相同，估计偏差低但模型间高度相关，方差高。23.GPT系列采用单向Transformer解码器，因此无法利用下文信息。答案：√解析：自回归掩码限制只能看左侧上下文。24.集成学习中，只要单模型准确率大于50%，AdaBoost一定能提升训练误差至0。答案：×解析：需弱学习器比随机好且数据线性可分，噪声大时也会过拟合。25.在联邦学习中，FedAvg算法对客户端梯度进行加权平均，权重与本地样本数成正比。答案：√解析：保证无偏估计，符合最大似然权重。26.使用混合精度训练（FP16+FP32）必然导致模型精度下降。答案：×解析：配合损失缩放与FP32主副本，可保持精度并加速。27.在图神经网络中，GCN的层数越深，节点感受野指数增大，但可能出现过度平滑。答案：√解析：多次聚合后节点表示趋同，区分度下降。28.自编码器的隐层维度必须小于输入维度，否则无法压缩。答案：×解析：过完备自编码器（隐维>输入维）配合稀疏约束仍可学习有用特征。29.AUC=0.5等价于随机分类器，AUC=1等价于完美分类器。答案：√解析：AUC定义即ROC曲线下面积，随机对角线0.5。30.在深度强化学习中，经验回放机制打破样本间相关性，提高样本效率。答案：√解析：DQN核心贡献之一，稳定训练过程。五、简答题（每题8分，共24分）31.描述梯度爆炸在RNN中的产生机理，并给出两种有效缓解方案，说明其原理。答案：机理：RNN沿时间展开后，t时刻损失对k时刻隐藏状态h_k的梯度含转移矩阵W的t−k次幂连乘。若W最大特征值>1，则远距离梯度呈指数放大，导致更新步长失控。方案：(1)梯度裁剪：设定阈值c，若||g||>c，则g←g·c/||g||，强行限制更新幅值，避免参数跳跃。(2)使用LSTM：通过门控单元与记忆细胞形成加性路径，使梯度以常数回流，削弱矩阵幂次连乘带来的指数增长。32.解释“模式崩塌（ModeCollapse）”在GAN中的表现，并提出两种改进方法。答案：表现：生成器仅输出有限多样性样本，虽可欺骗判别器，但丢失真实数据多模态信息，例如MNIST仅生成数字“1”。改进：(1)非饱和GAN损失：将生成器目标改为最大化log(D(G(z)))，避免梯度在D过强时消失。(2)minibatch判别：让判别器同时观察一批样本统计量，鼓励生成样本彼此差异，从而惩罚模式崩塌。(3)多生成器架构：如MAD-GAN，多个生成器竞争，不同生成器捕捉不同子模式。（答出任意两条即可满分）33.对比“知识蒸馏”与“模型剪枝”在模型压缩中的异同，并给出各自关键步骤。答案：相同：均旨在减少部署体积与延迟，保持精度。差异：知识蒸馏：训练小“学生”网络模仿大“教师”网络输出分布，关键步骤：①教师生成软标签（高温softmax）；②学生同时拟合硬标签与软标签；③温度退火。模型剪枝：直接移除大网络冗余参数，关键步骤：①重要性评分（magnitude/Taylor/SNIP）；②结构化或非结构化裁剪；③重训练恢复精度。蒸馏侧重“传授知识”，剪枝侧重“删除冗余”，二者可组合使用。六、计算与推导题（共31分）34.（10分）给定二维数据X={(1,2),(2,3),(3,3),(4,5)}，标签y={1,1,−1,−1}。使用线性SVM（硬间隔），求最优超平面w^Tx+b=0，并计算margin。答案：步骤：1.观察数据线性可分，支持向量应为最近异类点。2.猜测支持向量为(2,3)与(3,3)，则决策边界平行于两点中垂线，斜率=0，即w_2=0。3.设w=(w_1,0)，边界方程w_1x_1+b=0。4.对正例w_1·2+b=1，负例w_1·3+b=−1，解得w_1=2，b=−3。5.验证其余点：(1,2):2·1−3=−1≤1，满足；(4,5):2·4−3=5≥−1，满足。6.margin=2/||w||=2/√(2^2)=1。结论：w=(2,0)，b=−3，margin=1。35.（10分）某深度网络使用交叉熵损失，最后一层为softmax。证明：当预测概率p→y（真实one-hot）时，损失L→0且梯度∂L/∂z→0，其中z为softmax输入logits。证明：设真实标签k，one-hot向量y_k=1，其余0。交叉熵L=−∑_iy_ilogp_i=−logp_k。若p_k→1，则L→0。又p_k=e^{z_k}/∑_je^{z_j}，∂L/∂z_i=p_i−y_i。当p_k→1，则p_i→0(i≠k)，故∂L/∂z_k→1−1=0，∂L/∂z_i→0−0=0。因此梯度趋于零向量，训练自动减速，符合直观。36.（11分）考虑一个马尔可夫决策过程，状态空间S={s1,s2}，动作A={a1,a2}，折扣因子γ=0.9。转移与奖励如下：从s1执行a1：以概率0.8转移到s1得奖励0，概率0.2到s2得奖励1；从s1执行a2：确定转移到s2得奖励0；从s2执行任何动作：确定留在s2得奖励1。求：最优状态值函数V(s1),V(s2)。求：最优状态值函数V(s1),V(s2)。答案：显然s2为吸收态且每步得1，故V(s2)=1+γ·1+γ^2·1+…=1/(1−γ)=10。显然s2为吸收态且每步得1，故V(s2)=1+γ·1+γ^2·1+…=1/(1−γ)=10。对s1：Q(s1,a1)=0.8[0+γV(s1)]+0.2[1+γV(s2)]=0.8·0.9V(s1)+0.2(1+0.9·10)=0.72V(s1)+0.2·10=0.72V(s1)+2Q(s1,a2)=0+γV(s2)=0.9·10=9最优策略选择max动作：若a1优于a2，则0.72V(s1)+2≥9⇒V(s1)≥7/0.72≈9.72但V(s1)≤9（因a2立即得9且后续最大10），矛盾，故最优动作选a2。因此V(s1)=9。因此V(s1)=9。结论：V(s1)=9，V(s2)=10。结论：V(s1)=9，V(s2)=10。七、编程实践题（共30分）37.阅读下列PyTorch片段，补全两处空白，使模型实现带注意力机制的BiLSTM文本分类，并完成下游任务。要求：(1)注意力层输出上下文向量c，维度与LSTM隐层相同；(2)使用softmax对注意力分数归一化；(3)返回加权平均后的表示。```pythonimporttorchimporttorch.nnasnnclassAttentionBiLSTM(nn.Module):def__init__(self,vocab_size,emb_dim,hid_dim,num_classes):super().__init__()self.embedding=nn.Embedding(vocab_size,emb_dim)self.bilstm=nn.LSTM(emb_dim,hid_dim,num_layers=2,batch_first=True,bidirectional=True)self.att_weight=nn.Parameter(torch.randn(2hid_dim,1))self.att_weight=nn.Parameter(torch.randn(2hid_dim,1))self.fc=nn.Linear(2hid_dim,num_classes)self.fc=nn.Linear(2hid_dim,num_classes)defforward(self,x,lengths):emb=self.embedding(x)#[B,T,E]packed=nn.utils.rnn.pack_padded_sequence(emb,lengths,batch_first=True,enforce_sorted=False)out,_=self.bilstm(packed)#out:PackedSequenceout,_=nn.utils.rnn.pad_packed_sequence(out,batch_first=True)计算注意力分数score=torch.tanh(out)@self.att_weight#[B,T,1]score=score.squeeze(-1)#[B,T]mask=(x!=0)#假设pad_idx=0score=score.masked_fill(~mask,-1e9)attn=torch.softmax(score,dim=____A____)#[B,T]c=torch.bmm(attn.unsqueeze(1),out).squeeze(1)#[B,2H]c=torch.bmm(attn.unsqueeze(1),out).squeeze(1)#[B,2H]logits=self.fc(c)returnlogits```空白A：dim=1解析：softmax需在序列长度维度归一化，dim=1对应T维度。38.基于上述模型，写出训练循环中梯度裁剪与早停的核心代码（PyTorch风格，无需完整数据加载）。答案：```pythonbest_acc=0.patience=3trigger=0forepochinrange(num_epochs):model.train()forxb,yb,lbintrain_loader:opt.zero_grad()logits=model(xb,lb)loss=nn.CrossEntropyLoss()(logits,yb)loss.backward()nn.utils.clip_grad_norm_(model.parameters(),max_norm=5.0)opt.step()验证mod

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能学习路线试题

文档简介

温馨提示

最新文档

评论

人工智能学习路线试题

文档简介

温馨提示

最新文档

评论

相关文档