版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年深度学习考试题及答案一、单项选择题(每题2分,共20分)1.关于深度学习中的激活函数,以下说法错误的是:A.GELU(GaussianErrorLinearUnit)在Transformer中广泛使用,其形式与输入的累积分布函数相关B.LeakyReLU通过引入小的负斜率(如0.01)缓解了ReLU的“神经元死亡”问题C.Swish激活函数(f(x)=x·σ(βx))在深层网络中表现优于ReLU,因其具有非单调性D.对于二分类任务输出层,应选择Sigmoid激活函数,而多分类任务输出层应选择Tanh答案:D(多分类输出层应选择Softmax)2.以下哪种情况最可能导致梯度消失?A.使用ReLU激活函数的深层卷积网络B.深层LSTM网络中遗忘门始终输出0.9的固定值C.采用He初始化的ResNet-101网络D.使用Sigmoid激活函数的5层全连接网络答案:D(Sigmoid导数最大值为0.25,深层网络中多次相乘导致梯度消失)3.关于BatchNormalization(BN),以下描述正确的是:A.BN在训练和推理时均使用当前批次的均值和方差B.BN通常应用在激活函数之后,以保持数据分布稳定C.BN的缩放参数γ和偏移参数β在训练中通过梯度下降学习D.BN无法解决InternalCovariateShift问题,仅能加速训练答案:C(A推理时用全局统计量;B通常在激活前;DBN设计目的即解决ICS)4.自注意力机制中,计算注意力分数的常见方式不包括:A.点积(Dot-Product):scores=QKᵀ/√d_kB.加性(Additive):scores=vᵀtanh(W_qQ+W_kK)C.余弦相似度(CosineSimilarity):scores=cos(Q,K)D.逐元素相乘(Element-wiseProduct):scores=Q⊙K答案:D(逐元素相乘无法反映全局依赖关系)5.关于提供对抗网络(GAN),以下说法错误的是:A.原始GAN的判别器目标函数是最大化logD(x)+log(1-D(G(z)))B.WGAN通过引入Wasserstein距离缓解了模式崩溃问题C.条件GAN(CGAN)通过向提供器和判别器输入额外条件信息实现可控提供D.GAN的训练稳定性主要受限于提供器与判别器的梯度平衡,与网络架构无关答案:D(网络架构如使用BN、合理的激活函数会影响训练稳定性)6.训练深度神经网络时,以下哪种优化策略最可能导致模型过拟合?A.增加训练数据量并进行随机数据增强B.对全连接层权重施加L2正则化C.采用Dropout率为0.1的全连接层D.使用非常小的学习率(如1e-5)且不进行学习率衰减答案:D(小学习率可能导致模型在训练集上过度优化)7.Transformer模型中,位置编码(PositionalEncoding)的作用是:A.替代循环结构以捕捉序列顺序信息B.增加模型参数数量提升表达能力C.对输入词嵌入进行空间位置标注D.平衡不同头注意力的信息分布答案:A(自注意力本身无位置感知,位置编码补充顺序信息)8.关于扩散模型(DiffusionModel),以下描述错误的是:A.前向扩散过程逐步向数据添加高斯噪声,最终得到纯噪声B.逆向提供过程通过学习噪声预测模型逐步去噪提供数据C.扩散模型的训练目标是最小化预测噪声与实际添加噪声的L2损失D.与GAN相比,扩散模型提供样本的多样性通常更差答案:D(扩散模型通过概率建模通常具有更好的多样性)9.在小样本学习(Few-shotLearning)中,MAML(模型无关元学习)的核心思想是:A.预训练一个特征提取器,在新任务上仅微调分类头B.学习一个初始化参数,使得在新任务上仅需少量梯度更新即可快速适应C.通过构建元训练集模拟小样本场景,直接训练模型的快速泛化能力D.使用注意力机制在支持集(SupportSet)和查询集(QuerySet)间建立关联答案:B(MAML优化初始参数,使快速适应新任务)10.大语言模型(LLM)训练中,以下哪种技术主要用于缓解“灾难性遗忘”?A.混合精度训练(MixedPrecisionTraining)B.知识蒸馏(KnowledgeDistillation)C.持续学习(ContinualLearning)中的弹性权重整合(EWC)D.模型并行(ModelParallelism)答案:C(EWC通过惩罚对重要参数的修改缓解遗忘)二、填空题(每空2分,共20分)1.假设输入图像尺寸为224×224×3,使用64个3×3卷积核,步长(stride)=1,padding=1,则卷积后特征图尺寸为______,参数量(不考虑偏置)为______。答案:224×224×64;3×3×3×64=17282.LSTM单元中,输入门i_t的计算公式为______(用σ表示Sigmoid函数,W和b为可学习参数,h_{t-1}为前一时刻隐藏状态,x_t为当前输入)。答案:i_t=σ(W_i[h_{t-1};x_t]+b_i)3.交叉熵损失函数对于二分类任务的形式为______(y为真实标签,ŷ为预测概率)。答案:-ylogŷ(1-y)log(1-ŷ)4.ResNet通过______结构缓解了深层网络的梯度消失/爆炸问题,其核心公式为______(H(x)为期望映射,F(x)为残差映射)。答案:残差连接;H(x)=F(x)+x5.Transformer中多头注意力(Multi-HeadAttention)的计算流程可表示为______(V为值矩阵,h为头数,W^O为输出投影矩阵)。答案:MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O,其中head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)6.ViT(VisionTransformer)将图像分割为大小为p×p的patch,输入图像尺寸为H×W×C,则提供的patch数量为______,每个patch经过线性投影后的嵌入维度为D,投影层的参数量为______。答案:(H/p)×(W/p);p×p×C×D三、简答题(每题8分,共40分)1.解释为什么自注意力机制比循环神经网络(RNN)更适合处理长序列任务?答案:(1)并行计算能力:RNN依赖顺序计算(h_t依赖h_{t-1}),时间复杂度O(n);自注意力同时计算所有位置的注意力分数,时间复杂度O(n²)但可并行,更高效处理长序列。(2)全局依赖捕捉:RNN通过隐状态传递信息,长序列中远距离依赖会因梯度消失被弱化;自注意力直接计算任意两个位置的关联,显式建模全局依赖。(3)位置感知灵活性:RNN的位置信息隐含在递推过程中,难以显式控制;自注意力通过位置编码(如正弦位置编码或可学习编码)灵活注入位置信息,且不限制序列长度。2.对比Dropout和权重衰减(L2正则化)在正则化机制上的差异。答案:(1)作用对象不同:Dropout随机失活神经元(训练时),相当于对网络结构进行随机采样;L2正则化对权重参数施加平方范数惩罚,限制参数幅值。(2)作用阶段不同:Dropout仅在训练阶段生效,推理时需调整输出(如乘以保留率);L2正则化同时影响训练(加入损失函数)和模型最终参数(更平滑)。(3)正则化原理不同:Dropout通过强制模型学习冗余特征(避免依赖特定神经元)提升泛化;L2通过限制参数大小(防止过拟合简单模式)使模型更平滑,缓解过拟合。(4)与网络结构的交互:Dropout在全连接层效果更显著,卷积层因参数共享效果较弱;L2对所有可学习参数(权重)生效,无结构偏好。3.分析BERT预训练任务中“掩码语言模型(MLM)”和“下一句预测(NSP)”的设计意图及后续改进方向。答案:设计意图:(1)MLM:随机掩码输入中的15%token(80%替换为[MASK],10%随机替换,10%保持原词),迫使模型学习上下文相关的词表征。相比传统语言模型(仅单向),MLM支持双向上下文建模,提升特征提取能力。(2)NSP:将两个句子(正例为连续句,负例为随机句)作为输入,预测是否为连续关系。旨在捕捉句子级别的语义关联,提升文本蕴含、问答等任务表现。改进方向:(1)MLM的掩码策略:原始策略在推理时因[MASK]token不存在导致不匹配,后续改进如SpanBERT(掩码连续token)、Electra(提供式替换+判别式预测)提升了掩码效率。(2)NSP任务的有效性:研究发现NSP对短文本效果有限且负例采样(随机句)与真实场景(无关句)差异大,后续模型(如RoBERTa)移除了NSP,仅通过更长的训练数据和更大的批量提升句子级理解。4.说明扩散模型(DiffusionModel)与GAN在提供过程上的核心差异。答案:(1)提供范式不同:GAN是“对抗式”提供,通过提供器与判别器的博弈逼近真实数据分布;扩散模型是“概率式”提供,通过逆向马尔可夫链逐步去噪提供数据。(2)训练目标不同:GAN的训练目标是最小化提供分布与真实分布的JS散度(原始GAN)或Wasserstein距离(WGAN);扩散模型的训练目标是最大化数据的对数似然(通过变分推断分解为可计算的噪声预测损失)。(3)提供过程可控性:扩散模型的逆向过程是确定性的(给定初始噪声和去噪模型),且可通过调节噪声方差或条件输入实现细粒度控制;GAN的提供过程是随机的(依赖噪声输入),可控性通常需引入额外条件(如CGAN)。(4)样本质量与训练稳定性:GAN训练易出现模式崩溃、梯度消失等问题,稳定性较差;扩散模型通过逐步去噪,训练更稳定,但提供速度较慢(需多步迭代)。5.讨论大模型微调(Fine-tuning)时,LoRA(Low-RankAdaptation)相比全参数微调的优势。答案:(1)参数效率:LoRA仅对模型中的部分权重矩阵(如注意力层的Q、V投影矩阵)添加低秩分解的可训练矩阵(秩r通常取4-32),冻结原参数,新增参数仅为原模型的0.01%-0.1%,显著降低存储和计算成本。(2)训练速度:仅优化低秩矩阵,减少反向传播的计算量,支持更大的批量大小,加速训练过程。(3)避免灾难性遗忘:冻结预训练模型的主体参数,仅调整少量低秩矩阵适配新任务,保留了预训练的通用知识,减少对原知识的破坏。(4)多任务适配:通过为不同任务存储独立的低秩矩阵,实现“一个基础模型+多个任务适配器”的灵活部署,节省模型存储资源。(5)性能保持:实验表明,在相同计算资源下,LoRA的微调效果与全参数微调相当(某些任务甚至更优),尤其在小样本场景下泛化能力更强。四、计算题(每题10分,共30分)1.考虑一个LSTM网络,输入x_t为128维向量,隐藏状态h_{t-1}为256维,遗忘门f_t、输入门i_t、输出门o_t和候选记忆细胞ĝ_t均使用全连接层计算,权重矩阵和偏置参数均为可学习参数。(1)计算每个门控单元(f_t、i_t、o_t)的权重矩阵维度;(2)计算候选记忆细胞ĝ_t的参数量(包含权重和偏置);(3)若隐藏状态h_t=o_t⊙tanh(c_t),其中c_t=f_t⊙c_{t-1}+i_t⊙ĝ_t,求h_t的维度。答案:(1)每个门控单元的权重矩阵需拼接h_{t-1}和x_t,因此输入维度为256+128=384,输出维度为256(与h_{t-1}维度一致)。故权重矩阵维度为256×384(W_f、W_i、W_o同理)。(2)ĝ_t的权重矩阵维度为256×384,偏置维度为256,参数量=256×384+256=256×(384+1)=256×385=98560。(3)h_t的维度与h_{t-1}相同,为256维。2.假设Transformer的自注意力层中,查询Q、键K、值V均为n×d的矩阵(n为序列长度,d为特征维度),采用点积注意力计算:注意力分数矩阵S=QKᵀ/√d,注意力权重A=softmax(S),输出O=AV。(1)若n=512,d=64,计算S的维度及计算S所需的浮点运算量(FLOPs);(2)若d=128,为保持计算复杂度与d=64时相同,需将序列长度n调整为多少?(假设FLOPs与n²d成正比)答案:(1)S的维度为n×n=512×512。计算QKᵀ的FLOPs为n×n×d(每个元素是d维向量点积,需d次乘加),故总FLOPs=512×512×64=16,777,216。除以√d是标量运算,可忽略。(2)设调整后的序列长度为n',原复杂度为n²d=512²×64,新复杂度为n'²×128。令两者相等:n'²×128=512²×64→n'²=(512²×64)/128=512²×0.5→n'=512/√2≈362(取整为362)。3.某深度网络使用带动量的随机梯度下降(SGDwithMomentum)优化,初始学习率η=0.1,动量参数γ=0.9。第1轮训练时,参数w的梯度g₁=0.5;第2轮梯度g₂=0.3;第3轮梯度g₃=0.2。(1)计算前3轮的动量项v₁、v₂、v₃;(2)若第4轮采用学习率衰减(η=0.01),梯度g₄=0.1,计算第4轮的参数更新量Δw₄。答案:(1)动量项更新公式:v_t=γv_{t-1}+(1-γ)g_t(注:部分实现中v_t=γv_{t-1}+g_t,此处按标准带动量的SGD公式,假设为v_t=γv_{t-1}+g_t)。v₁=0.9×0+0.5=0.5v₂=0.9×0.5+0.3=0.45+0.3=0.75v₃=0.9×0.75+0.2=0.675+0.2=0.875(注:若采用另一种定义v_t=γv_{t-1}+(1-γ)g_t,则v₁=0.1×0.5=0.05,v₂=0.9×0.05+0.1×0.3=0.075,v₃=0.9×0.075+0.1×0.2=0.0875,需根据教材定义调整,此处按常见实现v_t=γv_{t-1}+g_t)(2)第4轮学习率η=0.01,动量项v₄=0.9×v₃+g₄=0.9×0.875+0.1=0.7875+0.1=0.8875,参数更新量Δw₄=η×v₄=0.01×0.8875=0.008875。五、综合题(共40分)1.设计一个基于深度学习的图像分类模型,用于解决“小样本医疗影像分类”问题(如5类疾病,每类仅10张标注图像)。要求:(1)画出模型架构示意图(文字描述关键模块);(2)说明关键技术选择及理由;(3)设计训练策略(包括数据增强、损失函数、优化器等)。(20分)答案:(1)模型架构:输入→数据增强模块→预训练骨干网络(如ResNet-50,冻结前3层)→特征提取器(微调最后2层)→元学习适配器(MAML模块)→分类头(5-way1-shot分类器)(2)关键技术选择:①迁移学习:使用在大规模自然图像(如ImageNet)或医疗影像(如CheXpert)预训练的ResNet作为骨干,利用预训练的通用特征提取能力,缓解小样本数据不足问题。②元学习(MAML):在元训练阶段,使用多个类似小样本任务(如从大医疗影像库中采样5类×10张的子任务)训练模型,学习快速适应新任务的初始化参数,提升小样本泛化能力。③数据增强:采用医疗影像专用增强(如仿射变换、灰度调整、局部遮挡),保持解剖结构信息的同时增加数据多样性,防止过拟合。④注意力机制:在特征提取器后添加通道注意力(如SE模块)或空间注意力(如CBAM),增强对疾病关键区域的特征捕捉。(3)训练策略:①数据增强:训练时对输入图像应用随机旋转(±15°)、缩放(0.8-1.2倍)、水平翻转、高斯模糊(σ=0-1)、灰度归一化(标准化到0-1)。②损失函数:采用交叉熵损失(主损失)+对比损失(辅助损失),对比损失将同类样本特征拉近、异类拉远,提升特征判别性。③优化器:使用AdamW(权重衰减=1e-4),初始学习率1e-4,骨干网络冻结层学习率0(或1e-5),适配器和分类头学习率1e-3,采用余弦退火学习率衰减(周期100轮)。④训练流程:首先用预训练骨干提取特征,固定骨干训练元学习适配器(50轮);然后解冻骨干最后2层,联合适配器和分类头微调(100轮);验证时使用5-shot交叉验证(每类选5张训练,5张测试),评估模型泛化能力。2.随着大语言模型(LLM)参数规模突破千亿,训练过程面临诸多挑战。请分析大模型训练中的核心挑战,并提出至少3种针对性解决方案。(20分)答案:核心挑战及解决方案:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大象版五年级下册科学知识点总结
- 10以内加减法填空题
- 二次函数单元测试
- 广西玉林市2026年九年级下学期期中化学试题二套及答案
- 基础英语口语快速提升训练方案
- 湖南省2026届高三下学期5月联考英语试卷(含答案及解析)
- 职场新人沟通技能训练课程方案
- 4.1 命题与量词说课稿2025学年中职基础课-职业模块 服务类-语文版-(数学)-51
- 老年人康复护理临床探讨
- 高中“2025”压力管理说课稿
- DL-T5841-2021电气装置安装工程母线装置施工及验收规范
- 戏剧与美育智慧树知到期末考试答案章节答案2024年长江人民艺术剧院
- 输液泵的使用培训课件
- 【复习资料】10398现代汉语语法修辞研究(练习测试题库及答案)
- 第五章-立地条件划分
- 说专业-物流管理专业
- 高三历史一轮复习研讨会经验交流课件
- 抖音小店出售协议书
- (完整word)幼小衔接拼音试卷十套打印版981
- 中国传统故事英文哪吒闹海二篇
- 西方经济学宏观第十四章
评论
0/150
提交评论