《深度学习理论》期末考试试卷附答案_第1页
《深度学习理论》期末考试试卷附答案_第2页
《深度学习理论》期末考试试卷附答案_第3页
《深度学习理论》期末考试试卷附答案_第4页
《深度学习理论》期末考试试卷附答案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《深度学习理论》期末考试试卷附答案注意事项:本试卷满分100分,考试时间120分钟;请将答案写在答题纸上,保持字迹工整。一、单项选择题(每题2分,共20分)1.以下激活函数中,在输入值较大或较小时梯度趋近于0的是()。A.ReLU(修正线性单元)B.LeakyReLU(带泄漏的修正线性单元)C.sigmoid(逻辑函数)D.GELU(高斯误差线性单元)2.交叉熵损失函数(Cross-EntropyLoss)通常用于以下哪种任务?()A.回归预测(如房价预测)B.多分类任务(如图像分类)C.无监督聚类(如K-means)D.生成任务(如GAN生成图像)3.梯度消失(VanishingGradient)现象主要发生在以下哪种场景?()A.使用ReLU激活函数的浅层网络B.使用sigmoid激活函数的深层网络C.使用Adam优化器的小批量训练D.使用Dropout正则化的模型推理阶段4.BatchNormalization(批量归一化)的核心作用是()。A.加速模型收敛,缓解内部协变量偏移(InternalCovariateShift)B.减少过拟合,提高模型泛化能力C.增加模型非线性,提升表达能力D.降低计算复杂度,减少内存占用5.以下优化算法中,同时结合了动量(Momentum)和自适应学习率(AdaptiveLearningRate)的是()。A.SGD(随机梯度下降)B.RMSprop(均方根传播)C.Adam(自适应矩估计)D.Adagrad(自适应梯度算法)6.LSTM(长短期记忆网络)中,遗忘门(ForgetGate)的主要功能是()。A.控制当前输入信息的保留比例B.决定是否将候选记忆(CandidateMemory)写入细胞状态(CellState)C.调节细胞状态中旧信息的遗忘程度D.生成当前时间步的输出信息7.卷积神经网络(CNN)中,感受野(ReceptiveField)指的是()。A.卷积核的大小(如3×3)B.特征图中一个像素对应原始输入图像的区域C.池化操作的步长(Stride)D.全连接层的神经元数量8.自注意力机制(Self-Attention)在Transformer模型中的核心优势是()。A.降低计算复杂度,优于循环神经网络B.显式捕捉序列中任意位置的依赖关系C.减少参数数量,提升模型泛化能力D.支持并行计算,加速训练过程9.以下正则化方法中,通过随机删除部分神经元来防止过拟合的是()。A.L1正则化(L1Regularization)B.L2正则化(L2Regularization)C.DropoutD.数据增强(DataAugmentation)10.迁移学习(TransferLearning)中,“微调”(Fine-tuning)策略的关键步骤是()。A.直接使用预训练模型的输出层,不修改任何参数B.冻结预训练模型的底层特征提取层,仅训练顶层分类层C.随机初始化所有参数,重新训练整个模型D.解冻部分底层参数,与顶层参数共同训练二、填空题(每题2分,共20分)1.反向传播(Backpropagation)算法的核心是利用__________法则,从输出层向输入层逐层计算损失函数对各参数的梯度。2.Transformer模型中,自注意力机制的计算表达式为:Attention(Q,K,V)=__________,其中Q、K、V分别为查询、键、值矩阵,d_k为键的维度。3.过拟合(Overfitting)的典型表现是模型在__________集上的准确率远高于__________集。4.循环神经网络(RNN)的梯度消失问题本质是由于__________在反向传播时多次连乘导致梯度趋近于0。5.损失函数(LossFunction)用于衡量模型预测值与真实值的差异,回归任务常用__________损失,分类任务常用__________损失。6.卷积操作的参数共享(ParameterSharing)特性使得CNN能够__________(填“平移不变性”或“旋转不变性”),即对输入图像的平移变化具有鲁棒性。7.Adam优化器通过维护梯度的__________(一阶矩)和__________(二阶矩)来动态调整学习率。8.LSTM的细胞状态(CellState)通过__________门、__________门和输出门(OutputGate)实现长时依赖信息的传递。9.深度神经网络训练时,若学习率设置过大,可能导致__________(填“梯度消失”或“参数震荡不收敛”);若学习率过小,可能导致__________(填“训练速度过慢”或“过拟合”)。10.生成对抗网络(GAN)由__________和__________两个部分组成,通过博弈过程学习数据分布。三、简答题(每题8分,共40分)1.比较全连接层(FullyConnectedLayer)与卷积层(ConvolutionalLayer)在参数数量和特征提取方式上的差异。2.解释Dropout正则化的工作原理,并说明其对模型训练和推理的影响。3.简述LSTM(长短期记忆网络)如何解决传统RNN(循环神经网络)的长依赖问题。4.自注意力机制(Self-Attention)与循环神经网络(RNN)在处理序列数据时的核心区别是什么?各自的优缺点是什么?5.列举三种缓解深度神经网络过拟合的方法,并分别说明其原理。四、计算题(每题10分,共20分)1.输入图像尺寸为224×224×3(高度×宽度×通道数),经过一个卷积层处理,该层参数为:卷积核大小3×3,步长(Stride)1,填充(Padding)1,输出通道数64。计算:(1)输出特征图的尺寸(高度×宽度×通道数);(2)该卷积层的总参数量(包括偏置项)。2.某全连接神经网络结构为:输入层(784个神经元)→隐藏层(256个神经元,使用ReLU激活)→输出层(10个神经元,使用Softmax激活)。假设隐藏层和输出层均包含偏置项,计算:(1)隐藏层的参数量(权重+偏置);(2)输出层的参数量(权重+偏置);(3)若输入一个样本,计算隐藏层的前向传播输出(用数学表达式表示,假设输入向量为x,权重矩阵为W1,偏置向量为b1)。深度学习理论期末考试答案一、单项选择题(每题2分,共20分)1.C2.B3.B4.A5.C6.C7.B8.B9.C10.D二、填空题(每题2分,共20分)1.链式求导2.softmax(QKᵀ/√d_k)V3.训练;测试4.激活函数导数(或权重矩阵)5.均方(MSE);交叉熵(Cross-Entropy)6.平移不变性7.一阶矩估计(均值);二阶矩估计(方差)8.遗忘;输入9.参数震荡不收敛;训练速度过慢10.生成器(Generator);判别器(Discriminator)三、简答题(每题8分,共40分)1.差异分析:-参数数量:全连接层中每个输出神经元与所有输入神经元相连,参数数量为输入维度×输出维度+输出维度(偏置);卷积层通过滑动窗口和参数共享,每个卷积核的参数数量为(核高度×核宽度×输入通道数)×输出通道数+输出通道数(偏置),参数数量远小于全连接层。-特征提取方式:全连接层提取全局特征,无局部感知能力;卷积层通过局部感受野和滑动窗口提取局部空间特征(如边缘、纹理),并通过参数共享实现平移不变性。2.Dropout原理与影响:-工作原理:训练时,以概率p随机“失活”(置零)部分神经元,剩余神经元按1/(1-p)缩放输出(或测试时缩放);测试时保留所有神经元,不进行失活。-影响:训练时强制神经元学会与其他随机子集合作,减少神经元间的共适应(Co-adaptation),增强模型泛化能力;推理时无随机失活,避免预测结果的不确定性。3.LSTM解决长依赖的机制:LSTM通过引入细胞状态(CellState)和三个门控单元(遗忘门、输入门、输出门)解决长依赖问题:-遗忘门:控制细胞状态中旧信息的遗忘程度(sigmoid输出0-1,0表示完全遗忘);-输入门:决定当前输入的候选记忆(tanh输出)是否写入细胞状态;-细胞状态:通过逐时间步的线性传递(加法操作)保留长时信息,避免RNN中乘法传递导致的梯度消失;-输出门:根据细胞状态生成当前时间步的输出。4.自注意力与RNN的核心区别及优缺点:-核心区别:RNN通过隐状态逐时间步传递信息,依赖顺序计算;自注意力直接计算序列中任意两个位置的关联权重,并行处理所有位置。-RNN优点:时间复杂度为O(n)(n为序列长度),适合处理长序列;缺点:长序列中梯度消失/爆炸,无法捕捉远距离依赖。-自注意力优点:显式建模任意位置依赖,并行计算加速训练;缺点:时间复杂度为O(n²),长序列计算成本高。5.缓解过拟合的方法及原理:-数据增强(DataAugmentation):通过旋转、翻转、裁剪等方式增加训练数据多样性,扩大数据分布,避免模型仅记忆训练样本。-L2正则化:在损失函数中添加权重平方和的惩罚项(λ||W||²),迫使模型选择更小的权重,降低模型复杂度。-早停(EarlyStopping):在验证集准确率不再提升时提前终止训练,避免模型过度拟合训练数据的噪声。四、计算题(每题10分,共20分)1.卷积层计算:(1)输出特征图尺寸:高度/宽度计算公式:(输入尺寸-核尺寸+2×填充)/步长+1代入数据:(224-3+2×1)/1+1=224因此,输出尺寸为224×224×64。(2)参数量计算:每个卷积核参数:3(高度)×3(宽度)×3(输入通道)=27总卷积核参数:27×64(输出通道)=1728偏置参数:64(每个输出通道一个偏置)总参数量:1728+64=1792。2.全连接层计算:(1)隐藏层参数量:权重参数:784(输入维度)×256(隐藏层维度)=200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论