深度学习理论与实践习题及答案汇吕云翔第1-7章

上传人：q*** IP属地：山东上传时间：2024-07-17 格式：DOCX 页数：27 大小：231.22KB 积分：30 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章深度学习简介选择题：1、以下有关计算机视觉的步骤中，哪个不属于传统方法？A：图像预处理B：特征提取C：特征筛选D：神经卷积2、下列哪项不属于自然语言处理的主要任务：A：语言建模B：语句分段C：词性标注D：中文分词3、以下关于强化学习的描述，正确的是：A：强度学习包括智能体、环境状态、行动、监督者、反馈5个元素B：强化学习的反馈信号是即刻生成的C：强度学习中智能体可以通过环境互动以外的方法提升策略D：强度学习可以分为无模型的和有模型的两大类计算机视觉的主要任务是通过对采集的图片或视频进行处理以获得相应场景的：A：特征信息B：三维信息C：时间信息D：物理信息底层的卷积层可以提取到以下哪些图片局部特征A：角B：边缘C：线段D：以上都是填空题1、计算机视觉中的卷积神经网络是对人脑比较精确到模拟2、机器学习的三类主要学习方法是非监督学习、监督学习、强化学习。3、交互式搜索是在检索用户不能构建良好的检索式（关键词）的情况下，通过与检索平台交流互动并不断修改检索式，从而获得较准确检索结果的过程。4、在LeNet的输出结果中，向量个维度的值代表图像中元素等于该维度对应标签的概率。5、监督学习和非监督学习得到的是输入和输出之间的关系，而强化学习得到的是反馈。判断题1、较浅层的神经卷积网络识别能力已与一般浅层模型识别能力相当。×（不如一般浅层模型）2、自然语言处理的目的是让计算机理解和处理人类的语言。√3、自然语言处理的模型和系统构建的发展趋势是自动化与专用化。×（专用化×通用化√）4、特征提取器最初提取到的是物体的整体特征，继而是物体的部分信息，最后提取到物体的边缘特征。×（完全反了）5、句法分析的最终结果是一棵句法树。√问答题1、计算机视觉的基本任务有哪些？请具体说明。答：计算机视觉的基本任务包括图像处理、模式识别、图像理解等。图像处理是指把输入图像转换成具有所希望特征的另一幅图像。模式识别是指根据从图像抽取的统计特征或结构信息，把图像分为预定的类别。图像理解是指对图像内容信息的理解。何为图片特征？图片特征是如何被提取的？图片特征是最能表现图片特点的一组参数。常用到的特征类型有颜色特征、纹理特征、形状特征、空间关系特征。为了让机器尽可能完整且准确地理解图片，需要将包含庞杂信息的图像简化抽象为若干个特征量，便于后续计算。在深度学习出现前，图像特征需要研究人员手工提取，这是一个繁杂且冗长的工作，因为很多时候研究人员并不能确定什么样的特征组合是有效的，而且常常需要研究人员去手工设计新的特征；在深度学习技术出现后，问题简化了许多，各种各样的特征提取器以人脑视觉系统为理论基础，尝试直接从大量数据中提取出图像特征。3、请简述在自然语言处理中传统方法与神经网络方法的区别。答：神经网络方法相较传统方法，人的参与程度降低，应用数据量大幅增加，模型的可解释性降低，系统效果变好。4、请简述非监督学习与监督学习的定义。答：监督学习是通过带有标签或对应结果的样本训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，已实现分类。非监督学习即在样本的标签未知的情况下，根据样本间的相似性对样本进行聚类，使类内差距最小化，学习出分类器。5、强化学习算法可以如何分类？请简述分类原则和不同类别的优劣之分。强化学习可以分为Model-Free和Model-Based两大类。如果agent不需要去理解或计算出环境模型，算法就是Model-Free的；相应的，如果需要计算出环境模型，那么算法就是Model-Based的。实际应用中，研究者通常用如下方法进行判断：在agent执行它的动作之前，它能否对下一步的状态和反馈做出预测？如果可以，那么就是Model-Based方法；否则，就是Model-Free方法。Model-Based方法中，agent可以根据模型预测下一步的结果，并提前规划行动路径。但真实模型和学习到的模型是有误差的，这种误差会导致agent虽然在模型中表现很好，但在真实环境中可能达不到预期效果。Model-Free的方法看似随意，但这恰好更易于研究者们取实现和调整。Model-Free方法又可以分为基于概率的和基于价值的，基于概率的算法是指直接输出下一步要采取的各种动作的概率，然后根据概率采取行动；而基于价值的算法输出的则是所有动作的价值，然后根据最高价值来选择动作。相比基于概率的方法，基于价值的决策方法更为死板。第二章深度学习框架选择题（1）以下选项中，（A）不是深度学习框架。A.LeNetB.PaddlePaddleC.MXNetD.PyTorch（2）Pytorch框架支持的语言有（D）。A.C++B.PythonC.JavaD.以上都支持3、下列关于TensorFlow的描述中，不正确的是A：TensorFlow的计算图中每个节点代表一个操作，如加法、减法等B：TensorFlow的张量是作为非子叶节点出现的（注：不能作为非子叶节点出现）C：基于梯度的机器学习算法会受益于TensorFlow的自动求微分能力D：TensorFlow支持C++和Python程序4、下列关于Pytorch的描述中，正确的是A：Pytorch可以视作加入了GPU支持的NumpyB：Pytorch采用静态的、命令式的编程语言C：Pytorch的网络都是有向无环图的集合，可以直接定义D：Pytorch的底层代买高度工业化，不容易看懂（5）下列深度学习框架中，（B）是国产深度学习框架。A.LeNetB.PaddlePaddleC.PyTorchD.Theano填空题（1）PyTorch通过一种_动态图__技术，可以让用户零延迟地任意改变神经网络的行为。（2）PyTorch的设计遵循tensor→variable→nn.Module三个由低至高的抽象层次，分别代表_多维数组_，自动求导和神经网络，而且三个抽象层次之间紧密联系，可以同时进行修改和操作。3、在TensorFlow的数据流图中，节点表示数学操作，线表示节点间相互联系的多维数据组（张量）。4、计算图中，同级节点的操作彼此独立，可以并行运行，TensorFlow使用这一特性允许用户更快地执行操作。（5）PaddleInference提供原生推理库，_PaddleServing_提供方便的服务端部署，PaddleLite则面向轻量级部署。判断题（1）Pytorch的基本工作流程：所有计算以层的形式表示，网络层所做的事情就是输入数据，然后输出计算结果。（×）2、TensorFlow是一个采用数据流图用于数据计算的开源软件库。√3、TensorFlow中的数据流图可以形成环路。×4、Pytorch通过反向自动求导技术实现了神经网络的零延迟任意改变。√（5）作为灵活性的代价，PyTorch早期版本速度表现不如TensorFlow。（√）问答题（1）PyTorch的基本工作流程是怎样的？以卷积为例，简述这一过程。PyTorch的基本工作流程是：首先定义一个模型，然后通过训练循环进行迭代，每次迭代中，获取一批数据，执行前向传播计算输出，计算损失，执行反向传播更新梯度，最后使用优化器更新模型参数，如此反复直到模型训练完成。以卷积神经网络为例，这包括通过卷积层提取特征，使用激活函数引入非线性，通过池化层降低特征维度，最后通过全连接层进行分类，整个过程是动态的，支持在运行时改变网络结构。（2）请简述PyTorch的数据结构。PyTorch的数据结构主要包括Tensor，它是多维数组的基础数据类型，用于存储数值数据；Variable，它是Tensor的扩展，用于自动微分，已在较新版本的PyTorch中被Tensor替代；以及nn.Module，它是构建神经网络的基类，包含网络层、损失函数等组件，支持模型定义和参数管理。TensorFlow的核心组件包括哪些部分？它们各自负责什么工作？分布式TensorFlow的核心组件包括：分发中心、执行器、内核应用和最底端的设备层/网络层。分发中心从输入的数据流图中剪取子图，将其划分为操作片段并启动执行器。分发中心处理数据流图时会进行预设定的操作优化，包括公共子表达式消去、常量折叠等

。执行器负责图操作在进程和设备中的运行、收发其它执行器的结果。分布式TensorFlow拥有参数器以汇总和更新其它执行器返回的模型参数。执行器在调度本地设备时会选择进行并行计算和GPU加速

。内核应用负责单一的图操作，包括数学计算、数组操作、控制流和状态管理操作。内核应用使用Eigen执行张量的并行计算、cuDNN库等执行GPU加速、gemmlowp执行低数值精度计算，此外用户可以在内核应用中注册注册额外的内核以提升基础操作，例如激励函数和其梯度计算的运行效率

。单进程版本的TensorFlow没有分发中心和执行器，而是使用特殊的会话应用联系本地设备。TensorFlow的C语言API是核心组件和用户代码的分界，其它组件/API均通过C语言API与核心组件进行交互。4、如何理解TensorFlow中的流？TensorFlow中的流是指一个计算图或简单的一个图，图不能形成环路，图中的每一个节点代表一个操作，如加法、减法等。每个操作都会导致新的向量生成。流中的计算图有如下属性：

（1）叶子起点或起始节点始终是张量，这表明操作永远不会出现在图的开头，图中的每一个操作都应该接受一个张量并产生一个新的张量张量不能作为非叶子节点出现，这意味着它们应始终作为输入提供给操作/节点。计算图总是以层次顺序表达复杂的操作：反向遍历时，图形形成子表达式，这些子表达式组合形成最终表达式；正向遍历时，遇到的定点总是成为下一个定点的依赖关系。图中的同级节点操作彼此独立，使得图具有并行执行性。（5）PyTorch、TensorFlow、PaddlePaddle三种深度学习框架，各自有什么优劣？PyTorch：优点是动态图易于调试和修改，社区活跃。缺点是早期版本速度较慢。TensorFlow：优点是静态图优化好，适合大规模部署。缺点是调试不如PyTorch方便。PaddlePaddle：优点是国产框架，适合国内环境，有百度的支持。缺点是社区和生态可能不如前两者成熟。选择题BADBD ABAAC判断题×√√×√ ×××√√填空题维度属性预测的目标结果二决策树的剪枝最大元素汇聚层神经网络策略样本的密度分布过拟合问答题强化学习中没有像监督学习中明显的“label”，他有的只是每次行为过后的反馈当前的策略会直接影响后续接收到的整个反馈序列收到反馈或者是奖励的信号不一定是实时的，有时甚至有很多的延迟时间序列是一个非常重要的因素强化学习模拟了生物体和环境互动的本质，当行为为正向时获得“奖励”，行为为负向时获得“惩罚”，基于此构造出的具有反馈机制的模型计算测试数据与各个训练数据之间的距离将结果从小到大排序选取计算结果中最小的前几个点把这几个点中出现频率次数最多的类别作为最终待判断数据的预测分类4、每一个分组至少包含一个数据记录每一个数据记录属于且进属于一个分组5、从根节点开始，一句决策树的各种算法的计算方式，计算各个特征作为新的分裂节点的衡量指标的值，选择计算结果最有的特征作为节点的划分特征由该特征的不同取值建立子节点再对子节点递归地调用以上方法，构建决策树直到结果收敛剪枝，以防止过拟合应用题用A代表挂科，B代表喝酒，C代表逛街，D代表学习P(A=1)=1/2，P(A=0)=4/8=1/2P(B=1)=3/8，P(B=0)=5/8同理得到C和D的情况P(AB)=2/8（喝酒并且挂科了）P(A|B)=2/3（已经喝酒的情况下挂科）同理得到其他情况P(A|B)=P(B|A)P(A)/P(B)P(A|BCD)=P(BCD|A)P(A)/P(BCD)因为挂科与不挂科分母相同，因此只需要考虑分子假设独立分布P(A|BCD)=P(B|A)P(C|A)P(D|A)P(A)则代入数据P(A=1|0,0,1)=2/4*2/4*1/4*1/2=4/128P(A=0|0,0,1)=3/4*2/4*3/4*1/2=18/128因此不挂科概率更大绘制决策树由决策树得知开工的期望收益更大第4章题目及答案选择题线性回归模型是指f(·)采用（A）组合形式的回归模型，因变量和自变量的关系是（A）A、线性，线性B、非线性，线性C、线性、非线性D、非线性，非线性2、在利用PyTorch实现Logistic回归时，我们采用构建多元高斯分布（D）A、torchvision1B、transformsC、ToPILImageD、MultivariateNormal3、Logistic回归用于二分类问题时，使用（C）函数将线性模型的计算结果映射到0~1，得到的计算结果作为样本为正类的置信概率。A、torch.zerosB、log_softmaxC、sigmoid（）D、Dlog_softmax(x)4、Logistic回归通常采用（B）方法优化目标函数。A、动量算法B、随机梯度下降法C、RMSPropD、Adam算法5、Logistic回归模型的判决边界在高维空间是一个超平面，当数据集是2维时，判决边界是平面内的（C）A、点B、直线C、有界平面图形D、有限线段判断题在回归问题的实际求解中，可以使用比推导公式中参数张量更高一阶的参数张量推广到多因变量情况。√Logistic回归是二分类模型，预测的是变量为正类的概率。√torch.nn提供了机器学习当中常用的激活函数。√Logsitic回归使用交叉熵作为补偿函数。×在进行函数优化的过程中，当构建完优化器后，还不能迭代的对模型进行训练。×填空题请写出有i个自变量x的y线性回归方程形式：y=f(x)=w1x1+w2x2+…+wnxn+btorch.nn中的Linear实现了y=xAT+b.在使用sigmoid（）函数时，将Sigmoid类实例化，再讲需要计算的变量作为参数传递给实例化的对象Torch.nn提供了许多标准的损失函数，可以直接使用torch.nn.BCELoss计算二值交叉熵损失在构建函数优化器时，，我们首先需要将学习的参数传入，然后传入优化器需要的参数，比如学习率问答题1、请简述Logistic回归模型可视化的具体过程。答案：建立判决边界，一侧归为正类，一侧归为负类，之后利用draw_decision_boundary（）函数，绘制判决边界，并调用plt.plot绘制线条即可。Logistic回归模型中，偏回归系数βj的解释意义是什么？答案：βj的流行病学意义是在其他自变量固定不变的情况下，自变量Xj分的暴露水平每改变一个测量单位时所以亲的比数比的自然对数改变量。请解释什么是复相关系数答案：复相关系数是反映一个\t"/item/%E5%A4%8D%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/_blank"因变量与一组\t"/item/%E5%A4%8D%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/_blank"自变量(两个或两个以上)之间相关程度的指标，是度量复相关程度的指标。请解释什么是确定系数答案：确定系数亦称\t"/item/%E7%A1%AE%E5%AE%9A%E7%B3%BB%E6%95%B0/_blank"测定系数、\t"/item/%E7%A1%AE%E5%AE%9A%E7%B3%BB%E6%95%B0/_blank"决定系数、可决指数。与\t"/item/%E7%A1%AE%E5%AE%9A%E7%B3%BB%E6%95%B0/_blank"复相关系数类似的，表示一个随机变量与多个随机变量关系的数字特征，用来反映回归模式说明因变量变化可靠程度的一个统计指标，一般用符号“R”表示，可定义为已被模式中全部自变量说明的自变量的变差对自变量总变差的比值。请解释什么是系数比答案：系数比值，亦称“交叉乘积比”、“优势比”。在病例对照调查中,用以估计有某因素的组较无此因素的组发生(或死于)该病的\t"/item/%E6%AF%94%E6%95%B0%E6%AF%94%E5%80%BC/_blank"相对危险度的近似值。适用于发病(或死亡)率较低的疾病。式中,OR为比数比值;a为病例组有某因素的人数;b为对照组有某因素的人数;c为病例组无某因素的人数;d为对照组无某因素的人数。对罕见的疾病,OR与RR(相对危险度)基本一致。五．应用题如果label={-1,+1}，给出LR的损失函数？逻辑回归在训练的过程当中，如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响？答案1.假设label={-1,+1},则对于sigmoid函数，有以下特性：同样，我们使用MLE作估计，对上式取对数及负值，得到损失为：即对于每一个样本，损失函数为：2.如果在损失函数最终收敛的情况下，有很多特征高度相关也不会影响分类器的效果。对特征本身来说的话，假设只有一个特征，在不考虑采样的情况下，你现在将它重复100遍。训练以后完以后，数据还是这么多，但是这个特征本身重复了100遍，实质上将原来的特征分成了100份，每一个特征都是原来特征权重值的百分之一。如果在随机采样的情况下，其实训练收敛完以后，还是可以认为这100个特征和原来那一个特征扮演的效果一样，只是可能中间很多特征的值正负相消了。第5章题目及答案选择题一个神经元可以接受（A）组张量作为输入A、一B、二C、三D、四加权求和时有时候会加上一项常数b作为偏置；其中，张量b的形状要与Wx的形状保持（C）A、线性关系B、映射关系C、一致D、对称神经网络包括输入层、（D）、隐藏层、训练、监督训练、非监督训练。A、节点层B、映射层C、第零层D、输出层异或函数需要（B）个超平面才能进行划分。A、一B、二C、三D、四BP算法的核心思路是将误差由输出层向（C）后向传播，利用后一层的误差来估计前一层的误差。A、纵向层B、输入层C、前层D、浅层判断题人类大脑是一个非常复杂的系统，拥有者大规模并行式、分布式的表示与计算能力、学习写能力、抽象能力和适应能力。√ReLU会出现梯度消失的问题。×ReLU具有引导适度稀疏的能力。√单层感知器可以拟合一个花草平面y=ax1+bx2，这适合于线性可分问题。√Dropout是一种正则化技术，通过方式特征的协同适应，可用于减少神经网络中的过拟合。Dropout的效果非常好，实现简单，但会降低网络速度。×填空题softmax（）适用于多元分类问题，作用是将分别代表n个类的n个标量归一化，得到n个类的概率分布Tanh为logistic（）函数的变体ReLU，即修正线性单元。根据公式具备引导适度稀疏的能力，因为随机初始化的网络只有一半处于激活状态。感知器是一种监督训练的二元分类器为了解决隐藏层的预期输出并没有在训练样例中给出，隐藏层节点的误差无法像单层感知器那样直接计算得到的问题，我们引入了后向传播算法（BP算法）问答题1、请简述神经网络的特点。答案：基于统计的连接主义的模型从脑神经科学中和获得启发，试图将认知所需的功能属性结合到模型中来，通过模拟生物神经网络的信息处理方式来构建具有认知功能的模型，其拥有三个特点：拥有处理信号的基础单元处理单元之间以并行方式连接处理单元之间的连接是有权重的请简述Dropout正则化的原理答案：Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中，通过忽略一半的特征检测器（让一半的隐层节点值为0），可以明显地减少过拟合现象。这种方式可以减少特征检测器（隐层节点）间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。Dropout说的简单一点就是：我们在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强，因为它不会太依赖某些局部的特征请解释什么是内协变量偏移（InternalCovariateShift，ICS）答案：在训练神经网络时，往往需要标准化输入数据，使得网络的训练更加快速而有效，然而SGD等学习算法会在训练中不断改变网络的参数，隐含层的激活值的分步会因此发生变化，这一变化就称为内协变量偏移请简述生物神经网络与人工神经网络的区别答案：生物神经网络：一般指生物的大脑神经元，细胞，触电等组成的网络，用于产生生物的意识，帮助生物进行思考和行动。

人工神经网络（ANNs）也简称为神经网络（NNs）或称作连接模型（ConnectionModel），它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。TensorFlow中运行模型需要通过会话实现，会话有哪几种形式？答案：第一种模式：需要明确调用会话生成函数和关闭会话函数

第二种模式：通过python的上下文管理器来使用会话

第三种模式：指定默认的会话

第四种模式：交互式环境下设置默认会话五、应用题如图所示，试求偏置为0.5，三个输入分别为3，-4,5，权值分别为0.2,0.5,0.3，激励函数f(·)为sgn函数时，神经元的输出。如果限制一个神经网络的总神经元数量（不考虑输入层）为𝑁+1，输入层大小为𝑀0，输出层大小为1，隐藏层的层数为𝐿，每个隐藏层的神经元数量为𝑁/𝐿，试分析参数数量和隐藏层层数𝐿的关系。答案∑=0.5+3×0.2+（-4）×0.5+5×0.3=0.6Sgn（0.6）=1故输出为1Params=𝑀0×N/L+(L-1)(N/L)2+N/L+(N+1)+𝑀0第6章选择题：通过池化降低空间维度的做法不但降低了计算开销，还使得卷积神经网络对于噪声具有（A）。健壮性静态性局部性准确性（B）的主要问题是最后的3层全连接层的参数量过于庞大。InceptionNetVCG网络ResNetAlexNet（C）的残差结构解决了深度学习模型的退化问题，在ImageNet的数据集上，其Top5准确率达到了95.51%。InceptionNetVCG网络ResNetD.AlexNet在InceptionNet中，使用（D）和单层的全连接层替换掉了VCG的三层全连接层。全局最大池化层全局最小池化层卷积层全局平均池化层如果前一层有M个节点，后一层有N个节点，通过参数共享，两层之间的连接权值减少为c个，前向传播和后向传播过程中，计算开销与内存开销分别为（A）：O（n）和O（c）O（c）和O（n）O（n）和O（n）O（c）和O（c）判断题：人们通常采用在输出张量边界上填充0的方式，使得卷积核的中心可以从边界上开始扫描，从而保持卷积操作输入张量和输出张量大小不变。（×）VCG网络在ImageNet的Top5准确率为93.3%，不仅准确率高于InceptionNet，推断速度也更胜一筹。（×）最大池化是指在池化区域中，取卷积特征值最大的作为所得池化特征值。（√）神经网络越深，对复杂特征的表示能力就越强。（√）两个步长为1的3*3的卷积核和一个7*7大小的卷积核的感受是一致的。（×）填空题：传统BP神经网络，以全局连接方式，前一层有M个节点，后一层有N个节点，就会有M*N个连接权值，每一轮后向传播更新权值的时候都要对这些权值进行重新计算，造成了O(M*N)=O(n2)的计算与内存开销局部连接方式把连接限制在空间中相邻的c个节点，把连接权值降到了c*N，计算内存与开销就降低到了O（c*N）=O（n）离散的卷积操作满足了局部连接和参数共享的性质。网络在达到一定深度后，模型训练的准确率也不会再提升，甚至会开始下降，这种现象称为训练准确率的退化问题。ResNet提出了残差学习的方法，用于解决深度学习模型的退化问题。简答题：1.画出一个最基本卷积神经网络。输出非线性变换池化层卷积层输入2.局部连接与全局变量的区别是什么？局部连接：连接权值为c*N，计算与内存开销为O（c*n）=O（n）全局连接：连接权值为M*N，计算与内存开销为O（M*N）=O（n2）3.池化的作用是什么？降低特征空间的维度，还使得卷积神经网络对于噪声具有健壮性。4.简述卷积操作。卷积核从输入向量左边开始扫描，权值在第一个位置分别与对应输入值相乘求和，得到卷积特征值向量的第一个值，接下来移动一个步长，到达第二个位置，进行相同的操作，以此类推。5.比较AlexNet与VCG网络VCG全3*3卷积核，AlexNet有大卷积核，两者整体结构一致，都是先用5层卷积层提取图像特征，再用3层全连接层作为分类器，VCG的层是由几个3*3的卷积层叠加起来的，而AlexNet是一个大卷积层为一层，所以AlexNet只有八层，而VCG网络可多达19层。应用题下表为输入的三维张量，请你给出其经过一个大小为2*2，步幅为2，无填充的平均汇聚层后的结果。输入层：123456789卷积层：1001LeNet是一个十分经典的卷积神经网络，下图给出了LeNet的简化版本，请你在下图相应层之后写出每一层的输出形状，其中卷积层的输出格式为(a,b,c)，其中a为输出的通道数，bc为图片的长和宽；全连接层的输出格式为(a,b)其中a为输出通道数，b为输出向量的长度。（下图中括号内的数字为输出的通道数，卷积层除特殊说明外，步幅为1、无填充，汇聚层无填充，最后一个汇聚层和全连接层之间有一个展平层图中没有体现不需要给出计算结果）答案1．输出层的大小为2×2，如下所示：1×1+2×0+4×0+5×1=62×1+3×0+5×0+6×1=84×1+5×0+7×0+8×1=125×1+6×0+8×0+9×1=146812142.从下到上依次为： (6,28,28)↓ (6,14,14)↓ (16,10,10)↓ (16,5,5)↓ (1,120)↓(1,84)↓ (1,10)第7章选择题：1.平凡循环神经网络采用如（A）这种形式循环单元。A.B.C.D.2.（B）是自然语言处理领域的主流网络架构。卷积神经网络B.循环神经网络C.深度神经网络D.BERT3.ConvSeq2Seq中的位置向量为表示词的位置关系提供了（A）的可能性。可并行性B.可串行性C.可继承性D.可跟随性4.（A）在整个Transformer架构中处于核心地位。注意力B.可靠性C.执行速度D.准确性5.Google在NIPS上发表的（D）翻开了自然语言处理的新一页。ParsingUniversalDependencieswithouttrainingAmaximumentropyapproachtonaturallanguageprocessingMinimumErrorRateTrainingforStatisticalMachineTranslationAttentionIsAllYouNeed判断题：1.统计方法在自然语言处理领域中仍然是主流的方法。（√）2.RNNLM中，核心的网络架构是一个n-game语言模型。（×）3.机器翻译可以被看作一种条件语言模型。（√）4.人类使用的自然语言不全是以序列的形式出现的。（×）5神经网络究其本质，是一个带参函数。（√）填空题：1.自然语言处理中，最根本的问题就是语言建模。2.多层感知机对于各神经元是并行计算的。3.循环神经网络展开可以分为输出层、隐藏层和输入层。4.梯度消失和梯度爆炸的问题一般有改进优化和使用带有门限的循环单元两类办法。5.Transformer中一个编码器单元有多头的自注意层和全连接层两层。简答题：EIMo相比于早期的词向量方法有哪些改进？答：①把双向多层循环神经网络利用到极致。②加入了其他的训练任务用于调优。③采取了动态生成的办法。2.画出循环神经网络的展开形式。3.简述基于多层感知机的神经网络架构的语言学意义它实际上模拟了n-gram的条件概率，给定一个固定大小窗口的上下文信息，预测下一个词的概率。4.画出简单的编码器-解码器架构5.循环神经网络的弱点是什么？循环神经网络中，下一时步的隐状态总是取决于上一时步的隐状态，这就使得计算无法并行化，而只能逐时步地按顺序计算。应用题1.利用jieba库对给定文本词条化后的词条（token）进行打印。文本内容为：自然语言处理(NLP)是一种机器学习技术，使计算机能够解读、处理和理解人类语言。2.使用Huggingface的transformers库直接对文本进行词条化处理，不需要分词。文本内容为：对公司品牌进行负面舆情实时监测，事件演变趋势预测，预警实时触达，帮助公司市场及品牌部

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

深度学习理论与实践习题及答案汇吕云翔第1-7章

文档简介

温馨提示

最新文档

评论

深度学习理论与实践 习题及答案汇 吕云翔 第1-7章

文档简介

温馨提示

最新文档

评论

相关文档

深度学习理论与实践习题及答案汇吕云翔第1-7章