深度学习技术应用平日练习-习题及试题题库

上传人：q*** IP属地：山东上传时间：2026-03-14 格式：DOCX 页数：73 大小：60.07KB 积分：70 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一、单选题1、下面关于池化的描述中，错误的是哪个？A.池化的常用方法包括最大化池化、最小化池化、平均化池化、全局池化B.在人脸识别中采用较多池化的原因是为了获得人脸部的高层特征C.池化在CNN中可以减少较多的计算量，加快模型训练D.池化方法可以自定义正确答案：A解题思路：池化的常用方法包括最大化池化和平均化池化，不包括最小化池化2、下面关于CNN的描述中，错误的说法是哪个？A.局部感知使网络可以提取数据的局部特征，而权值共享大大降低了网络的训练难度B.卷积核一般是有厚度的，即通道（channel),通道数量越多，获得的特征图（Featuremap）就越多C.卷积是指对图像的窗口数据和滤波矩阵做内积的操作，在训练过程中滤波矩阵的大小和值不变D.SAME填充（padding）一般是向图像边缘添加0值正确答案：C解释思路：在训练过程中滤波矩阵也就是卷积核的大小可变3、有一个44x44x16的输入，并使用大小为5x5的32个卷积核进行卷积，步长为1，无填充（nopadding），输出是多少？A.39*39*32B.40*40*32C.44*44*16D.29*29*32正确答案：B解释思路：32个卷积核进行卷积，一定会得到32个图层，所以排除C选项。根据公式：W2=(W1-F+2P)/S+1，可以计算卷积后的输出图像的宽度。W1是原图像宽度，为44F是卷积核宽度，为5P是周围填充数字0的宽度，没有填充0，所以P为0S是步长，即卷积核每次移动几个位置，步长为1W2=(44-5+2*0)/1+1=40高度同宽度计算4、对于65x65x6的输入特征图，用32个5*5的卷积核（过滤器）进行卷积，步幅为2，padding值为2，得到的特征图大小是哪个？A.32*32*32B.33*33*32C.32*32*5D.65*65*12正确答案：B解释思路：32个卷积核进行卷积，一定会得到32个图层，所以排除C和D选项。根据公式：W2=(W1-F+2P)/S+1，可以计算卷积后的输出图像的宽度。W1是原图像宽度，为65F是卷积核宽度，为5P是周围填充数字0的宽度，题目填充为2，所以P为2S是步长，即卷积核每次移动几个位置，步长为2W2=(65-5+2*2)/2+1=33高度同宽度计算5、对于32x32x6的输入特征图，使用步长为2，核大小为2的最大池化，请问输出特征图的大小是多少？A.16*16*3B.32*32*3C.32*32*6D.16*16*6正确答案：D解题思路：本次考察池化层计算的公式，池化特征图数量和原特征图数量一致，所以排除A和B根据公式：

W2=(W1-F)/S+1，可以计算池化后的特征图宽度W1为输入图像宽度，为32F是池化核宽度，为2S是步长，为2W2=(32-2)/2+1=16，所以池化后宽度为16高度同理6、假设一个卷积神经网络，第一个全连接层前的池化层输出为12*12*250，其展开的向量长度为？A.224B.3600C.36000D.3000正确答案：C解题思路：计算12*12*250的结果即可，为360007、假设某卷积层的输入和输出特征图大小分别为63*63*6和31*31*12，卷积核大小是5*5，步长为2，那么Padding值为多少？A.1B.2C.3D.4正确答案：A解题思路：根据公式：W2=(W1-F+2P)/S+1，反向推理计算Padding其中W2是输出图宽度，为31W1是输入图宽度，为63F是卷积核大小，为5S是步长，为2所以：31=(63-5+2*P)/2+1，得出P为18、假设某卷积层的输入特征图大小为36*32*6，卷积核大小是5*3，通道为20个，步长为1，没有padding，那么得到的特征图大小为？A.27*30*20B.36*34*20C.32*28*6D.32*30*20正确答案：D解题思路：由于本题卷积核大小不是正方形，所以需要分别计算宽度和高度输出宽度=(输入宽度-卷积核宽度+2*padding)/步长+1所以输出宽度=(36-5+2*0)/1+1=32输出高度=(输入高度-卷积核高度+2*padding)/步长+1所以输出高度=(32-3+2*0)/1+1=309、梯度下降算法的正确步骤是什么？1.计算预测值和真实值之间的误差2.重复迭代，直至得到网络权重的最佳值3.把输入传入网络，得到输出值4.用随机值初始化权重和偏差5.对每一个产生误差的神经元，调整相应的（权重）值以减小误差A、1,2,3,4,5 B、5,4,3,2,1 C、3,2,1,5,4 D、4,3,1,5,2正确答案：D10、已知：大脑是有很多个叫做神经元的东西构成，神经网络是对大脑的简单的数学表达。每一个神经元都有输入、处理函数和输出。神经元组合起来形成了网络，可以拟合任何函数。为了得到最佳的神经网络，我们用梯度下降方法不断更新模型给定上述关于神经网络的描述，什么情况下神经网络模型被称为深度学习模型？A、加入更多层，使神经网络的深度增加B、有维度更高的数据C、当这是一个图形识别的问题时D、以上都不正确答案：A解析：更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型，目前如果有超过2层的隐层，那么也可以及叫做深度模型。11、训练CNN时，可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是对，还是不对？A、对B、不对答案：A解析：如寒sir所说，训练CNN时，可以进行这些操作。当然也不一定是必须的，只是dataaugmentation扩充数据后，模型有更多数据训练，泛化能力可能会变强。下面哪项操作能实现跟神经网络中Dropout的类似效果？A、BoostingB、BaggingC、StackingD、Mapping答案：B解析：Dropout可以认为是一种极端的Bagging，每一个模型都在单独的数据上训练，同时，通过和其他模型对应参数的共享，从而实现模型参数的高度正则化。下列哪一项在神经网络中引入了非线性？A、随机梯度下降B、修正线性单元（ReLU）C、卷积函数D、以上都不正确答案：B解析：修正线性单元是非线性的激活函数。在训练神经网络时，损失函数(loss)在最初的几个epochs时没有下降，可能的原因是？A、学习率(learningrate)太低B、正则参数太高C、陷入局部最小D、以上都有可能答案：D15、下列哪项关于模型能力（modelcapacity）的描述是正确的？（指神经网络模型能拟合复杂函数的能力）A、隐藏层层数增加，模型能力增加B、Dropout的比例增加，模型能力增加C、学习率增加，模型能力增加D、都不正确答案：A16、如果增加多层感知机（MultilayerPerceptron）的隐藏层层数，分类误差便会减小。这种陈述正确还是错误？A、正确B、错误答案：B解析：并不总是正确。层数增加可能导致过拟合，从而可能引起错误增加。17、构建一个神经网络，将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接？A、循环神经网络B、卷积神经网络C、限制玻尔兹曼机D、都不是答案：A18、在感知机中（Perceptron）的任务顺序是什么？1随机初始化感知机的权重2去到数据集的下一批（batch）3如果预测值和输出不一致，则调整权重4对一个输入样本，计算输出值A、1, 2,3,4B、4, 3,2,1C、3, 1,2,4D、1, 4,3,2答案：D19、如果我们用了一个过大的学习速率会发生什么？A、神经网络会收敛B、不好说C、都不对D、神经网络不会收敛答案是：D解析：梯度长时间不更新，就是因为学习率较大导致的20、在一个神经网络中，知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差，便可以近似任何函数，但怎么获知每个神经的权重和偏移呢？A、搜索每个可能的权重和偏差组合，直到得到最佳值B、赋予一个初始值，然后检查跟最佳值的差值，不断迭代调整权重C、随机赋值，听天由命D、以上都不正确的正确答案是：B解析：选项B是对梯度下降的描述。21、输入图片大小为200×200，依次经过一层卷积（kernelsize5×5，padding1，stride2），pooling（kernelsize3×3，padding0，stride1），又一层卷积（kernelsize3×3，padding1，stride1）之后，输出特征图大小为A、95B、96C、97D、98正确答案是：C，解析：首先我们应该知道卷积或者池化后大小的计算公式，其中，padding指的是向外扩展的边缘大小，而stride则是步长，即每次移动的长度。这样一来就容易多了，首先长宽一般大，所以我们只需要计算一个维度即可，这样，经过第一次卷积后的大小为:本题（200-5+2*1）/2+1为99.5，取99，经过第一次池化后的大小为：（99-3）/1+1为97经过第二次卷积后的大小为：（97-3+2*1）/1+1为9722、当在卷积神经网络中加入池化层(poolinglayer)时，变换的不变性会被保留，是吗？A、不知道B、看情况C、是D、否正确答案是：C解析：池化算法比如取最大值/取平均值等,都是输入数据旋转后结果不变,所以多层叠加后也有这种不变性。23、当数据过大以至于无法在RAM中同时处理时，哪种梯度下降方法更加有效？A、随机梯度下降法(StochasticGradientDescent)B、不知道C、整批梯度下降法(FullBatchGradientDescent)D、都不是正确答案是：A解析：梯度下降法分随机梯度下降(每次用一个样本)、小批量梯度下降法(每次用一小批样本算出总损失,因而反向传播的梯度折中)、全批量梯度下降法则一次性使用全部样本。这三个方法,对于全体样本的损失函数曲面来说,梯度指向一个比一个准确.但是在工程应用中,受到内存/磁盘IO的吞吐性能制约,若要最小化梯度下降的实际运算时间,需要在梯度方向准确性和数据传输性能之间取得最好的平衡.所以,对于数据过大以至于无法在RAM中同时处理时,RAM每次只能装一个样本,那么只能选随机梯度下降法。24、在选择神经网络的深度时，下面哪些参数需要考虑？1神经网络的类型(如MLP,CNN)2输入数据3计算能力(硬件和软件能力决定)4学习速率5映射的输出函数A、1,2,4,5B、2,3,4,5都需要考虑D、1,3,4,5正确答案是：C解析：所有上述因素对于选择神经网络模型的深度都是重要的。特征抽取所需分层越多,输入数据维度越高,映射的输出函数非线性越复杂,所需深度就越深.另外为了达到最佳效果,增加深度所带来的参数量增加,也需要考虑硬件计算能力和学习速率以设计合理的训练时间。25、考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？A、把除了最后一层外所有的层都冻结，重新训练最后一层B、对新数据重新训练整个模型C、只对最后几层进行调参(finetune)D、对每一层模型进行评估，选择其中的少数来用正确答案是：C解析：如果有个预先训练好的神经网络,就相当于网络各参数有个很靠谱的先验代替随机初始化.若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布,而新数据采样自完全相同的分布),则冻结前面所有层而重新训练最后一层即可;但一般情况下,新数据分布跟先前训练集分布有所偏差,所以先验网络不足以完全拟合新数据时,可以冻结大部分前层网络,只对最后几层进行训练调参(这也称之为finetune)。26、对于神经网络的说法,下面正确的是:1、增加神经网络层数,可能会增加测试数据集的分类错误率2、减少神经网络层数,总是能减小测试数据集的分类错误率3、增加神经网络层数,总是能减小训练数据集的分类错误率A、1B、1和3C、1和2D、2正确答案是：A解析：深度神经网络的成功,已经证明,增加神经网络层数,可以增加模型范化能力,即,训练数据集和测试数据集都表现得更好.但更多的层数,也不一定能保证有更好的表现所以,不能绝对地说层数多的好坏,只能选A27、假定你在神经网络中的隐藏层中使用激活函数X。在特定神经元给定任意输入，你会得到输出「-0.0001」。X可能是以下哪一个激活函数？A、ReLUB、tanhC、SIGMOIDD、以上都不是正确答案是：B解析：答案为：B，该激活函数可能是tanh，因为该函数的取值范围是(-1,1)。28、深度学习与机器学习算法之间的区别在于，后者过程中无需进行特征提取工作，也就是说，我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是：A、正确的B、错误的正确答案是：B解析：正好相反，深度学习可以自行完成特征提取过程而机器学习需要人工来处理特征内容。29、下列哪一项属于特征学习算法（representationlearningalgorithm）？A、K近邻算法B、随机森林C、神经网络D、都不属于正确答案是：C解析：神经网络会将数据转化为更适合解决目标问题的形式，我们把这种过程叫做特征学习。提升卷积核(convolutionalkernel)的大小会显著提升卷积神经网络的性能，这种说法是A、正确的B、错误的正确答案是：B解析：卷积核的大小是一个超参数(hyperparameter)，也就意味着改变它既有可能提高亦有可能降低模型的表现。31、阅读以下文字：假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称（车辆共有10种类型）。现在想要使用这个模型来解决另外一个问题，问题数据集中仅包含一种车（福特野马）而目标变为定位车辆在照片中的位置。A、除去神经网络中的最后一层，冻结所有层然后重新训练B、对神经网络中的最后几层进行微调，同时将最后一层（分类层）更改为回归层C、使用新的数据集重新训练模型D、所有答案均不对正确答案是：B32、假设你有5个大小为7x7、边界值为0的卷积核，同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据，那么神经网络下一层所接收到的数据维度是多少？A、218x218x5B、217x217x8C、217x217x3D、220x220x5正确答案是：A33、假设我们有一个使用ReLU激活函数(ReLUactivationfunction)的神经网络，假如我们把ReLU激活替换为线性激活，那么这个神经网络能够模拟出同或函数(XNORfunction)吗？A、可以B、不好说C、不一定D、不能正确答案是：D解析：使用ReLU激活函数的神经网络是能够模拟出同或函数的。但如果ReLU激活函数被线性函数所替代之后，神经网络将失去模拟非线性函数的能力。34、假设我们有一个5层的神经网络，这个神经网络在使用一个4GB显存显卡时需要花费3个小时来完成训练。而在测试过程中，单个数据需要花费2秒的时间。如果我们现在把架构变换一下，当评分是0.2和0.3时，分别在第2层和第4层添加Dropout，那么新架构的测试所用时间会变为多少？A、少于2sB、大于2sC、仍是2sD、说不准正确答案是：C解析：在架构中添加Dropout这一改动仅会影响训练过程，而并不影响测试过程。35、下列的哪种方法可以用来降低深度学习模型的过拟合问题？1增加更多的数据2使用数据扩增技术(dataaugmentation)3使用归纳性更好的架构4正规化数据5降低架构的复杂度A、145B、123C、1345D、所有项目都有用正确答案是：D解析：上面所有的技术都会对降低过拟合有所帮助。36、混沌度(Perplexity)是一种常见的应用在使用深度学习处理NLP问题过程中的评估技术，关于混沌度，哪种说法是正确的？A、混沌度没什么影响B、混沌度越低越好C、混沌度越高越好D、混沌度对于结果的影响不一定正确答案是：B37、假设下方是传入最大池化层的一个输入，该层中神经元的池化大小为(3,3)。那么，该池化层的输出是多少？A、3B、7C、5D、5.5正确答案是：B解析：最大池化是这样运作的：它首先使用我们预先定义的池化尺寸来获取输入内容，然后给出有效输入中的最大值。38、假设有一个如下定义的神经网络：如果我们去掉ReLU层，这个神经网络仍能够处理非线性函数，这种说法是：正确的B、错误的正确答案是：B解析：Affine是神经网络中的一个全连接层，仿射（Affine）的意思是前面一层中的每一个神经元都连接到当前层中的每一个神经元。即当前层的每一个神经元输入均为增广权值向量和前一层神经元向量的内积，本质是一个线性变换。而relu是一个常用的非线性激活函数，其表达为max(0,x)，如果去掉Relu层，该神经网络将失去非线性表达能力，即无法拟合复杂世界中的非线性函数规律，故答案选B。深度学习可以用在下列哪些NLP任务中？A、情感分析B、问答系统C、机器翻译D、所有选项正确答案是：D解析：深度学习可以用来解决上述所有NLP问题。40、下列哪些项目是在图像识别任务中使用的数据扩增技术(dataaugmentationtechnique)？1水平翻转(Horizontalflipping)2随机裁剪(Randomcropping)3随机放缩(Randomscaling)4颜色抖动(Colorjittering)5随机平移(Randomtranslation)6随机剪切(Randomshearing)A、1，3，5，6B、1，2，4C、2，3，4，5，6D、所有项目正确答案是：D二、判断题假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降维作用。假如现在我们用另一种维度下降的方法，比如说主成分分析法(PCA)来替代这个隐藏层。两者的输出效果是一样的吗？×使用降维技术的网络与隐层网络总是有相同的输出吗？×主成分分析是一种有监督学习算法×PCA提取的是数据分布方差比较大的方向，隐藏层可以提取有预测能力的特征√K均值聚类算法是一种无监督学习算法√深度学习与机器学习算法之间的区别在于，后者过程中无需进行特征提取工作，也就是说，我们建议在进行深度学习过程之前要首先完成特征提取的工作。×提升卷积核(convolutionalkernel)的大小会显著提升卷积神经网络的性能。×当在卷积神经网络中加入RAM(poolinglayer)时，变换的不变性会被保留。√CNN采用最大池化能够产生一定程度上的平移不变性√线性方程(y=mx+c)可以说是一种神经元吗？√在监督学习任务中，输出层中的神经元的数量应该与类的数量（其中类的数量大于2）匹配。×Y=ax^2+bx+c（二次多项式）这个方程可以用具有线性阈值的单个隐层的神经网络表示。×卷积神经网络可以对一个输入完成不同种类的变换（旋转或缩放）。×可以用神经网络对函数(y=1/x)建模。√增加卷积核的大小对于改进卷积神经网络的效果是必要。×（要考虑数据集）假设在ImageNet数据集（对象识别数据集）上训练卷积神经网络。然后给这个训练模型一个完全白色的图像作为输入。这个输入的输出概率对于所有类都是相等的。×训练CNN时，可以对输入进行旋转、平移、缩放（增强数据）等预处理提高模型泛化能力。√决策树是一种面向分类问题的有监督学习算法√通过增加模型复杂度，那么模型的测试错误率总是会降低×BP算法仅适用于多层前馈神经网络×（RNN、CNN）前馈神经网络的隐藏单元必须在所有的输入点都可微×如果在一个高度非线性且复杂的一些变量中，一个树模型可能比一般回归模型效果更好√过拟合只在监督学习中出现，非监督学习没有过拟合×数据维数很高时，很多机器学习问题会变得相当困难，这种现象叫做维数灾难√训练好的模型在测试集准确率100%，则在新的数据集上也会达到100%×欠拟合是模型不能在训练集上获得足够低的误差，过拟合是指训练误差和测试误差差距小×一般而言，L2正则化可产生比L1正则化更稀疏的解×感知机学习一定收敛×（条件样本线性可分）梯度为0的点不一定是局部极值√深度学习是一种特殊的表示学习方法√简单题请概述卷积神经网络的层次结构及各部分的作用1.卷积层卷积层特征图的神经元通过一组滤波器或权值矩阵与前一层特征图上的部分神经元相连，局部连接的区域又称为接受域。接收阈上的神经元与权值矩阵卷积之后，经过非线性激励生成本层的特征图，并作为下一层的输入。卷积时，同一个特征图上的所有接受域共享一组权值矩阵，称为权值共享。同一层网络的不同特征图使用不同权值矩阵，特征图的个数也可以理解为通道数。每一组权值矩阵检测输入数据特定的特征，因此，每一个特征图表达了前一层不同位置的特定特定特征。局部连接与权值共享的优点之一大大减少了网络的自由参数，一定程度上避免了网络过拟合，同时减小存储容量。这种卷积结构的依据是图像数据的空间相关性及其目标特征的位移不变性。换句话说，如果一个特征图出现在图像的某一部分，那它同样可以出现在其他任意位置。这也就解释了为什么不同位置的神经元共享权值矩阵去检测图像的特征。2.池化层池化层的作用是对卷积层检测的相同特征进行融合。将卷积层每一个特征图划分为若干局部切片，池化函数计算每个切片的统计特征。池化层特征图的数量和卷积层相同。常用的两种池化方式是最大值池化和平均池化，即取切片的最大值或平均值作为池化层特征图的输入。因此，池化层又称为下采样层。除了降低特征图的维度，池化对特征小范围的位移以及畸变具有不变性。当焦点是特征本身而非其所在位置时，位移不变性时很好的特性。3.全连接层卷积神经网络的顶端通常包含一层或多层全连接层。与卷积层不同，全连接层的神经元排成一列，这些神经元与前一层神经元通过权值互连，呈全连接结构。全连接层的层数以及每层神经元数并不固定。通常层数越高，神经元数目越少。4.输出层经过多层特征提取后，最后一层输出层可视为分类器，预测输入样本的类别。请简要介绍下SVM。SVM，全称是supportvectormachine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。请简要介绍下Tensorflow的计算图。Tensorflow是一个通过计算图的形式来表述计算的编程系统，计算图也叫数据流图，可以把计算图看做是一种有向图，Tensorflow中的每一个计算都是计算图上的一个节点，而节点之间的边描述了计算之间的依赖关系。请问GBDT和XGBoost的区别是什么？XGBoost类似于GBDT的优化版，不论是精度还是效率上都有了提升。与GBDT相比，具体的优点有：损失函数是用泰勒展式二项逼近，而不是像GBDT里的就是一阶导数；对树的结构进行了正则化约束，防止模型过度复杂，降低了过拟合的可能性；节点分裂的方式不同，GBDT是用的基尼系数，XGBoost是经过优化推导后的。在k-means或kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？曼哈顿距离只计算水平或垂直距离，有维度的限制。另一方面，欧氏距离可用于任何空间的距离计算问题。因为，数据点可以存在于任何空间，欧氏距离是更可行的选择。例如：想象一下国际象棋棋盘，象或车所做的移动是由曼哈顿距离计算的，因为它们是在各自的水平和垂直方向做的运动。什么是LR？把LR从头到脚都给讲一遍。建模，现场数学推导，每种解法的原理，正则化，LR和maxent模型啥关系，LR为啥比线性回归好。overfitting怎么解决？dropout、regularization、batchnormalizationLR和SVM的联系与区别？1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题2、两个方法都可以增加不同的正则化项，如L1、L2等等。所以在很多实验中，两种算法的结果是很接近的。LR与线性回归的区别与联系？逻辑回归和线性回归首先都是广义的线性回归，其次经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数，另外线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。为什么XGBoost要用泰勒展开，优势在哪里？XGBoost使用了一阶和二阶偏导,二阶导数有利于梯度下降的更快更准.使用泰勒展开取得二阶倒数形式,可以在不选定损失函数具体形式的情况下用于算法优化分析.本质上也就把损失函数的选取和模型算法优化/参数选择分开了.这种去耦合增加了XGBoost的适用性。XGBoost如何寻找最优特征？是又放回还是无放回的呢？XGBoost在训练的过程中给出各个特征的评分，从而表明每个特征对模型训练的重要性.。XGBoost利用梯度优化模型算法,样本是不放回的。但XGBoost支持子采样,也就是每轮计算可以不使用全部样本。谈谈判别式模型和生成式模型？判别方法：由数据直接学习决策函数Y=f（X），或者由条件分布概率P（Y|X）作为预测模型，即判别模型。生成方法：由数据学习联合概率密度分布函数P（X,Y）,然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。由生成模型可以得到判别模型，但由判别模型得不到生成模型。常见判别模型有：K近邻、SVM、决策树、感知机、线性判别分析（LDA）、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场，常见的生成模型有：朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型（LDA）、限制玻尔兹曼机L1和L2的区别。L1范数（L1norm）是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lassoregularization）。比如向量A=[1，-1，3]，那么A的L1范数为|1|+|-1|+|3|.简单总结一下就是：L1范数:为x向量各个元素绝对值之和。L2范数:为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或Frobenius范数Lp范数:为x向量各个元素绝对值p次方和的1/p次方.在支持向量机学习过程中，L1范数实际是一种对于成本函数求解最优的过程，因此，L1范数正则化通过向成本函数中添加L1范数，使得学习得到的结果满足稀疏化，从而方便人类提取特征。L1范数可以使权值稀疏，方便特征提取。L2范数可以防止过拟合，提升模型的泛化能力。L1和L2正则先验分别服从什么分布？L1和L2正则先验分别服从什么分布，L1是拉普拉斯分布，L2是高斯分布。CNN最成功的应用是在CV，那为什么NLP和Speech的很多问题也可以用CNN解出来？CNN抓住此共性的手段主要有四个：局部连接／权值共享／池化操作／多层次结构。局部连接使网络可以提取数据的局部特征；权值共享大大降低了网络的训练难度，一个Filter只提取一个特征，在整个图片（或者语音／文本）中进行卷积；池化操作与多层次结构一起，实现了数据的降维，将低层次的局部特征组合成为较高层次的特征，从而对整个图片进行表示。LSTM结构推导，为什么比RNN好？推导forgetgate，inputgate，cellstate，hiddeninformation等的变化；因为LSTM有进有出且当前的cellinformaton是通过inputgate控制之后叠加的，RNN是叠乘，因此LSTM可以防止梯度消失或者爆炸。为什么朴素贝叶斯如此“朴素”？因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知，这个假设在现实世界中是很不真实的，因此，说朴素贝叶斯真的很“朴素”。机器学习中，为何要经常对数据做归一化？机器学习模型被互联网行业广泛应用，如排序、推荐、反作弊、定位等。一般做机器学习应用的时候大部分时间是花费在特征处理上，其中很关键的一步就是对特征数据进行归一化，为什么要归一化呢？很多同学并未搞清楚，维基百科给出的解释：1）归一化后加快了梯度下降求最优解的速度；2）归一化有可能提高精度。请简要说说一个完整机器学习项目的流程。1.抽象成数学问题2.获取数据3.特征预处理与特征选择4.训练模型与调优5.模型诊断6.模型融合7.上线运行hash冲突及解决办法？关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。解决办法：开放定址法：当冲突发生时，使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找，直到找到给定的关键字，或者碰到一个开放的地址(即该地址单元为空)为止（若要插入，在探查到开放的地址，则可将待插入的新结点存人该地址单元）。查找时探查到开放的地址则表明表中无待查的关键字，即查找失败。再哈希法：同时构造多个不同的哈希函数。链地址法：将所有哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中，因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况。4）建立公共溢出区：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素，一律填入溢出表。如何解决梯度消失和梯度膨胀？梯度消失：根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即使这个结果是0.99，在经过足够多层传播之后，误差对输入层的偏导会趋于0。可以采用ReLU激活函数有效的解决梯度消失的情况。梯度膨胀：根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在经过足够多层传播之后，误差对输入层的偏导会趋于无穷大。可以通过激活函数来解决。简单说下有监督学习和无监督学习的区别？有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测。（LR,SVM,BP,RF,GBDT）无监督学习：对未标记的样本进行训练学习，比发现这些样本中的结构知识。(KMeans,DL)什么是正则化？正则化是针对过拟合而提出的，以为在求解模型最优的是一般优化最小的经验风险，现在在该经验风险上加入模型复杂度这一项（正则化项是模型参数向量的范数），并使用一个rate比率来权衡模型复杂度与以往经验风险的权重，如果模型复杂度越高，结构化的经验风险会越大，现在的目标就变为了结构经验风险的最优化，可以防止模型训练过度复杂，有效的降低过拟合的风险。奥卡姆剃刀原理，能够很好的解释已知数据并且十分简单才是最好的模型。协方差和相关性有什么区别？相关性是协方差的标准化格式。协方差本身很难做比较。例如：如果我们计算工资（$）和年龄（岁）的协方差，因为这两个变量有不同的度量，所以我们会得到不能做比较的不同的协方差。为了解决这个问题，我们计算相关性来得到一个介于-1和1之间的值，就可以忽略它们各自不同的度量。线性分类器与非线性分类器的区别以及优劣。如果模型是参数的线性函数，并且存在线性分类面，那么就是线性分类器，否则不是。常见的线性分类器有：LR,贝叶斯分类，单层感知机、线性回归。常见的非线性分类器：决策树、RF、GBDT、多层感知机。SVM两种都有(看线性核还是高斯核)。线性分类器速度快、编程方便，但是可能拟合效果不会很好。非线性分类器编程复杂，但是效果拟合能力强。什么是分布式数据库？分布式数据库系统是在集中式数据库系统成熟技术的基础上发展起来的，但不是简单地把集中式数据库分散地实现，它具有自己的性质和特征。集中式数据库系统的许多概念和技术，如数据独立性、数据共享和减少冗余度、并发控制、完整性、安全性和恢复等在分布式数据库系统中都有了不同的、更加丰富的内容。简单说说贝叶斯定理。贝叶斯定理是关于\t"/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86/_blank"随机事件A和B的\t"/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86/_blank"条件概率（或\t"/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86/_blank"边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。标准化与归一化的区别?简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。规则为L2的归一化公式如下：特征向量的缺失值处理：缺失值较多.直接将该特征舍弃掉，否则可能反倒会带入较大的noise，对结果造成不良影响。缺失值较少,其余的特征缺失值都在10%以内，我们可以采取很多的方式来处理:把NaN直接作为一个特征，假设用0表示；用均值填充；用随机森林等算法预测填充随机森林如何处理缺失值。方法一（na.roughfix）简单粗暴，对于训练集,同一个class下的数据，如果是分类变量缺失，用众数补上，如果是连续型变量缺失，用中位数补。方法二（rfImpute）这个方法计算量大，至于比方法一好坏？不好判断。先用na.roughfix补上缺失值，然后构建森林并计算proximitymatrix，再回头看缺失值，如果是分类变量，则用没有阵进行加权平均的方法补缺失值。然后迭代4-6次，这个补缺失值的思想和KNN有些类似1缺失的观测实例的proximity中的权重进行投票。如果是连续型变量，则用proximity矩2。如何优化Kmeans。使用Kd树或者BallTree将所有的观测实例构建成一颗kd树，之前每个聚类中心都是需要和每个观测点做依次距离计算，现在这些聚类中心根据kd树只需要计算附近的一个局部区域即可。期末试题一、单选题下列哪个神经网络结构会发生权重共享？A、卷积神经网络B、循环神经网络C、全连接神经网络D、选项A和B答案是：D批规范化(BatchNormalization)的好处都有啥？A、让每一层的输入的范围都大致固定B、它将权重的归一化平均值和标准差C、它是一种非常有效的反向传播(BP)方法D、这些均不是答案是：A在一个神经网络中，下面哪种方法可以用来处理过拟合？A、DropoutB、分批归一化(BatchNormalization)C、正则化(regularization)D、都可以答案是：D解析：对于选项A,Dropout可以在训练过程中适度地删减某些神经元,借此可以减小过拟合的风险.对于选项B,分批归一化处理过拟合的原理，是因为同一个数据在不同批中被归一化后的值会有差别，相当于做了dataaugmentatio。对于选项C，正则化(regularization)的加入,本身就是为了防止过拟合而做的操作.因此答案是D给定一个长度为n的不完整单词序列，我们希望预测下一个字母是什么。比如输入是“predictio”(9个字母组成)，希望预测第十个字母是什么。下面哪种神经网络结构适用于解决这个工作？A、循环神经网络B、全连接神经网络C、受限波尔兹曼机D、卷积神经网络正确答案是：A解析：循环神经网络对于序列数据最有效，因此适用于这个问题。当构建一个神经网络进行图片的语义分割时，通常采用下面哪种顺序？A、先用卷积神经网络处理输入，再用反卷积神经网络得到输出B、先用反卷积神经网络处理输入，再用卷积神经网络得到输出C、不能确定正确答案是：ASigmoid是神经网络中最常用到的一种激活函数，除非当梯度太大导致激活函数被弥散，这叫作神经元饱和。这就是为什么ReLU会被提出来，因为ReLU可以使得梯度在正向时输出值与原始值一样。这是否意味着在神经网络中ReLU单元永远不会饱和？A、正确的B、错误的正确答案是：B解析：ReLU也可能会造成饱和，当输出为负的时候。在构建一个神经网络时，batchsize通常会选择2的次方，比如256和512。这是为什么呢？A、当内存使用最优时这可以方便神经网络并行化B、当用偶数是梯度下降优化效果最好C、这些原因都不对D、当不用偶数时，损失值会很奇怪正确答案是：A梯度下降算法的正确步骤是什么？a.计算预测值和真实值之间的误差b.重复迭代，直⾄得到⽹络权重的最佳值c.把输⼊传⼊⽹络，得到输出值d.⽤随机值初始化权重和偏差e.对每⼀个产⽣误差的神经元，调整相应的（权重）值以减⼩误差A.abcdeB.edcbaC.cbaedD.dcaeb解析：正确答案D，考查知识点-深度学习。已知：⼤脑是有很多个叫做神经元的东西构成，神经⽹络是对⼤脑的简单的数学表达。每⼀个神经元都有输⼊、处理函数和输出。神经元组合起来形成了⽹络，可以拟合任何函数。为了得到最佳的神经⽹络，我们⽤梯度下降⽅法不断更新模型给定上述关于神经⽹络的描述，什么情况下神经⽹络模型被称为深度学习模型？A.加⼊更多层，使神经⽹络的深度增加B.有维度更⾼的数据C.当这是⼀个图形识别的问题时D.以上都不正确解析：正确答案A，更多层意味着⽹络更深。没有严格的定义多少层的模型才叫深度模型，⽬前如果有超过2层的隐层，那么也可以及叫做深度模型。训练CNN时，可以对输⼊进⾏旋转、平移、缩放等预处理提⾼模型泛化能⼒。这么说是对，还是不对？A.对B.不对解析：对。如寒sir所说，训练CNN时，可以进⾏这些操作。当然也不⼀定是必须的，只是dataaugmentation扩充数据后，模型有更多数据训练，泛化能⼒可能会变强。下⾯哪项操作能实现跟神经⽹络中Dropout的类似效果？A.BoostingB.BaggingC.StackingD.Mapping解析：正确答案B。Dropout可以认为是⼀种极端的Bagging，每⼀个模型都在单独的数据上训练，同时，通过和其他模型对应参数的共享，从⽽实现模型参数的⾼度正则化。下列哪⼀项在神经⽹络中引⼊了⾮线性？A.随机梯度下降B.修正线性单元（ReLU）C.卷积函数D.以上都不正确解析：正确答案B。修正线性单元是⾮线性的激活函数。深度学习中的“深度”是指A.计算机理解深度B.中间神经元网络的层次很多C.计算机的求解更加精确D.计算机对问题的处理更加灵活正确答案B下列哪一项在神经网络中引入了非线性A.随机梯度下降B.修正线性单元(ReLU)C.卷积函数D.以上都不对正确答案B下列哪个神经网络结构会发生权重共享A.卷积神经网络B.循环神经网络C.全连接神经网络D.选项A和B正确答案D关于句子向量表示，下列说法正确的是A.只能通过有监督学习获得B.只能通过无监督学习获得C.有监督和无监督学习都可以获得D.以上都不对正确答案C在神经网络中，下列哪种技术用于解决过拟合A.DropoutB.正则化C.earlystopD.BatchNormalizaiton正确答案ABCD以下哪种不是自适应学习率方法A.Mini-batchSGDB.AdagradC.RMSprop正确答案A哪种策略可以加速词向量训练A.para2vectB.层级softmaxC.最大似然估计D.以上都不对正确答案B关于梯度下降算法，以下说法正确的是A.随机梯度下降算法是每次考虑单个样本进行权重更新B.Mini-Batch梯度下降算法是批量梯度下降和随机梯度下降的折中C.批量梯度下降算法是每次考虑整个训练集进行权重更新D.以上都对正确答案D与传统机器学习方法相比，深度学习的优势在于A.深度学习可以自动学习特征B.深度学习完全不需要做数据预处理C.深度学习完全不提取底层特征，如图像边缘、纹理等D.深度学习不需要调参正确答案A下列哪一项在神经网络中引入了非线性A.随机梯度下降B.Sigmoid激活函数C.增大权重和偏置的初始化值D.以上都不对正确答案B在其他条件不变的前提下，以下哪些做法容易引起机器学习中的过拟合问题A.增加训练集量B.减少神经网络隐藏节点数C.在损失函数中增加正则项D.SVM算法中使用高斯核/RBF核代替核性核正确答案D24、深度学习与机器学习算法之间的区别在于，后者过程中无需进行特征提取工作，也就是说，我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是：A、正确的B、错误的正确答案是：B解析：正好相反，深度学习可以自行完成特征提取过程而机器学习需要人工来处理特征内容。25、下列哪一项属于特征学习算法（representationlearningalgorithm）？A、K近邻算法B、随机森林C、神经网络D、都不属于正确答案是：C解析：神经网络会将数据转化为更适合解决目标问题的形式，我们把这种过程叫做特征学习。26、提升卷积核(convolutionalkernel)的大小会显著提升卷积神经网络的性能，这种说法是A、正确的B、错误的正确答案是：B解析：卷积核的大小是一个超参数(hyperparameter)，也就意味着改变它既有可能提高亦有可能降低模型的表现。27、阅读以下文字：假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称（车辆共有10种类型）。现在想要使用这个模型来解决另外一个问题，问题数据集中仅包含一种车（福特野马）而目标变为定位车辆在照片中的位置。A、除去神经网络中的最后一层，冻结所有层然后重新训练B、对神经网络中的最后几层进行微调，同时将最后一层（分类层）更改为回归层C、使用新的数据集重新训练模型D、所有答案均不对正确答案是：B28、假设你有5个大小为7x7、边界值为0的卷积核，同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据，那么神经网络下一层所接收到的数据维度是多少？A、218x218x5B、217x217x8C、217x217x3D、220x220x5正确答案是：A29、假设我们有一个使用ReLU激活函数(ReLUactivationfunction)的神经网络，假如我们把ReLU激活替换为线性激活，那么这个神经网络能够模拟出同或函数(XNORfunction)吗？A、可以B、不好说C、不一定D、不能正确答案是：D解析：使用ReLU激活函数的神经网络是能够模拟出同或函数的。但如果ReLU激活函数被线性函数所替代之后，神经网络将失去模拟非线性函数的能力。30、假设我们有一个5层的神经网络，这个神经网络在使用一个4GB显存显卡时需要花费3个小时来完成训练。而在测试过程中，单个数据需要花费2秒的时间。如果我们现在把架构变换一下，当评分是0.2和0.3时，分别在第2层和第4层添加Dropout，那么新架构的测试所用时间会变为多少？A、少于2sB、大于2sC、仍是2sD、说不准正确答案是：C解析：在架构中添加Dropout这一改动仅会影响训练过程，而并不影响测试过程。31、梯度下降算法的正确步骤是什么？1.计算预测值和真实值之间的误差2.重复迭代，直至得到网络权重的最佳值3.把输入传入网络，得到输出值4.用随机值初始化权重和偏差5.对每一个产生误差的神经元，调整相应的（权重）值以减小误差A、1,2,3,4,5 B、5,4,3,2,1 C、3,2,1,5,4 D、4,3,1,5,2正确答案：D32、已知：大脑是有很多个叫做神经元的东西构成，神经网络是对大脑的简单的数学表达。每一个神经元都有输入、处理函数和输出。神经元组合起来形成了网络，可以拟合任何函数。为了得到最佳的神经网络，我们用梯度下降方法不断更新模型给定上述关于神经网络的描述，什么情况下神经网络模型被称为深度学习模型？A、加入更多层，使神经网络的深度增加B、有维度更高的数据C、当这是一个图形识别的问题时D、以上都不正确答案：A解析：更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型，目前如果有超过2层的隐层，那么也可以及叫做深度模型。33、训练CNN时，可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是对，还是不对？A、对B、不对答案：A解析：如寒sir所说，训练CNN时，可以进行这些操作。当然也不一定是必须的，只是dataaugmentation扩充数据后，模型有更多数据训练，泛化能力可能会变强。34、下面哪项操作能实现跟神经网络中Dropout的类似效果？A、BoostingB、BaggingC、StackingD、Mapping答案：B解析：Dropout可以认为是一种极端的Bagging，每一个模型都在单独的数据上训练，同时，通过和其他模型对应参数的共享，从而实现模型参数的高度正则化。35、下列哪一项在神经网络中引入了非线性？A、随机梯度下降B、修正线性单元（ReLU）C、卷积函数D、以上都不正确答案：B解析：修正线性单元是非线性的激活函数。36、在训练神经网络时，损失函数(loss)在最初的几个epochs时没有下降，可能的原因是？A、学习率(learningrate)太低B、正则参数太高C、陷入局部最小D、以上都有可能答案：D37、下列哪项关于模型能力（modelcapacity）的描述是正确的？（指神经网络模型能拟合复杂函数的能力）A、隐藏层层数增加，模型能力增加B、Dropout的比例增加，模型能力增加C、学习率增加，模型能力增加D、都不正确答案：A38、如果增加多层感知机（MultilayerPerceptron）的隐藏层层数，分类误差便会减小。这种陈述正确还是错误？A、正确B、错误答案：B解析：并不总是正确。层数增加可能导致过拟合，从而可能引起错误增加。39、下面关于池化的描述中，错误的是哪个？A.池化的常用方法包括最大化池化、最小化池化、平均化池化、全局池化B.在人脸识别中采用较多池化的原因是为了获得人脸部的高层特征C.池化在CNN中可以减少较多的计算量，加快模型训练D.池化方法可以自定义正确答案：A解题思路：池化的常用方法包括最大化池化和平均化池化，不包括最小化池化40、一个循环神经网络可以被展开成为一个完全连接的、具有无限长度的普通神经网络，这种说法是A、正确的B、错误的正确答案是：A解析：循环神经元可以被认为是一个具有无限时间长度的神经元序列。二、多选题1、以下有关卷积神经网络的说法，哪些是错误的？A.卷积核越大，即感受野越大，网络需要优化的参数越少，训练速度越快B.通过增加卷积核的大小和通道的个数，可以提升卷积神经网络特征获取的能力C.共享权重大大减少了参数的个数，降低了网络的复杂度D.卷积核中的取值都是事先人工设计的，在网络的训练过程中不变化正确答案：A、D解题思路：卷积核的大小需要根据输入图像的大小适当定义，即不宜过大也不宜过小，A错误。卷积核的取值需要根据图像特征不同进行修改，这样才能减少误差，D错误2、下面有关卷积神经网络的说法哪些是正确的？A.在特征图padding时，各方向的填充像素数不一定相同（不对称填充），也不一定补0B.在卷积神经网络中，卷积和池化的作用主要是分类，全连接层的作用主要是特征获取C.卷积神经网络的输出层不一定用全连接网络，也可能得到比较好的性能D.卷积核的高和宽不一定是相等的，且一般大小取奇数正确答案：A、C、D解题思路：卷积和池化的主要目的是为了减少样本的参数数量，所以B选项是错误的判断题多层神经网络本质是是一个复合函数√贝叶斯派统计方法比频率派统计方法估计模型参数更优？√RNN适用于序列数据的处理√LSTM网络结构有利于解决RNN训练出现的梯度消失或者爆炸的问题√GAN只能用于深度神经网络√所有深度学习模型都是神经网络√？支持向量机仅能处理二分类问题，产生线性平面×一般来说，L1正则化可产生比L2正则化更稀疏的解√梯度为0的点只能是局部极小点或局部极大点×如果增加多层感知机（MultilayerPerceptron）的隐藏层层数，分类误差便会减小。×神经网络可以生成任意的决策边界√神经网络被称为通用函数拟合器，所以它理论上可以表示任何决策边界。√单计算层感知器只能解决线性可分问题√一个不包含非线性的神经元可以看作是线性回归函数（LinearRegressionFunction）√SVM算法中高斯核/RBF核代替限行和容易引起过拟合问题√在数据很稀疏和神经网络参数量较少的场景下，偏向于使用L-BFGS而不是SGD√负对数似然度损失函数和欧式距离损失函数都是用于计算像素区域的修复√RNN可以被展开为一个完全连接的，具有无限长度的普通网络√循环神经网络可以被认为是一个具有无限时间长度的神经元序列√理论上神经网络可以解决任何问题，因为神经网络可以逼近任何函数√神经网络进行图片语义分割时，先用CNN处理输入，再用反CNN得到输出√在神经网络中ReLU永远不会饱和×Dropout率（神经元的激活率）越高，正则化程度越高×与普通反向传播不同的是，随时间的反向传播算法会在每个时间步长内叠加所有对应权重的梯度√在神经网络中，每个参数可以有不同的学习率√使用深度学习的情感分析是对多一的预测任务√GatedRecurrentUnits的出现可以帮助防止在RNN中梯度消失的问题√将Sigmoid激活函数改为ReLU，将有助于克服梯度消失的问题√激活函数为有限值时，基于梯度的优化方法更加稳定√深度学习是一种特殊的表示学习方法√简答题如何优化Kmeans。使用Kd树或者BallTree将所有的观测实例构建成一颗kd树，之前每个聚类中心都是需要和每个观测点做依次距离计算，现在这些聚类中心根据kd树只需要计算附近的一个局部区域即可。KMeans初始类簇中心点的选取。K-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。从输入的数据点集合中随机选择一个点作为第一个聚类中心对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大重复2和3直到k个聚类中心被选出来利用这k个初始的聚类中心来运行标准的k-means算法解释对偶的概念。一个优化问题可以从两个角度进行考察，一个是primal问题，一个是dual问题，就是对偶问题，一般情况下对偶问题给出主问题最优值的下界，在强对偶性成立的情况下由对偶问题可以得到主问题的最优下界，对偶问题是凸优化问题，可以进行较好的求解，SVM中就是将Primal问题转换为dual问题进行求解，从而进一步引入核函数的思想。如何进行特征选择？特征选择是一个重要的数据预处理过程，主要有两个原因：一是减少特征数量、降维，使模型泛化能力更强，减少过拟合;二是增强对特征和特征值之间的理解。CNN最成功的应用是在CV，那为什么NLP和Speech的很多问题也可以用CNN解出来？CNN抓住此共性的手段主要有四个：局部连接／权值共享／池化操作／多层次结构。局部连接使网络可以提取数据的局部特征；权值共享大大降低了网络的训练难度，一个Filter只提取一个特征，在整个图片（或者语音／文本）中进行卷积；池化操作与多层次结构一起，实现了数据的降维，将低层次的局部特征组合成为较高层次的特征，从而对整个图片进行表示。LSTM结构推导，为什么比RNN好？推导forgetgate，inputgate，cellstate，hiddeninformation等的变化；因为LSTM有进有出且当前的cellinformaton是通过inputgate控制之后叠加的，RNN是叠乘，因此LSTM可以防止梯度消失或者爆炸。为什么朴素贝叶斯如此“朴素”？因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知，这个假设在现实世界中是很不真实的，因此，说朴素贝叶斯真的很“朴素”。增加卷积核的大小对于改进卷积神经网络的效果是必要的吗？答案：不是，增加核函数的大小不一定会提高性能。这个问题在很大程度上取决于数据集。常见的分类算法有哪些？SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯常见的监督学习算法有哪些？感知机、SVM、人工神经网络、决策树、逻辑回归对Django的认识？（1.Django是走大而全的方向，它最出名的是其全自动化的管理后台：只需要使用起ORM，做简单的对象定义，它就能自动生成数据库结构、以及全功能的管理后台。（2.Django内置的ORM跟框架内的其他模块耦合程度高。应用程序必须使用Django内置的ORM，否则就不能享受到框架内提供的种种基于其ORM的便利；理论上可以切换掉其ORM模块，但这就相当于要把装修完毕的房子拆除重新装修，倒不如一开始就去毛胚房做全新的装修。（3.Django的卖点是超高的开发效率，其性能扩展有限；采用Django的项目，在流量达到一定规模后，都需要对其进行重构，才能满足性能的要求。（4.Django适用的是中小型的网站，或者是作为大型网站快速实现产品雏形的工具。（5.Django模板的设计哲学是彻底的将代码、样式分离；Django从根本上杜绝在模板中进行编码、处理数据的可能。Django、Flask、Tornado的对比（1.Django走的是大而全的方向,开发效率高。它的MTV框架,自带的ORM,admin后台管理,自带的sqlite数据库和开发测试用的服务器给开发者提高了超高的开发效率（2.Flask是轻量级的框架,自由,灵活,可扩展性很强,核心基于WerkzeugWSGI工具和jinja2模板引擎（3.Tornado走的是少而精的方向,性能优越。它最出名的是异步非阻塞的设计方式django请求的生命周期？(1.wsgi,请求封装后交给web框架（Flask、Django）(2.中间件，对请求进行校验或在请求对象中添加其他相关数据，例如：csrf、request.session-(3.路由匹配根据浏览器发

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

深度学习技术应用平日练习-习题及试题题库

文档简介

温馨提示

最新文档

评论

深度学习技术应用 平日练习-习题及试题题库

文档简介

温馨提示

最新文档

评论

相关文档

深度学习技术应用平日练习-习题及试题题库