计算机专业研究生复试-机器学习面试简答题_第1页
计算机专业研究生复试-机器学习面试简答题_第2页
计算机专业研究生复试-机器学习面试简答题_第3页
计算机专业研究生复试-机器学习面试简答题_第4页
计算机专业研究生复试-机器学习面试简答题_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习问题整理什么是梯度爆炸和梯度消失?如何解决梯度消失、梯度爆炸?在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1,那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则,属于先天不足。解决方法:对于RNN,可以通过梯度截断,避免梯度爆炸。可以通过添加正则项,避免梯度爆炸。使用LSTM等自循环和门控制机制,避免梯度消失。优化激活函数,譬如将sigmoid改为relu,避免梯度消失。数据挖掘是干什么的?数据挖掘:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,包含了机器学习、统计学、数学等多个学科的知识。数据挖掘三大常见的任务:回归任务:回归任务是一种对连续型随机变量进行预测和建模的监督学习算法,使用案例包括房价预测、股票走势等。分类任务:分类是一种对离散型变量建模或预测的监督学习算法,使用案例包括邮件过滤、金融欺诈等。聚类任务:聚类是一种无监督学习,它是基于数据的内部结构寻找观察样本的自然族群(集群),使用案例包括新闻聚类、文章推荐等。更广泛的任务还有推荐、图像识别、预测等相关算法。监督学习:数据集中每个样本都有相应的标签。无监督学习:数据集中的样本没有相应的标签。无监督学习算法(UnsupervisedLearning)使用无标记数据(输入变量没有对应输出结果),试图识别数据本身的内部结构。无监督学习算法主要有两类:降维算法(降低数据维度)如主成分分析等,聚类算法如K均值聚类、层次聚类等。回归模型从大量的函数结果和自变量反推回函数表达式的过程就是回归。回归算法是一种有监督学习算法,用来建立自变量X和观测变量Y之间的映射关系,如果观测变量是离散的,则称其为分类Classification;如果观测变量是连续的,则称其为回归Regression。线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。在这个模型中,因变量Y是连续的,自变量X可以是连续或离散的。逻辑回归:因变量是定性变量,是分类问题。logistic回归则通过函数sigmoid将ax+b对应到到(0,1),从而完成概率的估测。在回归分析中,如果只包括一个自变量和一个因变量,且二者关系可用一条直线近似表示,称为一元线性回归分析;如果回归分析中包括两个或两个以上的自变量,且因变量和自变量是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线,对于三维空间线性是一个平面,对于多维空间线性是一个超平面。优点:1、模型简单,训练速度快;2、逻辑回归广泛应用与工业问题上。3、便利的观测样本概率分数;4、对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题;5、计算代价不高,易于理解和实现;缺点:1、特征空间大时逻辑回归的性能不是很好;2、对于非线性特征需要转换;3、依赖于全部数据;4、容易欠拟合,一般准确度不太高;不能很好地处理大量多类特征或变量;5、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类,也可以使用一对多分类。),且必须线性可分;对于非线性特征,需要进行转换 典型例子:线性回归求房价、自变量求导。逻辑回归:MINST数据集、鸢(yuan)尾花数据集(iris数据集)k-means算法(k均值算法)聚类算法。K-means是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。聚类算法,事先确定常数k,k代表着聚类类别数。首先随机选取k个初始点为质心,并通过计算每一个样本与质心之间的相似度(可以采用欧式距离),将样本点归到最相似的类中,接着重新计算每个类的质心(该类中所有点的平均值),重复这样的过程直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。优点:原理简单、容易实现。缺点:收敛太慢、算法复杂度高、需先确定K的个数、结果不一定是全局最优,只能保证局部最优。典型的例子:葡萄酒分类kNN(k近邻)学习思路:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。通常,在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”,即将这k个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。优点:1、思想简单,易于理解,易于实现,无需估计参数,无需训练;2、适合对稀有事件进行分类;3、特别适用于多分类问题缺点:1、需要计算出待测样本与所有样本的距离,计算量大2、样本不平衡时影响大3、适用的特征维度低决策树(ID3算法和C4.5算法)概述决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树。在使用模型进行预测时,根据输入参数依次在各个判断节点进行判断游走,最后到叶子节点即为预测结果。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。决策树算法的核心是通过对数据的学习,选定判断节点,构造一颗合适的决策树。决策树既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。ID3算法的核心是在决策树各个节点上应用信息增益(属性有3个取值的比2个取值的增益大)准则选择特征,递归地构建决策树。C4.5在生成的过程中,用信息增益比来选择特征。构造决策树的主要步骤遍历每个决策条件,对结果集进行拆分。计算在该决策条件下,所有可能的拆分情况的信息增益,信息增益最大的拆分为本次最优拆分。直至信息增益<=0。决策树的剪枝方式剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝”和“后剪枝”。预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶结点。优点:1、容易可视化,清晰表达属性的重要程度;2、算法完全不受数据缩放的影响,决策树算法不需要特征预处理,比如归一化或标准化,计算量较小;3、特别特征的尺度完全不一样时或者二元特征和连续特征同时存在时,决策树的效果很好。4、可增量学习对模型进行部分重构5、不需要任何领域知识和参数假设6、适合高维数据缺点:1、没有考虑属性间依赖2、容易过拟合,通过剪枝缓解3、不可用于推测属性缺失的样本随机森林模型集成学习集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和做出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。随机森林算法随机森林其实算是一种集成算法。它首先随机选取不同的特征(feature)和训练样本(trainingsample),生成大量的决策树,然后综合这些决策树的结果来进行最终的分类。随机森林算法是最常用也是最强大的监督学习算法之一,它兼顾了解决回归问题和分类问题的能力。随机森林是通过集成学习的思想,将多棵决策树进行集成的算法。对于分类问题,其输出的类别是由个别树输出的众数所决定的。在回归问题中,把每一棵决策树的输出进行平均得到最终的回归结果。决策树的数量越大,随机森林算法的鲁棒性越强,精确度越高。随机森林算法的步骤:首先,对样本数据进行有放回的抽样,得到多个样本集。具体来讲就是每次从原来的N个训练样本中有放回地随机抽取N个样本(包括可能重复样本)。然后,从候选的特征中随机抽取m个特征,作为当前节点下决策的备选特征,从这些特征中选择最好的划分训练样本的特征。用每个样本集作为训练样本构造决策树。单个决策树在产生样本集和确定特征后,使用CART算法计算,不剪枝。最后,得到所需数目的决策树后,随机森林方法对这些树的输出进行投票,以得票最多的类作为随机森林的决策。随机森林的特点在当前的很多数据集上,相对其他算法有着很大的优势能够处理具有高维特征的输入样本,而且不需要做特征选择或降维能够评估各个特征在分类问题上的重要性能够有效地运行在大数据集上在训练过程中,能够检测到特征间的互相影响,对不平衡的数据集可以平衡误差对于缺省值问题也能够获得很好的结果SVM(支持向量机)SVM的全称是SupportVectorMachine,即支持向量机,主要用于解决模式识别领域中的数据分类问题,属于有监督学习算法的一种。SVM的核心思想就是找到不同类别之间的分界面,使得两类样本尽量落在面的两边,而且离分界面尽量远,从而对新的数据分类更准确,即使分类器更加健壮。支持向量(SupportVetor):就是离分隔超平面最近的那些点。SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。SVM分类,就是找到一个超平面,让两个分类集合的支持向量或者所有的数据(LSSVM)离分类平面最远;SVR回归,就是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。SVR是支持向量回归(supportvectorregression)的英文缩写,是支持向量机(SVM)的重要的应用分支。优点:SVM只侧重于支持向量,无需依赖整个数据,可解决小样本的机器学习任务可解决高维问题可通过核方法解决非线性问题无局部极小值问题;(相对于神经网络等算法)缺点:内存消耗大,当观测样本很多时,效率并不是很高;对非线性问题没有通用解决方案,有时候很难找到一个合适的核函数;对于核函数的高维映射解释力不强,尤其是径向基函数。常规SVM只支持二分类;对缺失数据敏感;SVM运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。朴素贝叶斯(naiveBayes)朴素贝叶斯(naiveBayes)法是一种基于贝叶斯定理与特征条件独立假设的分类方法。叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最⼤,就认为此待分类项属于哪个类别。朴素贝叶斯朴素体现在两个假设:一个特征出现的概率与其他特征(条件)独立。每个特征同等重要。整个朴素贝叶斯分类分为三个阶段:第⼀阶段——准备⼯作阶段,对每个特征属性进⾏适当划分,并选取训练样本集合。分类器的质量很⼤程度上由特征属性、特征属性划分及训练样本质量决定。第⼆阶段——分类器训练阶段,这个阶段的任务就是⽣成分类器,基于特征条件独立假设学习输入输出的联合概率分布。这⼀阶段是机械性阶段,根据前⾯讨论的公式可以由程序⾃动计算完成。第三阶段——应⽤阶段。这个阶段的任务是使⽤分类器对待分类项进⾏分类,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。其输⼊是分类器和待分类项,输出是待分类项与类别的映射关系。这⼀阶段也是机械性阶段,由程序完成。朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,学习与预测的效率都很高,多用于文本分类,比如垃圾邮件过滤。优点:1、计算量较小2、支持懒惰学习、增量学习3、对缺失数据不太敏感4、推断即查表,速度极快。缺点:1、没有考虑属性间依赖2、通过类先验概率产生模型

神经网络部分基础神经网络架构及常用名词激活函数:激活函数的作用是把数据映射到高维的空间中进而使数据变得线性可分。常见有逻辑函数sigmoid、正切函数tanh、线性整流函数ReLU等等。损失函数:衡量模型输出与真实标签的差异。常见的有距离损失函数MSE、交叉熵损失函数和log-likehood函数。学习率:学习率能够使目标函数在合适的时间内收敛到局部最小值,当学习率设置的过小时,收敛过程将变得十分缓慢。而当学习率设置的过大时,梯度可能会在最小值附近来回震荡,甚至可能无法收敛。BP(backpropagation,多层前馈)神经网络BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。BP网络可在输入层与输出层之间增加若干隐含层,每一层可以有若干个节点,它们与外界没有直接的联系,但其状态的改变,则能影响输入与输出之间的关系。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则通过损失函数计算输出与期望的误差,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。循环神经网络RNN、LSTM网络:RNN提出:对时间序列上的变化进行建模,然而,样本出现的时间顺序对于自然语言处理、语音识别等应用很重要;RNN解决了样本的处理在各个时刻独立的问题,可以对时间序列上的变化进行建模,深度是时间上的长度。神经元的输出可以在下一个时间戳直接作用到自身。即,某一层某一时刻神经元的输入,除了上一层神经元在该时刻的输出外,还有本身在上一时刻的输出。缺点:时间轴上的“梯度消失”,为解决这个问题——>长短时记忆单元LSTM:通过门的开关实现时间上记忆功能,防止梯度消失。通过刻意的设计来避免长期依赖问题。LSTM核心:通过门的开关实现时间上记忆功能,防止梯度消失。通过刻意的设计来避免长期依赖问题。具有利用“门”的结构来去除或增加信息到细胞状态的能力,有三个门。门:让信息选择通过的方法,包括sigmoid神经网络层和一个点乘操作。忘记门层:决定从细胞状态中丢弃什么信息。读取本层的输入和上一层的输出,输出一个0到1之间的数值给每个细胞状态。确定什么样的信息被存放在细胞状态中,包含两个部分:1)sigmoid“输入门层”,决定什么值将要更新。2)tanh层,创建一个新的候选值向量。会被加到状态中。更新细胞状态。基于细胞状态确定输出什么值CNN网络提出:全连接的结构下会引起参数数量的膨胀,容易过拟合且局部最优。图像中有固有的局部模式可以利用,所以,提出了CNN,并不是所有上下层神经元都能直接相连,而是通过“卷积核”作为中介。同一个卷积核在所有图像内都是共享的,图像通过卷积操作后仍然保留原来的位置关系。通过多个“卷积层”和“采样层”对输入信号进行加工,然后再连接层实现与输出目标之间的映射。多层的目的:一层卷积学到的特征往往是局部的,层数越高,学到的特征就越全局化。CNN特点:局部感知:一般认为图像的空间联系是局部的像素联系比较密切,而距离较远的像素相关性较弱,因此,每个神经元没必要对全局图像进行感知,只要对局部进行感知,然后在更高层将局部的信息综合起来得到全局信息。利用卷积层实现:(特征映射,每个特征映射是一个神经元阵列):从上一层通过局部卷积滤波器提取局部特征。卷积层紧跟着一个用来求局部平均与二次提取的计算层,这种二次特征提取结构减少了特征分辨率。参数共享:在局部连接中,每个神经元的参数都是一样的,即:同一个卷积核在图像中都是共享的。(理解:卷积操作实际是在提取一个个局部信息,而局部信息的一些统计特性和其他部分是一样的,也就意味着这部分学到的特征也可以用到另一部分上。所以对图像上的所有位置,都能使用同样的学习特征。)卷积核共享有个问题:提取特征不充分,可以通过增加多个卷积核来弥补,可以学习多种特征。采样(池化)层:在通过卷积得到特征后,希望利用这些特征进行分类。基于局部相关性原理进行亚采样,在减少数据量的同时保留有用信息。(压

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论