模式识别与机器学习 课件 第6讲 人工神经网络与深度学习_第1页
模式识别与机器学习 课件 第6讲 人工神经网络与深度学习_第2页
模式识别与机器学习 课件 第6讲 人工神经网络与深度学习_第3页
模式识别与机器学习 课件 第6讲 人工神经网络与深度学习_第4页
模式识别与机器学习 课件 第6讲 人工神经网络与深度学习_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别与机器学习

PatternRecognition&MachineLearning第六讲人工神经网络与深度学习本节学习目标掌握感知机模型和学习算法掌握多层神经网络模型和误差反向传播训练算法理解深度神经网络的典型挑战问题能够熟练运用至少两种常见的深度神经网络第六讲人工神经网络与深度学习

第六讲人工神经网络与深度学习目录感知机多层神经网络深层神经网络常用的深度神经网络第六讲人工神经网络与深度学习

第六讲人工神经网络与深度学习感知机(perceptron)

感知机

第六讲人工神经网络与深度学习

感知机

第六讲人工神经网络与深度学习感知机

第六讲人工神经网络与深度学习目录感知机多层神经网络神经元多层神经网络反向传播算法深层神经网络常用的深度神经网络第六讲人工神经网络与深度学习

第六讲人工神经网络与深度学习神经元

多层神经网络

第六讲人工神经网络与深度学习

多层神经网络

第六讲人工神经网络与深度学习多层神经网络图8‑3三种激活函数的形态

第六讲人工神经网络与深度学习多层神经网络多层神经网络

第六讲人工神经网络与深度学习反向传播算法

多层神经网络

第六讲人工神经网络与深度学习

多层神经网络

第六讲人工神经网络与深度学习

多层神经网络

第六讲人工神经网络与深度学习

多层神经网络

第六讲人工神经网络与深度学习多层神经网络

第六讲人工神经网络与深度学习目录感知机多层神经网络深层神经网络浅层与深度神经网络过拟合问题局部极值问题梯度消失问题常用的深度神经网络第六讲人工神经网络与深度学习

第六讲人工神经网络与深度学习浅层与深度神经网络thin+tall深度神经网络fat+shortVS

第六讲人工神经网络与深度学习过拟合问题过拟合问题是深度神经网络的主要挑战之一,其主要原因是模型过于复杂或者训练集过少。深度神经网络

第六讲人工神经网络与深度学习早停止是指在模型训练过程中,可通过观察验证集上的预测性能来决定何时停止对参数的优化,从而可以在产生过拟合之前停止训练。权重衰减是指为了防止得到的权重参数过大,而采取的在每步迭代中少量减少权重的方法。丢弃法是指在深度神经网络的训练过程中,对于网络中的神经单元(包括节点以及与之连接的边),按照一定的概率将其暂时从网络中丢弃。深度神经网络(a)丢弃情况(b)丢弃后剩余的网络结构

第六讲人工神经网络与深度学习局部极值问题随机梯度下降使用随机梯度下降代替批量的梯度下降,不仅使得优化速度得以提升,而且还可以提高模型的整体性能。性能提高的主要原因是每次用于迭代的随机梯度并非梯度的确切方向,使得模型容易跳出局部极值点。基于动量的梯度下降基于动量的梯度下降的做法是每次进行梯度下降时,在当前梯度方向上增加历史梯度的加权值。动量方法能够使得梯度更新的大小可以根据上一步的梯度进行适当调节,增加跳出局部极值点的几率。多次随机初始化假设损失函数的曲面具有许多局部极值点,多次随机初始化待优化的参数值可以增加离开局部极值的可能性,有助于找到更好的解。深度神经网络

第六讲人工神经网络与深度学习梯度消失问题当使用反向传播方法求解梯度时,使用sigmoid函数或者tanh函数作为激活函数的深度神经网络随着网络层数的增加,从输出层到网络最初几层的反向传播得到的梯度的幅度值可能会急剧增大(梯度爆炸)或减小(梯度消失)。深度神经网络

第六讲人工神经网络与深度学习逐层与训练结合微调深度神经网络图8‑6逐层预训练加微调方法示意图(黑色方框表示需要微调的结构。)

图8‑7预训练网络中的自编码器结构示意图

第六讲人工神经网络与深度学习使用合适的激活函数深度神经网络图8‑8ReLU函数图8‑9ReLU函数的变体

第六讲人工神经网络与深度学习使用合适的激活函数深度神经网络图8‑10Maxout函数原理示意图(将每层的节点分组,并选择组内最大数的作为下一层的输入。)

第六讲人工神经网络与深度学习目录感知机多层神经网络深层神经网络常用的深度神经网络自编码网络深度玻尔兹曼机深度信念网络卷积神经网络循环神经网络Transformer第六讲人工神经网络与深度学习

第六讲人工神经网络与深度学习自编码网络常用的深度神经网络图8‑11自编码器架构

第六讲人工神经网络与深度学习深度玻尔兹曼机常用的深度神经网络

第六讲人工神经网络与深度学习波尔兹曼机常用的深度神经网络图8‑12玻尔兹曼机示例

第六讲人工神经网络与深度学习受限波尔兹曼机常用的深度神经网络图8‑13受限玻尔兹曼机示例

第六讲人工神经网络与深度学习

常用的深度神经网络

第六讲人工神经网络与深度学习深度波尔兹曼机常用的深度神经网络图8‑13深度玻尔兹曼机示例

第六讲人工神经网络与深度学习深度信念网络常用的深度神经网络图8‑14深度信念网络示例

第六讲人工神经网络与深度学习卷积神经网络(convolutionalneuralnetworks)三条性质:某些模式总是存在于局部区域相同的模式会出现在多个区域对图像中的像素做下采样(subsampling)不会影响物体的识别常用的深度神经网络

第六讲人工神经网络与深度学习卷积层与一般的全连接层不同,不再使用权重矩阵表示所有神经元节点在相邻网络层之间的一一对应关系,而是使用多组共享参数来构建两个网络层之间的联系。在卷积网络中,共享参数叫做卷积核。常用的深度神经网络图8‑18卷积操作的原理示意图

第六讲人工神经网络与深度学习循环神经网络(recurrentneuralnetworks,RNN)

常用的深度神经网络

第六讲人工神经网络与深度学习常用的深度神经网络图8‑20使用seq2seq模型进行机器翻译示意图

第六讲人工神经网络与深度学习

常用的深度神经网络

第六讲人工神经网络与深度学习LSTM通过引入一个变量存储“记忆”,增强了RNN把握长距离关系的能力,也可以缓解梯度消失问题。除了LSTM之外,门循环单元(gatedrecurrentunit,GRU)也是RNN的变体,它进一步简化了LSTM的结构,能使用更少的参数达到近似的性能。常用的深度神经网络

第六讲人工神经网络与深度学习TransformerTransformer是一种seq2seq模型,其核心思想是使用注意力(attention)和自注意力(self-attention)机制。注意力机制用于捕获输入序列和输出序列之间的关系。自注意力机制用于捕获文本序列内部的依赖关系,构建对原始文本的语义表示。其中的自注意力是一种特殊的注意力模型。常用的深度神经网络

第六讲人工神经网络与深度学习

常用的深度神经网络

第六讲人工神经网络与深度学习常用的深度神经网络图8‑22有注意力机制的seq2seq模型进行机器翻译的示意图

第六讲人工神经网络与深度学习自注意力所谓自注意力,是指输入序列中的每个单词(或字)都要和该序列中的所有单词(或字)进行注意力计算。好处是学习序列内部的单词(或字)的依赖关系,捕获句子的内部结构。Transformer编码网络包含“多头自注意力(multi-headself-attention)”子结构,用于表示多组不同的注意力分配机制。这个子结构的实现方式是同时构建多个自注意力单元,并在最后汇总。Transformer也用到了在解码器中增加“遮蔽的多头自注意力(maskedmulti-headself-attention)”和在输入层增加位置编码等技巧常用的深度神经网络

第六讲人工神经网络与深度学习NovikoffABJ.OnConvergenceProofsforPerceptrons[C]//ProceedingsofSymposiumonMathematicalTheoryofAutomata,Brooklyn,N.Y.:PolytechnicPress,1962:615-622.RumelhartD,HintonG,WilliamsR.LearningRepresentationsbyBack-PropagatingErrors[J].Nature,1986,323(10):533–536.NgA.SparseAutoencoder[R/OL].Stanford,CA:StanfordUniversity,2011./~socherr/sparseAutoencoder_2011new.pdf.HornikK,StinchcombeM,WhiteH.MultilayerFeedforwardNetworksAreUniversalApproximators[J].NeuralNetworks,1989,2(5):359-366.SeideF,LiG,YuD.ConversationalSpeechTranscriptionUsingContext-DependentDeepNeuralNetworks[C/OL]//TwelfthAnnualConferenceofInternationalSpeechCommunicationAssociation.2011:437-440[2020-02-28]./archive/archive_papers/interspeech_2011/i11_0437.pdf.ZeilerMD,FergusR.VisualizingandUnderstandingConvolutionalNetworks[C]//ComputerVision--ECCV2014.Switzerland:SpringerInternationalPublishing,2014:818-833.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.AckleyDH,HintonGE,SejnowskiTJ.ALearningAlgorithmforBoltzmannMachines[J].CognitiveScience,1985,9(1):147-169.参考文献

第六讲人工神经网络与深度学习SmolenskyP.InformationProcessinginDynamicalSystems:FoundationsofHarmonyTheory[M]//ParallelDistributedProcessing:ExplorationsintheMicrostructureofCognition,Volume1:Foundations.Cambridge,MA:ABradfordBook,1986:194-281.HintonGE,OsinderoS,TehYW.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.LeCunY.GeneralizationandNetworkDesignStrategies[M]//ConnectionisminPerspective.Switzerland:Elsevier,1989,19:143-155.GoodfellowI,BengioY,CourvilleA.DeepLearning[M].Cambridge,MA:MITPre

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论