版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模式识别与机器学习
PatternRecognition&MachineLearning第六讲人工神经网络与深度学习本节学习目标掌握感知机模型和学习算法掌握多层神经网络模型和误差反向传播训练算法理解深度神经网络的典型挑战问题能够熟练运用至少两种常见的深度神经网络第六讲人工神经网络与深度学习
第六讲人工神经网络与深度学习目录感知机多层神经网络深层神经网络常用的深度神经网络第六讲人工神经网络与深度学习
第六讲人工神经网络与深度学习感知机(perceptron)
感知机
第六讲人工神经网络与深度学习
感知机
第六讲人工神经网络与深度学习感知机
第六讲人工神经网络与深度学习目录感知机多层神经网络神经元多层神经网络反向传播算法深层神经网络常用的深度神经网络第六讲人工神经网络与深度学习
第六讲人工神经网络与深度学习神经元
多层神经网络
第六讲人工神经网络与深度学习
多层神经网络
第六讲人工神经网络与深度学习多层神经网络图8‑3三种激活函数的形态
第六讲人工神经网络与深度学习多层神经网络多层神经网络
第六讲人工神经网络与深度学习反向传播算法
多层神经网络
第六讲人工神经网络与深度学习
多层神经网络
第六讲人工神经网络与深度学习
多层神经网络
第六讲人工神经网络与深度学习
多层神经网络
第六讲人工神经网络与深度学习多层神经网络
第六讲人工神经网络与深度学习目录感知机多层神经网络深层神经网络浅层与深度神经网络过拟合问题局部极值问题梯度消失问题常用的深度神经网络第六讲人工神经网络与深度学习
第六讲人工神经网络与深度学习浅层与深度神经网络thin+tall深度神经网络fat+shortVS
第六讲人工神经网络与深度学习过拟合问题过拟合问题是深度神经网络的主要挑战之一,其主要原因是模型过于复杂或者训练集过少。深度神经网络
第六讲人工神经网络与深度学习早停止是指在模型训练过程中,可通过观察验证集上的预测性能来决定何时停止对参数的优化,从而可以在产生过拟合之前停止训练。权重衰减是指为了防止得到的权重参数过大,而采取的在每步迭代中少量减少权重的方法。丢弃法是指在深度神经网络的训练过程中,对于网络中的神经单元(包括节点以及与之连接的边),按照一定的概率将其暂时从网络中丢弃。深度神经网络(a)丢弃情况(b)丢弃后剩余的网络结构
第六讲人工神经网络与深度学习局部极值问题随机梯度下降使用随机梯度下降代替批量的梯度下降,不仅使得优化速度得以提升,而且还可以提高模型的整体性能。性能提高的主要原因是每次用于迭代的随机梯度并非梯度的确切方向,使得模型容易跳出局部极值点。基于动量的梯度下降基于动量的梯度下降的做法是每次进行梯度下降时,在当前梯度方向上增加历史梯度的加权值。动量方法能够使得梯度更新的大小可以根据上一步的梯度进行适当调节,增加跳出局部极值点的几率。多次随机初始化假设损失函数的曲面具有许多局部极值点,多次随机初始化待优化的参数值可以增加离开局部极值的可能性,有助于找到更好的解。深度神经网络
第六讲人工神经网络与深度学习梯度消失问题当使用反向传播方法求解梯度时,使用sigmoid函数或者tanh函数作为激活函数的深度神经网络随着网络层数的增加,从输出层到网络最初几层的反向传播得到的梯度的幅度值可能会急剧增大(梯度爆炸)或减小(梯度消失)。深度神经网络
第六讲人工神经网络与深度学习逐层与训练结合微调深度神经网络图8‑6逐层预训练加微调方法示意图(黑色方框表示需要微调的结构。)
图8‑7预训练网络中的自编码器结构示意图
第六讲人工神经网络与深度学习使用合适的激活函数深度神经网络图8‑8ReLU函数图8‑9ReLU函数的变体
第六讲人工神经网络与深度学习使用合适的激活函数深度神经网络图8‑10Maxout函数原理示意图(将每层的节点分组,并选择组内最大数的作为下一层的输入。)
第六讲人工神经网络与深度学习目录感知机多层神经网络深层神经网络常用的深度神经网络自编码网络深度玻尔兹曼机深度信念网络卷积神经网络循环神经网络Transformer第六讲人工神经网络与深度学习
第六讲人工神经网络与深度学习自编码网络常用的深度神经网络图8‑11自编码器架构
第六讲人工神经网络与深度学习深度玻尔兹曼机常用的深度神经网络
第六讲人工神经网络与深度学习波尔兹曼机常用的深度神经网络图8‑12玻尔兹曼机示例
第六讲人工神经网络与深度学习受限波尔兹曼机常用的深度神经网络图8‑13受限玻尔兹曼机示例
第六讲人工神经网络与深度学习
常用的深度神经网络
第六讲人工神经网络与深度学习深度波尔兹曼机常用的深度神经网络图8‑13深度玻尔兹曼机示例
第六讲人工神经网络与深度学习深度信念网络常用的深度神经网络图8‑14深度信念网络示例
第六讲人工神经网络与深度学习卷积神经网络(convolutionalneuralnetworks)三条性质:某些模式总是存在于局部区域相同的模式会出现在多个区域对图像中的像素做下采样(subsampling)不会影响物体的识别常用的深度神经网络
第六讲人工神经网络与深度学习卷积层与一般的全连接层不同,不再使用权重矩阵表示所有神经元节点在相邻网络层之间的一一对应关系,而是使用多组共享参数来构建两个网络层之间的联系。在卷积网络中,共享参数叫做卷积核。常用的深度神经网络图8‑18卷积操作的原理示意图
第六讲人工神经网络与深度学习循环神经网络(recurrentneuralnetworks,RNN)
常用的深度神经网络
第六讲人工神经网络与深度学习常用的深度神经网络图8‑20使用seq2seq模型进行机器翻译示意图
第六讲人工神经网络与深度学习
常用的深度神经网络
第六讲人工神经网络与深度学习LSTM通过引入一个变量存储“记忆”,增强了RNN把握长距离关系的能力,也可以缓解梯度消失问题。除了LSTM之外,门循环单元(gatedrecurrentunit,GRU)也是RNN的变体,它进一步简化了LSTM的结构,能使用更少的参数达到近似的性能。常用的深度神经网络
第六讲人工神经网络与深度学习TransformerTransformer是一种seq2seq模型,其核心思想是使用注意力(attention)和自注意力(self-attention)机制。注意力机制用于捕获输入序列和输出序列之间的关系。自注意力机制用于捕获文本序列内部的依赖关系,构建对原始文本的语义表示。其中的自注意力是一种特殊的注意力模型。常用的深度神经网络
第六讲人工神经网络与深度学习
常用的深度神经网络
第六讲人工神经网络与深度学习常用的深度神经网络图8‑22有注意力机制的seq2seq模型进行机器翻译的示意图
第六讲人工神经网络与深度学习自注意力所谓自注意力,是指输入序列中的每个单词(或字)都要和该序列中的所有单词(或字)进行注意力计算。好处是学习序列内部的单词(或字)的依赖关系,捕获句子的内部结构。Transformer编码网络包含“多头自注意力(multi-headself-attention)”子结构,用于表示多组不同的注意力分配机制。这个子结构的实现方式是同时构建多个自注意力单元,并在最后汇总。Transformer也用到了在解码器中增加“遮蔽的多头自注意力(maskedmulti-headself-attention)”和在输入层增加位置编码等技巧常用的深度神经网络
第六讲人工神经网络与深度学习NovikoffABJ.OnConvergenceProofsforPerceptrons[C]//ProceedingsofSymposiumonMathematicalTheoryofAutomata,Brooklyn,N.Y.:PolytechnicPress,1962:615-622.RumelhartD,HintonG,WilliamsR.LearningRepresentationsbyBack-PropagatingErrors[J].Nature,1986,323(10):533–536.NgA.SparseAutoencoder[R/OL].Stanford,CA:StanfordUniversity,2011./~socherr/sparseAutoencoder_2011new.pdf.HornikK,StinchcombeM,WhiteH.MultilayerFeedforwardNetworksAreUniversalApproximators[J].NeuralNetworks,1989,2(5):359-366.SeideF,LiG,YuD.ConversationalSpeechTranscriptionUsingContext-DependentDeepNeuralNetworks[C/OL]//TwelfthAnnualConferenceofInternationalSpeechCommunicationAssociation.2011:437-440[2020-02-28]./archive/archive_papers/interspeech_2011/i11_0437.pdf.ZeilerMD,FergusR.VisualizingandUnderstandingConvolutionalNetworks[C]//ComputerVision--ECCV2014.Switzerland:SpringerInternationalPublishing,2014:818-833.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.AckleyDH,HintonGE,SejnowskiTJ.ALearningAlgorithmforBoltzmannMachines[J].CognitiveScience,1985,9(1):147-169.参考文献
第六讲人工神经网络与深度学习SmolenskyP.InformationProcessinginDynamicalSystems:FoundationsofHarmonyTheory[M]//ParallelDistributedProcessing:ExplorationsintheMicrostructureofCognition,Volume1:Foundations.Cambridge,MA:ABradfordBook,1986:194-281.HintonGE,OsinderoS,TehYW.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.LeCunY.GeneralizationandNetworkDesignStrategies[M]//ConnectionisminPerspective.Switzerland:Elsevier,1989,19:143-155.GoodfellowI,BengioY,CourvilleA.DeepLearning[M].Cambridge,MA:MITPre
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中教育教育心理学教师资格考试教案
- 金属探伤仪校准规范报批稿
- 2024年人教版七年级英语下册第六单元第3课时 Section A (Grammar Focus-3c)
- 江苏省宿迁市沭阳县乡镇联考2023-2024学年八年级下学期3月月考数学试卷(含解析)
- 2023-2024学年华东师大版七年级数学下册期末模拟试卷
- 吸音材料生产项目实施方案
- 钣金加工机床制造项目投资估算分析报告
- 2024年吉安市吉水县《高等数学(一)》(专升本)考前冲刺试卷含解析
- 2024年信阳市固始县《高等数学(一)》(专升本)临考冲刺试卷含解析
- 2024年丽水市《高等数学(一)》(专升本)模拟试题含解析
- 空压机基础知识培训考试题
- 小学英语教研活动的主持词范文(3篇)
- 2023年河南省建设工程工程量清单招标控制价管理规定豫建设标
- FZ/T 64054-2015手术衣用机织物
- 通算一体网络十大基础问题白皮书-2022
- 科学假说与科学理论课件
- 《氧气的实验室制取与性质》实验说课课件(全国化学实验说课大赛获奖案例)
- 无生上课课堂教学评价标准
- 家庭装修大全课件
- 社会稳定风险分析调查问卷(征地个人)
- GB17344-1998包装包装容器气密试验方法.PDF
评论
0/150
提交评论