版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《深度学习与神经网络》第1章
绪论第2章
人工神经网络计算第3章
多层感知器神经网络第4章
自组织竞争神经网络第5章
径向基函数神经网络第6章
卷积神经网络原理与实践第7章
循环神经网络原理第8章
注意力机制与反馈神经网络第9章
深度学习与网络优化第10章
受限玻尔兹曼机与深度置信网络第11章
栈式自编码器第12章
对抗神经网络第13章
图神经网络第14章
深度强化学习理论第15章
深度学习可解释性第16章
多模态预训练大模型全套可编辑PPT课件
第一章
绪论关于本课程本课程体系的主要框架1关于本课程4人工智能的一个重要分支领域人工智能(ArtificialIntelligence,AI)是指使计算机能够具有人的智能行为。人工智能是关于知识的科学,研究知识的表示、获取和应用。深度学习:一类机器学习问题,主要解决贡献度分配问题。神经网络:一种以(人工)神经元为基本单元的模型。深度学习神经网络本书基本的知识框架体系5知识准备6知识准备线性代数微积分数学优化概率论信息论数学基础知识详见附件A课外知识7推荐课程斯坦福大学CS224d:DeepLearningforNaturalLanguageProcessing/RichardSocher
主要讲解自然语言处理领域的各种深度学习模型。斯坦福大学CS231n:ConvolutionalNeuralNetworksforVisualRecognition/Fei-FeiLiAndrejKarpathy
主要讲解CNN、RNN在图像领域的应用加州大学伯克利分校CS294:DeepReinforcementLearning/deeprlcourse/第一节与深度学习有关的几个概念1.1人工智能9人工智能的定义Turing定义。1950年,英国数学家阿兰·图灵(AlanTuring)在论文Canmachinesthink中提出,交谈能检验智能,如果一台计算机能像人一样交谈,那么它就能像人一样思考。Feigenbanm定义。对于Feigenbanm定义,即只告诉机器做什么,而不告诉它怎么做,机器就能完成工作,便可说机器有了智能。所谓智能,就是指理解和思考的能力。智能机器是指能够在各种环境中执行各种拟人任务的机器。概括地讲,人工智能是研究理解和模拟人类智能、智能行为及其规律的科学,主要任务是建立智能信息处理理论、认知理论、行为控制理论等,进而设计出可以模仿人类智能行为的计算系统。图灵测试10AlanTuring人工智能的定义一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答。如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以认为这个计算机是智能的”。AlanTuring[1950]《ComputingMachineryandIntelligence》人工智能学派11人工智能学派符号主义,又称为逻辑主义、心理学派、计算机学派。它基于物理符号系统(符号操作系统)假设和有限合理性原理,以基本的逻辑运算和推理为依据,通过符号系统分析人类的智能行为。这个学派的代表人物有纽厄尔(Newell)、西蒙(Simon)和尼尔逊(Nilsson)等。连接主义,又称为仿生学派或生理学派,是认知科学研究领域的理论和方法。它认为人工智能源于仿生学,特别是对人脑模型的研究。认知科学认为人类的认知过程是一种信息处理过程,大脑的工作过程就是由大量的简单神经元构成的复杂神经网络的信息处理过程。行为主义,又称进化主义或控制论学派,其原理为控制论及感知-动作型控制系统,认为人工智能源于控制论。维纳(Wiener)和麦克洛克(McCulloch)等人提出的控制论与自组织系统,以及钱学森等人提出的工程控制论和生物控制论影响了许多领域。机器学习的定义W是这个给定世界的有限或无限所有对象的集合,由于观察能力的限制,我们智能获得这个世界的一个有限的子集Q∈W,称为样本集。机器学习就是根据这个有限样本集Q,推算这个世界的模型,使得其对这个世界为真。机器学习(Machine
Learing)12Model泛化建模QW训练与泛化机器学习的解释
通过经验提高系统自身性能的过程(系统自我改进)。
机器学习是数据分析核心研究领域之一。一个没有学习功能的系统是不能被称为智能系统。机器学习正逐渐从传统的AI中独立出来,成为一种新的问题求解工具。机器学习13机器学习的数学描述G为产生器,产生随机向量,从固定但未知的概率分布函数中独立抽取。S为训练器,对于每一个输入向量返回一个输出值,根据固定但未知的条件概率分布函数产生。LM为函数学习机,能够实现一定的函数集,函数学习的过程即特征处理的过程,包括特征提取和特征转换,其中是参数集合。有3类基本的机器学习问题,即模式识别、函数逼近和概率密度估计。表示学习14表示学习表示学习是机器学习的核心问题。特征工程:需要借助人类智能好的表示如何自动从数据中学习好的表示“好的表示”是一个非常主观的概念,没有一个明确的标准。好的表示具有以下几个优点:要具有很强的表示能力。使后续的学习任务变得简单。具有一般性,是任务或领域独立的。语义表示15计算机的语义表示局部表示One-Hot向量分布式表示压缩、低微、稠密向量One-Hot向量局部表示嵌入:压缩、低维、稠密向量知识库规则163一个颜色的表示例子16深度学习17深度学习的特征通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性。深度学习深度学习与表示学习18深度学习的常用框架19深度学习框架特点简易和快速的原型设计自动梯度计算无缝CPU和GPU切换第二节神经网络与深度学习的发展历程1.2神经网络的发展历程21神经网络的发展历程22神经网络的发展历程(一)
神经网络经历了起伏跌宕、波澜壮阔的发展周期,其中有3次标志性的热潮,分别是1943年的神经网络的诞生、1983年的神经网络的复兴及2006年的深度学习的崛起。神经网络的诞生(1943—1969年)在1943年,心理学家WarrenMcCulloch和数学家WalterPitts和最早描述了一种理想化的人工神经网络,并构建了一种基于简单逻辑运算的计算机制。他们提出的神经网络模型称为MP模型。阿兰·图灵在1948年的论文中描述了一种“B型图灵机”。(赫布型学习)1951年,McCulloch和Pitts的学生MarvinMinsky建造了第一台神经网络机,称为SNARC。Rosenblatt[1958]最早提出可以模拟人类感知能力的神经网络模型,并称之为感知器(Perceptron),并提出了一种接近于人类学习过程(迭代、试错)的学习算法。神经网络的发展历程23神经网络的发展历程(二)
神经网络之后经历了长达10年的冷落期,主要由于当时基本感知机无法处理异或回路,并且计算机处理能力还非常有限。1974年,哈佛大学的PaulWebos发明反向传播算法,但当时没有收到重视。随后几年,反向传播算法引起了新的复兴。神经网络的复兴1983年,加州理工学院的物理学家JohnHopfield对神经网络引入能量函数的概念,并提出了用于联想记忆和优化计算的网络(称为Hopfield网络),在旅行商问题上获得当时最好结果,引起轰动。1984年,GeoffreyHinton提出一种随机化版本的Hopfield网络,即玻尔兹曼机。1986年,DavidRumelhart和JamesMcClelland对于联结主义在计算机模拟神经活动中的应用提供了全面的论述,并重新发明了反向传播算法。GeoffreyHinton[1986]等人将引入到多层感知器。神经网络的发展历程24神经网络的发展历程(三)
在20世纪90年代中期,神经网络虽有统计学习理论和支持向量机为代表的机器学习模型兴起,但也由于理论基础不清晰、优化困难、可解释性差等缺点更加凸显,神经网络进入又一次低潮期。直到2006年后,深度学习的提出将神经网络推向了又一个高潮。深度学习的崛起2006年深度学习诞生。HintonandSalakhutdinov[2006]发现多层前馈神经网络可以先通过逐层预训练,再用反向传播算法进行精调的方式进行有效学习。深度的人工神经网络在语音识别和图像分类等任务上的巨大成功。随着大规模并行计算以及GPU设备的普及,计算机的计算能力得以大幅提高。此外,可供机器学习的数据规模也越来越大。在计算能力和数据规模的支持下,计算机已经可以训练大规模的人工神经网络。第三节神经网络的产生机理1.3大脑研究的基本情况26计算机的语义表示局部表示One-Hot向量分布式表示压缩、低微、稠密向量脑组织的基本组成27大脑的基本工作原理28第四节生物神经网络基础1.4生物神经网络基础30神经元的基本结构神经细胞是构成神经系统最基本的单位,故称为神经元。包括神经细胞体(Soma),树突(Dendrites),轴突(Axon)和突触(Synapse)4个部分。神经元基本结构如右图所示轴突细胞体突触树突神经元的基本分类31神经元的基本分类按神经元突起的数目分类假单极神经元(PseudounipolarNeuron)双极神经元(BipolarNeuron)多极神经元(MultipolarNeuron)按神经元的功能分类感觉神经元运动神经元中间神经元神经元的信息传递机理32神经元之间信息的产生神经元之间的信息产生神经元之间的信息传递神经元之间的信息整合神经系统功能33生物神经网络的构成34生物神经网络多个多个生物神经元以确定的方式和拓扑结构相互连接即形成生物神经网络。假单极神经元(PseudounipolarNeuron)双极神经元(BipolarNeuron)多极神经元(MultipolarNeuron)按神经元的功能分类感觉神经元运动神经元中间神经元总结35绪论与深度学习有关的几个概念人工智能机器学习表示学习神经网络与深度学习的发展历程神经网络的诞生神经网络的复兴深度学习的崛起神经网络的产生机理生物神经网络基础谢谢!第二章
人工神经网络计算人工神经网络计算38
20世纪80年代中后期,最流行的一种连接主义模型是分布式并行处理(ParallelDistributedProcessing,PDP)模型。它有3个主要特性:信息表示是分布式的(非局部的)记忆和知识存储在单元之间的连接上通过逐渐改变单元之间的连接强度来学习新的知识第一节神经网络的概述2.1神经网络概述40第二节人工神经元模型2.2人工神经元模型42
人工神经元(ArtificialNeuron)(或称神经元)是神经网络操作的基本信息处理单位,主要模拟生物神经元的结构和特性,接受一组输入信息后,经过信号处理、加工产生输出。每个神经元都是一个多输入、单输出的信息处理单元。神经元输入分兴奋性输入和抑制性输入两种类型。神经元具有空间整合特性和阈值特性。神经元输入与输出间有固定的时滞,主要取决于突触延搁。忽略时间整合作用和不应期。神经元本身是非时变的,即其突触时延和突触强度均为常数。基本神经元模型43神经元基本模型突触,用其权值标识。加法器,用于求输入信号被神经元的相应突触权值加权的和。这个操作构成一个线性组合器。激活函数,用于限制神经元的输出振幅。由于它将输出信号压制(限制)为允许范围内的一个定值,所以激活函数也称为压制函数。通常,一个神经元输出的正常幅度范围可写成闭区间[0,1]或[-1,1]。44常用激活函数45阈值函数
阈值函数又叫阶跃函数,分为单极性阈值函数和双极性阈值函数。单极性阈值函数的定义及图示双极性阈值函数的定义及图示常用激活函数46Sigmoid函数
Sigmoid函数图形是S形的,称为S型函数,又叫压缩函数,是严格递增函数。Logistic函数,也叫逻辑特斯函数,其一般形式为tanh函数也称为双曲正切函数,定义为常用激活函数47ReLU函数
ReLU函数也叫Rectifier函数,是深度神级网络中经常使用的激活函数。常见的激活函数及其导数48Softmax输出分类49Softmax输出分类Softmax函数也称归一化指数函数或多项(Multinomial)、多类(Multi-Class)的回归。Softmax函数50Softmax向量表示Softmax函数也称归一化指数函数或多项(Multinomial)、多类(Multi-Class)的回归。Softmax应用举例51Softmax应用举例52第三节神经网络结构2.3神经网络结构54神经网络结构
人工神经网络由神经元模型构成,这种由许多神经元组成的信息处理网络具有并行分布结构。单层前馈网络最简单的分层网络,直接由源节点构成输入层,直接投射到神经元输出层。多层前馈网络多层前馈网络是由多个单层网络连接而成的。反馈网络又称联想记忆网络,网络中的神经元不但可以接收其他神经元的信息,也可以接收自己的历史信息。图网络图网络是前馈网络和反馈网络的泛化,包含很多不同的实现方式,如图卷积神经网络、图注意力网络等。神经网络结构图示55单层前馈网络多层前馈网络反馈网络图网络第四节神经网络学习方法2.4神经网络的学习方法57无监督学习的Hebb算法Hebb算法是由Hebb在1961年提出的。该算法认为,连接两个神经元的突触的强度按下列规则变化:当两个神经元同时处于激活状态时,强度被加强;否则被减弱。用数学形式表示如下:监督学习的Delta算法在监督学习训练算法中,最为重要、应用最普遍的是Delta规则。1960年,Widrow和Hoff提出了如下形式的Delta规则:第五节神经网络损失函数2.5神经网络的损失函数59均方差损失函数
神经网络的损失函数60平均绝对误差损失函数
神经网络的损失函数61交叉熵损失函数
神经网络损失函数62
神经网络损失函数63交叉熵损失函数当分类任务为二分类任务时,模型最后需要预测的结果只有两种情况,因此,对于每个类别,预测得到的概率为y和1-y,其表达式为
但分类任务为多分类任务时,其表达式为第六节神经网络的学习规则2.6极大似然估计65似然函数定义
概率模型的训练过程就是参数估计过程。似然函数的重要性不是它的取值,而是当参数变化时,概率密度函数到底是变大还是变小。分布式表示压缩、低微、稠密向量经验风险最小化准则66过拟合和欠拟合67过拟合定义结构化最小准则过拟合与欠拟合68欠拟合与过拟合正好相反,即表示模型不能很好地拟合训练数据欠拟合与过拟合图示第七节梯度下降法2.7梯度下降法70梯度下降法71一维梯度下降梯度下降法72一维梯度下降梯度下降法73多维梯度下降随机梯度下降74随机梯度下降随机梯度下降75第八节网络正则化方法2.8L1和L2正则化77提前停止78权重衰减79权重衰减在每次参数更新时,引入引入一个衰减系数w。在标准的随机梯度下降中,权重衰减正则化和L2正则化的效果相同。在较为复杂的优化方法(比如Adam)中,权重衰减和L2正则化并不等价。数据增强80神经元的基本分类
图像数据的增强主要是通过算法对图像进行转变,引入噪声等方法来增强数据的多样性。数据增强的方法旋转(Rotation)变换:将图像按顺时针或逆时针方向随机旋转一定角度;翻转(Flip)变换:将图像沿水平或垂直方法随机翻转一定角度;缩放(ZoomIn/Out):将图像放大或缩小一定比例;平移(Shift)变换:将图像沿水平或垂直方法平移一定步长;加噪声(Noise):加入随机噪声。尺度变换:对图像按照指定的尺度因子进行放大或缩小;或者参照SIFT特征提取思想,利用指定的尺度因子对图像进行滤波,构造尺度空间。尺度变换用来改变图像内容的大小或模糊程度标签平滑81标签平滑
假设训练集中有一些样本的标签是被错误标注的,那么最小化这些样本上的损失函数会导致过拟合。一种改善这种过拟合的正则化方法是标签平滑(LabelSmoothing),或者称为标签平滑正则化(Label-SmoothingRegularization)。输出标签中添加噪声来避免模型过拟合。一个样本x的标签一般用onehot向量表示。引入一个噪声对标签进行平滑,即假设样本以ϵ的概率为其它类。平滑后的标签为第九节模型评估方法2.9混淆矩阵83准确率、精确率、召回率84准确率、精确率、召回率85神经元的基本分类准确率(Accuracy)又称正确率,为最常用的分类评价指标,表示正确预测的各分类的数量/总数精确率(Precision)也叫精度或查准率。类别c的精确率是所有预测为类别c的样本中预测正确的比例
召回率(Recall)也叫查全率。类别c的召回率是所有真实标签为类别c的样本中预测正确的比例F值(FMeasure)是一个综合指标,为精确率和召回率的调和平均ROC/AUC/PR曲线86ROC曲线
ROC(ReceiverOperatingCharacteristic)曲线又称为接受者操作特征曲线。其各点含义为点(0,1):FPR=0、TPR=1,意味着FN=0且FP=0,将所有的样本都正确分类。点(1,0):FPR=1、TPR=0,是最差分类器,避开了所有正确的答案。点(0,0):FPR=TPR=0、FP=TP=0,分类器把每个样本都预测为负例。点(1,1):FPR=TPR=1、FP=TP=1,分类器把每个样本都预测为正例。ROC/AUC/PR曲线87AUC曲线
AUC(AreaUnderCurve)的值为ROC曲线下面的面积,若分类器的性能极好,则AUC的值为1。一般AUC的值在0.5到1之间。AUC的值越大的分类器,模型的性能越好。AUC=1:绝对完美的分类器,100%识别真正例和假负例,不管阈值如何设置,都会得出完美预测。0.5<AUC<1:优于随机猜测。如果这个分类器的阈值设置得好,则可能有预测价值。AUC=0.5:与随机猜测一样,表示模型的区分能力与随机猜测没有差别。AUC<0.5:比随机猜测还差,不存在AUC<0.5的情况。ROC/AUC/PR曲线88PR曲线
总结89本章小结人工神经元模型神经网络结构神经网络的学习方法神经网络的损失函数神经网络的学习规则梯度下降法网络正则化方法模型评估方法谢谢!第三章
多层感知神经网络多层感知器神经网络92多层感知器神经网络多层感知器(MultilayerPerceptron,MLP)是一种前馈神经网络(FeedforwardNeuralNetwork,FNN),是神经网络中的一种典型结构,是最早被设计并实现的人工神经网络。在前馈神经网络中,各神经元分别属于不同的层。每层的神经元都可以接收前一层的神经元信号,并产生信号输出到下一层。它由输入层、中间层(也称为隐藏层)和输出层(最后一层)构成。我们主要关注采用误差反向传播进行学习的神经网络,神经元之间的连接权重就是需要学习的参数,可以在机器学习的框架下通过梯度下降法来进行学习。作为对人工神经网络的初步认识,本章主要介绍感知器神经网络和反向传播网络。第一节感知器及其发展过程3.1感知器及其发展过程94感知器及其发展过程1943年,McCulloch和Pitts发表了他们关于人工神经网络的第一个系统研究。1947年,他们又开发出了一个用于模式识别的网络模型——感知器,通常就叫作M-P模型,即阈值加权和模型。在20世纪40年代初步感知器呈现出其功能及诱人的发展前景。20世纪60年代,感知器的研究获得了较大的发展,并展示出较为乐观的前景。1962年,美国心理学家Rosenblatt证明了关于感知器的学习能力的重要结论,并宣布人工神经网络可以学会它能表示的任何东西。图3-1单输出的感知器图3-2多输出的感知器第二节感知器的学习算法3.2离散单输出感知器算法离散单输出感知器学习算法96离散单输出感知器模型
如图3-1所示,最简单的感知器模型,是生物神经元的简单模拟,如权重(突触)、偏置(阈值)及激活函数(细胞体)。如果激活函数选择阈值函数,那么输出值应为+1或-1,简称为二值函数。离散多输出感知器学习算法97离散多输出感知器算法如图3-2所示。假定X和Y分别是维数为m的输入向量和维数为n的期望输出向量。其中,Y为输入向量X对应的期望输出向量,O为X对应的实际输出向量。多层感知器线性处理问题98异或问题Minsky在1969年就指出感知器甚至无法解决像“异或”这样简单的问题。“异或”运算的定义:
表3-1异或运算的真值表这种由单神经元感知器不能表达的问题被称为线性不可分问题。99异或问题Minsky在1969年就指出感知器甚至无法解决像“异或”这样简单的问题。表3-2给出了含有两个自变量,且只取0或1的所有这种函数的定义因此,当Minsky给出感知器的这一致命缺陷时,使人工神经网络的研究跌入漫长的黑暗期。线性不可分问题的解决100神经网络的发展历程101神经网络的发展历程(一)
神经网络经历了起伏跌宕、波澜壮阔的发展周期,其中有3次标志性的热潮,分别是1943年的神经网络的诞生、1983年的神经网络的复兴及2006年的深度学习的崛起。神经网络的诞生(1943—1969年)在1943年,心理学家WarrenMcCulloch和数学家WalterPitts和最早描述了一种理想化的人工神经网络,并构建了一种基于简单逻辑运算的计算机制。他们提出的神经网络模型称为MP模型。阿兰·图灵在1948年的论文中描述了一种“B型图灵机”。(赫布型学习)1951年,McCulloch和Pitts的学生MarvinMinsky建造了第一台神经网络机,称为SNARC。Rosenblatt[1958]最早提出可以模拟人类感知能力的神经网络模型,并称之为感知器(Perceptron),并提出了一种接近于人类学习过程(迭代、试错)的学习算法。神经网络的发展历程102神经网络的发展历程(二)
神经网络之后经历了长达10年的冷落期,主要由于当时基本感知机无法处理异或回路,并且计算机处理能力还非常有限。1974年,哈佛大学的PaulWebos发明反向传播算法,但当时没有收到重视。随后几年,反向传播算法引起了新的复兴。神经网络的复兴1983年,加州理工学院的物理学家JohnHopfield对神经网络引入能量函数的概念,并提出了用于联想记忆和优化计算的网络(称为Hopfield网络),在旅行商问题上获得当时最好结果,引起轰动。1984年,GeoffreyHinton提出一种随机化版本的Hopfield网络,即玻尔兹曼机。1986年,DavidRumelhart和JamesMcClelland对于联结主义在计算机模拟神经活动中的应用提供了全面的论述,并重新发明了反向传播算法。GeoffreyHinton[1986]等人将引入到多层感知器。神经网络的发展历程103神经网络的发展历程(三)
在20世纪90年代中期,神经网络虽有统计学习理论和支持向量机为代表的机器学习模型兴起,但也由于理论基础不清晰、优化困难、可解释性差等缺点更加凸显,神经网络进入又一次低潮期。直到2006年后,深度学习的提出将神经网络推向了又一个高潮。深度学习的崛起2006年深度学习诞生。HintonandSalakhutdinov[2006]发现多层前馈神经网络可以先通过逐层预训练,再用反向传播算法进行精调的方式进行有效学习。深度的人工神经网络在语音识别和图像分类等任务上的巨大成功。随着大规模并行计算以及GPU设备的普及,计算机的计算能力得以大幅提高。此外,可供机器学习的数据规模也越来越大。在计算能力和数据规模的支持下,计算机已经可以训练大规模的人工神经网络。第四节反向传播算法3.4反向传播算法105误差反向传播算法
1974年哈佛大学的PaulWerbos发明了反向传播算法(BackPropagation,BP)。在1986年得到广泛的应用。误差反向传播学习由两次通过网络不同层的传播组成一次前向传播和一次反向传播。在前向传播中,网络的突触权值全部固定了。在反向传播中,突触权值全部根据突触修正规则调整。误差反向传播学习定义在感知器算法中,期望输出和实际输出用来估计直接到达该神经元的连接权重的误差。这个误差信号通过网络反向传播,与突触连接方向相反,因此叫作误差反向传播。误差反向传播算法通常称为反向传播算法或简称反向传播。反向传播多层感知器模型106反向传播多层感知器网络结构
在前馈多层感知器的应用中,它包含有输入层、输出层以及若干隐藏层。隐藏层的神经元称为隐藏单元。反向传播算法的原理107108109110111112梯度消失和梯度爆炸问题113梯度消失当使用激活函数Sigmoid时当使用激活函数tanh时梯度消失和梯度爆炸问题114梯度爆炸梯度爆炸推理结论梯度消失或梯度爆炸问题的解决115练习116反向传播网络的数据拟合问题
建立两个数据集,一个用于网络训练,另一个用于测试;假设具有单个隐藏层,利用训练集计算网络的突触权重;通过使用数据给网络的计算精度赋值;使用单个隐藏层,但隐藏神经元的数目可变,研究网络性能是如何受隐藏层大小变化的影响的。总结117多层感知器神经网络感知器及其发展过程感知器学习方法多层感知器的应用实现反向传播算法谢谢!第四章
自组织神经网络第一节竞争学习的概念与原理4.1竞争学习的概念与原理121竞争学习规则
在竞争学习规则中,采用的典型学习规则称为胜者为王(WinnerTakeAll)。该算法可分为3个步骤。向量归一化。寻找获胜神经元。网络输出与权值调整。竞争学习的概念与原理122竞争学习规则
在竞争学习规则中,采用的典型学习规则称为胜者为王(WinnerTakeAll)。该算法可分为3个步骤。网络输出与权值调整。竞争学习的概念与原理123竞争学习原理
设输入模式为二维向量,归一化后其矢端可以看作分布在单位圆上的点,用“o”表示。设竞争层有4个神经元,对应的4个内星权向量归一化后也标在同一单位圆上,用“*”表示。从输入模式点的分布可以看出,它们大体上聚集为4簇,因而可以分为4类。通过竞争机制自动发现样本空间的类比划分第二节SOFM网络4.2SOFM网络125SOFM网络
1981年,芬兰赫尔辛基大学的Kohonen教授提出了一种自组织特征映射网络(Self-OrganizingFeatureMap,SOFM),又称Kohonen网络。Kohonen认为,一个神经网络在接受外界输入模式时,将会分成不同的对应区域,各区域对输入模式具有不同的响应特征,而且这个过程是自动完成的。自组织映射正是基于此提出来的,其特点与人脑的自组织特性相类似。SOFM网络结构网络输出与权值调整。SOFM网络126SOFM网络
网络结构的输出层SOFM网络127运行原理SOFM网络128学习过程SOFM网络129两个阶段的学习自组织(粗分类)阶段。这一阶段一般需要上千次迭代,使训练样本经网络映射后得到位置大致正确的获胜单元。采用高斯函数:收敛(细化)阶段。第三节ART网络4.3ART网络131概述1976年,美国波士顿大学学者Carpenter和Grossberg提出了自适应共振理论(AdaptiveResonanceTheory,ART)。他们多年来一直试图为人类的心理和认知活动建立统一的数学理论,ART就是这一理论的核心部分。随后,Carpenter又与Grossberg提出了ART网络。经过多年的研究和不断发展,ART已有3种形式:ARTⅠ型,用于处理双极型或二进制信号;ARTⅡ型,是ARTⅠ型的扩展形式,用于处理连续型模拟信号;ARTⅢ型,是分级搜索模型,兼容前两种结构的功能并将两层神经元网络扩大为任意多层神经元网络。由于ARTⅢ型在神经元的运行模型中纳入了生物神经元的生物电化学反应机制,因而具备很强的功能和可扩展能力。ART的网络132
ART网络的基本结构ART网络133ART网络结构
网络结构如上图。比较层识别层控制信号ART网络134网络运行与训练控制信号ART网络135网络运行与训练ART网络136网络运行与训练ART网络137网络运行的参数说明第四节自组织网络算法实现4.4自组织神经网络的算法实现139神经网络的发展历程(三)本章总结140自组织竞争神经网络竞争学习的概念与原理竞争学习规则竞争学习原理SOFM网络SOFM网络结构运行原理学习过程两阶段学习ART网络ART网络结构网络运行与训练网络运行参数说明算法实现谢谢!第五章
径向基函数神经网络第一节径向基函数神经网络5.1径向基函数概述144径向基函数介绍及结构1985年,Powell提出了多变量插值的径向基函数(RadialBasisFunction,RBF)方法。1988年,Broomhead和Lowe率先将径向基函数应用于神经网络设计,从而构成了径向基函数神经网络。径向基函数神经网络的结构与多层前向网络的结构相似,也是一种前馈神经网络,且是一种3层前向网络:第1层是输入层,由信号源点组成;第2层为隐藏层,单元数视所描述问题的需要而定;第3层为输出层,对输入模式的作用做出响应。从输入层空间到隐藏层空间的变换是非线性的,而从隐藏层空间到输出层空间的变换是线性的。隐藏单元的变换函数是径向基函数,是一种局部分布的对中心点径向对称衰减的非负非线性函数。构成径向基函数神经网络的基本思想是:用径向基函数作为隐藏单元的“基”,构成隐藏层空间,这样就可将输入向量直接(不通过权连接)映射到隐藏层空间。当径向基函数的中心点确定以后,这种映射关系也就确定了。而从隐藏层空间到输出层空间的映射是线性的,即网络的输出是隐藏单元输出的线性加权和,此处的权即网络可调参数。第二节函数逼近与内插5.2函数逼近与内插146插值问题的定义函数逼近与内插147径向基函数的一般形式函数逼近与内插148径向基函数的一般形式(续)函数逼近与内插149径向基函数的性质Gauss(高斯)函数ReflectedSigmoidal(反型S型)函数InverseMultiquadrics(逆多二次)函数第三节径向基函数神经网络学习5.3径向基函数神经网络学习151随机选取径向基函数中心
在径向基函数神经网络中,输出层和隐藏层完成的任务是不同的,因而它们的学习策略(规则)也不相同。输出层对线性权值进行调整,采用的是线性优化策略,因而学习速度较快;而隐藏层对变换函数(格林函数)的参数进行调整,采用的是非线性优化策略,因而学习速度较慢。由此可见,两个层次的学习过程的时标(Timescale)也是不同的,因而学习一般分两个层次进行。下面介绍径向基函数神经网络常用的学习方法。径向基函数神经网络学习152随机选取径向基函数中心径向基函数神经网络学习153自组织学习选取径向基函数中心径向基函数神经网络学习154自组织学习选取径向基函数中心径向基函数神经网络学习155监督学习选取径向基函数中心径向基函数神经网络学习156监督学习选取径向基函数中心径向基函数神经网络学习157监督学习选取径向基函数中心本章小结158径向基函数神经网络径向基函数介绍及结构函数逼近与内插插值问题的定义径向基函数的一般形式径向基函数的性质径向基函数神经网络学习随机选取径向基函数中心自组织学习选取径向基函数中心监督学习选取径向基函数中心谢谢!第六章
卷积神经网络原理与实践目录CONTENTS视觉先验与卷积思想经典CNN演进高效与轻量化训练技巧与调优应用拓展与实战总结与前沿视觉先验与卷积思想01图像局部性与参数灾难从图像的两大先验出发,揭示全连接网络的固有缺陷,引出卷积设计的核心动机。局部相关性图像中相邻像素构成有意义的局部特征(如边缘、角点)。平移不变性物体的特征表示不应随其在图像中的位置变化而改变。全连接层的困境处理高分辨率图像时,参数量爆炸,且无法有效利用空间结构信息,导致严重的过拟合风险。卷积核几何与滑动计算核心参数卷积核大小(KernelSize):定义感受野,如3x3。步幅(Stride):滑动步长,控制输出尺寸下采样。填充(Padding):边缘补零,保持输入输出尺寸一致。输出尺寸计算
(O:输出尺寸,I:输入尺寸,K:核大小,P:填充,S:步幅)多通道卷积与参数张量输入特征图(C_inxHxW)卷积核(C_outxC_inxKxK)输出特征图(C_outxH'xW')参数量
计算量(FLOPs)
池化层:降维与不变性增强通过下采样减少特征图空间尺寸,降低参数量和计算量,同时增强模型对微小变形的鲁棒性。最大池化(MaxPooling)取窗口内的最大值,保留最显著的特征响应。平均池化(AveragePooling)取窗口内的平均值,保留背景信息,平滑特征。经典CNN演进02经典之路:LeNet-5与手写数字识别历史意义LeNet-5是CNN的开山之作,其在MNIST数据集上将测试误差降至0.7%,证明了CNN在实际应用中的巨大潜力。LeNet-5架构输入32x32Conv16@28x28Pool16@14x14Conv216@10x10Pool216@5x5FC120-84-10(Conv:卷积,Pool:池化,FC:全连接)AlexNet:深度、ReLU与历史突破AlexNet在2012年ImageNet竞赛中以巨大优势获胜,开启了深度学习时代。其核心在于更深的网络、ReLU激活函数和GPU并行训练。性能飞跃ImageNetTop-5错误率从26%降至15%更深的网络(5Conv+3FC)更强的特征表达能力ReLU激活函数缓解梯度消失,加速训练Dropout正则化有效防止过拟合VGG:小核的深层堆叠哲学VGG通过反复堆叠3x3的小卷积核,证明了增加网络深度是提升性能的有效途径。3x3Conv(stride1)3x3Conv(stride1)5x5Conv(近似)更多非线性(更多ReLU)VGG-16配置示例(部分)224x224x3112x112x6456x56x12828x28x256Inception:并行与多尺度特征融合并行多分支在同一层并行使用不同大小的卷积核(1x1,3x3,5x5)和池化,提取多尺度特征。1x1瓶颈层在3x3和5x5卷积前使用1x1卷积降维,大幅减少计算量,实现稀疏结构转为密集计算。ResNet:残差学习与恒等映射
革命性突破成功训练152层的极深网络,ImageNetTop-5错误率降至3.6%以下。残差网络变体与进化WideResNet增加网络宽度(通道数),而非深度。在CIFAR数据集上,WRN-40-4比ResNet-1001表现更好,训练更快。ResNeXt引入“基数”概念,在残差块中使用分组卷积。通过多分支结构提升性能,而无需大幅增加参数。Pre-Activation将BN和ReLU移至卷积层之前,形成“BN-ReLU-Conv”结构,改善梯度流动,使训练更稳定。高效与轻量化03高效之路:深度可分离卷积将标准卷积分解为两步,在保持性能的同时,大幅减少参数量和计算量,是移动端轻量级网络的核心。DepthwiseConv逐通道滤波,一个卷积核负责一个通道。PointwiseConv1x1卷积,跨通道组合特征。MobileNetV2:倒置残差与线性瓶颈低维(输入)扩展(1x1)高维深度卷积(3x3)高维投影(1x1Linear)低维低维(跳跃连接)倒置残差先通过1x1卷积扩展通道数,提取特征后再压缩回低维,与输入相加。线性瓶颈在最后的投影层去除非线性激活函数,以保护低维特征信息,避免信息丢失。注意力机制:Squeeze-and-Excitation(SE)SE模块通过显式建模通道间的相互依赖关系,自适应地重新校准通道特征响应,是一种即插即用的模块。Squeeze(压缩)通过全局平均池化,将空间维度压缩,获得全局通道描述符。Excitation(激励)通过两层全连接网络,学习通道权重,对特征进行重标定。混合注意力:通道与空间结合通道与空间注意力,实现全方位特征校准。CBAM(ConvolutionalBlockAttentionModule)是典型代表。通道注意力关注“什么”特征是有意义的,为不同通道分配权重。空间注意力关注“哪里”是有意义的区域,为不同空间位置分配权重。神经架构搜索(NAS):自动化设计NAS旨在通过算法自动搜索最优网络结构,降低人工设计成本,并针对特定硬件进行优化。定义搜索空间预设可能的网络结构组合。执行搜索策略使用RL、进化算法等寻找最优结构。评估与输出在验证集上评估性能,输出最优模型。训练技巧与调优04训练技巧:数据增强通过对训练图像进行随机变换,人为地扩充数据集,是提高模型泛化能力、防止过拟合的有效且必要手段。随机裁剪/缩放随机翻转/旋转颜色抖动MixUp/CutMix策略化搜索(如AutoAugment)可自动找到最优增强策略,在CIFAR-10上降低1.3%错误率。训练技巧:批量归一化(BN)不推荐Conv->ReLU->BNBN层放在激活函数之后,可能破坏已学习到的特征分布。推荐Conv->BN->ReLUBN层放在卷积之后、激活之前,稳定梯度流动,加速收敛。注意:训练时使用当前批次的统计量,推理时使用训练期间累积的移动平均值。训练技巧:学习率调度学习率热身(Warm-up)训练初期,学习率从0线性增加到预设值,避免模型因大学习率而发散,使训练更稳定。余弦退火(CosineAnnealing)学习率按余弦函数曲线衰减,有助于在训练末期探索更优的局部极小值,可提升0.3%的精度。训练技巧:标签平滑One-hot硬标签易使模型过度自信。标签平滑将目标分布调整为硬标签和均匀分布的混合,提升泛化性。双重增益提升ImageNet验证集0.2%精度,并改善模型置信度校准。标签分布对比原始One-Hot标签平滑后标签(ε=0.1)训练技巧:混合精度训练利用半精度浮点数(FP16)进行前向和后向计算,同时保持主权重为单精度(FP32),以加速训练并减少显存占用。FP16计算前向/后向FP32主权重更新与备份损失缩放保持梯度稳定1.5-2x训练速度提升~50%显存占用减少应用拓展与实战05跨界应用:一维CNN与文本分类将词向量序列视为一维图像,使用1D卷积捕捉局部n-gram特征,在文本分类任务中表现出色。性能与效率在AG-news数据集上达到92%准确率,训练速度比LSTM快3倍。跨界应用:语义分割与FCN全卷积网络(FCN)将分类网络的全连接层替换为卷积层,实现像素级预测,并通过反卷积上采样恢复空间分辨率。关键:跳跃连接融合深层语义特征和浅层细节特征,显著提升分割边缘的精度。跨界应用:目标检测与YOLOYOLO(YouOnlyLookOnce)将目标检测视为单阶段的回归问题,直接在输出层回归边界框位置和类别概率,实现端到端的实时检测。实时性能PASCALVOC数据集上mAP达63%,速度比两阶段方法快约5倍。跨界应用:人脸识别与度量学习通过CNN将人脸图像映射到一个嵌入空间,使得同一人脸距离近,不同人脸距离远。人脸图像CNN映射128维嵌入三元组损失(TripletLoss)优化“同类相近,异类相远”,在LFW数据集上准确率达99.2%。跨界应用:医学影像与可解释性在医疗等高风险领域,模型的可解释性至关重要。可视化工具(如Grad-CAM)能高亮病灶区域,帮助医生验证AI决策的合理性。负责任AI建立医生对AI系统的信任,是AI辅助诊断成功落地的关键。总结与前沿06CNN设计范式回顾深度可分离提升参数与计算效率残差连接解决梯度退化,训练极深网络注意力机制自适应校准特征,提升表征能力多尺度并行融合不同感受野信息合理组合这些范式,可在ImageNet上实现同等精度下40%的计算量减少。前沿挑战:VisionTransformerViT将图像切分为序列,通过自注意力机制建模全局依赖,挑战了CNN在视觉领域的统治地位。优劣权衡ViT缺乏CNN的局部归纳偏置,但在大规模数据上预训练后,性能可超越CNN,展现出更强的通用建模能力。前沿趋势:自监督与知识蒸馏自监督预训练利用无标签数据学习通用表征,提升数据效率和下游任务性能。知识蒸馏将大模型(教师)的知识迁移到小模型(学生),实现模型压缩。两者协同,可在低资源场景下实现高性能模型的部署。前沿落地:神经压缩与边缘部署为了在资源受限的边缘设备上部署CNN,模型压缩技术至关重要,旨在实现实时推理与绿色AI。剪枝(Pruning)量化(Quantization)推理加速(TensorRT)总结与展望CNN与Transformer融合结合两者优势,探索更优架构。神经架构搜索自动化降低设计门槛,加速创新。可解释性增强构建可信、负责任的AI系统。掌握经典基础,跟踪前沿动态,积极参与开源社区,共同塑造AI的未来。THANK
YOU感谢大家观看第七章
循环神经网络目
录CONTENTS01为何需要循环02RNN基本结构03门控机制突破04双向与深度扩展05序列到序列与注意目录CONTENTS01训练实践与调优02应用案例与展望为何需要循环01为何需要循环?序列数据挑战与全连接困境传统全连接网络在处理语音、文本、股价等序列数据时面临三大困境:输入定长导致信息丢失、参数爆炸引发过拟合、无法共享时序信息。循环神经网络(RNN)应运而生,通过记忆与参数共享机制,为序列建模提供了全新范式。序列数据的特性长度可变:不同样本的序列长度不一。顺序含义:元素的顺序蕴含关键信息。长程依赖:前后元素可能存在远距离关联。全连接的局限输入定长:必须截断或填充,导致信息损失。参数爆炸:连接数随输入长度指数级增长。时空隔离:无法共享和利用时序上的模式。时序依赖与统计建模目标序列建模的核心是在给定前文条件下预测下一时刻的观测。传统模型受限于马尔可夫假设,而RNN通过隐状态保留完整历史,能捕捉任意阶的依赖关系。传统模型局限N元文法、HMM等模型依赖马尔可夫假设,只能捕捉固定阶数的短程依赖,阶数增加会带来参数爆炸和稀疏性问题。RNN的优势通过隐状态保留完整历史信息,理论上可捕捉任意阶的长程依赖,模型复杂度不随依赖距离增加而爆炸。随着阶数增加,N元文法模型在语言模型上的困惑度收益递减,而RNN能持续学习更复杂的模式。RNN基本结构02RNN基本结构:隐状态递归更新
RNN随时间展开的计算图核心公式
关键特性
随时间反向传播(BPTT)机制BPTT通过将序列展开成前馈图,沿时间轴反向传播误差,其核心是梯度在时间步之间的连乘效应。1.展开计算图将RNN按时间步展开,形成前馈网络。2.应用链式法则计算损失对各时间步参数的梯度。3.连乘效应
梯度消失与长期依赖瓶颈当序列长度增加时,梯度在反向传播中会指数级衰减,导致网络无法学习长距离的模式。长序列输入(如:长句子)梯度逐层衰减(连乘效应)梯度消失(参数无法更新)结果:网络无法捕捉长距离依赖,如语言模型中的主谓一致或股价预测中的长周期波动。门控机制突破03LSTM:通过门控机制实现“记忆”长短期记忆网络(LSTM)通过引入“门”来控制信息的流动,其核心是记忆单元(CellState),它形成了一条梯度高速公路,有效缓解梯度消失问题。输入门(InputGate)控制当前输入中有多少信息被写入记忆。遗忘门(ForgetGate)控制前一时间步的记忆中有多少信息被保留。输出门(OutputGate)控制当前记忆单元中有多少信息被输出。通过门控的线性自循环,记忆单元可以长期保存信息,从而有效学习长距离依赖。GRU:更简洁的门控结构门控循环单元(GRU)通过合并门控和取消记忆单元,在保持性能的同时简化了LSTM的结构,减少了参数量。LSTM三个门:输入、遗忘、输出独立的记忆单元参数量较多简化GRU两个门:更新门、重置门取消记忆单元参数量更少,训练更快在多数任务上,GRU与LSTM性能相近,但因其结构更简单、训练更快,常被作为首选。门控思想的延伸:高速网络门控机制不仅限于RNN,其思想也被应用于前馈网络,以解决深层网络的梯度传播问题。HighwayNetworks通过变换门(TransformGate)和携带门(CarryGate),显式控制前一层信息直接通行的比例。
与LSTM的异同相同点:都通过门控机制建立了一条信息高速公路,缓解梯度消失。不同点:HighwayNetworks应用于前馈网络,门控的是层间信息;LSTM应用于循环网络,门控的是时序信息。双向与深度扩展04双向RNN:融合未来上下文双向RNN通过正反两个方向独立处理序列,将前向和后向的隐状态拼接,使当前时刻能同时利用过去和未来的信息。输入序列
前向层
后向层
拼接输出
应用场景在命名实体识别、情感分析等任务中,双向RNN能显著提升性能,因为当前词的标签往往依赖于其前后的词语。堆叠多层循环网络将RNN层按垂直方向堆叠,形成深层循环网络,上层隐状态作为下层输入,实现特征的逐级抽象,提升模型表达能力。信息流动第一层RNN提取底层特征(如词性),第二层在此基础上提取高层特征(如句法结构)。性能提升在语音识别等任务中,深层堆叠可显著降低字错误率。但需注意,更深的网络也加剧了梯度传播的挑战。序列到序列与注意05序列到序列(Seq2Seq)框架Seq2Seq模型通过编码器-解码器结构,解决了输入和输出序列长度不一致的问题,是机器翻译等任务的基础。输入序列(Source)编码器压缩上下文解码器自回归生成输出序列(Target)瓶颈问题编码器将所有信息压缩到单一固定长度的上下文向量中,对于长序列,信息损失严重,这引出了注意力机制的必要性。注意力机制:突破信息瓶颈注意力机制允许解码器在生成每个词时,动态地“关注”编码器中与当前任务最相关的部分,从而有效缓解信息瓶颈问题。编码器隐状态
对齐分数
注意力权重
上下文向量
核心思想通过可学习的对齐模型,为编码器的每个隐状态分配一个重要性权重,然后加权求和得到动态的上下文向量,供解码器使用。这实现了“软对齐”,极大提升了长序列翻译的质量。自注意力与Transformer崛起自注意力机制完全抛弃了循环结构,通过并行计算序列内任意两个位置的关联,实现了全局依赖建模,并极大提升了训练速度。并行vs串行RNN必须顺序处理序列,而Transformer可以并行计算所有位置的表示,效率更高。性能突破在机器翻译任务上,Transformer不仅训练更快,翻译质量(BLEU分数)也超越了RNN,开启了NLP的新时代。训练实践与调优06截断反向传播(TBPTT)与内存权衡在处理极长序列时,为节省内存,可采用截断BPTT,只在一个固定的时间窗口内传播梯度。优势显著降低GPU显存占用。加快模型训练速度。代价梯度精度损失,可能忽略长距离依赖。截断长度是需仔细调优的超参数。梯度裁剪:防止梯度爆炸当梯度范数超过预设阈值时,将其缩放回阈值范围内,是防止梯度爆炸、保证训练稳定的有效手段。核心思想不改变梯度的方向,只改变其大小。当梯度的L2范数超过阈值时,按比例将其缩小到阈值。该技巧与门控机制互补,是训练深层或循环网络的必备手段。LayerNorm:稳定循环单元训练LayerNormalization在单个样本内对隐藏向量进行归一化,能有效缓解内部协变量偏移,提升模型泛化能力,且与batchsize解耦。在RNN中的应用LayerNorm通常应用于RNN的循环计算内部,对门控前的线性变换结果进行归一化。实验表明,它能显著降低语音识别等任务的字错误率。Dropout在循环层中的应用为避免破坏时间一致性,Dropout在RNN中通常只应用于非循环连接(即输出到下一层或下一时间步的映射)。VariationalDropout一种更有效的策略是在每个时间步使用相同的dropout掩码(即锁定掩码),这能更好地发挥正则化效果,降低文本生成等任务的困惑度。超参数调优与早停策略系统化的超参数搜索和验证集监控是找到最优模型配置、防止过拟合的关键。1.网格/随机搜索探索隐藏维度、学习率等2.验证集监控跟踪损失/准确率3.早停(EarlyStopping)防止过拟合,节省资源早停能在验证集性能不再提升时及时终止训练,有效防止过拟合并节省计算资源。应用案例与展望07实战:字符级语言模型使用LSTM在莎士比亚文本上训练一个字符级语言模型,它可以学习拼写、句法甚至段落结构,并生成类似的文本。模型结构嵌入层→LSTM层→Softmax输出层,逐字符预测下一个字符。训练方式使用教师强制(TeacherForcing),即每一步的输入是真实的上一个字符,而非模型自己的预测。优势字符级模型对未知词汇具有天然的鲁棒性。应用:语音识别声学建模将语音信号的梅尔频谱特征序列输入双向LSTM,并连接CTC损失层,可直接将语音映射到音素或字符序列,是端到端语音识别系统的核心。模型结构梅尔频谱→双向LSTM→CTCLoss关键优势无需预先进行语音和文本的强制对齐,CTC损失自动学习这种映射关系。性能表现在TIMIT数据集上,相比传统GMM-HMM模型,字错误率相对下降40%。应用:股价预测与多因子融合将量价技术指标序列输入GRU,并拼接宏观因子进行次日收益率回归,是量化投资中的常见策略。模型优势能有效捕捉量价数据的时序模式,并在沪深300等数据集上,相比ARIMA模型,RMSE降低12%。挑战与对策金融时序噪声高、非平稳,极易过拟合。需结合强正则化(如Dropout)和早停策略。应用:工业传感器异常检测使用LSTM自编码器重构工业设备传感器序列,通过计算重构误差来判断设备是否异常,是一种有效的无监督异常检测方法。无监督优势无需大量标注的异常样本,模型通过学习正常模式来发现异常,在涡轮引擎测试集上F1分数可达0.91。落地关键异常检测的最终效果高度依赖于阈值的选择,需结合具体业务场景的容忍度进行调整。RNN的局限与未来方向尽管RNN取得了巨大成功,但其固有的局限性也催生了新的研究方向。RNN的局限梯度长度限制:难以捕捉极长距离依赖。串行计算延迟:训练和推理速度受限于序列长度。记忆容量有限:隐状态维度固定,难以存储大量信息。未来方向Transformer:完全基于注意力,并行度高。状态空间模型(SSM):如Mamba,线性复杂度。神经记忆磁带:增加外部记忆模块。尽管面临挑战,但在边缘实时场景下,轻量化的门控RNN因其高效性仍具研究价值。THANK
YOU感谢大家观看第八章
注意力与反馈网络目录CONTENTS01从注意力到反馈02自注意力崛起03Transformer骨架04视觉与通道注意力05反馈网络机制目录CONTENTS01训练与推理策略02前沿与总结01从注意力到反馈注意力机制提出背景突破传统瓶颈,实现动态对齐传统网络困境传统卷积与循环网络在建模长程依赖时面临参数冗余与距离衰减的瓶颈。核心思想诞生注意力机制通过动态权重直接关联任意位置,实现信息的灵活筛选与聚焦。软对齐与查询键值思想将输入抽象为三分支,实现可微分的加权求和Query(查询)当前待处理的信息→Key(键)用于匹配查询的索引→Value(值)实际需要提取的内容核心公式:Attention(Q,K,V)=softmax(QK^T/√d_k)VBahdanau注意力突破首次在机器翻译中引入软对齐,实现性能飞跃核心创新通过可学习的对齐分数,让解码器在生成每个词时,能动态聚焦源语言的相关词。性能提升在机器翻译任务上,BLEU分数提升4个点以上,并提供了直观的对齐可解释性。02自注意力崛起自注意力计算流程在序列内部完成计算,一步获取全局信息1.输入序列X(Seq,D)→2.生成Q,K,V线性变换→3.计算注意力ScaledDot-Product→4.输出加权求和
多头注意力机制设计并行计算,捕获多维度特征关系核心机制将Q,K,V线性投影到多个子空间,并行计算注意力,最后拼接输出。性能增益相比单头,8头注意力在机器翻译任务上BLEU提升1.8,能分别捕获句法、语义等不同关系。位置编码与顺序建模为无递归结构注入位置信息正弦/余弦位置编码使用固定公式生成,支持外推,在数据稀缺时泛化能力更强。PE(pos,2i)=sin(pos/10000^(2i/d))PE(pos,2i+1)=cos(pos/10000^(2i/d))可学习位置嵌入将位置视为可训练参数,在数据充足时可能达到更优性能。通过训练学习每个位置的向量表示,与词嵌入相加。缩放点积与维度缩放稳定训练的关键细节问题:梯度消失
方案:缩放因子
03Transformer骨架编码器层:标准化与残差保障深层网络训练的稳定与流畅输入+自注意力→残差连接→层归一化预归一化(Pre-LN)相比后归一化更利于深层模型收敛,是最佳实践。前馈网络与激活选择特征非线性变换的核心组件标准结构两层线性映射夹ReLU激活,隐藏层维度通常扩大4倍。激活选择ReLU是标准选择,GELU等变体有微小提升,但非主要瓶颈。解码器自回归与掩码确保自回归特性与信息正确流动未来掩码(Look-aheadMask)在自注意力中应用上三角负无穷掩码,确保第t个位置只能看到前t-1个位置的输出,保持自回归特性。ifj>i:mask[i,j]=-inf层数扩展与容量饱和深度与性能的权衡收益递减层数从6层增加到24层,性能提升逐渐放缓,出现容量饱和。解决方案当参数量超过阈值,需在数据规模和正则化上同步增加。04视觉与通道注意力非局部神经网络思想将自注意力从NLP迁移到视觉领域核心思想在视频或图像特征图上计算自注意力,捕获长距离时空依赖。性能提升在Kinetics动作识别数据集上,添加非局部块后Top-1准确率提升3.2个点。Squeeze激励与通道校准即插即用的通道注意力模块三步流程1.Squeeze:全局池化获通道描述。2.Excitation:全连接学习权重。3.Scale:与原特征相乘校准。性能增益SE-ResNet50参数量仅增10%,ImageNetTop-1提升1.2个点。CBAM空间与通道双重串行建模“什么”和“在哪里”串行结构先计算通道注意力,再计算空间注意力,逐层细化特征重要性。性能提升在MS-COCO目标检测任务上,mAP提升2.4个点。位置敏感与可解释为决策提供可视化依据热力图高亮通过注意力权重或梯度信号生成热力图,高亮模型关注的区域,提供可解释性。高价值场景在医疗诊断、自动驾驶等高风险场景中,帮助建立对AI决策的信任。05反馈网络机制前馈与反馈范式差异从单向传递到迭代修正前馈网络(Feed-forward)信息单向流动,缺乏高层语义对低层特征的再调控,难以进行逐步推理和细节修正。反馈网络(Feedback)通过循环连接将顶层表示反向传递,实现逐步推理与细节修正。循环CNN与迭代优化通过权重共享实现迭代式精细化预测核心思想将多个卷积块首尾相接形成循环结构,在测试时展开多次迭代以逐步细化预测。优势参数量仅为堆叠网络的1/3,图像去模糊任务PSNR提升1.5。注意力反馈与自校正自顶向下的动态特征调整核心思想高层注意力反向指导低层特征重新加权,实现自顶向下的注意力反馈,抑制背景噪声。性能提升图像分割任务mIoU提升2.1个点。时间反馈与迭代推理利用时序先验增强鲁棒性核心思想利用上一帧预测作为当前帧先验,实现时空一致性建模。性能提升多帧行人检测任务ID切换率降低15%。06训练与推理策略教师强制与计划采样缓解暴露偏差,缩小训练测试差异问题:暴露偏差训练时用真实标签,测试时依赖模型自身输出,导致误差累积。方案:计划采样按概率逐步用模型输出替换真实标签,需动态调整替换概率。迭代次数与早停在推理阶段平衡效率与精度核心问题反馈网络在测试时可展开多次迭代,需确定最佳迭代次数。早停策略通过验证集监控,当性能趋于饱和时停止迭代,防止过拟合和增加延迟。梯度流与共享权重反馈结构训练的工程细节梯度计算共享权重在反向传播时需展开计算图并按迭代次数累加梯度,易出现梯度爆炸。稳定技巧必须配合梯度裁剪和层归一化使用,以保证训练稳定。07前沿与总结注意力与反馈融合趋势互补优势,联合优化互补优势注意力提供动态权重,反馈引入迭代修正,二者结合可提升模型表达与鲁棒性。未来方向自适应迭代次数、可解释热力图反向监督、跨模态反馈等。课程回顾与展望从动态权重到双向信息流演进脉络从软对齐、自注意力到反馈迭代,核心在于提升模型的动态表达能力与信息利用效率。前沿展望在边缘部署、低监督学习背景下,轻量化、自动化、可解释性仍是重要方向。鼓励积极跟进视觉Transformer、神经记忆等前沿并参与开源实践。感谢您的观看THANK
YOU
FOR
WATCHING第九章
深度学习与网络优化目录CONTENTS优化目标与损失景观梯度算法族谱学习率调度艺术初始化与归一化正则与泛化前沿与总结优化目标与损失景观01高维非凸挑战概述深度学习损失函数特性深度学习的损失函数具有非凸、高维的特性,这使得优化过程面临诸多挑战。在高维空间中,局部极小值、鞍点和平坦区域共存,导致梯度优化方法难以找到全局最优解。参数空间的复杂性随着网络规模的扩大,参数空间呈指数级增长,这进一步增加了优化的难度。不同的初始点可能导致收敛到不同的局部极小值,影响模型的最终性能。理解损失景观的重要性理解损失景观的特性是选择合适的优化器和调整学习率的关键。只有深入了解损失函数的几何特性,才能更好地设计优化算法,提高模型的训练效率和泛化能力。局部极小与鞍点辨析局部极小与鞍点的区别局部极小是指在该点的邻域内,损失函数值达到最小;而鞍点是指在该点的某些方向上损失函数值增加,而在另一些方向上减少。在高维空间中,鞍点的数量远多于局部极小。梯度下降与逃离鞍点尽管鞍点在高维空间中更为常见,但梯度下降方法在负曲率方向上仍有可能逃离鞍点。通过适当的优化策略,可以加速逃离鞍点,提高优化效率。损失面可视化与平坦极小损失面可视化方法通过主成分分析降维,可以绘制损失面的切片图,直观地观察损失函数的几何特性。这种可视化方法有助于理解优化过程中的动态变化。平坦极小与泛化能力研究表明,平坦极小在测试集上通常具有更好的泛化性能。平坦极小的损失函数在该点附近的变化较为平缓,对输入数据的扰动具有更强的鲁棒性。批量大小与平坦度的关系实验表明,较大的批量大小可能导致模型陷入尖锐极小,而较小的批量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年度收银审核员通关考试题库含完整答案详解(典优)
- 2024-2025学年度中医执业医师试题预测试卷及参考答案详解【模拟题】
- 2024-2025学年度化验员考前冲刺练习题附答案详解【模拟题】
- 2024-2025学年度火电电力职业鉴定考前冲刺测试卷【有一套】附答案详解
- 2024-2025学年医师定期考核题库附答案详解【培优B卷】
- 2024-2025学年医学检验(士)练习题附答案详解(培优B卷)
- 2024-2025学年度粮油食品检验人员自我提分评估【典型题】附答案详解
- 智能网联汽车概论 教案 2.2 中国智能网联汽车国家标准体系
- 2024-2025学年度反射疗法师3级考前冲刺练习附参考答案详解(综合题)
- 2024-2025学年度执业药师过关检测试卷及完整答案详解(有一套)
- 小学二年级趣味数学(课堂)课件
- 人教版政治七年级下册全套课件
- 《水资源》-完整版课件
- 物资仓库消防应急预案范文
- DBJ50∕T-330-2019 增强型水泥基泡沫保温隔声板建筑地面工程应用技术标准
- 电子束曝光技术页PPT课件
- 义务教育(数学)新课程标准(2022年修订版)
- 赣美版(江西)小学四年级美术下全册教案
- 第六章-材料化学固相反应
- 工程部质量停止点检查方案说明
- 中班棉签画PPt
评论
0/150
提交评论