版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能通识教程主讲人:XXXAI同学们好!数字化实验项目实践综合实训神经网络与深度学习目
录
6.1神经网络基础架构从生物神经元到数学模型
前向传播与反向传播神经网络的表达能力
6.2深度学习核心突破深度为何有效?梯度问题解决方案硬件与算法的共生
6.3模型与设计哲学CNN局部感知与权值共享时序建模的困境与创新模型设计的统一范式
6.4应用实例吉利银河智能驾驶自动泊车拓展学习:AI芯片:让深度学习“飞起来”的引擎图灵奖:强化学习奠基人——理查德·萨顿和安德鲁·巴尔托数字化实验项目实践综合实训第六章
神经网络与深度学习6.1神经网络的基础架构
6.2深度学习的核心突破
6.3典型模型与设计哲学6.4应用实例:智能驾驶中的深度学习与神经网络应用本章目的:当人工智能在图像识别、自然语言处理、智能决策等领域取得惊人进展时,人们不禁会问:背后的智能机制到底是什么?它们如何从海量数据中“学习”并作出判断?本章将逐步揭示这一关键问题的答案——神经网络与深度学习技术,正是支撑现代智能系统的核心计算框架。本章将从神经网络的基本原理入手,讲解其计算结构与训练机制,继而引出深度学习的发展脉络与关键模型。人工智能通识教程数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.1
从生物神经元到数学模型1.什么是神经元?神经元(neuron)是生物神经系统中最基本的信息处理单元。神经元支撑着人类的感知、记忆、推理和行动。第六章
神经网络与深度学习人工智能通识教程①树突(Dendrite):从其他神经元接收信号的“输入端”,通常呈分枝状。②细胞体(Soma):也称胞体,汇总来自树突的信号,负责初步加工。③轴突(Axon):将神经冲动向外传导,是神经元的“输出通道”。④突触(Synapse):轴突末端与其他神经元树突之间的连接点,完成信号传递。数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.1
从生物神经元到数学模型2.McCulloch-Pitts模型:人工神经元的雏形McCulloch-Pittsmodel对输入信号进行线性加权组合,再用符号函数来输出组合结果,模拟大脑复杂活动模式。第六章
神经网络与深度学习人工智能通识教程①每个神经元接收若干输入X1,X2,X3,....Xn,每个输入有对应的权重W1,W2,W3,...Wn。②神经元将加权输入求和,结果送入符号函数f()进行非线性变换。③最终的输出为:数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.1
从生物神经元到数学模型3.感知机模型感知机模型是世界上第一个具有学习能力的人工神经网络。感知机模型在“输入”位置增加了神经元节点,是一个仅包含输入层、计算与输出层的两层神经元第六章
神经网络与深度学习人工智能通识教程①输入层:输入单元只负责传输数据,并不做计算。②计算与输出层:即输出单元,根据输入层的输入来进行计算。由于感知机只有1个计算层,所以属于单层神经网络。感知机的数学模型是:b是偏置项,替代M-P神经模型的θ阈值,允许超平面平移。数字化实验项目实践综合实训3.感知机模型第六章
神经网络与深度学习人工智能通识教程
a.逻辑与、或、非运算 b.逻辑异或运算感知机模型的本质是通过对输入数据进行线性加权求和以找到也给分类超平面,实现对输入数据的分类。如图a所示,感知机模型的线性加权部分能够实现逻辑与、或、与非的运算。但是,对于异或运算,如图b,单层感知机是无法解决这种线性不可分的情况,因此科学家们提出引入非线性激活函数来增强感知机非线性的表达能力,构造出了神经网络基本单元(神经元)的最初雏形,即感知机+非线线性激活函数。数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.2
前向传播与反向传播1.前向传播:从输入到输出的推理之路前向传播是神经网络用来“做决定”的过程。输入数据从输入层进入,经过每一层神经元的加权求和、加上偏置后,再通过激活函数进行非线性变换,最终在输出层产生预测结果。第六章
神经网络与深度学习人工智能通识教程数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.2
前向传播与反向传播1.前向传播:从输入到输出的推理之路第六章
神经网络与深度学习人工智能通识教程前向传播计算过程如下:①输入层到隐藏层:计算隐藏层的输入:应用激活函数:②隐藏层到输出层:计算输出层的输入:应用激活函数:③计算损失:数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.2
前向传播与反向传播1.反向传播:从结果倒推原因的优化之路反向传播是神经网络训练中的关键步骤,用于计算损失函数相对于每个参数(权重、偏置)对损失函数的影响,以便通过梯度下降等优化算法更新参数,最小化损失函数。知道哪些“决策因素”导致了“错误决策”,然后调整它们。第六章
神经网络与深度学习人工智能通识教程反向传播计算核心思想:基于链式法则进行逐层求导。从输出层开始,逐层向前计算每个参数对损失函数的影响。数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.2
前向传播与反向传播
第六章
神经网络与深度学习人工智能通识教程为了便于理解,我们使用均方误差作为损失函数:
输出y对其输入z(2)的导数为:数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.2
前向传播与反向传播2.反向传播:从结果倒推原因的优化之路第六章
神经网络与深度学习人工智能通识教程②计算输出层参数梯度③将误差传回隐藏层首先,利用z(2)对h(1)的依赖,可以得到:④计算输入层至隐藏层的参数梯度
①从损失函数出发,计算输出层误差,其中,⊙表示逐元素乘积
由
可得到第一层的参数梯度:数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.2
前向传播与反向传播2.反向传播:从结果倒推原因的优化之路第六章
神经网络与深度学习人工智能通识教程②计算输出层参数梯度③将误差传回隐藏层首先,利用z(2)对h(1)的依赖,可以得到:④计算输入层至隐藏层的参数梯度
①从损失函数出发,计算输出层误差,其中,⊙表示逐元素乘积
由
可得到第一层的参数梯度:数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.2
神经网络的表达能力3.前向vs反向:预测与学习的双轮驱动第六章
神经网络与深度学习人工智能通识教程
前向传播像是一次基于经验的判断,反向传播则是一次基于结果的复盘和改进。两者交替进行,构成了神经网络的学习循环。对比维度前向传播反向传播目的生成预测结果优化参数以减小误差方向从输入层到输出层从输出层到输入层计算内容每层的加权求和与激活每层的梯度计算与误差反传类比点菜的推荐过程吃完后对推荐的反思与调整数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.3
神经网络的表达能力1.全局逼近定理:神经网络为何能“模拟万物”神经网络不仅仅是一个信息传递结构,更是一个强大的函数逼近器。其理论基础源于逼近定理。第六章
神经网络与深度学习人工智能通识教程
满足万有逼近定理是前馈神经网络的理论基础之一,只要提供充足的数据和足够的隐藏层神经元,采用非线性激活函数时,前馈神经网络可以逼近任意连续函数。数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.3
神经网络的表达能力2.直观理解:乐高积木式函数拼装第六章
神经网络与深度学习人工智能通识教程案例类比:①把想要建造的函数f(x)比作一座复杂的“房子”。②神经网络的隐藏层神经元,就是一块块可以拼装的“积木”(每个神经元负责构造一个小范围内的形状)。③通过不断叠加、组合这些积木,就能拼出越来越逼近原函数的形状。④当积木足够多、连接方式足够灵活时,几乎任何房子(函数)都能“拼”出来。数字化实验项目实践综合实训6.1
神经网络的基础架构
6.1.3
神经网络的表达能力2.直观理解:乐高积木式函数拼装第六章
神经网络与深度学习人工智能通识教程ReLU函数是现代深度神经网络中使用最频繁的激活函数,函数形式是ReLU本身非常简单,但多个ReLU单元叠加组合之后,具有很强的表达能力。这些单元可以通过不同的权重和偏置来“折出”不同斜率和截距的线段,从而拼接出近似任意形状的分段线性函数。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.1深度为何有效?1.浅层模型:扁平世界的天花板第六章
神经网络与深度学习人工智能通识教程
浅层神经网络,结构扁平、层数有限,通常包含输入层、输出层与最多一层隐藏层。这样的结构训练快捷、实现简便,但其本质更像是“看图识字”而非“读懂语义”--它们只能识别输入数据中最直观、最基础的特征,如图像中的颜色差异或线条走向。
在处理复杂任务时,如图像识别、语音理解、自然语言翻译等,浅层网络的这种能力显得力不从心。首先,它对高阶特征的感知力严重不足,例如图像中的轮廓、结构、甚至语义无法在浅层网络中自然涌现。其次,由于表达能力有限,浅层模型往往在面对新场景时泛化能力不佳,极易陷入过拟合的困境。就像拿放大镜看城市地图,浅层网络能看清细节,却无法看懂全貌。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.1深度为何有效?2.深度结构:通向复杂世界的阶梯第六章
神经网络与深度学习人工智能通识教程
深度神经网络,则以其层层递进的结构,构建起复杂函数映射的能力阶梯。
一般来说,神经网络层数越多,其拟合复杂函数的能力就越强,因为这增加了网络的表示能力。
深度网络通过增加层级,使得网络可以将底层的原始特征进行多次非线性组合,从而捕捉到更加抽象与复杂的模式。这种逐层组合的机制,不仅提升了模型的表达能力,更使得神经网络拥有了自动“发现规律”的能力——不再依赖手工特征工程,而是让网络自己去“看懂世界”。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.1深度为何有效?3.层次化特征学习:从边缘到语义的认知进阶第六章
神经网络与深度学习人工智能通识教程
如果说浅层模型像是拿着放大镜查看局部细节,那么深度网络就像从地面拾级而上,在每一层平台上获取新的视角,逐步形成对全局的理解。这一过程,被称为“层次化特征学习”。
以典型的图像识别任务为例,每一层网络负责提取特定层次的特征,低层网络提取简单的局部特征(如边缘、纹理),中间层组合这些特征形成更复杂的模式(如形状、轮廓),高层网络则进一步抽象出高级概念(如物体类别、语义信息)每一层网络负责提取特定层次的特征,低层网络提取简单的局部特征(如边缘、纹理),中间层组合这些特征形成更复杂的模式(如形状、轮廓),高层网络则进一步抽象出高级概念(如物体类别、语义信息)。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.1深度为何有效?3.层次化特征学习:从边缘到语义的认知进阶第六章
神经网络与深度学习人工智能通识教程
如图是一个五层神经网络在ImageNet数据集上进行训练的特征可视化结果:①Layer1(边缘提取):底层网络通过卷积核滑动,实现对图像边缘的提取。②Layer2(形状组合):第二层将多个边缘组合,感知图像中出现的基本形状。③Layer3(轮廓理解):进一步的组合与抽象,使得第三层开始理解图像中出现的完整轮廓结构。④Layer4(细节建模):轮廓基础上,网络捕捉到了颜色、纹理、局部材质等细节特征。⑤Layer5(语义识别):在顶层,网络整合所有前层信息,完成最终的语义判别。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.2梯度问题解决方案梯度问题原因分析-梯度消失第六章
神经网络与深度学习人工智能通识教程梯度消失或梯度爆炸在本质原理上其实是一样的:它们本质上都源于反向传播过程中梯度在多层之间传递时的指数级缩放,导致模型难以有效学习。梯度消失的主要原因如下:①激活函数的饱和特性:常见的激活函数(如sigmoid函数或tanh函数)在输入值较大或较小时,其导数接近于零。当梯度在反向传播时逐层相乘,如果每层的导数都接近0,最终传递到前层的梯度会迅速减小,导致网络前部几乎无法更新。②深层网络的层间累积效应:在深层神经网络中,梯度反向传播需要经过多层传递。若每一层的梯度都小于1,那么多次相乘后,整体梯度会以指数速度趋近于0,造成模型训练时参数几乎不更新,尤其在靠近输入的层上表现明显。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.2梯度问题解决方案
梯度问题原因分析-梯度爆炸第六章
神经网络与深度学习人工智能通识教程梯度爆炸的主要原因:①权重初始化不当:若网络初始权重值设置过大,反向传播时梯度也会相应放大。随着层数增加,梯度可能呈指数级增长,导致参数更新剧烈,模型训练过程出现数值不稳定甚至发散。②网络设计不合理:某些模型结构(如未优化的循环神经网络或过深的全连接网络)如果缺乏有效的梯度调控机制,会使梯度在反向传播中被持续放大。尤其在循环或堆叠较多层的结构中,这种累积放大效应更易导致梯度爆炸。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.2梯度问题解决方案(1)梯度问题解决方案--使用ReLu激活函数第六章
神经网络与深度学习人工智能通识教程在深度学习领域,激活函数的选择直接影响神经网络的训练效果和性能。ReLU函数因其简单性、高效性以及对梯度消失问题的缓解能力,成为现代深度神经网络中最常用的激活函数之一。ReLU函数表达形式为
数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.2梯度问题解决方案(1)梯度问题解决方案--使用ReLu激活函数第六章
神经网络与深度学习人工智能通识教程ReLU函数的导数形式如下:
数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.2梯度问题解决方案(2)LSTM结构第六章
神经网络与深度学习人工智能通识教程
a.RNN结构
b.按时间线展开状态图在时间序列建模中,传统的循环神经网络(rocurrentneuralnetwork,RNN)无法长期保留前面状态信息。LSTM通过“门控机制”对信息流动进行有选择性控制,有效解决了序列建模中的长期依赖问题,防止了时间维度上的梯度消失。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.2梯度问题解决方案(3)
残差连接第六章
神经网络与深度学习人工智能通识教程ResNet的设计思想是:允许网络跳过一些层的非线性变换,通过“恒等映射”引入输入直接与输出相加,也就是说,通过跳跃连接将输入数据添加到输出中,让网络学习残差部分。ResNet的优势在于它可以训练非常深的网络,而不会导致性能下降,同时使得模型能够更好地捕捉输入数据中的复杂模式和特征,提高了模型的准确性。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.3 硬件与算法的共生1.GPU并行计算:硬件设计哲学--海量计算单元第六章
神经网络与深度学习人工智能通识教程与CPU通过复杂逻辑单元逐条执行指令不同,GPU采用“小而多”的并行计算单元,每个核心单元执行简单的算术运算,却通过成千上万个单元的协同工作,实现极高的整体吞吐量。以NVIDIAA100为例(见图
):①拥有6912个CUDA核心,支持大规模并行计算,理论算力达19.5TFLOPS(FP32)。②搭载40GBHBM2显存,内存带宽高达1.6TB/s。③集成第三代TensorCore,专为矩阵乘加优化,支持FP16/FP32混合精度与稀疏性计算。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.3 硬件与算法的共生1.GPU并行计算:硬件设计哲学--多级并行协同第六章
神经网络与深度学习人工智能通识教程GPU的并行架构并非简单“堆砌计算单元”,而是通过多级并行结构实现高效协同,主要的协同方式如下:①线程块(ThreadBlock)与网格(Grid):任务被拆分为多个线程块,每个块内的线程共享局部内存并同步执行,不同线程块可独立调度,最大化硬件资源利用率。②高带宽内存(HBM)与缓存优化:深度学习模型需要频繁访问大量权重参数(如ResNet-50的2500万参数),GPU通过分层内存设计(寄存器、共享内存、全局内存)和高带宽显存(如HBM2e的1.6TB/s带宽)减少数据传输延迟。③混合精度计算与稀疏性支持:原生支持FP16/FP32混合精度训练,并通过结构化稀疏性(如2:4稀疏模式)直接跳过零值计算,进一步提升训练速度与能效比。GPU这些硬件特性,使得大规模矩阵乘加(GeneralMatrixMultiply,简称GEMM)运算效率相比CPU提升了数十倍,直接推动了深度学习、科学计算等领域的突破。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.3 硬件与算法的共生2.矩阵运算:算法层面的革新--算法优化第六章
神经网络与深度学习人工智能通识教程①块矩阵乘法(tiling):将大矩阵拆分为小块,并在共享内存中临时缓存,有效减少全局内存访问,提高吞吐量。②FFT加速卷积:利用傅里叶变换将卷积变换为频域乘法,极大降低复杂度(O(NlogN)),适用于大卷积核场景。③Winograd卷积算法:对小型卷积核进行矩阵变换预处理,减少乘法操作数,提升嵌入式和移动设备运行效率。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.3 硬件与算法的共生2.矩阵运算:算法层面的革新--模型“瘦身”:稀疏化运算革新第六章
神经网络与深度学习人工智能通识教程①非结构化剪枝:通过L1正则等手段删除无效权重,减少参数数量。②稀疏矩阵格式:使用CSR等存储结构,只存储非零元素,节省显存,减少计算负担。③动态稀疏训练(dynamicsparsity):在训练过程中实时剪枝和恢复连接,实现精度和效率双赢。数字化实验项目实践综合实训6.2深度学习的核心突破
6.2.3 硬件与算法的共生2.矩阵运算:算法层面的革新--自动化与精度控制第六章
神经网络与深度学习人工智能通识教程①计算图与链式法则:现代框架(如PyTorch、TensorFlow、PaddlePaddle、MindSpore)通过自动构建计算图进行自动反向传播,简化开发流程。②混合精度训练(mixedprecisiontraining,MPT):引入FP16参与大部分运算,通过缩放因子避免数值下溢,既节省显存又加速训练。算法革新不仅提升了计算效率,更是为了最大程度“解锁”GPU硬件的潜能数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享1.什么是感受野?——从视觉皮层谈起第六章
神经网络与深度学习人工智能通识教程
在20世纪50年代,神经生理学家Hubel和Wiesel通过在猫的初级视觉皮层(V1)中记录神经元的电活动,发现了一类非常特别的神经元:它们并不对图像整体做出反应,而是对视野中某些特定区域的边缘、方向、运动等局部特征高度敏感。这些神经元称为“感受野神经元”。这一发现揭示了视觉信息分层处理的基本规律:信息首先由低级神经元处理局部细节,随后由更高级的神经元整合成完整的图像。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享1.什么是感受野?——从视觉皮层谈起第六章
神经网络与深度学习人工智能通识教程感受野神经元反应特点如下①局部响应:仅在其感受野(receptivefield)范围内对特定刺激(例如特方向的边缘)产生强烈反应;②方向选择性:对不同方向、频率的条纹表现出选择性反应;③分层汇合:上一级神经元将多个感受野的响应汇聚,形成更大范围、更复杂的视觉特征。
Hubel&Wiesel实验模型数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享2.局部感知(LocalReceptiveField)第六章
神经网络与深度学习人工智能通识教程
在传统的前馈神经网络[如多层感知器(multilayerperceptron,MLP)]中,采用的是全连接结构,即每个神经元与前一层的所有神经元都有连接。这种方式虽然适用于低维输入,但在处理图像等高维数据时,会导致参数量急剧上升,训练难度加大,同时丢失了输入数据的空间结构信息。CNN引入局部感知机制来解决这一问题。CNN中的每个神经元不再关注整个输入,而是仅对输入中的一个局部区域敏感,也就是说,当前层的某个神经元只与前一层的一小块相邻区域(即感受野)相连。这种方式不仅显著减少了参数数量,还保留了图像的空间结构特征,有利于发现如边缘、角点、纹理等局部模式。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享2.局部感知(LocalReceptiveField)第六章
神经网络与深度学习人工智能通识教程
如图展示了全连接与局部连接的区别之处,图(a)是典型的全连接结构,所有神经元两两相连,每一条连接对应一个独立的权重参数;图(b)则是局部感知结构示意图,其中每个神经元只连接前一层中一个固定的感受野区域,连接数量大幅减少。a.全连接结构b.局部感知结构数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享2.局部感知(LocalReceptiveField)第六章
神经网络与深度学习人工智能通识教程
进一步来说,感受野的大小和形状(例如、等)由卷积核的尺寸决定,而随着层数的增加,神经元能够“看见”的区域逐渐扩大,实现由局部到全局的分层感知。如图展示了通过两层卷积之后,感受野的大小将会增加到。通过引入局部连接机制,CNN更符合图像、语音等数据的局部相关性假设,即“相邻像素之间更可能存在关联”,从而有效提升了模型的泛化能力与训练效率。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享3.权值共享(WeightSharing)第六章
神经网络与深度学习人工智能通识教程
其中,偏置b也是共享的。该运算在图像上的所有位置都使用同一个W,即实现了权值共享。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享3.权值共享(WeightSharing)第六章
神经网络与深度学习人工智能通识教程
直观地理解,权值共享意味着将卷积核视为一个“特征探测器”,例如边缘检测器或纹理识别器。在整个图像上使用同一个探测器进行扫描,就像用同一把尺子去度量每个角落,确保了一致性和高效性。
特别地,权值共享带来的另一个重要设计就是多核架构。由于单个卷积核只能捕捉一种类型的特征,为了丰富模型的表达能力,CNN通常在每个卷积层中设置多个卷积核,每个卷积核提取不同类型的图像特征(例如边缘、颜色、纹理等)。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.1 CNN:局部感知与权值共享4.CNN典型层级第六章
神经网络与深度学习人工智能通识教程现代CNN通常将以下模块反复堆叠:①卷积层(Conv):提取局部特征,包括边缘、角点、纹理等。②非线性激活(ReLU):引入非线性,防止多层卷积退化为线性变换。③池化层(Pooling):空间降采样,减少参数,增强特征稳定性(如平移不变性)。④批量归一化(BatchNorm):加速收敛、稳定训练。⑤全连接层(FC):组合全局特征,完成最终分类或回归任务。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.2RNN:时序建模的困境与创新1.RNN:给神经网络加上“记忆”第六章
神经网络与深度学习人工智能通识教程RNN的基本思想是在传统神经网络的基础上,引入“时间步”的状态传递机制,允许信息在网络的时间步骤之间传递,即:当前时刻的输出不仅依赖当前输入,还依赖前一时刻的隐藏状态(记忆)假设我们由一个输入序列x={x1,x2,x3,...,xt},RNN通过以下公式来更新其隐藏状态和输出:这种结构使得网络可以根据上下文动态调整对输入的理解,在语言模型、时间序列预测等任务中被广泛应用。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.2RNN:时序建模的困境与创新1.RNN:给神经网络加上“记忆”第六章
神经网络与深度学习人工智能通识教程从展开视角看,RNN的结构在时间轴上可以“展开”为一个链式结构,其中每一个时间步都是一个神经网络副本(权重共享),依赖于前一时刻的状态。例如,在图中,“Whattimeisit?”每个词进入RNN后都会对下一个词产生影响。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.2RNN:时序建模的困境与创新2.困境:梯度消失与爆炸第六章
神经网络与深度学习人工智能通识教程尽管其结构设计精巧,但是由于RNN对反向传播过程中对时间步的链式依赖(BackpropagationThroughTime,简称BPTT),导致它训练中却遇到了严重的梯度消失和梯度爆炸问题,即:①梯度消失:在长序列训练时,梯度反向传播会因反复乘以小于1的导数(如
函数或
函数的导数)而迅速趋近于0,导致前面时刻的参数几乎无法更新;②梯度爆炸:若反复乘以大于1的梯度值,反向传播结果将指数级膨胀,造成训练不稳定甚至模型崩溃。这使得标准RNN在处理具有长期依赖关系(long-termdependency)的任务时表现不佳。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.2RNN:时序建模的困境与创新3.创新:LSTM门控机制第六章
神经网络与深度学习人工智能通识教程为了解决上述问题,Hochreiter和Schmidhuber于1997年提出了长短期记忆网络(LongShort-TermMemory,简称LSTM)模型:在每个时间步的“记忆单元”外,引入一组称为“门控结构”的机制来控制信息流,对信息的流入、保留与流出进行精细控制,从而既能保留关键历史信息,也能及时丢弃无关噪声。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.2RNN:时序建模的困境与创新3.创新:LSTM门控机制第六章
神经网络与深度学习人工智能通识教程(1)遗忘门(ForgetGate):遗忘门根据当前输入与先前的记忆状态,动态判断哪些旧信息已经不再有用,并将这部分内容清除出记忆单元。通过遗忘门的调节,网络可以抑制过时或干扰的信息,避免它们在后续传播中积累噪声。(2)输入门(InputGate):输入门负责决定当前时刻的新信息有多少比例被写入到记忆单元中。它既衡量当前输入的重要性,又参考已有记忆的状态,以选择性地补充新知识。这一机制让LSTM能灵活地将新的、有用的信息纳入长期存储,而非一味覆盖或无限膨胀。(3)输出门(OutputGate):输出门控制根据当前输入和记忆内容,筛选出最关键的部分,既能保证网络对外反馈的准确性,也能避免一次性泄露所有内部信息。数字化实验项目实践综合实训6.3典型模型与设计哲学
6.3.2RNN:时序建模的困境与创新3.创新:LSTM门控机制第六章
神经网络与深度学习人工智能通识教程通过这三重“门”的协同作用,从而实现RNN对长期依赖关系建模:①遗忘门决定保留多少上一时刻的记忆,它通过sigmoid函数生成一个在0到1之间的系数,与旧的记忆相乘,从而“忘掉”不重要的信息;②输入门控制当前新信息的写入,分为两步:一是判断该写入多少(sigmoid),二是确定写入的内容(tanh),两者相乘后添加到记忆单元中;③输出门决定从当前记忆中输出多少内容,它将
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 借钱购买股权分红合同
- 民国时期购买房产合同
- 卡车新车购买协议合同书
- 厂房怎样购买保险合同
- 全款购买别墅合同模板
- 投影机购买及安装合同
- 购买新挖机合同协议书
- 奢侈品分期购买合同模板
- 购买中型渔船合同范本
- 旧塔吊标准节购买合同
- 中药原药材购买合同
- 2025年徐州医科大学专职辅导员招聘笔试真题(完整版+阅卷答案解析)
- 超龄劳动者用工协议
- 水产市场物业合同
- 2026《全科医学基本理论与政策》(杭州医学院)知到智慧树章节答案
- 【高考真题】2023年新高考Ⅰ卷数学
- 2025年河北石家庄市地理生物会考考试题库(含答案)
- 2026年医院药师招聘考核试题及答案详解(真题汇编)
- 2025北京海淀区五年级(下)期末语文试题及答案
- 山西国际能源集团校招试题及答案
- 骨折患者康复期人文关怀
评论
0/150
提交评论