培训课件 -人工智能通识:第四章 深度学习_第1页
培训课件 -人工智能通识:第四章 深度学习_第2页
培训课件 -人工智能通识:第四章 深度学习_第3页
培训课件 -人工智能通识:第四章 深度学习_第4页
培训课件 -人工智能通识:第四章 深度学习_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《人工智能通识》配套课件第四章深度学习《人工智能通识》教研组本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型4.1从感知机到深度神经网络n20世纪40年代,科学家们开始探索大脑神经元的连接模型,用数学模型描述复杂的网络,提出M-P(McCulloch-Pitts)神经元模型成为神经网络研究的起点。4.1从感知机到深度神经网络n感知机工作原理:输入信号乘以相应权重,求和后加上偏置,通过阶跃函数决定是否输出。单层感知机模型为例,有N个样本的训练集xn,yn=1,其中y∈{+1,__1},定义为:4.1从感知机到深度神经网络n感知机单层感知机可通过模拟逻辑与(AND)、逻辑或(OR)、逻辑与非(NAND)函数对数据进行二分类,但无法模拟非线性可分的逻辑函数,如逻辑异或(XOR)。4.1从感知机到深度神经网络n前馈神经网络多层感知机(Muti-LayerPerceptron,MLP)增加一个或多个隐藏层,模拟更复杂的函数。MLP也被称为前馈神经网络(FeedforwardNeuralNetwork,FFN)。4.1从感知机到深度神经网络n前馈神经网络给定包含3层隐藏层前馈神经网络,对于输入向量x:y=⑴(3)(⑴(2)(⑴(1)x+b(1))+b(2))+b(3)将每个隐藏层输出看作是前一层信号仿射变换,则整个网络可以看作是嵌套的仿射函数:y=Wx+B=f(W,B;x)在构建MLP时,相邻隐藏层之间会引入非线性映射作为激活函数,调整参数。4.1从感知机到深度神经网络n激活函数4.1从感知机到深度神经网络n激活函数常见激活函数4.1从感知机到深度神经网络n激活函数常见激活函数本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型4.2深度学习中的优化与学习n损失函数平均绝对误差(MeanAbsoluteError,MAE)MSE直观易于优化,但对异常值敏感;MAE对异常值鲁棒性更强,但对所有误差的惩罚程线性关系,可能导致对大误差预测不够准确。4.2深度学习中的优化与学习n损失函数对于分类问题,通常使用交叉熵(Cross-Entropy)损失衡量模型输出概率分布交叉熵(Cross-Entropy,CE)二元交叉熵(BinaryCross-Entropy,BCE)4.2深度学习中的优化与学习n损失函数目标检测任务使用交并比(IntersectionoverUnion)损失衡量预测边界框B除考虑重叠区域,还可考虑边界框大小、形状、中心点距离和宽高比等因素,提出IoU损失变体:GIoU(GeneraliazedIntersectionoverUnion)、DIoU(DistanceIntersectionoverUnion)、CIoU(CompleteIntersectionoverUnion)等。4.2深度学习中的优化与学习n梯度下降算法梯度下降法(GradientDecent,GD)是通过迭代求解最小化目标函数的优化定义模型损失函数为J(θ),则有:给定函数fx=x2+sin(2x)+5sinx:4.2深度学习中的优化与学习n梯度下降算法4.2深度学习中的优化与学习n梯度下降算法4.2深度学习中的优化与学习n梯度下降算法BN引入两个可学习参数:缩放因子(scale)和偏移量(shift加速网络训练,减少对初始化参数的敏感性,避免出现梯度消失或爆炸问题。①计算小批量均值:xi;②计算小批量方差4.2深度学习中的优化与学习n反向传播算法反向传播是损失函数信息通过网络从后向前进行梯一个输入为x,目标为y,损失函数为J(y,)前馈神经网络,拆解为:J关于W的偏导数有:本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型4.3深度学习框架n深度学习框架提供统一的编程模型和丰富的工具库,缩短开发周期,降低开发难度。这些框架通过提供自动微分、分布式训练、易用性高的API和灵活模型构建方法,推动4.3深度学习框架蒙特利尔大学LISA实验室创建的Theano是深度学习领域的先驱之一。后因代码可读性差,缺乏求解器和可视化等不便性于2017年终止开发与维护Caffe的设计理念是提供快速、可拓展和易于使用的深度学习工具。2017年开发Caffe2,在原有基础上引入递归神经网络等技术,使其更高效、强大。4.3深度学习框架Tensorflow由谷歌大脑团队开发,通过张量、计算图、变量、会话、损失函数和优化器等核心概念表示,训练和部署深度学习模型。4.3深度学习框架Pytorch是Facebook的人工智能研究院FAIR于2017年提出的,其动态图在执行过程中动态构建,提高了模型设计和调试的灵活性,便于初学者迅速上手。4.3深度学习框架百度飞桨是百度公司于2016年推出的开源深度学习框架,是国内首个自主研发、功能丰富、开源的深度学习平台。4.3深度学习框架MindSpore是由华为2019年推出的全场景AI框架,其通过友好的API和简化调试流程使开发者能够快速上手并开发AI应用,并同时支持动态图和静态图模式。本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型4.4卷积神经网络n卷积神经网络(ConvolutionalNeuralNetwork,CNN)的提出与发展是深度学习领域一个重要里程碑之一。卷积神经网络一般是由卷积层、池化层和全连接层交叉堆叠而成。卷积神经网络三个结构特性:局部连接、权重共享以及池化。和前馈网络相比,卷积神经网络的参数更少。4.4卷积神经网络n卷积神经网络核心组成一维卷积:处理语音、文本、时间序列(金融、气象、股票等)数据。二维卷积:处理图形图像数据。三维数据:处理视频或其他高维数据。4.4卷积神经网络n卷积神经网络核心组成假设图像尺寸为5×5,卷积核尺寸为3×34.4卷积神经网络n卷积神经网络核心组成在卷积标准定义基础上,引入卷积核的零填充(ZeroPadding)和滑动步长(Stride)。例如,在上一张图像基础,上下左右边界各填充一个0:4.4卷积神经网络n卷积神经网络核心组成将一幅图像经过卷积得到的结果称为特征图(FeatureMap)不同卷积核得到不同卷积结果4.4卷积神经网络n卷积神经网络核心组成2.池化(Pooling用某一区域的统计信息(均值、中位数、最大值等)替代平均池化(AveragePooling):计算区域子块所有点平均值代表该区域所有信息。最大池化(MaxPooling):选取区域子块所有点中最大值代表该区域所有信息。4.4卷积神经网络n卷积神经网络核心组成权重值相同,参数共享的方式降低模型参数量。卷积作用于输入信号局部区域,增加网络稀疏性,防止全连接网络出现过拟合。平移不变性。4.4卷积神经网络n卷积神经网络架构探索AlexNet:2012年ImageNet竞赛冠军,ReLU激活函数替代Sigmoid或Than激活。引入Dropout正则化技术,重叠最大池化策略。(参数:60M)4.4卷积神经网络n卷积神经网络架构探索VGGNet:2014年ImageNet竞赛亚军,增加网络深度,使用3×3卷积核核2×2最大池化层。(VGG-16参数:138M)4.4卷积神经网络n卷积神经网络架构探索InceptionV1:又称GoogLeNet,并行使用不同尺寸卷积核捕获多尺度特征。(参数:4.4卷积神经网络n卷积神经网络架构探索ResNet:深度残差网络(DeepResidualNetwork,ResNet)利用残差学习方式,允许信号跳过一层或多层。(ResNet50参数:25M)4.4卷积神经网络n卷积神经网络架构探索不同深度残差网络4.4卷积神经网络n卷积神经网络架构探索DenseNet:核心部分是密集块,每一层的输出会被连接(Concatenate)作为下一层的输入。(DenseNet-121参数:7.9M)本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型4.5序列到序列模型n序列数据与序列任务序列数据(SequenceData一系列按时间或顺序的数据点,可以是图像、单词、字符、信号等形式。特点:数据点之间存在某种顺序关系或时间依赖性。解析文本的预处理步骤:文本规范化(TextNormalization)词元化(Tokenization)词嵌入(WordEmbedding)4.5序列到序列模型n序列数据与序列任务序列到序列(Seq2Seq)任务通常使用编码器-解码器(Encoder-Decoder)架构实现。机器翻译(MachineTranslation)文本生成(TextGeneration)文本摘要(TextSummarization)情感分析(SentimentAnalysis)问答系统(QuestionAnsweringSystem)对话系统(DialogueSystem)语音识别(SpeechRecognition)4.5序列到序列模型n循环神经网络的原理与结构循环神经网络(RecurrentNeuralNetwork,RNN)ht=σ(σσ…σh0,x1…,xt-2,xt-1,xt)4.5序列到序列模型n循环神经网络的原理与结构序列到类别模式:用于序列数据的分类问题,输入为序列,输出为类别。4.5序列到序列模型n循环神经网络的原理与结构同步序列到序列模式:输入序列和输出序列保持同步,每个时间步输出只依赖当前时间步的输入。4.5序列到序列模型n循环神经网络的原理与结构异步序列到序列模式:输入序列和输出序列不需要同步进行处理,也不需要保持相同长度。4.5序列到序列模型n循环神经网络的原理与结构循环神经网络面临梯度消失和梯度爆炸两大核心问题。当训练中处理长序列时,RNN中梯度随着反向传播的时间步增加而指数级减小或增大。梯度消失导致网络较早时间权重几乎不更新。梯度爆炸导致权重更新幅度过大,模型训练不稳定,甚至数值溢出。4.5序列到序列模型n基于门控单元的循环神经网络1.长短期记忆网络(LongShort-TermMemoryNetwork,LSTM)门控机制:输入门(inputgate)、遗忘门(forgetgate)和输出门(outputgate)外部状态:非线性地输出信息给隐藏层外部状态ℎt∈RD。ft=σ(wf.ℎt-1⨀xt+bf)it=σ(wi.ℎt-1⨀xt+bi)ot=σ(w0.ℎt-1⨀xt+b0)ct=ft⨂ct-1+it⨂ht=ot⨂tanhct=tanh(wc.ht-1⨀xt+bf)4.5序列到序列模型n基于门控单元的循环神经网络2.门控循环单元(GatedRecurrentUnit,GRU)简化LSTM结构,不引入额外记忆单元,用更新门(UpdateGate)和重置门(ResetGate)控制信息流动。最终更新:ht=zt⊗ht-1+(1__zt)⊗ht更新门:重置门:本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型4.6Transformer模型n谷歌研究团队与2017年首次提出Transformer模型,成功地解决了循环神经网络及其变体中计算效率低和难以并行化的问题。ViT…4.6Transformer模型nTransformer和核心组成Transformer由多个相同编码器(Encoder)层和解码器(Decoder)层组成。每个层包Network)1.注意力机制(Attention)引入查询(Query)、键(Key)、值(Value)注意力池化(AttentionPooling):用于查询与键的匹配,可使用参数化的全连接、非参数化最大池化层或平均池化层。4.6Transformer模型nTransformer和核心组成给定查询q∈Rdk,键k∈Rdk,值v∈R则有评分函数a利用softmax函数将权重和值加权:Attnsoftmax(a(q,k)⊗v)将q,k,v分别投影至多个子空间,融合每个子空间的结果得到多头注意力。MHAconcat(Head1,Head2,…HeadH)4.6Transformer模型nTransformer和核心组成2.位置编码(PositionEmbedding):在输入表示中添加位置编码融入绝对或相对位置信息。以正余弦函数固定位置编码为例:序列的第i个嵌入向量及其第2j和2j+1行上的位置编码值表示为:4.6Transformer模型Transformer中多次使用残差连接将BN层替换为层标准化(LayerNormalization)解码器在每层多头注意力前插入掩码机制4.6Transformer模型VisionTransformer(ViT):采用Transformer编码器对图像块之间的联系进行建模。引入可学习类别信息作为分类标记嵌入到图像序列信息前。本章目录4.1从感知机到深度神经网络4.2深度学习中的优化与学习4.3深度学习框架4.4卷积神经网络4.5序列到序列模型4.6Transformer模型4.6深度生成模型4.7深度生成模型n生成模型的概念来源于统计学和机器学习的基础理论,早期的生成模型包括简单的基于概率分布的模型。随着深度学习的兴起,为生成模型带来了新动力。VAE结合自动编码器和概率潜变量的思想,引入概率分布建模隐藏层表示。GAN通过生成器和判别器的对抗训练,实现对复杂数据的生成和模拟。…4.6深度生成模型n概率生成模型分布来生成新样本。概率生成模型通常包含两个功能:概率密度估计和生成样本。假设有样本数据集s={x"}=1,一个未知的数据分布p(X),并用数据样本学习一个参数化的模型pθX,近似拟合p(X),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论