版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
单击此处添加文本单击此处添加文本第一章
绪论1目录
|
CONTENTS深度学习简介1深度学习发展历史2深度学习分类3度量指标42深度学习简介13深度学习定义深度学习是机器学习的重要分支,通过模拟神经元和复杂网络结构实现信息处理和学习。深度学习目标让机器像人类一样具备分析和学习能力,更接近人工智能的最初目标。1.1深度学习简介深度学习概览4经典深度学习架构包括AlexNet、RNN、LSTM、GAN和Transformer,它们各自在图像、序列数据和生成模型等领域做出了重要贡献近二十年,深度学习因大数据、优化策略(如随机梯度下降、dropout)及GPU并行计算的突破,实现了快速发展深度学习的突破与进展20世纪50年代至80年代,深度学习逐步发展,从感知机到反向传播算法,为解决非线性分类铺平道路,但受限于计算能力深度学习早期探索51.1深度学习简介经典深度学习架构的诞生发展历程与突破深度学习技术广泛应用于计算机视觉、自然语言处理和语音识别等领域,实现图像识别、机器翻译和声纹识别等功能深度学习的广泛应用深度学习迅猛发展,广泛应用于生物医学、无人驾驶等领域,未来将更成熟,赋能更多场景深度学习的跨领域应用1.1深度学习简介6深度学习的应用1.1深度学习简介应用领域与价值7自然语言处理机器翻译、文本分类、命名实体识别、语义分析、文本生成语音识别声纹识别、语音转文本、语音合成其他领域生物医学、无人驾驶、工业自动化、智能家居计算机视觉图像分类、对象检测、语义分割、姿态估计、3D重建深度学习正在改变我们的生活方式深度学习发展历史28深度学习技术历程涵盖关键阶段,如神经网络早期发展、反向传播算法的提出、大数据时代的到来对深度学习的推动产业化应用进程从学术到产业,包括深度学习在图像识别、自然语言处理等领域的应用,以及在人工智能产品中的商业化进程1.2深度学习发展历史91943年,麦卡洛克和皮兹提出人工神经元模型,1958年Rosenblatt推出感知机算法,开启计算机模拟人脑的先河深度学习起源011982年,GeoffreyHinton提出反向传播算法,解决了非线性数据分类,引发第二次神经网络学习狂潮反向传播算法021982-1986年,RNN出现,但受限于记忆力短和梯度不稳定问题,未引起广泛关注循环神经网络031998年LSTM解决RNN的长序列问题,2014年GRU提出,参数更少,计算效率更高LSTM与GRU042006年,Hinton等人提出深度学习新方案,解决梯度消失,再次引发深度学习热潮深度学习复兴052012年AlexNet开启深度卷积网络新时代,后续各种CNN架构不断优化,2014年GAN创新生成式模型深度学习突破061.2.1深度学习技术的发展历史102017年,Transformer的出现彻底改变了NLP。Transformer是一类纯粹基于注意力机制的神经网络算法,其不使用循环网络或卷积。它由多头自注意力、残差连接、层归一化、全连接层和位置编码组成。在NLP各个下游任务上表现出非常优越的性能。目前,它也在改变着计算机视觉领域,并被用在机器翻译、文本摘要、语音识别、文本补全、文档搜索等多个下游任务上。1.2.1深度学习技术的发展历史111.2.1深度学习技术的发展历史12谷歌研究者将Transformer应用于图像识别,提出VisionTransformer(ViT),在计算机视觉基准测试中表现出色。VisionTransformers概述01大规模语言模型如GPT系列由OpenAI和DeepMind等开发,参数量庞大,性能持续提升,目前GPT-4在创造力和协作性上更进一步。大规模语言模型(LLM)03OpenAI的DALL·E2模型能根据文本生成高分辨率、逼真图像,引领视觉语言模型发展。视觉和语言模型02代码生成模型如OpenAICodex、DeepMindAlphaCode和MetaCodeLlama,是人工智能在编程领域的应用,能理解和生成代码,助力建设智能系统。代码生成模型04重要技术突破01Transformer在图像领域应用谷歌研究者在2020年提出VisionTransformer,对图像块序列运行Transformer,实现在图像分类任务上的显著成果,展现出强大的并行性和缩放行为02VisionTransformer架构特点使用图像patch作为输入,结合Transformer的超强并行性和缩放能力,使VisionTransformer在多个计算机视觉基准测试中表现优异,成为Cifar-10上最先进的分类模型1.2.1深度学习技术的发展历史13(1)VisionTransformers1.2.1深度学习技术的发展历史多模态模型发展视觉与语言模型结合,如文本转图像、图像字幕及视觉问答,Transformer推动统一网络,实现多任务处理DALL·E2模型OpenAI发布,显著提升图像生成质量,分辨率、匹配度与真实感优秀,代表文本转图像模型新高度图1-1
DALL·E2生成的图像14(2)视觉和语言模型01语言模型用途预测文本、文档摘要、翻译、语音识别与合成,多功能应用02GPT系列发展从GPT到GPT-3,参数量与训练数据激增,GPT-3参数达1750亿,需366年及460万美元训练03模型规模扩张NVIDIAMegatron-LM、DeepMindGopher、GooglePaLM等模型参数量超越GPT-3,规模持续扩大1.2.1深度学习技术的发展历史15(3)大规模语言模型(LLM)始于2021年,OpenAI发布Codex,微调自GPT-3,能编写、解释代码;DeepMind随后发布AlphaCode,解决编程竞赛问题,排名前54%;2023年,Meta开源CodeLlama,免费商用,自然语言生成代码AI系统如Codex、AlphaCode和CodeLlama,能根据自然语言或文本生成代码,补全代码,适用于多种编程任务,展现批判性思维与自然语言理解能力深度学习技术历史代码生成技术1.2.1深度学习技术的发展历史16(4)代码生成模型第二次发展浪潮第一次发展浪潮1956至1980年,聚焦逻辑推理,成果实用性有限,未解决实际问题1980至2006年,专家系统兴起,解决特定领域问题,如医学专家系统MYCIN,准确率媲美初级医师,但仍有限制,高昂维护成本致AI发展再次低谷第三次发展浪潮1980至2006年,第三次AI浪潮,深度学习由Hinton提出,实现技术突破,跨越理论到应用的鸿沟1.2.2深度学习产业应用的变迁史17人工智能三次发展浪潮1.2.2深度学习产业应用的变迁史2006年:Hinton提出深度学习神经网络,标志着第三次发展浪潮的开启。2012年:AlexNet在图像识别领域的突破,推动深度学习技术的普及。2024年:大模型技术的崛起,推动AI在多领域的深度应用。18深度学习技术的突破智慧交通通过大数据和AI技术优化资源配置,自动驾驶、智能交通管理成为主流AI在辅助诊断、药物研发、医疗影像等领域取得突破;联影医疗的uAI影智大模型AI+安防引领安全监控新纪元,实现高效预警和精准识别。华泰证券的智能投顾、中信证券的做市系统交通领域医疗领域安防领域金融领域AI赋能工业软件,推动制造业智能化转型;大模型技术加速工业场景需求探索工业领域1.2.2深度学习产业应用的变迁史19产业应用的变迁01市场规模2021年全球AI市场达850亿美元,中国占9.6%,仅次于美欧,预计2022年中国市场规模2729亿元02发展趋势计算机视觉与自然语言处理商业化快,2020年计算机视觉市场规模近千亿,自然语言处理产品规模219亿,年增20%1.2.2深度学习产业应用的变迁史20市场规模与发展趋势深度学习分类321有监督学习(SupervisedLearning)使用带标签的训练数据,模型学习输入与输出间的关系,适用于分类和回归问题无监督学习(UnsupervisedLearning)在无标签数据上学习,发现数据的内在结构或模式,常用于聚类和降维半监督学习(Semi-supervisedLearning)利用少量标记数据和大量未标记数据进行学习,适用于标记数据稀缺的场景自监督学习(Self-supervisedLearning)通过自我生成的标签进行学习,利用输入数据的结构信息,常用于预训练弱监督学习(Weakly-supervisedLearning)使用标注质量较低或部分缺失的训练数据,模型学习弱标签与真实标签的潜在关系1.3.1任务类型22有监督学习是指在训练过程中,数据集中的每个样本都有明确的目标输出值,模型通过学习这些样本的输入和输出关系来预测新的输出值。应用场景:分类和回归的场景,如图像分类、心脏病预测等。231.3.1.1有监督学习无监督学习的原理无监督学习通过学习输入数据间的关系,来发现数据的内在结构和规律,不依赖明确的目标输出值。241.3.1.2无监督学习自动编码器是常见的降维工具,通过编码和解码过程,将高维数据压缩为低维表示,用于数据压缩和异常检测等。降维技术01生成模型如GAN和VAE学习数据分布,生成与训练数据相似的新样本,应用于图像生成、语言建模等任务。生成模型021.3.1.2无监督学习25降维与生成模型半监督学习的定义半监督学习介于有监督学习和无监督学习之间,部分数据集中的样本有明确的目标输出值,而其他样本没有目标输出值。其目标是利用未标注的数据来提高模型在有标注数据上的性能。261.3.1.3半监督学习01半监督学习定义结合有监督和无监督学习,利用未标注数据提升模型性能03半监督学习算法包括自训练、协同训练、半监督字典学习、标签传播算法等02半监督学习分类分为纯半监督学习和直推学习,基于不同假设处理未标记数据04半监督学习挑战性能依赖于对数据的特定假设,限制了实际应用范围1.3.1.3半监督学习27图1-2主动学习、半监督学习、直推学习1.3.1.3半监督学习在许多实际应用中,获取无类标签的样例容易,但获取有类标签的样本需要特殊设备或经过昂贵且耗时的实验过程。因此,半监督学习应运而生,旨在通过结合少量有标签数据和大量无标签数据来提升学习性能。背景半监督学习避免了数据和资源的浪费,同时解决了监督学习的模型泛化能力不强和无监督学习的模型不精确等问题。优势28假定训练数据中的未标记样本并非待预测的数据,而是基于“开放世界”假设,希望学得的模型能适用于训练过程中未观察到的数据。纯半监督学习假定学习过程中所考虑的未标记样本恰是待预测数据,基于“封闭世界”假设,仅试图对学习过程中观察到的未标记数据进行预测。直推学习半监督学习类型1.3.1.3半监督学习29用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,产生伪标签(pseudolabel)或软标签(softlabel)。基于一定的准则挑选认为分类正确的无标签样本,将其加入训练集中。简单自训练(SimpleSelf-training)属于自训练的一种技术,假设每个数据可以从不同的角度进行分类,不同角度可以训练出不同的分类器。这些分类器对无标签样本进行分类,并选出认为可信的无标签样本加入训练集。由于分类器从不同角度训练,可以形成互补,提高分类精度。协同训练(Co-training)(1)自训练算法(Self-training)1.3.1.3半监督学习——主要方法30(2)基于图的半监督学习(Graph-basedSemi-supervisedLearning)标签传播算法(LabelPropagationAlgorithm)通过构造图结构(数据点为顶点,点之间的相似性为边),寻找训练数据中有标签数据和无标签数
据的关系,从而将标签信息传播到未标记的样本上。(3)半监督支持向量机(Semi-supervisedSVM,S3VM)监督支持向量机是利用结构风险最小化来分类的。半监督支持向量机则进一步利用了无标签数据的
空间分布信息,即决策超平面应该与无标签数据的分布一致(经过无标签数据密度低的地方)。(4)半监督字典学习先将有标签数据构建为字典,对无标签数据进行分类,挑选出认为分类正确的无标签样本,加入字典中(此时的字典就变成了半监督字典)。1.3.1.3半监督学习——主要方法31半监督学习方法大多建立在对数据的某种假设上,例如聚类假设(同一簇内的数据属于同一类别)和流形假设(数据在低维流形上分布)。只有满足这些假设时,半监督算法才能有性能保证。这也是限制半监督学习应用的一大障碍。假设:限制:1.3.1.3半监督学习32半监督学习的假设与限制定义:自监督学习通过利用数据本身的内在结构来预测数据中的特定关系或特征,从而使用有监督的学习算法进行训练。关键:设计合适的“伪标签”以捕获数据的结构信息。应用领域:预训练语言模型(如Word2vec)、图像分割等。1.3.1.4自监督学习33(1)基于上下文的方法原理:利用数据本身的上下文信息构造任务。CBOW:通过周围词预测中心词。Skip-Gram:通过中心词预测周围词。Word2vec:Jigsaw(拼图)任务:通过预测图像块的相对位置学习语义信息。图像领域:1.3.1.4自监督学习——主要方法34(2)基于时序的方法利用帧的相似性:相邻帧特征相似,相隔较远的帧特征相似度低。构建正样本(相似)和负样本(不相似)进行自监督约束。视频领域:图1-5时序帧相似性示意图1.3.1.4自监督学习——主要方法35原理:利用样本间的时序约束关系进行自监督学习。(3)基于对比的方法关注正负样例的构建方式。探究非线性层在对比学习中的作用。提取更好的文本序列表征。SimCLR:通过对比学习提升无监督学习性能。关注样本数量对学习质量的影响。正样本:同一张图片的两个区域;负样本:不同图片的区域。MoCo:1.3.1.4自监督学习——主要方法36原理:学习对两个事物的相似或不相似进行编码,通过对比约束构建表征。01弱监督学习定义在噪声或不准确标签数据集进行学习,从低质量标签中提取信息提升模型性能03不确切监督仅知包级标签,不知包内每个示例标签,进行粗粒度学习02不完全监督部分数据有标签,部分无标签,利用有标签数据指导无标签数据学习04不精确监督标签存在错误,模型需识别并纠正错误标签以提升准确性1.3.1.5弱监督学习37生成式模型生成式模型通过学习数据分布生成新样本,如GAN、VAE、DBN和扩散模型。它们在深度学习中用于创造新内容或辅助优化。判别式模型判别式模型是学习输入数据与输出标签间条件概率分布的非概率模型,如CNN、RNN、LSTM等。根据深度学习的目标和方式,可以将深度学习模型划分为生成式模型和判别式模型两类1.3.2模型类型38生成式模型定义与应用学习输入数据联合概率分布P(X,Y),生成新样本,如GAN、VAE、DBN、扩散模型391.3.2模型类型——生成式模型GAN架构与功能基于深度学习,由生成器与鉴别器组成,生成新内容,2014年由IanGoodfellow等人提出图1-9生成式对抗网络(GAN)VAE原理与特点通过概率建模隐含变量,结合深度神经网络与贝叶斯推理,生成类似训练数据的新数据图1-10变分自编码器(VAE)1.3.2模型类型——生成式模型40DBN结构与优势由RBMs堆叠而成,预训练生成式模型优化权重,解决深度网络局部最优与欠拟合问题1.3.2模型类型——生成式模型41扩散模型机制通过连续添加高斯噪声破坏训练数据,学习逆向去噪过程恢复数据,生成与训练数据相似样本判别式模型,又称非概率模型,是指通过学习数据集中的统计规律,对输入数据进行分类或回归。判别式模型试图学习输入数据和输出标签之间的条件概率分布P(Y|X)。判别式模型关注于“给定数据属于哪个类别”的问题,直接对输入数据进行分类或回归。常见的判别式模型有卷积神经网络(CNNS)、循环神经网络(RNNs)、长短时记忆网络(LSTM)等。1.3.2模型类型——判别式模型42度量指标443
在深度学习中,如何评估模型解决当前问题的“可用”程度,需要根据对应需求选择合适的评估指标对模型的表现进行评定。深度学习的度量指标可按任务类型大致分为三类:回归任务指标、分类任务指标、生成任务指标。1.4度量指标44分类任务指标回归任务指标使用均方误差、R2分数,衡量模型预测值与真实值接近程度,较小误差体现高可用性准确率、查准率、查全率、F1分数,分析模型分类正确率,高指标表示分类效果好生成任务困惑度、人类可读性评估等,用于判断生成内容的多样性与真实性,低困惑度表示生成能力强1.4度量指标451、偏差偏差是实际值与预测值的差,残差之和常被用来度量偏差,低偏差可能仅意味着模型不准确,因为相反符号的残差会抵消1.4.1回归任务指标46特点:衡量模型解释的方差比例,值越高拟合效果越好,但增加特征不一定会提升模型性能,可用于比较模型1)相对度量,用于模型比较。2)值越高,拟合效果越好。3)对特征数量敏感,可能随特征增加而增加。4)用于粗略估计模型性能。2、决定系数R²其中:RSS(残差平方和):预测误差的平方和。TSS(总平方和):实际值与均值的平方和。1.4.1回归任务指标47MSE的定义MSE代表平均误差,通过计算残差平方和的平均值,对大误差惩罚更重。MSE的特点MSE是尺度相关的,对异常值敏感,且误差以目标变量单位表示。3、均方误差MSE1.4.1回归任务指标48MAE是平均绝对误差,它衡量预测与目标间的平均差异,对异常值不敏感5、平均绝对误差(MAE)RMSE是MSE的平方根,它与目标变量的尺度相同,方便解释4、均方根误差(RMSE)1.4.1回归任务指标4901度量指标混淆矩阵评估分类模型,TP、FP、TN、FN区分预测正误,对角线密集表示性能好02核酸检测示例阳性为P,阴性为N,TP正确阳性,FP错误阳性,TN正确阴性,FN错误阴性,总样本=TP+FP+TN+FN03指标计算精确率、召回率、特异度反映分类效果,精确率不同于准确率Accuracy1.4.2分类任务指标50混淆矩阵准确率是正确预测数量占总预测数量的比例,在样本不平衡时可能无法准确反映模型性能准确率(Accuracy)01精确率是预测为正类的样本中,实际为正类的比例,计算公式为:Precision=(真正正类数量)/(预测为正类的总数)精确率(Precision)02召回率是实际为正的样本被预测为正的概率,它与精确率呈反比,召回率高意味着预测正的能力强召回率(Recall)03F1-Score是精确率和召回率的调和平均值,衡量二分类模型的准确性。值越大,模型越好F1-Score041.4.2分类任务指标51评估生成任务,通过比较候选译文与参考译文n-gram重合度,重合度高表示质量高。BLEU概念01计算unigram到4-gram的精确率,加权平均后乘以长度惩罚因子BP,衡量译文与参考译文的相似度。BLEU计算方法02通常取N=1到4,关注单词准确性和句子流畅性,用于评价机器翻译的性能。BLEU应用03BP惩罚因子确保译文长度不过短,1-gram精确率体现忠实原文,高阶n-gram体现流畅翻译。BLEU分数解析041.4.3生成任务指标52(1)BLEU03关注召回率,衡量n元词组在参考译句与输出间的重合,旨在评估NMT的漏翻问题。ROUGE概念解析主要应用于NMT系统,评估翻译结果是否包含足够多的原文信息,防止过度流畅导致的误译。ROUGE应用领域作为BLEU的升级,ROUGE更重视翻译内容的覆盖,而非翻译的精确匹配。ROUGE与BLEU对比011.4.3生成任务指标5302(2)ROUGEMETEOR评估指标METEOR计算流程METEOR考虑语序一致METEOR同义词处理综合准确率和召回率,考虑整个语料库表现,包含同义词匹配功能。利用WordNet扩展同义词库,对词形变化的词进行部分匹配。通过chunk分析,比较候选译文和参考译文的语序一致程度。计算最佳匹配的准确率和召回率的调和平均,评估句子流畅性。1.4.3生成任务指标54(3)METEOR衡量文本多样性指标,计算不重复ngram与总词数比例,体现回复的独特性。DISTINCT定义DISTINCT-n越大,生成的多样性越高。适用于对话系统、广告文案等任务。DISTINCT特点1.4.3生成任务指标55(4)DISTINCTGreedyMatching是计算两句话中相似度最高词的平均余弦相似度,关注点在于找出关键词。GreedyMatc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年河北沧州市教育局市直4所学校选聘高层次人才21名备考笔试试题及答案解析
- 2026事业单位招聘备考笔试试题及答案解析
- 深度解析(2026)《GBT 26013-2010二氧化锡》
- 2025江苏无锡市宜兴市部分机关事业单位招聘编外人员3人(B类)备考笔试试题及答案解析
- 2026中国物流秋季校园招聘(福建校招39人)模拟笔试试题及答案解析
- 深度解析(2026)《GBT 25773-2010燃气机熔化焊技术规范》(2026年)深度解析
- 深度解析(2026)《GBT 25667.1-2010整体硬质合金直柄麻花钻 第1部分:直柄麻花钻型式与尺寸》(2026年)深度解析
- 2025四川广安岳池县妇幼保健院招聘护士2人模拟笔试试题及答案解析
- 2025黑龙江省中医药科学院哈尔滨市南岗区曲线社区卫生服务中心招聘妇保医生1人备考考试试题及答案解析
- 2025安徽蚌埠市怀远县教育局所属事业单位紧缺专业人才引进(校园招聘)22人考试备考题库及答案解析
- 2025四川资阳现代农业发展集团有限公司招聘1人笔试历年参考题库附带答案详解
- 2025河北廊坊燕京职业技术学院选聘专任教师20名(公共基础知识)测试题附答案解析
- 0901 溶液颜色检查法:2020年版 VS 2025年版对比表
- 各部门环境因素识别评价表-塑胶公司
- 2025辽宁丹东市融媒体中心下半年面向普通高校招聘急需紧缺人才5人笔试考试参考试题及答案解析
- 律所解除聘用协议书
- 2025年10月自考04184线性代数经管类试题及答案含评分参考
- 海尔集团预算管理实践分析
- 煤矿2026年度安全风险辨识评估报告
- 2025年中国干冰发展现状与市场前景分析
- 国开2025年秋《心理学》形成性考核练习1-6答案
评论
0/150
提交评论