版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《人工智能概论》第四章机器学习及其经典算法
1目录CONTENTS01初识机器学习02学习策略与风险03监督学习类型04感知机模型05多层感知机06支持向量机目录CONTENTS01应用场景与案例02总结与展望01初识机器学习机器学习的定义与本质01机器学习的定义机器学习是研究计算机如何通过数据构建概率统计模型,并利用模型进行预测与分析的学科。它通过经验数据自动改进性能,无需显式编程。02学习者视角赫尔伯特·西蒙与米切尔分别从不同角度定义学习为系统性能的提升过程。学习是系统通过执行某个过程改进其性能的行为。03机器学习的作用机器学习通过模拟人类学习活动,获取知识与技能,从而提升系统性能,是人工智能实现智能行为的关键技术之一。
MachineLearning<T,P,E>:ComputerautomaticallyimprovesattaskT(任务)accordingtoperformancemetricP(性能)throughexperienceE(经验) ---TomMitchell6米切尔(Michell)给学习下了个比较宽广的定义,使其包括任何计算机程序通过经验来提高某个任务处理性能的行为:定义1.1
对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序从经验E中学习。78机器学习(Machinelearing)也称为统计机器学习(Statisticalmachinelearing),或称为统计学习(Statisticallearing)。什么叫做机器学习?至今还没有统一的“机器学习”的定义,也很难给出一个公认的和准确的定义。为了便于进行讨论和估计学科的进展,有必要对机器学习给出定义,即使这种定义是不完全的和不充分的。9定义1.2机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。定义1.3
机器学习是研究机器模拟人类的学习活动、获取知识和技能的理论和方法,以改善系统性能的学科。这里所说的“机器”,指的就是计算机;现在是电子计算机,以后还可能是中子计算机、量子计算机、光子计算机或神经计算机等。10机器学习的发展历程机器学习的发展分为4个时期第一阶段是在50年代中叶到60年代中叶,为热烈期,研究无知识学习。第二阶段在60年代中叶至70年代中叶,被称为机器学习的冷静时期,尝试符号概念学习。第三阶段从70年代中叶至80年代中叶,称为复兴时期,知识库与强化学习结合。机器学习的最新阶段为80年代中期至今为爆发期,神经网络复兴,多种学习方法并存。1102学习策略与风险机器学习的目的是根据给定的训练样本,估计体系输入与输出的依赖关系,使之能够尽可能准确的预测出系统的未来输出。机器学习问题一般可以表示为:变量y与x存在一定的未知依赖关系,即遵循某一未知的联合概率
机器学习问题就是根据n个独立同分布的观测样本:13损失函数与风险函数损失函数监督学习通过损失函数度量预测误差,常用0-1损失、平方损失、绝对损失、对数损失等。1.机器学习常用的损失函数有以下几种:15损失函数与风险函数损失函数度量预测模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。损失函数值越小,模型就越好。预测函数也称为学习函数、学习模型或学习机器。风险函数在模型假设空间F,求一个最优的函数进而
对x和y的依赖关系进行估计,使其期望风险最小。由于模型的输入、输出(x,y)是随机变量,遵循联合分布P(x,y),所以损失函数的期望学习的目标就是选择期望风险最小的模型。17险fengx函数18险fengx函数19险fengx函数根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。所以,一个非常自然的方法是用经验风险估计期望风险。但是,由于现实世界中训练样本数目有限,甚至很小,而用经验风险估计期望风险常常效果并不理想,需要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。20险fengx函数在假设空间F、损失函数及训练数据集DN确定的情形下,经验风险函数式就可以确定。经验风险最小化(empiricalriskminimization,ERM)策略认为,经验风险最小的模型是最优模型。根据经验风险最小化策略求最优模型就是求解最优化问题:21险fengx函数结构风险最小化(structuralriskminimization,SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penaltyterm)。在假设空间F、损失函数及训练数据集DN确定的情形下,结构风险的定义为:22险fengx函数比如贝叶斯估计中的最大后验概率估计MAP)就是结构风险最小化的典型案例。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。结构风险最小化的策略认为,结构风险最小化的模型就是最优模型。根据结构风险最小化策略求最优模型就是求解最优化问题:23经验风险与结构风险最小化经验风险最小化经验风险最小化(ERM)选择训练误差最小的模型,适用于大样本,如极大似然估计。结构风险最小化结构风险最小化(SRM)在经验风险上加模型复杂度惩罚项,权衡拟合与泛化,如最大后验概率估计。正则化的作用SRM通过正则化控制模型复杂度,提升对未知数据的预测能力,是监督学习中的核心优化目标。因此,监督问题就变成了经验风险或结构风险函数的最优化问题式(
)和式(4-11)。这时经验或结构风险函数就是最优化的目标函数。03监督学习类型机器学习类型根据样本数据的特点和求解手段,机器学习有不同的分类标准。基于学习方式的分类目前比较常用,可分为监督学习(有导师学习)、无监督学习(无导师学习)、半监督学习、增强学习。监督学习和无监督学习的主要区分为是否有标签,即数据样本是否有标准答案。监督学习是从给定的数据集中学习一个函数,当新的数据来临时,可以根据这个函数预测结果;监督学习的训练集要求是包括输入和输出,也可以说是特征和目标,而训练集中的目标是由人标注的;常见的监督学习包括分类和回归等算法。机器学习类型无监督学习:与监督学习相比,训练集没有人为标注的结果。无监督学习算法包括聚类(如K-均值聚类等)。半监督学习:介于监督学习与无监督学习之间。增强学习:通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。一、分类学习分类是机器学习的一种非常重要的方法,分类的概念是在已有数据的基础上学会一个分类函数或构造一个分类器模型。分类学习的关键在于特征的选择和模型的构建。对于样本数据需要把它们分成两个不同的集合:一个集合被称为训练数据集,用于通过算法训练获得分类器模型;另一个集合被称为测试数据集,用于测试分类器模型的分类效果。一、分类学习:离散标签的预测分类学习的目标分类是监督学习的核心任务之一,其目标是通过从已标注的训练数据中学习一个分类模型(分类器),该模型能够将新的、未知的离散类别标签的数据分配到正确的类别中。分类学习的应用分类广泛应用于银行风控、入侵检测、人脸识别、文本分类等场景,是智能系统实现“分门别类”的基础能力。一、分类学习分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。分类问题可以用图4-2进行描述。二、回归学习回归问题:回归问题是分析数据特征与标签的关系,并用以预测样本标签的任务。其中,标签是一个连续的数值。回归(Regression)是监督学习的一个重要问题。回归用于预测输入变量(自变量,解释变量)和输出变量(因变量,响应变量)的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量映射的函数。二、回归学习回归问题分为学习和预测两个过程。二、回归学习回归学习系统的基本结构。回归学习:连续值的拟合回归学习的任务回归用于预测连续变量,如房价、股价等。通过训练数据学习输入特征与输出值之间的映射函数,常用均方误差作为损失函数。回归学习的应用回归分析包括训练与预测两个阶段,广泛应用于金融、医疗、工业等领域,是理解变量间依赖关系的重要工具。04感知机模型感知机如果两类数据能够用一条直线分开,就称为线性可分。感知机是通过模拟人类大脑的神经元(也称为神经细胞)行为来处理线性可分的模式识别问题。感知机(perceptron)就是这样一种线性分类器,它是最简单的一种人工神经网络,即单层的神经网络,是机器学习中的一种二分类线性分类模型。20世纪50年代,FrankRosenblatt(如图4-3所示)提出的感知机是一个仅包含输入层和输出层的两层神经网络,又称为正向传播网络,是神经网络和支持向量机的基础。图4-3Rosenblatt提出感知机模型单层感知机结构与原理感知机结构感知机是两层神经网络,输入层传递数据,输出层计算加权和并通过阶跃激活函数产生0或1输出,用于二分类。感知机原理权重根据预测误差在线调整,学习规则简单。尽管算法简洁、可在线学习,但只能解决线性可分问题,对噪声敏感。感知机的局限与突破感知机局限感知机无法解决线性不可分问题,如异或逻辑,导致神经网络研究一度停滞。突破局限其局限性促使多层感知机(MLP)的出现,通过引入隐藏层和非线性激活函数,突破线性边界,开启深度学习时代。1、感知机的工作原理可以分为以下几个步骤(1)输入与加权和:感知机接收多个输入信号(如图像像素值或数据特征),每个输入信号都会被赋予一个权重。然后,感知机计算所有输入的加权和,这个过程类似于对输入信号进行加权求和。(3)训练过程:感知机的训练过程非常简单,基于误差调整权重。假设感知机输出错误,则通过梯度下降法(或类似的优化方法)调整输入特征的权重和偏置项,直到其输出正确为止。(2)激活函数:加权和通过一个激活函数进行非线性变换。通常使用阶跃函数,阶跃函数决定了感知机的输出是0还是1(即二分类任务的类别)。2、感知机的局限性(1)仅能解决线性可分问题:感知机模型的最大局限性在于,它只能解决线性可分问题。(3)线性不可分问题的突破:尽管感知机的局限性在于线性不可分问题,但它仍为神经网络的进一步发展提供了启发。(2)感知机的“感知机定理”:1969年,计算机科学家马克·米尔(MarvinMinsky)和西摩·帕帕特(SeymourPapert)发表了著名的《感知机》一书,指出感知机只能解决线性可分的问题。2、感知机的优点和缺点(1)优点:①算法简单,易于实现:感知机模型的数学表达式和训练过程都非常简单,易于理解和实现。②可以在线学习:感知机模型可以在线学习,适用于大规模数据集。对于线性可分的数据集,感知机可以得到全局最优解:在数据线性可分的情况下,感知机模型可以找到一个最优的分类超平面。(2)缺点:①只能处理线性可分的数据集:感知机模型的最大局限性在于,它只能解决线性可分问题。②对于噪音数据非常敏感:感知机模型对噪音数据非常敏感,容易受到噪音的影响。③模型无法输出概率估计:感知机模型无法输出概率估计,只能给出类别标签。2、感知机的应用场景(1)图像分类:感知机可以用于图像分类任务,将图像分为不同的类别。(3)垃圾邮件过滤:感知机可以用于垃圾邮件过滤任务,将邮件分为垃圾邮件和非垃圾邮件。(2)文本分类:感知机可以用于文本分类任务,将文本内容分为不同的类别。(4)信用评估:感知机可以用于信用评估任务,根据客户的信用记录将客户分为高风险和低风险。(5)医学诊断:感知机可以用于医学诊断任务,根据病人的症状将病人分为患有某种疾病和未患有某种疾病等。05多层感知机MLP结构与前向传播MLP结构多层感知机由输入层、一个或多个隐藏层和输出层组成,每层神经元通过权重连接。前向传播输入数据经隐藏层非线性变换提取特征,最终输出层生成预测结果。隐藏层引入激活函数如ReLU、Sigmoid,使网络具备非线性建模能力。反向传播与参数更新反向传播MLP训练通过反向传播算法实现。前向传播计算预测值与误差,误差从输出层反向传递至隐藏层,计算各层梯度。参数更新利用梯度下降或其变体(如Adam、RMSProp)更新权重与偏置,最小化损失函数。该机制使深层网络可训练,支持复杂任务如图像分类、语音识别等。多层感知机(multilayerperceptron,MLP)就是在输入到输出之间加入多个隐藏层所形成的,具有更强的拟合表达能力。输出层:生成模型的输出结果,输出层的神经元数量与问题的输出要求相对应,可以是一个值或多个类别。隐藏层:位于输入层和输出层之间,可以有多个隐藏层。每个隐藏层由若干神经元组成,通过非线性激活函数处理输入数据。1.多层感知机的基本结构输入层:接收外部输入的数据,输入层的神经元数量与输入数据的特征数量相对应。如图4-5所示,一个多层感知机网络包含了输入层、隐藏层和输出层,其中隐藏层中的每个感知机都包含了具有非线性映射能力的激活函数,因此可以用来构造复杂的非线性映射函数。图4-5多层感知机网络2、多层感知机的工作原理(1)前向传播(forwardpropagation)输入数据:输入数据被馈送到输入层。隐藏层处理:输入数据通过隐藏层进行特征提取和转换,每个隐藏层的神经元计算其加权输入和非线性激活函数的输出。输出层处理:经过隐藏层处理后的数据最终传递到输出层,生成模型的预测结果。(2)反向传播(backpropagation)误差计算:在训练过程中,输出与期望的输出进行比较,产生一个误差值。误差反向传播:误差值被反向传播到网络中,权重和偏置得到相应的更新。参数更新:通过梯度下降等优化算法,调整权重和偏置,以最小化预测结果与真实标签的误差。(3)多层感知机的激活函数激活函数是神经网络中的关键组成部分,用于引入非线性特性。3、多层感知机的训练方法及应用(1)反向传播算法:通过计算误差的梯度来调整每个神经元的权重和偏置,逐步优化网络的性能。(2)优化器:常用的优化器包括随机梯度下降(SGD)、Adam、RMSProp等,用于加速训练过程并提高模型性能。(3)损失函数:根据任务类型选择合适的损失函数,如均方误差(MSE)用于回归任务,交叉熵损失(cross-entropyloss)用于分类任务。多层感知机的训练方法①分类任务:MLP可以用于二分类和多分类任务,如手写数字识别、图像分类等。②回归任务:MLP可以用于预测连续的数值,如房价预测、股票价格预测等。③特征提取:MLP可以用于学习输入数据的高级表示,这些表示可以用作其他机器学习模型的输入。多层感知机的应用④降维:通过设计一个具有较少神经元的隐藏层,MLP可以用于降低数据的维度。⑤函数逼近:MLP具有强大的函数逼近能力,可以逼近任何连续的函数。4、多层感知机的优缺点(1)优点:①非线性表示能力:通过引入隐藏层和非线性激活函数,MLP能够学习到数据中的复杂非线性关系。②层次化的特征学习:MLP能够通过组合低层特征来形成高层特征,这种组合方式增加了模型的表达能力。③自动特征学习:MLP能够自动学习有用的特征,减少了手动设计特征的需求。(2)缺点:①参数数量大:MLP的参数数量可能会非常大,尤其是当输入数据的维度很高时,这可能导致过拟合。②对输入数据的尺度和分布敏感:MLP对输入数据的尺度和分布很敏感,因此通常需要对数据进行预处理,如归一化或标准化。06支持向量机一、支持向量分类模型1963年,瓦普尼克(Vapnik)在解决模式识别问题时提出了支持向量的方法,他把起决定性作用的样本称为支持向量。1971年,基梅尔多夫(Kimeldorf)提出基于支持向量构建核空间的方法。1995年,美国贝尔实验室的瓦普尼克和科尔特斯(Cortes)提出了支持向量机(supportvectormachine,SVM)的技术。SVM拥有完善的理论,实验效果也很好,这使得整个机器学习领域被分为了神经网络和支持向量机两大流派,并且由于支持向量机的良好效果,神经网络的研究逐渐处于竞争弱势。实际上,SVM是一种典型的二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略是使二分类间隔最大化,最终转化为二分类问题的求解。支持向量机的特点优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。二、支持向量回归模型1995年,瓦普尼克教授等提出支持向量回归模型(supportvectorregression,SVR),模型SVR作为一种从数据中学习的技术,已成功应用于研究和应用等各个领域,吸引了人们的广泛关注。经典的模型SVR把最小化Vapnik提出的误差不敏感损失函数作为优化目标,在各种实际应用中取得了良好的性能。(1)它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值;(2)算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优解,解决了在神经网络方法中无法避免的局部极值问题;(3)算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性决策函数来实现原空间中的非线性决策函数,特殊性质能保证机器有较好的推广能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。模型SVR的主要优点SVR与噪声建模SVR原理支持向量回归(SVR)扩展SVM用于回归任务,采用ε-不敏感损失函数,允许预测值在一定误差范围内波动。噪声建模针对高斯、Beta、拉普拉斯等噪声,研究者提出GN-SVR等模型,提升在异方差或非高斯噪声下的预测性能。07总结与展望机器学习核心价值回顾核心价值机器学习通过数据驱动方式实现预测、分类、回归等任务,是人工智能的核心技术。从感知机到深度学习,模型不断演进,应用覆盖金融、医疗、零售、制造等各行各业。机器学习是人工智能的重要组成部分,也是其实现的核心技术之一。特别是深度学习,为人工智能的发展提供了强大的技术支持。深度学习在计算机视觉、语音识别和自然语言处理等多个领域取得了显著进展,推动了人工智能从实验室走向大众生活,加速了AI技术的实用化与产业化进程。图像与文本分类图像分类机器学习在图像分类中广泛应用,如人脸识别、手写数字识别、医学影像分析等,使用CNN、SVM、MLP等模型提取特征并分类。文本分类在文本领域,分类技术用于垃圾邮件过滤、情感分析、新闻分类等,结合词向量与深度学习模型,实现高效语义理解。回归预测与金融风控回归预测回归模型用于预测连续变量,如房价、股价、销量等。通过历史数据训练模型,输入新特征即可输出预测值。金融风控在金融领域,回归与分类结合用于信用评分、风险预警、欺诈检测等,提升决策效率与准确性。经典案例:尿布与啤酒案例分析沃尔玛通过关联规则挖掘发现“尿布与啤酒”常同时出现在购物篮中,揭示年轻男性买尿布时顺手购啤酒的行为模式。该案例体现机器学习从海量数据中发现隐性关联的能力。未来趋势:AutoML与因果学习AutoML未来机器学习将朝向自动化、可解释、因果化方向发展。AutoML将降低建模门槛,实现模型自动选择、调参与部署。因果学习因果学习突破相关性局限,支持反事实推理与决策追溯;联邦学习与隐私计算保障数据安全;多模态融合提升跨领域理解能力。实践建议:从业务出发选模型业务导向应用机器学习应从业务问题出发,明确目标与数据特征,选择合适算法。小样本高维问题可选SVM,非线性复杂关系可用MLP或深度学习。实践要点重视数据质量与特征工程,结合交叉验证与正则化防止过拟合,持续迭代优化模型,实现技术与业务价值同步提升。谢谢!THANK
YOU
FOR
WATCHING汇报人:张仕光时间:2025/12/16第五章:深度学习目录CONTENTS01深度学习概述02神经网络基础03深度学习类型04深度学习应用深度学习概述015.1.1深度学习定义与起源深度学习定义深度学习(deeplearning)是机器学习(machinelearning)的一个重要分支,它基于人工神经网络(artificialneuralnetworks,ANN)的架构和原理,通过构建多层(深层)神经网络结构,自动从大量数据中学习数据的特征表示和复杂模式。与传统的机器学习方法相比,深度学习的核心优势在于能够自动提取数据的层次化特征,而无须人工设计复杂的特征工程。5.1.1深度学习定义与起源深度学习起源于20世纪40-50年代对人脑神经元的模拟研究。1943年,McCulloch和Pitts提出首个形式化神经元模型;1958年,Rosenblatt提出感知机,可实现简单线性分类,奠定神经网络基础。发展瓶颈与反向传播突破(20世纪70-80年代)受算力与数据限制,神经网络在70-80年代陷入停滞。1986年,Hinton等人提出反向传播算法,有效训练多层网络,推动神经网络重回发展轨道。深度学习的爆发与时代里程碑(21世纪至今)2012年AlexNet在ImageNet把错误率从26%降到15%,证明深度卷积在大规模视觉任务中的威力,标志深度学习进入主流研究与产业落地阶段。此后,深度学习在图像识别、自然语言处理、语音识别、自动驾驶等多个领域取得了令人瞩目的成就,成为人工智能领域最热门的研究方向之一。深度学习定义深度学习的早期萌芽(20世纪40-50年代)5.1.2深度学习五大核心特点自动特征提取告别繁琐的人工特征工程自动从原始信号中逐层抽象,构建从边缘到语义的特征表示,大幅节省专家人力并提升泛化能力。强大的模型拟合能力捕捉复杂的非线性关系深层网络赋予极强表达力,通过多层非线性变换挖掘数据本质规律,在图像语音等高维任务中表现卓越。高效利用大规模数据数据驱动的性能飞跃数据越多特征越全面,配合数据增强可有效防止过拟合,将大数据优势转化为实实在在的模型精度优势。5.1.2深度学习五大核心特点计算资源高效利用:硬件与框架赋能•专用芯片(GPU/TPU):并行计算将训练从数周缩短至数小时•分布式计算:突破单节点瓶颈,提升整体吞吐量•核心价值:加速复杂模型落地,推动AI技术快速迭代模型可扩展性:灵活适配多样化任务•架构调整:增减层数/神经元,轻松适配任务复杂度变化•迁移学习:复用预训练模型,大幅降低新任务训练成本•核心价值:具备极强通用性,广泛覆盖图像/NLP/自动驾驶等领域神经网络基础025.2.1神经元模型与激活函数1.接收输入获取外部或其他神经元的信号源(x₁,x₂,...,xₙ)。2.加权求和每个信号源乘以一个权重(ω₁,ω₂,...,ωₙ),代表其重要性,然后将所有加权后的信号相加,再加上一个偏置值θ。3.激活处理将加权和的结果输入到一个激活函数中,引入非线性因素,决定神经元是否应该被“激活”。4.产生输出激活函数处理后,产生最终的输出信号y,该信号可以作为下一层神经元的输入。y=∑(xi·wi)+θxi:输入信号|wi:权重|θ:偏置值核心定义模仿生物神经元的计算单元,通过加权、求和、激活等操作将多输入转化为单输出。5.2.2神经元模型与激活函数核心逻辑:模拟人脑分层处理构建多层次信息处理系统,数据逐层传递与转换,从原始输入到最终输出层层递进。输入层(InputLayer)|信息入口,接收原始特征数据隐藏层(HiddenLayer)|核心处理,提取复杂特征模式输出层(OutputLayer)|结果生成,输出预测或分类结果•神经元:基本计算单元•权重参数:网络学习核心•激活函数:引入非线性5.2.3神经网络的学习过程01前向传播(ForwardPropagation)输入数据逐层运算,生成预测结果,构建基础输出02计算损失(CalculateLoss)对比预测值与真实标签,量化误差,评估模型表现03反向传播(BackwardPropagation)反向计算参数梯度,定位误差来源,指导参数修正04参数更新(UpdateParameters)基于梯度调整权重与偏置,迭代优化模型,减小误差神经网络的学习过程通常是基于监督学习的,其目标是通过训练数据调整网络参数,使网络的输出尽可能接近真实标签。5.2.4神经网络的优化方法核心目标:效率与性能的双重提升通过优化策略加速模型收敛,提升最终表现,增强泛化能力。优化算法:参数更新引擎梯度下降(BGD/SGD)|动量优化加速|Adam自适应调整正则化技术:防止过拟合L1/L2参数约束|Dropout随机丢弃|提升模型鲁棒性初始化方法:训练的起点随机初始化打破对称|Xavier/He初始化保持信号稳定图示:梯度下降沿损失曲面寻找最小值的优化路径💡关键洞察:合适的优化组合是训练成功的关键。好的初始化配合自适应算法,能让模型在更少Epoch内达到更高精度。梯度下降是所有优化策略的底层逻辑深度学习类型035.3深度学习类型核心定义:机器学习分支,通过构建深层神经网络自动学习数据的多层次抽象特征。▌按学习方式分类监督学习:利用标签数据(CNN/RNN)无监督学习:发现未标记数据模式(GAN)半监督学习:结合少量标签与大量无标签强化学习:通过奖励机制优化策略▌主流模型架构FNNCNNRNNGANGNNTransformer从感知到认知的进化DeepLearning:EvolutionofAI5.3.1卷积神经网络(CNN)核心原理:特征提取与降维通过卷积层提取边缘、纹理等局部特征,再通过池化层降低特征维度,模拟人眼视觉机制。关键特点:高效识别的奥秘•局部连接:卷积核聚焦图像局部区域•参数共享:大幅减少模型参数量,防止过拟合主要应用:多领域视觉赋能•分类与检测:手写数字识别、人脸识别、自动驾驶•图像分割:医学影像病灶定位、卫星地图分析图示:卷积神经网络(CNN)层级结构示意图技术价值CNN是深度学习在计算机视觉领域取得突破的基石技术。5.3.2循环神经网络(RNN)循环神经网络(RNN)核心原理:循环神经网络(RNN),如图5-6所示,通过记忆之前的输入,将其输出传递给下一步的输入,使得模型可以处理序列数据。RNN的每个时间步都依赖前一个时间步的输出,形成一种链式结构。主要痛点:存在梯度消失,难以捕捉长距离依赖关系RNN存在梯度消失和梯度爆炸问题,使得它在处理长序列时性能不佳,这为后来的LSTM和GRU带来了改进空间。图示:RNN循环展开结构5.3.3长短时记忆网络(LSTM)核心原理:门控机制引入遗忘门、输入门、输出门,像阀门一样精确控制信息的流动与保留。解决痛点:突破遗忘有效解决RNN的梯度消失问题,既能记住长期重要信息,又能主动遗忘无关细节。直观类比:故事阅读如同阅读长篇故事,大脑会选择性记住关键情节(输入/输出),忘记琐碎描写(遗忘)。LSTM单元核心结构示意“赋予神经网络长时记忆的能力”长序列数据处理的首选算法之一5.3.4自编码器(Autoencoder)核心结构:编码与解码•编码器:将高维输入压缩为低维潜在特征•解码器:从低维特征中还原重建原始输入学习目标:最小化重构误差通过不断优化,让输出尽可能接近输入,从而捕捉数据的本质特征。主要应用场景数据降维可视化|关键特征提取|图像/数据去噪自编码器网络结构示意图5.3.5生成对抗网络(GAN)核心架构:博弈的双生网络生成器负责“造假”生成假数据,判别器负责“打假”识别真伪,两者构成对抗核心。训练机制:对抗式螺旋进化如同猫鼠游戏,双方在持续博弈中迭代升级,最终生成器产出以假乱真的高保真数据。核心应用:多元场景落地覆盖虚拟人脸/艺术创作(图像生成)、照片转油画(风格迁移)及小样本数据增强等领域。图示:GAN标准工作流——展示了从随机噪声输入,经生成器(G)生成数据,再由判别器(D)辨别真伪并反馈的完整闭环。核心价值:突破传统模型瓶颈,释放AI无限创造力5.3.6Transformer核心机制:自注意力的颠覆彻底抛弃RNN循环结构,完全依赖自注意力机制(Self-Attention)处理序列数据,重构网络逻辑。工作原理:全局关联计算计算每个元素与序列中所有元素的关联度,直接捕捉长距离依赖,打破循环模型的时序限制。关键优势:高效且精准•并行计算:训练速度呈指数级提升,适合大规模训练
•长程捕捉:无视位置距离,轻松建模全局上下文关系主要应用:多领域赋能经典架构:Encoder-Decoder双端结构
由多头注意力层与前馈神经网络堆叠而成5.3.7图神经网络(GNN)核心处理对象专注处理非欧几里得的图结构数据,广泛适用于社交网络关系、化学分子结构及知识图谱构建等场景。消息传递机制节点通过聚合邻居节点的特征信息更新自身状态,层层传递后使每个节点具备“全局感知”能力。•社交:用户行为预测与社区发现•推荐:基于图结构的精准物品推荐GNN节点消息传递与聚合示意图中展示了节点如何聚合局部邻居信息更新自身特征深度学习应用045.4.1深度学习应用计算机视觉:从“看见”到“看懂”●核心任务:实现了图像分类、目标检测、图像分割三大核心任务的革命性突破。●关键技术:以卷积神经网络(CNN)为基础,涌现出如ResNet、YOLO等先进模型。●典型应用:在安防监控、自动驾驶、医学影像分析等领域得到广泛应用。NLP:从“理解”到“生成”●核心任务:攻克了文本分类、机器翻译、文本生成等复杂语言任务。●关键技术:基于Transformer架构的BERT、GPT等预训练模型。●典型应用:广泛应用于智能客服、机器翻译、内容创作等场景。5.4.1深度学习应用医疗健康应用场景:通过医学影像分析辅助医生精准诊断疾病(如肿瘤检测);利用电子健康记录预测疾病风险;加速药物研发过程,降低成本。金融领域应用场景:构建精准的信用风险评估模型;分析市场数据辅助投资决策;实时检测异常交易行为,防范金融欺诈。工业制造应用场景:实现生产线上的自动化质量检测;通过设备数据分析预测故障,减少停机时间;优化供应链管理,降低物流成本。新兴领域应用场景:教育领域提供个性化学习路径与智能辅导;游戏领域开发智能NPC与自动生成游戏内容;交通领域推动自动驾驶技术发展与智能交通系统优化。谢谢!THANK
YOU
FOR
WATCHING第六章:人工智能大模型目录CONTENTS01人工智能大模型02大模型的技术架构03大模型的应用领域04大模型与WPSAI人工智能大模型016.1.1大模型的定义它是拥有亿级甚至万亿级参数的大型预训练模型,具备强大的语言理解和生成能力。它的关键特征在于实现了能力的突破,能够处理长文本、进行复杂逻辑推理,并且应用非常广泛,从智能对话到内容创作,都表现出色。回顾发展历程,以OpenAI的GPT系列为代表的全球引领者,以及以DeepSeek-R1为代表的中国力量,都推动了大模型的飞速发展。总而言之,大模型已经成为驱动人工智能发展的核心引擎,正在深刻地重塑我们未来的各行各业。6.1.2大模型的发展历程2017架构奠基Transformer架构诞生
奠定规模化扩展理论基础2020规模飞跃GPT-3发布(1750亿参数)
展现能力同时暴露“幻觉”问题2022交互革命ChatGPT引入RLHF技术
开启人机交互新纪元2023多模态融合GPT-4整合文/图/音
具备更接近人类的感知能力24-25深度推理o1与DeepSeek-R1发布
标志从模式匹配向认知智能迈进核心洞察:大模型发展是一个从架构创新到规模扩张,再到技术成熟和认知能力不断升级的演进过程。6.1.3大模型的能力海量数据学习能力高效处理数十亿级样本数据,提炼深层知识,实现对复杂任务的精准理解与性能突破。#高效学习#数据驱动#性能突破跨领域知识迁移能力基于通用知识体系,面对新任务仅需微调甚至零样本学习即可快速适应,极大降低应用成本。#通用知识#灵活迁移#降本增效强大表示学习能力将原始数据映射至高维语义空间,精准捕捉深层内在关系,为智能推理与决策奠定坚实基础。#语义理解#深度表征#智能基础性能持续提升潜力随参数规模、数据量及算法优化呈指数级增长,突破传统模型瓶颈,拥有无限发展前景。#规模效应#持续进化#发展前景6.1.4大模型的风险与挑战技术层面的挑战•成本高昂:算力与开发投入巨大•准确性瓶颈:复杂任务易出偏差•可解释性差:决策逻辑如“黑箱”数据安全与隐私•数据依赖:训练集含敏感信息•泄露隐患:全生命周期存在风险•合规难题:跨境传输与法律限制伦理与社会影响•滥用风险:虚假信息与网络诈骗•就业冲击:加剧社会结构不平等•道德困境:算法偏见与责任归属总结:建立完善的规范与政策体系,引导AI大模型技术向善,造福人类。6.1.5大模型的未来展望技术演进:迈向更高智能追求更大规模与卓越性能、探索高效架构与训练创新、深度融合多模态信息交互、聚焦可解释性与安全可信应用拓展:赋能千行百业深耕制造、城市、环保等领域、结合IoT与大数据深化智能、催生全新商业模式与机遇、提供端到端的智能化解决方案社会共治:保障健康发展政策引导规范开发与应用、企业自律确保负责任使用、公众参与提升认知与决策、多方协同推动可持续发展大模型的技术架构026.2.1大模型的基础架构多头自注意力机制核心作用:多维视角捕捉信息扩展自注意力机制,从不同子空间捕捉特征,如同多视角分析语句(如句法与语义),获取更丰富的上下文信息。技术优势:深度理解语言相比单头机制,能捕捉更复杂、全面的上下文关系,大幅提升模型对语言深层含义的理解能力。前馈神经网络(FFN)核心作用:非线性变换增强表达在自注意力处理后,对词向量进行非线性变换,是模型学习复杂语言模式的关键步骤。技术优势:学习复杂规律引入非线性特性,极大增强模型表达能力,使其能够精准学习并表示深层语言规律。6.2.1大模型的基础架构残差连接(ResidualConnection)核心作用:将某一层的输入直接“短路”加到其输出上,是训练超深度神经网络的关键技术。技术优势:有效缓解梯度消失,确保信息顺畅传递,从而稳定、高效地训练极深的网络结构。层归一化(LayerNormalization)核心作用:对每一层神经网络的输入进行标准化处理,将数据分布调整到合适的数值范围。技术优势:显著加快训练收敛速度,提升训练稳定性,降低对学习率等超参数的敏感度。6.2.2大模型的训练与优化:训练方法核心观点:大模型的成功训练依赖于分布式训练与混合精度训练,二者协同攻克计算瓶颈与内存挑战。01.分布式训练(DistributedTraining)将海量计算任务拆分至多节点并行处理,利用数据并行与模型并行策略大幅缩短训练周期。02.混合精度训练(MixedPrecision)结合FP16与FP32特性,在保证计算精度的同时加速运算,并通过损失缩放技术防止梯度溢出。AI算力与精度引擎多节点
并行协作效能
极致优化6.2.2大模型的训练与优化:优化策略三大核心优化策略正则化(Regularization)通过加入权重惩罚项限制复杂度,防止过拟合,提升模型泛化能力。超参数调整(Tuning)优化学习率与批量大小等关键配置,寻找全局最优解以最大化性能。优化算法(Algorithms)采用Adam等先进算法高效更新参数,具备收敛快、稳定性强的优势。开发面临的核心挑战计算资源需求巨大千亿级
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 危化品火灾事故处置预案
- 生猪定点屠宰检验检疫制度
- 隐患排查治理闭环管理规范
- 管道动火作业隐患排查办法
- 仪器设备维护保养指南
- 肠道排毒轻断食执行方案
- 穴位按摩基础手法培训手册
- 设施蔬菜烟粉虱绿僵菌防治技术规范
- 职业病危害现状评价管理办法
- 广西南宁市2026年初中毕业班质量调研数学试卷附答案
- 《视听语言》课件-第6课 构图
- 职业病防护设施与个体防护用品的使用和维护
- JTG F80-2-2004 公路工程质量检验评定标准 第二册 机电工程
- 预激综合征护理课件
- 数系的扩充与复数的概念课件-2022-2023学年高一下学期数学人教A版(2019)必修第二册
- 2020全国新高考语文I卷《大师(节选)》试题及答案
- 公路工程施工突发环境污染事件应急预案
- 卫生事业管理学重点题库含答案
- 工程公司临建工程审批和验收管理办法
- 尿素项目可行性研究报告
- 计算机系统结构英文课件
评论
0/150
提交评论