机器学习课件全套1-5 机器学习概述 - 第5章支持向量机

上传人：h*** IP属地：山东上传时间：2025-09-12 格式：PPTX 页数：221 大小：50.30MB 积分：30 举报 版权申诉

已阅读5页，还剩216页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器学习概述内容提纲21.机器学习驱动的人工智能案例2.机器学习的前世今生星球大战：新希望（1977）艺术中的AI（1）C-3POandR2-D2艺术中的AI（2）TheTerminator

(1984)T800→T850/T1000→T-XArtificalIntelligence（2001）艺术中的AI（3）BigHero(2014)电影中的AI：像人一样能交谈、会思考、有情感、能决策和行动！大卫大白Top的机器人研发公司现实中的AI（1）机器狗:BigDog机器狗:SpotMini现实中的AI（1）人形机器人：Atlas现实中的AI（1）现实中的AI（2）现实中的AI（2）索菲亚（Sophia）是由香港的汉森机器人技术公司（HansonRobotics）开发的类人机器人。2017年10月，索菲亚成为沙特阿拉伯公民，这是世界上第一个获得国籍的机器人。索菲亚于2015年4月19日被激活，她以女演员奥黛丽·赫本为模型，与以前的各种型号机器人相比，她更具与人类相似外观和行为方式。索菲亚具有人工智能、视觉数据处理和面部识别功能，还可以模仿人类的手势和面部表情；索菲亚使用来自Alphabet公司（Google的母公司）的语音识别技术，以此使她随着时间的推移变得更加智能化。索菲亚适合于作为养老院老人的伴侣，或帮助大型活动、公园中的人群。DeepBlue(1997)Watson(2011)AlphoGO(2016)现实中的AI（3）AlphoCode(2022)IBMGoogle现实中的AI（4）ChapGPT

官网视频截取案例Sora官网文本生成视频案例现实中的AI（4）ChapGPT

官网视频截取案例OpenAI机器学习（MachineLearning，ML）研究和构建的是一种特殊算法（而非某一个特定的算法），能够让计算机自己在数据中学习从而进行预测，属于人工智能的一个核心分支。，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等等。机器学习定义内容提纲151.机器学习驱动的人工智能案例2.机器学习的前世今生机器学习的发展历程热度时间1956196019701980199020002010初春初冬初秋寒冬复苏爆发起步发展期反思发展期应用发展期低迷发展期稳步发展期蓬勃发展期人工智能诞生任务失败目标落空专家系统遍地开花人工智能转向实用多项研究发展缓慢互联网推动人工智能不断创新和实用深度学习与大数据兴起带来了人工智能的爆发机器定理证明智能跳棋程序……机器翻译笑话百出定理证明发展乏力……医疗专家系统MYCIN化学专家系统DENDRALDEC的专家配置系统XCON……专家系统发展乏力神经网络研究受阻……深蓝战胜国际象棋冠军IBM提出智慧地球我国提出感知中国……物联网云计算大数据……机器学习的缘起机器学习的渊源（20世纪早期及之前）古希腊的哲学家亚里士多德曾写道：“如果每一件工具被安排好甚或是自然而然的做那些适合于它们做的工作……那么就没必要再有师徒或主奴了。”发条机器人木牛流马机器学习的缘起

机器学习诞生的黎明（1930年-1950年）“人工智能成为一门显性的、严格的、系统的、可实现的科学和工程的一个领域，得益于上个世纪逻辑科学、计算机科学、信息论、控制论很多学科的发展的交汇。它基于一个很基本的假设：人的思维活动是可以用机械的方式替代和完成。”罗素和怀德海希尔伯特的宏伟构想哥德尔的不完备定理图灵机机器学习的萌芽1950年数学家阿兰·图灵(1912-1954)在论文《ComputingMachineryandIntelligence》中提出了“机器能否拥有智能？”的问题，设计了一个后人称为图灵测试的实验：要求计算机在没有直接物理接触的情况下接受人类的询问，并尽可能把自己伪装成人类。如果“足够多”的询问者在“足够长”的时间里无法以“足够高”的正确率辨别被询问者是机器还是人类，我们就认为这个计算机通过了图灵测试。图灵成功定义了什么是计算机，但没有定义什么是智能，他把图灵测试看作人工智能的一个充分条件，主张认为通过图灵测试的计算机应该被看作是拥有智能的。他大胆预测

“

到2000年左右时，一台拥有1GB内存或类似规模的计算机可以在接受普通人5分钟的询问之后，使他们的判断正确率不超过70%”。但是……机器学习和AI的起源达特茅斯会议（1956年）目的：为使计算机变得更“聪明”，或者说使计算机具有智能

发起人：

麦卡锡（J.McCarthy，1927），Dartmouth的年轻数学家，图灵奖（1971）

明斯基（M.L.Minsky，1927），MIT、斯坦福大学教授，第一位图灵奖（1969）

香农（C.E.Shannon，1916），贝尔实验室信息部数学研究员

参加人：

莫尔(T.more)、塞缪尔(A.L.Samuel)，IBM公司；塞尔夫里奇(O.Selfridge)、索罗蒙夫(R.Solomonff)，MIT；纽厄尔(A.Newell)，兰德(RAND)公司；西蒙(H.A.Simon)，CMU会议成果：由麦卡锡提议正式采用了“ArtificialIntelligence”这一术语机器学习和AI的起源达特茅斯会议（1956年）会议召开目的：寻求科研经费资助机器学习和AI初春ArthurSamuel

1959年在IBM第一批商用计算机IBM701上编写出世界上第一款走国际跳棋的程序A.Newell,H.Simon和C.Shaw1955年发明了逻辑定理机，证明了《数学原理》中的38条定理。—符号主义的开端F.Rosenblatt1958年发明了感知机，分类问题的有监督学习算法。—连接主义的鼻祖机器学习和AI初冬(1960-1970)模型局限算法局限M.MinskyS.CookR.Karp机器学习重整旗鼓(1980s)专家系统（1965-）第五代计算机计划（1981-）多层神经网络（1986）反向传播算法第五代计算机是把信息采集、存储、处理、通信同人工智能结合在一起的智能计算机系统。它能进行数值计算或处理一般的信息，主要能面向知识处理，具有形式化推理、联想、学习和解释的能力，能够帮助人们进行判断、决策、开拓未知领域和获得新的知识。专家系统是一种模拟人类专家解决领域问题的计算机程序系统。系统内存储了大量领域知识，并模仿人类专家来做出决策。DENDRAL机器学习和AI再次入冬（1987-2000）Apple/IBM个人电脑内因：专家系统乏力神经网络受阻各项进展缓慢外因：政府科研经费削减美国GDP1991：-0.108机器学习的反思像人一样思考的系统理性地思考的系统“要使计算机能够思考..….意思就是：有头脑的机器”（Haugeland,1985）“与人类的思维相关的活动，诸如决策、问题求解、学习等活动”（Bellman,1978）“通过利用计算模型来进行心智能力的研究”（Chamiak和McDermott,1985）“对使得知觉、推理和行为成为可能的计算的研究”（Winston,1992）像人一样行动的系统理性地行动的系统“一种技艺，创造机器来执行人需要智能才能完成的功能”（Kurzweil,1990）“研究如何让计算机能够做到那些目前人比计算机做得更好的事情”（Rich和Knight,1991）“计算智能是对设计智能化智能体的研究”（Poole等，1998）“AI..….关心的是人工制品中的智能行为”（Nilsson,1998）类人理性行为思维弱人工智能也称限制领域人工智能或应用型人工智能，指的是专注于且只能解决特定领域问题的人工智能。强人工智能又称通用人工智能或完全人工智能，指的是可以胜任人类所有工作的人工智能。超人工智能假设机器系统通过不断发展，可以比世界上最聪明的人类还聪明。JohnSearle弱AI：ActingHumanly强AI：ActingandThinkingHumanly对机器学习的反思当前偏好：实用型、功能型的AI输入功能输出文本文本分类标签图片图片分类标签中文一句话翻译英文一句话问句对话系统答句图片ImageCaption图片描述语音语音识别文字智能的功能表示：从输入到输出的映射对机器学习的反思xyf机器学习的新纪元新算法富算力大数据我不担忧了！在有限，透明规则、特定任务下，机器超过人的水平是时间问题，绝对是会超过的

─CMU,Prof.EricXing机器学习的当前局限人工智能总体发展水平仍处于加速阶段

人的大脑是一个通用的智能系统，能举一反三、融会贯通，可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题，可谓“一脑百用”。

目前人工智能距离人类智能水平差距正在缩小，人工智能处于蓬勃发展期。强人工智能研究与应用正在逐渐靠近我们机器学习的当前局限美国DARPA对当前人工智能技术水平所处发展阶段的判断：从知识规则到统计学习，第三波人工智能技术在信息感知（Perceiving）和机器学习（Learning）方面进展显著，但是在概念抽象（Abstracting）和推理决策（Reasoning）方面正在发生翻天覆地的变化与更新。人工智能三次浪潮及技术特征机器学习驱动的人工智能总体发展水平处于加速阶段机器学习当前局限正在逐步改变有智能没智慧：无意识和悟性，缺乏综合决策能力有智商没情商：机器对人的情感理解与交流还处于起步阶段会计算不会“算计”：有智无心，更无谋有专才无通才：会下围棋的“阿狗”不会下象棋机器学习的发展趋势1.从专用智能到通用智能如何实现从专用智能到通用智能的跨越式发展，既是下一代人工智能发展的必然趋势，也是研究与应用领域的挑战问题。机器学习的发展趋势2.从机器智能到人机混合智能人工智能（机器智能）和人类智能各有所长，因此需要取长补短，融合多种智能模式的智能技术将在未来有广阔的应用前景。“人+机器”的组合将是人工智能研究的主流方向，“人机共存”将是人类社会的新常态。FromAI(ArtificialIntelligence)toAI(AugmentedIntelligence)人机协作人机决策脑机接口机器学习的发展趋势脑科学研究脑的多尺度功能连接图谱基因、蛋白质、神经元、神经环路的结构与功能认知任务与脑结构的关联疾病与脑结构的关联脑疾病机理……类脑智能研究借鉴脑科学研究成果，构建认知脑模型研究类人学习及训练方法模仿人脑多尺度、多脑区、多模态产生智能的机制，实现对人类智能的建模和机理的揭示启发未来信息技术，推动智能产业发展相互支撑相互促进共同发展提供生理学原理与数据，启发全新计算模式提供仿真模拟手段、系统与平台，支持科学假设验证提供广泛的应用前景2.从机器智能到人机混合智能机器学习的发展趋势脑科学人工智能构建智能发现智能《Nature》报道研究者证明了大脑中存在“分布强化学习”，靠多巴胺驱动。它验证了分布强化学习是一条通向更先进AI能力的光明大道。《Nature》报道研究者受大脑前额叶皮层启发，提出了一种新型算法，使ANN具备强大的连续学习和情境依赖学习能力，克服了灾难性遗忘等难题。《NatureNeuroscience》发表了一个研究团队开发的人工智能解码系统，把人的脑电波转译成英文句子，准确率高达97%。《Nature》报道Hinton等用新一代反向传播算法NGRAD模拟神经网络，发现大脑具有执行反向传播的核心原理的能力。2.从机器智能到人机混合智能机器学习的发展趋势3.交叉学科将成为人工智能创新源泉“机器能促进基础研究吗？”

人工智能在深刻影响并改变基础科学的研究范式。

“人工智能如何赋能基础研究？”

基于科学大数据的自主涌现，加速了科学发现过程。机器学习的发展趋势3.交叉学科将成为人工智能创新源泉信息科学中的AI：●

高效的AI框架大大降低了AI的技术门槛●

自动机器学习技术已成为AI发展的新方向●

AI让复杂网络及系统的自动化设计成为可能●

AI让纳米光学器件设计更快、功能更强●

AI正在赋能风险管控、数字孪生、机器人等●

AI为新型数据理论及模型自动发现提供可能AI的发展趋势3.交叉学科将成为人工智能创新源泉数学中的AI：●

数学理论的发展与突破一直都是支撑AI的基石●

逼近论为探索神经网络的可解释性提供可能●

优化理论可解决AI参数估计的非凸性和非光滑性●

概率论与统计可以支撑AI模型泛化能力的评估机器学习的发展趋势3.交叉学科将成为人工智能创新源泉物理学中的AI：●

AI在极小微观世界的粒子发现，极大宏观世界的探索中大展身手●

AI正在加速粒子的模拟和鉴别●

AI让核物理学更加强大●

AI在凝聚态物理方面发挥重要作用●

AI帮助天文学发展登上新台阶

机器学习的发展趋势3.交叉学科将成为人工智能创新源泉化学中的AI：●

AI正在实现化学研究的智能化、标准化和自动化●

AI帮助打破分析化学中人工特征选择的瓶颈●

AI提升了多个尺度计算化学方法的精度和效率●

AI使得化合物的自动化设计与合成成为可能●

AI加速高效催化剂设计和开发Questions？第3章：回归模型第4章：决策树第5章：支持向量机第3章：回归模型内容一元线性回归多元线性回归线性回归模型最小二乘法梯度下降法多项式回归正则化方法逻辑回归逻辑回归模型交叉熵损失

逻辑回归模型交叉熵损失

一元线性回归——线性回归模型线性回归模型：通过收入预测幸福感核心思想：构建一个智能助手（模型），根据输入（收入）

预测输出（幸福感）。构建线性回归模型，通过最小二乘法拟合最佳直线。数据基础：收集500名（年收入5-30万）人群的调查数据自变量(X):收入、因变量(Y):幸福感评分发现关系：数据呈现明显的正相关趋势：收入越高，幸福感越强。

一元线性回归50假设训练数据集

我们期望

设回归模型对任意输入样本的输出预测为：通过最小二乘法估计最优的参数

和

，使得的输出

观测值

与预测值

的偏差平方之和最小化，即：模型

一元线性回归51得到其中得到最佳拟合的线性回归模型：我们分别求偏导数

一元线性回归52

左图展示了慕尼黑租金指数，散点图显示了租金和面积之间近似线性的关系。

右边的散点图额外包含了一条回归线。以公寓的总租金为输出变量，居住面积为输入变量，利用一元回归模型

一元线性回归拟合上述数据，使用最小二乘法得到的参数为

和带入方程得到那么如果我们选择每平方米的租金而不是总租金作为输出变量，会怎么样呢？

一元线性回归54拟合效果不佳！那么每平方米租金与居住面积之间的关系是非线性的。如果用线性回归模型拟合这些数据(如左图），可以得到回归线为

一元线性回归55我们以

作为线性模型的输入变量，线性模型为：通过最小二乘法得到：拟合效果更好！Good!

多元线性回归对于多元线性回归模型，输入变量是多维变量。模型：设回归模型对任意x的输出的预测为：设

为增广向量，则：1.线性回归模型

多元线性回归57

多元线性回归582.最小二乘法设

为输入样本数据矩阵，为输出样本矩阵。

多元线性回归59想象在浓雾山峰中找山谷——只能感知脚下坡度，最佳策略是沿最陡的下坡方向走（梯度反方向），这就是梯度下降法的精髓！

3.梯度下降法基本步骤：1.随机初始化参数θ（相当于“随机选一个起点”）；2.计算当前参数下目标函数的梯度（即“当前位置的坡度”）；3.沿梯度反方向调整参数（“往下走一步”）；4.重复步骤2-3，直到梯度为0（到达山谷，损失最小）。

多元线性回归

多元线性回归61物理意义：梯度方向是函数最陡上升的方向，因此反方向就是最陡下降的方向迭代更新公式：“一步步”靠近最优解直观理解：用当前梯度（坡度）乘以学习率（步长），沿反方向调整参数，逐步逼近最小值。

多项式回归62有一个简单函数

，生成一些非线性数据，如果尝试使用线性模型来拟合这些数据（左图）：如果尝试使用线性模型来拟合这些数据，模型的性能将会显著下降（右图）。

多项式回归如果用不同次数的多项式模型对数据拟合：

多项式回归多项式回归模型的一般形式

多项式回归65高阶多项式回归能紧密拟合训练数据，但易过拟合，而线性模型常欠拟合。交叉验证是一种有效的技术，用于估计模型的泛化能力。如果模型在训练数据上表现良好，但在交叉验证中的表现不佳，这通常表明模型过度拟合了。相反，如果模型在训练集和测试集上的表现都不好，那么它可能欠拟合。模型的可靠性会随着用于训练样本量的增加而提高。在回归建模的标准实践中，应该遵循层次原则，先从高阶模型开始拟合，然后逐步探索是否可以简化为低阶（更简单）的模型，同时保持模型的泛化能力。

正则化方法为了解决过拟合问题，我们可以采用正则化方法。在多项式回归中，正则化可以通过添加权重衰减来实现。权重衰减（也称为权重衰减或L2正则化）通过在损失函数中添加惩罚项，鼓励模型参数的值尽可能小，从而减少模型复杂度。常用的正则化模型包括Ridge回归和Lasso回归。Ridge回归使用L2正则化，其目标函数为：

正则化方法Ridge回归的求解过程与最小二乘法相似，可以Ridge回归的解析解可以表示为：

Lasso回归使用L1正则化，其目标函数：Lasso回归的目标函数是非凸的，这使得它的求解比Ridge回归更加复杂。Lasso模型通常使用近端梯度下降算法或次梯度算法来求解。Lasso回归倾向于产生稀疏的解，即某些参数的值为零。Ridge回归鼓励参数的值分布更均匀。正则化方法

逻辑回归69Sigmoid函数通常表示为

1.逻辑回归模型逻辑回归的核心思想是将线性回归的输出通过逻辑函数（如Sigmoid)映射到[0,1]之间。

逻辑回归70考虑单一输入观测值x，分类标签为y，其取值可以是1或0，要使sigmoid函数建模P(y=1∣x)的概率，我们只需确保P(y=1∣x)和P(y=0∣x)的总和为1。逻辑回归对观测值x的分类标签为1的概率的预测

为：其中

，于是

逻辑回归71因为其对称性得：sigmoid函数的反函数为得：所以，线性模型逼近的结果是两类概率的对数几率，因此对应的回归模型为对数几率回归。

逻辑回归72

逻辑回归对x的预测标签为:

逻辑回归73

总结Sigmoid函数的特性：1.概率表示：Sigmoid函数的输出范围自然地落在0到1之间，输入趋近正无穷时输出→1（强正信号），负无穷时→0（强负信号）2.连续可微性：Sigmoid函数是连续可微的。3.对称性：Sigmoid函数是对称的。

逻辑回归74

2.交叉熵损失

逻辑回归的交叉熵损失函数可以表示为：

逻辑回归75

通过逻辑函数计算得到：因此逻辑回归的交叉熵损失函数可以表示为：计算其关于

的偏导数

逻辑回归76

因为：所以：因此：

应用案例77

表中有一组学生的身高、体重和性别，身高、体重分别以英寸和磅为单位，性别男生和女生，输入变量X1和X2表示身高和体重Y，输出标签表示性别，男生（标签为1），女生（标签为0），请建立一个逻辑回归模型来预测学生的性别。1.简单的逻辑回归

应用案例78

根据公式采用梯度下降方法最小化交叉熵，得到的参数为决策边界为

身高体重性别分类回归图

2.多元线性回归引擎排量以升为单位，气缸数以个为单位，城区油耗、高速油耗、综合油耗以升每百公里为单位，二氧化碳排放量以克每公里为单位。此处选择引擎排量、气缸数和综合油耗作为输入变量X1、X2、X3，输出y表示二氧化碳排放量，请建立一个多元线性回归模型来预测二氧化碳排放量。应用案例

应用案例80采用最小二乘法，最小化均方误差，得到参数：在测试集上得到残差平方和632.28和方差0.84。公式第4章：决策树内容决策树的概念决策树学习算法的基本框架属性选择属性测试剪枝处理应用案例

1决策树的定义和工作原理

定义：

工作原理：决策树通过建立一个树形结构来揭示属性集与类标签之间的关系。决策树能够将复杂的分类问题分解成一系列简单的决策问题，从而实现对实例的有效分类。

决策树概念2决策树是一种监督学习模型，主要用于分类任务。它通过构建一棵树形结构来对数据进行分类。决策树包含一个称为“根”的结点，这个结点没有输入边。没有输出边的结点为叶子结点，其他结点为内部结点，根结点和内部结点都是测试结点。每个测试结点对一个属性执行一个测试，测试结点的输出边被标记为属性的不同取值，以便根据这些值将数据划分到不同的子结点。每个叶子结点指定了分类标签，代表决策树对数据进行分类的最终结果。决策树的例子

决策树概念84决策树的数据分类行为2决策树的例子

决策树概念决策树包含叶结点和非终端结点（包括根结点和其他内部结点）。每个叶结点都有一个类别标签。非终端结点包含属性测试条件，用于区分具有不同属性的记录。从根结点开始，对记录应用测试条件，然后根据测试结果选择合适的分支，这将导致分支要么进入另一个内部结点，应用新的测试条件，要么进入叶结点。每个叶子结点指定了分类标签，代表决策树对数据进行分类的最终结果。目标：根据给定的训练数据集构建一个决策树模型，使它能够对新的实例进行正确的分类。基本数据集：Jeeves训练数据集合问题：Bertie喜欢打网球，让Jeeves为预订场地。Jeeves需要预测Bertie是否打网球，因此记录了Bertie的一些相关信息（Jeeves训练数据集合）

决策树学习算法的基本框架86DayOutlookTempHumidityWindTennis?1SunnyHotHighWeakNo2SunnyHotHighStrongNo3OvercastHotHighWeakYes4RainMildHighWeakYes5RainCoolNormalWeakYes6RainCoolNormalStrongNo7OvercastCoolNormalStrongYes8SunnyMildHighWeakNo9SunnyCoolNormalWeakYes10RainMildNormalWeakYes11SunnyMildNormalStrongYes12OvercastMildHighStrongYes13OvercastHotNormalWeakYes14RainMildHighStrongNoJeeves训练数据集合共有14个实例，包括9个正例和5个反例；涵盖了4个属性Outlook，Temp，Humidity和Wind。决策树的停止条件

决策树学习算法的基本框架87停止条件基本情况1：所有实例都属于同一类别

基本情况2：没有剩余的属性可以测试

基本情况3：没有剩余的实例停止条件（基本情况1：所有实例都属于同一类别）例题1给定属性测试顺序，构建决策树

属性Outlook的测试

决策树——决策树学习算法的基本框架88为了使用指定的测试属性顺序为Jeeves数据集构建完整的决策树，将遵循以下步骤：1、从根结点开始，并测试Outlook属性。2、如果Outlook=Sunny，测试温度（Temp）

属性。如果Outlook=Rain，测试风速

（Wind）属性。3、对于所有其他分支，先测试湿度Humidity）

属性，

然后再测试风速（Wind）。数据集根据给定测试顺序，首先测试Outlook。Outlook有三个值：Sunny、Overcast和Rain。将实例分为三个分支。实例1的Outlook等于Sunny，所以它进入左分支。实例3的Outlook等于Overcast，所以它进入中间分支，等等。停止条件（基本情况1：所有实例都属于同一类别）例题1给定属性测试顺序，构建决策树

属性Outlook的测试及其叶子结点生成

决策树——决策树学习算法的基本框架89为了使用指定的测试属性顺序为Jeeves数据集构建完整的决策树，将遵循以下步骤：1、从根结点开始，并测试Outlook属性。2、如果Outlook=Sunny，测试温度（Temp）

属性。如果Outlook=Rain，测试风速

（Wind）属性。3、对于所有其他分支，先测试湿度Humidity）

属性，

然后再测试风速（Wind）。数据集在中间分支中，所有实例都是正例。没有必要测试另一个属性，因此可以做出决定，然后创建一个带有标签Yes的叶子结点，并且完成了这个分支。停止条件（基本情况1：所有实例都属于同一类别）例题1给定属性测试顺序，构建决策树

属性Temp的测试

决策树——决策树学习算法的基本框架90为了使用指定的测试属性顺序为Jeeves数据集构建完整的决策树，将遵循以下步骤：1、从根结点开始，并测试Outlook属性。2、如果Outlook=Sunny，测试温度（Temp）

属性。如果Outlook=Rain，测试风速

（Wind）属性。3、对于所有其他分支，先测试湿度Humidity）

属性，

然后再测试风速（Wind）。数据集首先查看左分支，其中有2个正例和3个负例。因此，根据给定的顺序，测试下一个属性，即温度（Temp）。Temp有三个值：Hot（热）、Mild（温和）和Cool（凉爽）。然后再次创建三个分支。这五个实例被这些分支分割。每个结点将重复这个过程。首先，检查所有实例是否属于同一类别。如果是，则创建一个带有类别标签的叶子结点并停止。否则，选择下一个属性进行测试，并根据选择的属性分割实例。停止条件（基本情况1：所有实例都属于同一类别）

最终的决策树

决策树——决策树学习算法的基本框架91停止条件（基本情况2：没有剩余的属性可以测试）例题2使用和例1相同的属性测试顺序构建决策树

决策树——决策树学习算法的基本框架92DayOutlookTempHumidityWindTennis?1SunnyHotHighWeakNo2SunnyHotHighStrongNo3OvercastHotHighWeakYes4RainMildHighWeakYes5RainCoolNormalWeakYes6RainCoolNormalStrongNo7OvercastCoolNormalStrongYes8SunnyMildHighWeakNo9SunnyCoolNormalWeakYes10RainMildNormalWeakYes11SunnyMildNormalStrongYes12OvercastMildHighStrongYes13OvercastHotNormalWeakYes14RainMildHighStrongNo15SunnyMildHighWeakNo16SunnyMildHighWeakYes17SunnyMildHighStrongYes修正的Jeeves训练数据集合（17个实例）数据集在原来Jeeves训练集中添加了3个实例（红色），建立了一个修正Jeeves训练集停止条件（基本情况2：没有剩余的属性可以测试）例题2使用和例1相同的属性测试顺序构建决策树

决策树——决策树学习算法的基本框架93为了使用指定的测试属性顺序为Jeeves数据集构建完整的决策树，将遵循以下步骤：1、从根结点开始，并测试Outlook属性。2、如果Outlook=Sunny，测试温度（Temp）

属性。如果Outlook=Rain，测试风速

（Wind）属性。3、对于所有其他分支，先测试湿度Humidity）

属性，

然后再测试风速（Wind）。数据集Jeeves训练集的决策树停止条件（基本情况2：没有剩余的属性可以测试）例题2使用和例1相同的属性测试顺序构建决策树

决策树——决策树学习算法的基本框架94为了使用指定的测试属性顺序为Jeeves数据集构建完整的决策树，将遵循以下步骤：1、从根结点开始，并测试Outlook属性。2、如果Outlook=Sunny，测试温度（Temp）

属性。如果Outlook=Rain，测试风速

（Wind）属性。3、对于所有其他分支，先测试湿度Humidity）

属性，

然后再测试风速（Wind）。数据集由测试条件（Outlook是Sunny，Temperature是Mild，Humidity是High）构成的测试分支停止条件（基本情况2：没有剩余的属性可以测试）例题2使用和例1相同顺序的属性测试构建决策树

决策树——决策树学习算法的基本框架95为了使用指定的测试属性顺序为Jeeves数据集构建完整的决策树，将遵循以下步骤：1、从根结点开始，并测试Outlook属性。2、如果Outlook=Sunny，测试温度（Temp）

属性。如果Outlook=Rain，测试风速

（Wind）属性。3、对于所有其他分支，先测试湿度Humidity）

属性，

然后再测试风速（Wind）。注意：当我们没有属性可以测试时，通常使用多数类别作为最终的决策经过Outlook，Temperature和Humidity属性测试后，属性Wind的测试结果停止条件（基本情况3：如果没有剩下任何实例）例题3使用和例1相同的属性测试顺序构建决策树

决策树——决策树学习算法的基本框架96DayOutlookTempHumidityWindTennis?1SunnyHotHighWeakNo2SunnyHotHighStrongNo3OvercastHotHighWeakYes4RainMildHighWeakYes5RainCoolNormalWeakYes6RainCoolNormalStrongNo7OvercastCoolNormalStrongYes8SunnyMildHighWeakNo9SunnyCoolNormalWeakYes10RainMildNormalWeakYes11SunnyMildNormalStrongYes12OvercastMildHighStrongYes13OvercastHotNormalWeakYes14RainMildHighStrongNo15SunnyHotHighWeakNo修正的Jeeves训练数据集合（15个实例）数据集停止条件（基本情况3：如果没有剩下任何实例）例题3使用和例1相同的属性测试顺序构建决策树

经过三个属性测试（Temp，Wind和Humidity）后，属性Outlook的测试结果

决策树——决策树学习算法的基本框架97数据集决策树学习算法的基本框架

决策树——决策树学习算法的基本框架属性选择

属性选择：在每一步子集划分时，选择一个对分类贡献最大的属性

决策树——属性选择991、在决策树算法中，希望选择一个属性，能够帮助更快地做出决策，即最大程度地减少对目标变量的不确定性。2、为了衡量这种不确定性的减少，我们需要计算考虑一个

属性前后的不确定性的变化。3、用集合的熵来表示不确定性，刻画不确定性的变化程度的常用的方法：

信息增益、增益率和基尼指数的方法。4、ID3算法采用信息增益ID3的改进版C4.5算法采用信息增益率

决策树——属性选择100自信息和熵

决策树——属性选择101

决策树——属性选择102互信息是信息论中的概念，用来衡量两个随机变量之间的相互依赖性，它表示知道一个变量后，另一个变量的不确定性减少的程度

决策树——属性选择103

决策树——属性选择104例题4

决策树——属性选择105DayOutlookTempHumidityWindTennis?1SunnyHotHighWeakNo2SunnyHotHighStrongNo3OvercastHotHighWeakYes4RainMildHighWeakYes5RainCoolNormalWeakYes6RainCoolNormalStrongNo7OvercastCoolNormalStrongYes8SunnyMildHighWeakNo9SunnyCoolNormalWeakYes10RainMildNormalWeakYes11SunnyMildNormalStrongYes12OvercastMildHighStrongYes13OvercastHotNormalWeakYes14RainMildHighStrongNoJeeves训练数据集合1、Jeeves训练数据集

属性：

OutlookTempHumidity

Wind2、14个实例：9个正例5个反例例题4

决策树——属性选择106

例题4

决策树——属性选择107

决策树的根结点的数据分布情况解

集合的熵

关于属性Wind的信息增益及信息增益率：

决策树——属性选择解

关于属性Humidity的信息增益及信息增益率：

决策树——属性选择109解

关于属性Outlook的信息增益及信息增益率：

决策树——属性选择110解

关于属性Temp的信息增益及信息增益率：

决策树——属性选择例5对于Jeeves训练数据集合，利用ID3算法建立决策树。对于根结点，根据上面例题的结果，Outlook属性具有最大的信息增益

决策树——属性选择

决策树的根结点划分例5对于Jeeves训练数据集合，利用ID3算法建立决策树。1）对于Outlook=Sunny情况

决策树——属性选择

当前结点（Outlook=Sunny）的数据分布例5对于Jeeves训练数据集合，利用ID3算法建立决策树。

1）对于Outlook=Sunny情况

计算属性Temp的信息增益

决策树——属性选择例5对于Jeeves训练数据集合，利用ID3算法建立决策树。1）对于Outlook=Sunny情况

计算属性Humidity的信息增益

决策树——属性选择例5对于Jeeves训练数据集合，利用ID3算法建立决策树。

1）对于Outlook=Sunny情况

计算属性Wind的信息增益

决策树——属性选择Humidity具有最大的信息增益，因此选择作为划分属性例5对于Jeeves训练数据集合，利用ID3算法建立决策树。

2）对于Outlook=Rain情况

决策树——属性选择当前结点（Outlook=Rain）数据分布例5对于Jeeves训练数据集合，利用ID3算法建立决策树。

2）对于Outlook=Rain情况

计算属性Temp的信息增益

决策树——属性选择例5对于Jeeves训练数据集合，利用ID3算法建立决策树。

2）对于Outlook=Rain情况

计算属性Humidity的信息增益

决策树——属性选择例5对于Jeeves训练数据集合，利用ID3算法建立决策树。

2）对于Outlook=Rain情况

计算属性Wind的信息增益

决策树——属性选择

我们选择Wind，因为它的预期信息增益最大例5对于Jeeves训练数据集合，利用ID3算法建立决策树。

最终的生成树

由Jeeves训练数据集合生成的决策树

决策树——属性选择连续值的属性

决策树——属性测试122二元属性测试条件到目前为止，所涉及的属性都是离散属性。在处理离散属性时，决策树算法可以选择允许多元分割或限制为二元分割。允许多元分割的决策树可以捕捉到更复杂的数据结构，但可能会导致树变得更深，计算成本更高。限制为二元分割的决策树更简单，计算效率更高，但可能无法捕捉到某些复杂的模式。二元属性

测试条件生成两个潜在的结果:连续值的属性

决策树——属性测试123多元属性测试条件

连续值的属性

决策树——属性测试124

连续属性的离散化处理连续值的属性

决策树——属性测试125DayOutlookTempHumidity%WindTennis?1SunnyHot80WeakNo2SunnyHot82StrongNo3OvercastHot84WeakYes4RainMild85WeakYes5RainCool60WeakYes6RainCool62StrongNo7OvercastCool65StrongYes8SunnyMild86WeakNo9SunnyCool63WeakYes10RainMild64WeakYes11SunnyMild65StrongYes12OvercastMild83StrongYes13OvercastHot60WeakYes14RainMild83StrongNo修正Jeeves训练数据集合（humidity连续值取值，湿度的单位：%）连续值的属性

决策树——属性测试126DayOutlookTempHumidity%WindTennis?5RainCool60WeakYes13OvercastHot60WeakYes6RainCool62StrongNo9SunnyCool63WeakYes10RainMild64WeakYes7OvercastCool65StrongYes11SunnyMild65StrongYes1SunnyHot80WeakNo2SunnyHot82StrongNo12OvercastMild83StrongYes14RainMild83StrongNo3OvercastHot84WeakYes4RainMild85WeakYes修正Jeeves训练数据集合（按照humidity值排序）连续值的属性

决策树——属性测试127

T={61.0,62.5,63.5,64.5,72.5,81.0,82.5,83.5,84.5}1、根结点包含的14个训练样本在Humidity属性上有10个不同的取值，计算该属性的分割点集合2、计算分割点的信息增益连续值的属性

决策树——属性测试128

过拟合

决策树——剪枝处理129决策树优点：结构相对简单，易于解释性强。与神经网络形成鲜明对比，后者结构复杂，往往难以解释其工作原理。即使是在数据量较小的情况下，决策树也能生成一个合理的模型。相比之下，神经网络在处理小数据集时往往效果不佳过拟合现象：神经网络在处理小数据集时往往效果不佳，且容易过拟合。过拟合仍然是在构建决策树时需要克服的一个主要挑战。决策树学习算法可以不断生长树，直到它完美地分类训练集中的所有实例。然而，这并不一定是一种理想的行为，因为这很容易导致过拟合。过拟合

决策树——剪枝处理130DayOutlookTempHumidityWindTennis?1SunnyMildHighStrongNo2RainHotNormalStrongNo3RainCoolHighStrongNo4OvercastHotHighStrongYes5OvercastCoolNormalWeakYes6RainHotHighWeakYes7OvercastMildNormalWeakYes8OvercastCoolHighWeakYes9RainCoolHighWeakYes10RainMildNormalStrongNo11OvercastMildHighWeakYes12SunnyMildNormalWeakYes13SunnyCoolHighStrongNo14SunnyCoolHighWeakNoJeeves测试数据集合过拟合

决策树——剪枝处理131(a)由Jeeves训练集生成的决策树(b)由有噪的Jeeves训练集生成的决策树决策树的过拟合现象当训练集遭到了破坏：第三个实例的标签从“Yes”错误地更改为了“No”。受损的训练集生成的决策树将会不同。当用同一个测试集进行评估时，原始的决策树在测试集上的误差率为0，而新的决策树在测试集上的错误率却上升到了1/14。训练集中一个微小的变化，可能导致生成的决策树发生剧烈的变化。为了适应这个错误数据点，新的决策树生长出了一个额外的子树，使得树的结构变得更加复杂。这样的树可能不会很好地泛化到新的数据上。过拟合

决策树——剪枝处理132问题：过拟合模型通常捕捉到了训练数据中的噪声和特异性，这些属性并不代表数据的整体分布或结构。这样的模型在遇到新数据时往往表现不佳，因为它学习到的模式太过于特定于训练集，缺乏泛化到未知数据的能力。解决思想：通过限制决策树的深度和结点数量，我们可以避免模型变得过于复杂。这种简化有助于模型专注于数据中最显著和最普遍的属性，从而提高了模型在新数据上的泛化能力。简而言之，更小和更浅的决策树往往能够更好地捕捉到数据的真实结构，而不是仅仅记忆训练数据。解决方法：通过剪枝技术，不仅能够得到一个简洁且易于解释的模型，还能提升模型在未知数据上的预测能力。这种简化不仅有助于防止过拟合，还能提高模型的运算效率，使其更加适用于现实世界的应用场景。总之，剪枝是决策树优化中的一项重要技术，它对于平衡模型的复杂度和泛化能力起着至关重要的作用。剪枝主要包括两种方法：预剪枝和后剪枝。过拟合

决策树——剪枝处理133预剪枝在决策树生成的过程中，通过设定准则来提前终止树的生长，以避免过度拟合训练数据。预剪枝的优点在于其高效性，因为它减少了不必要的树生长。然而，这种方法可能会过于保守，导致剪掉一些可能对模型泛化有益的分支，从而造成欠拟合。后剪枝则是在决策树完全生长之后进行的。它允许树生长到最大深度，然后从下到上逐层考虑是否剪枝。后剪枝的决策通常基于剪枝前后的错误率来决定。后剪枝的缺点是计算成本较高，因为它需要先生成一棵完整的树，然后再进行剪枝。尽管如此，后剪枝通常能够得到一个更精确的模型，因为它考虑了所有可能的分支。这里只是介绍了预剪枝技术。预剪枝的基本思想：用训练集进行属性选择，找到当前信息增益或者增益率最大的属性进行数据划分，利用测试集来评估所做划分的有效性。如果划分后的测试精度有所下降，这表明该结点的划分并没有提高模型的泛化能力，反而可能导致了过拟合。在这种情况下，认为该结点的划分是无效的，并采取减枝操作，即撤销这一划分。剪枝处理

例4（利用C4.5算法建立决策树）

有噪的Jeeves训练数据集合所示，它将原Jeeves训练数据集的第9个数据的humidity属性值由Normal改为High，记作：有噪的Jeeves训练数据集。以信息增益率为准则进行属性选择，利用Jeeves测试集，采用预剪枝技术，构建决策树。

决策树——剪枝处理134剪枝处理

例4（利用C4.5算法建立决策树）

决策树——剪枝处理135DayOutlookTempHumidityWindTennis?1SunnyHotHighWeakNo2SunnyHotHighStrongNo3OvercastHotHighWeakYes4RainMildHighWeakYes5RainCoolNormalWeakYes6RainCoolNormalStrongNo7OvercastCoolNormalStrongYes8SunnyMildHighWeakNo9SunnyCoolHighWeakYes10RainMildNormalWeakYes11SunnyMildNormalStrongYes12OvercastMildHighStrongYes13OvercastHotNormalWeakYes14RainMildHighStrongNo有噪的Jeeves训练数据集合剪枝处理解：步骤1以根结点作为当前结点进行预减枝处理首先对根结点进行测试,D共有14个实例，根结点包含9个正例和5个反例。属性集合：{Outlook、Temp、Humidity、Wind}。正例多于反例，根据多数原则，根结点的标签为“Yes”以Jeeves测试数据集合对根结点进行测试，测试结果为{1,2,3,4,5,6,7,8,9,10,11,12,13,14}，红色表示错分的实例。

决策树——剪枝处理136剪枝处理步骤1以根结点作为当前结点进行预减枝处理

接下来考虑不同属性下的划分结果

决策树——剪枝处理

下面只给出Outlook属性下的信息增益率的计算过程，其他属性下的具体的计算过程省略。注：用训练集进行属性选择，找到当前增益率最大的属性进行集合划分，用测试集进行测试根据前后测试精度的改变，决定该结点的划分是否保留，如果精度下降，该结点划分无效，需要减枝。剪枝处理步骤1以根结点作为当前结点进行预减枝处理

决策树——剪枝处理138

对于根结点数据分布剪枝处理步骤1以根结点作为当前结点进行预减枝处理

决策树——剪枝处理计算属性Outlook的信息增益和信息增益率。剪枝处理

决策树——剪枝处理根结点的预剪枝Outlook增益率最大，因此选择Outlook为分割属性对于Outlook=Sunny，Outlook=Overcast和Outlook=Rain，根据多数原则，对应的三个训练子集所的标签分别为“No”，和“Yes”和“Yes”用测试集验证，精度由原来的8/14提高到10/14，因此按照Outlook划分测试集正确分类的记录个数：8剪枝处理步骤2分别以Outlook=Sunny，Outlook=Overcast和Outlook=Rain三个分支结点作为当前结点，进行预减枝处理

决策树——剪枝处理1411）对于Outlook=Sunny情况，计算属性Wind,Humidity和Temp的信息增益率当前结点(Outlook=Sunny)的数据分布剪枝处理步骤2分别以Outlook=Sunny，Outlook=Overcast和Outlook=Rain三个分支结点作为当前结点，进行预减枝处理

决策树——剪枝处理计算属性Temp的信息增益和信息增益率。同理，属性Humidity和属性Wind的信息增益率的计算方法同上剪枝处理步骤2

决策树——剪枝处理当前结点(Outlook=Sunny)的剪枝处理用测试集验证，精度由原来的10/14提高到11/14，因此按照Humidity划分属性Humidity信息增益率最大，选择Humidity为分割属性剪枝处理步骤3Outlook=Rain，Humidity=high时，在{Outlook、Temp、Humidity、Wind}中没有测试的属性Temp和Wind进行属性选择

决策树——剪枝处理144当前结点(Outlook=Sunny)的数据分布当前结点(Outlook=Rain，Humidity=high)的数据分布1）当Outlook=Rain，Humidity=high时，计算属性Wind和Temp的信息增益率剪枝处理步骤3

决策树——剪枝处理当前节点(Outlook=Rain，Humidity=high)的预剪枝处理用测试集验证，精度由原来的11/14提高到9/14，因此当前结点不需要划分属性Temp信息增益率最大，选择Temp为分割属性剪枝处理步骤2

决策树——剪枝处理146Overcast对应的子集包含唯一的类别（正类），因此当前结点成为叶子结点，其类标签为"Yes"。此时，无需进一步测试，因为该结点对应的训练实例已经被正确分类。2）对于Outlook=Overcast情况剪枝处理步骤2

决策树——剪枝处理1473）对于Outlook=Rain情况，计算属性Wind,Humidity和Temp的信息增益率当前节点(Outlook=Rain)的数据分布剪枝处理步骤2

决策树——剪枝处理148当前结点(Outlook=Rain)

的预剪枝处理Wind的增益率最大因此选择wind进行划分将测试数据的精度由原来的10/14上升为13/14，因此当前结点需要划分剪枝处理最终获得的决策树

决策树——剪枝处理149预剪枝形成的决策树决策树——应用案例随着大家生活观念的转变，周末和节假日越来越多的人闲暇时刻选择亲近自然，在大自然中放松身心的人越来越多。登山、吹风，采摘、露营，认识一株不一样的植物，与小动物互动，与大自然和谐共处，会找到特别的放松和内心的平静。为了更好地了解大自然，了解我们身边的一草一木，识别植物的各类APP不断涌现。本节以鸢尾花（Iris）数据集为研究对象，采用决策树构建鸢尾花的分类模型。该数据集包含了150个样本，每个样本有4个特征：萼片长度、萼片宽度、花瓣长度、花瓣宽度，以及一个类别标签。这些特征的所有测量单位都以厘米为单位。数据集共涉及3个类别的鸢尾花，分别是山鸢尾（Setosa）、变色鸢尾（Versicolor）和维吉尼亚鸢尾（Virginica），每个类别各有50个样本。基于决策树的鸢尾花识别结果下图所示。第5章：支持向量机内容

概述

硬间隔线性支持向量机（SupportVectorMachinewithHardMargin）

软间隔线性支持向量机（SupportVectorMachinewithSoftMargin）

非线性支持向量机与核函数（NonlinearSupportVectorMachineandKernelFunctions）

应用案例概述——支持向量机的发展历程与基本概念发展历程：1964年：

支持向量机首次提出20世纪90年代：

得到快速发展并衍生出一系列改进和扩展算法现在：

在人脸识别、文本分类等模式识别问题中得到广泛应用

基本概念：支持向量机定义：

支持向量机是一种二类分类模型核心思想：

通过最大化数据点之间的间隔来寻找最优的超平面目标：

在特征空间中将不同类别的数据点分开概述——线性可分的概念与几何直观

线性可分的定义：在特征空间中，存在一个超平面能够完美地将两类不同的数据点分隔开来，没有任何混淆

二维空间的直观理解：线性可分指存在一条直线能够完美分隔两类数据点

高维空间的扩展：

三维空间：线性分类器对应一个平面多维空间：线性分类器是一个超平面

数学表示：设x=(x₁,x₂)ᵀ表示平面上的一个点，y是该点的类别标签目标：找到系数w和b，使得直线方程w·x+b=0能够将两类点完全分开。其中，w是直线的法向量，b是直线的截距

分类规则：当w·x+b>0时，点位于直线上方，属于正类别（y=+1）当w·x+b<0时，点位于直线下方，属于负类别（y=-1）概述——多个分类器存在性问题分类器的非唯一性：对于线性可分的数据集，通常存在多条直线能够完成同样的分类任务。如图所示，存在多条直线都能够将两类数据点精确地分开两个具体分类器的数学表示：

分类器1：

分类器2：关键问题：既然存在多个直线分类器将数据分开，哪条直线分类性能最佳？概述——SVM的三种类型支持向量机的模型可以分为三类硬间隔支持向量机

当训练样本线性可分时，通过硬间隔最

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习课件全套1-5 机器学习概述 - 第5章支持向量机

文档简介

温馨提示

最新文档

评论

机器学习 课件全套1-5 机器学习概述 - 第5章支持向量机

文档简介

温馨提示

最新文档

评论

相关文档

机器学习课件全套1-5 机器学习概述 - 第5章支持向量机