版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章分类预测集成分类器集成分类器集成分类器通过构建并结合多个学习器(基学习器、弱学习器)来完成学习任务,获得比单一学习器更优越的泛化性能和预测准确率过程:构建多个差异性基学习器,策略:不同算法数据样本扰动数据特征扰动融合汇总基学习器的输出,策略:平均法投票法Stacking法2集成分类器集成分类器可以分为两大类:序列化方法并行化方法3集成分类器集成分类器可以分为两大类:序列化方法基学习器之间存在强依赖关系,必须串行生成,其代表是Boosting方法。Boosting通过逐步训练一系列基学习器,每一轮训练都会根据前一轮分类器的错误情况来调整样本权重,使得被错误分类的样本得到更多的关注,从而提高分类器的性能。并行化方法4集成分类器集成分类器可以分为两大类:序列化方法并行化方法基学习器之间不存在强依赖关系,可同时生成,如Bagging方法Bagging方法训练多个相互独立的基学习器,然后对其输出进行投票或平均,来获得最终结果。5BoostingBoosting方法通过迭代地训练多个基学习器(通常是决策树)并将其结合来构建强分类器。两大类:基于权重通过调整样本的权重来影响基学习器的训练。在每一轮迭代中,都会增加那些在前一轮被错误分类的样本的权重,使得这些样本在下一轮的训练中受到更多的关注基于残差通过拟合残差来训练基学习器。在每一轮迭代中,都会计算当前模型的预测值与实际值之间的残差,并基于这个残差来训练新的基学习器。新的基学习器的目标就是拟合这个残差,从而逐步减小整体的预测误差6Boosting自适应增强算法(AdaBoost)梯度提升算法(GradientBoosting)7AdaBoost融合多个具有一定权重的基学习器,获得一个强分类器模型的训练,是完成对各基学习器迭代训练的过程8每个数据样本都被赋予一个权重,反映样本在上一迭代过程中,被正确分类的情况,也就是在后续迭代过程中受重视的程度样本权重会被迭代调整,正确分类的样本获得较小的权重,错误分类的样本获得较大的权重AdaBoost
9AdaBoost
10AdaBoost
11AdaBoost
12AdaBoost13梯度提升算法(GradientBoosting)梯度提升算法通过迭代地向模型中添加弱学习器,逐步聚合为一个强学习器。每一次迭代,算法都会训练产生一个弱学习器,获得表征残差的损失函数,并计算出损失函数的梯度(或近似梯度)。以最小化损失函数,来训练一个新的弱学习器,并将新的弱学习器添加到模型中,以改进模型的预测准确性和泛化能力。每轮训练都以先前轮次中的残差作为下一轮训练的目标,试图纠正前面留下的残差,逐步构建一个具有强泛化能力的模型14梯度提升算法(GradientBoosting)15算法的过程如下:1)初始化:初始化一个基础模型,这个模型通常是一个简单的预测器;2)迭代过程:首先,对于每个样本,计算当前模型预测值与实际值之间的差异(残差)。其次,使用弱学习器(如决策树等)来拟合这些残差。这时可以设置一个学习率指标,控制每轮中残差的权重,防止造成过拟合。最后,更新模型,即将新训练的弱学习器添入模型,集成为一个新的模型,并计算其预测值。这个集成过程通常是将新弱学习器的预测值与之前模型的预测值进行加权组合来完成的。3)重复迭代过程,直至达到预定的迭代次数或满足其他停止条件。梯度提升算法(GradientBoosting)16序号弱学习器数据样本(标注错判)错判样本数累积准确率1688.00%2590.00%3…………492.00%4…………394.00%5…………394.00%6296.00%梯度提升算法(GradientBoosting)17典型的梯度提升算法有:1)GBDT(GradientBoostingDecisionTree),以CART回归树为基学习器,可以处理分类或回归问题。2)XGBoost(eXtremeGradientBoosting),在GBDT基础上进行改进,借助二阶导数信息使优化更为精确,引入正则化项防止过度拟合。支持线性分类器,使算法具有更好的灵活性。能够处理缺失值。3)LightGBM(LightGradientBoostingMachine),支持多种基学习器,使用基于直方图技术的学习方法加速训练过程,能够处理缺失值。4)CatBoost(CategoricalBoosting),一种适用于处理分类特征数据的梯度提升算法。采用了对称树、动态学习速率和一些高效的优化技术,具有较高的训练速度和准确性。自助聚合Bagging自助聚合Bagging(BootstrapAGGregating)算法的基本思想是通过自助采样法(Bootstrapsampling)从原始数据集中抽取多个训练子集,并在每个子集上训练一个基学习器(或称为弱学习器),然后将这些基学习器的预测结果进行组合,以产生最终的预测结果。18自助聚合Bagging19Bagging算法的主要过程为:1)自助采样。从原始数据集中,使用自助采样法(有放回抽样)抽取多个训练子集。每个子集的大小通常与原始数据集相同或接近。2)训练基学习器。以每个训练子集单独训练一个基学习器。基学习器通常选用相同的算法。3)预测与组合。对于待预测的样本,每个基学习器均给出预测结果。Bagging分类器将这些预测结果进行聚合,通常使用简单多数投票法。自助聚合BaggingBagging算法通过引入数据扰动(使训练子集差异化)来增加基学习器的多样性,从而提高集成分类器的泛化能力。每个基学习器都是独立训练的,因此Bagging算法可以并行化,提高训练效率。Bagging算法对基学习器的稳定性有一定要求如果基学习器本身对训练数据不敏感(即稳定性较高),那么通过Bagging引入的数据扰动可能无法有效提高集成分类器的性能。因而,Bagging算法更适用于提高那些以不稳定算法(如决策树、神经网络等)为基学习器的模型的预测性能。20自助聚合Bagging随机森林Bagging算法著名扩展,典型应用在Bagging的基础上引入了特征扰动,进一步提高了集成分类器的性能。选用决策树为基学习器,可解释性强,易于可视化处理高维数据时,不需要进行特征选择,还能较为方便地给出在模型中较为重要的属性处理时可并行构建多个决策树基学习器,适合并行处理。21随机森林数据样本决策树22按照简单多数投票原则,样本(0,0)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水泥应急管理工作制度
- 污水厂维修科工作制度
- 沙场收料人员工作制度
- 河口县政府工作制度
- 油田前线工作制度汇编
- 法律所执业工作制度
- 法治副校长工作制度
- 2025奇瑞汽车博士后研究人员招聘笔试历年参考题库附带答案详解
- 2025四川绵阳科技城新区投资控股(集团)有限公司(含所属公司)人力资源需求外部招聘暨市场化选聘顺位背景调查(2025年第三批次第二部分)笔试历年参考题库附带答案详解
- 2025四川大力熙晟实业有限公司管理岗培生招聘笔试历年参考题库附带答案详解
- 工业机器人视觉技术PPT全套完整教学课件
- 医学微生态学
- 《包装设计师》理论考试题库大全-上(单选、多选题汇总)
- 《创新中国 》期末考试答案
- 铁路职业技能鉴定参考丛书电力线路工高级技师习题集
- LY/T 1752-2008荒漠生态系统定位观测技术规范
- GB/T 29256.5-2012纺织品机织物结构分析方法第5部分:织物中拆下纱线线密度的测定
- (原创2022)地理高考双向细目表
- GB/T 1410-2006固体绝缘材料体积电阻率和表面电阻率试验方法
- 《工程机械设计》第7章-挖掘机工作装置设计课件
- 南京酒店定位报告(修改)
评论
0/150
提交评论