第12章-集成学习_第1页
第12章-集成学习_第2页
第12章-集成学习_第3页
第12章-集成学习_第4页
第12章-集成学习_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MACHINELEARNING机器学习第12章集成学习集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。12.集成学习集成学习(EnsembleLearning)第12章集成学习任务一:如何优化训练数据一>主要用于解决欠拟合问题。任务二:如何提升泛化性能一>主要用于解决过拟合问题多种机器学习算法都能做同样的事情。让不同的算法针对同一个数据都跑一遍,最终使用投票的方法,少数服从多数,用多数投票的结果作为最终的结果。12.集成学习机器学习的两个核心任务第12章集成学习hardvoting计算投票的方式是直接按照投票数量得出的,softvoting计算投票考虑了权重假如一个二分类(A、B)问题,5个模型分别对一个样本进行分类。按照hardvoting,投票结果:A为2票(模型1、4),B为3票(模型2、3、5),最终结果为B;但考虑A、B的概率和(A:0.616;B0.384)则投票结果为A。12.集成学习SoftVotingClassifier第12章集成学习虽然有很多机器学习的算法,但从投票的角度看,仍然不够多。需要创建更多的子模型,集成更多子模型的意见。子模型之间不能一致,子模型之间要有差异性。创建差异性子模型的解决方法:每个子模型只看样本数据的一部分。每个子模型不太需要太高的准确率。只要子模型足够多,准确率就会提高。例如500个子模型,每个子模型的准确率是60%,最终准确率能达到99.9%12.集成学习Bagging和Pasting第12章集成学习12.集成学习Bagging集成原理目标:把圈和方块进行分类第12章集成学习12.集成学习Bagging集成原理不同模型采样部分数据集第12章集成学习12.集成学习Bagging集成原理训练分类器第12章集成学习12.集成学习Bagging集成原理平权投票,获取最终结果第12章集成学习12.集成学习Bagging集成原理原理小结第12章集成学习12.集成学习Bagging集成原理取样方法:放回取样bagging(bootstrap)不放回取样pastingbagging更常用优点没有那么依赖随机数据量要求没那么高第12章集成学习只要是以决策树为基础的集成学习算法都叫随机森林。随机森林构造过程在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

随机森林=Bagging+决策树12.集成学习随机森林第12章集成学习12.集成学习Boosting

随着学习的积累从弱到强,简而言之:每新加入一个弱学习器,整体能力就会得到提升代表算法:Adaboosting,GBDT,XGBoost,LightGBM第12章集成学习12.集成学习Boosting

实现过程训练第一个学习器第12章集成学习12.集成学习Boosting

实现过程调整数据分布:将错误的数据权重变的高一些,正确的变得小一些第12章集成学习12.集成学习Boosting

实现过程训练第二个学习器第12章集成学习12.集成学习Boosting

实现过程再次调整数据分布第12章集成学习12.集成学习Boosting

实现过程依次训练学习器,调整数据分布第12章集成学习12.集成学习Boosting

实现过程整体过程实现第12章集成学习12.集成学习Boosting

前面的一类集成学习的思路(voting):独立地集成多个模型,让各种子模型在视角上有差异化,并最终综合这些子模型的结果,获得学习的最终结果。另一类集成学习的思路叫做boosting。boosting即增强的意思。boosting也要集成多个模型,但每个模型都在尝试增强(boosting)整体的效果。子模型之间不是独立的关系。

模型没有很好学习的点的权值增大,很好学习到的点的权值减小,得到数据集N+1。每一个子模型都在推动上一个子模型犯的错误,用这些子模型投票得到最终结果。第12章集成学习12.集成学习Boosting第12章集成学习12.集成学习bagging集成与boosting集成的区别

区别一:数据方面Bagging:对数据进行采样训练;Boosting:根据前一轮学习结果调整数据的重要性。区别二:投票方面Bagging:所有学习器平权投票;Boosting:对学习器进行加权投票。第12章集成学习12.集成学习bagging集成与boosting集成的区别区别三:学习顺序Bagging的学习是并行的,每个学习器没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论