大数据经典算法AdaBoost 讲解PPT学习课件

上传人：文*** IP属地：广东上传时间：2020-04-19 格式：PPT 页数：26 大小：366KB 积分：12 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

AdaBoost 1 Adaboost算法算法分析算法步骤训练过程举例说明算法介绍 2 Adaboost算法介绍 IdeaAdaBoost AdaptiveBoosting R Scharpire Y Freund ICML 1996 Adaboost是一种迭代算法其核心思想是针对同一个训练集训练不同的分类器弱分类器然后把这些弱分类器集合起来构成一个更强的最终分类器强分类器 3 Adaboost算法介绍 Adaboost算法本身是通过改变数据分布来实现的它根据每次训练集之中每个样本的分类是否正确以及上次的总体分类的准确率来确定每个样本的权值将修改过权值的新数据集送给下层分类器进行训练最后将每次得到的分类器最后融合起来作为最后的决策分类器 4 Adaboost算法介绍目前对Adaboost算法的研究以及应用大多集中于分类问题同时近年也出现了一些在回归问题上的应用就其应用Adaboost系列主要解决了两类问题多类单标签问题多类多标签问题大类单标签问题回归问题它用全部的训练样本进行学习使用adaboost分类器可以排除一些不必要的训练数据特征并将关键放在关键的训练数据上面 5 Adaboost算法分析该算法其实是一个简单的弱分类算法提升过程这个过程通过不断的训练可以提高对数据的分类能力 1 先通过对N个训练样本的学习得到第一个弱分类器 2 将分错的样本和其他的新数据一起构成一个新的N个的训练样本通过对这个样本的学习得到第二个弱分类器 3 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本通过对这个样本的学习得到第三个弱分类器4 最终经过提升的强分类器即某个数据被分为哪一类要通过的多数表决 6 Adaboost算法分析对于boosting算法存在两个问题 1 如何调整训练集使得在训练集上训练的弱分类器得以进行 2 如何将训练得到的各个弱分类器联合起来形成强分类器 7 Adaboost算法分析针对以上两个问题 AdaBoost算法进行了调整 1 使用加权后选取的训练数据代替随机选取的训练样本这样将训练的焦点集中在比较难分的训练数据样本上 2 将弱分类器联合起来使用加权的投票机制代替平均投票机制让分类效果好的弱分类器具有较大的权重而分类效果差的分类器具有较小的权重 8 Adaboost算法分析 AdaBoost算法是Freund和Schapire根据在线分配算法提出的他们详细分析了AdaBoost算法错误率的上界以及为了使强分类器达到错误率算法所需要的最多迭代次数等相关问题与Boosting算法不同的是 AdaBoost算法不需要预先知道弱学习算法学习正确率的下限即弱分类器的误差并且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度这样可以深入挖掘弱分类器算法的能力 9 Adaboost算法分析 AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的开始时每个样本对应的权重是相同的即其中n为样本个数在此样本分布下训练出一弱分类器对于分类错误的样本加大其对应的权重而对于分类正确的样本降低其权重这样分错的样本就被突显出来从而得到一个新的样本分布在新的样本分布下再次对样本进行训练得到弱分类器依次类推经过T次循环得到T个弱分类器把这T个弱分类器按一定的权重叠加 boost 起来得到最终想要的强分类器 10 Adaboost算法分析 Adaboost的核心思想关注被错分的样本器重性能好的弱分类器怎么实现 1 不同的训练集调整样本权重 2 关注增加错分样本权重 3 器重好的分类器权重大 4 样本权重间接影响分类器权重 11 Adaboost算法步骤 AdaBoost算法的具体步骤如下 1 给定训练样本集S 其中X和Y分别对应于正例样本和负例样本 T为训练的最大循环次数 2 初始化样本权重为1 n 即为训练样本的初始概率分布 3 第一次迭代 1 训练样本的概率分布相当训练弱分类器 2 计算弱分类器的错误率 3 选取合适阈值使得误差最小 4 更新样本权重经T次循环后得到T个弱分类器按更新的权重叠加最终得到的强分类器 12 Adaboost算法步骤 Adaboost算法是经过调整的Boosting算法其能够对弱学习得到的弱分类器的错误进行适应性 Adaptive 调整上述算法中迭代了T次的主循环每一次循环根据当前的权重分布对样本x定一个分布P 然后对这个分布下的样本使用弱学习算法得到一个弱分类器对于这个算法定义的弱学习算法对所有的样本都有错误率而这个错误率的上限并不需要事先知道实际上每一次迭代都要对权重进行更新更新的规则是减小弱分类器分类效果较好的数据的概率增大弱分类器分类效果较差的数据的概率最终的分类器是个弱分类器的加权平均 13 一样本Given mexamples x1 y1 xm ym wherexi X yi Y 1 1 xi表示X中第i个元素 yi表示与xi对应元素的属性值 1表示xi属于某个分类 1表示xi不属于某个分类二初始化训练样本xi的权重D i i 1 m 1 若正负样本数目一致 D1 i 1 m 2 若正负样本数目m m 则正样本D1 i 1 m 负样本D1 i 1 m SchapireAdaboostAlgorithm 14 三训练弱分类器Fort 1 T Trainlearnerhtwithminerror若划分正确则不计入误差若所有元素都被正确划分则误差为0若划分错误则计入误差2 If t 0 5 thenstop3 Computethehypothesisweight4 5 最后得到的强分类器 SchapireAdaboostAlgorithm TheweightAdapts Thebiggeretbecomesthesmalleratbecomes 15 Adaboost算法的优点 1 Adaboost是一种有很高精度的分类器2 可以使用各种方法构建子分类器 Adaboost算法提供的是框架3 当使用简单分类器时计算出的结果是可以理解的而且弱分类器构造极其简单4 简单不用做特征筛选5 不用担心overfitting 过度拟合 16 Adaboost实例详解下面我们举一个简单的例子来看看adaboost的实现过程图中和分别表示两种类别在这个过程中我们使用水平或者垂直的直线作为分类器来进行分类 17 Adaboost实例详解根据分类的正确率得到一个新的样本分布样本中每个元素的权重分布 D2 一个子分类器h1 其中划圈的样本表示被分错的在右边的途中比较大的表示对该样本做了加权也许你对上面的 1 1怎么算的也不是很理解算法最开始给了一个均匀分布D 所以h1里的每个点的值是0 1 当划分后有三个点划分错了根据算法误差表达式得到误差为分错的三个点的值之和所以 t 0 1 0 1 0 1 0 3 然后根据算法把分错点的权值变大分错点的权值计算如下对于分类正确的7个点其权值保持不变为0 1 对于分类错误的3个点其权值为 18 Adaboost实例详解 19 Adaboost实例详解根据分类的正确率得到一个新的样本分布D3 一个子分类器h2如上图所示弱分类器h2中有三个符号分类错误分类错误的权值为 we2 0 1 3 0 3 上图中十个点的总权值为 wt2 0 1 7 0 233 3 1 3990 错误率为 2 we2 wt2 0 3 1 399 0 2144 对于分类错误的三个点其权值为于是分类错误的三个点误差增加为0 3664如此迭代 20 Adaboost实例详解 21 Adaboost实例详解得到一个子分类器h3如上图所示弱分类器h3中有两个符号和一个符号分类错误分类错误的权值为we3 0 1 2 0 1 1 0 3 上图中十个点的总权值为 wt3 0 1 4 0 233 3 0 3664 3 2 1982 错误率为 t we3 wt3 0 3 2 1982 0 1365 对于分类错误的三个点其权值为于是分类错误的三个点误差增加为0 6326如此迭代 22 Adaboost实例详解每个区域是属于哪个属性由这个区域所在分类器的权值综合决定比如左下角的区域属于蓝色分类区的权重为h1中的0 42和h2中的0 65 其和为1 07 属于淡红色分类区域的权重为h3中的0 92 属于淡红色分类区的权重小于属于蓝色分类区的权值因此左下角属于蓝色分类区因此可以得到整合的结果如上图所示从结果图中看即使是简单的分类器组合起来也能获得很好的分类效果 23 Adaboost权值调整的原因注意到算法最后的表到式为这里面的 t表示的权值是由得到的而是关于误差的表达式到这里就可以得到比较清晰的答案了所有的一切都指向了误差提高错误点的权值当下一次分类器再次分错了这些点之后会提高整体的错误率这样就导致 t变的很小最终导致这个分类器在整个混合分类器的权值变低也就是说这个算法让优秀的分类器占整体的权值更高而挫的分类器权值更低这个就很符合常理了到此我认为对adaboost已经有了一个透彻的理解了 24 总结最后我们可以总结下adaboost算法的一些实际可以使用的场景 1 用于二分类或多分类的应用场景2 用于做分类任务的baseline 无脑化简单不会overfitt

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据经典算法AdaBoost 讲解PPT学习课件

文档简介

温馨提示

最新文档

评论

大数据经典算法AdaBoost 讲解PPT学习课件

文档简介

温馨提示

最新文档

评论

相关文档