数据挖据技术集成学习方法(ensemblelearnig).ppt_第1页
数据挖据技术集成学习方法(ensemblelearnig).ppt_第2页
数据挖据技术集成学习方法(ensemblelearnig).ppt_第3页
数据挖据技术集成学习方法(ensemblelearnig).ppt_第4页
数据挖据技术集成学习方法(ensemblelearnig).ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖据技术集成学习方法 ensemblelearnig 王磊 副教授 经济信息工程学院 2 2 第六章 集成学习方法 基本概念baggingboosting随机森林选择性集成方法 在机器学习中 直接建立一个高性能的分类器是很困难的 但是 如果能找到一系列性能较差的分类器 弱分类器 并把它们集成起来的话 也许就能得到更好的分类器 日常生活中 三个臭皮匠 胜过诸葛亮 便是体现了这种思想 集成学习的基本概念 集成学习 图示 我们一般选定加权平均的方法来构造集成学习的最终学习器 但是里面的每一个弱分类器 i 怎样构造呢 有一些研究 是针对每个学习器都不同构的情况 比如识别一个人 一个学习器考虑脸 另一个考虑步态 另一个考虑指纹 这种研究通常称为InformationFusion 不在我们今天讨论的范畴 狭义的集成学习 ensemblelearning 是用同样类型的学习算法来构造不同的弱学习器的方法 集成学习 如何构造 办法就是改变训练集 通常的学习算法 根据训练集的不同 会给出不同的学习器 这时就可以通过改变训练集来构造不同的学习器 然后再把它们集成起来 集成学习 如何构造 在原来的训练集上随机采样 可以得到新的训练集 随机采样 集成学习 EnsembleLearning 是一种机器学习方法 它使用多个 通常是同质的 学习器来解决同一个问题 集成学习中使用的多个学习器称为个体学习器当个体学习器均为决策树时 称为 决策树集成 当个体学习器均为神经网络时 称为 神经网络集成 集成学习的定义 由于集成学习技术可以有效地提高学习系统的泛化能力 因此它成为国际机器学习界的研究热点 并被国际权威T G Dietterich称为当前机器学习四大研究方向之首 T G Dietterich AIMag97 问题 对20维超立方体空间中的区域分类左图中纵轴为错误率从上到下的四条线分别表示 平均神经网络错误率最好神经网络错误率两种神经网络集成的错误率令人惊奇的是 集成的错误率比最好的个体还低 L K Hansen P Salamon TPAMI90 集成学习的重要性 集成学习技术已经在行星探测 地震波分析 Web信息过滤 生物特征识别 计算机辅助医疗诊断等众多领域得到了广泛的应用 只要能用到机器学习的地方 就能用到集成学习 集成学习的应用 如何构建好的集成 既然多个个体的集成比单个个体更好 那么是不是个体越多越好 更多的个体意味着 在预测时需要更大的计算开销 因为要计算更多的个体预测更大的存储开销 因为有更多的个体需要保存 个体的增加将使得个体间的差异越来越难以获得 个体越多越好吗 集成策略 有多种策略可以将q个弱分类器组合成集成分类器 集成策略 从大小为n的原始数据集D中独立随机地抽取n 个数据 n n 形成一个自助数据集 重复上述过程 产生出多个独立的自助数据集 利用每个自助数据集训练出一个 分量分类器 最终的分类结果由这些 分量分类器 各自的判别结果投票决定 基本思想 对训练集有放回地抽取训练样例 从而为每一个基本分类器都构造出一个跟训练集相当大小但各不相同的训练集 从而训练出不同的基本分类器 该算法是基于对训练集进行处理的集成方法中最简单 最直观的一种 Bagging算法 Bagging算法 Boosting算法 Boosting流程描述 Step1 原始训练集输入Step2 计算训练集中各样本的权重Step3 采用已知算法训练弱学习机 并对每个样本进行判别Step4 计算对此次的弱学习机的权重Step5 转到Step2 直到循环到达一定次数或者某度量标准符合要求Step6 将弱学习机按其相应的权重加权组合形成强学习机 核心思想 样本的权重没有先验知识的情况下 初始的分布应为等概分布 也就是训练集如果有N个样本 每个样本的分布概率为1 N每次循环一后提高错误样本的分布概率 分错样本在训练集中所占权重增大 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断 弱学习机的权重准确率越高的弱学习机权重越高循环控制 损失函数达到最小在强学习机的组合中增加一个加权的弱学习机 使准确率提高 损失函数值减小 简单问题演示 Boosting训练过程 算法 boosting数学描述 训练集 x1 y1 x2 y2 xN yN xi Rm yi 1 1 Dt为第t次循环时的训练样本分布 每个样本在训练集中所占的概率 Dt总和应该为1 ht X 1 1 为第t次循环时的Weaklearner 对每个样本给出相应的假设 应该满足强于随机猜测 wt为ht的权重为t次循环得到的Stronglearner 样本权重 思想 提高分错样本的权重反映了stronglearner对样本的假设是否正确采用什么样的函数形式 弱学习机权重 思想 错误率越低 该学习机的权重应该越大为学习机的错误概率采用什么样的函数形式 和指数函数遥相呼应 AdaBoost算法 25 Adaboost训练过程 26 Adaboost训练过程 27 Adaboost训练过程 Adaboost的缺点 随机森林算法 随机森林算法是LeoBreiman于2001年提出的一种新型分类和预测模型 它具有需要调整的参数少 不容易过度拟合 分类速度快 能高效处理大样本数据等特点 Bagging和AdaBoost等方法只是通过改变样本的权重来获得不同的弱分类器 随机森林 RF 则通过同时改变样本和特征子集来获得不同的弱分类器 随机森林算法 随机森林是采用随机的方式建立一个森林 森林有很多决策树组成 每棵决策树之间没有关联 对于新的测试样本 让森林中的每一棵决策树分布分别进行一下判断 依据多数者投票方法决定样本的类别 完全分裂的方式 随机特征选取 当特征个数M较多时 随机选择m个用于训练决策树 m越小 树的相关性越小 且训练速度越快 当特征个数M较少时 可以由M个特征进行随机线性组合来产生M 个扩展特征 然后 在 M M 上随机选择m个特征 构建决策树 其中 每一个扩展特征的构造如下 从现有M特征中随机抽取L个 它们的权重系数是 1 1 区间的均匀随机数 然后 由L个已有特征线性组合出扩展特征 随机特征数的确定 选择性集成算法 一方面 使用更多的学习器将导致更大的计算和存储开销 另一方面 当个体学习器数目增加之后 学习器之间的差异将越来越难以获得 因此 提出问题 为了达到更好的性能 是否必须使用更多的个体学习器 选择性集成的理论分析 选择性集成的理论分析 选择性集成的理论分析 选择性集成的理论分析 问题求解 问题求解 GASEN算法 论文讲解 基于约束投影的支持向量机选择性集成 2009 研究题目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论