




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第1.2节节 决策树学习决策树学习 (Decision Tree) 内容 决策树的基本原理和算法 熵、信息增益和特征选择 决策树学习中的过拟合问题 交叉验证与树的修剪 内容 决策树的基本原理和算法 熵、信息增益和特征选择 决策树学习中的过拟合问题 交叉验证与树的修剪 决策树学习决定是否打网球 看看天气 看看湿度 阳光明媚下雨 看看风速 高正常 不去打球去打球 大小 不去打球去打球 节点:每一个节点测试一个特征节点:每一个节点测试一个特征, 分支:特征的可选数值(此处为离散值)分支:特征的可选数值(此处为离散值) 叶子节点:最终预测叶子节点:最终预测 去打球 阴天 i x ( |)Y or P
2、 Y YLeaf 基本的决策树学习算法(ID3, C4.5) node = root 循环循环 1. 为当下一个节点选择一个最好的属性为当下一个节点选择一个最好的属性 x 2. 将属性将属性x分配给节点分配给节点node 3. 对于对于x的所有可能数值,创建一个降序排列的节点的所有可能数值,创建一个降序排列的节点node 4. 将所有训练样本在叶子节点排序分类将所有训练样本在叶子节点排序分类 5. 如果分类结果达到了错误率要求,跳出循环,否则,如果分类结果达到了错误率要求,跳出循环,否则, 在叶子节点开始新循环在叶子节点开始新循环-递归递归 决策树学习的适用问题 l 适用问题的特征 实例由“特
3、征-值”对表示 目标函数具有离散的输出值 训练数据可以包含一定的错误 训练数据可以包含缺少特征值的实例 l 问题举例 根据天气好坏确定是否去打球 根据疾病分类患者 根据起因分类设备故障 根据拖欠支付的可能性分类贷款申请 l 分类问题 核心任务是把样例分类到各可能的离散值对应的类别 基本的决策树学习算法(ID3, C4.5) l ID3的思想 自顶向下构造决策树 从“哪一个特征将在树的根节点被测试”开始 使用统计测试来确定每一个实例特征单独分类训练样例的能力 l ID3的过程 分类能力最好的特征被选作树的根节点 根节点的每个可能值产生一个分支 训练样例排列到适当的分支 重复上面的过程 基本的决策
4、树学习算法(ID3, C4.5) 编号编号天气天气温度温度湿度湿度风风是否去打球是否去打球 1晴天炎热高弱不去 2晴天炎热高强不去 3阴天炎热高弱去 4下雨适中高弱去 5下雨寒冷正常弱去 6下雨寒冷正常强不去 7阴天寒冷正常强去 8晴天适中高弱不去 9晴天寒冷正常弱去 10下雨适中正常弱去 11晴天适中正常强去 12阴天适中高强去 13阴天炎热正常弱去 14下雨适中高强不去 表-1:是否去打球的数据统计训练数据 决策树学习原理简介(ID3, C4.5算法) 湿度 高正常 (3+, 4-) (6+, 1-) S: (9+, 5-) 风 弱强 (6+, 2-) (3+, 3-) S: (9+, 5
5、-) 问题:哪一个属性(特征)更好?问题:哪一个属性(特征)更好? 内容 决策树的基本原理和算法 熵、信息增益和特征选择 决策树学习中的过拟合问题 交叉验证与树的修剪 熵:物理学概念 宏观上:宏观上:热力学定律体系的熵变等于可逆过程吸收或耗散的热量 除以它的绝对温度(克劳修斯,1865) 微观上:微观上:熵是大量微观粒子的位置和速度的分布概率的函数,是描 述系统中大量微观粒子的无序性的宏观参数(波尔兹曼,1872) 结论:结论:熵是描述事物无序性的参数,熵越大则无序性越强,在信息 领域定义为“熵越大,不确定性越大”(香浓,1948年) 熵 随机变量的熵 ()I X 熵 比较多的用于信源编码,数
6、据压缩,假设 是最有效的编码方式是使用 位编码 于是对于随即变量的最有效编码位之和: Xi 2 1 ()()log() n i I XP XiP Xi 熵 熵 表示训练集合中的样本 S 表示训练集合中反例样本的比例p 表示训练集合中正例样本的比例p 22 ( )log ()log ()I Spppp 表示训练集合的熵 信息增益(Information Gain) 信息的增加意味着不确定性的减少,也就是熵的减小; 信息增益在诸多系统中定义为: 在某一个操作之前的系统熵与操作之后的系统熵的差值 也即是不确定性的减小量 信息增益(Information Gain) l 原来的不确定性 l 知道x之后
7、的不确定性 l 信息增益: 原来-知道x之后的 原来不确定性-经过属性x划分以后的不确定性 信息增益(Information Gain) l 选择特征的标准:选择具有最大信息增益(Information Gain) 的特征 l 假设有两个类, + 和 - 假设集合S中含有p个类别为+的样本,n个类别为-的样本 将S中已知样本进行分类所需要的期望信息定义为: np n np n np p np p npI 22 loglog),( l 假设特征x将把集合S划分成 K份 S1, S2 , , SK 如果 Si 中包含 pi 个类别为 “+”的样本, ni 个类别为 “-”, 的样本。那么划分后的熵
8、就是: l 在x上进行决策分枝所获得的信息增益为: 1 ( )(,) K ii ii i pn E xI p n pn ( )( , )( )Gain xI p nE x 信息增益(Information Gain) ( , )Gain S x ( ) ( , )( )() v v v Values x S Gain S xEntropy SEntropy S S xv 的子集 信息增益(Information Gain) 表示给定特征 后不确定性的减少,即信息增益x 表示了特征与数据集合的互信息 问题:哪一个属性(特征)更好?分析极端的情况问题:哪一个属性(特征)更好?分析极端的情况 温度
9、高正常 (4+, 4-) (4+, 4-) S: (8+, 8-) 心情 好坏 (8+, 0-) (0+,8-) S: (8+, 8-) E=1.0 E=0.0 E=0.0 Gain(S, 温度)温度) =1.0-(8/16)*1.0-(8/16)*1.0 =0.0 Gain(S, 心情)心情) =1.0-(8/16)*0.0-(8/16)*0.0 =1.0 E=1.0 E=1.0 信息增益(Information Gain) 湿度 高正常 (3+, 4-) (6+, 1-) S: (9+, 5-) 风 弱强 (6+, 2-) (3+, 3-) S: (9+, 5-) 问题:哪一个属性(特征)
10、更好?问题:哪一个属性(特征)更好? I=0.985 I=0.592 I=0.811I=1.00 Gain(S, 湿度) =0.940-(7/14).985-7/14*0.592 =0.151 Gain(S, 风) =0.940-(8/14).811-(6/14)1.0 =0.048 E=0.940 E=0.940 信息增益(Information Gain) 基本的决策树学习算法(ID3, C4.5) 决策树的构造过程示意决策树的构造过程示意 x1 x3x8 x3x7 +-+-+- 基本的决策树学习算法模型 将树转化为规则 l 将树转化为规则集合 l测试规则是否相互矛盾 l 将规则排序存储
11、lTree: lIf(阴天)-去打球 lIf(晴天) lIf(风速低)then 去打球 lElse 不去打球 内容 决策树的基本原理和算法 熵、信息增益和特征选择 决策树学习中的过拟合问题 交叉验证与树的修剪 决策树学习的over-fitting 看看天气 看看湿度 晴天下雨 看看风速 高正常 不去打球去打球 大小 不去打球去打球 去打球 阴天 1晴天炎热高强去打球 在使用学习到的决策树模型时,此在使用学习到的决策树模型时,此测试样本出现错误测试样本出现错误 l Over fitting:过度拟合 对于一个模型假设,当存在其他的假设对训练样本集合训练样本集合的拟合比 它差,但事实上在整个样本集
12、合上整个样本集合上上表现得却更好时,我们说这 个假设过度拟合训练样例 定义:定义:给定一个假设空间H,hH,如果存在其他的假设hH, 使得在训练样本集合训练样本集合上h的错误率比h小,但在整个样本集合上,整个样本集合上, h的错误率比h小,那么就说假设h过度拟合训练数据。 决策树学习的over-fitting ( )( ) traintrain errorherrorh ( )( ) DD errorherrorh 决策树学习的over-fitting l 导致过度拟合的原因 一种可能原因是训练样例含有随机错误或噪声 当训练数据没有噪声时,过度拟合也有可能发生,特别是当少量的样 例被关联到叶子
13、节点时,很可能出现巧合的规律性,使得一些特征恰 巧可以很好地分割样例,但却与实际的目标函数并无关系。 决策树学习的over-fitting 决策树学习及over-fitting 避免过拟合的方法 l如果对数据划分没有明显好处的属性不选择,同时不再将决策数细分 l构建完成整个树以后进行剪枝 l在训练数据上测量性能 l在交叉验证数据上测量性能 lMDL Minmize (Size(tree)+Size(misclassifications(tree) 内容 决策树的基本原理和算法 熵、信息增益和特征选择 决策树学习中的过拟合问题 交叉验证与树的修剪 交叉验证与树的修剪 l 避免过度拟合的方法 及早
14、停止树增长 树的修剪树的修剪 l 两种方法的特点 第一种方法更直观 第一种方法中,精确地估计何时停止树增长很困难 第二种方法被证明在实践中更成功 l 避免过度拟合的关键 使用什么样的准则来确定最终正确树的规模 l 解决方法 使用与训练样例截然不同的一套分离的样例,来评估通过后修剪方 法从树上修建节点的效用。 使用所有可用数据进行训练,但进行统计测试来估计扩展(或修剪) 一个特定的节点是否有可能改善在训练集合外的实例上的性能。 使用一个明确的标准来衡量训练样例和决策树的复杂度,当这个编 码的长度最小时停止树增长。 交叉验证与树的修剪 l 方法评述 第一种方法是最普通的,常被称为交叉验证法。 可用
15、数据分成两个样例集合: l训练集合,形成学习到的假设 l验证集合,评估这个假设在后续数据上的精度 方法的动机:即使学习器可能会被训练集合误导,但验证 集合不大可能表现出同样的随机波动 验证集合应该足够大,以便它本身可提供具有统计意义的 实例样本。 常见的做法是,样例的三分之二作训练集合,三分之一作 验证集合。 交叉验证与树的修剪 l 将树上的每一个节点作为修剪候选对象 l 修剪步骤 删除以此节点为根的子树,使它成为叶结点 把和该节点关联的训练样例的最常见分类赋给它 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在 验证集合上的精度的节点 l 继续修剪,直到进一步的修剪是有害的为止 l 数据分成多个子集 训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计 交叉验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水体污染修复与水质提升技术方案
- 燃煤发电设备运行优化方案
- 防水工程环境影响评估方案
- 深远海养殖生态环境保护与修复方案
- 城市地下综合管网建设项目技术方案
- 甲乙丙三方能源产业股权转让及新能源开发协议
- 北京印刷学院印刷产业人才培训与引进合作协议
- 宅基地空地租赁与乡村振兴战略合作合同书
- 沙漠治理项目用地租赁与生态修复合作协议
- 离婚纠纷中夫妻共同财产分割及债务处理合同
- 国家电网工作人员综合素质考试题库含答案
- 2025年秋季开学全体教职工大会校长讲话:35分钟会议把所有老师骂醒了
- 3.4 活动:电路创新设计展示说课稿 2025-2026学年教科版物理九年级上册
- 2025年彩色水泥行业研究报告及未来行业发展趋势预测
- 2025高级工程师聘用合同
- 煤矿井下喷浆安全培训课件
- 输变电工程建设现行主要质量管理制度、施工与验收质量标准目录-2026年2月版-
- 2025年餐饮服务及学校食堂从业人员食品安全知识培训考试试卷(含答案)
- 1.3 植物与阳光(教学课件)科学青岛版二年级上册(新教材)
- 3.2《参与民主生活 》- 课件 2025-2026学年度道德与法治九年级上册 统编版
- 诺如知识培训方案课件
评论
0/150
提交评论