已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树 主讲人 王二 主要内容 决策树基本概念 基本流程 划分选择 剪枝处理 决策树基本概念 决策树 决策树是数据挖掘分类算法的一个重要方法 在各种分类算法中 决策树是最直观的一种 在机器学习中也是一种常用方法 我们希望从给定的训练集中学得一个模型用来对新示例进行分类 这一分类过程称为 决策 过程 决策树是基于树结构进行决策的 基本流程 构造过程 决策树是以实例为基础的归纳学习算法 它从一组无次序 无规则的元组中推理出决策树表示形式的分类规则 采用自顶向下递归方式 在决策树的内部节点进行属性值的比较 并根据不同的属性值从该节点向下分支 而叶节点是要学习划分的类 从根节点到叶节点的一条路径就对应着一条合取规则 整个决策树就对应着一组析取表达式规则 例如 我们要对 这是好瓜吗 这样的问题进行决策时 通常会进行一系列的判断 我们先看 它是什么颜色 如果是 青绿色 再看 它的根蒂是什么形态 如果是 蜷缩 我们在判断 它敲起来是什么声音 最后 我们得出最终的决策 这是个好瓜 这个过程如下 决策树的基本组成部分 决策结点 分支和叶子 决策树算法目前已有多种决策树算法 CLS ID3 CHAID C4 5 CART SLIQ SPRINT等 著名的ID3 IterativeDichotomiser3 算法是J R Quinlan在1986年提出的 该算法引入了信息论中的理论 是基于信息熵的决策树分类算法 决策树ID3算法 最后得到一棵决策树 它可以用来对新的样本进行分类 ID3算法的核心是 在决策树各级节点上选择属性时 用信息增益作为属性的选择标准 以使得在每一个非叶节点进行测试时能获得关于被测试记录最大的类别信息 具体方法 检测所有的属性 选择信息增益最大的属性产生决策树结点 由该属性的不同取值建立分枝 再对各分支的子集递归调用该方法建立决策树结点的分枝 直到所有子集仅包含同一类别的数据为止 最后得到一棵决策树 它可以用来对新的样本进行分类 Ent D 的值越小 则D的纯度越高 假定属性a有V个可能的取值 a1 av 若使用a来对样本集D进行划分 则会产生V个分支节点 其中第V个分支节点包含了D中所有在属性a上取值为av的样本 记为Dv 在考虑到不同的分支节点所包含的样本不同 给分支节点赋予权重Dv D 即样本数越多的分支节点的影响越大 于是计算出属性a对样本D进行划分所获得的 信息增益 informationgain 一般而言 信息增益越大 则意味着使用属性a来进行划分所获得的 纯度 即分支节点所包含的样本尽可能属于同一类别 以下表的西瓜数据为例 以属性 色泽 为例 它有三个可能取值 青绿 乌黑 浅白 记为 D1 青绿 D2 乌黑 D3 浅白算D1包含 1 4 6 10 13 17 6个样例 其中正比例P1 3 6 反比例P2 3 6 D2包含 2 3 7 8 9 15 6个样例 其中正比例P1 4 6 反比例P2 2 6 D3包含 5 11 12 14 16 5个样例 其中正比例P1 1 5 反比例P2 4 5 由此可计算出用 色泽 划分之后的三个分支节点的信息熵为 于是可计算出属性 色泽 的信息增益为 然后 决策树学习算法将对每个分支节点作进一步的划分 最终得到的决策树如下所示 剪枝处理剪枝 pruning 是决策树学习算法对付 过合 的主要手段 为了尽可能正确的分类训练样本 节点划分过程将不断重复 有时会造成决策树分支太多 这时就可能因训练样本学得 太好 了 以至于把训练集自身的一些特点当做所有数据的特点而导致过拟合 因此 可通过主动去掉一些分支来降低过拟合的风险 剪枝分为 预剪枝 和 后剪枝 预剪枝是在决策树生成过程中 对每个节点在划分之前先进行估计 若当前节点的划分不能带来决策树的泛化性能的提升 则停止划分并将当前节点标记为叶节点 剪枝处理后剪枝则是先生成一颗完整的决策树 然后自底向上的对叶节点进行考
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 原料收购等级划分与定价标准
- 职业健康监护监督管理实施细则
- 高尿酸血症饮食管理实施方案
- 茄果类蔬菜集约化育苗方案
- 蔬菜采后冷链物流配送管理制度
- 中医脉象诊断服务评估规范
- 生产装置重大危险源管控细则
- 涉氨制冷系统泄漏应急预案
- 肉鸭生态养殖技术操作规范
- 排污许可自行监测实施管理办法
- 高考考务人员培训系统考试试题答案
- 2026上海市大数据中心招聘10名笔试参考题库及答案解析
- 四川省达州市(2026年)辅警招聘公安基础知识考试题库及答案
- (二模)青岛市2026年高三年级第二次适应性检测语文试题(含答案)
- 15 青春之光 课件(共23张)
- 国药集团2026届春季校园招聘笔试历年备考题库附带答案详解
- 产科孕产期管理诊疗常规
- 2026年北京市丰台区初三下学期一模道德与法治试卷和答案
- 《AQ3067-2026化工和危险化学品重大生产安全事故隐患判定准则》解读
- 2026湖北三支一扶试卷真题
- 安全度汛参建单位责任书(水库工程)
评论
0/150
提交评论