二元决策树的构建.ppt

上传人：油*** IP属地：浙江上传时间：2020-03-24 格式：PPT 页数：31 大小：374.01KB 积分：25 举报 版权申诉

免费预览已结束，剩余26页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

信号本底二元决策树的构建背景数据挖掘是从数据中发现隐含着的有用的信息或知识的技术它是随着人类进入信息社会以来对信息的价值认识不断提高而不断发展的是为满足和解决当前数据太多信息不足问题的技术数据挖掘有着广泛的应用如数据库营销客户群体划分客户流失性预测欺诈检测和客户信用记分等分类法是数据挖掘中的一个非常重要的技术分类的目标是要根据属性的值为每个类推导出一个简洁的模型或描述这个模型用于对那些类未知的记录进行分类赋予每个记录相应的类标签常见的分类方法有贝叶斯分类神经网络遗传算法和决策树分类器在这些分类方法中决策树分类器在大规模的数据挖掘环境中已经获得了最为广泛的应用 1 1决策树法的基本思想决策树又称树分类器或分类树是模式识别中进行分类的一种有效方法利用树分类器可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决它不是企图用一个决策规则把多个类别的样本一次分开而是采用分级的方法使分类问题逐步得到解决总结起来决策树就是一个将输入空间逐步分割的过程它把输入空间分为一组互不相交的子区域其中某个类别的样本占有优势的区域标记为该样本的类别决策树示意图一般地一个决策树由一个根节点n1 一组非终止节点ni 和一些终止节点也称叶节点叶子 tj构成每个叶节点标以相应的样本类别标签不同的叶节点可以有相同的类别标签二元决策树决策树的一种简单形式是二叉树二叉树结构的分类器可以把一个复杂的多类别分类问题化为多级多个两类问题来解决在每个节点都把样本集分为左右两个子集分出的每个部分任然可能包含多个类别的样本在下一级的节点把每个部分再分为两个子集依此进行直到最后分出的每个部分只包含同一类别的样本或某一类别样本占优势为止优点概念简单直观便于解释在各个节点上可以选择不同的特征和采用不同的决策规则二叉决策树示意图1 3 1 1 2信号本底二元决策树的构建信号本底二元决策树的构建即解决信号和本底的两类事例的分类问题求解这类问题的过程就是利用一个训练样本集来构建训练一个决策树的过程训练样本集中包含信号和本底两类事例训练从根节点开始到满足某种终结条件时停止在每一个非终止节点的判选后输入事例被区分为类信号事例和类本底事例两部分其中类信号事例中信号事例的比例高于判选前的信号事例的比例而类本底事例部分则相反叶节点被分为信号和本底节点两类其中到达信号事例占优的被指定为信号节点反之为本底节点这样一个决策树就构造完成了当一个待分类的样本集输入决策树则落入信号叶节点的事例被判定为信号事例落入本底叶节点的事例被判定为本底事例一个区分信号本底的二元决策树的示意图 1 3几个核心问题在实际操作中若要构建一个信号本底二元决策树以下几个问题需要被讨论 1 如何选取变量和分割值 2 什么时候一个节点可以停止被划分最终成为一个叶节点 3 如何优化这个树的结构下面我们将依次考虑这些问题 1 3 21 3 3 1 3 1如何选取变量和分割值在决策树的构建过程中每个非终止节点上只选择一个变量进行判别这个变量应该是区分信号和本底能力最强的那个变量同一个变量可在不同层次的节点中被重复使用选定最优变量之后需要找出与变量相应的决策阈值同一个变量在不同层次的节点中相应的决策阈值也可以不同这样我们就找到了对于每个非终止节点的分割率即变量阈值的组合 p5 为了生成一个简单的紧凑的二叉树我们在每个节点寻找的分割率应该使得经过分割后到达下一级别的节点的数据尽可能的纯净即使数据尽可能属于同一类这里列出四种衡量节点中数据不纯程度的方法信息熵定义为Gini指数定义为误判误差定义为统计显著性定义为以上几个量被称为信号本底判别指数用符号I表示其中 nS nB分别为输入该节点的信号和本底事例数 p为信号事例纯度表达式为在决策树的训练过程中每个节点上存在一个最优的分割率可使节点的不纯程度降低的最多即使得该节点的判别指数与它的两个子节点的判别指数的加权和的增量达到最大该增量用公式表示为式中 I I1 I2 分别为母节点和两个子节点的判别指数 nint n1 n2 分别为母节点和两个子节点的输入事例数在实际训练过程中一般将每个变量 x1 x2 xn 的值域分为ncuts个小区间这ncuts个区间的中心值作为ncuts个阈值对增量进行计算取其中的最大增量作为该变量的最大增量在所有n个变量 x1 x2 xn 的最大增量中数值最大的那个变量xj作为本节点的判别变量其最大增量对应的阈值xthj与xj一起构成该节点的最优变量阈值组合经验表明ncuts取为20是个比较适当的选择它是计算量和精细程度之间的一个比较适当的平衡过大的ncuts值并不能提升二叉树的信号本底判别性能反而不必要的增加了计算量 1 3 1 3 2终止条件在选出最好的分割之后我们可以将数据划分为两个子集并在每个自己中重复同样的选择分割率和分割空间的步骤但是我们将面临怎么时候停止分割的问题如果我们生成一个完全树其每个叶子节点都只包含一个类即不纯程度为0 则这个树模型很有可能过度拟合了数据相反如果我们太早的停止分割训练误差还不够小会使模型的准确性下降由此可见不合适的终止条件会使构造的决策树过大或过小造成决策树不能达到理想的分类效果设定合适的终止条件就是在树的大小和准确率之间寻找平衡点以下给终止训练过程的几种方法法1 设定一个最大的叶节点数当训练过程已经形成的叶节点数等于大于该数值则训练停止法2 设定一个最小的事例数NL 当输入事例数小于NL 该节点的训练停止法3 当一个节点的输入事例为同一类事例时该节点的训练终止法4 根据所有节点的增量值来决定训练是否终止当节点增量满足则该节点的训练终止 1 3p17 1 3 3决策树结构的优化在决策树法中除去分类的正确性应当放在第一位给予考虑之外决策树的复杂程度是另外一个需要考虑的重要因素我们的目标是构造颗结构简单的决策树简化决策树的方法很多这里我们主要讨论从控制树的大小来简化决策树的一些方法这些方法不仅能够简化决策树而且能够改进决策树分类的正确性控制树的大小这是最常用的简化决策树的方法它主要通过在训练过程中明确地控制树的大小来简化决策树它主要包括预剪枝和后剪枝两种方法以及其他的后处理方法预剪枝预剪枝算法中不要求以每个叶结点中的训练实例都属于同一个类错误率为0 作为算法的停止条件而是在这个标准得到满足之前就停止继续扩展决策树具体在什么时候停止决策树的扩展就成为这个方法的主要研究内容和难点一种最为简单的方法就是在决策树达到一定高度的情况下就停止决策树的扩展即终止条件中法1 法2 另一种更为普遍的做法是计算每次扩展对系统性能的增量值如果这个增量值小于某个阈值则不进行扩展如果在最好情况下的扩展增量值都小于阈值则即使有些叶结点的实例集不属于同一类算法也停止即终止条件中法4 p15 预剪枝的一个根本缺点是很难确定多大的终止门限是合理的其另外一个缺点是视野效果问题也就是说在相同标准下也许当前的扩展不能满足要求但是更进一步的扩展能够满足要求而预剪枝将会因为过早地停止决策树的构造导致很大的误差后剪枝将克服这些缺点但是由于预剪枝不必生成整棵决策树使得其算法效率很高适合解决大规模问题所以这种方法仍然得到广泛的应用后剪枝前面已经讨论过了构建一棵完全树来对样本集进行分类往往是不够合理的后剪枝法就是在先构建一个完全树的基础上通过一些准则剪除对于有效分辨信号本底用处不大的节点从而形成一个结构简化效果优化的决策树一种有效的后剪枝策略是利用最小复合费用的准则对完全树进行自下而上的修剪在二叉树的每个节点训练样本的误判率定义为该节点的复合费用定义为其中Rsub表示该节点以下的那部分二叉树的总误判率 Nsub表示该节点以下的那部分二叉树包含的叶节点数一颗二叉树中假定复合费用最小的节点称为节点t 当它的复合费用小于给定的修剪量 PS 即 t PS则节点t以下的部分二叉树被剪除而节点t变成一个新的叶节点这种修剪不断进行直到不再出现这样的叶节点为止整棵二叉树的修剪得以完成修剪量 PS的大小可以如下确定将训练样本集分为两个样本数足够大的子集子集1专用于构建二叉树T PS 子集2专用于对这个二叉树进行性能测试这样就可得二叉树性能与 PS的函数关系从而可得二叉树错误率与 PS的函数关系取使得错误率最小的 PS就是最优的修剪量与自下而上的修剪方式相对的是自上而下的后剪枝方式自上而下的算法是从根结点开始向下逐个考虑每个结点是否应被剪枝直到某结点满足剪枝的标准而被修剪为止如果一棵子树的任何个子结点都不满足剪枝标准那么自上而下剪枝方法可以避免将这个结点修剪掉也就是可以避免视野效果的问题而对于自下而上的算法则不能避免这个问题而会产生与预剪枝相同的问题明显经过剪枝的决策树对于训练实例集的错误率已经不为0 但是由于在这种剪枝算法当中位于底层的子树将被优先剪枝而这些结点都是只包含很少实例的所以这种方法将减少噪声对决策树构造的影响所以经过剪枝的决策树一般情况下会提高决策树对整个实例空间分类的正确性后剪枝算法的另外一个优点是它能够产生一组而不是一棵决策树这将使得专家有可能在其中作出自己的选择而不是由计算机武断地作出选择因为专家往往有可能不同意计算机所作出的选择增量树学习在一般情况下为了解决内存空间的问题利用增量树学习的方法通过逐步增加训练样本增量式地构造决策树在递归调用剪枝算法的过程中因为大的样本集对于剪枝是有好处的所以如果增加训练样本的时候重新考虑以前进行剪枝的决定是有一定好处的另一种增量式学习方法是动态剪枝或者叫做虚剪枝在这种方法中也是根据前面的方法以统计的方法建立树不同的是并不是整个树的所有节点都用来分类而是有一部分叶节点作为虚节点不对样本进行分类而只有实节点对样本进行分类虚节点可以被看作已经被修剪的节点而叶节点在虚节点与实节点之间的转换是在决策树积累实例的过程中动态决定的所以当将一个叶节点剪枝时只是将它变为虚节点而不会带来不可修复的变化可以看出增量式学习在保持决策树学习其它优点的同时可以使得决策树有一个较为理想的大小应用举例当生成一个二叉树模型后如何应用这个树进行分析预测对未知样本的分类可以从根节点开始首先根据根节点的分割律未知物对应的分割变量的值将被检查并与分割值比较基于比较的结果未知样本沿着合适的分支到达下一代节点从二叉树的结构可知对于未知样本有一个且只能沿着一个分支到达后代节点其次在合适的后代节点中我们要做类似的决策判断未知样本应该沿着那条分支继续下去重复这个过程直到样本到达不再被分割的叶节点则未知样本的类就是它所到达的叶节点做代表的类总结决策树方法在近30年里发展迅速各种各样的决策树算法被提出和广泛应用如ID3 CART C4 5等决策树是一种简单而强大的方法尤其在处理大型数据的时候首先其模型是稳健的孤立点对它的影响不是很大因为很多数据库都有可能包含有疑问的数据无法保证完全的正确性所以对孤立点的稳健性在数据分析中是很重要的其次决策树还是处理高维数据的一种有效的方法因为它可以在生成树的过程中自动的选取重要的变量执行速度快又准确率高另外它的一个重要的优点是模型具有可解释性它用树逻辑表达发现知识使得结果易于解释然而决策树也有其不可避免的缺陷它对训练数据过于敏感数据中很小的变化都有可能导致完全不同的树和决策区域这种不稳定性很大程度上是因为生成树的过程是一个分层的过程分割初始时的错误将会传递给以后所有的分割所以合适的输入变量对基于树结构的方法非常重要在实际应用中很多经典的预处理方法在生成树之前被用来寻找有效的变量同时这种做法还可以减少生成的树的大小决策树的另外一个缺点是分割点的离散性目前已经有一些推广的决策树例如用模糊的分割律来解决这个问题参考文

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

二元决策树的构建.ppt

文档简介

温馨提示

最新文档

评论

二元决策树的构建.ppt

文档简介

温馨提示

最新文档

评论

相关文档