公安大数据应用基础(第2版)课件ch05分类预测:决策树_第1页
公安大数据应用基础(第2版)课件ch05分类预测:决策树_第2页
公安大数据应用基础(第2版)课件ch05分类预测:决策树_第3页
公安大数据应用基础(第2版)课件ch05分类预测:决策树_第4页
公安大数据应用基础(第2版)课件ch05分类预测:决策树_第5页
已阅读5页,还剩35页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类预测:决策树新工科建设之路·数据科学与大数据系列公安大数据应用基础第五章01决策树概述什么是决策树决策树的目的是通过对训练集的学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对新数据的分类预测。决策树算法属于有监督学习范畴,要求训练集中既包含输入变量也包含输出变量。决策树概述决策树得名于其分析结论的展示方式类似一棵倒置的树,如图5-1所示。决策树概述可将训练集中的每个样本看成n维空间上的一个点,输出变量取不同类别的点以不同的形状表示(如圆圈或三角形)。决策树建立的过程就是决策树各个分支依次形成的过程,从几何意义上理解,也就是决策树的每个分支在一定规则下对n维空间进行矩形区域划分的过程。决策树建好后,n维空间将被划分成若干个小的区域。通常,由于n维空间不直观、不易理解,因此往往采用树形方式展现。决策树的几何理解决策树概述图5-2展示了一个二维空间的矩形划分和该划分所对应的决策树。决策树概述决策树的生长决策树的生长过程本质上是对训练样本进行反复分类的过程。决策树的各个分支是在数据被不断分类的过程中逐渐生长出来的。决策树的剪枝完整的决策树一般不是一棵分类预测的最佳树,其主要原因是,完整的决策树对训练样本特征的描述“过于精确”。决策树概述决策树的核心问题02SPSSModeler中的C5.0算法及应用在SPSSModeler中,C5.0模型默认的决策树分割点处理策略是,在确定了最佳分组变量以后,如果最佳分组变量是分类型变量,则按照分组变量的上一个取值将样本分为k组,形成树的左分支;如果最佳分组变量是数值型变量,则自动以最小化描述准则(MDLP)算法分箱后的最小组限值为限,小于最小组限值的为一组,大于最小组限值的为另一组,形成二叉树。C5.0决策树的分割点SPSSModeler中的C5.0算法及应用(4)计算两两相邻组的卡方统计量观测值,根据显著性水平和自由度得到卡方临界值。ChiMerge分箱法的基本步骤如下:(5)重复第(2)步至第(4)步,直到任何两个相邻组都无法合并,即卡方统计量观测值都不小于卡方临界值为止。(1)将输入变量按变量值升序排序。(2)定义若干个初始区间,使输入变量的每个取值均单独落在一个区间内。(3)计算输入变量与输出变量的交叉分组频数表。SPSSModeler中的C5.0算法及应用C5.0决策树的剪枝过程完整的决策树因过于“依赖”训练集会出现过拟合的问题,使得它在测试集上不能有令人满意的表现,因此必须进行剪枝。C5.0算法采用后剪枝方法从叶节点向上逐层进行剪枝,这个过程的关键是误差估计及剪枝标准的设置。SPSSModeler中的C5.0算法及应用误差估计通常,应在测试集上估计误差并进行剪枝,但C5.0算法并没有这样做,它利用统计学置信区间的估计方法,直接在训练集上估计误差。剪枝标准的设置当得到估计误差后,C5.0算法将按照“减小-误差”(Reduce-Error)法判断是否剪枝。SPSSModeler中的C5.0算法及应用C5.0算法不仅能够生成决策树,还能够生成推理规则。决策树与推理规则有极为紧密的联系。决策树的文字形式是推理规则,推理规则表达了输入变量取值及不同输入变量之间的逻辑与(并且)、逻辑或(或者)关系与输出变量取值的内在联系,一般表示形式为“若<条件>,则<结论>”,非常直观易懂。C5.0决策树的推理规则集SPSSModeler中的C5.0算法及应用C5.0决策树的应用案例背景1年关将至,A市B派出所对100位民警进行了警务绩效考核。基础数据警务绩效考核.xls。业务目标(1)学习并运用C5.0模型;(2)研究哪些因素将显著影响民警的警务绩效考核结果。“”SPSSModeler中的C5.0算法及应用案例背景1A市B公安局有34位在职民警,根据上级单位下发文件的要求,现要晋升部分人员。请运用所学知识,预测在职民警小王的晋升结果。业务目标(1)学习并运用C5.0模型。(2)对小王的晋升结果进行预测。能力目标(1)能够将自身数据引入结果;(2)理解模型结果。“”SPSSModeler中的C5.0算法及应用03SPSSModeler中的C&RT算法及应用C&RT算法同样包括决策树的生长和剪枝两个过程,其与C5.0算法的主要差别体现在以下方面。(1)C&RT算法中的输入变量和输出变量可以是分类型变量也可以是数值型变量,而C5.0算法中的输出变量只能是分类型变量。(2)C&RT算法只能建立二叉树,而C5.0算法可以建立多叉树。SPSSModeler中的C&RT算法及应用(3)C&RT算法以Gini系数和方差为基础选择最佳分组变量和最佳分割点,而C5.0算法则以信息熵为基础计算信息增益率。(4)对在分组变量上取缺失值的样本,C&RT算法采用代理(Surrogate)变量的处理方式,而C5.0算法采用加权处理方式。(5)C&RT算法依据测试集进行剪枝,而C5.0算法只依据训练集通过近似正态分布进行剪枝。SPSSModeler中的C&RT算法及应用C&RT的生长过程C&RT的生长过程本质上是对训练样本进行反复分组的过程,同样涉及两个问题。第一,如何从众多的输入变量中选择一个最佳的分组变量;第二,如何从分组变量的众多取值中找到一个最佳分割点。SPSSModeler中的C&RT算法及应用01020304C&RT的预剪枝策略:(1)决策树的最大深度;(2)决策树中父节点和子树包含的最小样本量;(3)决策树节点中输出变量的最小差异减少量。SPSSModeler中的C&RT算法及应用C&RT的剪枝过程C&RT的后剪枝策略C&RT采用的后剪枝策略称为最小代价复杂度剪枝法(MinimalCostComplexityPruning,MCCP)。SPSSModeler中的C&RT算法及应用运行SPSSModeler,在“源”选项卡中选择Excel节点,并将其添加到数据流中,导入“决策树练习.xlsx”文件,如图5-26所示。SPSSModeler中的C&RT算法及应用C&RT的应用在“建模”选项卡中选择C&RT节点,并将其连接到数据流的恰当位置上,进行参数设置,如图5-27所示。SPSSModeler中的C&RT算法及应用单击“运行”按钮,C&RT模型的分析结果如图5-28所示。SPSSModeler中的C&RT算法及应用对预测变量重要性进行分析,结果如图5-29所示。SPSSModeler中的C&RT算法及应用04SPSSModeler中的CHAID算法及应用输入变量的预处理:(1)输出变量为分类型变量,输入变量为数值型变量。(2)输出变量为分类型变量,输入变量为分类型变量。(3)输出变量为数值型变量,输入变量为数值型变量。(4)输出变量为数值型变量,输入变量为分类型变量。SPSSModeler中的CHAID算法及应用CHAID算法的最佳分组变量确定最佳分组变量对经过预处理的输入变量,计算其与输出变量相关性检验的统计量的概率-P值。同理,对数值型输出变量,采用F统计量,对分类型输出变量,采用卡方检验统计量或似然比卡方检验统计量。显然,计算出的概率-P值越小,表示输入变量与输出变量的联系越紧密,应作为当前最佳分组变量。当计算出的概率-P值相同时,应选择检验统计量观测值最大的输入变量。SPSSModeler中的CHAID算法及应用CHAID算法的剪枝过程CHAID采用预剪枝策略,通过参数控制决策树充分生长。其控制参数与C&RT预剪枝过程的控制参数基本一致。SPSSModeler中的CHAID算法及应用CHAID算法对当前最佳分组变量选择的依据是相关性检验的统计量的概率-P值。但应注意到,无论是采用似然比卡方检验还是采用F检验,概率-P值都与其检验统计量的自由度密切相关。多个输入变量经预处理后形成的分组数目不可能都相同,体现在统计检验上就是自由度不同,这将直接影响概率-P值的大小。所以,在无法确保输入变量的分组数目完全相同的条件下,该方法存在不足。ExhaustiveCHAID算法SPSSModeler中的CHAID算法及应用同5.3.3节,在完成简单数据处理基础上,选择“建模”选项卡中的CHAID节点,并将其连接到数据流的恰当位置上,进行参数设置,如图5-30所示。SPSSModeler中的C&RT算法及应用CHAID算法的应用05SPSSModeler中的QUEST算法及应用(1)直接采用卡方检验或F检验的方法,分别检验各输入变量与输出变量的相关性。(2)选择检验统计量的概率-P值最小,且小于显著性水平的输入变量,作为当前的最佳分组变量。(3)如果最小的检验统计量的概率-P值不小于显著性水平。SPSSModeler中的QUEST算法及应用01020304输出变量的预处理:(1)分别计算输出变量k个水平下,p个输入变量的均值,得到k个包含p个元素的均值向量。(2)如果k个均值向量均相等,则将权值最大(即样本量最多)的组作为一组,其余各组合并为另一组,形成两个“超类”。(3)如果k个均值向量不相等,可将k个均值向量看成p维空间上的k个点。SPSSModeler中的QUEST算法及应用确定最佳分割点由于QUEST算法仅用于生成二叉树,因此在确定最佳分割点时,需将数值型分组变量分成两个组,将分类型分组变量合并成两个“超类”。对不同类型的分组变量应采用不同的处理策略。SPSSModeler中的QUEST算法及应用同5.3.3节,在完成简单数据处理基础上,选择“建模”选项卡中的QUEST节点,并将其连

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论