决策树及随机效应模型_第1页
决策树及随机效应模型_第2页
决策树及随机效应模型_第3页
决策树及随机效应模型_第4页
决策树及随机效应模型_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

决策树及随机效应模型

张文超2014/05/07基本概念决策树模型的建立决策树与判别函数的比较计算方法决策树及随机效应模型R软件包应用10.1决策树是同时提供分类的预测的常用方法决策树的数据分析是一种树形结构来表现数据各变量影响程度的预测模型,利用树上各级节点分支自动确认和评估各个类别。决策树能从一个或多个预测变量中,针对类别因变量的选项,预测出个例的趋势变化关系等,也可以由结果反推原因。决策树是同时提供分类与预测的常用方法。通过一系列的选择将数据分类,可由落入相同结点的路径上的规则集来推测相同的结果。决策树的主要功能是由已知分类的个体来建立决策树和相应的决策规则。与神经网络不同,决策树产生的决策规则可用文字或数字来表达?。常用的决策树方法有CHAID(chaid)以及CART(cart)CHAID(卡方自动交互检测法)决策树只限于处理分类变量,如果是连续变量必须采用区段的方式,先转换数据为类别变量,才可以使用。CHAID决策树的基本步骤如下:(1)对每个变量都计算其所有可能的分割点,并找出一个最佳分割点。

(2)比较各预测变量在“最佳分割方式”下的组间方差,然后找出一个组间方差最大的变量,即为最佳预测变量。(3)用最佳预测变量的最佳分割方式把原始数据分成两组(4)将分割后的每一组作为样本,重复前述分割步骤(5)重复分割,直到所有变量都被用完为止。10.2决策树模型的建立针对分类预测变量,计算以单变量分裂为基础的二元决策树针对顺序预测变量,计算以单变量分裂为基础的二元决策树(至少为顺序尺度类型的变量)混合两类方法的预测变量计算以单变量分裂为基础的二元决策树。10.3决策树与判别函数的比较决策树与判别函数的比较如表10-1所示10.4计算方法—制定预测精确度的标准决策树是要建立预测正确率最高的分类规则预测精度的定义,一般包含了成本的概念成本指的是个例被混合分类时的比例10.4计算方法-先验概率如果研究中中,各分类类包含的个个例数的比比例相等或或相近,或或各类中的的个例数目目相等或相相近,就可可以选择““相同先验验概率”。。如果不同分分类的比例例相差较大大,以至于于影响到分分类数,那那么,可依依据样本中中的分类比比例来估计计先验概率率。如果针对基基本比例有有着经验判判断,便可可以给予不不同的基本本比例,并并可将其归归类为先验验概率如果设置相相同的错误误分类成本本,并且不不以分类的的个体比例例作为权数数,那么错错误分类率率是相同的的。10.4计算方法-选择分裂((分层)技技术分层技术比比较如表10-2所示10.4计算方法-定义停止分分层的时点点在决策树模模块中,提提供两个选选项可以控控制停止分分裂(分层层)的时时间点:(1)取小n(最终节点中中所包含的的个例数)(2)设置对象象的片段10.4计算方法-选择适当大大小的决策策树在一般化的的分割过程程中,需要要确定决策策树的适当当规模决策树模块块可提供几几种不同的的选取适当当大小的策策略,可择择一或同时时使用。如如表10-3所示。。1.1决策树树决策树树(DecisionTree)是在在已知知各种种情况况发生生概率率的基基础上上,通通过构构成决决策树树来求求取净净现值值的期期望值值大于于等于于零的的概率率,评评价项项目风风险,,判断断其可可行性性的决决策分分析方方法,,是直直观运运用概概率分分析的的一种种图解解法。。由于于这种种决策策分支支画成成图形形很像像一棵棵树的的枝干干,故故称决决策树树。在在机器器学习习中,,决策策树是是一个个预测测模型型,他他代表表的是是对象象属性性与对对象值值之间间的一一种映映射关关系。。Entropy=系统的的凌乱乱程度度,使使用算算法ID3,C4.5和C5.0生成树树算法法使用用熵。。这一一度量量是基基于信信息学学理论论中熵熵的概概念。。决策树树是数数据挖挖掘分分类算算法的的一个个重要要方法法。在在各种种分类类算法法中,,决策策树是是最直直观的的一种种。1.2组成□——决策点点,是对对几种种可能能方案案的选选择,,即最最后选选择的的最佳佳方案案。如如果决决策属属于多多级决决策,,则决决策树树的中中间可可以有有多个个决策策点,,以决决策树树根部部的决决策点点为最最终决决策方方案。。○——状态节节点,代表表备选选方案案的经经济效效果((期望望值)),通通过各各状态态节点点的经经济效效果的的对比比,按按照一一定的的决策策标准准就可可以选选出最最佳方方案。。由状状态节节点引引出的的分支支称为为概率率枝,,概率率枝的的数目目表示示可能能出现现的自自然状状态数数目每每个分分枝上上要注注明该该状态态出现现的概概率。。△——结果节节点,将每每个方方案在在各种种自然然状态态下取取得的的损益益值标标注于于结果果节点点的右右端。。1.3画法机器学学习,,决策树树是一个个预测测模型型;他他代表表的是是对象象属性性与对对象值值之间间的一一种映映射关关系。。树中中每个个节点点表示示某个个对象象,而而每个个分叉叉路径径则代代表的的某个个可能能的属属性值值,而而每个个叶结结点则则对应应从根根节点点到该该叶节节点所所经历历的路路径所所表示示的对对象的的值。。决策策树仅仅有单单一输输出,,若欲欲有复复数输输出,,可以以建立立独立立的决决策树树以处处理不不同输输出。。数据据挖掘掘中决决策树树是一一种经经常要要用到到的技技术,,可以以用于于分析析数据据,同同样也也可以以用来来作预预测。。1.3画法从数据据产生生决策策树的的机器器学习习技术术叫做做决策树树学习,通俗说说就是是决策树树。一个决决策树树包含含三种种类型型的节节点::决策节节点::通常常用矩矩形框框来表表式机会节节点::通常常用圆圆圈来来表式式终结点点:通通常用用三角角形来来表示示决策树树学习习也是是资料料探勘勘中一一个普普通的的方法法。在在这里里,每每个决决策树树都表表述了了一种种树型型结构构,它它由它它的分分支来来对该该类型型的对对象依依靠属属性进进行分分类。。每个决决策树树可以以依靠靠对源源数据据库的的分割割进行行数据据测试试。这个过过程可可以递递归式式的对对树进进行修修剪。。当当不能能再进进行分分割或或一个个单独独的类类可以以被应应用于于某一一分支支时,,递归归过程程就完完成了了。另另外,,随机机森林林分类类器将将许多多决策策树结结合起起来以以提升升分类类的正正确率率。决策树树同时时也可可以依依靠计计算条条件概概率来来构造造。决策树树如果果依靠靠数学学的计计算方方法可可以取取得更更加理理想的的效果果。数数据据库已已如下下所示示:(x,y)=(x1,x2,x3……,xk,y)相关的的变量量Y表示我我们尝尝试去去理解解,分分类或或者更更一般般化的的结果果。其其他他的变变量x1,x2,x3等则是是帮助助我们们达到到目的的的变变量。。1.4决策树树的剪剪枝剪枝是是决策策树停停止分分支的的方法法之一一,剪剪枝有有分预先剪剪枝和后剪枝枝两种。。预先剪剪枝是在树树的生生长过过程中中设定定一个个指标标,当当达到到该指指标时时就停停止生生长,,这样样做容容易产产生““视界界局限限”,,就是是一旦旦停止止分支支,使使得节节点N成为叶叶节点点,就就断绝绝了其其后继继节点点进行行“好好”的的分支支操作作的任任何可可能性性。不不严严格的的说这这些已已停止止的分分支会会误导导学习习算法法,导导致产产生的的树不不纯度度降差差最大大的地地方过过分靠靠近根根节点点。1.4决策树树的剪剪枝后剪枝枝中树首首先要要充分分生长长,直直到叶叶节点点都有有最小小的不不纯度度值为为止,,因而而可以以克服服“视视界局局限””。然然后对对所有有相邻邻的成成对叶叶节点点考虑虑是否否消去去它们们,如如果消消去能能引起起令人人满意意的不不纯度度增长长,那那么执执行消消去,,并令令它们们的公公共父父节点点成为为新的的叶节节点。。这种种“合合并””叶节节点的的做法法和节节点分分支的的过程程恰好好相反反,经经过剪剪枝后后叶节节点常常常会会分布布在很很宽的的层次次上,,树也也变得得非平平衡。。后剪剪枝技技术的的优点点是克克服了了“视视界局局限””效应应,而而且无无需保保留部部分样样本用用于交交叉验验证,,所以以可以以充分分利用用全部部训练练集的的信息息。但但后剪剪枝的的计算算量代代价比比预剪剪枝方方法大大得多多,特特别是是在大大样本本集中中,不不过对对于小小样本本的情情况,,后剪剪枝方方法还还是优优于预预剪枝枝方法法的。。1.5实例为了适适应市市场的的需要要,某某地准准备扩扩大电电视机机生产产。市市场预预测表表明::产品品销路路好的的概率率为0.7;销路路差的的概率率为0.3。备选方方案有有三个个:第一个个方案案是建建设大大工厂厂,需需要投投资600万元,,可使使用10年;如如销路路好,,每年年可赢赢利200万元;;如销销路不不好,,每年年会亏亏损40万元。。第二个个方案案是建建设小小工厂厂,需需投资资280万元;;如销销路好好,每每年可可赢利利80万元;;如销销路不不好,,每年年也会会赢利利60万元。第三个方方案也是是先建设设小工厂厂,但是是如销路路好,3年后扩建建,扩建建需投资资400万元,可可使用7年,扩建建后每年年会赢利利190万元。1.5实例各点期望望:点②:0.7××200×10+0.3×(-40)×10-600(投资))=680(万元))决策树树分析点⑤:1.0××190×7-400=930(万元))点⑥:1.0××80××7=560(万元))比较决策策点4的情况可可以看到到,由于于点⑤((930万元)与与点⑥((560万元)相相比,点点⑤的期期望利润润值较大大,因此此应采用用扩建的的方案,,而舍弃弃不扩建建的方案案。把点点⑤的930万元移到到点4来,可计计算出点点③的期期望利润润值。点③:0.7××80××3+0.7××930+0.3×60×(3+7)-280=719(万元))最后比较较决策点点1的情况。。由于点点③(719万元)与与点②((680万元)相相比,点点③的期期望利润润值较大大,因此此取点③③而舍点点②。这这样,相相比之下下,建设设大工厂厂的方案案不是最最优方案案,合理理的策略略应采用用前3年建小工工厂,如如销路好好,后7年进行扩扩建的方方案。决策树模模型与回回归模型型在天津津市某区区公务员员

健康康状况分分析中的的应用与与比较应用SAS8.2EnterpriseMiner模块建立立决策树树模型和和回归模模型,对对该区公公务员人人群的健健康状况况影响因因素进行行分析和和预测。。将logistic回归模型型与决策策树模型型进行预预测性能能的比较较,ROC面积比较较结果发发现,两两者差别别无统计计学意义义。结论公公务员人人群健康康状况不不容乐观观,各种种慢性病病患病率率较高,,是今后后开展健健康管理理的重点点群体&logistic回归是分分类数据据统计分分析的一一种重要要方法,,流行病病学上常常用于研研究疾病病与致病病因子间间的联系系,以疾疾病发生生与否为为应变量量,影响响疾病发发生的因因子为自自变量,,估计各各因子的的相对危危险度或或比数比比。决策树是是一种非线性的的判别分分析的方方法,是一种种类似于于流程图图的结构构图,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论