




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树及随机效应模型 张文超2014 05 07 基本概念决策树模型的建立决策树与判别函数的比较计算方法决策树及随机效应模型R软件包应用 10 1 决策树是同时提供分类的预测的常用方法决策树的数据分析是一种树形结构来表现数据各变量影响程度的预测模型 利用树上各级节点分支自动确认和评估各个类别 决策树能从一个或多个预测变量中 针对类别因变量的选项 预测出个例的趋势变化关系等 也可以由结果反推原因 决策树是同时提供分类与预测的常用方法 通过一系列的选择将数据分类 可由落入相同结点的路径上的规则集来推测相同的结果 决策树的主要功能是由已知分类的个体来建立决策树和相应的决策规则 与神经网络不同 决策树产生的决策规则可用文字或数字来表达 常用的决策树方法有CHAID chaid 以及CART cart CHAID 卡方自动交互检测法 决策树只限于处理分类变量 如果是连续变量必须采用区段的方式 先转换数据为类别变量 才可以使用 CHAID决策树的基本步骤如下 1 对每个变量都计算其所有可能的分割点 并找出一个最佳分割点 2 比较各预测变量在 最佳分割方式 下的组间方差 然后找出一个组间方差最大的变量 即为最佳预测变量 3 用最佳预测变量的最佳分割方式把原始数据分成两组 4 将分割后的每一组作为样本 重复前述分割步骤 5 重复分割 直到所有变量都被用完为止 10 2决策树模型的建立 针对分类预测变量 计算以单变量分裂为基础的二元决策树针对顺序预测变量 计算以单变量分裂为基础的二元决策树 至少为顺序尺度类型的变量 混合两类方法的预测变量计算以单变量分裂为基础的二元决策树 10 3决策树与判别函数的比较 决策树与判别函数的比较如表10 1所示 10 4计算方法 制定预测精确度的标准 决策树是要建立预测正确率最高的分类规则预测精度的定义 一般包含了成本的概念成本指的是个例被混合分类时的比例 10 4计算方法 先验概率 如果研究中 各分类包含的个例数的比例相等或相近 或各类中的个例数目相等或相近 就可以选择 相同先验概率 如果不同分类的比例相差较大 以至于影响到分类数 那么 可依据样本中的分类比例来估计先验概率 如果针对基本比例有着经验判断 便可以给予不同的基本比例 并可将其归类为先验概率如果设置相同的错误分类成本 并且不以分类的个体比例作为权数 那么错误分类率是相同的 10 4计算方法 选择分裂 分层 技术 分层技术比较如表10 2所示 10 4计算方法 定义停止分层的时点 在决策树模块中 提供两个选项可以控制停止分裂 分层 的时间点 1 取小n 最终节点中所包含的个例数 2 设置对象的片段 10 4计算方法 选择适当大小的决策树 在一般化的分割过程中 需要确定决策树的适当规模决策树模块可提供几种不同的选取适当大小的策略 可择一或同时使用 如表10 3所示 1 1决策树 决策树 DecisionTree 是在已知各种情况发生概率的基础上 通过构成决策树来求取净现值的期望值大于等于零的概率 评价项目风险 判断其可行性的决策分析方法 是直观运用概率分析的一种图解法 由于这种决策分支画成图形很像一棵树的枝干 故称决策树 在机器学习中 决策树是一个预测模型 他代表的是对象属性与对象值之间的一种映射关系 Entropy 系统的凌乱程度 使用算法ID3 C4 5和C5 0生成树算法使用熵 这一度量是基于信息学理论中熵的概念 决策树是数据挖掘分类算法的一个重要方法 在各种分类算法中 决策树是最直观的一种 1 2组成 决策点 是对几种可能方案的选择 即最后选择的最佳方案 如果决策属于多级决策 则决策树的中间可以有多个决策点 以决策树根部的决策点为最终决策方案 状态节点 代表备选方案的经济效果 期望值 通过各状态节点的经济效果的对比 按照一定的决策标准就可以选出最佳方案 由状态节点引出的分支称为概率枝 概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率 结果节点 将每个方案在各种自然状态下取得的损益值标注于结果节点的右端 1 3画法 机器学习 决策树是一个预测模型 他代表的是对象属性与对象值之间的一种映射关系 树中每个节点表示某个对象 而每个分叉路径则代表的某个可能的属性值 而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值 决策树仅有单一输出 若欲有复数输出 可以建立独立的决策树以处理不同输出 数据挖掘中决策树是一种经常要用到的技术 可以用于分析数据 同样也可以用来作预测 1 3画法 从数据产生决策树的机器学习技术叫做决策树学习 通俗说就是决策树 一个决策树包含三种类型的节点 决策节点 通常用矩形框来表式机会节点 通常用圆圈来表式终结点 通常用三角形来表示 决策树学习也是资料探勘中一个普通的方法 在这里 每个决策树都表述了一种树型结构 它由它的分支来对该类型的对象依靠属性进行分类 每个决策树可以依靠对源数据库的分割进行数据测试 这个过程可以递归式的对树进行修剪 当不能再进行分割或一个单独的类可以被应用于某一分支时 递归过程就完成了 另外 随机森林分类器将许多决策树结合起来以提升分类的正确率 决策树同时也可以依靠计算条件概率来构造 决策树如果依靠数学的计算方法可以取得更加理想的效果 数据库已如下所示 x y x1 x2 x3 xk y 相关的变量Y表示我们尝试去理解 分类或者更一般化的结果 其他的变量x1 x2 x3等则是帮助我们达到目的的变量 1 4决策树的剪枝 剪枝是决策树停止分支的方法之一 剪枝有分预先剪枝和后剪枝两种 预先剪枝是在树的生长过程中设定一个指标 当达到该指标时就停止生长 这样做容易产生 视界局限 就是一旦停止分支 使得节点N成为叶节点 就断绝了其后继节点进行 好 的分支操作的任何可能性 不严格的说这些已停止的分支会误导学习算法 导致产生的树不纯度降差最大的地方过分靠近根节点 1 4决策树的剪枝 后剪枝中树首先要充分生长 直到叶节点都有最小的不纯度值为止 因而可以克服 视界局限 然后对所有相邻的成对叶节点考虑是否消去它们 如果消去能引起令人满意的不纯度增长 那么执行消去 并令它们的公共父节点成为新的叶节点 这种 合并 叶节点的做法和节点分支的过程恰好相反 经过剪枝后叶节点常常会分布在很宽的层次上 树也变得非平衡 后剪枝技术的优点是克服了 视界局限 效应 而且无需保留部分样本用于交叉验证 所以可以充分利用全部训练集的信息 但后剪枝的计算量代价比预剪枝方法大得多 特别是在大样本集中 不过对于小样本的情况 后剪枝方法还是优于预剪枝方法的 1 5实例 为了适应市场的需要 某地准备扩大电视机生产 市场预测表明 产品销路好的概率为0 7 销路差的概率为0 3 备选方案有三个 第一个方案是建设大工厂 需要投资600万元 可使用10年 如销路好 每年可赢利200万元 如销路不好 每年会亏损40万元 第二个方案是建设小工厂 需投资280万元 如销路好 每年可赢利80万元 如销路不好 每年也会赢利60万元 第三个方案也是先建设小工厂 但是如销路好 3年后扩建 扩建需投资400万元 可使用7年 扩建后每年会赢利190万元 1 5实例 各点期望 点 0 7 200 10 0 3 40 10 600 投资 680 万元 决策树分析点 1 0 190 7 400 930 万元 点 1 0 80 7 560 万元 比较决策点4的情况可以看到 由于点 930万元 与点 560万元 相比 点 的期望利润值较大 因此应采用扩建的方案 而舍弃不扩建的方案 把点 的930万元移到点4来 可计算出点 的期望利润值 点 0 7 80 3 0 7 930 0 3 60 3 7 280 719 万元 最后比较决策点1的情况 由于点 719万元 与点 680万元 相比 点 的期望利润值较大 因此取点 而舍点 这样 相比之下 建设大工厂的方案不是最优方案 合理的策略应采用前3年建小工厂 如销路好 后7年进行扩建的方案 决策树模型与回归模型在天津市某区公务员健康状况分析中的应用与比较 应用SAS8 2EnterpriseMiner模块建立决策树模型和回归模型 对该区公务员人群的健康状况影响因素进行分析和预测 将logistic回归模型与决策树模型进行预测性能的比较 ROC面积比较结果发现 两者差别无统计学意义 结论公务员人群健康状况不容乐观 各种慢性病患病率较高 是今后开展健康管理的重点群体 logistic回归是分类数据统计分析的一种重要方法 流行病学上常用于研究疾病与致病因子间的联系 以疾病发生与否为应变量 影响疾病发生的因子为自变量 估计各因子的相对危险度或比数比 决策树是一种非线性的判别分析的方法 是一种类似于流程图的结构图 其中 每个内部节点 非树节点 表示在一个属性上的测试 每个分支代表一个测试输出 而每个树叶节点 或终结点 存放一个类标号 本研究应用enterpriseminer建立logistic回归模型和决策树模型对公务员健康状况的预测性能进行比较分析 决策树模型方法能产生一些可以理解的规则 决策树及随机效应模型 线性随机效应混合模型的一般公式 固定效应 随机效应 如果固定效应不一定是线性的 而又无法写出非线性关系的分析表达式 则可以用决策树来取代那固定的线性部分 其公式为 其中 yi为ni r xi为ni p Zi为ni q bi为q r 为ni r 决策树及随机效应模型 使
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 相机租赁合同范本英文
- 食堂员工聘用合同范本
- 塑料成品模具合同范本
- 钢管产品订货合同范本
- 企业招聘中介合同范本
- 众筹合同范本
- 武装押运租车合同范本
- 衣柜拆装服务合同范本
- 单位音响租赁合同范本
- 承包羊舍建设合同范本
- 苏州银行总行信息科技部招聘考试真题2022
- 安装电工电气调试员安全技术操作规程
- 2乳的验收与预处理解析
- 三峡大学级本科电气工程及其自动化二本培养方案
- 柴芍六君子汤加减治疗脾胃病三则
- GB/T 778.1-2018饮用冷水水表和热水水表第1部分:计量要求和技术要求
- GB/T 11547-2008塑料耐液体化学试剂性能的测定
- 伤口造口新进展课件
- (完整版)人工智能介绍课件
- 恶性骨肿瘤化疗及注意事项(58张幻灯片)课件
- 国有企业采购规范和示范文本
评论
0/150
提交评论