版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1、第9章判断树分析诊断树分析,2、判断树分析、介绍判断树基本观念三种研究方法其他判断树变化判断树的优缺点,3、判断树是一种功能性的、受欢迎的分类预测工具。 这种基于树的方法,其判断树有规则,与类神经网络的不同之处很有魅力。 规则可以用文字来表现,让人类理解,变换为SQL等数据库语言,可以检索属于特定类的数据记录查询密码。 本章首先介绍判断树的结构及其适用方法的分类和预测问题。 下面是在CART、C4.5和CHAID算法上建构判断树的方法。 简档,4,判断树如何操作:个问题,判断树一定很容易理解如何分类资料。 在男同性恋中,一个玩家希望所有参与者都知道的特定场所、人物或事物,以及其他玩家的薮着
2、能通过提问找到答案。 判断树代表了一系列的问题。 在男同性恋,第一个问题的答案决定下一个问题。 慎重选择问题的话,仅仅几个问题就能正确地分类后面的资料。 用20道题的方法来表示判断树的基本观念、5种乐器的分类。判断树基本观念、6、资料从根节点进入判断树。 根应用测试来确定此数据将进入下一层次的哪个子节点。 第一次测试有算法,但目的是一样的。 重复此过程,直到数据到达叶节点。 从根到叶有着独特的路径,这个路径是分类数据规则的表现。判断树基本观念、7、判断树多种形式:判断树基本观念、8、有些规则比其他规则好:我们将一个判断树应用于一个前所未闻的资料集合,观察其分类的正确比率,测定该判断树的有效性。
3、 对于判断树中的每个节点,可以测量进入该节点的数据数量。 如果是叶部节点,可以观察资料的分类方法。 此节点正确分类资料的比率。 当判断树的基本观念、9、薯由对资料进行正确分类时,可以验证建构判断树的最佳算法。 第四章电影躁狂症数据库。 被实验者被要求回答他们的年龄、性别、最常见的电影以及最近看的电影的标题。 接下来,使用判断树计程仪程序,被实验者用问题单回答其他问题,制定了特定该被实验者性别的规则。 下表显示,该节点分类有关1.1件的资料,其中9件是正确的(女性),2名男性错误地分类在这里。 换句话说,该规则的错误率为0.182,判断树基本观念、1.0、判断树基本观念、1.1、判断树基本观念、
4、1.2、判断树基本观念、判断树创造资料箱:有助于表现决策树方法的某一特性,但作者有时可以更清楚地看到基于不同表现方式的箱形图由判断树制作箱子和箱子,可以放资料。 每个树的叶部节点都形成了一维度的箱形图。 关于判断树根结点的测试,将下层分割成2个以上的部分。1.3、判断树基本观念、1.4、判断树基本观念、判断树根源于资料箱:通过改变资料箱的宽度,表明资料落入特定箱内的相对可能性。 可以由图像直方图替换该格拉夫,其中每个图像直方图的高度指示相应框中的数据量。 此类条格拉夫可以使用条的频率和形状来表示相应规则的错误率。 根据输出变量的数值,单个数据可以表示为彩色的球形或者点状。 这将立即显示此分类系
5、统的表示。、1.5、判断树基本观念、1.6、判断树基本观念、表现多维:资料落格、落格分类特定层。 一个分层图可以让您一眼就能看到几个阶层的资料细节。 在下图中,左下方的格子全部是男性一目了然。 仔细一看,可以发现有些层次分类表现得很好,或者收集了大量资料。 这与线性、逻辑、二次差分等传统的统计分类方法,和尝试在数据空间中画直线或弧来阶层化数据的方法有很大不同。1.7、判断树基本观念、1.8、判断树基本观念,这是基本的区别:如果一个资料有多种非常不同的方法,则使用单线查找班级之间的界限线的统计方法的效力就会减弱。 例如,在信用卡产业中,很多持卡人有利地利用了发卡路径。 有些持卡人每次支付的金额不
6、高,但当他们支付的金额高时,不超过限额的另一个持卡人每月支付,但他们交易金额高,所以发卡银行可以赚钱。 这两种非常不同的发卡商可能为发卡银行带来同样的利益。 下图显示了分类问题的颧骨,判断树超过了单纯统计方法的优点。1.9、判断树的基本观念、2.0、分类与回归树(CART )、分类与回归树(CART)CART算法是建构判断树时最常用的算法之一。 自从去年布里曼(L. Brieman )及其同事发表了这个方法以来,机械地学习了实验的要素。2.1、分类和回归树(CART )、2.2、分类和回归树(CART )、numbers、2.3、分类和回归树(CART )具有预先分类的训练和资料,第一部分:在
7、过程开始。 事前分类是指根据输出变量或变量而具有已知的类。 CART隼具有单一的输入变量函数,在各节点分离数据,建构二分式的判断树。 因此,第一个课题是决定哪个参数成为最佳的分隔变量。 最好的分离定义是能够把数据最好地分配给单个类支配的组。 2.4,分类和回归树(CART ),找到第一个间隔:做评估一个间隔数的测定标准是分散度。 一系列资料的离散度指标有几种计算方法。 无论如何,分散度指标高,表示该组合平均分配给多个类别,分散度指标低则表示单一类别的成员占优势。 另外,2.5、分类和回归树(CART )找到第一分区:的最佳分区变量可以降低一个数据定径套的分散度并且最小。 换句话说,分散度(分离
8、前)分散度(分离后左边子定径套)分散度(分离后右边子定径套)的3个分散度测定方法: minP(c1)、p (c2)2p (c2) p (c1) logp (c1) p (c2) logp (c2)、2.6、分类和回归树在完全方差和完全集合两个极端之间,这些个函数是略有不同的类型。 要在节点中选择最佳隔离变量,请依次考虑每个自变量。 假设该变量遇到多个数值,我们想进行二分式研究,寻找分散度最低的最佳分离法。 当从各变量中找到分散度为最低的最佳分离变量时,胜者被选择为根结点的分离变量。2.7、分类和回归树(CART )、培育的树:在最初的区分中制作两个节点,现在用区分根结点的方法区分各节点。 再次
9、查看所有的输入变量,找到屏幕上选择的分隔变量。 如果此变量只遇到一个数字,则将其排除。 这是因为不能用来建立分隔符。如果一个类变量用作判断树的高级分隔变量,则它可能相对快速地变成单个量化。 为其馀的每个变量确定最佳分隔符。 如果找不到可显着降低一个节点分散度的分隔符,则将其标记为叶节点。 最后,只有叶部节点存在,我们也完成了判断树。 计算2.8、分类和回归树(CART )、各节点的差错率:各叶部分现在被分配到类别和差错率。 回顾前面的图,在图中从根部到表示为女性的叶部的路径被选择。 该节点是叶部节点,表示如果找不到分离变量,分散性会显着降低。 但是,这并不意味着所有祗达的叶部的资料都属于同一种
10、类。 如果使用简单的概率的定义,则可知1.1叶部中9叶是正确的分类。 这证明在训练组中,到达该节点的数据为女性的概率为0.818。 与此相对,该叶部的错误率为1-0.818为0.812。 2.9、分类和回归树(CART )计算整个判断树的差错率:整个判断树的差错率是,所有叶部差错率的加权总数。 各叶部的错误率乘以数据到达叶部的概率(分配给数据的比例)的总数就是判断树整体的错误率。 如果3.0、分类和回归树(CART )、修剪判断树:发现了新的分水岭,改善了判断树分类训练组资料的能力,则判断树将继续增长。 如果您尝试预测身高,来到包含一个叫马丁的高个人和一个叫马丁的低个人的节点,您可以制定一个叫
11、马丁的新规则来降低分散度。 这个规则有助于分类训练资料,但在更广阔的世界里马丁是不常见名字,而且这个名字和身高没有特别的关系,这个规则比不使用更差。 3.1、分类和回归树(CART )、修剪判断树:下图表示到达的状况。 图中的箱子变小了,而且都变大了,只收培训班资料,收不了多少新资料。 很清楚。 在一般情况下,为了得到更准确的预测,需要裁剪该判断树。 问题是应该重复多少,以及决定在这些个分支的判断树中哪个表现好。 确认3.2、分类和回归树(CART )、3.3、分类和回归树(CART )、入选的分支判断树:我们的目标是首先切分支以提供最低限度的追加预测能力。 为了确认这些个的最大不济事分支,导
12、入了判断树调整差错率的概念。 这是看一个一个的叶部,确认最弱的枝(不能有效地降低树全体的判断树的错误率的枝),并修剪它的方法,3.4,分类和回归树(CART ),3.5,分类和回归树(CART ),3.6,分类和回归树(CART ),评价枝:最后的工作为了实现这一点,我们使用了第二个预先分隔的数据定径套- -测试集数据(test set )。 测试组和训练组来自同一组的母体,但包含的资料不同。 入选树枝树分别被用于分类测试组的资金,获得最低整体差错率的是胜者。 做评估3.7、分类和回归树(CART )、最佳分叉树:最后的工作是利用第3组资料,将测试组和训练组分解,即评价组的资料(evaluat
13、ion set )。 入选树枝适用评价组得到的错误率,预测该树枝在未分类的资料中使用时的错误率。3.8、分类和回归树(CART ),考虑到成本为:到目前为止进行了讨论,只是把错误率作为分支树的良莠作为做评估依据。 但是,在许多应用中,错误分类的成本因数据的种类而异。 当然在医疗诊断中,错误的阴性诊断(negative )可能比错误的阳性诊断(positive )伤害更大。做癌症补丁检查时,误诊为性别可能会增加检查,但误诊为阴性可能会使病情恶化。 考虑到问题,我们可使用加权方法用将错误率分类概率加倍的代价函数来置换错误率。 3.9、C4.5、C4.5是最新的判断树算法速成法,是澳大利亚研究者昆兰
14、(J. Ross Quinlan )多年努力的成果。 与CART的差异:培养判断树C4.5与CART的最初差异是,CART对每个节点提示对分法,生成二分式判断树。 C4.5为每个节点生成不同数量的分支。 这是因为C4.5的持续变量项的处理方法与CART非常相似,但是类别变量项的处理方法非常不同。 4.0,C4.5,修剪判断树: CART以判断树分散度为度量,标记不同的树枝,用从未见过的预分类资料(测试组)测试这些树枝。 相反,C4.5不参考其他资料,只尝试用训练资料修整判断树。 于是,C4.5使用构成判断树的相同数据,决定如何被剪出。 从4.1、C4.5、判断树出发的规则:我们可以不改变分类行
15、动,通过与叶部汇合的路径朝着这个目标迈出第一一头地。 在下图的判断树部分,规定了观看比赛,当地工作团队获胜,和小伙伴出门,就出啤酒。 观看比赛本地工作团队获胜在家,汽水就诞生了。 看了比赛,当地的工作团队输了,和小伙伴出门,啤酒就出来了。 观看比赛,当地的工作团队输了,呆在家里牛奶就出来了。 4.2、C4.5、4.3、CHAID和CHAID是哈根(J.A. Hartigan )在1975年首次提出的算法,这是本章讨论的最古老的算法。 这也是使用最广泛的算法,与SPSS和SAS等受欢迎的统计软件一起流通。 CHAID来源于摩根(J.A. Morgan )和桑威斯特(J.N. Sonquist )
16、于1963年提出的更早的自动交互检测系统AID。 4.4、CHAID、CHAID与C4.5和CART的区别: CHAID、C4.5和CART这两个算法的最大区别是,后者先应用数据进行裁剪,CHAID试图在发生应用过度的情况之前停止判断树的因式扩张。 另一个差异是CHAID仅限于类变量,连续变量必须划分成几个段范围,或者替换为高、中、低等类。 4.5、CHAID、培养判断树:与其他两种方法一样,CHAID运算利用输入变量找到一种方法,将训练组的资料分成两个子节点。 一种选择这些个的子节点的方法是,输出变量遇到特定数值的概率因目的地节点而不同。4.6、CHAID、筛选变量:经过第一步,出现了下表:4.7、CHAID、杏仁烤鱼、鲐鱼沙拉、刺身鱼肉肥鹅肝、水牛城鸡羽、碎鸡肝禽肉肉牛腰肉、麦香堡肉、罐头牛肉、碎羊肉红肉、4.8、CHAID,重新筛选类别:第一在第2步中,3个以上的预测变量组在对分法中被再次分割。 如果这些个分段的任何一个可产生统计有效结果,则将其保留。 chi-squared这是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年汪清林业局职工医院医护人员招聘笔试模拟试题及答案详解
- 2026辽宁沈阳理工大学诚聘博士后科研人员笔试参考题库及答案详解
- 2026山东青岛市胶州市招聘机场地区交通秩序维护人员2人笔试参考题库及答案详解
- 2026年重庆市巴南区皮肤病医院医护人员招聘笔试备考试题及答案详解
- 2026年盈江县中医院医护人员招聘笔试备考题库及答案详解
- 2026云南文山市城乡资源开发管理有限公司招聘3人备考题库及答案详解一套
- 2026贵州黔东南州福利彩票发行中心编外聘用人员招聘2人备考题库有答案详解
- 2026中国农业大学后勤保障处东区物业服务部合同聘用制人员招聘1人备考题库及答案详解一套
- 2026年口腔修复学牙体缺损模拟习题(含答案)
- 2026山东佛士特环保处置有限公司招聘7人备考题库完整参考答案详解
- 2025向量化与文档解析技术加速大模型RAG应用
- T-JWEA 0001-2025 水利水电工程施工图审查技术导则
- 2025年职业资格碳排放管理员碳排放交易员-碳排放咨询员参考题库含答案解析
- 男生贾里读书汇报
- 智慧健康养老服务与管理专业教学标准(高等职业教育专科)2025修订
- Unit 8 Once upon a Time Section B 1a-1d(The Ugly Duckling) 课件 2024-2025学年英语人教版7年级下册
- DB62T 3198-2024 装配式建筑评价标准
- 2024-2025湘科版小学三年级科学下册期末考试卷附答案 (三套)
- 疾控消毒竞赛试题及答案
- 装饰装修工程维保维修的方案
- 北师大版五年级下册数学计算题每日一练带答案(共30天)
评论
0/150
提交评论