医学信息学论文:SPSS分类树应用.ppt_第1页
医学信息学论文:SPSS分类树应用.ppt_第2页
医学信息学论文:SPSS分类树应用.ppt_第3页
医学信息学论文:SPSS分类树应用.ppt_第4页
医学信息学论文:SPSS分类树应用.ppt_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS Classification Trees 分类树的应用,深圳市医学信息中心 罗春花,内容,基本概念 快速入门 知识拓展,一、基本概念,什么是分类树? 对资料的要求 用途 如何确定变量的重要性、相互关系、交互作用 分类树的优缺点 分类树的运算法则,1. 什么是分类树?,分类树产生一个基于树状的分类模型;它将研究对象分组,可以根据自变量预测因变量;是探索性和证实性分类分析的有效工具。,2. 对资料的要求:任何类型,不要求解释变量Xi 和结果变量Y具有某种特定的分布。 允许不同数据类型的解释变量一起进入模型,可以使用不同数据类型的结果变量。 传统方法对资料的类型和分布有相对严格的规定(如多元线性回归);不易处理共线性问题和多水平变量之间复杂的交互作用(如logistic 回归)。,根据解释变量对结果变量进行分类和预测。 识别影响因素间的交互作用,3. 用途,1352名少年儿童肥胖症危险因素,儿童肥胖症的 高危人群和低危人群,4. 变量的重要性及 变量间的相互关系如何确定?,解释变量的重要性表现为该解释变量出现在树干的起始部位,或离起始部位很接近;另一方面,重要性还表现为同一解释变量多次在模型中出现。 利用解释变量之间上下的关系分析解释变量间是否有可能存在交互作用。如果某些解释变量在单因素分析时与结果变量之间无明显关联,而在模型中的某些局部有明显的效应,提示这些解释变量之间可能存在交互作用。,5. 分类树的优缺点,是一种新的多因素分析方法,其结果直观、明了、易于解释,能有效处理缺失数据及变量之间的共线性,对资料分布无任何要求。 只适合大样本资料。如果结果变量是连续性资料,样本含量可以小一些。如果结果变量是分类资料,样本含量要大。,6. 运算法则,CHAID 结果变量:分类资料(最常用) 、计量或等级资料 Exhaustive CHAID:结果变量:分类资料(最常用) 、计量或等级资料 CRT结果变量:计量资料(最常用)、分类或等级资料 QUEST 结果变量:仅用于分类资料,二、快速入门 Quick Start,1352名少年儿童肥胖症危险因素 银行对客户的信贷风险评估 学生压力的影响因素分析,(一)结果变量是分类资料,例1 1352名少年儿童肥胖症危险因素 性别:男、女 年龄组:7-9岁,10-12岁,13-15岁, 16岁 胆固醇:5.18(mmol/L),5.18(mmol/L) 甘油三脂: 0.50(mmol/L),0.50(mmol/L),1. 数据文件,2. SPSS过程,单击OK(不必在此定义变量属性),右键单击变量,定义变量类型,定义数据测量类型Measure,计数资料:Nominal 等级资料:Ordinal 计量资料:Scale,定义变量“性别”Nominal,定义变量“年龄组”Ordinal,定义变量“胆固醇”Nominal 定义变量“甘油三脂”Nominal 定义变量“肥胖症”Nominal,肥胖症Dependent Variable 性别、年龄组、胆固醇、甘油三脂 Independent Variable Growing Method Exhaustive CHAID,单击OK,3. 主要结果,例2 银行对客户的信贷风险评估,A bank wants to categorize credit applicants according to whether or not they represent a reasonable credit risk. Based on various factors, including the known credit ratings of past customers, you can build a model to predict if future customers are likely to default on their loans.,数据文件,2. To Obtain Classification Trees AnalyzeClassify Tree.,3. Define Variable Properties,定义数据测量类型Measure,计数资料:Nominal 等级资料:Ordinal 计量资料:Scale,Classification Tree dialog box Define Variable Properties,可对变量设置变量值标签,可更改变量类型和设置变量值标签,单击OK,4. 分类树主对话框,(1)Selecting Categories,Growing Method: CHAID,(2)Force the first variable Influence variable,一般不选择这2项,(3)Validation 是否需要交叉核实和分开2样本核实? 默认:不需要,(4)Criteria Growth Limits、CHAID、Intervals,Tree Depth: Automatic Parent Node:400; Child Node:200,CriteriaCHAID,默认 拆分及合并的检验水准均定位0.05,CriteriaIntervals,对连续性变量,默认分为10个区间,(5) Output tree Tree in table format:非默认,可不选,Output Statistics,Output Plots,5. 主要结果,CHAID, Exhaustive CHAID,Model Summary:记录了主要操作,Tree Editor,改变图形方向,增大图形,单击“”或右键隐蔽子结 Hide Children,Tree Table(非默认,可不选),Target Category: Bad 子结1、8对区分Bad的区分作用大 Bad的比例41.4(1020/2464) Index=Response/41.4*100%,246=2464*10%; 493=2464*20%; 如累计Gain Percent快速接近100, 则分类和预测效果好,横坐标为调查总例数的百分比,纵坐标为目标分类如bad的百分比。,For a good model, the index value should start well above 100%, remain on a high plateau as you move along(说明区分度高的节点多), and then trail off sharply toward 100%. For a model that provides no information, the line will hover around 100% for the entire chart.,从应答率或检出率的角度,说明各节点的作用。如果多数节点的应答率接近41.4(1020/2464,没有建立模型的情况),则说明模型效果不好。,模型评价:总的正确率是79.5,Bad的正确率是65.2。,小结:Dependent为分类变量的操作,单击OK,选择CHAID;单击Categories,Bad Target,Output Tree,Output Statistics,Output Plots,是否需要交叉核实和分开2样本核实? 默认:不需要,Criteria Growth Limits 默认类别分3层;母结100,子结50;本例样本大,调整为400,200,如有过多的Missing data: 用CRT or QUEST methods取代,(二)结果变量是连续资料,学生压力的影响因素分析(61例),性别:男;女 专业:会计系;注册会计师系 专业满意:很满意;满意;一般;不满意 学业成绩:很好;好;一般;较差 压力总分:018,1. 数据文件,2. SPSS过程,单击OK,定义变量“性别”、“系”Nominal 定义变量“专业满意”、“学业成绩”Ordinal,Growing Method: CRT; 单击Criteria,Parent Node:20; Child Node:10,单击OK,3. 主要结果,Parent Node,Child Node,模型构建的主要参数如下,应变量为分类资料,选用Exhaustive CHAID 或CHAID算法。 拆分及合并的检验水准一般设置为0.05 分类树的最大生长深度定为几层(默认为3层,可最多设定8层)? 设定母结点和子结点中的最少例数分别为多少(默认:母结点100;子结点50)?,知识拓展 对乳腺癌患者死亡的相关因素进行分类树分析,主要操作,主要结果,在Word中重新绘制的图形,分类树方法及其结果的文字描述,方法 结果,分类树方法的文字描述,采用分类树分析乳腺癌患者死亡的相关因素。乳腺癌患者1207例,因乳腺癌死亡72例。应变量Y:乳腺癌死亡(0:生存;1:死亡);自变量X:病理肿瘤大小(cm)、腋下淋巴结转移个数、雌激素受体状态(阴性,阳性)、年龄(岁)和生存时间(月)。 用Exhaustive CHAID法建立模型,用自动法选择分类树的深度,母节(Parent Node)和子节(Child Node)的最小例数分别为100和50。树节拆分及合并的检验水准均为0.05。,分类树的深度有2层(图1),第1层为病理肿瘤大小,第2层为腋下淋巴结转移个数。终止节(Terminal No

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论