SPSS数据的判别分析PPT课件.ppt_第1页
SPSS数据的判别分析PPT课件.ppt_第2页
SPSS数据的判别分析PPT课件.ppt_第3页
SPSS数据的判别分析PPT课件.ppt_第4页
SPSS数据的判别分析PPT课件.ppt_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 2 4 判别分析 DiscriminateAnalysis 知识要点 1 什么是判别分析 2 理解距离判别 Bayes判别以及Fisher判别的基本思想3 结合SPSS软件进行案例分析4 判别分析的应用 1 2020 2 4 可编辑 医学 例1 在医学诊断中 一个病人肺部有阴影 医生要判断他患的是肺结核 肺部良性肿瘤还是肺癌 肺结核病人 肺部良性肿瘤病人 肺癌病人组成三个总体 病人来自其中一个总体 可通过病人的指标 阴影大小 边缘是否光滑等 用判别分析判断他来自哪个总体 即判断他患的什么病 判别分析的应用 2 2020 2 4 可编辑 经济学 例2 股票持有者根据股票近期的变化情况判断此种股票价格下一周是上升还是下跌 例3 依据一个企业税务报表的数据 判断该企业是否逃税 3 2020 2 4 可编辑 例4 为了研究中小企业的破产模型 选定4个经济指标 X1总负债率 现金收益 总负债 X2收益性指标 纯收入 总财产 X3短期支付能力 流动资产 流动负债 X4生产效率性指标 流动资产 纯销售额 对17个破产企业 1类 和21个正常运行企业 2类 进行了调查 得如下资料 4 2020 2 4 可编辑 5 2020 2 4 可编辑 6 2020 2 4 可编辑 7 2020 2 4 可编辑 8 2020 2 4 可编辑 如何进行判类 判别分析的基本思想 一 什么是判别分析 判别分析 根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法 判别分析的特点 基本思想 1 根据已掌握的 历史上若干样本的p个指标数据及所属类别的信息 总结出该事物分类的规律性 建立判别公式和判别准则 2 根据总结出来的判别公式和判别准则 判别未知类别的样本点所属的类别 9 2020 2 4 可编辑 二 判别分析的要求和假设条件变量属性 被解释变量是属性变量 nonmetricvariables 解释变量是度量变量 metricvariables 判别分析最基本的要求 1 分组类型在两组以上 2 已知分类的样本中 每组案例的规模必须至少在一个以上 3 解释变量必须是可测量的 才能计算其平均值和方差 使其合理地应用于统计函数 10 2020 2 4 可编辑 假设条件 1 每一个判别变量 解释变量 不能是其他判别变量的线性组合 避免多重共线性问题 否则 参数估计的标准误将很大 以至于参数估计统计上不显著 2 各组变量的协方差矩阵相等 在此假设下 可以使用很简单的公式计算判别函数和进行显著性检验 3 各判别变量之间具有多元正态分布 即每个变量对于所有其他变量的固定值有正态分布 在此条件下 可精确计算显著性检验值和分组归属的概率 11 2020 2 4 可编辑 三 判别分析方法 12 2020 2 4 可编辑 首先根据已知分类的数据 分别计算各类的重心即各组 类 的均值 判别的准则是对任给样品 计算它到各类平均数的距离 哪个距离最小就将它判归哪个类 一 两个总体的距离判别法设有两个p维正态总体G1 G2 对给定的样本Y 可用如下规则判别 若样本Y到总体G1的距离小于到总体G2的距离 则认为样本Y属于总体G1 反之 则认为样本Y属于总体G2 若样本Y到总体G1和G2的距离相等 则让它待判 距离判别 13 2020 2 4 可编辑 判别函数 令 判别法则 W是关于y的线性函数 是已知的p维向量 是W的判别系数 1 方差相等 14 2020 2 4 可编辑 2 总体协方差已知 且不相等 判别函数 判别法则 15 2020 2 4 可编辑 设有个K总体 分别有均值向量 i 1 2 k 和协方差阵 i 又设Y是一个待判样品 则Y与各总体的距离为 即判别函数 二 多总体的距离判别法 判别函数 判别法则 注 这与距离判别是等价的 协方差阵相等 距离判别缺点 没有考虑到每个总体出现的机会大小 即先验概率 没有考虑到错判的损失 判别函数 判别法则 判别函数 注 这与距离判别是等价的 判别法则 判别函数 注 这与距离判别是等价的 判别法则 判别函数 16 2020 2 4 可编辑 三 距离判别法的优缺点 该方法简单实用 但没有考虑到每个总体出现的机会大小 即先验概率 没有考虑到错判的损失 贝叶斯判别法正是为了解决这两个问题提出的判别分析方法 17 2020 2 4 可编辑 通过计算被判样本x属于k个总体的条件概率P n x n 1 2 k 比较k个概率的大小 将样本判归为来自出现概率最大的总体 或归属于错判概率最小的总体 的判别方法 考虑误判损失 比较各类错判损失大小 选取其中最小的 则判定样品属于该总体 贝叶斯 Bayes 判别 18 2020 2 4 可编辑 例 下表是某金融机构客户的个人资料 这些资料对一个金融机构来说 对于客户信用度的了解至关重要 因为利用这些资料 可以挖掘出许多的信息 建立客户的信用度评价体系 所选变量为 x1 月收入x2 月生活费支出x3 虚拟变量 住房的所有权 自己的为 1 租用的 0 x4 目前工作的年限x5 前一个工作的年限x6 目前住所的年限x7 前一个住所的年限X8 家庭赡养的人口数X9 信用程度 5 的信用度最高 1 的信用度最低 19 2020 2 4 可编辑 20 2020 2 4 可编辑 21 2020 2 4 可编辑 用投影的方法将k个不同总体的p维数据投影到某一个方向 使不同总体之间的p维数据投影尽可能分开 同一总体内的各样本点尽可能的集中 用方差分析的思想则可构建一个较好区分各个总体的线性判别法 Fisher判别 22 2020 2 4 可编辑 变量选择和逐步判别法 向后剔除开始时 所有变量都在模型中 每一步 在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除 当所有余下的变量都达到留在模型中的标准时 向后剔除过程停止 向前选入开始时模型中没有变量 每一步 Wilks的统计量最小者 进入模型 当不再有未被选入的变量小于选入的临界值时 向前选入过程停止 23 2020 2 4 可编辑 逐步选择开始时如同向前选择一样 模型中没有变量 每一步都被检查 如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准 它就被剔除 否则 不在模型中对模型的判别能力贡献最大的变量被选入模型 当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准 逐步选择过程停止 逐步判别法采用有进有出的算法 即每一步都进行检验 首先 将判别能力最强的变量引进判别函数 而对较早进入判别函数的变量 随着其他变量的进入 其显著性可能发生变化 如果其判别能力不强了 则删除 24 2020 2 4 可编辑 判别分析方法步骤及框图 25 2020 2 4 可编辑 判别分析的案例分析与SPSS操作步骤 执行菜单命令 单击 分析Analyze 分类Classify 判别Discriminant 26 2020 2 4 可编辑 指定分组变量及其取值范围 将分组变量从源变量窗口通过选择箭头选到分组变量窗口 Groupingvariable 并从 DefineRange 按钮定义分组变量的取值范围 给定最小值Minimum和最大值Maximum 指定判别函数中的自变量 将自变量从源变量窗口通过选择箭头选到自变量窗口 选择使用自变量的方法 对于选定的自变量可以全部应用到判别函数中去 这是系统默认的使用全部自变量法 Enterindependenttogether 如果要对变量进行筛选检验 将使用选项逐步进入法 Usestepwisemethod 使用该方法后 按钮 Method 将被激活 27 2020 2 4 可编辑 组内平方和 总平方和 28 2020 2 4 可编辑 29 2020 2 4 可编辑 计算各类别及总体各变量均值 标准差 统计量 矩阵和函数系数的计算按钮 Statistics 将打开统计计算窗口 输出单变量方差分析结果 各类协方差矩阵相等的检验 选择判别函数系数输出形式 Fisher判别系数 非标准化判别系数 组内相关矩阵 合并组内协方差矩阵 组间协方差矩阵 总协方差矩阵 指定自变量的相关矩阵 30 2020 2 4 可编辑 31 2020 2 4 可编辑 分类方式和判别结果单击按钮 Classify 将设置分类所依据的判别先验概率和协方差矩阵 以及输出图形和显示结果 先验概率的设定 各类取相等先验概率 根据各类样本个数计算先验概率 输出分析结果 输出各样本的分类结果如判别得分 判别类等 交叉检验结果 将缺失值用均值替代 选择分类使用的协方差阵 组内协方差阵 分组协方差阵 作图 生成一张包括各类的散点图 分类显示各个类的散点图 分界图 将坐标平面划分为不同的区域 每个区域将代表一个类 32 2020 2 4 可编辑 33 2020 2 4 可编辑 34 2020 2 4 可编辑 在SPSS数据文件中生成新变量单击 SAVE 按钮 保存预测的组别 判别得分和各组成员的事后概率 建立一个标明每个样本所属的类别的变量 生成一个判别得分变量 样本属于某类的概率 35 2020 2 4 可编辑 案例解析 人类发展状况判类 1990联合国开发计划署公布的 人类发展报告 用出生时的预期寿命 x1 成人识字率 x2 调整后的人均GDP x3 等三个变量衡量人类发展状况 现从高发展水平国家和中等发展水平国家中各选了5个样本 另选中国 希腊等作为待判样本 要求 构建判别函数进行判别分析 见数据1995人类发展报告部分数据 SAV 36 2020 2 4 可编辑 37 2020 2 4 可编辑 该案例的SPSS操作步骤 1 Analyze Classify Discriminant2 在判别分析窗口将分组变量 经济发展程度 region 选入 Groupingvariable 框 并从 DefineRange 按钮定义分组变量的取值范围 给定最小值Minimum设定为1和最大值Maximum设定为2 38 2020 2 4 可编辑 39 2020 2 4 可编辑 3 将判别依据变量出生时的预期寿命 成人识字率 调整后的人均GDP从源变量窗口通过选择箭头选到自变量窗口 点击Statistics按钮 4 在Statistics对话框选择方差分析 UnivariateANOVAs 和方差相等检验 Box sM 以及判别函数系数中的Fisher s和Unstandardized 点击Statistics按钮 40 2020 2 4 可编辑 点击Classify按钮 5 在Classify对话框在display中选择 Summarytable 和 Leaf one outclassification 在plots中选择分界图 Territorialmap 点击Classify按钮 41 2020 2 4 42 2020 2 4 可编辑 点击Save按钮 5 在Save对话框在中选择预测分组变量 Predictedgroupmembership 和判别函数得分变量 Discriminantscores 以及各组的条件概率变量 Probabilitiesofgroupmembership 6 点击Save对话框中的 Continue 再点击DiscriminantAnlysis对话框中 Ok 43 2020 2 4 可编辑 输出结果及分析 样本描述 该例中有效样本有10个 有效率为71 4 缺失样本为4 缺失率为28 8 判别依据变量在各组及总体中有效样本量情况 44 2020 2 4 可编辑 方差分析表 判别依据变量在各组中的均值相等检验 从该表中可看出各组之间的调整后的人均GDP存在显著差异 该变量对分组起着重要作用 各组协方差矩阵的行列式值 各组协方差矩阵相等的检验 零假设认为各组方差相等 该例中零假设出现的可能性为0 02 说明各组方差不等 严格意义上应构建非线性判别函数 45 2020 2 4 可编辑 SummaryofCanonicalDiscriminantFunctions 典型判别函数的相关描述 构建的典型判别函数的贡献率 对原始信息的包含量 从表中可看出 本例构建了1个典型判别函数 其贡献率为100 构建的典型判别函数模型显著性检验 零假设为 典型判别函数模型不显著 从表中可看出 本例构建的典型判别函数是显著的 Sig值为0 008 46 2020 2 4 可编辑 标准化的典型判别函数系数表 从该表可写出标准化的典型判别函数模型 f1 0 625 标准化的出生时的预期寿命 0 025 标准化的成人识字率 0 975 标准化的调整后的人均GDP 从该表中各函数系数的绝对值大小进行比较 还可看出哪些变量对构建判别函数起着重要作用 本例中调整后的人均GDP对构建的判别函数起着重要作用 出生时的预期寿命则次之 该表反映的是判别依据变量与判别函数之间的相关关系 系数值越大 说明相应变量对判类起着重要作用 与上表功用类似 47 2020 2 4 可编辑 非标准化的典型判别函数系数表 从该表可写出非标准化的典型判别函数模型 f1 0 159 出生时的预期寿命 0 003 成人识字率 0 002 调整后的人均GDP 19 334 每组重心代入非标准化的典型判别函数系数后的取值 由该重心的函数取值可计算分类的临界值 本例为临界值Z 2 046 2 046 2 0 将14个样本数据代入非标准化的典型判别函数模型 得到各样本的函数取值 取值大于0的样本 判到 高发展水平国家 反之 判到 中等发展水平国家 48 2020 2 4 可编辑 以下3个表为在Statistics对话框中的判别函数系数中选择Fisher s出现的结果 通常可不选择该选项 不列示以下结果 以下结果是依据Bayes判别法 设定先验概率 Priorprobabilities 将后验概率判别转化为距离判别 得到分组的线性判别函数 进入分析的样本数 每组先验概率设定情况 本例中两组的先验概率为相等 为0 5 分组的线性判别函数系数表 该例中 高发达国家的函数模型 f 5 742 出生时的预期寿命 0 221 成人识字率 0 081 调整后的人均GDP 311 823 中等发展国家的函数模型 f 5 093 出生时的预期寿命 0 234 成人识字率 0 024 调整后的人均GDP 232 705 依据两模型每个样本有两个函数取值 哪个大判到哪一类 49 2020 2 4 可编辑 分类预测效果表 依据函数的分类预测情况 交叉检验 分类预测效果检验 从该表的Original部分 可看出 高发展水平国家原始样本有5个 正确判类个数为5个 正判率为100 中等发展国家原始样本有5个 正确判类个数为5个 正判率为100 待判样本有5个 其中2个判到高发展国家 有2个判到中等发展国家 总体正判率为100 从该表的Cross validated 交叉检验 部分 可看出 高发展水平国家原始样本有5个 正确判类个数为4个 正判率为80 误判率为20 中等发展国家原始样本有5个 正确判类个数为5个 正判率为100 总体正判率为90 50 2020 2 4 可编辑 最终的数据文件 增加了4个新变量 这是点击Save按钮中选择预测分组变量 Predictedgroupmembership 和判别函数得分变量 Discriminantscores 以及各组的条件概率变量 Probabilitiesofgroupmembership 等后 系统将这些变量信息保存到数据文件的结果 51 2020 2 4 可编辑 例1 企图用一套打分体系来描绘企业的状况 该体系对每个企业的一些指标 变量 进行评分 这些指标包括 企业规模 is 服务 se 雇员工资比例 sa 利润增长 prr 市场份额 ms 市场份额增长 msr 流动资金比例 cp 资金周转速度 cs 等等 另外 有一些企业已经被某杂志划分为上升企业 稳定企业和下降企业 我们希望根据这些企业的上述变量的打分和它们已知的类别找出一个分类标准 以对没有被该刊物分类的企业进行分类 52 2020 2 4 可编辑 利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例 cp 还剩下七个变量is se sa prr ms msr cs 得到两个典则判别函数 CanonicalDiscriminantFunctionCoefficients 这两个函数实际上是由Fisher判别法得到的向两个方向的投影 这两个典则判别函数的系数是下面的SPSS输出得到的 53 2020 2 4 可编辑 SPSS分析结果之一 典型判别函数系数矩阵 利用逐步判别法淘汰了不显著的流动资金比例 cp 两个典型判别函数 这两个函数实际上是由Fisher判别法得到的向两个方向的投影 54 2020 2 4 可编辑 SPSS分析结果之一 样本分组散点图 根据两个典型判别函数算出的样本观测值绘制处二维平面图 从上图可以看出 第一个投影 相应于来自于第一个典则判别函数横坐标值 已经能够很好地分辨出三个企业类型了 这两个典则判别函数并不是平等的 其实一个函数就已经能够把这三类分清楚了 55 2020 2 4 可编辑 SPSS分析结果之一 特征根表 反映构建的判别函数 投影 的重要程度 该表说明第一个函数的贡献率已经是99 了 而第二个只有1 56 2020 2 4 可编辑 SPSS分析结果之一 分类线性函数系数矩阵 该表给出了三个线性分类函数的系数 把每个观测点带入三个函数 就可以得到分别代表三类的三个值 哪个值最大 该点就属于相应的那一类 见下页幻灯 57 2020 2 4 可编辑 样本Y到Gi的距离 注 这与距离判别是等价的 判别法则 判别函数 备注 58 2020 2 4 可编辑 SPSS分析结果之一 利用构建的判别函数分类情况及交叉检验结果 该表反映构建的判别函数进行预测判类的效果状况 从该表可看出该例对所有样本进行预测的准确率为100 进行交叉检验也可看到判别函数的判类准确率也为100 说明构建的函数模型进行预测非常有效 59 2020 2 4 可编辑 例2 鸢尾花数据 花瓣 花萼的长宽 5个变量 花瓣长 slen 花瓣宽 swid 花萼长 plen 花萼宽 pwid 分类号 1 Setosa 2 Versicolor 3 Virginica data14 04 60 2020 2 4 可编辑 鸢尾花数据 数据分析过程简明表 61 2020 2 4 可编辑 鸢尾花数据 原始数据的描述 62 2020 2 4 可编辑 鸢尾花数据 合并类内相关阵和协方差阵 63 2020 2 4 可编辑 鸢尾花数据 总协方差阵 64 2020 2 4 可编辑 鸢尾花数据 特征值表 Eigenvalue 用于分析的前两个典型判别函数的特征值 是组间平方和与组内平方和之比值 最大特征值与组均值最大的向量对应 第二大特征值对应着次大的组均值向量典型相关系数 canonicalcorrelation 是组间平方和与总平方和之比的平方根 65 2020 2 4 可编辑 鸢尾花数据 Wilks Lambda统计量 检验判别函数1和2是否显著 66 2020 2 4 可编辑 鸢尾花数据 有关判别函数的输出 标准化的典型判别函数系数 使用时必须用标准化的自变量 67 2020 2 4 可编辑 典型判别函数系数 68 2020 2 4 可编辑 类均值 重心 处的典则判别函数值 69 2020 2 4 可编辑 鸢尾花数据 用判别函数对观测量分类结果 先验概率 费歇判别函数系数把自变量代入三个式子 哪个大归谁 70 2020 2 4 可编辑 TerritoryMap 区域图 CanonicalDiscriminateFunction1VersusCanonicalDiscriminateFunction2三种鸢尾花的典型变量值把一个典型变量组成的坐标平面分成三个区域 为中心坐标 TerritorialMapCanonicalDiscriminantFunction2 12 0 8 0 4 0 04 08 012 0趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌12 01223122312231223122312238 01223122312231223122312234 0122312231223122312231223 0 122312 231223122312231223 4 0122312231223122312231223 8 0122312231223122312231223 12 01223趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12 0 8 0 4 0 04 08 012 0CanonicalDiscriminantFunction1SymbolsusedinterritorialmapSymbolGroupLabel 11刚毛鸢尾花22变色鸢尾花33佛吉尼亚鸢尾花 Indicatesagroupcentroid 71 2020 2 4 可编辑 72 202

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论