《判别分析》课件.ppt_第1页
《判别分析》课件.ppt_第2页
《判别分析》课件.ppt_第3页
《判别分析》课件.ppt_第4页
《判别分析》课件.ppt_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第四章判别分析 2 第四节费歇 Fisher 判别法 3 Fisher判别法是1936年提出来的 该方法的主要思想是通过将多维数据投影到某个方向上 投影的原则是将总体与总体之间尽可能的分开 然后再选择合适的判别规则 将新的样品进行分类判别 右图中有A B两个总体 在原始变量 指标 X1 X2的方向上 A B都有很大的重叠 难以区分清楚 但是 如果以X1 X2为横 纵坐标轴构建一个平面 若能设法找到一个y轴 使得当X1X2平面上的散点投射到y轴上时 两组观察值的重叠程度最小 则综合指标y的区分能力显然大于原先的X1 X2 y x2 x1 一 Fisher判别的基本思想 4 一 Fisher判别的基本思想 5 一 Fisher判别的基本思想 6 二 Fisher判别函数的构造 1 针对两个总体的情形 7 1 针对两个总体的情形 8 2 针对多个总体的情形 9 2 针对多个总体的情形 10 11 三 线性判别函数的求法 12 13 14 15 16 17 18 一般需要多少个判别式就够用了 19 另外一种求4 23式的思路 20 另外一种求4 23式的思路 21 需要指出是 此处利用极值原理求极值时 只给出了必要条件的数学推导 而省略了有关充分条件的论证 因为在实际问题中 往往根据问题本身的性质就能肯定有最大值 或最小值 如果所求的驻点只有一个 这时就不需要根据极值存在的充分条件判定它是极大还是极小 而是直接能肯定这唯一的驻点就是所求的最大值 或最小值 为了避免较多的数学推导 这里不追求数学上的完整性 另外一种求4 23式的思路 22 总体参数未知情况下的解决方法 23 24 25 判别规则 26 判别规则 27 判别函数U X 的另一种形式 28 例题4 5 经典案例 费希尔于1936年发表的鸢尾花 Iris 数据 被广泛用为判别分析的例子 数据是对3种鸢尾花 刚毛鸢尾花 第一组 变色鸢尾花 第二组 和弗吉尼亚鸢尾花 第三组 各自抽取一个容量为50的样本 测量其花萼长度x1 花萼宽度x2 花瓣长度x3 花瓣宽度x4 单位为mm 29 30 31 32 33 求解特征值与特征向量 34 求判别函数 35 最后 确定判别规则 36 最后 确定判别规则 37 本例题SPSS的几个关键输出结果 特征值 38 中心化的Fisher判别函数U1 X 和U2 X 的取值 39 各判别函数的组均值为 40 41 几种判别方法的关系 Fisher判别与距离判别对判别变量的分布并无要求 而贝叶斯判别要求了解判别变量的先验分布 因此 Fisher判别核距离判别相对于贝叶斯判别 较为简单实用 当然 后者更加精确 当k 2且两个总体协差阵相等时 Fisher判别与距离判别是等价的 当判别变量服从正态分布 且不考虑误判代价时 它们与贝叶斯判别也是相同的 42 第五节实例分析与计算机实现 这一节我们利用SPSS对Fisher判别法和Bayes判别法进行计算机实现 例题4 6 为研究某地区人口死亡状况 已按某种方法将15个已知地区样品分为3类 指标含义及原始数据如下 试建立判别函数 并判定另外4个待判地区属于哪类 本例SPSS数据文件 4 6 sav 43 表4 1各地区死亡概率表 44 分类变量Group取值的设置 45 开始判别分析 46 一 操作步骤1 在SPSS窗口中选择Analyze Classify Discriminate 调出判别分析主界面 将左边的变量列表中的 group 变量选入分组变量中 将X1至X6变量选入自变量中 并选择Enterindependentstogether单选按钮 即使用所有自变量进行判别分析 47 2 点击DefineRange按钮 定义分组变量的取值范围 本例中分类变量的范围为1到3 所以在最小值和最大值中分别输入1和3 单击Continue按钮 返回主界面 48 3 单击Statistics 按钮 指定输出的描述统计量和判别函数系数 选中FunctionCoefficients栏中的Fisher s和Unstandardized 然后 单击Continue按钮 返回主界面 49 这两个选项的含义如下 Fisher s 给出Bayes判别函数的系数 注意 这个选项不是要给出Fisher判别函数的系数 这个复选框的名字之所以为Fisher s 是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的 这里极易混淆 请同学注意 Unstandardized 给出未标准化的Fisher判别函数 即典型判别函数 也即我们前面讲过的 中心化的Fisher判别函数 的系数 SPSS默认给出标准化的Fisher判别函数系数 50 设置均值 协差阵检验 Box xM是对各总体协差阵是否相等进行齐性检验Means可给出各总体均值是否相等的Wilks统计量 Within groupscorrelation给出各自变量之间的相关系数矩阵最后点击 Continue 回到上一级菜单 51 4 再单击Classify 按钮 定义判别分组参数和选择输出结果 选择Display栏中的Casewiseresults 输出一个判别结果表 包括每个样品的判别分数 后验概率 实际组和预测组编号等 Plots栏中选中 Combined Groups 在同一幅图中输出各组的Fisher判别函数 投影 值 再选择summarytable 将输出分类结果表 ClassificationResults 其余的均保留系统默认选项 单击Continue按钮 52 5 单击Save按钮 指定在数据文件中生成代表判别分组结果和判别得分的新变量 生成的新变量的含义分别为 Predictedgroupmembership 存放判别样品所属组别的值 Discriminantscores 存放Fisher判别得分的值 有几个典型判别函数就有几个判别得分变量 Probabilitiesofgroupmembership 存放样品属于各组的Bayes后验概率值 将对话框中的三个复选框均选中 单击Continue按钮返回 53 6 返回判别分析主界面 单击OK按钮 运行判别分析过程 Save子对话框 54 二 主要运行结果解释 各原始变量相关系数矩阵可见 第1与第3 第1与第2 第3与第4等指标间的存在一定相关 55 二 主要运行结果解释 各总体均值是否相等的检验结果可见 第1 2 6个指标在各总体间的差异并不大 56 各组均值和离差的描述性统计 确实发现三个总体在第1 2 6指标的均值比较接近 以第一个指标 0岁组死亡率 为例 57 协差阵齐性检验结果 由于样本资料矩阵的秩小于5 p 1 原因 不是非奇异矩阵 无法给出Box s检验结果 可见 第1 2 6个指标的同均值 确实对检验产生了影响 二 主要运行结果解释 58 因此 应该剔除第1 2 6个指标 重新进行分析 二 主要运行结果解释 59 各组均值和离差的描述性统计 二 主要运行结果解释 60 剔除第1 2 6个指标后重新进行分析 得到的均值检验结果为 二 主要运行结果解释 61 剔除第1 2 6个指标后重新进行分析 得到的协差阵齐性检验结果为 二 主要运行结果解释 62 可见 判别分析开始前 有必要对各个总体的均值是否相等进行假设检验 接下来 出于课堂演示的需要 我们继续使用原有全部六个指标 进行后续的判别分析 二 主要运行结果解释 63 特征值 Wilks sLambda 是对Fisher判别函数的显著性进行检验 二 主要运行结果解释 典型相关系数 CanonicalCorrelation 的平方 说明了判别函数因变量的变动 可以在多少程度上由自变量的变化所解释 也即 该平方项反映这个判别函数携带了多少原始数据的信息 该值反映了该判别函数的信息价值 当然越大越好 65 二 主要运行结果解释 1 StandardizedCanonicalDiscriminantFunctionCoefficients 给出标准化的典型判别函数系数 标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的 所以要得到标准化的典型判别得分 代入该函数的自变量必须是经过标准化的 何谓 Canonical 典型 Thismeansthatallvariableshavethesamescalesothatthecoefficientsofthediscriminantarenotaffectedbydifferentscales E g MARITAL 0or1andAGE 18 80 Interpretationoftheparameters Lookingattheabsolutevaluesoftheweightsorcoefficientsgivesanindicationofwhichindependentvariablesaremore orless importantinpredictingwhichgroupanindividualwillbelongto Thelargerthemoreimportant Canonical Thecoefficientssuggesttherelativeimportanceofthepredictorvariables Consideronlytheabsolutesizeofthecoefficients Biggermeansmoreimportant 系数的绝对值越大 说明该自变量 predictorvariables 在这个判别函数中就越重要 69 二 主要运行结果解释 2 CanonicalDiscriminantFunctionCoefficients 给出未标准化的典型判别函数系数 未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分 所以该系数使用起来比标准化的系数要方便一些 70 由此表可知 两个Fisher判别函数分别为 实际上两个函数式计算的是各观测值在各个维度上的坐标 这样就可以通过这两个函数式计算出各样品观测值的具体空间位置 二 主要运行结果解释 3 结构矩阵StructureMatrixFunction Thestructurematrixshowstheabsolutecorrelationsbetweeneachpredictorvariableandthecanonicalvariable 结构矩阵中的元素 是原始变量与典型变量 标准化的典型判别函数 的相关系数 Meaning Ifavariableisastrongpredictor itwillcorrelatestronglywiththecalculatedvalueofthediscriminatefunctionforeachcaseinthesample 该相关系数 的绝对值 越大 说明原始变量 predictor 与这个判别函数的相关性越强 74 4 FunctionsatGroupCentroids 给出组重心处的Fisher判别函数值 如下图所示 实际上为各类别重心在空间中的坐标位置 这样 只要在前面计算出各观测值的具体坐标位置后 再计算出它们分别离各重心的距离 就可以得知它们的分类了 组重心处的Fisher判别函数值 二 主要运行结果解释 75 5 ClassificationFunctionCoefficients 给出Bayes判别函数系数 二 主要运行结果解释 76 注意 在输出结果 ClassificationFunctionCoefficients 表的下方注明是 Fisher slineardiscriminantfunctions 但是经验证实为一般教课书中的贝叶斯线性判别函数 命名出现不一致的原因是按判别函数值最大的一组进行归类这种思想 是Fisher提出来的 因此SPSS用 Fisher 对 贝叶斯 方法进行了命名 并且因为贝叶斯判别函数只有在各个总体的样本的协方差阵相同时才是线性的 为什么 因此在得到该判别函数的系数时 对样本的协方差的估计必须是在总体协方差相等情况下的估计 SPSS提供了Box M组间协方差矩阵的齐性检验 二 主要运行结果解释 77 5 ClassificationFunctionCoefficients 给出Bayes判别函数系数 如上图所示 GROUP栏中的每一列表示样品判入相应列的Bayes判别函数系数 在本例中 各类的Bayes判别函数如下 第一组 第二组 第三组 二 主要运行结果解释 78 将各样品的自变量值代入上述三个Bayes判别函数 得到三个函数值 比较这三个函数值 哪个函数值比较大就可以判断该样品判入哪一类 例如 将第一个待判样品的自变量值分别代入函数 得到 F1 3793 77 F2 3528 32 F3 3882 48比较三个值 可以看出最大 据此得出第一个待判样品应该属于第三组 二 主要运行结果解释 79 6 CasewiseStatistics 给出个案观察结果 在CasewiseStatistics输出表针对每个样品给出了了大部分的判别结果 其中包括 实际类 ActualGroup 预测类 PredictedGroup Bayes判别法的后验概率 与组重心的马氏距离 SquaredMahalanobisDistancetoCentroid 以及Fisher判别法的每个典型判别函数的判别得分 DiscriminantScores 下表经过加工隐藏了其中的一些项目 从表中可以看出四个待判样本依次被判别为第三组 第一组 第二组和第三组 二 主要运行结果解释 80 表4 4个案观察结果表 二 主要运行结果解释 81 原始输出结果 二 主要运行结果解释 7 有效性的验证 83 8 由于我们在Save子对话框中选择了生成表示判别结果的新变量 所以在数据编辑窗口中 可以观察到产生的新变量 其中 变量dis 1存放判别样品所属组别的值 变量dis1 1和dis2 1分别代表将样品各变量值代入第一个和第二个非标准化Fisher判别函数所得的判别分数 变量dis1 2 dis2 2和dis3 2分别代表样品分别属于第1组 第2组和第3组的Bayes后验概率值 二 主要运行结果解释 84 二 主要运行结果解释 85 86 再多说一句 SPSS操作中的辅助检验 无论是哪种判别分析方法 都需要对各个总体均值是否相等进行检验 如果无法拒绝 均值相等 的原假设 就应该将相关样本合并 再进行后续的判别Fisher判别 无需对总体协差阵进行齐性检验 贝叶斯判别 正常情况下我们需要得到线性判别函数 此时 需要对总体协差阵进行齐性检验Fisher判别无需对总体的分布特征进行检验 贝叶斯判别理论上需要对总体的正态性进行检验 不过 在实际操作中要求并不严格 87 有时 一些变量对于判别并没有用处 为了得到对判别最合适的变量 可以使用逐步判别 即 先用少数变量进行判别 然后一边判别 一边引进判别能力最强的变量 又要逐步淘汰判别能力不强的变量 这个过程可以有进有出 判别一个变量判别能力的方法有很多种 主要利用各种检验 例如Wilks Lambda Rao sV 马氏距离 SmallestFratio或thesumofUnexplainedVariation等检验筛选好变量后 接下来的判别方法与前面相同 三 逐步判别分析功能 88 三 逐步判别分析功能 调入判别分析主菜单 方法同前 然后选择 Usestepwisemethod 89 再点击 Method 选择筛选变量的检验方法 选择默认方法Wilks Lambda检验 三 逐步判别分析功能 90 最终只保留了一个变量 三 逐步判别分析功能 91 非中心化的Fisher判别函数及组重心 三 逐步判别分析功能 92 贝叶斯判别函数 三 逐步判别分析功能 四 训练样本的选取 现在我们希望只选取前13个样本作为 训练样本 生成判别函数 而保留最后两个样本仅作为测试样本 在Variableview窗口中生成虚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论