spss判别分析.ppt_第1页
spss判别分析.ppt_第2页
spss判别分析.ppt_第3页
spss判别分析.ppt_第4页
spss判别分析.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十三讲判别分析 第一部分上一讲回顾第二部分判别分析概念第三部分判别分析的SPSS过程 1 1 聚类分析的概念2 距离概念3 聚类分析SPSS过程4 冰挂图和树形图 第一部分上一讲回顾 2 1 聚类分析概念 聚类分析是根据事物本身的特性研究个体分类的方法 原则是同一类中的个体有较大的相似性 不同类中的个体差异很大 根据分类对象的不同 分为样品 观测量 聚类 变量聚类两种 3 2 距离概念 样本点间距离的计算方法 4 在对变量进行分类时 度量变量之间的相似性常用相似系数 测度方法有 相似性的度量 变量相似系数的计算方法 5 类间距离的计算方法 6 第三部分聚类分析的SPSS过程 在Analyze Classify下 1 快速聚类 K MeansCluster 观测量快速聚类分析过程 2 分层聚类 HierarchicalCluster 分层聚类 进行观测量聚类和变量聚类的过程 7 快速聚类过程 QuickCluster 使用k均值分类法对观测量进行聚类 可使用系统的默认选项或自己设置选项 如分为几类 指定初始类中心 是否将聚类结果或中间数据数据存入数据文件等 Analyze Classify K MeansCluster 8 分层聚类 HierarchicalCluster 过程 分层聚类又称系统聚类 是指事先不确定要分多少类 而是先把每一个对象作为一类 然后一层一层进行分类分层聚类方法 分解法 先视为一大类 再分成几类凝聚法 先视每个为一类 再合并为几大类 9 冰挂图 如何观察冰挂图 从最后一行开始 当聚成4类时 3 4个案聚成一类 其他个案自成一类 当聚成3类时 3 4个案 1 2个案聚成一类 个案五自成一类 当聚成2类时 1 2个案聚成一类 其余个案聚成一类 10 树形图 树形图以水平放置的树形结构呈现了聚类分析中每一次类合并的情况 SPSS自动将各类间的距离映射到0 25之间 如何看 那个更直观 11 小结 除分层聚类法和K 均值聚类法外 1996年还提出一种新的聚类方法 即两步聚类法 TwoStepCluster 无论那种分类方法 最终要分成多少类别 并不是完全由方法本身来决定 研究者应结合具体问题而定 聚类分析是一种探索性的数据分析方法 相同的数据采用不同的分类方法 也会的得到不同的分类结果 分类的结果没有对错之分 只是分类标准不同而已 12 使用聚类方法时 首先要明确分类的目的 再考虑选择哪些变量 或数据 参与分类 最后才需要考虑方法的选择 至于分类结果是否合理 该如何解释 更多取决于研究者对所研究问题的了解程度 相关的背景知识和经验 13 从数据要求上看 1 参与分类的变量首先应符合要求2 各变量的取值不应有数量级上的过大差异 否则会对分类结果产生较大影响 这时需要对变量进行标准化处理 SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理 而K 均值聚类法则需要单独做标准化处理 而后再进行聚类 3 各变量间不应有较强的相关关系 若两个强相关的变量同时参与聚类分析 在测度距离时 就加大了它们的贡献 而其他变量则相对被削弱 14 从聚类方法的选择上 1 看数据的类型 如果参与分类的变量是连续变量 层次聚类法 K 均值聚类法 以及两步聚类法都是适用的 如果变量中包括离散变量 计数变量 则需要将先对离散变量进行连续化处理 当数据量较少时 比如小于100 两种方法都可以选用 当数据量较多时 比如大于1000 则应该考虑选用K 均值聚类法2 要看分类的对象 如果是对样本分类 两种方法都可用 如果是对变量分类则应选择层次聚类法 至少SPSS的程序是这样 15 注意对分类结果的检验 分类结果是否合理取决于它是否 有用 但分类结果是否可靠和稳定 则需要反复聚类和比较 一般来说 在所分的类别中 各类所包含的对象 样本或变量 的数量应该大致相当 至少这从表面上看更漂亮一些 16 问题 1 什么时候用快速聚类 2 什么时候用分层聚类 17 第二部分判别分析概念 有一些昆虫的性别很难看出 只有通过解剖才能够判别 但是雄性和雌性昆虫在若干体表度量上有些综合的差异 于是统计学家就根据已知雌雄的昆虫体表度量 这些用作度量的变量亦称为预测变量 得到一个标准 并且利用这个标准来判别其他未知性别的昆虫 这样的判别虽然不能保证百分之百准确 但至少大部分判别都是对的 而且用不着杀死昆虫来进行判别了 18 判别分析 discriminantanalysis 这就是本次课要讲的是判别分析 判别分析和前面的聚类分析有什么不同呢 主要不同点就是 在聚类分析中一般人们事先并不知道或一定要明确应该分成几类 完全根据数据来确定 而在判别分析中 至少有一个已经明确知道类别的 训练样本 利用这个数据 就可以建立判别准则 并通过预测变量来为未知类别的观测值进行判别了 19 判别的思想 判别分析 根据一批分类明确的样本在若干指标上的观察值 建立一个关于指标的判别函数和判别准则 然后根据这个判别函数和判别准则对新的样本进行分类 并且根据回代判别的准确率评估它的实用性 20 判别函数 discriminantfunction 指的是一个关于指标变量的函数 每一个样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值 判别准则 discriminantrule 对样本的判别函数值进行分类的法则 21 判别分析的内容 建立判别准则 建立判别函数 其原则是 将所有样本按其判别函数值的大小和事先规定的判别原则分到不同的组里后 能使得分组结果与原样本归属最吻合 回代样本 即计算出每一个样本的判别函数值 并根据判别准则将样本归类 估计回代的错误率 即比较新的分组结果和原分组结果的差别 并以此确定判别函数的效能 判别新的样本 如果判别函数效能较高 可用以对新样本进行归类判别 22 1 建立判别函数 假定在两类总体A和B中各选取m和n个个案 每一个个案所对应的变量值都是k个 从而得到两个分布 23 A总体中的第i个个案的第j个变量为 B总体中的第i个个案的第j个变量为 需要建立一个线性判别函数 D Ck 1 C1X1 C2X2 CkXk使等式右边的各个系数Ci确定后 对于来自A总体个案的函数值都大于零 B总体的个案的函数值都小于零 从而将一个个案代入判别函数D就可以根据其值确定其所属的类别 24 具体方法为待定系数法 将A B两个总体的全部个案观测值代入方程 并求其平均值和离差平方和 求F值 当F取极大值的时候 将表示有组间差异最大 组内差异最小 因此可以通过令F的一阶偏导数等于零 得到k个关于Ci的线性方程组 方程组的解就是判别函数的各个系数 对于任意个案代入函数中 当D的数值大于0 则该个案隶属于A总体 当D的数值小于0 则该个案隶属于B总体 如果D等于0 则待判 25 2020 2 7 26 2 判别方法 SPSS系统提供的判别方法有马氏距离判别法 贝叶斯概率判别法以及费氏多类判别模型法 马氏 Mahalamobis 距离判别法马氏距离判别法的思想就是建立马氏距离 当被判断个案距离哪个总体中的马氏距离最小 该个案就隶属于这个总体 假定有A B两个总体 则 X A若d x A d x B 待判若d x A d x B 27 贝叶斯 Bayes 概率判别法 贝叶斯概率判别法是根据被判断个案应当归属于出现概率最大的总体或者归属于错判概率最小的总体的原则进行判别的 出现概率最大的总体指在全部N个个案中 属于各个不同总体的个案数分别为 n1 n2 n3 则各自的概率可以简单计算为 28 P Gi 为先验概率 被判断的个案属于先验概率最大总体的概率应当高一些 先验概率反映了样本分布的总体趋向特性 当不能确定一个个案属于若干个总体中的哪一个时 归属大概率总体的概率显然会比归属小概率总体的概率高 另外 考虑到某些个案的特殊性 还应当具体分析各个个案的趋向特性 因为个案趋向于各个总体的概率可能不同 29 例如 对儿童某行为应隶属于心理发展问题的概率远远超过隶属于生理发育问题的概率 即使样本数量很大时也基本如此 则将该行为判断为心理问题的正确性就大 当假定某个案归属某一个总体i时 由其判别函数得到的可能概率为P D Gi 则该个案被判定属于总体i时的概率为 P Gi D 也称为后验概率 其对于不同总体的概率将决定判别的结果 30 费氏 Fisher 多类判别模型法 费氏多类判别模型法的实质为一种通过坐标变换的方式将个案类别进行划分的方法 当个案数据点的分布在原有的变量空间无法通过变量的取值来区分时 坐标变换将数据点投影到另一个坐标系 在新的坐标系中个案的不同水平差异显著 用一元方差分析的检验手段就可以将不同种类区分开来了 即按照类间离差平方和最大同类内离差平方和最小的原则 使二者之比取最大来确定判别函数的系数 31 第三部分判别分析的SPSS过程 在Analyze Classify下 判别分析 Discriminant 判别分析过程 使用判别分析的选择项 统计量选项 Statistics选项判别分类选项 Classify选项判别方法选择项 Method选项输出数据选择项 Save选项 32 实例 为研究舒张期血压和血浆胆固醇对冠心病的作用 某医师测定了50 59岁冠心病人15例和正常人16例的舒张压和胆固醇指标 结果如下所示 试做判别分析 建立判别分析 建立判别函数一边在临床中用于筛选惯性病人 33 步骤一 录入数据 打开分析菜单 选择Analyze Classify Discriminant 判别分析 34 步骤二 选择组别变量 35 步骤三 选择变量 1 当认为所有自变量都能对观测量特性提供丰富的信息时 使用该选项 不加选择地使用是所有自变量进行判别分析 2 逐步分析方法 选择该选项 Method 将被激活 36 Statistics选项 1 均值2 单变量方差分析3 对个类的协方差矩阵相等的假设进行检验 判别函数系数1 可以直接用于对新样本进行判别分类的费氏系数 并给出一组系数 确定组中判别分数最大的观测量 2 未经标准化处理的判别系数 矩阵选项1 类内相关矩阵2 合并类内协方差矩阵3 协方差矩阵4 总样本的协方差矩阵 37 判别分类选项 选择先验概率1 各类先验概率相等 2 各类的先验概率与其样本量成正比 选择生成到输出窗口的分类结果1 输出每个观测量 2 输出分类的综述表 3 输出对每个观测量进行分析的结果 协方差矩阵1 指定使用合并组内协方差矩阵进行分类 2 指定使用各组协方差矩阵进行分类 输出统计图形1 生成一张包括各类的散点图 该散点图是根据前两个判别函数值做得散点图 2 根据前两个判别函数值对每一类生成一张散点图 分几类生成几张 3 生成用于根据函数值把观测量分到各组中去的边界图 38 SAVE选项 1 建立一个新变量预测观测量的分类 根据判别分数把观测量按后验概率最大指派所属的类 2 要求建立表明判别分数的新变量 该分数是未标准化的判别系数乘自变量的值 3 要求建立新变量表明观测量属于某一类的概率 39 Method选项 Wilks 方法不可解释方差法马氏距离法最小F值法RaoV统计量法 准则 1 F值法2 F检验概率作为准则 要求逐步选择变量的过程中每一步之后显示每个变量的统计量 要求显示两两类之间的两两F值矩阵 40 结果分析 分析个案综合统计量 41 分组统计量 42 典型判别函数的特征值表 特征值为组间平方和与组内平方和之比 计算得到比值为1 239 典型相关系数为0 744 43 Wilks 检验结果 典型判别分析的Wilks 检验结果 其中Wilks 的值为0 447 卡方检验统计量的观测值为22 571 概率p值小于0 05 44 标准化典型判别函数系数 下表给出典型判别函数的系数 其标准化函数为 ZFunc 0 884X1 0 823X2 45 典型判别函数系数 下表所示的典型性判别函数的系数 其典型函数为 ZFunc 10 753 0 638X1 0 8X2 46 分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论