SPSS聚类和判别分析PPT课件.ppt_第1页
SPSS聚类和判别分析PPT课件.ppt_第2页
SPSS聚类和判别分析PPT课件.ppt_第3页
SPSS聚类和判别分析PPT课件.ppt_第4页
SPSS聚类和判别分析PPT课件.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第十章 聚类和判别分析 2 主要内容 10 0聚类与判别分析概述10 1两步聚类10 2快速聚类10 3分层聚类10 4判别分析 3 10 0聚类与判别分析概述 1 聚类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量 以这些统计量为划分类型的依据 把一些相似程度较大的样本 或指标 聚合为一类 把另外一些彼此之间相似程度较大的样本又聚合为一类 2 判别分析判别分析是判别样本所属类型的一种统计方法 3 二者区别不同之处在于 判别分析是在已知研究对象分为若干类型 或组别 并已取得各种类型的一批已知样本的观测量数据的基础上 根据某些准则建立判别式 然后对未知类型的样本进行差别分析 4 主要内容 10 0聚类与判别分析概述10 1两步聚类10 2快速聚类10 3分层聚类10 4判别分析 5 10 1两步聚类 基本概念两步聚类 TwoStepCluster 是一个探索性的分析工具 为揭示自然的分类或分组而设计 是数据集内部的而不是外观上的分类 它是一种新型的分层聚类算法 HierarchicalAlgorithms 目前主要应用到数据挖掘 DataMining 和多元数据统计的交叉领域 模式分类中 该过程主要有以下几个特点 分类变量和连续变量均可以参与两步聚类分析 该过程可以自动确定分类数 可以高效率地分析大数据集 用户可以自己定制用于运算的内存容量 6 10 1两步聚类 统计原理两步法的功能非常强大 而原理又较为复杂 他在聚类过程中除了使用传统的欧氏距离外 为了处理分类变量和连续变量 它用似然距离测度 它要求模型中的变量是独立的 分类变量是多项式分布 连续变量是正态分布的 分类变量和连续变量均可以参与两步聚类分析 分析步骤第1步预聚类 对每个观测变量考察一遍 确定类中心 根据相近者为同一类的原则 计算距离并把与类中心距离最小的观测量分到相应的各类中去 这个过程称为构建一个分类的特征树 CF 第2步正式聚类 使用凝聚算法对特征树的叶节点分组 凝聚算法可用来产生一个结果范围 7 10 1两步聚类 SPSS实现举例 例10 1 1985年中国学生体质调查 各省19 22岁年龄组城市男学生身体形态指标的平均值 身高 坐高 体重 胸围 肩宽及骨盆宽的数据如下表所示 试根据身体形态指标进行样本聚类分析 8 10 1两步聚类 SPSS实现举例第1步分析 本例采用两阶段聚类分析 第2步数据组织 按如上表的表头定义变量 输入数据并保存 第3步两步聚类设置 按Analyze Classify TwoStepCluster打开TwoStepClusterAnalyze主对话框 并按如下图所示设置 9 10 1两步聚类 打开Plot和Output对话框 并作相应设置 第4步 主要结果及分析 类别分布表 左表显示了聚类的数目及各类所占的比例 10 10 1两步聚类 聚类中心表 用于输出连续变量在每个类别中的均值和标准差 11 10 1两步聚类 聚类饼图 两个类分布及所占比例的pie图 12 10 1两步聚类 聚类条形图 从左图可看出体重 身高和坐高对两分类的贡献较大 而其他变量无显著性差异 13 主要内容 10 0聚类与判别分析概述10 1两步聚类10 2快速聚类10 3分层聚类10 4判别分析 14 10 2快速聚类 基本概念快速聚类是由用户指定类别数的大样本资料的逐步聚类分析 它先对数据进行初始分类 然后逐步调整 得到最终分类数 快速聚类分析的实质是K Means聚类 分类变量和连续变量均可以参与两步聚类分析 2 统计原理如果选择了n个数值型变量参与聚类分析 最后要求聚类数为k 由系统首先选择k个观测量 也可以是用户指定 作为聚类的目标 n个变量组成n维空间 每个观测量在n维空间中是一个点 K个事先选定的观测量就是k个聚类中心 也称为初始类中心 按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去 形成第一次迭代形成的k类 15 10 2快速聚类 根据组成每一类的观测量计算每个变量的均值 每一类中的n个均值在n维空间中又形成k个点 这就是第二次迭代的类中心 按照这种方法迭代下去 直到达到指定的迭代次数或达到中止迭代的判据要求时 迭代就停止了 聚类过程也就结束了 3 分析步骤第1步指定聚类数目k 第2步确定k个初始类中心 第3步根据距离最近原则进行分类 第4步重新确定k个类中心 第5步迭代计算 16 10 2快速聚类 4 SPSS实现举例 例10 2 测量12名大学生对 高等数学 的心理状况和学习效果 主要包括四个因素 学习动机 学习态度 自我感觉 学习效果 具体数据如下表所示 试将该12名学生分成3类以分析不同心理状况下学生的学习效果 17 10 2快速聚类 第1步分析 由于已知分成3类 故可采用快速分类法 第2步数据组织 按如上表的表头所示建立变量 将 编号 变量的数据类型设为字符型 第3步快速聚类设置 主要按如下图所示设置 并打开Save对话框 将运行结果保存下来 18 10 2快速聚类 第4步主要结果及分析 初始聚类中心表 由于没有指定初始聚类中心 列出了由系统指定的聚类中心 与原数据比较 发现它们分别是第1 第6和第7号个案 迭代历史表 由表可知 第一次迭代后 3个类的中心点分别变化了10 924 12 362和16 167 第二次迭代后 3个类中心点变化均小于指定的停止准则 0 05 达到聚类结果的要求 聚类分析结束 19 10 2快速聚类 第4步主要结果及分析 最终聚类中心表 由表可知 第1类的学习动机中心为40 学习态度中心为74 自我感觉中心为62 学习效果中心为49 第2 3类的各中心类似可得出 样本数情况 从表中可看出第1 2 3类中分别含有3 4 5个样本 20 主要内容 10 0聚类与判别分析概述10 1两步聚类10 2快速聚类10 3分层聚类10 4判别分析 21 10 3分层聚类 基本概念快速聚类是由用户指定类别数的大样本资料的逐步聚类分析 它先对数据进行初始分类 然后逐步调整 得到最终分类数 快速聚类分析的实质是K Means聚类 分类变量和连续变量均可以参与两步聚类分析 2 统计原理分层聚类是根据个案或变量之间的亲疏程度 将最相似的对象结合在一起 以逐次聚合的方式把所有个案分类 逐步合并直到最后合并成一类 在层次聚类中 度量数据之间的亲疏程度是极为关键的 在衡量样本与样本之间的距离时 一般使用的距离有EulcideanDistance SquaredEuclideanDistance 切比雪夫距离 Block距离 明可斯基距离 Minkowshi 夹角余弦 Cosine 等 22 10 3分层聚类 3 分析步骤根据聚类过程的不同可分为凝聚法和分解法 所谓凝聚法是指一开始把每个个案都视为不同的类 然后通过距离的比较逐步合并直到把参与聚类的个案合并成事先规定的类别数为止 而分解法是一开始把所有的个案都视为同一个类 然后通过距离的比较逐层分解 直到把参与聚类的个案区分成事先规定的类别数为止 无论哪种方法的原则都是将相近的聚为一类 上述两种方法是方向相反的两种聚类过程 2020 2 4 23 24 10 3分层聚类 3 SPSS实现举例 例10 3 已知29例儿童的血中血红蛋白 钙 镁 铁 锰 铜的含量如下表 试对数据进行变量聚类分析 25 10 3分层聚类 第1步分析 根据题目要求 需进行变量聚类分析 第2步数据组织 如上表定义七个变量 order 编号 ca 钙 mg 镁 fe 铁 mn 锰 cu 铜 和 hemogl 血红蛋白 其中 order 为字符串型 其余变量为数值型 第3步进行按变量聚类的设置 按Analyze Classify HierarchicalCluster的顺序打开HierarchicalClusterAnalysis 分层聚类分析 主对话框 将所有变量选入Variable中 选择Cluster中的Variable 即按变量进行聚类 打开Statistics子对话框 选择Agglomerationschedule 凝聚顺序表 和ClusterMembership 凝聚成员 中的None 不显示聚类成员 26 10 3分层聚类 打开Plots子对话框 选择Dendrogram 树状图 Icicle 冰柱图 中的Allcluster 所有聚类的冰柱图 Orientation 方向 中的Vertical 垂直冰柱图 打开Method子对话框 选择ClusterMethod 聚类方法 中的Between groupslinkage 组间均联法 Measure 测度 选择Interval 等距资料 下拉菜单中的PearsonCorrelation Pearson相关系数 TransformValue 转换值 的Standardize 标准化 下拉菜单中的None 不进行标准化 第4步主要结果及分析 27 10 3分层聚类 第4步主要结果及分析 层次聚类的概要表 可以看出有29个样本进入了聚类分析 凝聚顺序表 第1步是第3个变量和第6个变量先进行聚类 变量间的相关性系数为0 863 第2步是第1个变量与第5个变量聚类 第3步是第2个变量与第1步所聚类的结果 第3 6变量聚成的类 再进行聚类 依次类推 这5个变量经过5步聚成了一个大类 28 10 3分层聚类 垂直冰柱图 该表格的第一列表示类数 冰柱图一般从表格的最后一行开始观察 最后一行中 类的数目为5类 其中血红蛋白 hemogl 和铁 fe 用X连接在一起 表示两个样本聚成一类 其余每个变量构成一类 倒数第2行中 类的数目为4 其中铜 cu 和钙 ca 又聚成一类 经过5步聚类 在第一行中就成了一个大类 29 10 3分层聚类 树型图 从中可看出先是 fe 和 hemogl 聚成一类 第2步是ca和cu聚成一类 第3步是 mg 和 fe hemogl 聚成一类 依次类推 最后聚成一个大类 这与表10 12表所示的聚类顺序表和表10 13所示的聚类冰柱图的分析结果是一致的 30 主要内容 10 0聚类与判别分析概述10 1两步聚类10 2快速聚类10 3分层聚类10 4判别分析 31 10 4判别分析 基本概念判别分析 DiscriminantAnalysis 是多元统计分析中用于判别样本所属类型的一种统计方法 它要解决的问题是在一些已知研究对象用某种方法已分成若干类的情况下 确定新的观察数据属于已知类别中的哪一类 判别分析是应用很强的一种多元统计分析方法 2 统计原理判别分析按判别组数来分 有两组判别分析和多组判别分析 按区分不同总体所用的数学模型来分 有线性差别和非线性判别 判别分析可以从不同的角度提出问题 因此有不同的判别准则 如费歇尔 Fisher 准则和贝叶斯 Bayes 准则 判别函数的一般形式是 32 10 4判别分析 分析步骤第1步计算特征值 计算需要用到的一些反映样本的特征值 比如均值 协方差矩阵等 第2步建立判别函数 判别函数的一般形式如式10 1建立判别函数就是要确定这些系数 第3步确定判别准则 如费歇尔 Fisher 准则和贝叶斯 Bayes 准则 第4步检验判别效果 验证判别函数用来进行判别时的准确度 第5步分类 根据所建立的判别函数对待判样本进行分类 33 10 4判别分析 4 SPSS实现举例 例10 4 表10 14是健康人 c 1 硬化症患者 c 2 和冠心病患者 c 3 三种人群的心电图的5个指标 x1 x5 数据 如下表所示 其中有19个样本是确定的分类 另又测出4个人的相关指标 试根据确定分类的样本对这未确定的样本进行分类 34 10 4判别分析 主设置界面图 35 10 4判别分析 方法设置 36 10 4判别分析 分类子对话框设置 保存子对话框设置 37 10 4判别分析 第4步主要结果及分析 概述表 表明共23条记录 已分好类的19条 有4条需进行分类 类内协方差和协方差矩阵 给出了这五个自变量之间的相关系数 如变量 x1 与变量 x2 之间的相关系数为0 059 38 10 4判别分析 特征值表 由于本例中预测变量为5个 类别数为3 因此判别函数的个数为2 即 min 3 1 5 2 判别函数的特征值 Eigenvalue 越大 表明该函数越具有区别力 第一个判别函数的特征值为1 386 第二为0 408 判别函数的显著性检验结果表 其中 1through2 表示两个判别函数的平均数在3个级别间的差异情况 2 表示在排除第一个判别函数后 第二个函数在3个级别间的差异情况 从最后的显著性概率Sig 来看 其两个判别函数的效果并不是十分显著 39 10 4判别分析 判别系数表 40 10 4判别分析 分类结果概述表 从表中可以看出 有23条个案被成功分类 类的先验概率表 这是根据样本中的19个已分类好的个案计算出来的 可看出第一类的概率为0 474 第二类的概率为0 316 第三类的概率为0 211 这些先验概率将在贝叶斯分类中有用 41 10 4判别分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论