




已阅读5页,还剩127页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS 16实用教程 第8章 聚类分析与判别分析 聚类分析与判别分析的基本概念 8.1 层次聚类分析中的Q型聚类 8.2 层次聚类分析中的R型聚类 8.3 快速聚类分析 8.4 判 别 分 析 8.5 本章介绍统计学中经常使用的分类统计分 析方法聚类分析与判别分析。主要内容有 层次聚类分析、快速聚类分析和判别分析。其 中层次聚类分析根据聚类的对象不同分成Q型 聚类和R型聚类。 8.1 8.1 聚类分析与判别分析的基本概念聚类分析与判别分析的基本概念 统计学研究这类问题的常用分类统计方法 主要有聚类分析(cluster analysis)与判别 分析(discriminant analysis)。其中聚类 分析是统计学中研究这种“物以类聚”问题的 一种有效方法,它属于统计分析的范畴。聚类 分析的实质是建立一种分类方法,它能够将一 批样本数据按照他们在性质上的亲密程度在没 有先验知识的情况下自动进行分类。这里所说 的类就是一个具有相似性的个体的集合,不同 类之间具有明显的区别。 聚类分析是一种探索性的分析,在分类的 过程中,人们不必事先给出一个分类的标准, 聚类分析能够从样本数据出发,自动进行分类 。聚类分析所使用方法的不同,常常会得到不 同的结论。不同研究者对于同一组数据进行聚 类分析,所得到的聚类数未必一致。因此我们 说聚类分析是一种探索性的分析方法。 对个案的聚类分析类似于判别分析,都是 将一些观察个案进行分类。聚类分析时,个案 所属的群组特点还未知。也就是说,在聚类分 析之前,研究者还不知道独立观察组可以分成 多少个类,类的特点也无所得知。 变量的聚类分析类似于因素分析。两者都 可用于辨别变量的相关组别。不同在于,因素 分析在合并变量的时候,是同时考虑所有变量 之间的关系;而变量的聚类分析,则采用层次 式的判别方式,根据个别变量之间的亲疏程度 逐次进行聚类。 聚类分析的方法,主要有两种,一种是“ 快速聚类分析方法”(KMeans Cluster Analy- sis),另一种是“层次聚类分析方法 ”(Hierarchical Cluster Analysis)。如 果观察值的个数多或文件非常庞大(通常观察 值在200个以上),则宜采用快速聚类分析方 法。因为观察值数目巨大,层次聚类分析的两 种判别图形会过于分散,不易解释。 判别分析是一种有效的对个案进行分类分 析的方法。和聚类分析不同的是,判别分析时 ,组别的特征已知。如银行为了对贷款进行管 理,需要预测哪些类型的客户可能不会按时归 还贷款。已知过去几年中,900个客户的贷款 归还信誉度,据此可以将客户分成两组:可靠 客户和不可靠客户。 再通过收集客户的一些资料,如年龄、工 资收入、教育程度、存款等,将这些资料作为 自变量。通过判别分析,建立判别函数。那么 ,如果有150个新的客户提交贷款请求,就可 以利用创建好的判别函数,对新的客户进行分 析,从而判断新的客户是属于可靠客户类,还 是不可靠客户类。 8.2 8.2 层次聚类分析中的层次聚类分析中的QQ型聚类型聚类 层次聚类分析是根据观察值或变量之间的 亲疏程度,将最相似的对象结合在一起,以逐 次聚合的方式(Agglomerative Clustering) ,它将观察值分类,直到最后所有样本都聚成 一类。 层次聚类分析有两种形式,一种是对样 本(个案)进行分类,称为Q型聚类,它使具 有共同特点的样本聚齐在一起,以便对不同类 的样本进行分析;另一种是对研究对象的观察 变量进行分类,称为R型聚类。它使具有共同 特征的变量聚在一起,以便从不同类中分别选 出具有代表性的变量作分析,从而减少分析变 量的个数。 本节讲述Q型聚类的原理和SPSS的实现过 程,下一节将讲述R型聚类的实现过程。 定义:层次聚类分析中的Q型聚类,它使 具有共同特点的样本聚齐在一起,以便对不同 类的样本进行分析。 8.2.1 统计学上的定义和计算公式 层次聚类分析中,测量样本之间的亲疏程 度是关键。聚类的时候会涉及到两种类型亲疏 程度的计算:一种是样本数据之间的亲疏程度 ,一种是样本数据与小类、小类与小类之间的 亲疏程度。下面讲述这两种类型亲疏程度的计 算方法和公式。 计算公式如下。 样本数据之间的亲疏程度主要通过样本之 间的距离、样本间的相关系数来度量。SPSS根 据变量数据类型的不同,采用不同的测定亲疏 程度的方法。 样本若有k个变量,则可以将样本看成是 一个k维的空间的一个点,样本和样本之间的 距离就是k维空间点和点之间的距离,这反映 了样本之间的亲疏程度。聚类时,距离相近的 样本属于一个类,距离远的样本属于不同类。 1连续变量的样本距离测量方法 (1)欧氏距离(Euclidean Distance) 两个样本之间的欧氏距离是样本各个变量值之 差的平方和的平方根,计算公式为 (2)欧氏距离平方(Squared Euclidean Distance) 两个样本之间的欧氏距离平方是各样本每 个变量值之差的平方和,计算公式为 (3)Chebychev距离 两个样本之间的Chebychev距离是各样本 所有变量值之差绝对值中的最大值,计算公式 为 (4)Block距离 两个样本之间的Block距离是各样本所有 变量值之差绝对值的总和,计算公式为 (5)Minkowski距离 两个样本之间的Minkowski距离是各样本 所有变量值之差绝对值的p次方的总和,再求p 次方根。计算公式为 (6)Customized距离(用户自定义距离) 两个样本之间的Customized距离是各样本 所有变量值之差绝对值的p次方的总和,再求q 次方根。计算公式为 连续变量亲疏程度的度量,除了上面的各 种距离外,还可以计算其他统计指标。如 Pearson相关系数、Sosine相似度等。 2连续变量的样本亲疏程度的其他测量方法 3顺序或名义变量的样本亲疏程度测量 方法 对于此类变量,可以计算一些有关相似性 的统计指标来测定样本间的亲疏程度。也可以 通过下面两个计算公式来得到。 4样本数据与小类、小类与小类之间的 亲疏程度测量方法 SPSS默认的变量为Var00001、Var00002等 ,用户也可以根据自己的需要来命名变量。 SPSS变量的命名和一般的编程语言一样,有一 定的命名规则,具体内容如下。 所谓小类,是在聚类过程中根据样本之间 亲疏程度形成的中间类,小类和样本、小类与 小类继续聚合,最终将所有样本都包括在一个 大类中。 在SPSS聚类运算过程中,需要计算样本与 小类、小类与小类之间的亲疏程度。SPSS提供 了多种计算方法(计算规则)。 (1)最短距离法(Nearest Neighbor) 以当前某个样本与已经形成小类中的各样 本距离的最小值作为当前样本与该小类之间的 距离。 (2)最长距离法(Furthest Neighbor) 以当前某个样本与已经形成小类中的各样 本距离的最大值作为当前样本与该小类之间的 距离。 (3)类间平均链锁法(Between-groups Linkage) 两个小类之间的距离为两个小类内所有样 本间的平均距离。 (4)类内平均链锁法(Within-groups Linkage) 与小类间平均链锁法类似,这里的平均距 离是对所有样本对的距离求平均值,包括小类 之间的样本对、小类内的样本对。 (5)重心法(Centroid Clustering) 将两小类间的距离定义成两小类重心间的 距离。每一小类的重心就是该类中所有样本在 各个变量上的均值代表点。 (6)离差平方和法(Wards Method) 小类合并的方法:在聚类过程中,使小类 内各个样本的欧氏距离总平方和增加最小的两 小类合并成一类。 研究问题 对一个班同学的数学水平进行聚类。聚类 的依据是第一次数学考试的成绩和入学考试的 成绩。数据如表8-1所示。 8.2.2 SPSS中实现过程 表表8-18-1学生的数学成学生的数学成绩绩绩绩 姓 名数 学入 学 成 绩 hxh99.0098.00 yaju88.0089.00 yu79.0080.00 shizg89.0078.00 hah75.0078.00 john60.0065.00 watet79.0087.00 jess75.0076.00 wish60.0056.00 Iiakii100.00100.00 实现步骤 图图图图8-1 8-1 在菜在菜单单单单中中选择选择选择选择 “ “Hierarchical Cluster”Hierarchical Cluster”命令命令 图图图图8-2 “Hierarchical Cluster Analysis”8-2 “Hierarchical Cluster Analysis”对话对话对话对话 框(一)框(一) 图图图图8-3 “Hierarchical Cluster Analysis8-3 “Hierarchical Cluster Analysis:Method”Method”对话对话对话对话 框(一)框(一) 图图图图8-4 “Hierarchical Cluster Analysis8-4 “Hierarchical Cluster Analysis:Plots” Plots” 对话对话对话对话 框(一)框(一) 图图图图8-5 “Hierarchical Cluster Analysis8-5 “Hierarchical Cluster Analysis:Statistics”Statistics”对话对话对话对话 框(一)框(一) 图图图图8-6 “Hierarchical Cluster Analysis8-6 “Hierarchical Cluster Analysis:Save New Save New VarVar” ”对话对话对话对话 框框 由于本例中选中的选项较多,这里按照各 个结果分别解释。 (1)首先是层次聚类分析的概要结果, 该结果是SPSS输出结果文件中的第一个表格, 如下表所示。 8.2.3 结果和讨论 (2)输出的结果文件中第二个表格如下表 所示。 (3)输出的结果文件中第三个表格为层 次聚类分析的凝聚状态表,包括: (4)输出的结果文件中第四个表格如下 表所示。 (5)输出的结果文件中第五个表格如下 表所示。 (6)输出的结果文件中第六部分如图8-7 所示。 (7)由于对图8-6“Hierarchical Cluster Analysis: Save New Var”对话框进 行了设置,将聚类成三类时,各个样本的类归 属情况保存为一个变量,因此在SPSS数据编辑 窗口中就新增了一个变量的值,如图8-8所示 。 图图图图8-8 8-8 层层层层次聚次聚类类类类分析分析结结结结果保存果保存 8.3 8.3 层次聚类分析中的层次聚类分析中的R R型聚类型聚类 8.3.1 统计学上的定义和计算公式 定义:层次聚类分析中的R型聚类是对研 究对象的观察变量进行分类,它使具有共同特 征的变量聚在一起。以便可以从不同类中分别 选出具有代表性的变量作分析,从而减少分析 变量的个数。 计算公式:R型聚类的计算公式和Q型聚类 的计算公式是类似的,不同的是R型聚类是对 变量间进行距离的计算,Q型聚类则是对样本 间进行距离的计算。 研究问题 对一个班同学的各科成绩进行聚类,分析 哪些课程是属于一个类的。聚类的依据是4门 功课的考试成绩,数据如表8-2所示。 8.3.2 SPSS中实现过程 表表8-28-2学生的四学生的四门课门课门课门课 程的成程的成绩绩绩绩 姓 名数 学物 理语 文政 治 hxh99.0098.0078.0080.00 yaju88.0089.0089.0090.00 yu79.0080.0095.0097.00 shizg89.0078.0081.0082.00 hah75.0078.0095.0096.00 john60.0065.0085.0088.00 watet79.0087.0050.0051.00 jess75.0076.0088.0089.00 wish60.0056.0089.0090.00 Iiakii100.00100.0085.0084.00 实现步骤 图图图图8-9 8-9 在菜在菜单单单单中中选择选择选择选择 “ “Hierarchical Cluster”Hierarchical Cluster”命令命令 图图图图8-10 “Hierarchical Cluster Analysis”8-10 “Hierarchical Cluster Analysis”对话对话对话对话 框(二)框(二) 图图图图8-11 “Hierarchical Cluster Analysis8-11 “Hierarchical Cluster Analysis:Method”Method”对话对话对话对话 框(二)框(二) 图图图图8-12 “Hierarchical Cluster Analysis8-12 “Hierarchical Cluster Analysis:Plots”Plots”对话对话对话对话 框(二)框(二) 图图图图8-13 “Hierarchical Cluster Analysis8-13 “Hierarchical Cluster Analysis:Statistics”Statistics”对话对话对话对话 框(二)框(二) (1)首先是层次R型聚类分析的结果,该 结果是SPSS输出结果文件中的第一个表格。 8.3.3 结果和讨论 (2)输出的结果文件中第二个表格如下 表所示。 (3)输出的结果文件中第三个表格如下 表所示。 (4)输出的结果文件中第四个表格如下 表所示。 (5)输出的结果文件中第五个表格如下 表所示。 (6)输出的结果文件中第六部分如下: 8.4 8.4 快速聚类分析快速聚类分析 SPSS层次聚类分析对计算机的要求比较高 ,在大样本的情况下,可以采用快速聚类分析 的方法。采用快速聚类分析,得到的结果比较 简单易懂,对计算机的性能要求也不高,因此 应用也比较广。 定义:快速聚类分析是由用户指定类别数 的大样本资料的逐步聚类分析。它先对数据进 行初始分类,然后逐步调整,得到最终分类。 快速聚类分析的实质是K-Mean聚类。 8.4.1 统计学上的定义和计算公式 和层次聚类分析一致,快速聚类分析也 以距离为样本间亲疏程度的标志。但两者的不 同在于:层次聚类可以对不同的聚类类数产生 一系列的聚类解,而快速聚类只能产生固定类 数的聚类解,类数需要用户事先指定。 另外,在快速聚类分析中,用户可以自己 指定初始的类中心点。如果用户的经验比较丰 富,则可以指定比较合理的初始类中心点,否 则,需要增加迭代的次数,以保证最终聚类结 果的准确性。 计算公式如下。 快速聚类分析计算过程如下。 首先需要用户指定聚类成多少类(比 如k类)。 然后SPSS确定k个类的初始类中心点。 SPSS会根据样本数据的实际情况,选择k个由 代表性的样本数据作为初始类中心。初始类中 心也可以由用户自行指定,需要指定K组样本 数据作为初始类中心点。 计算所有样本数据点到k个类中心点的 欧氏距离,SPSS按照距k个类中心点距离最短 原则,把所有样本分派到各中心点所在的类中 ,形成一个新的k类,完成一次迭代过程。其 中欧氏距离(Euclidean Distance)的计算公 式为 SPSS重新确定k个类的中心点。SPSS计 算每个类中各个变量的变量值均值,并以均值 点作为新的类中心点。 重复上面的两步计算过程,直到达到 指定的迭代次数或终止迭代的判断要求为止。 研究问题 为研究不同公司的运营特点,调查了15个 公司的组织文化、组织氛围、领导角色和员工 发展4方面的内容。现要将这15个公司按照其 各自的特点分成4种类型,数据如表8-3所示。 8.4.2 SPSS中实现过程 表表8-38-3不同公司的特点不同公司的特点 公 司组 织 文 化组 织 氛 围领 导 角 色员 工 发 展 Microsof80.0085.0075.0090.00 IBM 85.0085.0090.0090.00 Dell 85.0085.0085.0060.00 Apple 90.0090.0075.0090.00 联想 99.0098.0078.0080.00 NPP 88.0089.0089.0090.00 北京电子79.0080.0095.0097.00 清华紫光89.0078.0081.0082.00 北大方正75.0078.0095.0096.00 TCL 60.0065.0085.0088.00 娃哈哈 79.0087.0050.0051.00 Angel 75.0076.0088.0089.00 Hussar 60.0056.0089.0090.00 世纪飞扬100.00100.0085.0084.00 Vinda 61.0064.0089.0060.00 实现步骤 图图图图8-15 8-15 在菜在菜单单单单中中选择选择选择选择 “ “K-Means Cluster”K-Means Cluster”命令命令 图图图图8-16 “K-Means Cluster Analysis”8-16 “K-Means Cluster Analysis”对话对话对话对话 框框 图图图图8-17 “K-Means Cluster Analysis8-17 “K-Means Cluster Analysis:Options”Options”对话对话对话对话 框框 图图图图8-18 “K-Means Cluster Analysis8-18 “K-Means Cluster Analysis:Iterate”Iterate”对话对话对话对话 框框 图图图图8-19 “K-Means Cluster :Save New Variable”8-19 “K-Means Cluster :Save New Variable”对话对话对话对话 框框 图图图图8-20 8-20 指定初始指定初始类类类类中心点中心点 本例中选中的选项较多,这里按照各个结 果分别解释。 (1)SPSS输出结果文件中的第一部分如 下表所示。 8.4.3 结果和讨论 (2)输出的结果文件中第二部分如下表 所示。 (3)输出的结果文件中第三部分是快速 聚类分析后的各个类包含样本的情况。 (4)输出的结果文件中第四部分如下表 所示。 (5)输出的结果文件中第五个部分如下 表所示。 (6)输出的结果文件中第六个部分如下 表所示。 (7)输出结果的最后一个表格列出了4个 类中分别包括的样本数,如下表所示。 (8)在步骤5中曾指定了将样本所属类以 及样本和类中心点的距离,作为样本的2个新 变量保存到SPSS的数据编辑窗口中。SPSS运行 后,数据编辑窗口如图8-21所示,其中我们可 以看到新增加了两个变量(图中加深的两列) ,分别表示样本所属类以及样本和类中心点的 距离。 8.5 8.5 判判 别别 分分 析析 前面3节讲述了不同种聚类分析的方法, 不论是哪种方法,聚类分析都是直接比较各事 物之间的性质,将性质相近的归为一类,将性 质差别较大的归入不同的类。 本节讲述的判别分析,也是一种比较常用 的分类分析方法。判别分析先根据已知类别的 事物的性质,利用某种技术建立函数式,然后 对未知类别的新事物进行判断以将之归入已知 的类别中。 有学者在研究中提出,可以利用判别分析 来对聚类分析结果的准确性进行检验。聚类分 析分成几类后,即可以作为判别分析的类别输 入,进行判断。 定义:判别分析先根据已知类别的事物的 性质(自变量),建立函数式(自变量的线性 组合,即判别函数),然后对未知类别的新事 物进行判断以将之归入已知的类别中。 8.5.1 统计学上的定义和计算公式 判别分析有如下的假定: 预测变量服从正态分布。 预测变量之间没有显著的相关。 预测变量的平均值和方差不相关。 预测变量应是连续变量,因变量(类 别或组别)是间断变量。 两个预测变量之间的相关性在不同类 中是一样的。 在分析的各个阶段应把握如下的原则: 事前组别(类)的分类标准(作为判 别分析的因变量)要尽可能准确和可靠,否则 会影响判别函数的准确性,从而影响判别分析 的效果。 所分析的自变量应是因变量的重要影 响因素,应该挑选既有重要特性又有区别能力 的变量,达到以最少变量而有高辨别能力的目 标。 初始分析的数目不能太少。 这些判别函数是各个独立预测变量的线性 组合。程序自动选择第一个判别函数,以尽可 能多地区别各个类,然后再选择和第一个判别 函数独立的第二个判别函数,尽可能多地提供 判别能力。程序将按照这种方式,提供剩下的 判别函数。判别函数的个数为k。 图图图图8-22 8-22 判判别别别别分析的示意分析的示意图图图图 研究问题 调查了15个公司的组织文化、领导角色和 员工发展3个方面内容作为预测变量,因变量 为公司对员工的吸引力。为符合研究问题,将 公司对员工的吸引力根据被测的实际填答情形 ,划分为高吸引力组(group=1)、中吸引力 组(group=2)和低吸引力组(group=3)。数 据如表8-4所示。 8.5.2 SPSS中实现过程 表表8-48-4不同不同类类类类的不同公司特点的不同公司特点 公 司组 织 文 化领 导 角 色员 工 发 展Group Microsoft80.0075.0090.001 IBM85.0090.0090.001 Dell85.0085.0060.001 Apple90.0075.0090.001 联想99.0078.0080.001 NPP88.0089.0090.002 北京电子79.0095.0097.003 清华紫光89.0081.0082.001 北大方正75.0095.0096.001 TCLE60.0085.0088.003 世纪成79.0050.0051.002 Angel75.0088.0089.001 Hussar160.0089.0090.003 世纪飞扬100.0085.0084.003 Vinda61.0089.0060.003 实现步骤 图图图图8-23 8-23 在菜在菜单单单单中中选择选择选择选择 “ “DiscriminantDiscriminant” ”命令命令 图图图图8-24 “8-24 “DiscriminantDiscriminant Analysis” Analysis”对话对话对话对话 框框 图图图图8-25 “8-25 “DiscriminantDiscriminant Analysis Analysis:Define”Define”对话对话对话对话 框框 图图图图8-26 “8-26 “DiscriminantDiscriminant Analysis Analysis:Stepwise Method”Stepwise Method”对话对话对话对话 框框 图图图图8-27 “8-27 “DiscriminantDiscriminant Analysis Analysis:Statistics”Statistics”对话对话对话对话 框框 图图图图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年新教材高中历史 第九单元 当代世界发展的特点与主要趋势 第23课 和平发展合作共赢的时代潮流(1)说课稿 新人教版必修《中外历史纲要(下)》
- 3.2 代数式的值说课稿-2025-2026学年初中数学华东师大版2012七年级上册-华东师大版2012
- 奇怪的花瓶黏土课件
- 福建成人高考考试题库及答案
- 民政局定制离婚协议书样本及权益保障指南
- 钢结构工程安全施工合同
- 消防安全检测与维保及消防系统改造升级合同
- 企业员工创新项目启动资金借款合同模板
- 担保人责任明确的带担保贷款合同
- 高新技术研发项目合同招标主管任职要求及职责
- 高中数学正弦函数图像课件新人教版必修
- 2025届高考数学一轮复习建议-函数与导数专题讲座课件
- 《中华民族一家亲-同心共筑中国梦》队会课件
- 资产负债管理与精算风险控制
- GB/T 18029.1-2024轮椅车第1部分:静态稳定性的测定
- 膜结构车棚施工施工方案
- 骨科医疗行业市场前景及投资研究报告:全面集采骨科高值耗材
- FZT 34002-2016 亚麻印染布行业标准
- 晚期卵巢癌肿瘤细胞减灭术手术技巧讲义
- 支气管扩张症的自我管理策略
- 金融学信用与信用体系
评论
0/150
提交评论