




已阅读5页,还剩127页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
。第八章聚类分析和判别分析,本章介绍了统计学中常用的聚类分析和判别分析。主要内容包括层次聚类分析、快速聚类分析和判别分析。根据聚类对象的不同,层次聚类分析分为Q型聚类和R型聚类。8.1聚类分析和判别分析的基本概念。对这类问题进行统计研究常用的分类统计方法主要有聚类分析和判别分析。其中,聚类分析是研究统计学中“物以类聚”问题的有效方法,属于统计分析的范畴。聚类分析的本质是建立一种分类方法,该方法能够在不需要先验知识的情况下,根据样本数据在本质上的接近程度,自动对一批样本数据进行分类。这里提到的类是具有相似性的个体的集合,不同的类之间有明显的差异。聚类分析是一种探索性分析。在分类过程中,人们不需要事先给出分类标准。聚类分析可以从样本数据中自动分类。不同的聚类分析方法往往会得出不同的结论。不同的研究者对同一组数据进行聚类分析,得到的聚类数可能不一致。因此,我们说聚类分析是一种探索性的分析方法。个案的聚类分析类似于判别分析,它对一些观察到的案例进行分类。在进行聚类分析时,病例所属群体的特征未知。换句话说,在聚类分析之前,研究人员不知道独立观察组可以分成多少个类别,也不知道这些类别的特征。变量的聚类分析类似于因子分析。两者都可以用来识别相关的变量组。区别在于因子分析在合并变量时考虑了所有变量之间的关系。然而,变量的聚类分析采用了层次判别法,并根据个体变量之间的紧密程度进行聚类。聚类分析主要有两种方法,一种是“K均值聚类分析”,另一种是“层次聚类分析”。如果观测值的数量很大或文件很大(通常超过200个观测值),应采用快速聚类分析方法。由于大量的观测数据,层次聚类分析的两种判别模式过于分散,难以解释。判别分析是对个案进行分类的有效方法。与聚类分析不同,判别分析中群体的特征是已知的。例如,为了管理贷款,银行需要预测哪些类型的客户可能无法按时偿还贷款。众所周知,在过去的几年里,900名客户以信誉归还了他们的贷款,根据这一点,客户可以分为两类:可靠客户和不可靠客户。然后通过收集客户数据,如年龄、工资、教育、储蓄等。这些数据作为自变量。通过判别分析,建立判别函数。然后,如果150个新客户提交贷款请求,他们可以使用建立的判别函数来分析新客户,从而判断新客户属于可靠客户类别还是不可靠客户类别。嘿。8.2层次聚类分析中的Q型聚类。分层聚类分析根据观察值或变量之间的紧密程度来组合最相似的对象,并以连续聚合的方式对观察值进行分类,直到所有样本被分组到一个类别中。分层聚类分析有两种形式。一种是样本分类(个案),称为Q型聚类,它将具有共同特征的样本集合在一起,以便分析不同类型的样本。二是对研究对象的观察变量进行分类,称为R型聚类。它将具有共同特征的变量集合在一起,以便从不同类别中选择有代表性的变量进行分析,从而减少分析变量的数量。本节介绍了Q型聚类的原理和SPSS的实现过程。下一节将描述R型集群的实现过程。定义:层次聚类分析中的Q型聚类,它将具有共同特征的样本集合在一起,以便分析不同类别的样本。8.2.1统计定义和计算公式,在层次聚类分析中,测量样本间的贴近度是关键。聚类涉及两种相似性的计算:一种是样本数据之间的相似性,另一种是样本数据和子类、子类和子类之间的相似性。下面是两种类型之间的相似度和相似度的计算方法和公式的描述。计算公式如下。样本数据之间的紧密程度主要由样本之间的距离和样本之间的相关系数来衡量。SPSS根据不同类型的变量数据,使用不同的方法来衡量亲密度和亲密度。如果样本有k个变量,样本可以被看作k维空间中的一个点,样本和样本之间的距离就是k维空间中的点之间的距离,它反映了样本之间的紧密程度。在聚类中,彼此接近的样本属于一个类,而远离的样本属于不同的类。1。连续变量的样本距离测量方法,(1)欧几里德距离两个样本之间的欧几里德距离是样本变量值之差的平方根,计算公式为,(2)平方欧几里德距离两个样本之间的欧几里德距离的平方是每个样本的每个变量值之差的平方和。计算公式为。(3)两个样本之间的切比雪夫距离是每个样本的所有变量值之差的绝对值的最大值,并且计算公式是,(4)两个样本之间的块距离是每个样本的所有变量值之差的绝对值之和,计算公式为。(5)两个样本之间的闵可夫斯基距离是每个样本的所有变量值之差的绝对值的p次幂之和,然后计算p的根。计算公式为。(6)定制距离(用户定义的距离)两个样本之间的定制距离是每个样本的所有变量值的绝对值与p的幂的和,然后计算q的幂根。计算公式为。如皮尔逊相关系数和索辛相似性。2。测量连续变量样本贴近度的其他方法。3。顺序变量或名义变量样本贴近度的测量方法。对于这些变量,可以计算一些关于相似性的统计指标来衡量样本之间的紧密程度。也可以通过以下两个计算公式获得。SPSS的默认变量是变量Var00001、Var00002等。用户也可以根据自己的需要命名变量。SPSS变量的命名与普通编程语言相同,并且有一定的命名规则。具体内容如下。所谓的小类是在聚类过程中根据样本之间的相似度形成的中间类。小类和样本、小类和小类继续聚合,最终所有样本都包含在一个大类中。在SPSS聚类过程中,需要计算样本与小类、小类与小类之间的相似度。SPSS提供了多种计算方法(计算规则)。(1) NearestNeighbor将当前样本和形成的子类中每个样本之间的距离的最小值作为当前样本和子类之间的距离。(2)此外,FurthestNeighbor将当前样本和形成的子类中的每个样本之间的距离的最大值作为当前样本和子类之间的距离。(3)组间链接两个小类之间的距离是两个小类中所有样本之间的平均距离。(4)组内链接类似于小班之间的链接。这里的平均距离是指所有样本对的平均距离,包括小类之间的样本对和小类内的样本对。(5)质心聚类将两个小类之间的距离定义为两个小类的重心之间的距离。每个小类的重心是该类中每个变量的所有样本平均值的代表点。(6)Wards method小类合并方法:在聚类过程中,将小类中每个样本的欧氏距离平方和增长最小的两个小类合并为一个类。研究问题集中在一个班级的数学水平上。聚类是基于第一次数学考试和入学考试的结果。数据如表8-1所示。8 . 2 . 2 PSS实施流程,表8-1学生数学成绩,实施步骤,图8-1在菜单中选择层次聚类命令,图8-2 层次聚类分析对话框(1)、图8-3“层次聚类分析:方法”对话框(1)。图8-4“层次聚类分析:图”对话框(1)。图8-5“层次聚类分析:统计”对话框(1)。图8-6“层次聚类分析:保存新值”对话框,因为在这个例子中有许多选择,这里是根据每个结果的解释。(1)第一个是层次聚类分析的汇总结果,是SPSS输出结果文件中的第一个表,如下表所示。8.2.3结果和讨论。(2)输出结果文件中的第二个表如下表所示。(3)输出结果文件中的第三个表是层次聚类分析的压缩状态表,包括:(4)输出结果文件中的第四个表如下表所示。输出结果文件中的第五个表如下表所示。输出结果文件的第六部分如图8-7所示。嘿。(7)由于设置了图8-6中的“层次聚类分析:保存新变量”对话框,当聚类成三个类别时,每个样本的类别属性被保存为变量,因此变量值被添加到SPSS数据编辑窗口,如图8-8所示。图8-8保存层次聚类分析结果,8.3层次聚类分析中的r型聚类,8.3.1统计定义和计算公式,定义:层次聚类分析中的r型聚类对研究对象的观察变量进行分类,将具有共同特征的变量集合在一起。从而可以从不同类型中分别选择代表性变量进行分析,从而减少分析变量的数量。计算公式:R型聚类的计算公式类似于Q型聚类的计算公式,只是R型聚类计算变量之间的距离,Q型聚类计算样本之间的距离。研究性问题将一个班级的每个科目的分数聚集在一起,并分析哪些课程属于同一个班级。聚类基于4个受试者的检查结果,数据如表8-2所示。8 . 3 . 2 PSS实施过程,表8-2四门课程的学生成绩,实现步骤,图8-9在菜单中选择“HierarchicalCluster”命令。图8-11“层次聚类分析:方法”对话框(2)。图8-12“层次聚类分析:图”对话框(2)。图8-13“层次聚类分析:统计”对话框(2)。(1)第一,分层r型聚类分析的结果,这是SPSS输出结果文件中的第一个表。8.3.3结果和讨论。(2)输出结果文件中的第二个表如下表所示。输出结果文件中的第三个表如下表所示。输出结果文件中的第四个表如下表所示。输出结果文件中的第五个表如下表所示。(6)输出结果文件的第六部分如下:(8.4)快速聚类分析,SPSS层次聚类分析对计算机有较高的要求。在大样本的情况下,可以使用快速聚类分析。采用快速聚类分析,结果相对简单易懂,并且对计算机的性能要求不高,因此应用比较广泛。定义:快速聚类分析是对用户指定类别数量的大样本数据的逐步聚类分析。它首先对数据进行分类,然后逐步调整以获得最终分类。快速聚类分析的本质是K-均值聚类。8.4.1统计定义和计算公式,与层次聚类分析一致,快速聚类分析也使用距离作为样本间相似度的标志。但是,两者的区别在于,层次聚类可以为不同的聚类类生成一系列的聚类解,而快速聚类只能生成固定数量的类的聚类解,类的数量需要用户预先指定。另外,在快速聚类分析中,用户可以自己指定初始的类中心点。如果用户有丰富的经验,可以指定合理的初始类中心点;否则,需要增加迭代次数,以确保最终聚类结果的准确性。计算公式如下。快速聚类分析的计算过程如下。首先,用户需要指定要聚类到多少个类(如K类)。然后SPSS确定K个类的初始类中心点。SPSS将根据样本数据的实际情况选择K个有代表性的样本数据作为初始分类中心。初始类中心也可以由用户指定,需要将K组样本数据指定为初始类中心点。计算从所有样本数据点到K类中心点的欧几里德距离。SPSS根据K类中心点距离最短的原则,将所有样本分配到中心点所在的类中,形成一个新的K类,并完成一个迭代过程。欧几里德距离的计算公式为:SPSS重新确定K类的中心点。SPSS计算每一类变量的平均值,并将该平均值作为新的类中心点。重复上述两步计算过程,直到达到指定的迭代次数或满足终止迭代的判断要求。为了研究不同公司的经营特点,本研究调查了15家公司的组织文化、组织氛围、领导角色和员工发展。这15家公司根据各自的特点分为4类,数据见表8-3。8 . 4 . 2 PSS实施流程,表8-3不同公司的特征,实施步骤,图8-15在菜单中选择 k-means集群命令,图8-16 k-means集群分析对话框,图8-17 k-means集群分析:选项对话框。图8-18“k-means列表分析:迭代”对话框,图8-19“k-means cluster : savene variable”对话框,图8-20指定了初始类中心点,本例中选择了许多选项,根据每个结果分别进行说明。(1)1)SPSS输出结果文件的第一部分如下表所示。8.4.3结果和讨论。(2)输出结果文件的第二部分如下表所示。(3)输出结果文件的第三部分是快速聚类分析后的每个类包含样本的情况。输出结果文件的第四部分如下表所示。输出结果文件的第五部分如下表所示。输出结果文件的第六部分如下表所示。输出结果的最后一个表列出了四个类中每个类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 腔镜手术基本操作及相关知识试题与答案
- 江苏省如皋市南片区八校联考2026届英语九年级第一学期期末学业质量监测模拟试题含解析
- 2026届黑龙江省齐齐哈尔市克东县化学九年级第一学期期末监测模拟试题含解析
- 江苏省启东市东安中学2026届化学九上期中综合测试试题含解析
- 2026届内蒙古牙克石市英语九年级第一学期期末调研模拟试题含解析
- 信托贷款财产抵押契约协议书5篇
- 跨区域中央空调安装与远程监控服务合同
- 中央空调系统安装与能耗监测合同
- 离婚后房屋产权变更及财产分割执行协议
- 婚后共同房产分割协议书:女方权益保障范本
- 广西b证继续教育考试试题及答案
- JG/T 463-2014建筑装饰用人造石英石板
- DB32/T 3946-2020平原水网地区闸控航道通航标准
- 2025年初级银行从业资格之初级个人理财考试题库
- 2025-2030年中国核子及核辐射测量仪器行业竞争格局及发展趋势分析报告
- 2024年4月全国自考00054管理学原理真题
- 银行保险机构安全保卫工作自查操作手册
- 2025-2030中国咖喱粉市场消费调查及投资效益趋势预测研究报告
- 餐饮食堂“十统一六到位”管理培训
- 工业生产许可证实施细则
- 增加子女抚养费协议书
评论
0/150
提交评论