第九章 SPSS的聚类分析_第1页
第九章 SPSS的聚类分析_第2页
第九章 SPSS的聚类分析_第3页
第九章 SPSS的聚类分析_第4页
第九章 SPSS的聚类分析_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 SPSS的聚类分析 聚类分析的意义 物以类聚 学生关系、客户细分 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方 法 能够将一批样本(或变量)数据根据其诸多特征,按照在性 质上的亲疏程度(各变量取值上的总体差异程度)在没有先 验知识(没有事先指定的分类标准)的情况下进行自动分类, 产生多个分类结果 类内部的个体在特征上具有相似性,不同类间个体特征的差 异性较大 聚类分析中“亲疏程度”的度量方法 个体间的相似程度 简单相关系数 个体间的差异程度 通过某种距离来测度 为定义个体间的距离应先将每个样本数据看成k维空间的一 个点,通常,点与点之间的距离越小,意味着他们越“亲 密”,越有

2、可能聚成一类,点与点之间的距离越大,意味着 他们越“疏远”,越有可能分别属于不同的类 个体间的差异程度 下表是同一批客户对经常光顾的五座商场在购物环境和服务质 量两方面的平均得分,现希望根据这批数据将五座商场分类 依据平均得分的差距,差距 较小的为一类. 两类:(A B) (C D E) 三类:(A B) (C) (D E) 分类过程中,没有事先指定 分类的标准.完全根据样本数 据客观产生分类结果 定距型变量个体间距离的计算方式 欧式距离(Euclidean distance) 两个体(x,y)k个变量值之差的平方和的平方根 平方欧式距离(Squared Euclidean distance

3、) 切比雪夫(Chebychev)距离 Block距离 k 222 ii i 1 (xy)(73 66)(68 64) 2 () ii i xy ii max xymax(73 66,68 64) k ii i 1 xy73666864 定距型变量个体间距离的计算方式 明考斯基(Minkowski)距离 两个体k个变量值绝对值差p次方总和的p次方根(p可以任 意指定) 夹角余弦距离 p p k i ii yxyxMINKOWSKI 1 ),( )( )( ),( 1 2 1 2 1 2 k i i k i i k i ii yx yx yxCOSINE 定距型变量个体间距离的计算方式 用户自定

4、义距离 q p k i ii yxyxCUSTOMIZED 1 ),( 计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 CHISQ或PHISQ较大,说明个体与变量取值有显著关系,个体 间变量取值差异性较大 k i k i i ii i ii yE yEy xE xEx yxCHISQ 11 22 )( )( )( )( ).( n yE yEy xE xEx yxPHISQ k i k i i ii i ii 11 22 )( )( )( )( ).( 二值(Binary)变量个体间距离的计算方式 简单匹配系

5、数(Simple Matching) 建立在两个体k个变量值同时为0(或1)和不同时为0(或1) 的频数表基础之上的 a+d反映了两个体的相似程度 b+c反映了两个体的差异程度 个体个体y 10 个体x 1ab 0cd dcba cb yxS ),( 二值(Binary)变量个体间距离的计算方式 根据下表分析哪两位病人有可能得了相同的病 张三和李四:(0+1)/(2+0+1+3)=1/6 张三和王五:(1+1)/(2+0+1+3)=2/6 李四和王五:(2+1)/(2+0+1+3)=3/6 姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查 4 张三 男 1 0 1 0 0 0 李四 女 1

6、 0 1 0 1 0 王五 男 1 1 0 0 0 0 二值(Binary)变量个体间距离的计算方式 雅科比系数(Jaccard) 忽略了两个个体同时为0的频数 医学上较为常见 简单匹配系数不会因为编码方案的变化而变化 Jaccard系数会因为编码方案的变化而变化 cba cb yxJ ),( 聚类分析的几点说明 所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面 反映我们研究的目的; 各变量的变量值不应有数量级上的差异(对数据进行标准化处 理):聚类分析是以各种距离来度量个体间的“亲疏”程度的, 从上述各种距离的定义看,数量级将对距离产生较大的影响,并 影响最终的聚类结果。 各变量间不

7、应有较强的线性相关关系 聚类分析的方法 层次聚类 Q型聚类和R型聚类 凝聚方式聚类和分解方式聚类 K-Means聚类 层次聚类 层次聚类 又称系统聚类,是指聚类过程是按照一定层次进行的 两种类型 Q型聚类:对样本进行聚类,使具有相似特征的样本聚集在 一起,差异性大的样本分离开来。 R型聚类:对变量进行聚类,使具有相似性的变量聚集在一 起,差异性大的变量分离开来,可在相似变量中选择少数具 有代表性的变量参与其他分析,实现减少变量个数,达到变 量降维的目的 层次聚类 两种方式 凝聚方式聚类:其过程是,首先,每个个体自成一类;然后, 按照某种方法度量所有个体间的亲疏程度,并将其中最“亲 密”的个体聚

8、成一小类,形成n-1个类;接下来,再次度量 剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小 类再聚到一类;重复上述过程,直到所有个体聚成一个大类 为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一 大类。 分解方式聚类:其过程是,首先,所有个体都属一大类;然 后,按照某种方法度量所有个体间的亲疏程度,将大类中彼 此间最“疏远”的个体分离出去,形成两类;接下来,再次 度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离 出去;重复上述过程,不断进行类分解,直到所有个体自成 一类为止。可见,这种聚类方式对包含n个个体的大类通过 n-1步可分解成n个个体 个体与小类、小类与小类间“亲疏程

9、度”的度量方 法 SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程 度”的方法。与个体间“亲疏程度”的测度方法类似,应首先 定义个体与小类、小类与小类的距离。距离小的关系亲密,距 离大的关系疏远。这里的距离是在个体间距离的基础上定义的 个体与小类、小类与小类间“亲疏程度”的度量方 法 最近邻居(Nearest Neighbor)距离 最远邻居(Furthest Neighbor )距离 组间平均链锁(Between-groups linkage)距离 组内平均链锁(Within-groups linkage)距离 重心(Centroid clustering)距离 离差平方和法(War

10、ds method) 五座商场两两个体欧氏距离的矩阵Proximity Matrix五座商场两两个体欧氏距离的矩阵Proximity Matrix .0008.06217.80426.90730.414 8.062.00025.45634.65538.210 17.80425.456.0009.22012.806 26.90734.6559.220.0003.606 30.41438.21012.8063.606.000 Case 1:A商厦 2:B商厦 3:C商厦 4:D商厦 5:E商厦 1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦 Euclidean Distance This is

11、 a dissimilarity matrix D商厦与E商厦的距离最小,首先聚为一个小类 A与这个小类的距离如何衡量? 以以D(A,(D,E)D(A,(D,E)为例为例: 最短距离 (nearest neighbor): 该个体与小类中每个个体距离的最小值。 D(A,(D,E)=26.907 最长距离 (furthest neighbor) 该个体与小类中每个个体距离的最大值。 D(A,(D,E)=30.414 组间平均链锁距离(between-groups linkage) 该个体与小类中每个个体距离的平均值 D(A,(D,E)=(26.907+30.414)/2 组内平均链锁距离(wit

12、hin-group linkage) 该个体与小类中每个个体距离以及小类内各个体间距离的平均值 D(A,(D,E)=(26.907+30.414+3.606)/2 易受极端值影响 不易受极端值影响 重心距离(Centroid Clustering) 该个体与小类的重心点的距离 小类的重心点通常是由小类中所有样本在各个变量上的均值 所确定的数据点 个体与重心点的距离定义为: 式中:r是由p,q两个体合并成的一个小类;n为样本量 ),(),(),(),(qpD n n n n qkD n n pkD n n rkD r q r p r q r p 606. 3 4 1 414.30 2 1 907

13、.26 2 1 ),( 2 1 2 1 ),( 2 1 ),( 2 1 ),( ,( EDDEADDADEDAD 离差平方和法 原则:聚类过程中使小类内离差平方和增加最小的两小类应 首先合并为一类。 例如,有A, B, C三个小类。如果(A, B)小类内的离差平方和 小于(A, C)或(B, C)小类内的离差平方和,那么A, B应合并 为一小类。 基本步骤 首先各个体自成一类,然后逐渐凝聚成小类。随着小类 的不断凝聚,类内的离差平方和必然不断增大。应选择 使类内离差平方和增加最小的两类凝聚,直到所有个体 合并成一类为止 层次聚类的基本操作 选择菜单AnalyzeClassifyHierarch

14、ical Cluster,出现窗口: 2、把参与层次聚类分析的变量选到Variable(s)框中。 3、把一个字符型变量作为标记变量选到Label Cases by框中,它 将大大增强聚类分析结果的可读性。 4、在Cluster框中选择聚类类型。其中Cases表示进行Q型聚类 (默认类型);Variables表示进行R型聚类。 5、在Display框中选择输出内容。其中Statistics表示输出聚类分 析的相关统计量;Plot表示输出聚类分析的相关图形 6、单击Method按钮指定距离的计算方法 Measure框中给出的是不同变量类型下的个体距离的计算方法。 其中Interval框中的方法适

15、用于连续型定距变量;Counts框中的 方法适用于品质型变量;Binary框中的方法适用于二值变量。 Cluster Method框中给出的是计算个体与小类、小类与小类间 距离的方法 7、如果参与聚类分析的变量存在数量级上的差异,应在 Transform Values框中的Standardize选项中选择消除数量级差 的方法。并指定处理是针对变量的还是针对样本的。By variable表示针对变量,适于 Q 型聚类分析;By case 表示针 对样本,适于R型聚类分析 8、单击Statistics按钮指定输出哪些统计量 Agglomeration schedule表示输出聚类分析的凝聚状态表;

16、 Proximity matrix表示输出个体间的距离矩阵 Cluster Membership框中,None表示不输出样本所属类, Single Solution表示指定输出当分成n类时各样本所属类,是单 一解。Range of solution表示指定输出当分成m至n类(m小于 等于n)时各样本所属类,是多个解 上表中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中 哪两个样本或小类聚成一类;第四列式个体距离或小类距离;第五、 六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非0表 示由第n步聚类生成的小类参与本步聚类;第七列表示本步聚类的结 果将在以下第几步中用到。 层次聚

17、类中的凝聚状态表Agglomeration Schedule层次聚类中的凝聚状态表Agglomeration Schedule 453.606003 128.062004 3411.013014 1328.908230 Stage 1 2 3 4 Cluster 1Cluster 2 Cluster Combined Coefficients Cluster 1Cluster 2 Stage Cluster First Appears Next Stage 层次聚类中的类成员Cluster Membership层次聚类中的类成员Cluster Membership 11 11 22 32 32

18、 Case 1:A商厦 2:B商厦 3:C商厦 4:D商厦 5:E商厦 3 Clusters 2 Clusters 9、单击Plot按钮指定输出哪种聚类分析图。 Dendrogram选项表示输出聚类分析树形图;在Icicle框中指定输出冰 挂图,其中,All clusters表示输出聚类分析每个阶段的冰挂图, Specified range of clusters表示只输出某个阶段的冰挂图,输入从第 几步开始,到第几步结束,中间间隔几步; 在Orientation框中指定如何显示冰挂图,其中,Vertical表示纵向显示, Horizontal表示横向水平显示。 树形图以躺倒树的形式展现了聚类

19、分析中的每一次类合并的情况。 SPSS自动将各类间的距离映射到025之间,并将凝聚过程近似地 表示在图上 10、单击Save按钮可以将聚类分析的结果以变量的形式保存到数 据编辑窗口中。生成的变量名为clun_m(如clu2_1),其中n 表示类数(如2),m表示是第m次分析(如1) 由于不同的距离计算方法会产生不同的聚类分析结果,即使 聚成n类,同一样本的类归属也会因计算方法的不同而不同。 因此实际分析中应反复尝试以最终得到符合实际的合理解, 并保存于SPSS变量中 层次聚类的冰挂图 Vertical Icicle层次聚类的冰挂图 Vertical Icicle XXXXXXXXX XXXXX

20、 XXX XXX X XXX XXX X X X Number of clusters 1 2 3 4 5:E商厦 4:D商厦 3:C商厦 2:B商厦 1:A商厦 Case 例题 8.1 利用31个省市自治区小康和现代化指数数据进行层次聚类分析。 利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分 析。 其中个体距离采用平方欧式距离,类间距离采用平均组间链 锁距离 由于数据不存在数量级上的差异,因此无需进行进行标准化 处理 例题 8.2 收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯 以及热心观众分别给300名运动员平均打分的数据,希望分析 各国裁判员的打分标准是否具有相似性。

21、R聚类 聚类数目的确定 聚类数目确定尚无统一标准,一般原则: 各类所包含的元素都不应过多 分类数目应符合分析的目的 分层聚类中可以将类间距离作为确定类数目的辅助工具 聚类过程中,类间距离呈增加趋势 类间距离小,类的相似性大;距离大,相似性小 绘制碎石图(X轴为类距离,Y轴为类数) K-Means聚类 K-Means聚类 也称快速聚类,仍将数据看成k维空间上的点,仍以距离作 为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价 换得高的执行效率 克服分层聚类在大样本时产生的困难,提高聚类效率 做法: 通过用户事先指定聚类数目的方式提高效率 分层聚类可以对不同的聚类数而产生一系列的聚类解,而快 速

22、聚类只能产生单一的聚类解 K-Means聚类 核心步骤: 第一,指定聚类数目K 第二,确定K个初始类中心 用户指定方式 系统指定方式 第三,根据距离最近原则进行分类 依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类 中心点距离最短的原则将所有样本分成K类 第四,重新确定K个类中心 中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点 作为K个类的中心点 第五,判断是否已满足中止聚类分析的条件 条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移 程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的 量(SPSS默认为0.02)时中止聚类 K-Means聚

23、类分析的操作步骤 1. 选择选项AnalyzeClassifyK-Means Cluster 2.选定参与K-Means聚类的变量放入Variables框中。 3.选择一个字符型变量作为标记变量放入Label Cases框中,增加 分析结果的可读性。 4.在Number of Clusters框中输入聚类数目,该数应小于样本数。 5.如果用户自行指定初始类中心点,则单击Centers按钮,并在 Read initial from框后给出存放初始类中心的SPSS数据文件名; 否则本步可略去。 6.在Method框中指定聚类过程是否调整类中心点。其中,Iterate and classify表示在聚类分析的每一步都重新确定类中心点 (SPSS默认);Classify only表示聚类分析过程中类中心点始 终为初始类中心点,此时仅进行一次迭代。 7. 单击Iterate按钮确定中止

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论