聚类分析步骤_第1页
聚类分析步骤_第2页
聚类分析步骤_第3页
聚类分析步骤_第4页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、临沂大学建筑学院房地产系聚类分析步骤以教材第五章习题8 的数据为例,演示并说明聚类分析的详细步骤:一原始数据的输入:1临沂大学建筑学院房地产系二选项操作:1. 打开 SPSS的“分析”“分类”“系统聚类” ,打开“系统聚类”对话框。把“食品” 、“衣着”等 6 变量输入待分析变量框;把“地区”输入“标注个案” ;“分群”选中“个案” ;“输出”选中“统计量”和“图”。(如下图)相关说明:( 1) 系统聚类法是最常用的方法,其他的方法较少使用。( 2) “标注个案”里输入“地区” ,在输出结果的距离方阵和聚类树状图里会显示出“北京”、“天津”等,否则 SPSS自动用“ 1”、“ 2”等代替。(

2、3) “分群”选中“个案”,也就是对北京等 16 个样本进行分类,而不是对食品等 6 个变量分类。( 4) 必须选中“输出”中的“统计量”和“图” 。在该例中会输出 16 个地区的欧氏距离方阵和聚类树状图。2临沂大学建筑学院房地产系2. 设置分析的统计量打开最右上角的 “统计量” 对话框,选中“合并进程表” 和“相似性矩阵” ,“聚类成员”选中“无”。然后点击“继续”。打开第二个“绘制”对话框,必须选中“树状图”,其他的默认即可。3临沂大学建筑学院房地产系打开第三个对话框“方法”:聚类方法选中“最邻近元素”;“度量标准”选中“区间”的“欧氏距离”;“转换值”选中“标准化”的“Z 得分”,并且是

3、“按照变量”。打开第四个对话框“保存” ,“聚类成员”选默认的“无”即可。三分析结果的解读:按照 SPSS输出结果的先后顺序逐个介绍:1. 欧氏距离矩阵: 是 16 个地区两两之间欧氏距离大小的方阵, 该方阵是应用各种聚类方法进行聚类的基础。4临沂大学建筑学院房地产系Proximity MatrixEuclidean DistanceCase1: 北京2: 天津3: 河北4: 山西5: 内蒙古6: 辽宁7: 吉林8: 黑龙江9: 上海10: 江苏11: 浙江12: 安徽13: 福建14: 江西15: 山东16: 河南1: 北京.0003.8396.2896.2235.8314.7344.691

4、4.7933.1314.3003.4045.2515.3395.9814.6815.8212: 天津3.839.0002.9113.1082.3902.1902.8922.5814.1531.8811.4733.4003.6313.7011.2802.8883: 河北6.2892.911.0001.1341.3243.4933.7892.5156.5442.3283.4202.9923.3042.9791.961.9604: 山西6.2233.1081.134.0001.3184.0514.0402.6066.8032.6203.6383.2763.6653.4202.482.9895: 内蒙

5、古5.8312.3901.3241.318.0003.0503.3262.5586.0922.5132.8913.1783.4323.0911.8401.6526: 辽宁4.7342.1903.4934.0513.050.0001.8002.7644.7002.6771.9843.0602.9552.9021.8813.6627: 吉林4.6912.8923.7894.0403.3261.800.0002.0525.2472.6192.2152.1462.0882.1102.5653.6068: 黑龙江4.7932.5812.5152.6062.5582.7642.052.0005.7971.

6、2902.4701.4061.8432.0411.8871.9729: 上海3.1314.1536.5446.8036.0924.7005.2475.797.0004.9363.5195.8345.8266.1914.9866.40210: 江苏4.3001.8812.3282.6202.5132.6772.6191.2904.936.0001.9171.9222.3212.5671.3301.88011: 浙江3.4041.4733.4203.6382.8911.9842.2152.4703.5191.917.0002.7432.8263.0711.8573.22112: 安徽5.2513.

7、4002.9923.2763.1783.0602.1461.4065.8341.9222.743.000.6501.0862.6132.50813: 福建5.3393.6313.3043.6653.4322.9552.0881.8435.8262.3212.826.650.0001.0252.8242.91314: 江西5.9813.7012.9793.4203.0912.9022.1102.0416.1912.5673.0711.0861.025.0002.8052.79815: 山东4.6811.2801.9612.4821.8401.8812.5651.8874.9861.3301.85

8、72.6132.8242.805.0002.04116: 河南5.8212.888.960.9891.6523.6623.6061.9726.4021.8803.2212.5082.9132.7982.041.000This is a dissimilarity matrix5临沂大学建筑学院房地产系2.合并进程表:主要看前四列,现在以前三个步骤为例说明合并过程:第一步,样本 12 和样本 13 合并,此时系数为 0.650;第二步,样本 3 和样本 16 合并,此时系数为0.960;第三步,样本 3(实际上是第二步样本 3 和 16 组成的新类)和样本 4 合并,此时系数为 0.989;以此

9、类推。Agglomeration ScheduleCluster CombinedStage Cluster First AppearsStageCluster 1Cluster 2CoefficientsCluster 1Cluster 2Next Stage11213.6500042316.960003334.989207412141.02510952151.28000868101.2900087351.31830128281.33056992121.4068410102111.473901211671.800001312231.8401071313261.88112111514193.1

10、31001515123.404141306临沂大学建筑学院房地产系3. 冰柱:左侧是分组数目, 上侧是被分组的样本, 样本之间由等距的间隔分开, 间隔被填充的,说明相邻两样本合并为一组,没有被填充就不被合并。按照此规则,首先从下往上看,当分为 15 类时,只有样本 13 和 12 合并了,其余的各自是一类;当分为 10 类时,从左到右依次是 (7),(6),(5),(4,16,3),(11),(14,13,12),(10,8),(15,2),(9),(1);其他的分组数目时以此类推。 (该冰柱的分组数目有 2.5、7.5、 12.5 等含有半组的情况,不需要掌握。 )7临沂大学建筑学院房地产系

11、4. 树状图:这是分类结果最后的树状图, 把整个分类情况一目了然地呈现出来了。 最上面的是标尺,数字 0-25 是大致按照距离比例重新标定的数值,不影响对分类结果的观察与结论。 解读此图的方法是: 每个样本的右侧都是虚线, 虚线的端点处是“ +”,说明该样本在此和另一个样本或者组(它也有上下相对齐的“ +”)合并为一类。如:安徽和福建在对应标尺 1 附近时合并为一类, 之后与江西在标尺数值 4 附近合并为一类。天津、山东、黑龙江、江苏四个样本的“ +”看起来好像是统一对齐的,其实不是,实际情况是:天津和山东在 1.280(欧氏距离)处对齐,黑龙江和江苏在 1.290(欧氏距离)处对齐。8临沂大

12、学建筑学院房地产系总说明:1. 聚类分析从数学上讲不是很严谨,所以采用不同的统计量和采取不同的聚类方法,聚类结果可能有较大的差异。但是只要整个分析过程没有错误就是完整正确的,聚类结果都是认可的。(本例中,原始数据首先进行标准差标准化,再求欧氏距离方阵,聚类方法采取的是最短距离法。 )2. 聚类分析的最终结果自然是分类,除了 SPSS 输出的树状图,最好自己再做出 Word 格式的分类表,具体分为几类,自己看情况而定。譬如该例子就可以分为 4类或5类。3. 聚类分析只是分类, 并不能进行评判 (如发展水平高低等),如要评判各样本应结合主成分分析、因子分析等方法共同进行。其分类结果也不一定按照聚类

13、分析的结果为准,可以结合主成分分析、因子分析的结果进行修正。最短距离法具体计算方法及步骤在系统聚类法中, 最短距离法应用比较广泛。 计算过程一般是首先对原始数据进行标准化处理,再计算初始欧氏距离矩阵,然后应用最短距离法聚类。假设有 6 个样本的初始欧氏距离矩阵如下:G1G2G3G4G5G600.37500.4830.7760D(0)=1.5961.92601.7491.5161.3361.6620.50101.9721.7432.1540.6930.5890(系统聚类法在聚类之前把每个样本看成一组,用G1,G2,.代替。在该矩阵中,第 i 行和第 i 列都代表第 i 组,在左侧括号的外面应该自

14、上到下依次是G1,G2,,G6,因为 word 中不好输入,所以省略了。 )9临沂大学建筑学院房地产系在初始距离系数矩阵的基础上,用最短距离法分类的具体步骤是:1. 在初始距离系数矩阵 D(0)中,选出距离数值最小者,即 d12=0.375,把第一类 G1 和第二类 G2 合并为一个新类 G7,记为 G7=G1 ,G2 。再利用最短距离法计算新类 G7 与其他各类 G3,G4,G5,G6 的距离,得d73=mind 13,d23=min0.483, 0.776=0.483d74=mind 14,d24=min1.749, 1.596=1.596d75=mind 15,d25=min1.516,

15、 1.336=1.336d76=mind 16,d26=min1.972, 1.743=1.743形成距离系数矩阵 D(1)G7G3G4G5G600.4830D(1)1.5961.92601.3361.6620.50101.7432.1540.6930.58902. 在矩阵D(1)中,选出距离数值最小者,即d73,这时G7和G3合并=0.483为一个新类 G8,记为 G8=G7 ,G3 。再利用最短距离法计算新类G8 与其他各类 G4,G5, G6 的距离,得D84=mind 34,d74=min1.926, 1.596=1.596D85=mind 35,d75=min1.662, 1.336

16、=1.336D86=mind 36,d76=min2.154, 1.743=1.743形成距离系数矩阵D(2)。DG8G4G5G60(2 )1.59601.3360.50101.7430.6930.58903. 在矩阵D(2) 中,选出距离数值最小者,即d45,这时G4和G5合并=0.501为一个新类 G9,记为 G9=G4 ,G5 。再利用最短距离法计算新类G9 与其他各类 G8,G6 的距离,得D98=mind4858,d =min1.596, 1.336=1.336D96=mind4656,d =min0.693, 0.589=0.589形成距离系数矩阵 D(3)。G8G9G60D (3)1.33601.7430.589010临沂大学建筑学院房地产系4.在矩阵D(3) 中,选出距离数值最小者,即d69,这时G6和G9合并=0.589为一个新类 G10,记为 G10=G6,G9 。再利用最短

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论