第十三章聚类分析_第1页
第十三章聚类分析_第2页
第十三章聚类分析_第3页
第十三章聚类分析_第4页
第十三章聚类分析_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十三章第十三章 聚类分析聚类分析l 在实际工作中在实际工作中, ,我们经常会遇到样品或指标的我们经常会遇到样品或指标的分类问题。根据事先是否已经建立类别分类问题。根据事先是否已经建立类别, ,分类问题分类问题又可以分为判别分析和聚类分析。判别分析研究又可以分为判别分析和聚类分析。判别分析研究事先已经建立类别的情况事先已经建立类别的情况, ,即将样品或指标按己知即将样品或指标按己知的类别进行归类的类别进行归类: :聚类分析则适用于事先没有分类聚类分析则适用于事先没有分类的情况的情况, ,即如何将样品或指标进行分类的问题。本即如何将样品或指标进行分类的问题。本章主要介绍聚类分析。聚类分析包含的内

2、容很广章主要介绍聚类分析。聚类分析包含的内容很广泛泛, ,可以有系统聚类法、可以有系统聚类法、k k均值聚类法、动态聚类均值聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法。在本章中主要介绍类法、聚类预报等多种方法。在本章中主要介绍系统聚类法和系统聚类法和k k均值聚类法。均值聚类法。13.1 13.1 基本数学原理基本数学原理 系统聚类法是聚类分析中应用最为广泛的一种系统聚类法是聚类分析中应用最为广泛的一种方法方法, ,它的基本原理是它的基本原理是: :首先将一定数量的样品或首先将一定数量的样品或指标各自看成一类指标

3、各自看成一类, ,然后根据样品然后根据样品( (或指标的亲或指标的亲疏程度疏程度, ,将亲疏程度最高的两类进行合并。然后考将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度虑合并后的类与其他类之间的亲疏程度, ,再进行合再进行合并。重复这一过程并。重复这一过程, ,直至将所有的样品直至将所有的样品( (或指标或指标) )合合并为一类。并为一类。 1.1.系统聚类法是根据样品或指标之间的亲疏程度系统聚类法是根据样品或指标之间的亲疏程度来进行合并。衡量亲疏程度的指标有两种来进行合并。衡量亲疏程度的指标有两种, ,即距离和即距离和相似系数。距离是将每个样品看成是相似系数。距离是将

4、每个样品看成是m m个变量对应的个变量对应的m m维空间中的一个点维空间中的一个点, ,然后在该空间中所定义的然后在该空间中所定义的, ,距离距离越近越近, ,则亲密程度越高。相似系数接近于则亲密程度越高。相似系数接近于1 1或或-1-1时时, ,认认为样品或指标之间的性质比较接近为样品或指标之间的性质比较接近: :相似系数接近于相似系数接近于0 0时时, ,认为样品或指标之间是无关的。下面是一些常认为样品或指标之间是无关的。下面是一些常用的距离和相似系数及其定义方法。用的距离和相似系数及其定义方法。(1)(1)欧氏距离欧氏距离(2)(2)切比雪夫距离切比雪夫距离(3)(3)明可斯基距离明可斯

5、基距离(4)(4)夹角余弦夹角余弦( (相似系数相似系数) )(5)(5)相关系数相关系数(6)(6)自定义距离自定义距离 ( (具体公式可参见统计分析课本具体公式可参见统计分析课本) ) 2.2.常用的聚类方法常用的聚类方法 常用的聚类方法主要有以下几种。常用的聚类方法主要有以下几种。 1)1)最短距离法最短距离法 该算法将两个类之间的距离定义为一个类该算法将两个类之间的距离定义为一个类的所有个体与另一个类的所有个体之间的距离的的所有个体与另一个类的所有个体之间的距离的最小者。最小者。 2)2)最长距离法最长距离法 与最短距离法相反与最短距离法相反, ,该法用个体之间的最远该法用个体之间的最

6、远距离来定义类与类之间的距离。距离来定义类与类之间的距离。 3)3)中间距离法中间距离法 该法在定义类与类之间的距离时该法在定义类与类之间的距离时, ,采用的采用的是最短距离与最长距离之间的中间距离。计算公是最短距离与最长距离之间的中间距离。计算公式略去。式略去。 4)4)重心法重心法 该法将两类之间的距离定义为两类重心该法将两类之间的距离定义为两类重心之间的距离。它考虑了每一类所包含的样品数之间的距离。它考虑了每一类所包含的样品数, ,每每一类重心即为该类样品的均值。一类重心即为该类样品的均值。 5)5)离差平方和法离差平方和法 该法是该法是wardward根据方差分析的原理得到的根据方差分

7、析的原理得到的, ,如果分类比较合理如果分类比较合理, ,则同类样品之间的离差平方和则同类样品之间的离差平方和较小较小, ,类与类之间的离差平方和较大。类与类之间的离差平方和较大。 利用离差平方和分类的效果比较好利用离差平方和分类的效果比较好, ,它要它要求样品之间的距离必须是欧氏距离。求样品之间的距离必须是欧氏距离。 6)6)平均联结法平均联结法 前面介绍了用类之间的最小距离、最大距离前面介绍了用类之间的最小距离、最大距离和中间距离等联结类的方法和中间距离等联结类的方法, ,还可以用取平均的方还可以用取平均的方法联结类。平均联结法分为两种法联结类。平均联结法分为两种, ,即组间平均联结即组间

8、平均联结法和组内平均联结法。法和组内平均联结法。 组间平均联结法将两个类所有成对个案组间平均联结法将两个类所有成对个案( (各各来自一个类来自一个类) )间的平均距离作为类间距离并要求该间的平均距离作为类间距离并要求该距离最小。它利用了两个类中成对所有个案的信距离最小。它利用了两个类中成对所有个案的信息。息。 组内平均联结法的目的则是要使产生类的所组内平均联结法的目的则是要使产生类的所有个案之间的平均距离尽可能地小。有个案之间的平均距离尽可能地小。 3.3.数据的转换数据的转换 进行聚类分析时进行聚类分析时, ,各变量之间有可能存在不各变量之间有可能存在不同量纲、不同数量级的情况同量纲、不同数

9、量级的情况, ,因此存在转换数据的因此存在转换数据的必要性。转换数据的目的是使这些变量具有可比必要性。转换数据的目的是使这些变量具有可比性。常用的数据转换方法有中心化变换、极差正性。常用的数据转换方法有中心化变换、极差正规化和标准化等。规化和标准化等。 4 4、层次聚类分析的几点说明、层次聚类分析的几点说明 1)spss1)spss中的层次聚类分析有中的层次聚类分析有q q型聚类和型聚类和r r型型聚类两种聚类两种: q: q型聚类就是对样本数据进行聚类型聚类就是对样本数据进行聚类,r,r型型聚类是对变量进行聚类。聚类是对变量进行聚类。 q q型聚类是使具有共同型聚类是使具有共同特征的样本聚集

10、在一起特征的样本聚集在一起, ,下一步可以分别对不同类下一步可以分别对不同类中的样本作分析中的样本作分析;r;r型聚类是使具有共同特征的变型聚类是使具有共同特征的变量聚集在一起量聚集在一起, ,下一步可以从不同类中分别挑选出下一步可以从不同类中分别挑选出具有代表性的变量作分析具有代表性的变量作分析, ,从而减少分析变量的个从而减少分析变量的个数。数。 2)2)应注意聚类分析所选择的变量能否反应所应注意聚类分析所选择的变量能否反应所要聚类的特征聚类分析的目的是找到不同类群体要聚类的特征聚类分析的目的是找到不同类群体中样本数据的特点中样本数据的特点, ,因此在聚类分析选定变量时因此在聚类分析选定变

11、量时, ,应注意所选择的变量能否反应所要聚类的特征。应注意所选择的变量能否反应所要聚类的特征。例如例如: :如果希望对学校规模作聚类分析如果希望对学校规模作聚类分析, ,但如果分但如果分析时没有选定诸如析时没有选定诸如: :在校学生人数、教师人数、校在校学生人数、教师人数、校园面积、设备、设施情况等变量园面积、设备、设施情况等变量, ,那么聚类后的结那么聚类后的结果就无法反映关于学校规模的特征。果就无法反映关于学校规模的特征。 3)3)应注意聚类分析的变量数据是否存在数量级应注意聚类分析的变量数据是否存在数量级上的差异由于聚类分析是以距离来度量样本亲疏上的差异由于聚类分析是以距离来度量样本亲疏

12、程度的。从各种距离的定义上看程度的。从各种距离的定义上看, ,变量不同的数量变量不同的数量级别将对距离产生较大的影响。级别将对距离产生较大的影响。 为克服上述问题的存在为克服上述问题的存在, ,聚类分析之前聚类分析之前, ,应应查看变量数据之间是否存在数量级上的差异。如查看变量数据之间是否存在数量级上的差异。如果数据在数量级上存在差异果数据在数量级上存在差异, ,应首先进行标准化处应首先进行标准化处理理, ,然后再作聚类分析然后再作聚类分析。13.2 spss实现实现 13.2.1 13.2.1 对话框介绍对话框介绍 在在analyzeanalyze主菜单中用鼠标指向主菜单中用鼠标指向clas

13、sifyclassify菜单项菜单项, ,然后在打开的子菜单中单击然后在打开的子菜单中单击hierarchialhierarchial 选项选项, ,打开对话框打开对话框, , 利用该对话利用该对话框的设置框的设置, ,进行系统聚类分析。对话框中各选项进行系统聚类分析。对话框中各选项的意义分别介绍如下。的意义分别介绍如下。 (1)variable(s)(1)variable(s)列表框列表框: : 从左边列表框中选从左边列表框中选择变量名并用箭头按钮转移到该列表框中择变量名并用箭头按钮转移到该列表框中, ,对应变对应变量用作系统聚类分析的对象。量用作系统聚类分析的对象。 (2)label ca

14、ses(2)label cases窗口窗口: : 在该窗口中输入变在该窗口中输入变量名量名, ,对应变量的值作为个案的标注。对应变量的值作为个案的标注。 (3)cluster(3)cluster方框方框: : 设置系统聚类类型。设置系统聚类类型。 casescases为默认选项。选择此项为默认选项。选择此项, ,采用采用r r型聚类型聚类, ,即对个案聚类。即对个案聚类。 variablesvariables选择此项选择此项, ,采用采用q q型聚类型聚类, ,即对变量聚类。即对变量聚类。(4)display(4)display方框方框: :设置分析结果的输出选项。设置分析结果的输出选项。 s

15、tatisticsstatistics核选框默认时选择此项核选框默认时选择此项, ,输出分析得到的统计量。输出分析得到的统计量。 plotsplots核选框默认时选择此项核选框默认时选择此项, ,输出分析得到的图形。输出分析得到的图形。 (5)statistics(5)statistics按钮按钮: :单击该按钮单击该按钮, ,打开对话框打开对话框, ,利用该对话框利用该对话框, ,设设置需要输出的统计量。置需要输出的统计量。 agglomeration scheduleagglomeration schedule核选框核选框 默认时选择此项。选择默认时选择此项。选择此项此项, ,生成聚结表。

16、该表中每一个聚类步骤的聚类成员合并在一起生成聚结表。该表中每一个聚类步骤的聚类成员合并在一起显示。显示。 proximity matrixproximity matrix核选框核选框 选择此项选择此项, ,生成组间距矩阵生成组间距矩阵, ,产产生的矩阵类型生的矩阵类型( (相似或不相似相似或不相似) )取决于度量方法的选择。取决于度量方法的选择。 cluster membershipcluster membership方框设置有关变量与聚类步骤之间的关方框设置有关变量与聚类步骤之间的关系的显示选项。系的显示选项。 nonenone单选钮单选钮 为默认选项。选择此项为默认选项。选择此项, ,不显

17、示变量与聚不显示变量与聚类步骤关系的信息。类步骤关系的信息。 single solutionsingle solution单选钮单选钮 选择此项选择此项, ,在后面的在后面的clustercluster窗口中输入一个大于或等于窗口中输入一个大于或等于1 1的整数的整数n,n,显示聚为显示聚为n n类时各类时各个案所对应的类。个案所对应的类。 range of solutionrange of solution单选钮单选钮 选择此项选择此项, ,在在fromfrom窗口窗口和和“throughthrough窗口中分别输入大于窗口中分别输入大于1 1的整数的整数( (前者小于后者前者小于后者),)

18、,显示显示数据聚为这两个数据聚为这两个数值之间(含这两个数值)的类数时,各个案所对应的类。 (6)plots6)plots按钮按钮: :单击该按钮单击该按钮, ,打开对话框打开对话框, , 利用该对话框的选项利用该对话框的选项, ,进行有关图形输出的设置。进行有关图形输出的设置。 dendrogramdendrogram核选框选择此项核选框选择此项, ,生成树形图。生成树形图。 icicleicicle方框设置与生成冰柱图有关的选项。方框设置与生成冰柱图有关的选项。 all cluster all cluster 单选钮为默认选项。选择此项单选钮为默认选项。选择此项, ,生成冰柱生成冰柱图时在

19、图中显示所有的聚类步骤。图时在图中显示所有的聚类步骤。 specified range ofclustersspecified range ofclusters单选钮选择此项单选钮选择此项, ,下面的下面的3 3个输入窗口变为可用个输入窗口变为可用, ,在在“sumsum窗口、窗口、stopstop窗口和窗口和byby窗口中窗口中分别输入一个正整数分别输入一个正整数, ,分别表示聚类步骤的初始步、终止步和步分别表示聚类步骤的初始步、终止步和步长增量。通过这样的设置来指定生成冰柱图时在图中显示的聚类长增量。通过这样的设置来指定生成冰柱图时在图中显示的聚类步骤的范围。步骤的范围。 nonenone

20、单选钮单选钮, ,不生成冰柱图。不生成冰柱图。 orientationorientation方框设置冰柱图柱轴的显示方向方框设置冰柱图柱轴的显示方向, ,有两个选有两个选项。项。 】verticalvertical为默认选项。生成直立的冰柱图。为默认选项。生成直立的冰柱图。 】horizontal horizontal 选择此项选择此项, ,生成水平的冰柱图。生成水平的冰柱图。 (7)method(7)method按钮按钮: :单击该按钮单击该按钮, ,打开对话框打开对话框, ,利用该利用该对话框对话框, ,确定聚类过程中采用的具体方法、距离的确定聚类过程中采用的具体方法、距离的计算方法以及数

21、据转换的方法。计算方法以及数据转换的方法。 cluster methodcluster method下拉式列表框在该控件中选下拉式列表框在该控件中选择一个选项择一个选项, ,确定聚类的具体方法。共有确定聚类的具体方法。共有7 7个选项个选项, ,各选项的原理和意义参见前面的内容。各选项的原理和意义参见前面的内容。 between-groups linkage between-groups linkage 组间联结法组间联结法, ,为默认选项。为默认选项。 within-groups linkage within-groups linkage 组内联结法组内联结法 nearest neighbo

22、r nearest neighbor 最短距离法最短距离法 furthest neighbor furthest neighbor 最长距离法最长距离法 centroidcentroid clustering clustering 重心法重心法 median clustering median clustering 中间距离法中间距离法 wards method wards method 离差平方和法离差平方和法 measuremeasure方框方框 设置距离和相似系数的确定方法。设置距离和相似系数的确定方法。 intervalinterval单选钮为默认选项。选择此项单选钮为默认选项。选择此

23、项, ,在后面的下在后面的下拉式列表框中选择一个距离选项。拉式列表框中选择一个距离选项。 euclidean distanceeuclidean distance欧氏距离欧氏距离 squared euclidean distancesquared euclidean distance欧氏距离的平方欧氏距离的平方 cosinecosine夹角余弦夹角余弦( (相似系数相似系数) ) pearson correlation pearson correlation相关系数相关系数( (相似系数相似系数) ) chebychev chebychev 切比雪夫距离切比雪夫距离 block block 布

24、洛克距离或马氏距离布洛克距离或马氏距离 minkowskiminkowski 明可斯基距离明可斯基距离 customizedcustomized自定义距离自定义距离 customizedcustomized自定义距离选择此项自定义距离选择此项, , 在在“power”power”下拉下拉式列表框和式列表框和“root”root”下拉式列表框中分别进行选择或输入下拉式列表框中分别进行选择或输入, ,确定幂次确定幂次m m和根次和根次n n。 选择明可斯基距离时也需要在选择明可斯基距离时也需要在“power”power”窗口和窗口和“root”root”窗口中进行输入。窗口中进行输入。 ( (注注

25、: :上面各系数中后面带有括号注释上面各系数中后面带有括号注释的表示该系数为相似系数的表示该系数为相似系数) )。 countscounts单选钮选择此项单选钮选择此项, ,后面的下拉式列表框变为后面的下拉式列表框变为可用可用, ,在其中进行选择在其中进行选择, ,确定当数据为离散数据时不相似性确定当数据为离散数据时不相似性的度量方法。有两个选项。的度量方法。有两个选项。 】chi-square measurechi-square measure选项为默认选项。选择此选项为默认选项。选择此项项, ,用卡方值进行度量。用卡方值进行度量。 】phi-square measurephi-square

26、 measure选项选择此项选项选择此项, ,用平方值用平方值进行度量。进行度量。 binarybinary单选钮选择此项单选钮选择此项, ,在后面的下拉式列表框中在后面的下拉式列表框中进行选择进行选择, ,确定当数据为二项特征的数据时距离和不相似确定当数据为二项特征的数据时距离和不相似性的度量方法。默认时性的度量方法。默认时, ,数值数值1 1表示字符的存在表示字符的存在, ,数值数值0 0表表示不存在示不存在, ,可以通过在可以通过在presentpresent窗口和窗口和absentabsent窗口中进窗口中进行修改。下拉式列表框中有多个选项。行修改。下拉式列表框中有多个选项。 eucl

27、idean distanceeuclidean distance欧氏距离欧氏距离 (8)save (8)save按钮按钮: :单击该按钮单击该按钮, ,打开打开“hierarchical hierarchical cluster analysis:savecluster analysis:save new variables” new variables”对话对话框框, , 利用该对话框利用该对话框, ,设置新变量的保存。设置新变量的保存。 nonenone单选钮为默认选项。选择此项单选钮为默认选项。选择此项, ,不保存不保存新变量。新变量。 single solutionsingle sol

28、ution单选钮选择此项单选钮选择此项, ,在后面在后面的的clustercluster窗口中输入一个大于或等于窗口中输入一个大于或等于1 1的整数的整数n,n,生成一个新变量并用该变量保存聚为生成一个新变量并用该变量保存聚为n n类时各个案类时各个案所对应的类。所对应的类。 range of solutionrange of solution单选钮选择此项单选钮选择此项, ,在在fromfrom窗口和窗口和“throughthrough窗口中分别输入大于窗口中分别输入大于1 1的的整数整数( (前者小于后者前者小于后者),),将生成二者之差加两个新变将生成二者之差加两个新变量量, ,分别保存

29、数据聚为这两个数值之间分别保存数据聚为这两个数值之间( (含这两个含这两个数值数值) )的类数时的类数时, ,各个案所对应的类。各个案所对应的类。 13.2.2 13.2.2 应用实例应用实例 实例实例1:1:为了研究世界各国森林个国家为了研究世界各国森林个国家4 4项指项指标标, ,原始数据文件名为原始数据文件名为“resource.savresource.sav”。草原资。草原资源的分布规律源的分布规律, ,共抽取了共抽取了2121个国家的数据个国家的数据, ,试用该试用该数据对国别进行聚类分析。数据对国别进行聚类分析。 由于是对个案聚类由于是对个案聚类, ,采用采用r r型聚类。在数据型

30、聚类。在数据编辑器中打开该数据文件。打开编辑器中打开该数据文件。打开“hierarchical hierarchical cluster analysiscluster analysis对话框对话框, ,然后在然后在label cases label cases byby窗口中输入变量名窗口中输入变量名 国别国别,在在variable(svariable(s)“ )“ 列表框中输入其他变量名列表框中输入其他变量名, ,其他其他控件按默认设置。运行过程控件按默认设置。运行过程, ,生成表生成表11表表3 3。 表表1 1为聚结表。表中各项的意义分别为为聚结表。表中各项的意义分别为: : (1)s

31、tage: (1)stage:聚类步骤号。聚类步骤号。 (2)cluster combined:(2)cluster combined:在某步中合并的个案。如第一步中第在某步中合并的个案。如第一步中第7 7个个案和第个个案和第1515个个案合并。合并以后用第一项的个案号表示生成个个案合并。合并以后用第一项的个案号表示生成的新类。的新类。 (3)coefficients:(3)coefficients:距离或相似系数距离或相似系数, ,由聚类分析的基本原理我由聚类分析的基本原理我们知道们知道, ,个案之间亲密程度最高的个案之间亲密程度最高的, ,即距离最小或相似系数最接近即距离最小或相似系数最接

32、近于于1 1或或-1-1的的, ,最先合并。因此该列中的系数与第一列的聚类步骤相最先合并。因此该列中的系数与第一列的聚类步骤相对应对应, ,系数值从小到大排列。系数值从小到大排列。 (4)stage cluster first appears:(4)stage cluster first appears:对应于各聚类步骤的参与对应于各聚类步骤的参与合并的两项中合并的两项中, ,如果有一个是新生成的类如果有一个是新生成的类( (即由两个或两个以上个即由两个或两个以上个案合并成的类案合并成的类),),则在对应列中显示出该新类在哪一步第一次生成。则在对应列中显示出该新类在哪一步第一次生成。如第如第4

33、 4步中该栏第一列显示值为步中该栏第一列显示值为3,3,表示进行合并的两项中第一项表示进行合并的两项中第一项是在第是在第3 3步第一次生成的新类。从第步第一次生成的新类。从第3 3步可以看出步可以看出, ,第第4 4步的第一项步的第一项是由第是由第4 4个个案和第个个案和第1414个个案合并而生成的新类。如果值为个个案合并而生成的新类。如果值为0,0,则则表示对应项还是个案表示对应项还是个案( (不是新类不是新类) )。 agglomeration scheduleagglomeration schedule7154580.65000611166395.17000541411551.17000

34、441261130.685306111372812.90520747114992.105417411410706.019659618532624.580001045871022.4757011619959232.1108011462810959.0391012343764010.610111331734176880.91201432060118208.21301819178051699001828473998140001722185392208316019131.542e+09151419121.829e+091817201108.299e+091900stage123456789101112

35、1314151617181920cluster 1cluster 2cluster combinedcoefficients cluster 1cluster 2stage cluster firstappearsnext stage (5)next stage:(5)next stage:表示对应步骤生成的新类将在第几步与其表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值他个案或新类合并。如第一行的值6 6表示第一步聚类生成的新类表示第一步聚类生成的新类将在第将在第6 6步与其他个案或新类合并。步与其他个案或新类合并。 表表2 2为个案处理综述表。表中为有效个案为个案处理综

36、述表。表中为有效个案(valid)(valid)、缺失个案、缺失个案(missing)(missing)和个案总数和个案总数(total)(total)的个数和百分数。脚注显示聚的个数和百分数。脚注显示聚类时采用的是距离度量方法类时采用的是距离度量方法, ,具体聚类方法为默认设置具体聚类方法为默认设置, ,即欧即欧氏距离平方值和组间平均联结法。氏距离平方值和组间平均联结法。 case processing summarycase processing summarya,ba,b21100.00.021100.0npercentnpercentnpercentvalidmissingtotalc

37、ases squared euclidean distance useda. average linkage (between groups)b. 表表3 3为垂直冰柱图。图中第一列为聚类步骤号为垂直冰柱图。图中第一列为聚类步骤号, ,第一行为个案第一行为个案及个案号。如果个案或新类在第及个案号。如果个案或新类在第n n步合并步合并, ,则图中第则图中第n n步以上步以上合并项对应列之间的列中用合并项对应列之间的列中用xx充填充填, ,没有空格。没有空格。 现在参照聚结表从下往上解读该图。从聚结表中可以现在参照聚结表从下往上解读该图。从聚结表中可以看出看出, ,聚类第聚类第1 1步为第步为第7

38、 7个个案和第个个案和第1515个个案合并个个案合并, ,而冰柱图中而冰柱图中对应于第对应于第2020步步, ,第第7 7个个案与第个个案与第1515个个案对应的列之间在第个个案对应的列之间在第2020步以上用步以上用xx充填。聚结表中第充填。聚结表中第2 2步为第步为第1111个个案和第个个案和第1616个个个个案合并案合并, ,则冰柱图中对应于则冰柱图中对应于1919步步, ,这两个个案对应的列之间在这两个个案对应的列之间在第第1919步以上用步以上用xx充填。如此继续下去充填。如此继续下去, ,直至所有个案聚为一直至所有个案聚为一类。最后形成的图形中类。最后形成的图形中, ,由充填由充填

39、xx构成的阴影条形就象屋檐构成的阴影条形就象屋檐下倒挂的冰凌一样下倒挂的冰凌一样, ,因此称为冰柱图。因此称为冰柱图。v ve er rt ti ic ca al l i ic ci ic cl le exxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxx x xxx xxxxxxxxxxxxxxxxxxxxxxxxxx

40、xxx xxxx x x x xxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxx x x x xxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xx x x x x xxxxxxxxxxxxxxxxxxxxxxxxxxx x xx x x x x x xxxxxxxxxxxxxxxxxxxxxxxxx x xx x x x x x xxxxxxxxxxxxxxxxxxxxxxx x x xx x x x x x xxxxx xxxxxxxxxxxxxxxxx x x xx x x x x x x xxx xxxxxxxxxxxxxxxxx x x xx x x

41、x x x x xxx x xxxxxxxxxxxxxxx x x xx x x x x x x x x x xxxxxxxxxxxxxxx x x xx x x x x x x x x x xxxxx xxxxxxxxx x x xx x x x x x x x x x xxxxx xxx xxxxx x x xx x x x x x x x x x x xxx xxx xxxxx x x xx x x x x x x x x x x xxx xxx x xxx x x xx x x x x x x x x x x xxx xxx x x x x x xx x x x x x x x x x

42、 x x x xxx x x x x x xnumber of clusters123456789101112131415161718192010:前苏联21:巴西8:加拿大2:美国20:墨西哥17:印度19:尼日利亚18:印度尼西6:法国5:英国13:匈牙利16:保加利亚11:捷克15:罗马尼亚7:意大利12:波兰14:南斯拉夫4:德国3:日本9:澳大利亚1:中国case 在前面设置的基础上在前面设置的基础上, ,在在hierarchical hierarchical cluster analysiscluster analysis对话框中单击对话框中单击statisticsstatisti

43、cs按钮按钮, ,打开打开hierarchical cluster hierarchical cluster analysis:statisticsanalysis:statistics 对话框对话框, ,然后在该对话框然后在该对话框中选择两个核选框中选择两个核选框, ,选择选择single solutionsingle solution单选单选钮钮, ,并在后面的窗口中输入数值并在后面的窗口中输入数值2,2,运行过程运行过程, ,生生成表成表1-1-表表5 5。 表表2 2为非相似矩阵。表中为各个个案两两之间的欧氏距离平方值。为非相似矩阵。表中为各个个案两两之间的欧氏距离平方值。p pr r

44、o ox xi im mi it ty y m ma at tr ri ix x.000 3.4e+08 1.1e+09 1.1e+09 1.1e+09 1.0e+09 1.1e+09 1.3e+091780516996.43e+09 1.1e+09 1.1e+091.15e+09109977553211184878151139803687 9.7e+081038990756999119874.36.49e+08 2.3e+093.4e+08.000 1.2e+09 1.3e+09 1.3e+09 1.2e+09 1.3e+09 4.7e+087744595574.22e+09 1.3e+09

45、 1.3e+091.36e+09129147864813167599731342250456 9.8e+08119861687011959955188.23e+08 9.1e+081.1e+09 1.2e+09.000 2464032 6438579 2602467 3692467 9.1e+082.104e+099.40e+09 4187188 27888305483618.32811042.3703638832.5004499173.540 1.9e+071407566.4505154332.21060161341 3.3e+091.1e+09 1.3e+09 2464032.000969

46、976.3659627.9161835.5 1.0e+092.082e+099.63e+09510741.863243.120972842.2511551.170178350.180572821.940 3.3e+071691784.4502436850.53061544245 3.4e+091.1e+09 1.3e+09 6438579969976.3.000 1577923581474.7 1.1e+092.050e+099.74e+09 1020740983994.71038803.4774875.300670199.650928116.210 4.3e+073890431.000252

47、7705.74061258632 3.5e+091.0e+09 1.2e+09 2602467659627.9 1577923.000 1276590 9.7e+082.013e+099.50e+09 2254533 11278113025758.7699858.3201386279.0902335319.250 2.8e+07532624.580644571.40049476188 3.4e+091.1e+09 1.3e+09 3692467161835.5581474.7 1276590.000 1.0e+092.097e+099.71e+09151289.266275.730372915

48、.90102603.880 4580.650161282.170 3.8e+072862483.4203214833.84065875174 3.5e+091.3e+09 4.7e+08 9.1e+08 1.0e+09 1.1e+09 9.7e+08 1.0e+09.0002.312e+094.75e+09 1.0e+09 1.0e+091.06e+09100695380010264452631043454427 6.7e+08927599658.5968765293.67.96e+08 8.0e+081.8e+08 7.7e+08 2.1e+09 2.1e+09 2.0e+09 2.0e+0

49、9 2.1e+09 2.3e+09.0006.67e+09 2.1e+09 2.1e+092.14e+09208017544421032605692130499822 2.0e+09200771595219424341991.46e+09 3.0e+096.4e+09 4.2e+09 9.4e+09 9.6e+09 9.7e+09 9.5e+09 9.7e+09 4.8e+096.672e+09.000 9.8e+09 9.7e+099.82e+09964370903097117433249775621087 8.6e+09937655568194374459018.49e+09 1.7e+0

50、91.1e+09 1.3e+09 4187188510741.8 1020740 2254533151289.2 1.0e+092.132e+099.76e+09.000224339.390109.520444631.500108905.570 6395.170 4.1e+074033246.2804759561.70072317875 3.5e+091.1e+09 1.3e+09 278883063243.120983994.7 112781166275.730 1.0e+092.102e+099.67e+09224339.3.000576212.3759018.25056521.22027

51、5440.820 3.5e+072357024.7303226358.25065488809 3.4e+091.1e+09 1.4e+09 5483618972842.3 1038803 3025759372915.9 1.1e+092.142e+099.82e+0990109.520576212.4.000851381.420325016.93055516.290 4.5e+075228811.0005611766.58075584720 3.5e+091.1e+09 1.3e+09 281104211551.170774875.3699858.3102603.9 1.0e+092.080e

52、+099.64e+09444631.559018.250851381.42.000124366.170489617.770 3.4e+071881373.5802417741.40061750927 3.4e+091.1e+09 1.3e+09 3638833178350.2670199.7650 1.0e+092.103e+099.71e+09108905.656521.220325016.93124366.170.000123151.440 3.8e+072960910.0503432407.61066817123 3.5e+091.1e+09 1.3e+09 4

53、499174572821.9928116.2 2335319161282.2 1.0e+092.130e+099.78e+096395.170275440.855516.290489617.770123151.440.000 4.1e+074225428.9304793473.85072499733 3.5e+099.7e+08 9.8e+08 1.9e+07 3.3e+07 4.3e+07 2.8e+07 3.8e+07 6.7e+081.951e+098.58e+09 4.1e+07 3.5e+074453632234174920.4037948356.7341488672.89.0002

54、0870678.3428439478.6042664934 2.8e+091.0e+09 1.2e+09 1407566 1691784 3890431532624.6 2862483 9.3e+082.008e+099.38e+09 4033246 23570255228811.01881373.5802960910.0504225428.930 2.1e+07.0001273892.82046194930 3.3e+091.0e+09 1.2e+09 5154332 2436851 2527706644571.4 3214834 9.7e+081.942e+099.44e+09 47595

55、62 32263585611766.62417741.4003432407.6104793473.850 2.8e+071273892.820.00040020283 3.3e+096.5e+08 8.2e+08 6.0e+07 6.2e+07 6.1e+07 4.9e+07 6.6e+07 8.0e+081.459e+098.49e+09 7.2e+07 6.5e+077558472061750927.3366817123.1072499733.02 4.3e+0746194929.5740020283.49.000 2.8e+092.3e+09 9.1e+08 3.3e+09 3.4e+0

56、9 3.5e+09 3.4e+09 3.5e+09 8.0e+083.048e+091.65e+09 3.5e+09 3.4e+093.54e+09343319796834725902313508669768 2.8e+09327643440733278951162.84e+09.000case1:中国2:美国3:日本4:德国5:英国6:法国7:意大利8:加拿大9:澳大利亚10:前苏联11:捷克12:波兰13:匈牙利14:南斯拉夫15:罗马尼亚16:保加利亚17:印度18:印度尼西19:尼日利亚20:墨西哥21:巴西1:中国2:美国3:日本4:德国5:英国6:法国 7:意大利8:加拿大9:澳大

57、利亚10:前苏联11:捷克 12:波兰13:匈牙利14:南斯拉夫15:罗马尼亚16:保加利亚17:印度18:印度尼西19:尼日利亚20:墨西哥21:巴西 squared euclidean distancethis is a dissimilarity matrix表表4 4为个案聚为两类时的个案归类表。为个案聚为两类时的个案归类表。表中分别给出了各个案所属的类别。表中分别给出了各个案所属的类别。由于前苏联与其他国家相比由于前苏联与其他国家相比, ,在四项在四项指标上比其他国家高出很多指标上比其他国家高出很多, ,因此被因此被单独归为一类单独归为一类, ,而其他国家归为一类。而其他国家归为一类

58、。cluster membershipcluster membership111111111211111111111case1:中国2:美国3:日本4:德国5:英国6:法国7:意大利8:加拿大9:澳大利亚10:前苏联11:捷克12:波兰13:匈牙利14:南斯拉夫15:罗马尼亚16:保加利亚17:印度18:印度尼西19:尼日利亚20:墨西哥21:巴西2 clusters 在前面设置的基础上在前面设置的基础上, ,在在“hierarchical cluster hierarchical cluster analysis”analysis”对话框中单击对话框中单击“plots”plots”按钮按钮,

59、 ,打开打开“hierarchical cluster analysis:plotshierarchical cluster analysis:plots”对话框对话框, ,选择选择“dendrogramdendrogram”核选框核选框,“hierarchic cluster ,“hierarchic cluster analysis:methodanalysis:method”对话框中的对话框中的“standardize”standardize”下拉式列下拉式列表框中选择表框中选择“z scores”z scores”选项选项, ,然后单击然后单击“continue”continue”按钮

60、按钮, ,回到对话框回到对话框, ,单击单击“ok”ok”按钮按钮, ,运行过程运行过程, ,生成树状图。生成树状图。 图中清晰地表示了聚类的全过程。它将实际的距离按比例调整到图中清晰地表示了聚类的全过程。它将实际的距离按比例调整到025025的范围内的范围内, ,用逐级连线的方式连接性质相近的个案和新类用逐级连线的方式连接性质相近的个案和新类, ,直直至并为一类。在该图中上部的距离标尺上根据需要至并为一类。在该图中上部的距离标尺上根据需要( (粗分或细分粗分或细分) )选定一个划分类的距离值选定一个划分类的距离值, ,然后垂直标尺划线然后垂直标尺划线, ,该垂线将和水平连该垂线将和水平连线相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论