实习5_使用SPSS软件聚类分析_第1页
实习5_使用SPSS软件聚类分析_第2页
实习5_使用SPSS软件聚类分析_第3页
实习5_使用SPSS软件聚类分析_第4页
实习5_使用SPSS软件聚类分析_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用spss软件聚类分析模型网上有软件下载12-道路&匡川(1595590411)21:08:02thanks陈航(1258924978)21:08:20也有聚类分析的操作点鼠标的。不用编程12-道路 &匡川(1595590411)21:09:28就是spss里面自带的吗?陈航(1258924978)21:09:36对你可以把1到12月份作为因素或者你在分一下12-道路 &匡川(1595590411)21:11:33B,学长果然给力陈航(1258924978)21:12:11就是每个地区有1到12月的下雨不同的量。根据这个12个因素可以把相似的归 在一起相似的地区还是实习5使用SPSS软件聚类分

2、析聚类分析的功能是建立一种分类方法,将一批样品或变量,按照它们在性质上的相似 程度进行分类,把相似程度大的并成一类,而把相似程度小的分为不同的类。定量的表示样品或变量间的相似程度的统计量很多,但其中常用的还是 距离统计量和相关系数统计量 。在实际工作中,当需要研究样品与样品之间的关系时,一般用距离系数统计量作为分类计算的依据,这种方法又称为 Q型聚类法;当需要研究变量与变量之间的关系时,常用相关系数 统计量作为分类计算的依据,这种方法又称为R型聚类法。通常在距离系数中常用的统计量为欧氏距离,而系统聚类法则是聚类分析中应用最广泛的一种方法。应用系统聚类法进行聚类分析的步骤如下:1、确定待分类样品

3、的指标;2、收集数据;3、对数据进行变换处理(如标准化) ;4、使各个样品自成一类,即 n 个样品一共有 n 类;5、计算各类之间的距离, 得到距离对称矩阵, 将距离最近的两个类合并成一个新的类;6、并类后,如果类的个数仍然大于1,那么重新计算各类之间的距离,继续并类,直至所有样品都归为一类为止;7、绘制系统聚类谱系图,根据不同的分类标准或不同的分类原则,得到不同的分类结 果。一、实习目的通过本次实习,掌握利用 SPSS 统计软件进行聚类分析的数据处理方法及谱系图(树状 图)的绘制方法。二、方法利用 SPSS 软件对数据进行处理,选择合适的统计量绘制谱系图,步骤如下:1、根据地质研究的需要,获

4、得聚类分析的原始数据。2、对原始数据进行规格化处理,消除因量级或量纲不同而带来的影响,得到相对一致 的数据。3、根据研究分类的对象,选择并计算相似性统计量,获得初始相似性系数矩阵。4、由初始相似性系数矩阵出发,归并点群并绘制谱系图。5、解释谱系图。三、实例现有某矿床围岩测试分析数据(表7-1),应用 SPSS 统计软件对数据进行分析处理,做出相应的谱系图,并解释其地质意义。表7-1某矿床围岩测试分析数据含量 ( %)编号岩石类型矿化情况NiCoCuCrSAs1蛇纹岩a组矿化3.282.442.23.073.910.62蛇纹岩无矿化3.371.90.783.52.771.153蛇纹岩无矿化2.8

5、71.4102.922.630.484滑镁岩b组矿化3.442.442.183.383.921.575滑镁岩无矿化3.251.971.113.51.7306滑镁岩无矿化2.021.640.783.322.020.6实例操作步骤如下:1、SPSS中输入原始数据。2、 菜单栏中选择 AnalyzeClassify Hirarchical Cluster(分层群集法)(图 7-1)。图7-1选择分层群集法3、弹出Hierarchical Cluster Analysis ”对话窗口,选择变量将其移入到Variables栏,在“ Label Cases by”栏内移入分类标准(实例分类标准为岩性);若

6、进行Q型聚类分析,在“Cluster”中选择Cases选项,若进行的是 R型聚类分析,则在Cluster”中选择Variables”选项。本实例参数设置如图7-2所示。图 7-2 Hierarchical Cluster Analysis 对话窗口参数设置4、在Hierarchical Cluster Analysis ”对话框中单击Method ” 按钮,打开Hierarchical Cluster Analysis : Mothod ”对话框,选择群集法Between groups linkage”,距离测度采用Interval ”的Squared Euclidean Distance”

7、(欧氏距离平方和),在Transform Values”中选 择Zscores (注意:仅限于数据没有标准化时采用)。本实例参数设置如图7-3所示。单击Co nti nue ”返回主对话框。nieraxcliLcal CLuslerlettudXCunti nut:Cann IHelp图7-3选择合适的距离参数5、单击Statistics”按钮,弹出Hierarchical Cluster Analysis : Statistics” 对话框,选 择输出Agglomeration schedule (群数凝聚顺序表)、Proximity matrix (相似矩阵)。本实例参 数设置如图7-4所

8、示。单击Continue”返回主对话框。Wflin Alarm VB|LIE-SSundardizc: oaireo* ByyarinblrTrAnsilnrrn Mimamru厂 Abbulult valuttChange signReecah to 01 rngenieraxcliLcal CLuslerlettudX6、单击 “ Plots按钮,弹出 “Hierarchical Cluster Analysis :Plots对话框,选择Dendrogram ”(树型图)选项,在“ Orientation ”(方向)中选择垂直或水平方向。本实例参数设置如图7-5所示。单击Continue”

9、返回主对话框。图7-4输岀相似矩阵图7-8聚类分析表图7-5设置谱系图方向7、单击0K,系统自动运行,在输出窗口中显示结果列表(图 7-6图7-10)。Case Process ing SummaryCasesValidMissi ngTotalNPerce ntNPerce ntNPerce nt6100.0%0.0%6100.0%a. Squared Euclidean Distanee used图7-6数据处理概况Proximity MatrixSquared Euclidean DistanceCase1:蛇纹岩2:蛇纹岩3:蛇纹岩4:滑镁岩5:滑镁岩6:滑镁岩1:蛇纹岩.00010.

10、44018.4375.41212.91813.1582:蛇纹岩10.440.00014.8416.8256.0995.1623:蛇纹岩18.43714.841.00028.95514.0624.8794:滑镁岩5.4126.82528.955.00017.56817.4855:滑镁岩12.9186.09914.06217.568.0003.7576:滑镁岩13.1585.1624.87917.4853.757.000This is a dissimilarity m atrix图7-7相似矩阵Agglomerat ion ScheduleCluster Com binedStage Clust

11、er First AppearsStageCluster 1Cluster 2CoefficientsCluster 1Cluster 2Next Stage1563.7570032145.4120053255.63101442311.26130551215.723240Vert ical Iciclee s a3蛇纹岩6:滑镁岩5:滑镁岩2蛇纹岩4滑镁岩1:蛇纹岩1 2 3 4 5xxxxxX XxxxxxxxxxxxxxxxXXXxxxxxXxxxxxxxxxxxxxx图7-9冰柱图*HIERARCHICiL CLUSTER AMALYSI S*DendrciaiK UfihfLirJca

12、tv (Between Groups)Rescaled Distatuce Cluster CoBbineCASE 061016汕25Lab 启Rxmi 片 * *4tU 5 -j -滑谓岩G -t!E2- -E毁岩3-代滾君 I - -滑懺苦 4-图7-10谱系图8、地质解释分析谱系图7-10可知,当欧氏距离系数在 515时,六个样品明显地分成三群,一群 是矿化的蛇纹岩(1号)和滑镁岩(4号);另一群是无矿化的蛇纹岩(2号)和滑镁岩(5 号、6号);3号为孤立样品。因此,在没有已知矿化岩体作对比的情况下,用Q型聚类分析可以较好地区分含矿岩体与不含矿岩体。|四、实习学习、理解聚类分析的原理、方

13、法,通过实例训练掌握采用SPSS软件进行数据聚类分析的基本流程。对实习数据中的“电子数据 7”,采用SPSS软件进行聚类分析处理,并解释 其地质意义。基于SPSS的聚类分析的实用方法(层次聚类法和迭代聚类法)层次聚类法和迭代聚类法的主要区别在于:层次聚类法的聚类结果受奇异值的影 响非常大,且聚类过程是单方向的,一旦某个样本进入某一类,就不可能从该类出 来,再归入其他的类;迭代聚类法的聚类结果受奇异值和不合适的聚类变量的影响 较小,对于不合适的初始聚类可以进行反复调整,但其缺点是聚类结果对初始聚类 非常敏感,而且它也只能得到局部最优解.(一)层次聚类An alyze- C1assify-Hier

14、achical Cluster在“C1uste组中选择聚类类型:要进行变量聚类选择指定 “Vanables;要进行观 测量聚类指定“ Cases。指定参与分析的变量,将选定的变量通过按钮箭头转移到箭头按钮右侧的“Variables ”矩形框中;将标识变量通过下面一个箭头按钮转移到按钮右侧的“ Label Cases by:下面的矩形框中。如果不使用系统默认值,或由于参与分析的变量量纲不一致需要指定选择项,则应该根据需要有选择性地执行下述某些步骤。1 .确定聚类方法在主对话框中,点击“ Methed按钮,展开分层聚类分析的方法选择对话框,即“ Hierachical Cluster Analys

15、is : Method”。在对话框中根据需要指定聚类方法、距离测度的方法、对数值进行转换方法,即标准化数值的方法和对测度的转换方法。(1) 聚类方法选择“ C1uster Method: ”表中列出可以选择的聚类方法:Betwee n-groups lin kage 组内连接Within-groups linkage 组内连接Nearest neighbor 最近邻法Furthest neighbor 最远邻法Centroid clustering 重心聚类法Median clustering 中位数法Ward s method Ward 最小方差法。(后三种聚类方法应与欧氏距离平方法一起使用

16、)几种方法的具体情况见下面的英文文档(2) 对距离的测度方法选择在Method中指定的是用哪两点间的距离的大小决定是否合并两类。距离的具体计算方法还根据参与距离的变量类型从以下三种对话框选择其一,展开选择菜单后再进行具体方法的选择。这三个对话框分别对应于等间隔测度的变量(一般为连续变量)、计数变量(一般为离散变量)和二值变量。这里只考虑连续变量的 情况“I nterval系统默认)Euclidean distanee : Euclidean距离,即两观察单位间的距离为其值差的平方和的平方根,该技术用于 Q型聚类;Squared Euclidean distanee : Euclidean距离平

17、方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类;Cosine :变量矢量的余弦,这是模型相似性的度量;Pearson correlation :相关系数距离,适用于 R型聚类;Chebychev : Chebychev距离,即两观察单位间的距离为其任意变量的最大绝 对差值,该技术用于Q型聚类;Block : City-Block或Manhattan距离,即两观察单位间的距离为其值差的绝对 值和,适用于Q型聚类;Minkowski :距离是一个绝对幕的度量,即变量绝对值的第p次幕之和的平方根; p由用户指定Customized :距离是一个绝对幕的度量,即变量绝对值的第p次幕之和的

18、第r次根,p与r由用户指定。(3) 确定标准化的方法:“Transform Value ”“Standardize下为标准化列表对数据进行标准化的可选择的方法有: None不进行标准化,是系统默认值。 Z scores把数值标准化到Z分数。 Range -1to l把数值标准化到-1到+1范围内。选择该项,对每个值用变量或观测量的值的范围去除。如果值范围是0,所有值保持不变。 Maximum magnituds of 1 把数值标准化到最大值为 1。该方法是把正在标准 化的变量或观测量的值用最大值去除。如果最大值为 0,则改用最小值去除,其 商加1。 Range 0 to 1把数值标准化到0到

19、1的范围内,对正在被标准化的变量或观 测量的值剪去最小值,然后除以范围。如果范围是 0,对变量或观测量的所有值 都设置成0.5。 Mean of 1把数值标准化到一个均值的范围内,对正在被标准化的变量或观测量的值除以这些值的均值。如果均值是0,对变量或观测量的所有值都加1,使其均值为1。 Standard deviation of 1 把数值标准化到单位标准差。该方法对正在被标准 化的变量或观测量的值除以这些值的标准差,如果标准差为 0,则这些值保持不 变。(4) 测度的转换方法选择对距离测度数值进行转换,在距离计算完成后进行。可选择的转换方法有三种,在“Methc对话框右下角的标有 “Tra

20、nsform Mearure的框中选择。 Absolute Values把距离值标准化。当数值符号表示相关方向,且只对负相 关关系感兴趣时使用此方法进行变换。 Change sign把相似性值变为不相似性值,或相反。用求反的方法使距离顺 序颠倒。 Rescale to 0- 1 range 通过首先去掉最小值然后除以范围的方法使距离标 准化。对于已经按某种换算方法标准化了的测度,一般不再使用此方法进行转换。2 .选择要求输出的统计量:Statistics对话框Aggomerati on schedule 输出聚合过程表Proximity matrix :输出的是每个案例之间的欧氏距离平方表(Q

21、型聚类)。Cluster membership决定聚合的群数。试探性地做时就选 none,做完后根据判 断的合适的群数在输入确定的群数,这时会得出一个更多的结果clustermembership,即在此群数下,各案例所属的群。当然也可选择Range of solutions 确定群数的范围。3 选择统计图表:PlotDendrogram 树形图;Icicle冰柱图:对于生成什么样的冰柱图还可以进一步用以下选择项确定:All clusters聚类的每一步都表现在图中。可用此种图查看聚类的全过程。但如 果参与聚类的个体很多会造成图过大,没有必要。可以使用下面一个选择项限定显示的范围。Specifi

22、ed range of clusters指定显示的聚类范围。当选择此项时,该项下面的选择框加亮,表示等待输入显示范围。在Start后的矩形框中输入要求显示聚类过程的起始步数,在Stop后的矩形框中输入显示中止于哪一步,把显示的两步 之间的增量输入到By后面的矩形框中。输入到矩形框中的数字必须是正整数。例如,输入的结果是:Start: 3 Stop : 10 By : 2生成的冰柱图从第三步开始,显示第三、五、七、九步聚类的情况。None:不生成冰柱图对于显示方向可以用Orientation下面的选择项确定:Vertical纵向显示的冰柱图。(系统默认)HoriZontal显示水平的冰柱图。4

23、.生成新变量的选择:save聚类分析的结果可以用新变量保存在工作数据文件中。单击主对话框的“ saveR钮,展开相应的对话框。可以看出只能生成一个表明参与聚类的个体最 终被分配到哪一类的新变量。通过对话框可以选择是否建立新变量和建立的新变 量含义。None不建立新变量。Single solution :单一结果。生成一个新变量表明每个个体聚类最后所属的类。 在该项后面的矩形框中指定类数。如果指定5 clusters,则新变量的值为1- 5。Range of solutions :指定范围内的结果。生成若干个新变量,表明聚为若干个 类时,每个个体聚类后所属的类。在该项后商的矩形框中指定显示范围,

24、即把表示从第几类显示到第几类的数字分别输入到From后面的矩形框和through后面的矩形框中。例如输入结果是“From 4 through 6,”在聚类结束后在数据窗中原变量后面增加了 3个新变量分别表明分为4类时、分为5类时和分为6类时的 聚类结果。即聚为4、5、6类时各观测量分别属于哪一类。新变量选择完成后按“ Continue按钮,返回到主对话框。(二)迭代聚类An alyze- C1assify- K-Mea ns Cluster“ Methed框,给出两个可选择的聚类方法:1)Iterate and classify 选择初始类中心,在迭代过程中使用k-Means算法不断更换类中心

25、,把观测量分派到与之最近的以类中心为标志的类中去;2)Classify only只使用初始类中心对观测量进行分类。Number of clusters输入通过层次聚类或其他方式得出的聚类的合适的层数。“ Cluster Centers对话框有两项:1)选择Read initial from 要求使用指定数据文件中的观测量作为初始类中心。 选择此项单击鼠标键后,再按其后的“Fiie按钮,显示选择文件的对话框,指定 文件所在位置(路径)和文件名。按 “0P按钮返回。在“Center选择框中的“fi1e 按钮后面显示文件全名(包括路径)。2)选择Write fin al as要求把聚类结果中的各类中

26、心数据保存到指定的文件中。 操作方法与上相似。save对话框中有两项:1) 选择Cluster Membership 建立一个新变量,系统默认变量名为那 qc1_1。其 值表示聚类结果,即各观测量被分配到哪一类。其值为 1、2、3的序号。该变 量存人输入数据文件(New Data窗中)。2) 选择Distanee from cluster center 建立一个新变量。系统默认变量名为那qc1_2。聚类结束后把各观测量距所属类中心间的欧氏距离存入输入数据文件(数据窗中)。Iterate对话框:设置迭代参数的对话框。如果选择了 “Iterate and classify方法进行聚类,还可以 进一

27、步选择迭代参数。Maximum Iterations :限定K-Means算法中的迭代次数。改变后面框中的数 字,则改变迭代次数。当达到限定的迭代次数时迭代停止。系统默认值为10。2) Co nverge nee Criterio n :指定聚类判据。其值必须大于 0,小于1。系统默认 值为0.02。即当两次迭代计算的最小的类中心的变化距离小于初始类中心距离 的百分之二时迭代停止。3) Use Running mea ns 选择此项,限定在每个观测量被分配到一类后即刻计算 新的类中心。如果不选择此项,则在完成了所有观测量的一次分配后再计算各类 的类中心。不选择此项会节省迭代时间。Option对话框:输出统计量的选择项与缺失值处理在Statitstacs组中可以选择要求计算和输出的统计量有:Initia1 c1uster centers 初始类中心ANOVA table方差分析表C1uster in formation for each case 每个观测量的分类信息。如分配到哪一类和 该观测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论