SPSS聚类分析详解ppt课件_第1页
SPSS聚类分析详解ppt课件_第2页
SPSS聚类分析详解ppt课件_第3页
SPSS聚类分析详解ppt课件_第4页
SPSS聚类分析详解ppt课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析聚类分析 聚类分析是研讨样品或目的分类问题的一种多元统计方法。类是指类似元聚类分析是研讨样品或目的分类问题的一种多元统计方法。类是指类似元素的集合。素的集合。分类:分类:1、系统聚类法、系统聚类法-分层聚类系统聚类法是运用最广泛的一种分层聚类系统聚类法是运用最广泛的一种 Hierarchical Cluster过程过程 1、 聚类原那么:都是相近的聚为一类,即间隔最近或最类似的聚为聚类原那么:都是相近的聚为一类,即间隔最近或最类似的聚为 一一类。类。 2、 分层聚类的方法可以用于样本聚类分层聚类的方法可以用于样本聚类Q型,也可以用于变量聚类型,也可以用于变量聚类 R型。型。2、非系统聚

2、类法、非系统聚类法-快速聚类法快速聚类法-K-均值聚类法均值聚类法K-means Cluster)3、两步聚类法、两步聚类法-一种探求性的聚类方法一种探求性的聚类方法TwoStep ClusterK-均值聚类分析均值聚类分析K-means Cluster 又称为快速样本聚类法,是非系统聚类中最常用的聚类法。优点: 是占内存少、计算量小、处置速度快,特别适宜大样本的聚类分析。缺陷: 运用范围有限,要求用户制定分类数目(要告知),只能对观丈量样本聚类,而不能对变量聚类,且所运用的聚类变量必需都是延续性变量。根本原理根本原理详细做法详细做法1、按照指定的分类数目、按照指定的分类数目n,按某种方法选择

3、某些观,按某种方法选择某些观丈量,设为丈量,设为Z1,Z2,Zn,作为初始聚心。,作为初始聚心。2、计算每个观丈量到各个聚心的欧氏间隔。即、计算每个观丈量到各个聚心的欧氏间隔。即 按就近原那么将每个观丈量选入一个类中,然后计按就近原那么将每个观丈量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。算各个类的中心位置,即均值,作为新的聚心。3、运用计算出来的新聚心重新进展分类,分类终了、运用计算出来的新聚心重新进展分类,分类终了后继续计算各类的中心位置,作为新的聚心,如此后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间间隔的最反复操作,直到两次迭代计算

4、的聚心之间间隔的最大改动量小于初始聚类心间最小间隔的倍数时,或大改动量小于初始聚类心间最小间隔的倍数时,或者到达迭代次数的上限时,停顿迭代。者到达迭代次数的上限时,停顿迭代。2112mkjkikjiijxxzxd数据规范化处置:数据规范化处置:存储中间过程数据存储中间过程数据数据规范化处置,并存储。指定5类收敛规范值存储最终结果输出情况,在数据文件中存储最终结果输出情况,在数据文件中QCL-1、QCL-2初始聚心选项,输出方差分析表初始聚类中心表详细城市看后表最终聚类中心表最终聚类中心表聚类结果:聚类结果:QCL-1阐明聚类结果,阐明聚类结果,QCL-2阐明聚类的长度情况阐明聚类的长度情况系统

5、聚类法系统聚类法Hierarchical Cluster系统聚类法优点:系统聚类法优点: 既可以对观丈量样品也可对变量进展既可以对观丈量样品也可对变量进展聚类,既可以延续变量也可以是分类变量,提聚类,既可以延续变量也可以是分类变量,提供的间隔计算方法和结果显示方法也很丰富。供的间隔计算方法和结果显示方法也很丰富。运用实例运用实例某电冰箱厂开发某一新产品,在投放市场前希望对以往经销某电冰箱厂开发某一新产品,在投放市场前希望对以往经销的国内的国内6 6个地域征集对新产品的评价,假设对新产品的评价个地域征集对新产品的评价,假设对新产品的评价目的有三项:式样、性能、颜色,评价的调整表采用目的有三项:式

6、样、性能、颜色,评价的调整表采用1010分制,分制,调查结果的数据如下表调查结果的数据如下表 1 2 3 4 5 6 性能 9 1 10 9 2 8 颜色 8 2 7 9 4 6 式样 7 2 8 3 5 7 地域样品目的用分类法对用分类法对6 6个样品进展分类,以估计哪些地域最有能够经销个样品进展分类,以估计哪些地域最有能够经销这类新产品?这类新产品?按公式计算两两样品间的类似系数,得类似矩阵按公式计算两两样品间的类似系数,得类似矩阵)()(ijijqCosQ1916. 0921. 01928. 0994. 01787. 0899. 0994. 0910. 01927. 0841. 0955

7、. 01914. 0994. 01933. 01 1 2 3 4 5 6 123456Q =按四条原那么进展分类按四条原那么进展分类作聚类分析图作聚类分析图X3X6X1X4X2X510.9940.9550.9940.933一、问题提出一、问题提出聚类分析聚类分析对一批样品或目的进展分类的一种统对一批样品或目的进展分类的一种统 计方法。计方法。详细处置方法:思绪详细处置方法:思绪1 1、详细研讨的分类对象:样品或目的、详细研讨的分类对象:样品或目的2 2、方法:把、方法:把“性质类似性质类似或或“相互关系亲密相互关系亲密的样品的样品或目的聚在一同。或目的聚在一同。3 3、步骤:、步骤:1 1首先

8、给出度量首先给出度量“类似类似或或“关系亲密关系亲密的的统计目的统计目的 2 2构成一个由小到大的分析系统。构成一个由小到大的分析系统。3 3把整个分类系统画成一张分类图把整个分类系统画成一张分类图3 3相关系数相关系数4 4关联络数关联络数 目的:目的:1 1统计目的是类似系数。统计目的是类似系数。 根据类似性归为一类,否那么为另一类。根据类似性归为一类,否那么为另一类。 2 2统计目的是样品空间的点之间的间隔统计目的是样品空间的点之间的间隔 将间隔近的点归成一类,否那么为另一类。将间隔近的点归成一类,否那么为另一类。二、聚类统计量二、聚类统计量首先定义一些分类统计目的首先定义一些分类统计目

9、的 描写样或目的之描写样或目的之间的类似程度这些统计目的称为聚类统计量间的类似程度这些统计目的称为聚类统计量在市场研讨中,样品在市场研讨中,样品 用作分类的事物用作分类的事物 目的目的 用来作为分类根据的变量。用来作为分类根据的变量。如:年龄、收入、销售量如:年龄、收入、销售量一类似系数夹角余弦 普通式:假定每个样品包含有P项目的,假设有几个样品的调查数据pXXXX112111pXXXX222212npnnnXXXX21每一个样品都可看成P维空间中的一个向量对于恣意两个样品Xi和Xj的类似程度可用这两个向量之间的夹角余弦 ijCos来表示:Xi和Xj相重合时,夹角0ij类似程度为100CosC

10、osijXi和Xj相互垂直时,2ij类似程度为02CosCosij类似亲密解析几何知识:类似系数pkpkjkikpkjkikjijiijXXXXXXXXCos11221其中:ipiiiXXXX21jpjjjXXXX2111ijCos假设把上述假设把上述n n个样品的任何两个样品的类似系数个样品的任何两个样品的类似系数),2,1,(njiCosij都计算出来并陈列成一都计算出来并陈列成一个矩阵:个矩阵:nnnnnnCosCosCosCosCosCosCosCosCos212222111211根据算出的根据算出的,就可对n个样品进展聚类用类似系数作为聚类统计量时的分类方法用类似系数作为聚类统计量时

11、的分类方法1 1、分类原那么:、分类原那么: 1 1假设选出一对样品,在已分好的类中未出现,那假设选出一对样品,在已分好的类中未出现,那么构成一个独立新类。么构成一个独立新类。 2 2假设选出两个样品中,有一个是在已分好的类中假设选出两个样品中,有一个是在已分好的类中出现过,那么把另一个样品也参与到该类中去。出现过,那么把另一个样品也参与到该类中去。 3 3假设选出一对样品,都分别出现曾经分好的两类假设选出一对样品,都分别出现曾经分好的两类中,那么把这两个类结合在一同。中,那么把这两个类结合在一同。 4 4假设选出的一对样品都出如今同一组中,那么这假设选出的一对样品都出如今同一组中,那么这对样

12、品就不用再分组了。对样品就不用再分组了。按上述四条原那么反复进展,直到把一切样品都分类终按上述四条原那么反复进展,直到把一切样品都分类终了,最后以分类图方式表示了,最后以分类图方式表示2 2、分类方法、分类方法例:设有例:设有7 7个样品,每个样品测得个样品,每个样品测得P P个目的,数据如表个目的,数据如表 X1 X2 X3 X4 X5 X6 X7PXXX21样品目的要求对此要求对此7 7个样品进展聚类,采用的聚类统计量是个样品进展聚类,采用的聚类统计量是类似系数夹角余弦类似系数夹角余弦pkpkjkikpkjkikjijiijXXXXXXXXCos11221首先计算一切的两个样品间的类似系数

13、首先计算一切的两个样品间的类似系数)()(ijijqCosQ124. 016. 030. 020. 041. 024. 0152. 015. 092. 067. 020. 0174. 054. 001. 097. 0186. 091. 081. 0183. 094. 0151. 01 1 2 3 4 5 6 71234567Q =按矩阵中的数值对按矩阵中的数值对7 7个样品按四个原那么进展聚类个样品按四个原那么进展聚类124. 016. 030. 020. 041. 024. 0152. 015. 092. 067. 020. 0174. 054. 001. 097. 0186. 091. 0

14、81. 0183. 094. 0151. 01 1 2 3 4 5 6 71234567Q =顺序 连结样品 类似系数123456 X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6按矩阵中的数值对按矩阵中的数值对7 7个样品按四个原那么进展聚类个样品按四个原那么进展聚类1 1、记下、记下Q Q中最大值中最大值q15=0.97q15=0.97,划去,划去Q Q中的第中的第5 5行第行第5 5列列2 2、记下、记下Q Q中剩余元素最大值中剩余元素最大值

15、q13=0.94q13=0.94,划去,划去Q Q中的第中的第3 3行第行第3 3列列行3 3记下记下Q Q中剩余元素最大值中剩余元素最大值q24=0.91q24=0.91,划去,划去Q Q中的第中的第4 4行第行第4 4列列4 4记下记下Q Q中剩余元素最大值中剩余元素最大值q26=0.67q26=0.67,划去,划去Q Q中的第中的第6 6行第行第6 6列列5 5记下记下Q Q中剩余元素最大值中剩余元素最大值q12=0.51q12=0.51,划去,划去Q Q中的第中的第2 2行第行第2 2列列6 6记下记下Q Q中剩余元素最大值中剩余元素最大值q17=0.24q17=0.24作聚类图:作聚

16、类图:X1X5X3X2X4X6X70.970.940.910.670.510.242 2利用相关作聚类分析利用相关作聚类分析例:设有例:设有n n个样品,每个样品测得个样品,每个样品测得8 8个目的个目的X1X1,X2X2,X8X8。要求对。要求对8 8个目的进展聚类,聚类统计个目的进展聚类,聚类统计量采用相关系数量采用相关系数ijr22jjkiikjjkjikijXXXXXXXXr设相关矩阵设相关矩阵R = R = 为:为:ijr188. 045. 049. 078. 051. 080. 038. 0149. 050. 073. 015. 068. 045. 0196. 049. 096.

17、053. 099. 0187. 094. 046. 094. 0149. 093. 045. 0157. 096. 0147. 01 1 2 3 4 5 6 7 812345678顺序 连结样品 类似系数1234567 X1 X6 0.99 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7R=按矩阵按矩阵R中数值对中数值对8个目的按四个原那么进展聚类:个目的按四个原那么进展聚类:1记下矩阵中的最大值记下矩阵中的最大值99. 016r,划去第

18、,划去第6行第行第6列列2记下矩阵中的最大值记下矩阵中的最大值96. 013r,划去第,划去第3行第行第3列列以此类推。以此类推。作聚类图:X1X6X3X4X2X7X5X80.990.960.930.680.490.47-0.94主要城市日照时数注:延续变量注:延续变量SPSS提供不同类间提供不同类间间隔的丈量方法间隔的丈量方法1、组间衔接法、组间衔接法2、组内衔接法、组内衔接法3、最近间隔法、最近间隔法4、最远间隔法、最远间隔法5、重心法、重心法6、中位数法、中位数法7、Ward最小偏向平最小偏向平方和法方和法观丈量概述表聚类步骤,与图结合看!4、5聚类方法有系统聚类和逐渐聚类,输入数据集可

19、以是普聚类方法有系统聚类和逐渐聚类,输入数据集可以是普通数据集、相关矩阵通数据集、相关矩阵CORR过程产生或协方差矩阵过程产生或协方差矩阵FACTOR等过程产生。等过程产生。SAS提供的聚类过程有:提供的聚类过程有:1、CLUSTER对坐标数据或间隔数据的观测值用对坐标数据或间隔数据的观测值用11种方种方法进展系统聚类,当观测值数太多时,不宜直接采用。法进展系统聚类,当观测值数太多时,不宜直接采用。2、FASTCLUS对于坐标数据,用对于坐标数据,用K-均值法对观测值进均值法对观测值进展逐渐聚类,当观测值很多时,那么先用展逐渐聚类,当观测值很多时,那么先用FACTCLUS过过程对其进展初步聚类

20、,然后再用程对其进展初步聚类,然后再用CLUSTER过程进展系过程进展系统聚类。统聚类。3、VARCLUS经过斜交多组分量分析对变量进展系统聚经过斜交多组分量分析对变量进展系统聚类或逐渐聚类。类或逐渐聚类。4、TREE为为CLUSTER或或VARCLUS过程产生的输出画过程产生的输出画树状图。树状图。CLUSTER过程过程开场每个观测值自成一类,然后求两两之间的间隔,开场每个观测值自成一类,然后求两两之间的间隔,将间隔最近的两个观测值合成一类。这个过程不断将间隔最近的两个观测值合成一类。这个过程不断进展下去,每次减少一类,直到合成一类为止。进展下去,每次减少一类,直到合成一类为止。聚类方法有聚

21、类方法有11种,可根据问题的性质选用,它们的种,可根据问题的性质选用,它们的区别在于怎样计算两类之间的间隔。区别在于怎样计算两类之间的间隔。METHOD=指定方法指定方法AVERAGE平均法、平均法、CENTROID重心法、重心法、COMPLETE最大间隔法、最大间隔法、DENSITY密度密度法、法、MEDIAM中位数法等中位数法等美国十个城市的分类美国十个城市的分类根据两个城市见航空间隔将美国十个大城市作根据两个城市见航空间隔将美国十个大城市作分类分类聚类分析聚类分析SAS程序:程序:原始数据是两两之原始数据是两两之间间隔的三角阵间间隔的三角阵而不是坐标而不是坐标输入格式输入格式55列为城市

22、列为城市15位位平均法平均法重心法重心法最小间隔法最小间隔法输出输出F及及t统计量统计量观测值之间间隔的均方根观测值之间间隔的均方根输出结果:输出结果:类数类数指出被合并的类指出被合并的类新类中的观测值数新类中的观测值数类间间隔除以类间间隔除以观测值间间隔观测值间间隔均方根得来均方根得来F、t*2峰值峰值(起伏起伏)越大越大阐明分类显著阐明分类显著研讨各种饮料在市场消费的分配规律,试确定各种饮料消费类型研讨各种饮料在市场消费的分配规律,试确定各种饮料消费类型聚类分析的第几步聚类分析的第几步哪两个样本或小哪两个样本或小类聚成一类类聚成一类相应的样本间隔相应的样本间隔或小类间隔或小类间隔指明是样本指明是样本(0)还还是小类是小类(n)下面第几下面第几步用到步用到垂直冰柱图垂直冰柱图显示层次聚显示层次聚类分析类分析从冰柱图最从冰柱图最后一行开场后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论