SPSS数据的聚类分析.ppt_第1页
SPSS数据的聚类分析.ppt_第2页
SPSS数据的聚类分析.ppt_第3页
SPSS数据的聚类分析.ppt_第4页
SPSS数据的聚类分析.ppt_第5页
免费预览已结束,剩余51页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/9/8,1 zf,聚类分析 (Cluster Analysis),知识要点: 1、什么是聚类分析? 2、理解聚类分析的基本思想 3、聚类分析的相似性度量 4、系统聚类法( Hierarchical Cluster )和快速聚类(k-means)的基本思想 5、结合SPSS软件进行案例分析 6、聚类分析的应用,2020/9/8,2 zf,例1:谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(如用性别、年龄等

2、变量来刻画),聚类分析的应用:无处不在,为什么这样分类? 有何好处?,因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。 挖掘有价值的客户,并制定相应的促销策略:对经常购买酸奶的客户;对累计消费达到12个月的老客户。 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,2020/9/8,3 zf,例2:谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时

3、候送上一个小蛋糕!,2020/9/8,4 zf,如何实现聚类? -聚类分析的基本思想和方法,1、什么是聚类分析? 聚类分析: 是根据“物以类聚”的道理,对样品或指标进行分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强的一种多元统计分析方法。 聚类分析的目的:把相似的研究对象归成类;即:使类内对象的相似性最大化和类间对象的差异性最大化。,问题的关键:如何刻画研究对象(样品或指标)间的相似性?有哪些方法可以实现研究对象的分类呢?,2020/9/8,5 zf,系统聚类(又称为层次聚类Hierarchical cluster):凝聚式系统聚类、分解式系统聚类 非系统聚类(又称为非层次聚

4、类non- hierarchical cluster ):如K均值法(快速聚类法),2、聚类分析的方法,2020/9/8,6 zf,凝聚式,分解式,以系统聚类法为例,2020/9/8,7 zf,二、相似性度量,1、相似性的度量指标: 相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; 距离:变量或样本间的距离越近,说明其相似性越高,应归为一类;距离越远则说明相似性越弱,应归为不同的类。,样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类)常以相似系数刻画相似性,2020/9/8,8 zf,

5、常用距离: 1)明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式: 1a)绝对距离(Block距离):当g=1时,2020/9/8,9 zf,1b)欧氏距离(Euclidean distance):当g=2时 1c)切比雪夫距离:当 时,2020/9/8,10 zf,例:横轴 代表重量(单位:kg),纵轴 代表长度(单位:cm)。有四个点A,B,C,D,见图。,明氏距离及其特殊形式的缺陷,2020/9/8,11 zf,2020/9/8,12 zf,以上几种距离主要有以下两个缺点: 距离的值受到各指标的量纲的影响,具有一定的人为性。 距离的定义没有考虑各个变量之间的

6、相关性和重要性。,如何克服以上的缺点?,2020/9/8,13 zf,标准化处理:当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理: 其中: 为第j个变量的样本均值; 为第j个变量的样本方差。 改进距离的定义,运用马氏距离。,2020/9/8,14 zf,2)马氏距离,克服量纲的影响,克服指标间相关性的影响,缺点:协方差矩阵难以确定,2020/9/8,15 zf,1、最短距离(Nearest Neighbor),类Gp与类Gq之间的距离Dpq :,其中,d(xi,xj)表示点xi Gp和xj Gq之

7、间的距离,以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。,三、类和类之间的距离度量,2020/9/8,16 zf,例1:为了研究辽宁省5省区某年城镇居民生活消费的 分布规律,根据调查资料做类型划分,2020/9/8,17 zf,G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海 采用欧氏距离得到的距离矩阵: 1 2 3 4 5 1 0 2 11.67 0 D1= 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,

8、G4,2020/9/8,18 zf,d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06 d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0 D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0 d71=d(3,4,5)1=mind13,d14,d15=12.80 d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2 D3= 7 0 1 12.80 0 2 23.54 11.67 0,河南、甘肃与青海并为一新类G7=G6,G5=G

9、3,G4,G6,G8=G1,G2,2020/9/8,19 zf,d78=mind71,d72=12.80 7 8 D4= 7 0 8 12.8 0 河南3 甘肃4 青海5 辽宁1 浙江2,2020/9/8,20 zf,2、最长距离(Furthest Neighbor ),以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。,2020/9/8,21 zf,(3)组间平均连接(Between-group Linkage),为所有样本对间的平均距离。 利用了所有样本对距离的信息,2020/9/8,22 zf,(4)组内平均连接( Within-group Linka

10、ge),对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对.,2020/9/8,23 zf,(5)重心法 (Centroid method):,类均值点的距离,2020/9/8,24 zf,(6)离差平方和法 (Wards method ),2,4,1,5,6,5,2020/9/8,25 zf,红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25 黄绿(6,5,1,5)14.75 离差平方和增加14.758.56.25 黄红(2,4,1,5)10100 故按该方法的连接,黄红首先连接。,先将n个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离

11、差平方和S增加最小的两类合并,直至所有样本归为一类为止。,2020/9/8,26 zf,四、系统聚类法,系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。事先不用确定分多少类 SPSS系统聚类法:凝聚式系统聚类法 1、所有的研究对象各自算作一类,将最“靠近” 的首先聚类 2、再将这个类和其它类中最“靠近”的结合,直至所有的对象都合并为一类为止 SPSS处理: 分析(Analyze) 分类(Classify) 系统聚类(Hierarchical Cluster),2020/9/8,27 zf,案例分析,某年度 31个省市自治区小康指数的聚类分析 (见数据:聚类分析(小康指数)

12、.SAV),2020/9/8,28 zf,SPSS操作: 1、AnalyzeClassifyHierarchical Cluster 2、把聚类的依据变量X1(综合指数)、 X2 (社会结构)、 X3 (经济与技术发展)、 X4 (人口素质)、 X5 (生活质量)、 X5 (法制与治安)等选入Variables对话框 3、把dq(省市)变量选入Label case by样本标注对话框 4、在Cluster选Cases,表示是对31个省市自治区(样本)进行聚类,2020/9/8,29 zf,点击统计量(Statistics)按钮出现对话框:,选入聚类的依据变量X1(综合指数)、 X2 (社会结构

13、)、 X3 (经济与技术发展)、 X4 (人口素质)、 X5 (生活质量)、 X5 (法制与治安)等,对样本进行标注,对样本进行聚类,2020/9/8,30 zf,Statistics对话框:,分类信息表(Cluster membership):无(None)表示不列示分类信息表;单一方案(Single solution)指定分为某一类的分类信息表;方案范围(Range of solution)指定分为某一类的分类信息表。,也称凝聚状态表,相似性矩阵表,分类信息表,若要显示分为3类的情况,则在此填入3,若要显示分为3、4、5类的情况,则在From 后填3在through后填5,2020/9/8

14、,31 zf,点击绘制(Plots)按钮出现以下对话框:,树形结构图,冰柱图,列示所有分类的冰柱图,列示指定某几类分类结果的冰柱图,不列示冰柱图,冰柱图列示方向,2020/9/8,32 zf,点击方法(Method)按钮出现以下对话框:,选择类与类之间距离的度量方式;系统默认为组间平均法,选择相似性的度量指标,系统默认为平方欧氏距离,数据标准化处理方式选择;系统默认为不进行标准化处理,2020/9/8,33 zf,点击保存(Save)按钮出现以下对话框:,该对话框选择是否将某分类信息以新变量的形式保存对数据文件中,系统默认状态:不保存,保存指定分为某一类的分类结果;若要保存分为3类的情况,则在

15、此填入3。系统将产生一个新变量,将所有样本分到3类中某一类的结果列示到数据文件。,保存指定分为某几类的分类结果;若要保存分为35类的情况,则在From处填3,在through处填5;系统将产生3个新变量,将所有样本分3、4、5类结果列示到数据文件。,2020/9/8,34 zf,输出结果及分析,样本描述: 有效样本(Valid)、 缺失样本(Missing)、 总样本(Total),相似性矩阵表:即31个省份之间的距离矩阵表,2020/9/8,35 zf,凝聚状态表,聚类进行到第几步,这两列表示的是哪个样本(或类)与哪个样本(或类),聚类系数,即该步中实现聚类的两样本(或类)之间的距离,最后这

16、列显示的是:该步聚类结果会在后面第几步用到,这两列显示的是:该步聚类是样本的聚类还是样本与类的聚类或者是类与类的聚类;若为0表示的是样本,若为非0则表示的是类,即第几步聚成的类,2020/9/8,36 zf,分类信息表,该表是在Statistics对话框选择Single solution指定分类为3出现的分为3类的分类信息表,该表可看出: 北京、上海、天津为一类; 浙江、广东、江苏等为一类; 黑龙江、吉林、湖北等为一类。,2020/9/8,37 zf,纵向冰柱图,该列表示分类个数,这些列表示的是样本;即31个省份。在省份与省份之间若有连接,则两省份同属一类,否则,两省份划到不同的类中去了。,2

17、020/9/8,38 zf,在SPSS对话框中选择: AnalyzeReports Case summaries,每一类各自的情况如何?哪些属于小康水平高的地区?哪些属于小康水平低或中等的地区呢?,省市(dq) 综合指数( X1 ) 社会结构( X2 ) 经济与技术发展 ( X3 ) 人口素质 ( X4 ) 生活质量( X5 ) 法制与治安( X6 ) Average Linkage(clu3-1),综合指数( X1 ) 社会结构( X2 ) 经济与技术发展 ( X3 ) 人口素质 ( X4 ) 生活质量( X5 ) 法制与治安( X6 ),Average Linkage(clu3-1),20

18、20/9/8,39 zf,点击Statistics按钮出现对话框:,选择均值(Mean)、中位数(Median)、最小值(Minimum)、最大值(Maximum)等统计量,点击Continue按钮,再点击上页对话框中的OK;即出现以下结果:,2020/9/8,40 zf,每类总体及样本在综合指数、社会结构等6个小康指数上的描述统计,从3类的描述统计可看出:处于第一类的北京、上海、天津等属于小康水平较高的地区;处于第2类的浙江、广东、江苏等为小康水平中等的地区;处于第3类的黑龙江、吉林、湖北等为小康水平较低的地区。,2020/9/8,41 zf,参见数据:聚类分析(商厦评分).sav,案例分析

19、:商厦评价的聚类分析,2020/9/8,42 zf,(二)聚类个数的确定,碎石图:X轴表示分类数;y轴表示聚合系数,2020/9/8,43 zf,黛米尔曼(Demirmen,1972)提出依据树状结构图分类的准则:,2020/9/8,44 zf,(三)聚类个数及解释,2020/9/8,45 zf,(1)事先要确定分多少类;(2)确定初始类中心(一是用户指定;二是系统指定);(3)根据每个样本数据点到类中心的距离远近对样本进行分类;(4)重新计算类中心;(5)判断是否已满足终止聚类分析的条件(若满足,则结束聚类;否则,回到第(3)重新聚类),五、非系统聚类法: 快速聚类法( k-means)的S

20、PSS 处理,2020/9/8,46 zf,案例分析:商厦评价的聚类分析,参见数据:聚类分析(商厦评分).sav,2020/9/8,47 zf,SPSS操作: 1、AnalyzeClassifyK-Means Cluster 2、把聚类的依据变量gwhj(购物环境)、 fwzl(服务质量)等选入Variables对话框 3、把bh(商厦编号)变量选入Label case by样本标注对话框 4、在Number of Clusters确定分类个数;若为3,则输入3,2020/9/8,48 zf,点击迭代(iterate)按钮,2020/9/8,49 zf,一般可不点击迭代iterate按钮,由系

21、统默认即可;用得较多的是保存(Save)按钮和选项(Option)按钮。,最大迭代次数,一般可由系统默认,收敛标准,最终类中心与上一类中心发生何种程度位移,停止迭代,2020/9/8,50 zf,点击保存(Save)按钮,出现对话框,点击选项(Option)按钮,出现对话框:,以新变量形式保存分类信息到SPSS数据文件中,以新变量形式保存每个样本到各自所在类的类中心的距离到SPSS数据文件中,输出初始类中心表,输出方差分析表;反映哪些变量对分类起着显著作用,输出每个样本的分类信息,缺失样本的处理,可不用选择,由系统默认即可,2020/9/8,51 zf,输出结果及分析,初始类中心:本例中第一类表示商厦质量高;第二类为商厦质量差;第三类为商厦质量中等。,迭代状况表:本例经过两次迭代就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论