应用统计学聚类分析.ppt_第1页
应用统计学聚类分析.ppt_第2页
应用统计学聚类分析.ppt_第3页
应用统计学聚类分析.ppt_第4页
应用统计学聚类分析.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析 Cluster analysis,聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的 使类内对象的同质性最大化和类间对象的异质性最大化。,聚类分析的基本思想: 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 相似样本或指标的集合称为类。,例、谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数

2、、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样),为什么这样分类?(分类的好处) 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,确定待研究的问题,选择聚类用的距离或相似系数,选择聚类方法,确定类别的个数

3、,评估聚类分析的效果,解释聚类分析的结果,1.先确定待研究的问题和待分类的对象,1.聚类时多采用距离统计量 2.变量聚类时多采用相似系数统计量 3.不同度量单位的影响,1.所选的方法与所选的距离是有关的 2.小样本与大样本 3.两者的串联使用,1.相关的理论或实践上的需要 2.系统聚类法 3.非系统聚类法,透过比较各类别的中心,来识别各个类别的意义,从而给各个类别命名,分类步骤,样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; (2)距离 它是将每一个样

4、品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类)常以相似系数刻画相似性,二、相似性度量(Similarity Measure),1、 Distance 设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为:,每个样本都可以看成p维空间中的一点,n个样本就是p维空间中的n个点。 第i个样本与第j个样本之间的距离记为 聚类过程中,相距较近的点归为一类,相距较远的点归为不同的类。,第i个和第j个样品之间的距离 如下四个条件:,明氏距离、欧氏距离以及绝对距离主要有以下两个

5、缺点: 距离的值与各指标的量纲有关。各指标计量单位的选择有一定的人为性和随意性,任何一个变量计量单位的改变都会使此距离的数值改变,从而使该距离的数值依赖于各变量计量单位的选择。 距离的定义没有考虑各个变量之间的相关性和重要性。他们把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。,例:横轴 代表重量(单位:kg),纵轴 代表长度(单位:cm)。有四个点A,B,C,D,见图。,当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离、欧氏距离和绝对距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理: 其中 为第j个变量的样本均值; 为第

6、j个变量的样本方差。,2、相似系数Similarity coefficients 相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。聚类时,比较相似的变量归为一类,不太相似的变量归为不同的类。,变量 与 的相似系数用 表示,满足以下三个条件:,(1)相关系数,设 和 是第 和 个样品的观测值,则二者之间的相似 测度为:,(2)夹角余弦,名义变量的相似性度量:简单匹配系数(simple matching)不配合的变量个数(配合与不配合变量个数和) 例:某高校举办一个培训班,从学员的资料中得到6个变量:性别(),取值男和女;外语语种(),取值为英、日、俄;专业(),取值为统计、会计

7、、金融;职业(),取值为教师和非教师;居住处(),取值为校内和校外;学历(),取值本科和本科以下。,现有学员i和学员j: i=(男,英,统计,非教师,校外,本科) j=(女,英,金融,教师,校外,本科以下) 二者的距离:,三、聚类方法(Clustering Methods),聚类分析依据聚类对象可分为两种类型: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实

8、现减少变量个数,达到变量降维的目的。,聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:K均值法(快速聚类法)等,系统聚类过程,四、系统聚类(又称层次聚类) Hierarchical Clustering,(一)类与类之间距离测量方法: Centroid method(重心法) Single-linkage method (nearest-neighbor)(最近距离法) groups the objects according to the distance between their nearest member

9、s Complete linkage method (farthest-neighbor)(最远距离法) groups the objects according to the distance between their farthest members Average linkage method(平均距离法:组间、组内) uses the average distance between pairs of members in the respective sets Wards method(离差平方和法),(1)重心法(Centroid method):均值点的距离,用两类的重心间的距

10、离作为两类的距离,Gr,Gt,(2)、最短距离(Nearest Neighbor or Single Linkage),类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi Gp和xj Gq之间的距离),(3)最长距离(Furthest Neighbor or Complete Linkage ),(4)组间平均连接(Between-group Linkage) 为所有样本对间的平均距离。 利用了所有样本对距离的信息,(5)组内平均连接( Within-group Linkage) 对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对.,先将n个样本各成一类,然后每次缩小一

11、类,每缩小一类离差平方和就要增大,选择使离差平方和S增加最小的两类合并,直至所有样本归为一类为止。,(6)离差平方和法连接(Wards method ),(二)系统聚类法的SPSS处理 系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。事先不用确定分多少类 SPSS系统聚类法:凝聚式 1、所有的研究对象各自算作一类,将最“靠近” 的首先聚类 2、再将这个类和其它类中最“靠近”的结合,直至所有的对象都合并为一类为止 SPSS处理: AnalyzeClassifyHierarchical Cluster,例:16种饮料的热量、咖啡因、钠及价格四种变量,SPSS处理: 1、Ana

12、lyzeClassifyHierarchical Cluster 2、把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables 3、若对样本聚类(Q型聚类):在Cluster选Cases; 若对变量聚类(R型聚类)则在Cluster选Variables 4、选Plots,再点Dendrogram,则画出树状图; 若点Icicle,则画出冰挂图,其中Orientation中(Vertical为纵向冰挂图;Horizontal为横向冰挂图)。 .,SPSS输出的树型图为:,冰挂图:,凝聚过程:,五、非系统聚类(或称为非层次聚类)Nonhie

13、rarchical Clustering,也叫做逐步聚类法、动态聚类法、k-均值聚类法、或快速聚类法。事先要确定分多少类 假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。 然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来的“种子”就没用了),重新按照距离分类。 如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。下面用饮料例的数据来做k-均值聚类。,例:假定要把例1中16种饮料分成3类。,第一类:1、10; 第二类:2、4、8、11、12、13、14; 第三类:3、5、6、7、9、15、16。,快速聚类,K-均值聚类SPSS处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论