统计分析聚类分析_第1页
统计分析聚类分析_第2页
统计分析聚类分析_第3页
统计分析聚类分析_第4页
统计分析聚类分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析聚类分析第1页,课件共43页,创作于2023年2月6.2SPSS的聚类分析第2页,课件共43页,创作于2023年2月聚类分析概述概念:聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法.例如:细分市场、消费行为划分聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.第3页,课件共43页,创作于2023年2月聚类分析概述两类:(AB)(CDE)三类:(AB)(C)(DE)依据平均得分的差距,差距较小的为一类.分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.第4页,课件共43页,创作于2023年2月亲疏远程度的衡量指标相似性:数据间相似程度的度量距离:数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类定距型个体间的距离:把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据聚类分析概述第5页,课件共43页,创作于2023年2月(1)欧氏距离(EuclideanDistance)两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为第6页,课件共43页,创作于2023年2月(2)欧氏距离平方(SquaredEuclideanDistance)两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和,计算公式为第7页,课件共43页,创作于2023年2月(3)Chebychev距离两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值,计算公式为第8页,课件共43页,创作于2023年2月(4)Block距离两个样本之间的Block距离是各样本所有变量值之差绝对值的总和,计算公式为第9页,课件共43页,创作于2023年2月(5)Minkowski距离两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和,再求p次方根。计算公式为第10页,课件共43页,创作于2023年2月(6)Customized距离(用户自定义距离)两个样本之间的Customized距离是各样本所有变量值之差绝对值的p次方的总和,再求q次方根。计算公式为第11页,课件共43页,创作于2023年2月(7)夹角余弦CosineCOSINE(x,y)(8)卡方距离第12页,课件共43页,创作于2023年2月二值变量型个体间的距离姓名授课方式上机时间选某门课程张三111李四110王五001聚类分析概述第13页,课件共43页,创作于2023年2月二值变量型个体间的距离简单匹配(simplematching)系数:适用二值变量。个体j个体i101ab0cd

a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。聚类分析概述第14页,课件共43页,创作于2023年2月二值变量型型个体间的距离简单匹配(simplematching)系数:适用二值变量。姓名授课方式上机时间选某门课程张三111李四110王五001(张三,李四):a=2b=1c=0d=0d(1,2)=1/(1+2)=1/3(张三,王五):a=1b=2c=0d=0d(1,3)=2/(1+2)=2/3张三距李四近聚类分析概述第15页,课件共43页,创作于2023年2月二值变量型个体间的距离根据临床表现研究病人是否有类似的病姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000……..聚类分析概述第16页,课件共43页,创作于2023年2月二值变量型个体间的距离雅科比(Jaccard)系数:适用二值变量个体j个体i101ab0cd

a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化聚类分析概述第17页,课件共43页,创作于2023年2月雅科比(Jaccard)系数:适用二值变量

(两种编码比较)姓名授课方式上机时间选某门课程张三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(张三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(张三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)聚类分析概述第18页,课件共43页,创作于2023年2月品质型个体间的距离Jaccard系数举例:根据临床表现研究病人是否有类似的病姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000……..结论:张三和李四最有可能得类似的病;李四和王五最不太有可能得聚类分析概述第19页,课件共43页,创作于2023年2月二值变量型个体间的距离卡方距离:计数变量聚类分析概述姓名选修课门数(期望频数)专业课门数(期望频数)得优门数(期望频数)合计张三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合计1712938第20页,课件共43页,创作于2023年2月聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如:

样本的欧氏距离 元 万元 (1,2)265000 81.623 (1,3)218000 193.700 (2,3)47000 254.897 聚类分析概述第21页,课件共43页,创作于2023年2月聚类分析概述聚类分析中的变量选择问题变量应和聚类分析的目标密切相关聚类结果仅是所选定变量所具数据特点的反应.变量之间不应具有高度相关性,否则相当于给这些变量进行了加权聚类分析对象:个案聚类和变量聚类两种。聚类分析方法:系统聚类和快速聚类第22页,课件共43页,创作于2023年2月系统聚类思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用)首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低第23页,课件共43页,创作于2023年2月“亲疏”程度的衡量对象个体间距离个体和小类间、小类和小类间的距离系统聚类第24页,课件共43页,创作于2023年2月个体和小类、类和类间的距离最短距离法(nearestneighbor):两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法(furthestneighbor):两类间的距离定义为两类中距离最远的两个个案之间的距离平均链锁法(within-groupslinkage)两类之间的距离定义为两类个案之间距离的平均值。包括:组间平均链锁法(between-groupslinkage):只考虑两类间个案的距离组内平均链锁法(With-groupslinage):考虑所有个案间的距离系统聚类第25页,课件共43页,创作于2023年2月基本操作步骤1.基本操作A.菜单选项:分析->分类->系统聚类B.选择参与聚类分析的变量入变量框C.选择一字符型变量作为个案的标记变量D.选择个案聚类还是变量聚类E.选择输出系统聚类第26页,课件共43页,创作于2023年2月第27页,课件共43页,创作于2023年2月基本操作步骤2.选择距离计算方法第28页,课件共43页,创作于2023年2月聚类数目的确定聚类数目确定尚无统一标准,一般原则:各类所包含的元素都不应过多分类数目应符合分析的目的分层聚类中可以将类间距离作为确定类数目的辅助工具SPSS中,聚类过程中,类间距离呈增加趋势类间距离小,类的相似性大;距离大,相似性小绘制碎石图(X轴为类距离,Y轴为类数)实例:裁判打分.sav层次聚类第29页,课件共43页,创作于2023年2月输出第30页,课件共43页,创作于2023年2月第31页,课件共43页,创作于2023年2月树形图第32页,课件共43页,创作于2023年2月(K-均值)快速聚类(一)出发点希望:克服分层聚类在大样本时产生的困难,提高聚类效率做法:通过用户事先指定聚类数目的方式提高效率因此,分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解第33页,课件共43页,创作于2023年2月K-means快速聚类(二)思路1.指定最后要聚成K类2.用户指定k个样本作为初始类中心或系统自动确定k个样本作为初始类中心3.系统按照距k个中心距离最近的原则把每个样本分派到各中心所在的类中去,形成一个新的k类,完成一次迭代4.重新计算k个类的类中心(计算每类各变量的均值,以均值点作为类中心)5.重复3步和4步,直到达到指定的迭代次数或达到终止迭代的条件第34页,课件共43页,创作于2023年2月K-means快速聚类(二)思路

SPSS中两个判断聚类是否结束的条件,满足其中一个即可结束聚类过程.达到指定迭代次数(maximumiteration),默认10次。收敛标准(convergence),默认0.02,即:本次迭代产生的任意新类,各中心位置变化较小.其中最大的变化率小于2%.第35页,课件共43页,创作于2023年2月K-means快速聚类(三)基本操作步骤A.菜单选项:analyze->classify->kmeansclusterB.选定参加快速聚类分析的变量到variables框C.确定快速聚类的类数(numberofclusters).类数应小于个案总数D.选择聚类方法(method):默认iterateandclassify,即:在聚类的每一步都重新计算新的类中心E.确定聚类终止条件(iterate)第36页,课件共43页,创作于2023年2月K-means快速聚类(四)其他1.保存快速聚类的结果(save)clustermembership:将各个案所属类的类号保存到qcl_1变量中distancefromclu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论