第九章 SPSS的聚类分析.pptx_第1页
第九章 SPSS的聚类分析.pptx_第2页
第九章 SPSS的聚类分析.pptx_第3页
第九章 SPSS的聚类分析.pptx_第4页
第九章 SPSS的聚类分析.pptx_第5页
免费预览已结束,剩余29页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章SPSS的聚类分析,聚类分析概述,概念:聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法.例如:细分市场、消费行为划分聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.,聚类分析概述,两类:(AB)(CDE)三类:(AB)(C)(DE),依据平均得分的差距,差距较小的为一类.分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.,亲疏远程度的衡量指标相似性:数据间相似程度的度量距离:数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类定距型个体间的距离:把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据欧氏距离(EUCLID)平方欧氏距离(SEUCLID),聚类分析概述,个体距离矩阵,定距型个体间的距离,聚类分析概述,品质型个体间的距离,姓名授课方式上机时间选某门课程张三111李四110王五001,聚类分析概述,品质型个体间的距离简单匹配(simplematching)系数:适用二值变量。,个体j,个体i,101ab0cd,a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。,聚类分析概述,品质型个体间的距离简单匹配(simplematching)系数:适用二值变量。,姓名授课方式上机时间选某门课程张三111李四110王五001(张三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(张三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3张三距李四近,聚类分析概述,品质型个体间的距离根据临床表现研究病人是否有类似的病,姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000.,聚类分析概述,品质型个体间的距离雅科比(Jaccard)系数:适用二值变量,个体j,个体i,101ab0cd,a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化,聚类分析概述,品质型个体间的距离雅科比(Jaccard)系数:适用二值变量,姓名授课方式上机时间选某门课程张三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(张三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(张三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同),聚类分析概述,品质型个体间的距离Jaccard系数举例:根据临床表现研究病人是否有类似的病,姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000.,结论:张三和李四最有可能得类似的病;李四和王五不太有可能,聚类分析概述,品质型个体间的距离卡方距离:计数变量,聚类分析概述,说明聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如:样本的欧氏距离元万元(1,2)26500081.623(1,3)218000193.700(2,3)47000254.897,聚类分析概述,聚类分析概述,说明聚类分析中的变量选择问题变量应和聚类分析的目标密切相关(如;学校科研能力的评价。如:科研经费项目获奖人数办学性质)聚类结果仅是所选定变量所具数据特点的反应.变量之间不应具有高度相关性,否则相当于给这些变量进行了加权聚类分析包括:个案聚类和变量聚类两种。聚类分析包括:分层聚类和快速聚类,分层聚类,思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用)首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低,分层聚类,思路以分解的方式聚类首先,所有个体都属于一类其次,将大类中最“疏远”的小类或个体分离出去然后,分别将小类中最“疏远”的小类或个体再分离出去重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止可见,随着聚类的进行,类内的亲密性在逐渐增强,分层聚类,“亲疏”程度的衡量对象个体间距离个体和小类间、小类和小类间的距离,分层聚类,个体和小类、类和类间的距离最短距离法(nearestneighbor):两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法(furthestneighbor):两类间的距离定义为两类中距离最远的两个个案之间的距离平均链锁法(within-groupslinkage)两类之间的距离定义为两类个案之间距离的平均值。包括:组间平均链锁法(between-groupslinkage):只考虑两类间个案的距离组内平均链锁法(With-groupslinage):考虑所有个案间的距离,分层聚类,基本操作步骤1.基本操作A.菜单选项:analyze-classify-hierachicalclusterB.选择参与聚类分析的变量入variables框C.选择一字符型变量作为个案的标记变量(labelcases)D.选择个案聚类还是变量聚类,分层聚类,基本操作步骤2.选择距离计算方法(method选项)clustermethod:计算类间距离的方法measure:计算样本距离的方法transformvalues:对数据进行标准化处理byvariable:以变量为单位标准化,适于个案聚类bycase:对个案为单位标准化,适于变量聚类,分层聚类,进一步的工作1.数据输出(statistics选项)agglomerationschedule:凝聚状态表(默认)distancematrix:样本的距离矩阵clustermembership:类成员none:不输出类成员(默认)singlesolution:聚成n类时各样本的归属rangeofsolutions:聚成mn类时各样本的归属(mkmeansclusterB.选定参加快速聚类分析的变量到variables框C.确定快速聚类的类数(numberofclusters).类数应小于个案总数D.选择聚类方法(method):默认iterateandclassify,即:在聚类的每一步都重新计算新的类中心E.确定聚类终止条件(iterate),K-means快速聚类,(四)其他1.保存快速聚类的结果(save)clustermembership:将各个案所属类的类号保存到qcl_1变量中distancefromclustercenter:将各样本距所属类中心的距离保存到qcl_2变量中.,K-means快速聚类,(四)其他2.输出选项(option)initialclustercenters:输出初始类中心点ANOVAtable:输出各类的方差分析表clusterinformationforeachcase:输出每个样本的分类结果和距离,K-means快速聚类,(四)其他3.userunningmeans项:选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果与个案的先后次序有关.不选中:表示完成了所有个案的依次分配后再计算类中心.省时.,K-means快速聚类,(四)其他4.用户指定类中心(center)readinitialfrom:若不指定则系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论