第九章聚类分析.ppt

上传人：q*** IP属地：河南上传时间：2020-02-25 格式：PPT 页数：35 大小：711.50KB 积分：24 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第九章 SPSS聚类分析本章内容 9 1聚类分析的一般问题9 2层次聚类9 3K Means聚类 9 1聚类分析的一般问题 9 1 1聚类分析的意义聚类分析是统计学中研究物以类聚问题的多元统计分析方法聚类分析是一种建立分类的多元统计分析方法它能够将一批样本或变量数据根据其诸多特征按照在性质上的亲疏程度各变量取值上的总体差异程度在没有先验知识没有事先指定的分类标准的情况下进行自动分类产生多个分类结果类内部的个体在特征上具有相似性不同类间个体特征的差异性较大例如学校里有些同学经常在一起关系比较密切而他们与另一些同学却很少来往关系比较疏远究其原因可能会发现经常在一起的同学的家庭情况性格学习成绩课余爱好等方面有许多共同之处而关系比较疏远的同学在这些方面有较大的差异性为了研究家庭情况性格学习成绩课余爱好等是否会成为划分学生小群体的主要决定因素可以从有关这些方面的数据入手进行客观分组然后比较所得的分组是否与实际相吻合对学生的客观分组就可采用聚类分析方法聚类分析中个体之间的亲疏程度是极为重要的它将直接影响最终的聚类结果对亲疏程度的测度一般有两个角度第一个体间的相似程度第二个体间的差异程度衡量个体间的相似程度通常可采用简单相关系数等个体间的差异程度通常通过某种距离来测度为定义个体间的距离应先将每个样本数据看成k维空间的一个点通常点与点之间的距离越小意味着他们越亲密越有可能聚成一类点与点之间的距离越大意味着他们越疏远越有可能分别属于不同的类 9 1 2聚类分析中亲疏程度的度量方法例下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分现希望根据这批数据将五座商场分类 7 1 2聚类分析中亲疏程度的度量方法欧式距离 Euclideandistance 平方欧式距离 SquaredEuclideandistance 切比雪夫 Chebychev 距离Block距离 1 定距型变量个体间距离的计算方式 2 计数变量个体间距离的计算方式卡方 Chi Squaremeasure 距离Phi方 Phi Squaremeasure 距离3 二值 Binary 变量个体间距离的计算方式简单匹配系数 SimpleMatching 雅科比系数 Jaccard 注聚类分析的几点说明所选择的变量应符合聚类的要求所选变量应能够从不同的侧面反映我们研究的目的各变量的变量值不应有数量级上的差异对数据进行标准化处理聚类分析是以各种距离来度量个体间的亲疏程度的从上述各种距离的定义看数量级将对距离产生较大的影响并影响最终的聚类结果各变量间不应有较强的线性相关关系 9 2层次聚类 9 2 1层次聚类的两种类型和两种方式层次聚类又称系统聚类简单地讲是指聚类过程是按照一定层次进行的层次聚类有两种类型分别是Q型聚类和R型聚类层次聚类的聚类方式又有两种分别是凝聚方式聚类和分解方式聚类 Q型聚类对样本进行聚类使具有相似特征的样本聚集在一起差异性大的样本分离开来 R型聚类对变量进行聚类使具有相似性的变量聚集在一起差异性大的变量分离开来可在相似变量中选择少数具有代表性的变量参与其他分析实现减少变量个数达到变量降维的目的凝聚方式聚类其过程是首先每个个体自成一类然后按照某种方法度量所有个体间的亲疏程度并将其中最亲密的个体聚成一小类形成n 1个类接下来再次度量剩余个体和小类间的亲疏程度并将当前最亲密的个体或小类再聚到一类重复上述过程直到所有个体聚成一个大类为止可见这种聚类方式对n个个体通过n 1步可凝聚成一大类分解方式聚类其过程是首先所有个体都属一大类然后按照某种方法度量所有个体间的亲疏程度将大类中彼此间最疏远的个体分离出去形成两类接下来再次度量类中剩余个体间的亲疏程度并将最疏远的个体再分离出去重复上述过程不断进行类分解直到所有个体自成一类为止可见这种聚类方式对包含n个个体的大类通过n 1步可分解成n个个体 9 2 2个体与小类小类与小类间亲疏程度的度量方法SPSS中提供了多种度量个体与小类小类与小类间亲疏程度的方法与个体间亲疏程度的测度方法类似应首先定义个体与小类小类与小类的距离距离小的关系亲密距离大的关系疏远这里的距离是在个体间距离的基础上定义的常见的距离有最近邻居 NearestNeighbor 距离个体与小类中每个个体距离的最小值最远邻居 FurthestNeighbor 距离个体与小类中每个个体距离的最大值组间平均链锁 Between groupslinkage 距离个体与小类中每个个体距离的平均值组内平均链锁 Within groupslinkage 距离个体与小类中每个个体距离以及小类内各个体间距离的平均值重心 Centroidclustering 距离个体与小类的重心点的距离重心点通常是由小类中所有样本在各变量上的均值所确定的点离差平方和法 Ward smethod 聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类 9 2 3层次聚类的基本操作1 选择菜单Analyze Classify HierarchicalCluster 出现窗口 2 把参与层次聚类分析的变量选到Variable s 框中 3 把一个字符型变量作为标记变量选到LabelCasesby框中它将大大增强聚类分析结果的可读性 4 在Cluster框中选择聚类类型其中Cases表示进行Q型聚类默认类型 Variables表示进行R型聚类 5 在Display框中选择输出内容其中Statistics表示输出聚类分析的相关统计量 Plot表示输出聚类分析的相关图形 6 单击Method按钮指定距离的计算方法 Measure框中给出的是不同变量类型下的个体距离的计算方法其中Interval框中的方法适用于连续型定距变量 Counts框中的方法适用于品质型变量 Binary框中的方法适用于二值变量 ClusterMethod框中给出的是计算个体与小类小类与小类间距离的方法 7 如果参与聚类分析的变量存在数量级上的差异应在TransformValues框中的Standardize选项中选择消除数量级差的方法并指定处理是针对变量的还是针对样本的 Byvariable表示针对变量适于Q型聚类分析 Bycase表示针对样本适于R型聚类分析 8 单击Statistics按钮指定输出哪些统计量 Agglomerationschedule表示输出聚类分析的凝聚状态表 Proximitymatrix表示输出个体间的距离矩阵 ClusterMembership框中 None表示不输出样本所属类 SingleSolution表示指定输出当分成n类时各样本所属类是单一解 Rangeofsolution表示指定输出当分成m至n类 m小于等于n 时各样本所属类是多个解上表中第一列表示聚类分析的第几步第二三列表示本步聚类中哪两个样本或小类聚成一类第四列式个体距离或小类距离第五六列表示本步聚类中参与聚类的是个体还是小类 0表示样本非0表示由第n步聚类生成的小类参与本步聚类第七列表示本步聚类的结果将在以下第几步中用到 9 单击Plot按钮指定输出哪种聚类分析图 Dendrogram选项表示输出聚类分析树形图在Icicle框中指定输出冰挂图其中 Allclusters表示输出聚类分析每个阶段的冰挂图 Specifiedrangeofclusters表示只输出某个阶段的冰挂图输入从第几步开始到第几步结束中间间隔几步在Orientation框中指定如何显示冰挂图其中 Vertical表示纵向显示 Horizontal表示横向水平显示树形图以躺倒树的形式展现了聚类分析中的每一次类合并的情况 SPSS自动将各类间的距离映射到0 25之间并将凝聚过程近似地表示在图上 10 单击Save按钮可以将聚类分析的结果以变量的形式保存到数据编辑窗口中生成的变量名为clun m 如clu2 1 其中n表示类数如2 m表示是第m次分析如1 由于不同的距离计算方法会产生不同的聚类分析结果即使聚成n类同一样本的类归属也会因计算方法的不同而不同因此实际分析中应反复尝试以最终得到符合实际的合理解并保存于SPSS变量中 9 2 4层次聚类的应用举例1 利用31个省市自治区小康和现代化指数数据进行层次聚类分析利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析其中个体距离采用平方欧式距离类间距离采用平均组间链锁距离由于数据不存在数量级上的差异因此无需进行进行标准化处理 2 利用裁判打分数据进行聚类分析 9 3K Means聚类 9 3 1K Means聚类分析的核心步骤K Means聚类也称快速聚类仍将数据看成k维空间上的点仍以距离作为测度个体亲疏程度的指标并通过牺牲多个解为代价换得高的执行效率其核心步骤是第一指定聚类数目K第二确定K个初始类中心SPSS中初始类中心的指定方式有两种一是用户指定方式二是系统指定方式第三根据距离最近原则进行分类依次计算每个样本数据点到K个类中心点的欧式距离并按距K个类中心点距离最短的原则将所有样本分成K类第四重新确定K个类中心中心点的确定原则是依次计算各类中k个变量的均值并以均值点作为K个类的中心点第五判断是否已满足中止聚类分析的条件条件有两个一是迭代次数 SPSS默认为10 二是类中心点偏移程度即新确定的类中心点距上个类中心点的最大偏移量小于指定的量 SPSS默认为0 02 时中止聚类 9 3 2K Means聚类分析的操作步骤1 选择选项Analyze Classify K MeansCluster 打开主窗口 2 选定参与K Means聚类的变量放入Variables框中 3 选择一个字符型变量作为标记变量放入LabelCases框中增加分析结果的可读性 4 在NumberofClusters框中输入聚类数目该数应小于样本数 5 如果用户自行指定初始类中心点则单击Centers按钮并在Readinitialfrom框后给出存放初始类中心的SPSS数据文件名否则本步可略去 6 在Method框中指定聚类过程是否调整类中心点其中 Iterateandclassify表示在聚类分析的每一步都重新确定类中心点 SPSS默认 Classifyonly表示聚类分析过程中类中心点始终为初始类中心点此时仅进行一次迭代 7 单击Iterate按钮确定中止聚类的条件在Maximumiterations框后输入最大迭代次数在Convergencecriterion框后输入类中心的偏移量另外 Userunningmeans选项选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点此时类中心点与样本分配的前后顺序有关不选该项表示只有当完成了所有样本的类分配后再计算类中心该方式可节省运算时间通常不选中该选项 8 单击Save按钮将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中其中Clustermembership表示保存样本所属类的类号 Distancefromclustercenter表示保存样本距各自类中心点的距离 9 单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式 Statistics框中 Initialcluste

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第九章聚类分析.ppt

文档简介

温馨提示

最新文档

评论

第九章 聚类分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档

第九章聚类分析.ppt