第14讲聚类分析

上传人：1*** IP属地：湖北上传时间：2022-03-20 格式：PPT 页数：30 大小：1.09MB 积分：30 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第十四讲聚类分析聚类分析聚类分析的基本原理层次聚类K-均值聚类聚类分析的SPSS实现把“对象”分成不同的类别!这些类不是事先给定的，而是直接根据数据的特征确定的把相似的东西放在一起，从而使得类别内部的“差异”尽可能小，而类别之间的“差异”尽可能大聚类分析就是按照对象之间的“相似”程度把对象进行分类什么是聚类分析(cluster analysis) ？聚类分析的“对象”可以是所观察的多个样本，也可以是针对每个样本测得的多个变量按照变量对所观察的样本进行分类称为Q型聚类!按照多项经济指标(变量)对不同的地区(样本)进行分类按照样本对多个变量进行分类，则称为R型聚类!按照不同地区的样本数据对多个

2、经济变量进行分类两种聚类没有什么本质区别，实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类)两种分类方式按对象的“相似”程度分类根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具，也称为相似系数!变量间的相似系数越大，说明它们越相近根据变量来测度样本之间的相似程度则使用“距离”!把离得比较近的归为一类，而离得比较远的放在不同的类按什么分类？在对变量进行分类时，度量变量之间的相似性常用相似系数，测度方法有：相似性的度量(变量相似系数的计算方法) 夹角余弦 Pearson相关系数iiiiiiixyyxyx22cosiiiiiiixyyyxxyyxxr

3、22)()()(相似性的度量(样本点间距离的计算方法) 欧氏(Euclidean) 距离平方欧氏(Squared Euclidean) 距离Block 距离切比雪夫(Chebychev)距离明考斯基(Minkovski)距离piiiyx12)(qpiqiiyx1iiyx maxpiiiyx12)(piiiyx1层次聚类又称系统聚类，目前使用最多的一种方法事先不确定要分多少类，而是先把每一个对象作为一类，然后一层一层进行分类根据运算的方向不同，层次聚类法又分为合并法和分解法，两种方法的运算原理一样，只是方向相反层次聚类 (hierarchical cluster)将每一个样本作为一类，如果是k个

4、样本就分k成类按照某种方法度量样本之间的距离，并将距离最近的两个样本合并为一个类别，从而形成了k-1个类别再计算出新产生的类别与其他各类别之间的距离，并将距离最近的两个类别合并为一类。这时，如果类别的个数仍然大于1，则继续重复这一步，直到所有的类别都合并成一类为止总是先把离得最近的两个类进行合并!合并越晚的类，距离越远!事先并不会指定最后要分成多少类，而是把所有可能的分类都列出，再视具体情况选择一个合适的分类结果层次聚类 (合并法)分解方法原理与合并法相反先把所有的对象(样本或变量)作为一大类，然后度量对象之间的距离或相似程度，并将距离或相似程度最远的对象分离出去，形成两大类(其中的一类只有

5、一个对象)再度量类别中剩余对象之间的距离或相似程度，并将最远的分离出去，不断重复这一过程，直到所有的对象都自成一类为止层次聚类 (分解法) Nearest neighbor(最短距离法)用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离 Furthest neighbor(最长距离法)用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离 Centroid clustering(重心法)用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个

6、类别之间的距离 Wards method(离差平方和法)使各类别中的离差平方和较小，而不同类别之间的离差平方和较大类间距离的计算方法层次聚类 SPSS分析过程分析- 分类- 系统聚类弹出“系统聚类分析”对话框选择进行聚类分析的变量（变量和标注个案）设置层次聚类的统计量输出（“统计量”按钮）设置层次聚类的统计图输出（绘制）设置输出结果（保存）其他设置采用系统默认即可设置完毕，单击“确定”按钮，等待输出结果统计量对话框“系统聚类分析”对话框“保存”对话框“绘图”对话框群集成员统计表聚类过程表垂直冰柱图从该图可以看出聚合的具体过程。应该从下往上看，两个省份之间黄柱所对应的聚类数，即为两个省份在划分为

7、此聚类数时属于同一类，并且在此以后一直属于同一类。树状图能更加直观地反映样品逐步合并的过程层次聚类在数据编辑窗口的输出层次聚类事先不需要确定要分多少类，聚类过程一层层进行，最后得出所有可能的类别结果，研究者根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图，方便使用者直观选择类别，但其缺点是计算量较大，对大批量数据的聚类效率不高K-均值聚类事先需要确定要分的类别数据，计算量要小得多，效率比层次聚类要高，因此，也被称为快速聚类(quick cluster)K-均值聚类 (K-means cluster)需要注意的是：在运用K-均值聚类方法对数据进行分析时，要考虑到数据的量纲差异，如果不同

8、变量的数量级相差太大，就要先对数据进行标准化处理，然后在进行分析。K-均值聚类 (K-means cluster)第1步：确定要分的类别数目K!需要研究者自己确定!在实际应用中，往往需要研究者根据实际问题反复尝试，得到不同的分类并进行比较，得出最后要分的类别数量第2步：确定K个类别的初始聚类中心!要求在用于聚类的全部样本中，选择K个样本作为K个类别的初始聚类中心!与确定类别数目一样，初始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑K-均值聚类的步骤第3步：根据确定的K个初始聚类中心，依次计算每个样本到K个聚类中心的距离欧氏距离，并根据距离最近的原则将所有的样本分到事先确定的K个类别中

9、第4步：根据所分成的K个类别，计算出各类别中每个变量的均值，并以均值点作为新的K个类别中心。根据新的中心位置，重新计算每个样本到新中心的距离，并重新进行分类K-均值聚类的步骤第5步：重复第4步，直到满足终止聚类条件为止!迭代次数达到研究者事先指定的最大迭代次数!新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性，究竟分多少类合适，需要研究者对研究问题的了解程度、相关知识和经验K-均值聚类的步骤分析- 分类- K均值聚类弹出“K均值聚类分析”对话框选择进行聚类分析的变量设置输出及缺失值处理方法其他设置采用系统默认即可设置完毕，单击“确定”按钮，等待输出结果K-均值聚类的SPSS分析过程25原始数据标准化后的数据将标准化的数据选入变量框将要标记的个案选入“个案标记依据框”聚类数输入“3”选项框中的统计量3选项全部选中初始聚类中心表聚类成员分析表最终聚类中

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第14讲聚类分析

文档简介

温馨提示

最新文档

评论

第14讲 聚类分析

文档简介

温馨提示

最新文档

评论

相关文档

第14讲聚类分析