




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS数据分析教程,SPSS数据分析教程,第10章 聚类分析,目录,10.1 聚类分析简介 10.2 个案间的距离 10.2.1 定距数据(Scale Mearsurement) 距离定义方式 10.2.2 分类数据的频数 数据(Count) 10.2.3 二分类数据 10.3 类之间的距离 10.4 系统聚类算法过程 10.5 系统聚类案例 10.6 K-均值聚类 10.6.1 K-均值法简介 10.5.2 K-均值法案例 10.7 两步法聚类 10.7.1 两步法简介 10.7.2 两步法案例分析 10.8 聚类分析注意事项,理解聚类分析的基本概念; 了解个案之间距离的定义方式; 了解类之间距离的定义方式; 掌握系统聚类方法; 掌握两步法聚类方法; 掌握K均值聚类方法。,10.1 聚类分析简介,根据对象的某些属性把它们分到一些组中,使得同组内的对象尽可能地相似,不同组中的对象尽可能地不一样,即所谓的聚类分析。 聚类分析方法被称为“无监督的分析方法”,意即没有因变量。而另外一种分类的方法是判别分析,它是把样本归入到已知的事先已经确定下来的类中去, 它有因变量(即事先确定的类别),是“有监督的分析方法”。,聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似性矩阵,并按相似程度的大小,把样品或变量逐一归类。 根据对样品聚类还是对变量聚类,聚类分析分Q型聚类和R型聚类。对变量的聚类称为R型聚类,而对样品(即观测值)聚类称为Q型聚类。通俗讲,R型聚类是对数据中的列分类,Q型聚类是对数据中的行分类。,SPSS Statistics提供了3种聚类方法,它们是系统聚类法(又称层次聚类)、K-均值聚类(又称快速聚类法)和两步法聚类。,10.2 个案间的距离,定距数据距离定义方式 欧式(Euclidean)距离 平方欧式距离 余弦距离 皮尔逊(Pearson)相关性距离 切比雪夫(Chebychev)距离 块(Block)距离 闵考斯基(Minkowski)距离 幂(Power)距离,10.2.2 分类数据之间的距离,卡方度量 Phi方度量,10.3 类之间的距离,SPSS提供了7种计算两个类距离的方法。 组间连接法(Between-groups Linkage) 组内连接法(Within-Groups Linkage) 最近邻元素法(Nearest Neighbor) 最长距离法(Furthest Neighbor) 质心聚类法(Centroid Clustering) 中位数聚类法(Median Clustering) 离差平方和法(Wards Method),10.4 系统聚类算法过程,系统聚类的步骤,第1步:数据标准化。把原始数据标准化得到标准化数据矩阵。 第2步:计算相似系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。,第3步:选出有最大相似系数的样品组 。 第4步:把该组样品加权平均,这样就形成了一个新的组合样品 。 第5步:用新的样品类代替原来的一对样品点。 第6步:对新形成的样品与其余样品数据重新计算相似系数矩阵。 第7步:如此重复第2步到第5步的过程,直到把所有样品都归类完毕。,第8步:最后,按下列原则构成类关系图。 若两个样品在已经连接成的组中未出现过,则它们连接成一个新组。 若两个样品中有一个在某组中出现过,则另一个就加入该组。 若两个样品都在同一组中,则这对样品不再分组。 若两个样品都在不同组中出现过,则把这两组连接在一起。,10.5 系统聚类案例,打开本章的数据文件Cluster_cars.sav。 该数据是市场上一些品牌汽车的资料,它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。 按照这些数据对当前市场上的车进行聚类,看看哪些品牌的车定位有类似之处,制造商可以据此制定相应的策略。,选择【分析】【分类】【系统聚类】 把从“Price in thousand”到“Fuel efficiency”的所有变量选入右边的“变量框”。 把“Model”变量选入“标注个案”框。 依次单击【统计量】、【绘制】、【方法】和【保存】按钮,10.6 K-均值聚类,K-均值聚类的算法过程,第1步:用户给定聚类个数K。 第2步:给出初始类中心。 第3步:计算所有个体到这K个类中心的距离,然后按照到K个类中心距离最短原则,把所有个体分别划分到距最近的中心点所在的类中,这样形成了K个类,完成一次迭代过程。 第4步:重新计算K个类的类中心。 第5步:重复进行第3步、第4步。直到迭代次数达到限制的次数或者类中心不再变化为止。,K-均值法案例,打开本章的数据文件Cluster_cars.sav。 该数据是市场上一些品牌汽车的资料,它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。 按照这些数据对当前市场上的车进行聚类,看看哪些品牌的车定位有类似之处,制造商可以据此制定相应的策略。,选择【分析】【分类】【K-均值聚类】,10.7 两步法聚类,两步法聚类又称两阶段聚类,它与系统聚类相似,是揭示数据所蕴含的自然组别的一种探索性分析方法。,两步法聚类的特点,(1)聚类变量可以是连续变量,也可以是分类变量。两步法聚类充分考虑到这两种变量的不同性质,采用对数似然距离来衡量相似性。 (2)它能自动确定出类的个数。 (3)能够有效地分析大数据集。,两阶段聚类算法的两个阶段,第1步:建立一个聚类特性树。 第2步:应用凝聚算法对聚类特性树的叶节点进行分类。,两步法的距离度量,两步法的距离度量有两种 (1)对数似然(SPSS 翻译为对数相似值):这里由于聚类指标中含有分类变量,所以只能选择该项。 (2)欧式距离(Euclidean):当聚类指标不含有分类变量时可以选择该距离。,聚类数量,(1)自动确定:可以选择自动确定,这里可以限定类个数的上限。默认最多15个类。也可以据需要修改类个数的最大值。 (2)指定固定值:如果很有把握,那么你可以输入你想要的类个数。,聚类准则,有AIC和BIC两个准则,这两个模型选择准则在选择模型方面基本类似,都是综合考虑样本数和模型的复杂程度。AIC或者BIC的值越小,模型越好。,两步法案例分析,数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽宣城市人民医院(皖南医学院附属宣城医院)高层次人才招聘6人考前自测高频考点模拟试题及答案详解(网校专用)
- 2025年洛阳博物馆人才引进模拟试卷及答案详解(典优)
- “百万英才汇南粤”广东省佛山市南海区教育系统2025-2026学年面向社会公开招聘教师考前自测高频考点模拟试题附答案详解(典型题)
- 2025年成都市事业单位公开招聘工作人员(第三批)(1044人)模拟试卷附答案详解
- 2025河北承德市滦平县卫生健康局和滦平县医疗保障局所属事业单位选调医疗专业技术人员15人模拟试卷及参考答案详解1套
- 2025重庆百业兴物业管理有限责任公司招聘1人笔试历年参考题库附带答案详解
- 2025重庆人力资源发展有限公司所属子企业招聘1人笔试历年参考题库附带答案详解
- 2025鄂尔多斯万正投资集团找35人笔试历年参考题库附带答案详解
- 2025贵州黔西南鑫禾都农旅康养开发有限公司招聘108人笔试历年参考题库附带答案详解
- 2025吉林白山抚松县招聘高中教师9人考前自测高频考点模拟试题及答案详解(全优)
- 制作污水处理设备合同
- 智能庭审系统技术方案
- 《阿米巴经营模式》课件
- 沥青路面施工-沥青混合料配合比设计
- 工程施工山区二级公路施工组织设计
- GB/T 3131-2001锡铅钎料
- GB/T 25775-2010焊接材料供货技术条件产品类型、尺寸、公差和标志
- GB/T 14454.2-2008香料香气评定法
- 《干部履历表》(1999版电子版)
- ISO 9001:2015新版质量管理体系详解与案例文件汇编
- 数据中心基础知识培训
评论
0/150
提交评论