




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS数据分析教程 SPSS数据分析教程 1 第10章聚类分析 2 目录 10 1聚类分析简介10 2个案间的距离10 2 1定距数据 ScaleMearsurement 距离定义方式10 2 2分类数据的频数数据 Count 10 2 3二分类数据10 3类之间的距离10 4系统聚类算法过程10 5系统聚类案例10 6K 均值聚类10 6 1K 均值法简介10 5 2K 均值法案例10 7两步法聚类10 7 1两步法简介10 7 2两步法案例分析10 8聚类分析注意事项 3 本章学习目标 理解聚类分析的基本概念 了解个案之间距离的定义方式 了解类之间距离的定义方式 掌握系统聚类方法 掌握两步法聚类方法 掌握K均值聚类方法 4 10 1聚类分析简介 根据对象的某些属性把它们分到一些组中 使得同组内的对象尽可能地相似 不同组中的对象尽可能地不一样 即所谓的聚类分析 聚类分析方法被称为 无监督的分析方法 意即没有因变量 而另外一种分类的方法是判别分析 它是把样本归入到已知的事先已经确定下来的类中去 它有因变量 即事先确定的类别 是 有监督的分析方法 5 6 聚类分析不必事先知道分类对象的结构 从一批样品的多个观测指标中 找出能度量样品之间或指标 变量 之间相似程度或亲疏关系的统计量 构成一个对称相似性矩阵 并按相似程度的大小 把样品或变量逐一归类 根据对样品聚类还是对变量聚类 聚类分析分Q型聚类和R型聚类 对变量的聚类称为R型聚类 而对样品 即观测值 聚类称为Q型聚类 通俗讲 R型聚类是对数据中的列分类 Q型聚类是对数据中的行分类 7 SPSSStatistics提供了3种聚类方法 它们是系统聚类法 又称层次聚类 K 均值聚类 又称快速聚类法 和两步法聚类 8 10 2个案间的距离 定距数据距离定义方式欧式 Euclidean 距离平方欧式距离余弦距离皮尔逊 Pearson 相关性距离切比雪夫 Chebychev 距离块 Block 距离闵考斯基 Minkowski 距离幂 Power 距离 9 10 2 2分类数据之间的距离 卡方度量Phi方度量 10 10 3类之间的距离 SPSS提供了7种计算两个类距离的方法 组间连接法 Between groupsLinkage 组内连接法 Within GroupsLinkage 最近邻元素法 NearestNeighbor 最长距离法 FurthestNeighbor 质心聚类法 CentroidClustering 中位数聚类法 MedianClustering 离差平方和法 Ward sMethod 11 10 4系统聚类算法过程 12 系统聚类的步骤 第1步 数据标准化 把原始数据标准化得到标准化数据矩阵 第2步 计算相似系数矩阵 这里以余弦距离为例 计算Q型聚类任意两个样品xj和xk的相似系数矩阵 13 第3步 选出有最大相似系数的样品组 第4步 把该组样品加权平均 这样就形成了一个新的组合样品 第5步 用新的样品类代替原来的一对样品点 第6步 对新形成的样品与其余样品数据重新计算相似系数矩阵 第7步 如此重复第2步到第5步的过程 直到把所有样品都归类完毕 14 第8步 最后 按下列原则构成类关系图 若两个样品在已经连接成的组中未出现过 则它们连接成一个新组 若两个样品中有一个在某组中出现过 则另一个就加入该组 若两个样品都在同一组中 则这对样品不再分组 若两个样品都在不同组中出现过 则把这两组连接在一起 15 10 5系统聚类案例 打开本章的数据文件Cluster cars sav 该数据是市场上一些品牌汽车的资料 它包括汽车制造商 型号 新车价钱 4年以后的二手车价钱 还有功率 引擎大小 车重 车体长 车体宽 车轮大小 油耗等诸多属性 按照这些数据对当前市场上的车进行聚类 看看哪些品牌的车定位有类似之处 制造商可以据此制定相应的策略 16 选择 分析 分类 系统聚类 把从 Priceinthousand 到 Fuelefficiency 的所有变量选入右边的 变量框 把 Model 变量选入 标注个案 框 依次单击 统计量 绘制 方法 和 保存 按钮 17 18 19 20 21 22 23 10 6K 均值聚类 24 2020 2 4 25 K 均值聚类的算法过程 第1步 用户给定聚类个数K 第2步 给出初始类中心 第3步 计算所有个体到这K个类中心的距离 然后按照到K个类中心距离最短原则 把所有个体分别划分到距最近的中心点所在的类中 这样形成了K个类 完成一次迭代过程 第4步 重新计算K个类的类中心 第5步 重复进行第3步 第4步 直到迭代次数达到限制的次数或者类中心不再变化为止 26 K 均值法案例 打开本章的数据文件Cluster cars sav 该数据是市场上一些品牌汽车的资料 它包括汽车制造商 型号 新车价钱 4年以后的二手车价钱 还有功率 引擎大小 车重 车体长 车体宽 车轮大小 油耗等诸多属性 按照这些数据对当前市场上的车进行聚类 看看哪些品牌的车定位有类似之处 制造商可以据此制定相应的策略 27 选择 分析 分类 K 均值聚类 28 29 30 31 32 33 10 7两步法聚类 34 两步法聚类又称两阶段聚类 它与系统聚类相似 是揭示数据所蕴含的自然组别的一种探索性分析方法 35 两步法聚类的特点 1 聚类变量可以是连续变量 也可以是分类变量 两步法聚类充分考虑到这两种变量的不同性质 采用对数似然距离来衡量相似性 2 它能自动确定出类的个数 3 能够有效地分析大数据集 36 两阶段聚类算法的两个阶段 第1步 建立一个聚类特性树 第2步 应用凝聚算法对聚类特性树的叶节点进行分类 37 两步法的距离度量 两步法的距离度量有两种 1 对数似然 SPSS翻译为对数相似值 这里由于聚类指标中含有分类变量 所以只能选择该项 2 欧式距离 Euclidean 当聚类指标不含有分类变量时可以选择该距离 38 聚类数量 1 自动确定 可以选择自动确定 这里可以限定类个数的上限 默认最多15个类 也可以据需要修改类个数的最大值 2 指定固定值 如果很有把握 那么你可以输入你想要的类个数 39 聚类准则 有AIC和BIC两个准则 这两个模型选择准则在选择模型方面基本类似 都是综合考虑样本数和模型的复杂程度 AIC或者BIC的值越小 模型越好 40 两步法案例分析 数据文件Twosteps car sav选择 分析 分类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 风机买卖购销合同范本
- 工地供货意向合同范本
- 固安房屋租赁合同范本
- 补课班托管合同范本
- 照明芯片采购合同范本
- 茶叶采购加工合同范本
- 防疫酒店安保合同范本
- 和香港公司合同范本
- 策划管理合同范本
- 茶叶采购合同范本
- 化学(基础模块)中职PPT完整全套教学课件
- 京东集团员工手册-京东
- 2023年苏州市星海实验中学小升初分班考试数学模拟试卷及答案解析
- GB/T 37915-2019社区商业设施设置与功能要求
- GB/T 31298-2014TC4钛合金厚板
- GB/T 27746-2011低压电器用金属氧化物压敏电阻器(MOV)技术规范
- GB/T 22237-2008表面活性剂表面张力的测定
- GB/T 13667.3-2003手动密集书架技术条件
- 导轨及线槽项目投资方案报告模板
- 复旦大学<比较财政学>课程教学大纲
- 书法的章法布局(完整版)
评论
0/150
提交评论