




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
用SPSS作聚类分析 以经济效益数据为例 用聚类分析法对各省市作分类 见spssex 4 全国各省市经济效益数据 以城镇居民消费资料为例 用聚类分析法对各省市作分类 见spssex 4 城镇居民消费支出资料 毛本清2010 08 27 SPSS中的聚类分析 Spss中的聚类功能常用的有两种 快速聚类 迭代过程 K MeansCluster系统聚类 HierarchicalCluster 毛本清2010 08 27 一 HierarchicalCluster聚类 系统聚类由两种方法 分解法和凝聚法 系统聚类的功能 即可进行样品的聚类 也可进行变量的聚类 系统聚类的原理 即我们前面介绍过的系统聚类方法的原理和过程 毛本清2010 08 27 系统聚类的中要进行以下的选择 数据的标准化测度方法的选择 距离方法的选择或相似性 关联程度的选择 聚类方法的选择 即以什么方法聚类 spss中提供了7中方法可进行选择 输出图形的选择 树形图或冰柱图 毛本清2010 08 27 系统聚类 毛本清2010 08 27 见 一 聚类方法 见 二 各种距离和相似系数 毛本清2010 08 27 Method 聚类方法 标准化变换 亲疏关系指标 毛本清2010 08 27 一 聚类方法1 Between groupslinkage类间平均法两类距离为两类元素两两之间平均平方距离2 Within groupslinkage类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3 Nearestneighbor最短距离法4 Furthestneighbor最长距离法5 Centroidclustering重心法 欧式距离 6 Medianclustering中间距离法 欧式距离 7 WardMethod离差平方法 欧式距离 毛本清2010 08 27 1 squaredeuclideandistance平方欧式距离2 euclideandistance欧式距离3 cosine夹角余弦 R型 4 pearsoncorrelation皮尔逊相关系数 R 5 chebychev切比雪夫距离 二 各种距离和相似系数 亲疏关系指标 毛本清2010 08 27 6 block绝对值距离7 minkowski明考斯基8 customized 毛本清2010 08 27 毛本清2010 08 27 Statistics 聚类进度表 相似矩阵 样品或变量的分类情况 毛本清2010 08 27 毛本清2010 08 27 凝聚状态表的第一列表示聚类分析的第几步 第二列 第三列表示本步聚类中哪两个样本或小类聚成一类 第四列是相应的样本距离或小类距离 第五列 第六列表明本步聚类中 参与聚类的是样本还是小类 0表示样本 数字n 非0 表示由第n步聚类产生的小类参与本步聚类 第七列表示本步聚类的结果将在下面聚类的第几步中用到 毛本清2010 08 27 毛本清2010 08 27 Plot 树状结构图 冰柱图 冰柱的方向 毛本清2010 08 27 VerticalIcicle 67 毛本清2010 08 27 冰柱图因其样子非常象冬天房顶垂下的冰柱得名 它以图形的方式显示层次聚类分析结果 一般从冰柱图的最后一行开始观察 第一列表示类数 两样品之间的 表示将其两边的样品 类 联结起来聚成新类 毛本清2010 08 27 毛本清2010 08 27 应用举例 4 1 毛本清2010 08 27 首先对表4 1中的原始数据进行标准化变换处理 经过运算使数据标准化得到表4 2 使它的每列数据的平均值为0 方差为1 这样表4 1中5列具有不同量纲 不同数量级的数据 不同地区数据求出欧氏距离 就能放在一起比较 其次用表4 2中经过标准化处理后的30个 毛本清2010 08 27 毛本清2010 08 27 毛本清2010 08 27 表4 1 毛本清2010 08 27 毛本清2010 08 27 表4 2 毛本清2010 08 27 毛本清2010 08 27 毛本清2010 08 27 K MeansCluster聚类 毛本清2010 08 27 K MeansCluster原理 首先 选择n个数值型变量参与聚类分析 最后要求的聚类数为k个 其次 由系统选择k个 聚类的类数 观测量 也可由用户指定 作为聚类的种子 第三 按照距离这些类中心的距离最小的原则把所有观测量 样品 分派到各类重心所在的类中去 第四 这样每类中可能由若干个样品 计算每个类中各个变量的均值 以此作为第二次迭代的中心 第五 然后根据这个中心重复第三 第四步 直到中心的迭代标准达到要求时 聚类过程结束 毛本清2010 08 27 K MeansCluster聚类过程 由Analyze Classify K MeansCluster将个变量放入Variable 输入最后聚类的个数 毛本清2010 08 27 例饮料数据 spssex drink sav 16种饮料的热量 咖啡因 钠及价格四种变量 毛本清2010 08 27 快速聚类 毛本清2010 08 27 选项 读写凝聚点 人为固定分类数 ANOVA表 初始凝聚点等 毛本清2010 08 27 快速聚类法的聚类数由用户指定 分类是唯一的 1 分类数 如希望聚成K类2 聚类方法 method iterateandclussify 聚类分析的clussifyonly 聚类分析过程类中心3 聚类中心 centers4 迭代次数 iterate5 保存分类结果 save 每一步都重新计算新的类中心点 点始终为初始类中心点 仅作一次迭代 毛本清2010 08 27 InitialClusterCenter 快速聚类的初始类中心点 本例由系统自行指定四个类的初始类中心点 指定聚成四类 毛本清2010 08 27 IterationHistory 快速聚类的迭代步骤在迭代过程中 完成第一次迭代后形成的四个新类中心点距初始类中心点的欧氏距离分别为5 065 12 532 12 275 25 901 第四次迭代后形成的四个新类中心点几乎与上次确定的中心点没有差别 经过四次迭代
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年教育局业务知识和行政执法技能培训考试题及答案
- (教研室提供)山东省威海乳山市(五四制)2024-2025学年七年级下学期期末考试历史试题
- 医疗器械销售培训知识课件
- 基于大数据的互联网+教育试点项目资金申请分析报告
- 新能源汽车基础知识培训课件
- 工程廉政排查方案(3篇)
- 2025年文化遗产保护专家职业资格考试试题及答案解析
- 公司2025年上半年落实意识形态工作责任制情况自查报告2
- 2025年安全生产月活动工作总结(集团公司)
- 2025年文创产业书法创意设计理念试题及答案
- 人教版八年级数学上册教案全册
- DL-T-1878-2018燃煤电厂储煤场盘点导则
- 在线网课知慧《咖啡学概论(华南理工大学)》单元测试考核答案
- 2024届高考80个二级核心实词详解
- 茶叶工艺学第七章青茶
- 2024年五一劳动节劳模精神专题课弘扬劳动模范精神争做时代先锋课件
- GB/T 20936.2-2024爆炸性环境用气体探测器第2部分:可燃气体和氧气探测器的选型、安装、使用和维护
- 网络安全技术 生成式人工智能数据标注安全规范
- 《风电场项目经济评价规范》(NB-T 31085-2016)
- 新课程教学评价的方法
- 外卖骑手交通安全知识讲座
评论
0/150
提交评论