




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章SPSS的聚类分析 1 聚类分析概述 概念 聚类分析是统计学中研究 物以类聚 的一种方法 属多元统计分析方法 例如 细分市场 消费行为划分聚类分析是建立一种分类 是将一批样本 或变量 按照在性质上的 亲疏 程度 在没有先验知识的情况下自动进行分类的方法 其中 类内个体具有较高的相似性 类间的差异性较大 2 聚类分析概述 两类 AB CDE 三类 AB C DE 依据平均得分的差距 差距较小的为一类 分类过程中 没有事先指定分类的标准 完全根据样本数据客观产生分类结果 3 亲疏远程度的衡量指标相似性 数据间相似程度的度量距离 数据间差异程度的度量 距离越近 越 亲密 聚成一类 距离越远 越 疏远 分别属于不同的类定距型个体间的距离 把每个个案数据看成是n维空间上的点 在点和点之间定义某种距离 一般适用于定距数据欧氏距离 EUCLID 平方欧氏距离 SEUCLID 聚类分析概述 4 个体距离矩阵 定距型个体间的距离 聚类分析概述 5 品质型个体间的距离 姓名授课方式上机时间选某门课程张三111李四110王五001 聚类分析概述 6 品质型个体间的距离简单匹配 simplematching 系数 适用二值变量 个体j 个体i 101ab0cd a为个体i与个体j在所有变量上同时取1的个数 d为同时取0的个数特点 排除同时拥有或同时不拥有某特征的情况 取0和1地位等价 编码方案的变化不会引起系数的变化 聚类分析概述 7 品质型个体间的距离简单匹配 simplematching 系数 适用二值变量 姓名授课方式上机时间选某门课程张三111李四110王五001 张三 李四 a 2b 1c 0d 0d x y 1 1 2 1 3 张三 王五 a 1b 2c 0d 0d x y 2 1 2 2 3张三距李四近 聚类分析概述 8 品质型个体间的距离根据临床表现研究病人是否有类似的病 姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000 聚类分析概述 9 品质型个体间的距离雅科比 Jaccard 系数 适用二值变量 个体j 个体i 101ab0cd a为个体i与个体j在所有变量上同时取1的个数 d为同时取0的个数特点 排除同时不拥有某特征的情况 取1的状态比取0更有意义 如 临床检验中的阳性特征 编码方案会引起系数的变化 聚类分析概述 10 品质型个体间的距离雅科比 Jaccard 系数 适用二值变量 姓名授课方式上机时间选某门课程张三1 0 1 0 1 0 李四1 0 1 0 0 1 王五0 1 0 1 1 0 张三 李四 1 a 2b 1c 0d 0d x y 1 1 2 1 3 张三 李四 2 a 0b 0c 1d 2d x y 1 1 2 1 3 相同 张三 李四 1 a 2b 1c 0d 0J x y 1 1 2 1 3 张三 李四 2 a 0b 0c 1d 2J x y 1 1 1 不相同 聚类分析概述 11 品质型个体间的距离Jaccard系数举例 根据临床表现研究病人是否有类似的病 姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000 结论 张三和李四最有可能得类似的病 李四和王五不太有可能 聚类分析概述 12 品质型个体间的距离卡方距离 计数变量 聚类分析概述 13 说明聚类过程中如果数据在数量级上存在差异时 应进行标准化处理 例如 样本的欧氏距离元万元 1 2 26500081 623 1 3 218000193 700 2 3 47000254 897 聚类分析概述 14 聚类分析概述 说明聚类分析中的变量选择问题变量应和聚类分析的目标密切相关 如 学校科研能力的评价 如 科研经费项目获奖人数办学性质 聚类结果仅是所选定变量所具数据特点的反应 变量之间不应具有高度相关性 否则相当于给这些变量进行了加权聚类分析包括 个案聚类和变量聚类两种 聚类分析包括 分层聚类和快速聚类 15 分层聚类 思路 聚类过程具有一定的层次性以合并 凝聚 的方式聚类 SPSS采用 首先 每个个体自成一类其次 将最 亲密 的个体聚成一小类然后 将最 亲密 的小类或个体再聚成一类重复上述过程 即 把所有的个体和小类聚集成越来越大的类 直到所有的个体都到一起 一大类 为止可见 随着聚类的进行 类内的 亲密 性在逐渐减低 16 分层聚类 思路以分解的方式聚类首先 所有个体都属于一类其次 将大类中最 疏远 的小类或个体分离出去然后 分别将小类中最 疏远 的小类或个体再分离出去重复上述过程 即 把类分解成越来越小的小类 直到所有的个体自成一类为止可见 随着聚类的进行 类内的亲密性在逐渐增强 17 分层聚类 亲疏 程度的衡量对象个体间距离个体和小类间 小类和小类间的距离 18 2020 3 18 19 分层聚类 个体和小类 类和类间的距离最短距离法 nearestneighbor 两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法 furthestneighbor 两类间的距离定义为两类中距离最远的两个个案之间的距离平均链锁法 within groupslinkage 两类之间的距离定义为两类个案之间距离的平均值 包括 组间平均链锁法 between groupslinkage 只考虑两类间个案的距离组内平均链锁法 With groupslinage 考虑所有个案间的距离 20 分层聚类 基本操作步骤1 基本操作A 菜单选项 analyze classify hierachicalclusterB 选择参与聚类分析的变量入variables框C 选择一字符型变量作为个案的标记变量 labelcases D 选择个案聚类还是变量聚类 21 分层聚类 基本操作步骤2 选择距离计算方法 method选项 clustermethod 计算类间距离的方法measure 计算样本距离的方法transformvalues 对数据进行标准化处理byvariable 以变量为单位标准化 适于个案聚类bycase 对个案为单位标准化 适于变量聚类 22 分层聚类 进一步的工作1 数据输出 statistics选项 agglomerationschedule 凝聚状态表 默认 distancematrix 样本的距离矩阵clustermembership 类成员none 不输出类成员 默认 singlesolution 聚成n类时各样本的归属rangeofsolutions 聚成m n类时各样本的归属 m n 总样本数 23 分层聚类 进一步的工作2 图形输出 plot选项 dendrogram 树型图icicle 冰柱图allcluster 聚类的每一步均在冰柱图中体现specifiedrangeofclusters 将聚类的第n1类开始到第n2类结束 间隔n3类的聚类分析过程在冰柱图中体现orientation 冰柱图的方向vertical 纵向 horizontal 横向 24 分层聚类 进一步的工作3 结果保存 save选项 singlesolution 生成一新变量存储在聚成n类时各样本属于哪一类 cluN M N为聚类数 M为第几次做的 rangeofsolutions 生成若干个变量分别存放聚成n m类时各样本的归属情况 25 分层聚类 聚类数目的确定聚类数目确定尚无统一标准 一般原则 各类所包含的元素都不应过多分类数目应符合分析的目的分层聚类中可以将类间距离作为确定类数目的辅助工具SPSS中 聚类过程中 类间距离呈增加趋势类间距离小 类的相似性大 距离大 相似性小绘制碎石图 X轴为类距离 Y轴为类数 26 K means快速聚类 一 出发点希望 克服分层聚类在大样本时产生的困难 提高聚类效率做法 通过用户事先指定聚类数目的方式提高效率因此 分层聚类可以对不同的聚类数而产生一系列的聚类解 而快速聚类只能产生单一的聚类解 27 K means快速聚类 二 思路1 指定最后要聚成K类2 用户指定k个样本作为初始类中心或系统自动确定k个样本作为初始类中心3 系统按照距k个中心距离最近的原则把每个样本分派到各中心所在的类中去 形成一个新的k类 完成一次迭代4 重新计算k个类的类中心 计算每类各变量的均值 以均值点作为类中心 5 重复3步和4步 直到达到指定的迭代次数或达到终止迭代的条件 28 K means快速聚类 二 思路SPSS中两个判断聚类是否结束的条件 满足其中一个即可结束聚类过程 达到指定迭代次数 maximumiteration 默认10次 收敛标准 convergence 默认0 02 即 本次迭代产生的任意新类 各中心位置变化较小 其中最大的变化率小于2 29 K means快速聚类 三 基本操作步骤A 菜单选项 analyze classify kmeansclusterB 选定参加快速聚类分析的变量到variables框C 确定快速聚类的类数 numberofclusters 类数应小于个案总数D 选择聚类方法 method 默认iterateandclassify 即 在聚类的每一步都重新计算新的类中心E 确定聚类终止条件 iterate 30 K means快速聚类 四 其他1 保存快速聚类的结果 save clustermembership 将各个案所属类的类号保存到qcl 1变量中distancefromclustercenter 将各样本距所属类中心的距离保存到qcl 2变量中 31 K means快速聚类 四 其他2 输出选项 option initialclustercenters 输出初始类中心点ANOVAtable 输出各类的方差分析表clusterinformationforeachcase 输出每个样本的分类结果和距离 32 K means快速聚类 四 其他3 userunningmeans项 选中 表示每个样本被分配到一类后立即计算新的类中心 聚类结果与个案的先后次序有关 不选中 表示完成了所有个案的依次分配后再计算类中心 省时 33 K means快速聚类 四 其他4 用户指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自然风光写景习作13篇
- 儿童权益关注关爱承诺书4篇
- 财务核算及报告编制模板
- 2025年新能源汽车高压配电系统调试考核试卷
- 解析卷人教版八年级物理上册第5章透镜及其应用-透镜专项训练练习题(解析版)
- 2025年铁路运输检察院公诉业务考核试卷
- 解析卷-人教版八年级物理上册第4章光现象重点解析练习题
- 小学数学数与运算整体性与一致性的理解-以“小数的加法和减法”为例
- 基于度量单位视角的数学“整体化思考、一致性表达”研究-以苏教版教材为例
- 强化训练苏科版八年级物理下册《物质的物理属性》难点解析试卷(含答案详解版)
- 仁爱英语七年级上半期考试试题(含答案)
- 电力系统经济学原理(全套课件)
- 上海市申报户口事项申请表模版
- 工程测量毕业论文
- 英语专业导论(第2版)PPT完整全套教学课件
- 02jrc901b电子海图操作jan中文说明书
- 仓库现场标准PPT图文展示区域划线、目视化看板规范
- 动物局部解剖学后肢演示文稿
- 国家开放大学《人文英语4》边学边练参考答案
- YY/T 0461-2003麻醉机和呼吸机用呼吸管路
- 制造业信息化课程(课件)
评论
0/150
提交评论