第九章SPSS的聚类分析[]PPT课件.ppt_第1页
第九章SPSS的聚类分析[]PPT课件.ppt_第2页
第九章SPSS的聚类分析[]PPT课件.ppt_第3页
第九章SPSS的聚类分析[]PPT课件.ppt_第4页
第九章SPSS的聚类分析[]PPT课件.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章SPSS的聚类分析 2020 1 15 1 聚类分析的意义 物以类聚学生关系 客户细分聚类分析是统计学中研究 物以类聚 问题的多元统计分析方法能够将一批样本 或变量 数据根据其诸多特征 按照在性质上的亲疏程度 各变量取值上的总体差异程度 在没有先验知识 没有事先指定的分类标准 的情况下进行自动分类 产生多个分类结果类内部的个体在特征上具有相似性 不同类间个体特征的差异性较大 2020 1 15 2 聚类分析中 亲疏程度 的度量方法 个体间的相似程度简单相关系数个体间的差异程度通过某种距离来测度为定义个体间的距离应先将每个样本数据看成k维空间的一个点 通常 点与点之间的距离越小 意味着他们越 亲密 越有可能聚成一类 点与点之间的距离越大 意味着他们越 疏远 越有可能分别属于不同的类 2020 1 15 3 个体间的差异程度 下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分 现希望根据这批数据将五座商场分类 依据平均得分的差距 差距较小的为一类 两类 AB CDE 三类 AB C DE 分类过程中 没有事先指定分类的标准 完全根据样本数据客观产生分类结果 2020 1 15 4 定距型变量个体间距离的计算方式 欧式距离 Euclideandistance 两个体 x y k个变量值之差的平方和的平方根平方欧式距离 SquaredEuclideandistance 切比雪夫 Chebychev 距离Block距离 2020 1 15 5 定距型变量个体间距离的计算方式 明考斯基 Minkowski 距离两个体k个变量值绝对值差p次方总和的p次方根 p可以任意指定 夹角余弦距离 2020 1 15 6 定距型变量个体间距离的计算方式 用户自定义距离 2020 1 15 7 计数变量个体间距离的计算方式 卡方 Chi Squaremeasure 距离Phi方 Phi Squaremeasure 距离CHISQ或PHISQ较大 说明个体与变量取值有显著关系 个体间变量取值差异性较大 2020 1 15 8 二值 Binary 变量个体间距离的计算方式 简单匹配系数 SimpleMatching 建立在两个体k个变量值同时为0 或1 和不同时为0 或1 的频数表基础之上的a d反映了两个体的相似程度b c反映了两个体的差异程度 2020 1 15 9 二值 Binary 变量个体间距离的计算方式 根据下表分析哪两位病人有可能得了相同的病张三和李四 0 1 2 0 1 3 1 6张三和王五 1 1 2 0 1 3 2 6李四和王五 2 1 2 0 1 3 3 6 姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000 2020 1 15 10 二值 Binary 变量个体间距离的计算方式 雅科比系数 Jaccard 忽略了两个个体同时为0的频数医学上较为常见简单匹配系数不会因为编码方案的变化而变化Jaccard系数会因为编码方案的变化而变化 2020 1 15 11 聚类分析的几点说明 所选择的变量应符合聚类的要求 所选变量应能够从不同的侧面反映我们研究的目的 各变量的变量值不应有数量级上的差异 对数据进行标准化处理 聚类分析是以各种距离来度量个体间的 亲疏 程度的 从上述各种距离的定义看 数量级将对距离产生较大的影响 并影响最终的聚类结果 各变量间不应有较强的线性相关关系 2020 1 15 12 聚类分析的方法 层次聚类Q型聚类和R型聚类凝聚方式聚类和分解方式聚类K Means聚类 2020 1 15 13 层次聚类 层次聚类又称系统聚类 是指聚类过程是按照一定层次进行的两种类型Q型聚类 对样本进行聚类 使具有相似特征的样本聚集在一起 差异性大的样本分离开来 R型聚类 对变量进行聚类 使具有相似性的变量聚集在一起 差异性大的变量分离开来 可在相似变量中选择少数具有代表性的变量参与其他分析 实现减少变量个数 达到变量降维的目的 2020 1 15 14 层次聚类 两种方式凝聚方式聚类 其过程是 首先 每个个体自成一类 然后 按照某种方法度量所有个体间的亲疏程度 并将其中最 亲密 的个体聚成一小类 形成n 1个类 接下来 再次度量剩余个体和小类间的亲疏程度 并将当前最亲密的个体或小类再聚到一类 重复上述过程 直到所有个体聚成一个大类为止 可见 这种聚类方式对n个个体通过n 1步可凝聚成一大类 分解方式聚类 其过程是 首先 所有个体都属一大类 然后 按照某种方法度量所有个体间的亲疏程度 将大类中彼此间最 疏远 的个体分离出去 形成两类 接下来 再次度量类中剩余个体间的亲疏程度 并将最疏远的个体再分离出去 重复上述过程 不断进行类分解 直到所有个体自成一类为止 可见 这种聚类方式对包含n个个体的大类通过n 1步可分解成n个个体 2020 1 15 15 个体与小类 小类与小类间 亲疏程度 的度量方法 SPSS中提供了多种度量个体与小类 小类与小类间 亲疏程度 的方法 与个体间 亲疏程度 的测度方法类似 应首先定义个体与小类 小类与小类的距离 距离小的关系亲密 距离大的关系疏远 这里的距离是在个体间距离的基础上定义的 2020 1 15 16 个体与小类 小类与小类间 亲疏程度 的度量方法 最近邻居 NearestNeighbor 距离最远邻居 FurthestNeighbor 距离组间平均链锁 Between groupslinkage 距离组内平均链锁 Within groupslinkage 距离重心 Centroidclustering 距离离差平方和法 Ward smethod 2020 1 15 17 D商厦与E商厦的距离最小 首先聚为一个小类A与这个小类的距离如何衡量 2020 1 15 18 以D A D E 为例 最短距离 nearestneighbor 该个体与小类中每个个体距离的最小值 D A D E 26 907最长距离 furthestneighbor 该个体与小类中每个个体距离的最大值 D A D E 30 414组间平均链锁距离 between groupslinkage 该个体与小类中每个个体距离的平均值D A D E 26 907 30 414 2组内平均链锁距离 within grouplinkage 该个体与小类中每个个体距离以及小类内各个体间距离的平均值D A D E 26 907 30 414 3 606 2 易受极端值影响 不易受极端值影响 2020 1 15 19 重心距离 CentroidClustering 该个体与小类的重心点的距离小类的重心点通常是由小类中所有样本在各个变量上的均值所确定的数据点个体与重心点的距离定义为 式中 r是由p q两个体合并成的一个小类 n为样本量 2020 1 15 20 离差平方和法原则 聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类 例如 有A B C三个小类 如果 A B 小类内的离差平方和小于 A C 或 B C 小类内的离差平方和 那么A B应合并为一小类 基本步骤首先各个体自成一类 然后逐渐凝聚成小类 随着小类的不断凝聚 类内的离差平方和必然不断增大 应选择使类内离差平方和增加最小的两类凝聚 直到所有个体合并成一类为止 2020 1 15 21 2020 1 15 22 层次聚类的基本操作 选择菜单Analyze Classify HierarchicalCluster 出现窗口 2020 1 15 23 2 把参与层次聚类分析的变量选到Variable s 框中 3 把一个字符型变量作为标记变量选到LabelCasesby框中 它将大大增强聚类分析结果的可读性 4 在Cluster框中选择聚类类型 其中Cases表示进行Q型聚类 默认类型 Variables表示进行R型聚类 5 在Display框中选择输出内容 其中Statistics表示输出聚类分析的相关统计量 Plot表示输出聚类分析的相关图形6 单击Method按钮指定距离的计算方法 2020 1 15 24 Measure框中给出的是不同变量类型下的个体距离的计算方法 其中Interval框中的方法适用于连续型定距变量 Counts框中的方法适用于品质型变量 Binary框中的方法适用于二值变量 ClusterMethod框中给出的是计算个体与小类 小类与小类间距离的方法 2020 1 15 25 7 如果参与聚类分析的变量存在数量级上的差异 应在TransformValues框中的Standardize选项中选择消除数量级差的方法 并指定处理是针对变量的还是针对样本的 Byvariable表示针对变量 适于Q型聚类分析 Bycase表示针对样本 适于R型聚类分析8 单击Statistics按钮指定输出哪些统计量 2020 1 15 26 Agglomerationschedule表示输出聚类分析的凝聚状态表 Proximitymatrix表示输出个体间的距离矩阵ClusterMembership框中 None表示不输出样本所属类 SingleSolution表示指定输出当分成n类时各样本所属类 是单一解 Rangeofsolution表示指定输出当分成m至n类 m小于等于n 时各样本所属类 是多个解 2020 1 15 27 上表中 第一列表示聚类分析的第几步 第二 三列表示本步聚类中哪两个样本或小类聚成一类 第四列式个体距离或小类距离 第五 六列表示本步聚类中参与聚类的是个体还是小类 0表示样本 非0表示由第n步聚类生成的小类参与本步聚类 第七列表示本步聚类的结果将在以下第几步中用到 2020 1 15 28 9 单击Plot按钮指定输出哪种聚类分析图 Dendrogram选项表示输出聚类分析树形图 在Icicle框中指定输出冰挂图 其中 Allclusters表示输出聚类分析每个阶段的冰挂图 Specifiedrangeofclusters表示只输出某个阶段的冰挂图 输入从第几步开始 到第几步结束 中间间隔几步 在Orientation框中指定如何显示冰挂图 其中 Vertical表示纵向显示 Horizontal表示横向水平显示 树形图以躺倒树的形式展现了聚类分析中的每一次类合并的情况 SPSS自动将各类间的距离映射到0 25之间 并将凝聚过程近似地表示在图上 2020 1 15 29 10 单击Save按钮可以将聚类分析的结果以变量的形式保存到数据编辑窗口中 生成的变量名为clun m 如clu2 1 其中n表示类数 如2 m表示是第m次分析 如1 由于不同的距离计算方法会产生不同的聚类分析结果 即使聚成n类 同一样本的类归属也会因计算方法的不同而不同 因此实际分析中应反复尝试以最终得到符合实际的合理解 并保存于SPSS变量中 2020 1 15 30 例题8 1 利用31个省市自治区小康和现代化指数数据进行层次聚类分析 利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析 其中个体距离采用平方欧式距离 类间距离采用平均组间链锁距离由于数据不存在数量级上的差异 因此无需进行进行标准化处理 2020 1 15 31 例题8 2 收集到意大利 韩国 罗马尼亚 法国 中国 美国 俄罗斯以及热心观众分别给300名运动员平均打分的数据 希望分析各国裁判员的打分标准是否具有相似性 R聚类 2020 1 15 32 聚类数目的确定 聚类数目确定尚无统一标准 一般原则 各类所包含的元素都不应过多分类数目应符合分析的目的分层聚类中可以将类间距离作为确定类数目的辅助工具聚类过程中 类间距离呈增加趋势类间距离小 类的相似性大 距离大 相似性小绘制碎石图 X轴为类距离 Y轴为类数 2020 1 15 33 2020 1 15 34 K Means聚类 K Means聚类也称快速聚类 仍将数据看成k维空间上的点 仍以距离作为测度个体 亲疏程度 的指标 并通过牺牲多个解为代价换得高的执行效率克服分层聚类在大样本时产生的困难 提高聚类效率做法 通过用户事先指定聚类数目的方式提高效率分层聚类可以对不同的聚类数而产生一系列的聚类解 而快速聚类只能产生单一的聚类解 2020 1 15 35 K Means聚类 核心步骤 第一 指定聚类数目K第二 确定K个初始类中心用户指定方式系统指定方式第三 根据距离最近原则进行分类依次计算每个样本数据点到K个类中心点的欧式距离 并按距K个类中心点距离最短的原则将所有样本分成K类第四 重新确定K个类中心中心点的确定原则是 依次计算各类中k个变量的均值 并以均值点作为K个类的中心点第五 判断是否已满足中止聚类分析的条件条件有两个 一是迭代次数 SPSS默认为10 二是类中心点偏移程度 即新确定的类中心点距上个类中心点的最大偏移量小于指定的量 SPSS默认为0 02 时中止聚类 2020 1 15 36 K Means聚类分析的操作步骤 1 选择选项Analyze Classify K MeansCluster 2020 1 15 37 2 选定参与K Means聚类的变量放入Variables框中 3 选择一个字符型变量作为标记变量放入LabelCases框中 增加分析结果的可读性 4 在NumberofClusters框中输入聚类数目 该数应小于样本数 5 如果用户自行指定初始类中心点 则单击Centers按钮 并在Readinitialfrom框后给出存放初始类中心的SPSS数据文件名 否则本步可略去 6 在Method框中指定聚类过程是否调整类中心点 其中 Iterateandclassify表示在聚类分析的每一步都重新确定类中心点 SPSS默认 Classifyonly表示聚类分析过程中类中心点始终为初始类中心点 此时仅进行一次迭代 2020 1 15 38 7 单击Iterate按钮确定中止聚类的条件 在Maximumiterations框后输入最大迭代次数 在Convergencecrit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论