聚类分析方法与SPSSppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-27 格式：PPT 页数：31 大小：213KB 积分：25 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

聚类分析方法基于SPSS应用软件一聚类分析的一般问题 1 聚类分析的意义聚类分析是统计中研究物以类聚的多元统计分析方法针对的是生活中广泛存在的聚类现象和形成的统计分析方法例如市场细分和客户细分问题聚类分析是将一组数据变量按照其不同的特征或者在样本上的不同表现自动分成若干类类内部有相似性类之间有区别理解聚类分析的关键 1 首先不知道数据到底是来自几个类 2 第二不知道每个数据到底是那一类 3 第三也不知道类和类的界限是什么 4 所谓亲疏程度就是两个数据变量综合考虑各指标后的接近程度 2 聚类分析中的亲疏程度的度量方法数据中个体之间的亲疏程度是非常重要的因为我们正是依靠这种亲疏程度来将进行类的合并和分化亲疏程度的测度一般可以有两个角度个体间的相似程度越相似两个体越接近可以用相似系数来描述这种相似程度个体间的差异程度即个体间的距离距离越近则个体越接近首先要将数据看成空间中的一个点以此来定义距离距离的定义有很多可以分为欧氏距离明氏距离夹角余弦等根据变量的类型不同距离的定义方式也不同比如定距型变量和计数型变量的距离就不一样 3 聚类分析的几点说明所选的变量应该符合聚类的要求一定要选取与分析的目标有关的变量而不要选取无关的变量各变量的变量值不应该在数量级上有差异数量级上的差异可能带来距离上不准确从而影响聚类效果解决的方法是先将数据标准化各变量间不应该有较强的线性相关关系否则其中一个变量就没有用了常见的聚类分析方法有两种层次聚类和K Mean聚类这两种方法SPSS都提供菜单操作二层次聚类 1 层次聚类的两种类型和两种方式层次聚类又称系统聚类聚类过程按照一定的层次进行即从小类到大类的层次有两种类型 Q型聚类和R型聚类聚类方式也分两种凝聚型聚类和分解型聚类 Q型聚类是对样本进行聚类 R型聚类是对变量进行聚类凝聚方式聚类的思想是首先每个样本自成一类然后按照某种方法度量个体间的亲疏程度将其中最亲密的个体聚成一小类然后以此继续下去直到最后只剩下一个类分解方式聚类的思想是首先所有个体都成为一个大类然后按照某种方法度量亲疏程度将最疏远的个体分离除去形成两个类以此继续下去知道每一个个体自成一类在SPSS中采用凝聚方式的聚类方法 2 个体与小类小类与小类之间的亲疏程度的度量方法 SPSS提供了很多度量小类与小类之间的亲疏程度的方法下面分别介绍几种 Cluster 共有七种进行聚类的方法 Between groupslinkage 类间平均法当两类之间所有个案之间距离的平均值最小时这两类可以合并为一类这是系统缺省的方法 Within groupslinkage 类内平均法当合并后所有个案的距离的平均值最小时这两类可以合并为一类 Nearestneighbor 最短距离法当两类之间最近的个案之间的距离最小时这两类可以合并为一类 Furthestneighbor 最长距离法当两类之间最远的个案之间的距离最小时这两类可以合并为一类 Centroidclustering 重心法当两类中重心的距离最小时这两类可以合并为一类 Medianclustering 中心法当两类中心的距离最小时这两类可以合并为一类 Ward smethod 离差平方和法当合并后类内部的各个个案距离的离差平方和最小时这两类可以合并为一类啤酒成分和价格数据啤酒名热量钠含量酒精价格Budweiser144 0019 004 70 43Schlitz181 0019 004 90 43Ionenbrau157 0015 004 90 48Kronensourc170 007 005 20 73Heineken152 0011 005 00 77Old milnaukee145 0023 004 60 26Aucsberger175 0024 005 50 40Strchs bohemi149 0027 004 70 42Miller lite99 0010 004 30 43Sudeiser lich113 006 003 70 44Coors140 0016 004 60 44Coorslicht102 0015 004 10 46Michelos lich135 0011 004 20 50Secrs150 0019 004 70 76Kkirin149 006 005 00 79Pabst extra l68 0015 002 30 36Hamms136 0019 004 40 43Heilemans old144 0024 004 90 43Olympia gold 72 006 002 90 46Schlite light97 007 004 20 47 分层聚类的命令执行 Analyze Classify HierarchicalCluster 选择变量进入 Variable s 中选择聚类类型 Cluster 单选项样本聚类Cases Q聚类或变量聚类Variable R聚类 display 中可以选择复选项 Statistics 只计算统计分析 plots 只产生图像按钮 Statistics 将产生输出统计量 Agglomerationschedule 为生成并类过程表在表中将显示并类过程中的并类信息包括并类距离值在相应值上的并类类别和类间关系可以根据并类过程表了解聚类过程 Proximitymatrix 产生测度矩阵测度矩阵可以显示出并类过程中各类之间的距离或相关性 ClusterMembership 聚类成员关系表在并类过程中各个个案被并到哪一类 None 不显示聚类成员关系表 Singlesolution 显示指定类数时聚类成员关系表指定的类数应当是小于等于个案个数大于等于1的整数当聚类到达此指定的数值时将在输出窗口显示各个个案所属的类 Rangeofsolutions 显示聚类成员在指定并类范围内所属类的关系表指定的范围也应当是在个案数与1之间的整数按钮 Plots 将产生聚类图形 Dendrogram 生成树状图 Icicle 生成冰柱图 Allclusters 全过程冰柱图 Specifiedrangeofclusters 指定并类范围冰柱图 None 不生成冰柱图 Orientaton 图形取向竖直的Vertical和水平的Horizontal 按钮 Method 为聚类方法选择定义样本点间的相似度选择对变量作标准化处理的方法三 K Means聚类层次聚类执行效率不是很理想而这方面正是K Means聚类的特长 K Means聚类分析的核心步骤第一步指定聚类的数目假设要分成K类第二步确定类的初始中心可以有两种方式指定类的初始中心可以用户自定义也可以让系统自己确定第三步根据距离最近原则进行聚类重新确定K个类的中心判断是否满足停止聚类分析的条件 K均值法快速聚类动态聚类 1 K Means聚类分析的核心步骤聚类分析终止的条件有两个迭代次数当前迭代次数等于设定的迭代次数 SPSS默认迭代10次便终止聚类类中心点偏移的程度以迭代前后中心点的最大偏移量是否超过预定值默认0 02 通过设定恰当的迭代次数和偏移标准可以有效克服初始类中心点指定时可能存在的方差提高聚类分析准确性在Method框中是否调整类中心点其中Iterateandclassify表示由SPSS自动调整类中心 Classify表示在迭代中不更改类中心通过Iterate按钮去定终止聚类的条件 Maximumiteration标志最大迭代数在ConvergenceCriterion Usingrunningmeans选型可以每进入一个新数据就计算一次 2 K Means聚类分析的基本操作将参与K Means聚类分析的变量选入Variables框中

人人文库> 全部分类> 毕业设计 > 开题报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

聚类分析方法与SPSSppt课件.ppt

文档简介

温馨提示

最新文档

评论

聚类分析方法与SPSSppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档