spss聚类分析教程PPT课件.ppt_第1页
spss聚类分析教程PPT课件.ppt_第2页
spss聚类分析教程PPT课件.ppt_第3页
spss聚类分析教程PPT课件.ppt_第4页
spss聚类分析教程PPT课件.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 3 18 1 基本统计分析 有了数据 可以利用SPSS的各种分析方法进行分析 但选择何种统计分析方法 即调用哪个统计分析过程 是得到正确分析结果的关键SPSS有数字分析和作图分析两类方法 2020 3 18 中国人民大学六西格玛质量管理研究中心 1 2020 3 18 2 基本统计分析概述 目录上页下页返回结束 基本统计分析是进行其他更深入的统计分析的前提 通过基本统计分析 用户可以对分析数据的总体特征有比较准确的把握 从而选择更为深入的分析方法对分析对象进行研究 2020 3 18 中国人民大学六西格玛质量管理研究中心 2 在SPSS的Analyze菜单中包括了一系列统计分析过程 其中Reports和DescriptiveStatistics命令项中包括的功能是对单变量的描述统计分析DescriptiveStatistics包括的统计功能有 Frequencies 频数分析Descriptives 描述统计量分析Explore 探索分析Crosstabs 多维频数分布交叉表 列联表 2020 3 18 中国人民大学六西格玛质量管理研究中心 3 2020 3 18 4 描述统计分析过程Descriptives 目录上页下页返回结束 1 功能 了解数据的基本统计特征和对指定的变量值进行标准化处理 标准化后的新变量的均值为0 标准差为1 目的是为了消除各变量间变量值在数量级上的差异 从而增强数据间的可比性 2 描述统计分析过程通过平均值 Mean 算术和 Sum 标准差 StdDev 最大值 Maximum 最小值 Minimum 方差 Variance 范围 Range 平均数标准误 S E Mean 等统计量对变量进行描述 2020 3 18 中国人民大学六西格玛质量管理研究中心 4 2020 3 18 5 目录上页下页返回结束 SPSS数值统计分析过程均在Analyze菜单中基本统计分析 Reports DescriptiveStatisticsb 均值比较与检验 CompareMeansd 方差分析 ANOVAModelsb 相关分析 Correlatee 回归分析 Regressionf 聚类与判别 Classifyg 因子分析 DataReductionh 非参数检验 NonparametricTests等等 2020 3 18 中国人民大学六西格玛质量管理研究中心 5 2020 3 18 可编辑 6 第一章聚类分析 聚类分析的基本思想聚类分析上机实现 2020 3 18 7 1 1聚类分析的思想 目录上页下页返回结束 我们认为 所研究的样品或指标 变量 之间是存在着程度不同的相似性 亲疏关系 于是根据一批样品的多个观测指标 具体找出一些能够度量样品或指标之间的相似程度的统计量 以这些统计量为划分类型的依据 把一些相似程度较大的样品 或指标 聚合为一类 把另外一些彼此之间相似程度较大的样品 或指标 又聚合为另外一类 关系密切的聚合到一个小的分类单位 关系疏远的聚合到一个大的分类单位 直到把所有的样品 或指标 都聚合完毕 把不同的类型一一划分出来 形成一个由小到大的分类系统 最后再把整个分类系统画成一张分群图 又称谱系图 用它把所有的样品 或指标 间的亲疏关系表示出来 2020 3 18 中国人民大学六西格玛质量管理研究中心 7 2020 3 18 8 目录上页下页返回结束 对样品的分类常称为Q型聚类分析对变量的分类常称为R型聚类分析 2020 3 18 中国人民大学六西格玛质量管理研究中心 8 2020 3 18 9 1 1聚类分析的思想 目录上页下页返回结束 聚类的目的在一些社会 经济问题中 我们面临的往往是比较复杂的研究对象 如果能把相似的样品 或指标 归成类 处理起来就大为方便 聚类分析的目的就是把相似的研究对象归成类 例1 若我们需要将下列11户城镇居民按户主个人的收入进行分类 对每户作了如下的统计 结果列于表3 1 在表中 标准工资收入 职工奖金 职工津贴 性别 就业身份 等称为指标 每户称为样品 若对户主进行分类 还可以采用其他指标 如 子女个数 政治面貌 等 指标如何选择取决于聚类的目的 2020 3 18 中国人民大学六西格玛质量管理研究中心 9 2020 3 18 10 目录上页下页返回结束 2020 3 18 中国人民大学六西格玛质量管理研究中心 10 2020 3 18 11 目录上页下页返回结束 上例中的8个指标 前6个是定量的 后2个是定性的 如果分得更细一些 指标的类型有三种尺度间隔尺度 变量用连续的量来表示 有序尺度 指标用有序的等级来表示 有次序关系 但没有数量表示 名义尺度 指标用一些类来表示 这些类之间没有等级关系也没有数量关系 不同类型的指标 在聚类分析中 处理的方式是大不一样的 总的来说 提供给间隔尺度的指标的方法较多 对另两种尺度的变量处理的方法不多 2020 3 18 中国人民大学六西格玛质量管理研究中心 11 2020 3 18 12 目录上页下页返回结束 第一位重要的问题是 什么是类 粗糙地讲 相似样品 或指标 的集合称作类 聚类分析给人们提供了丰富多采的方法进行分类 这些方法大致可归纳为 1 系统聚类法 2 模糊聚类法 3 K 均值法 4 有序样品的聚类 5 分解法 6 加入法 2020 3 18 中国人民大学六西格玛质量管理研究中心 12 2020 3 18 13 1 2系统聚类法 目录上页下页返回结束 1 最短距离法 nearestneighbor或singlelinkagemethod 2020 3 18 中国人民大学六西格玛质量管理研究中心 13 2020 3 18 14 2020 3 18 15 目录上页下页返回结束 2 最长距离法 farthestneighbor或completelinkagemethod 2020 3 18 中国人民大学六西格玛质量管理研究中心 15 2020 3 18 16 目录上页下页返回结束 3 类平均法 groupaveragemethod 2020 3 18 中国人民大学六西格玛质量管理研究中心 16 2020 3 18 17 目录上页下页返回结束 4 重心法 Centroidmethod 5 离差平方和法 SumofSquaresmethod 2020 3 18 中国人民大学六西格玛质量管理研究中心 17 2020 3 18 中国人民大学六西格玛质量管理研究中心 18 1 3系统聚类法 目录上页下页返回结束 系统聚类法 hierarchicalclusteringmethod 在聚类分析中诸方法中用的最多 包含下列步骤 2020 3 18 中国人民大学六西格玛质量管理研究中心 18 2020 3 18 19 目录上页下页返回结束 注 不同的距离定义方式用到系统聚类程序中 得到不同的系统聚类法 我们现在通过一个简单的例子 来说明各种系统聚类法 2020 3 18 中国人民大学六西格玛质量管理研究中心 19 2020 3 18 中国人民大学六西格玛质量管理研究中心 20 1 4计算步骤与上机实践 目录上页下页返回结束 2020 3 18 中国人民大学六西格玛质量管理研究中心 20 2020 3 18 21 1 5案例研究 目录上页下页返回结束 例3我们以2005年31个省 市 自治区的城镇居民月平均消费支出数据为例 在SPSS中利用K 均值法对31个省 市 自治区的城镇居民消费水平进行聚类分析 在SPSS中依次点击 Analyze Classify K MeansCluster 打开K MeansClusterAnalysis对话框 将8个变量选入Variable框中 将表示地区的变量选入LabelCasesBy栏中 将分类数 Numberofclusters 定为3 另外 点击Iterate按钮可以在其中输入最大迭代次数 Maximumiterations 和收敛标准 Convergencecriterion 在Save按钮中可以选择保存样本的聚类结果 Clustermembership 和各样本距各自中心点的距离 Distancefromclustercenter 在Options按钮中可以选择输出初始类中心点 方差分析表等结果 读者可以根据实际情况来选择 点击 OK 得到聚类结果如下 2020 3 18 中国人民大学六西格玛质量管理研究中心 21 2020 3 18 中国人民大学六西格玛质量管理研究中心 22 目录上页下页返回结束 2020 3 18 中国人民大学六西格玛质量管理研究中心 22 2020 3 18 23 目录上页下页返回结束 表3 16中最大的相关系数为r4 8 0 837 将G4和G8并成一新类G9 然后计算G9与各类的相关系数 再找最大的相关系数 每次缩小一类得图3 17 我们可以看出全国城镇居民得消费结构大致可以分为三个方面 一类是各种副食 日用品及交通通信 文化教育和住房等支出 这是在消费结构中起主导作用的方面 其次是居民购买烟 酒 饮料及着装支出 粮食和水电燃料是两项很重要的消费指标 但目前在城镇居民的消费中占的比例较小 可将它们归并为同一类 2020 3 18 中国人民大学六西格玛质量管理研究中心 23 2020 3 18 24 目录上页下页返回结束 上面介绍的几种系统聚类方法 并类的原则和步骤基本一致 所不同的是类与类的距离有不同的定义 其实可以把这几种方法统一起来 有利于在计算机上灵活地选择更有意义的谱系图 2020 3 18 中国人民大学六西格玛质量管理研究中心 24 2020 3 18 25 目录上页下页返回结束 当然 也可以采用欧氏距离分别用类平均法 最短距离法 最长距离法把31个省市分类 类平均法聚类在SPSS中的操作为 点选 Analyze Classify HierarchicalCluster 打开HierarchicalClusterAnalysis对话框 将八个聚类指标选入Variables栏中 将表示地区的变量选入LabelCasesBy栏中 按 Plots 按钮 在弹出的窗口中选中Dendrogram 谱系图 选项 按 Continue 返回主对话框 在按 Method 按钮 在ClusterMethod下拉菜单中选择Between groupslinkage 组间连接法 即类平均法 选项 返回主对话框后按 OK 即可得到聚类结果 2020 3 18 中国人民大学六西格玛质量管理研究中心 25 2020 3 18 26 目录上页下页返回结束 最短距离法和最长距离法操作步骤与类平均法一样 只不过要在ClusterMethod下拉菜单中分别选择NearestN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论