聚类分析(2011年).ppt

上传人：x*** IP属地：四川上传时间：2020-01-07 格式：PPT 页数：66 大小：426.55KB 积分：15 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 1 7 现实是复杂的是绝对不可能由一个有组织的科学模型完全描述出来的 ThomasKuhn 统计名言第13章聚类分析 13 1聚类分析的基本原理13 2层次聚类13 3K 均值聚类 clusteranalysis 2020 1 7 学习目标聚类分析的基本思想和原理层次聚类和K 均值聚类的基本过程解释聚类的结果层次聚类和K 均值聚类的差异及应用条件聚类分析的注意事项用SPSS进行聚类分析 2020 1 7 怎样把消费者分类南京雅兴市场研究有限公司在A城市的14个城区抽取3000个15岁以上具有独立购买能力的消费者样本研究消费者的生活方式调查中采用一系列关于对社会活动价值观念等内容的陈述请消费者根据自己的情况做出评价评价结果采用7分评价法 1分表示非常同意 7分表示非常不同意对调查结果先通过因子分析将一系列的测试语句进行综合根据消费者的回答情况将这些语句分为几大类最后得到5个主要因子它们的含义分别是对时尚的观点个人的事业性与进取性对经济利益的看法社交能力与影响力生活的计划性根据因子分析的结果对样本的回答按照新的类型进行重新评估打分然后根据这些评价进行聚类分析根据每一类消费者的因子的特征最终将消费者的生活方式分为6个类别即时尚型自保型领袖型上进型迷茫型缺乏生活目标型和平庸型 2020 1 7 怎样把消费者分类时尚型这类消费者约占样本量的约21 主要特征为年龄相对较轻平均年龄在35岁左右教育程度相对较高一般具有高中以上文化程度虽然平均家庭月收入较好平均在2200元左右同时也是分散程度最高的表明喜爱时尚并不是高收入者的专利这一类型中的三资企业员工的比例最大未婚的比例较大约占1 4 女性的比例为55 高于男性自保型这类消费者占16 他们更多的是为自己的生计考虑考虑自己能否有稳定的经济来源维持家庭的经济保障是他们最关心的问题这些人的平均受教育程度较低中年人的比例较高平均年龄在44岁左右家庭月收入较低平均在1600元左右国营企业员工以及离退休人员的比例较高女性的比例高于男性领袖型这类消费者占13 教育程度处于社会平均水平主要为中年人有较多的生活阅历年龄多在45 54岁之间家庭月平均收入一般在1800元左右在职业上没有显著特征已婚比例是各类消费者中最高的这似乎表明有稳定的家庭也是成为领袖的一个条件男性比例占55 高于女性 2020 1 7 怎样把消费者分类上进型占消费者总人数的不到13 他们对生活的态度积极多为未婚青年平均年龄在28岁左右 25岁以下的占40 单身未婚的比例占1 2以上职业上的显著特征是 1 3为学生三资企业员工的比例达1 10 男性的比例高于女性这类消费者是受教育程度最高的他们的平均家庭收入却是最高的月平均收入在2300元左右迷茫缺乏生活目标型约占15 他们既不注重经济保障也不参加培训生活节奏较缓慢这类消费者主要为退休人员约占该类型人员的2 3 剩下的主要为国营企业员工平均年龄在50岁以上他们的教育程度是最低的家庭收入也是最低的平均不到1600元在性别分布上女性的比例远远高于男性占62 平庸型这类消费者约占23 最大的特点是生活没有计划日常生活没有规律而其他指标则均处于中间状态这类消费者在年龄上比较分散从15岁到54岁之间的各年龄段均有相当比例平均教育程度一般家庭月平均收入在1900元左右在职业上没有显著特征但待岗人员的比例稍高于其他各类型在性别上男性稍高于女性 2020 1 7 在现实生活中分类问题是十分常见的根据经济发展水平把各个国家分成发达国家中等发达国家发展中国家按照消费者的特征对消费者分类按照产品特征对产品分类这些分类中有的事先并不知道存在什么类别完全按照反映对象特征的数据把对象进行分类这在统计上称为聚类分析有的则是在事先有了某种分类标准之后判定一个新的研究对象应该归属到哪一类别这在统计上则称为判别分析 discriminantanalysis 本章主要介绍聚类分析方法聚类分析 clusteranalysis 13 1聚类分析的基本原理13 1 1什么是聚类分析 13 1 2相似性的度量第13章聚类分析 13 1 1什么是聚类分析 13 1聚类分析的思想和原理 2020 1 7 把对象分成不同的类别这些类不是事先给定的而是直接根据数据的特征确定的把相似的东西放在一起从而使得类别内部的差异尽可能小而类别之间的差异尽可能大聚类分析就是按照对象之间的相似程度把对象进行分类什么是聚类分析 clusteranalysis 2020 1 7 聚类分析的对象可以是所观察的多个样本也可以是针对每个样本测得的多个变量按照变量对所观察的样本进行分类称为Q型聚类按照多项经济指标变量对不同的地区样本进行分类按照样本对多个变量进行分类则称为R型聚类按照不同地区的样本数据对多个经济变量进行分类两种聚类没有什么本质区别实际中人们更感兴趣的通常是根据变量对样本进行分类 Q型聚类什么是聚类分析两种分类方式 2020 1 7 按对象的相似程度分类根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦 Pearson相关系数等工具也称为相似系数变量间的相似系数越大说明它们越相近根据变量来测度样本之间的相似程度则使用距离把离得比较近的归为一类而离得比较远的放在不同的类什么是聚类分析按什么分类 13 1 2相似性的度量 13 1聚类分析的思想和原理 2020 1 7 聚类分析中是用距离或相似系数来度量对象之间的相似性在第13章例13 1中 31个地区的人均GDP数据就是直线上的31个点每一个点对应一个地区如果按照人均GDP对它们进行分类就可以把在直线上离得比较近的那些点归为一类如果再考虑财政收入那么人均GDP和财政收入就是二维平面上的一个点 31个地区就是平面中的31个点多个变量就是高维空间中的一个点 31个地区就是高维空间中的31个点各个点之间距离的远近就是分类的依据相似性的度量 2020 1 7 在对样本进行分类时度量样本之间的相似性使用点间距离点间距离的计算方法主要有欧氏距离 Euclideandistance 平方欧氏距离 SquaredEuclideandistance Block距离 Blockdistance Chebychev距离 Chebychevdistance 明氏距离 Minkovskidistance 最常用的是平方欧氏距离相似性的度量样本点间距离的计算方法 2020 1 7 相似性的度量样本点间距离的计算方法 2020 1 7 在对变量进行分类时度量变量之间的相似性常用相似系数测度方法有相似性的度量变量相似系数的计算方法 13 2层次聚类13 2 1层次聚类的两种方式13 2 2类间距离的计算方法13 2 3层次聚类的应用第13章聚类分析 13 2 1层次聚类的两种方式 13 2层次聚类 2020 1 7 层次聚类又称系统聚类事先不确定要分多少类而是先把每一个对象作为一类然后一层一层进行分类根据运算的方向不同层次聚类法又分为合并法和分解法两种方法的运算原理一样只是方向相反层次聚类 hierarchicalcluster 2020 1 7 将每一个样本作为一类如果是k个样本就分k成类按照某种方法度量样本之间的距离并将距离最近的两个样本合并为一个类别从而形成了k 1个类别再计算出新产生的类别与其他各类别之间的距离并将距离最近的两个类别合并为一类这时如果类别的个数仍然大于1 则继续重复这一步直到所有的类别都合并成一类为止总是先把离得最近的两个类进行合并合并越晚的类距离越远事先并不会指定最后要分成多少类而是把所有可能的分类都列出再视具体情况选择一个合适的分类结果层次聚类合并法 2020 1 7 分解方法原理与合并法相反先把所有的对象样本或变量作为一大类然后度量对象之间的距离或相似程度并将距离或相似程度最远的对象分离出去形成两大类其中的一类只有一个对象再度量类别中剩余对象之间的距离或相似程度并将最远的分离出去不断重复这一过程直到所有的对象都自成一类为止SPSS中只提供了合并法层次聚类分解法 13 2 2类间距离的计算方法 13 2层次聚类 2020 1 7 在层次聚类法中当类别多于1个时就涉及到如何定义两个类别之间的距离问题计算类间距离与上面介绍的点间距离不同的方法有很多不同方法会得到不同的聚类结果实际中较常用的是离差平方和法 Ward smethod 又称Ward法类间距离的计算方法 2020 1 7 类间距离的计算方法 2020 1 7 Nearestneighbor 最短距离法用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离Furthestneighbor 最长距离法用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离Centroidclustering 重心法用两个类别的重心之间的距离来表示两个类别之间的距离between groupslinkage 组间平均距离法 SPSS的默认方法是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离Ward smethod 离差平方和法使各类别中的离差平方和较小而不同类别之间的离差平方和较大类间距离的计算方法 13 2 3层次聚类的应用 13 2层次聚类 2020 1 7 例13 1 根据我国31个省市自治区2006年的6项主要经济指标数据采用层次聚类法进行分类并对结果进行分析层次聚类的应用实例分析 31个地区的6项经济指标 SPSS 2020 1 7 用SPSS进行层次聚类第1步选择 Analyze 下拉菜单并选择 Classify HierarchicalCluster 进入主对话框第2步将用于聚类的所有变量选入 Variable s 把区分样本的标签本例为地区选入 LabelCasesby 若对样本进行聚类在 Cluster 下选择 Cases 本例选择对样本聚类若对变量进行聚类在 Cluster 下选择 Variables 第3步点入 Statistics 选中 Agglomerationschedule 点击 Continue 回到主对话框第4步点入 Plots 选中 Dendrogram 点击 Continue 回到主对话框 2020 1 7 用SPSS进行层次聚类第5步点入 Method 在 ClusterMethod 中选择类间距离的定义方法本例选择Ward smethod 在 Measure 下选择点间距离的定义方法本例使用SquaredEuclideandistance 在 TransformValues 的 Standardize 框中选择否对原始数据进行标准化处理本例选择了 Zscores 点击 Continue 回到主对话框第6步点入 Save 在 ClusterMembership 下选择在原始数据中保留分类结果其中 Singlesolution 表示指定要分成类时各样本所属的类 Rangeofsolution 表示指定要分成最少类最多类时各样本所属的类 SPSS会将分类的结果以变量形式保存到原数据窗口中点击 Continue OK 层次聚类 SPSS 2020 1 7 SPSS的输出结果实例分析层次聚类过程的步骤号 2020 1 7 SPSS的输出结果实例分析层次聚类过程的步骤号第1列是聚类的步骤号第2列和第3列给出了每一步被合并的对象这里是地区首先把31个地区各自作为一类共有31类第1步是把距离最近的两个地区21 海南和地区30 宁夏合并成一类在后面的步骤中对于包含多个样本的新类别实际上是用类中的一个样本来代表该类别比如第2步被合并的是21和地区29 青海这里的 21 实际上是指在第1步中被合并的类别只是用 21 表示21 海南所在的类别 2020 1 7 SPSS的输出结果实例分析层次聚类过程的步骤号第4列给出每一步被合并的两个类之间的聚类系数即距离距离按从小到大排列越早合并的类距离越近 0 013是地区21 海南和地区30 宁夏之间的距离而0 040是先被合并的第一小类与地区29 青海之间的距离第5列和第6列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类 0表示本步聚类的是原始的样本第一次出现在聚类过程中其他数字则表示第几步聚类生成的小类参与了本步聚类第7列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并例如在第2步中参与聚类的是第1步形成的小类 21号样本所在的类和地区29 青海第5列的 1 表示21号类是在第1步中形成的小类而 0 表示地区29 青海是第一次出现在本步聚类中的原始样本第7列中的 10 表示这一类将在第10步中与其他类别合并其余类推 2020 1 7 ClusterMembership 分成2类到5类时各地区所属的类别 2020 1 7 层次聚类的树状图分成两类分成四类最大距离作为相对距离25 其余的距离都换算成与之相比的相对距离大小 cut 2020 1 7 层次聚类的应用分类汇总 2020 1 7 使用SPSS中的Means过程计算分类统计量注意使用Means过程时可直接在聚类分析的数据中进行数据表中应包括SPSS以变量名CLU5 1 CLU4 1 CLU3 1 CLU2 1等保存的结果然后按下列步骤操作第一步选择 Analyze 下拉菜单并选择 CompareMeans Means 主对话框第二步将用于描述的所有变量选入 Dependentlist 把地区所属的类别号变量选入 Independentlist 第三步点击 Options 并选择所需要的统计量点击 Continue 主对话框 OK 使用Means过程 SPSS 2020 1 7 层次聚类的应用类别检验各类别所属地区的描述统计量 2020 1 7 层次聚类的应用类别检验不同类别6项经济指标的方差分析表方差分析 SPSS 2020 1 7 层次聚类的应用雷达图将各类别的均值标准化后绘制的雷达图观察类别划分的合理性比较类别之间的相似性 13 3K 均值聚类13 3 1K 均值聚类的基本过程13 3 2K 均值聚类的应用13 3 3使用聚类方法的注意事项第13章聚类分析 2020 1 7 层次聚类事先不需要确定要分多少类聚类过程一层层进行最后得出所有可能的类别结果研究这根据具体情况确定最后需要的类别该方法可以绘制出树状聚类图方便使用者直观选择类别但其缺点是计算量较大对大批量数据的聚类效率不高K 均值聚类事先需要确定要分的类别数据计算量要小得多效率比层次聚类要高也被称为快速聚类 quickcluster K 均值聚类 K meanscluster 13 3 1K 均值聚类的基本过程 13 3K 均值聚类 2020 1 7 第1步确定要分的类别数目K需要研究者自己确定在实际应用中往往需要研究者根据实际问题反复尝试得到不同的分类并进行比较得出最后要分的类别数量第2步确定K个类别的初始聚类中心要求在用于聚类的全部样本中选择K个样本作为K个类别的初始聚类中心与确定类别数目一样原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑使用SPSS进行聚类时也可以由系统自动指定初始聚类中心 K 均值聚类步骤 2020 1 7 第3步根据确定的K个初始聚类中心依次计算每个样本到K个聚类中心的距离欧氏距离并根据距离最近的原则将所有的样本分到事先确定的K个类别中第4步根据所分成的K个类别计算出各类别中每个变量的均值并以均值点作为新的K个类别中心根据新的中心位置重新计算每个样本到新中心的距离并重新进行分类 K 均值聚类步骤 2020 1 7 第5步重复第4步直到满足终止聚类条件为止迭代次数达到研究者事先指定的最大迭代次数 SPSS隐含的迭代次数是10次新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量 SPSS隐含的是0 02 K 均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中类别数目的确定具有一定的主主观性究竟分多少类合适需要研究者对研究问题的了解程度相关知识和经验 K 均值聚类步骤 13 3 2K 均值聚类的应用 13 3K 均值聚类 2020 1 7 例13 2 根据我国31个省市自治区2006年的6项主要经济指标数据采用层次聚类法进行分类并对结果进行分析 K 均值聚类的应用实例分析 31个地区的6项经济指标 SPSS 2020 1 7 数据检查若原始变量取值差异较大应先将原始数据进行标准化避免变量值差异过大对分类结果的影响可以先观察6项经济指标的有关描述统计量 K 均值聚类的应用实例分析 2020 1 7 用SPSS进行K 均值聚类第1步选择 Analyze Classify K MeansCluster 进入主对话框第2步在主对话框中将用于聚类的所有标准化后的变量选入 Variable s 把区分样本的标签变量本例为地区选入 LabelCasesby 在 NumberofClusters 下输入想要分类的数目本例为4 第3步点击 Iterate 并在 MaximumIterations 输入最大迭代次数本例使用隐含的10次点击 Continue 回到主对话框点击 Save 并选择 Clustermembership 点击 Continue 回到主对话框点击 Options 并选择 Initialclustercenters 和 ANOVAtable 本项可根据需要选择点击 OK 注若聚类前需要对原始数据标准化操作为 Analyze DescriptiveStatistics Descriptives 主对话框将需要标准化的变量选入 Variable s Savestandardizedvaluesasvariables OK K 均值聚类 SPSS 2020 1 7 K 均值聚类的应用实例分析分成4类的初始聚类中心该表列出每一类别的初始聚类中心本例的这些中心是由SPSS自动生成的它实际上就是数据集中的某一条记录聚类中心的选择原则是中心点距离其他点尽可能远例如第一类的聚类中心是3 17960 这实际上就是上海的人均GDP标准化后的值第二类聚类中心是1 83293则是天津的标准化人均GDP 等等 2020 1 7 K 均值聚类的应用实例分析分成4类的迭代过程该表从表中可以看出每次迭代过程中类别中心的变化随着迭代次数的增加类别中心点的变化越来越小本例只4次就已经收敛了 2020 1 7 K 均值聚类的应用实例分析分成4类的最终聚类中心表中的数据表示各个类别在各变量上的平均值如第一类的2 88521表示被分到第一类的地区北京和上海标准化后的人均GDP平均值 2020 1 7 K 均值聚类的应用实例分析分类后各个变量在类别之间的方差分析表利用方差分析表可以判断所分的类别是否合理从表中可以看出分类后各变量在不同类别之间的差异都是显著的 P值均接近0 2020 1 7 K 均值聚类的应用实例分析分成4类时每一类的地区数量由该表可以看出第一类包括2个地区第二类包括11个地区第三类包括4个地区第四类包括14个地区 2020 1 7 K 均值聚类的应用实例分析分成4类时每个地区所属的类别 2020 1 7 K 均值聚类的应用分类汇总 13 3 3使用聚类方法的注意事项 13 3K 均值聚类 2020 1 7 除分层聚类法和K 均值聚类法外 1996年还提出一种新的聚类方法即两步聚类法 TwoStepCluster SPSS提供了该聚类方法的程序无论那种分类方法最终要分成多少类别并不是完全由方法本身来决定研究者应结合具体问题而定聚类分析是一种探索性的数据分析方法相同的数据采用不同的分类方法也会的得到不同的分类结果分类的结果没有对错之分只是分类标准不同而已使用聚类方法时首先要明确分类的目的再考虑选择哪

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

聚类分析(2011年).ppt

文档简介

温馨提示

最新文档

评论

聚类分析(2011年).ppt

文档简介

温馨提示

最新文档

评论

相关文档