版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2008年8月,第15章,聚类分析,聚类分析,1 聚类分析的基本原理 2 系统聚类 3 K-均值聚类,2008年8月,学习目标,聚类分析的基本思想和原理 层次聚类和K-均值聚类的基本过程 解释聚类的结果 层次聚类和K-均值聚类的差异及应用条件 聚类分析的注意事项 用SPSS进行聚类分析,2008年8月,在现实生活中,分类问题是十分常见的 根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家 按照消费者的特征对消费者分类,按照产品特征对产品分类 这些分类中,有的事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析;有的则是在事先有了某种分类标准之
2、后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis) 本章主要介绍聚类分析方法,聚类分析 (cluster analysis),1 聚类分析的基本原理 1.1 什么是聚类分析? 1.2 相似性的度量,聚类分析,1.1 什么是聚类分析?,聚类分析的思想和原理,2008年8月,把“对象”分成不同的类别 这些类不是事先给定的,而是直接根据数据的特征确定的 把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大 聚类分析就是按照对象之间的“相似”程度把对象进行分类,什么是聚类分析? (cluster anal
3、ysis),2008年8月,聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量 按照变量对所观察的样本进行分类称为Q型聚类 按照多项经济指标(变量)对不同的地区(样本)进行分类 按照样本对多个变量进行分类,则称为R型聚类 按照不同地区的样本数据对多个经济变量进行分类 两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类),什么是聚类分析? (两种分类方式),2008年8月,按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数 变量间的相似系数越大,说明它们越相
4、近 根据变量来测度样本之间的相似程度则使用“距离” 把离得比较近的归为一类,而离得比较远的放在不同的类,什么是聚类分析? (按什么分类),1.2 相似性的度量,聚类分析的思想和原理,2008年8月,聚类分析中是用“距离”或“相似系数”来度量对象之间的相似性 31个地区的人均GDP数据就是直线上的31个点,每一个点对应一个地区 如果按照人均GDP对它们进行分类,就可以把在直线上离得比较近的那些点归为一类。如果再考虑财政收入,那么人均GDP和财政收入就是二维平面上的一个点,31个地区就是平面中的31个点 多个变量就是高维空间中的一个点,31个地区就是高维空间中的31个点 各个点之间距离的远近就是分
5、类的依据,相似性的度量,2008年8月,在对样本进行分类时,度量样本之间的相似性使用点间距离 点间距离的计算方法主要有 欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离,相似性的度量(样本点间距离的计算方法),2008年8月,相似性的度量(样本点间距离的计算方法),2008年8月,在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法
6、有,相似性的度量(变量相似系数的计算方法),2 系统聚类 2.1 系统聚类的两种方式 2.2 类间距离的计算方法 2.3 系统聚类的应用,聚类分析,2.1 系统聚类的两种方式,2 系统聚类,2008年8月,系统聚类又称层次聚类 事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类 根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反,系统聚类(hierarchical cluster),2008年8月,将每一个样本作为一类,如果是k个样本就分k成类 按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个类别,从而形成了k-1个类别
7、 再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止 总是先把离得最近的两个类进行合并 合并越晚的类,距离越远 事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果,系统聚类(合并法),2008年8月,分解方法原理与合并法相反 先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这
8、一过程,直到所有的对象都自成一类为止 SPSS中只提供了合并法,系统聚类(分解法),2.2 类间距离的计算方法,系统聚类,2008年8月,在系统聚类法中,当类别多于1个时,就涉及到如何定义两个类别之间的距离问题 计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果 实际中较常用的是离差平方和法(Wards method),又称Ward法,类间距离的计算方法,2008年8月,类间距离的计算方法,2008年8月,Nearest neighbor(最短距离法)用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离 Furthest neighbor(最长距离法
9、)用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离 Centroid clustering(重心法)用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离 Wards method(离差平方和法)使各类别中的离差平方和较小,而不同类别之间的离差平方和较大,类间距离的计算方法,2.3 系统聚类的应用,系统聚类,2008年8月,【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析,层次聚
10、类的应用 (实例分析),31个地区的6项经济指标,2008年8月,用SPSS进行层次聚类,第1步 选择【Analyze】下拉菜单,并选择【Classify- Hierarchical Cluster】,进入主对话框 第2步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cases by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】 第3步 点入【Statistics】选中【Agglomeration schedule】,
11、点击【Continue】回到主对话框 第4步 点入【Plots】选中【Dendrogram】,点击 【Continue】回到主对话框,2008年8月,用SPSS进行层次聚类,第5步 点入【Method】,在【Cluster Method】中选择类间距离的 定义方法(本例选择Wards method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框 第6步 点
12、入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,其中【Single solution】表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】,用SPSS进行系统聚类,2008年8月,SPSS的输出结果(实例分析),层 次 聚 类 过 程 的 步 骤 号,2008年8月,SPSS的输出结果(实例分析),层次聚类过程的步骤号,第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区)
13、首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。在后面的步骤中,对于包含多个样本的新类别,实际上是用类中的一个样本来代表该类别,比如,第2步被合并的是21和地区29(青海),这里的“21”实际上是指在第1步中被合并的类别,只是用“21”表示21(海南)所在的类别,2008年8月,SPSS的输出结果(实例分析),层次聚类过程的步骤号,第4列给出每一步被合并的两个类之间的聚类系数(即距离)。距离按从小到大排列,越早合并的类距离越近。0.013是地区21(海南)和地区30(宁夏)之间的距离,而0.040是先被合并的第一小类与地区29(
14、青海)之间的距离 第5列和第6列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类,0表示本步聚类的是原始的样本,第一次出现在聚类过程中,其他数字则表示第几步聚类生成的小类参与了本步聚类。第7列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。例如,在第2步中,参与聚类的是第1步形成的小类(21号样本所在的类)和地区29(青海),第5列的“1”表示21号类是在第1步中形成的小类,而“0”表示地区29(青海)是第一次出现在本步聚类中的原始样本,第7列中的“10”表示这一类将在第10步中与其他类别合并,其余类推,2008年8月,Cluster Membership,分成2类到5
15、类时各地区所属的类别,2008年8月,层 次 聚 类 的 树 状 图,分成两类,分成四类,最大距离作为相对距离25 ,其余的距离都换算成与 之相比的相对距离大小,cut,2008年8月,层次聚类的应用 (分类汇总),2008年8月,使用SPSS中的Means过程(计算分类统计量),注意 使用Means过程时可直接在聚类分析的数据中进行,数 据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果,然后按下列步骤操作 第一步 选择【Analyze】下拉菜单,并选择 【Compare Means-Means】主对话框 第二步 将用于描述的所有变量选入【Dep
16、endentlist】,把地 区所属的类别号变量选入【Independent list】 第三步 点击【Options】并选 择所需要的统计量,点击 【Continue】主对话框 【OK】,使用SPSS的Means过程,2008年8月,层次聚类的应用 (类别检验),各类别所属地区的描述统计量,2008年8月,层次聚类的应用 (类别检验),不同类别6项经济指标的方差分析表,方差分析,3 K-均值聚类 3.1 K-均值聚类的基本过程 3.2 K-均值聚类的应用 3.3 使用聚类方法的注意事项,聚类分析,2008年8月,系统聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果
17、,研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高 K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高, 也被称为快速聚类(quick cluster),K-均值聚类(K-means cluster),3.1 K-均值聚类的基本过程,3 K-均值聚类,2008年8月,第1步:确定要分的类别数目K 需要研究者自己确定 在实际应用中,往往需要研究者根据实际问题反复尝试,得到不同的分类并进行比较,得出最后要分的类别数量 第2步:确定K个类别的初始聚类中心 要求在用于聚类的全部样本中,选择
18、K个样本作为K个类别的初始聚类中心 与确定类别数目一样,原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑 使用SPSS进行聚类时,也可以由系统自动指定初始聚类中心,K-均值聚类(步骤),2008年8月,第3步:根据确定的K个初始聚类中心,依次计算每个样本到K个聚类中心的距离欧氏距离,并根据距离最近的原则将所有的样本分到事先确定的K个类别中 第4步:根据所分成的K个类别,计算出各类别中每个变量的均值,并以均值点作为新的K个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类,K-均值聚类(步骤),2008年8月,第5步:重复第4步,直到满足终止聚类条件为止 迭代次
19、数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次) 新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02) K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验,K-均值聚类(步骤),3.2 K-均值聚类的应用,K-均值聚类,2008年8月,【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析,K-均值聚类的应用 (实例分析),31个地区的6项经济指标,2008
20、年8月, 数据检查 若原始变量取值差异较大,应先将原始数据进行标准化,避免变量值差异过大对分类结果的影响 可以先观察6项经济指标的有关描述统计量,K-均值聚类的应用 (实例分析),2008年8月, 数据标准化(SPSS) 【Analyze】【Descriptive Statistics】 【Descriptives】主对话框 将需要标准化的变量选入【Variable(s)】 【Save standardized values as variables】 【OK】,K-均值聚类的应用 (实例分析),31个地区的6项经济指标的标准化,2008年8月,K-均值聚类的应用 (实例分析),分成4类的初始
21、聚类中心,该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是3.17960,这实际上就是上海的人均GDP标准化后的值。第二类聚类中心是1.83293则是天津的标准化人均GDP,等等,2008年8月,K-均值聚类的应用 (实例分析),分成4类的迭代过程, 该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只4次就已经收敛了,2008年8月,K-均值聚类的应用 (实例分析),分成4类的最终聚类中心, 表中的数据表示各个类别在各变
22、量上的平均值。如,第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值,2008年8月,K-均值聚类的应用 (实例分析),分类后各个变量在类别之间的方差分析表, 利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的(P值均接近0),2008年8月,K-均值聚类的应用 (实例分析),分成4类时每一类的地区数量, 由该表可以看出,第一类包括2个地区,第二类包括11个地区,第三类包括4个地区,第四类包括14个地区,2008年8月,K-均值聚类的应用 (实例分析),分成4类时每个地区所属的类别,2008年8月,K-均值聚类的应用 (分类汇总),3.3 使用聚类方法的注意事项,K-均值聚类,2008年8月,除分层聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStep Cluster)(SPSS提供了该聚类方法的程序) 无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定 聚类分析是一种探索性的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江苏省无锡市藕塘中学中考适应性考试物理试题含解析
- 煤炭机械设备的电气自动化控制系统研究
- 巢湖市2025年四年级数学下学期期末调研试题(含答案解析)
- 【2026】年长度计量工几何量测量与检定技术题库及解析
- 2026年工厂厂长(某大型国企)面试题题库应答技巧
- 广东省肇庆市高要区金利镇朝阳教育集团达标名校2026届中考物理模拟预测题含解析
- 2026年治河及泥沙治理工程技术人员专题题库
- 中医妇科护理特色技术介绍
- 河北省唐山市丰润区重点达标名校2026届中考一模物理试题含解析
- 中医急诊患者心理护理策略
- 2026年北京市东城区初三下学期二模英语试卷和答案
- 2026天津中考复习要点:全科答题模板与津门文化素材汇编(津版)
- 2026年广西政府采购评审专家培训考试试题及答案
- AI在化工安全技术中的应用
- 2026年中国国新招聘笔试题库
- 2026年小学科学六年级试卷及答案
- 2026年殡葬管理条例知识测试题库
- 2026届深圳二模数学试题+答案
- 实行一周一调度工作制度
- 儿童鼻异物处理课件
- 2026年高考(广东卷)英语试题及答案
评论
0/150
提交评论