




免费预览已结束,剩余12页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析(Cluster Analysis)内容提要: 聚类分析简介、聚类分析分类统计量、系统聚类法、案例分析及SPSS实现聚类分析简介一、导言 聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引入分类学中,于是从数值分类学中逐渐分离出聚类分析这个新的分支。二、聚类分析的概念 聚类分析是根据研究对象的特征,对样品或者变量进行分类的一种多元统计分析方法。在进行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。 聚类分析的目的是根据对象间的相关程度大小进行类别的聚合,要求同一类中的个体有较大的相关性,不同类中的个体差异很大。三、聚类分析的分类 按照聚类分类的对象,聚类分析可以分为样本聚类(也称Q-型聚类分析)和变量聚类(也称R-型聚类)两种。 按照聚类原理的不同,聚类分析可分为系统聚类法、动态聚类法、模糊聚类法等,其中系统聚类方法是最常用最基本的一种聚类分析方法。 注: (1)系统聚类法和模糊聚类法既可以用于样本聚类,也可以用于变量聚类;而动态聚类法只能用于对样本聚类不能用于对变量聚类。 (2)样本量较小时,一般用系统聚类;样本量大时应该用动态聚类。聚类分析分类统计量 要进行定量分类首先必须确定一些划分类型的数量指标,也就是要定出一些能够反映样本(或变量)相关(或相似)程度的数量指标,这些数量指标就叫作分类统计量。 一、距离系数 设每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。 用dij表示第i个样本与第j个样本之间的距离。常见的距离有: 绝对值距离: 欧式距离 平方欧式距离 切比雪夫距离 明考斯基距离(明氏距离)当q=1,2时,为绝对值、欧式距离.二、相关系数任意两个变量xi和xj之间的相关系数根据m个变量两两间的相关系数构成相关矩阵R为对称矩阵,主对角线上的元素为1,rij越接近于1或-1,则表明变量i与j相关程度越高,越密切;rij越趋近于0,变量i和j的相关程度越小。三、夹角余弦夹角余弦是从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量利用上式计算出所有样品两两间的相关系数,构成一个对称的系数矩阵该矩阵主对角线上的元素为1, 。 值越接近于1或-1,第j、k两个样品越相关。反之, 越趋近于0,相关性越小。四、分类统计量的选取原则同一批数据采用不同的分类统计量,得到不同的聚类结果。产生原因,主要是由于不同的分类统计量所衡量的亲疏程度的实际意义不同,即,不同的亲疏程度指标代表了不同意义上的亲疏程度。因此在进行聚类分析时,应注意分类统计量的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有: (1)所选择的分类统计量在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。(2)分类统计量的选择要综合考虑已对样本数据实施的变换方法和将要采用的聚类分析方法。如聚类前已对变量的相关性作了处理,则通常可采用欧氏距离。又如,所选取的分类统计量,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。样品间或变量间的分类统计量的选取是一个比较复杂且带主观性的问题,应根据研究对象的特点进行具体分析。实践中,在开始进行聚类分析时,不妨试探性地多选取几个分类统计量,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的分类统计量。五、确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍一种比较常用的方法。给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.5,当聚类时,类间的距离已经超过了0.5时,聚类结束。根据谱系图确定分类个数的准则: 1、各类间的距离必须很大; 2、类中保包含的样品不要太多; 3、类的个数必须符合实际应用; 4、如果采用几种不同的聚类方法处理,则在各种聚类图中应该发现相同的类。 系统聚类方法系统聚类法是目前国内外使用比较多的一种聚类方法一、分析过程: 1、根据样品的特征,每个样品自成一类,计算n个样品两两之间的距离为dij,把这些距离排列成一表,记为D(0)表。 2、选择D(0)表中最小的非零数,不妨假设dpq ,于是将Gp 和Gq 合并为一新类,记为 3、利用递推公式计算新类与其它类之间的距离,产生D(1)表。若类的个数等于1,转到下一步,否则回到前一步。类推直至所有的样本点归为一类为止。 4、画聚类图 5、决定类的个数 6、聚类结果的解释和证实 由于类与类之间的距离的计算方法不同,形成了不同的系统聚类方法。二、常见的聚类法 1、最短距离:两类中相距最近的两样本间的距离。2、最长距离:两类中相距最远的两样本间的距离。3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设1类和2、3类间的最短距离为d12,最长距离为d13,2、3类的长度为d23,则中间距离为:上式推广为一般情况:4、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值5、 离差平方和:设N个样品原分q类,则定义第i类的离差平方和为:离差平方和增量:设样本已分成p,q两类,若把p,q合为r类,则定义离差平方:为了便于我们理解系统聚类法的方法和步骤,下面给出一个例子逐步进行说明:例:为了研究辽宁等5省1991年城镇居民生活消费情况的分布规律,根据调查资料做类型分类,用最短距离法做类间分类。数据如下: 将每一个省区视为一个样本,先计算5个省区之间的欧式距离,用D0表示距离矩阵(对称阵,故给出下三角阵)因此将3、4合并为一类,为类6,替代了3、4两类类6与剩余的1、2、5之间的距离分别为: d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12 d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06 d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21得到新矩阵 合并类6和类5,得到新类7 类7与剩余的1、2之间的距离分别为: d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80 d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54得到新矩阵合并类1和类2,得到新类8此时,我们有两个不同的类:类7和类8。它们的最近距离 d(7,8)=min(d71,d72)=min(12.80,23.54)=12.80得到矩阵然后合并类7和类8为一个大类。这就是按最短距离定义类间距离的系统聚类方法。其他的距离法同理可得!案例分析及SPSS实现例1:为研究我国省市的经济、教育、环境等综合发展水平,收集了15个省市经济、教育、健康状况和居住环境的数据(见下表),请将这些省市聚类,以分析各类的大体情况。其中,经济、教育、健康状况和居住环境是变量,而省市数据是样本,要求对省市聚类,因而是样本聚类。下面利用SPSS进行分析和说明: 分类统计量: 平方欧式距离 聚类方法: 类平均距离法和最短距离法 表中列出了数据处理的大体情况,包括有效样本数15,缺失的 样本数0等。类平均距离法:最小距离法这两幅图是省市经济数据聚类分析冰挂图,图中的缺口就是分类的标准,假如我们想将样本分成三类,就需要找图中最长的两个缺口,因此样本就分为三类: 类平均距离法的分类结果: 第一类:贵州、青海、江西、湖南; 第二类:宁夏、广西、辽宁、福建、安徽、河南; 第三类:黑龙江、吉林、天津、上海、北京。 最小距离法的分类结果: 第一类:宁夏、广西、贵州、青海、江西、湖南; 第二类:辽宁、福建、安徽、河南; 第三类:黑龙江、吉林、天津、上海、北京。Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 吉林 6 -+-+ 黑龙江 7 -+ +-+ 天津 3 -+ +-+ 北京 1 -+-+ | 上海 2 -+ +-+ 河南 4 -+-+ | | 福建 8 -+ +-+ | | 安徽 10 -+ +-+ | 辽宁 5 -+ | 青海 14 -+-+ | 贵州 15 -+ +-+ 湖南 12 -+-+ | 江西 13 -+ +-+ 广西 9 -+-+ 宁夏 11 -+上图为省市经济数据聚类分析聚类图,从图中可以看到:黑龙江、吉林、天津、上海、北京这一类,并类的距离不超过5,贵州、青海、江西、湖南并类距离也不超过5,而宁夏、广西、辽宁、福建、安徽、河南并类的距离在5左右,换言之,类内距离大概是5,而类间距离在1520之间,类内距离远小于类间距离,分类是合理的。例2:随机选取50个样本(人),2个特征参数(身高H和体重G),然后将这两个变量合并成为一个新的变量T,合并的方式是T=H/G,样本数据见下表,用新变量T对这50个样本进行系统聚类分析,采用SPSS软件进行实现。编号身高H(cm)体重W(Kg)身高/体重T1157562.80 2162543.00 3157523.02 4156552.84 5165533.11 6156542.89 7153542.83 8154552.80 9157532.96 10160503.20 11166582.86 12158642.47 13156453.47 14162642.53 15156532.94 16162732.22 17170702.43 18156582.69 19160523.08 20163682.40 21164543.04 22166752.21 23157503.14 24153582.64 25162602.70 26160503.20 27159542.94 28163473.47 29156513.06 30155473.30 31167642.61 32164702.34 33166652.55 34158542.93 35155702.21 36178612.92 37177722.46 38158542.93 39166702.37 40166652.55 41166652.55 42161642.52 43177652.72 44163712.30 45171822.09 46169692.45 47173622.79 48170702.43 49168652.58 50171582.95 分类统计量:平方欧氏距离聚类方法:离差平方和法结果分析: 案例处理汇总案例有效缺失总计N百分比N百分比N百分比50100.00.050100.0 有效样本数为50,缺失样本数为0。聚类表步骤类别合并平方欧式距离两类的来源下一步群集 1群集 2群集 1群集 211748.000002824041.00000333340.000023043438.000001451026.000003662235.000001271527.000001181328.0000044947.00000331018.0000016111550.0007021121622.0000639133746.0000018143436.0004032151825.000002716147.00010033171442.0000030181237.0010132819321.0010026201929.001003421915.00101132223149.0010031232039.002003524523.002003625611.00200372623.00301934271843.00315043281217.00518141293244.0060035301433.00717338312431.0080223832934.0092114423314.0111693734219.014262042352032.01823294136510.023245403716.029332543381424.038303145391645.0501204740530.06536044411220.0852835454229.11434324643118.14837274644513.25840848451214.3704138474612.561434248471216.84945394948151.594464449491125.42648470聚类分析冰挂图 Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 17 17 -+ 48 48 -+ 37 37 -+ 46 46 -+ 12 12 -+ 20 20 -+ 39 39 -+ 32 32 -+ 44 44 -+-+ 40 40 -+ | 41 41 -+ | 33 33 -+ | 14 14 -+ | 42 42 -+ +-+ 31 31 -+ | | 49 49 -+ | | 24 24 -+ | | 22 22 -+ | | 35 35 -+ | | 16 16 -+-+ | 45 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村电商示范县创建资金申请报告:2025年电商法律法规完善
- 专业装修设计施工合作项目
- 2025年仿制药一致性评价对医药市场消费者行为的影响及应对策略
- 跨境电商母婴用品行业可持续发展战略研究报告
- 深部地震波传播特征-洞察及研究
- 年产5800万个培养皿灭菌袋项目可行性研究报告
- 年产7万吨聚醚酰胺反应釜项目可行性研究报告
- 新能源行业上市公司2025年研发投入与技术转化效率产业技术创新路径报告
- 综合解析冀教版8年级下册期末测试卷附参考答案详解(精练)
- 中医执业医师题库试题(巩固)附答案详解
- ECMO培训计划方案
- 物业管理中的控烟规章制度
- 云上贵州大数据(集团)有限公司招聘笔试冲刺题2024
- 反比例函数教材分析课件
- 空调工人安装合同模板
- Unit 8 Lets celebrate!教学设计2024-2025学年牛津译林版英语七年级上册
- 国际商务课件全套教程
- 22.3 实际问题与二次函数 课件 2024-2025学年人教版数学九年级上册
- 文言合集(1):120个文言实词小故事(教师版+学生版)
- 教科版(2024)小学科学一年级上册(全册)教案及反思(含目录)
- 【课件】2025届高三生物一轮复习备考策略研讨
评论
0/150
提交评论