版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第11章 聚类分析聚类分析(CLUSTER)是将样本或变量(binling)进行分类的一种方法。通常(tngchng)用相似性指标“距离(jl)”和“相似系数”来衡量研究对象的联系紧密程度,从而进行合理分类。“距离”常用来对样本分类,即把每一个样本看作是m维空间(若样本被m个变量所描述)的一个点,把距离较近的点归为一类,距离较远的点归为不同的类。“相似系数”用来对变量分类,将变量间相似系数较大的归为一类,较小的归为不同类。第一节 距离和相似系数一、距离1、“欧几里得”距离A和B两点由m个变量所描述,其坐标分别是(x1,x2,xm)和(y1,y2,ym),那么d(A,B)= 。例如:某次收视率调
2、查中的部分数据如表1,则1号被访者和2号被访者的“距离”为:d(A,B)= 表1:原始数据被访者年龄(岁)文化程度(年)日收看电视时间(分)X1X2X31251640260612034212906003414150=41,S1=20=12,S2=5=90,S3=40上述测量的距离存在问题:(1)同一个变量单位不同会导致不同的距离;(2)不同变量的度量不一致,无法判断变量值大小和变量的重要程度,从而无法判断距离的意义。因而需要对原始数据进行标准化。 表2:标准化数据被访者年龄(岁)文化程度(年)日收看电视时间(分)X1X2X31-0.80.81.2520.95-1.20.7530.050.00.
3、00600-0.350.41.50=0,S1=1=0,S2=1=0,S3=12、SPSS聚类分析中提供(tgng)的距离(1)欧式距离(jl)(EUCLID),等于(2)欧式距离的平方(SEUCLID),等于(dngy)变量差2+变量差2+(3)曼哈顿距离(BLOCK),等于变量差的绝对值之和(4)切比雪夫距离(CHEBYCHEV),等于变量差中绝对值最大者(5)幂距离POWER(p,r),等于变量差的绝对值的p次方之和,再求r方根。2、相似系数(1)变量间的相关系数即皮尔逊相关系数;(2)变量间的夹角余弦,即将两变量分别看成n维空间的向量时的夹角余弦值。相关系数一般针对定距变量,对于定类变量
4、特别是二项变量也可引入虚拟变量后计算相关系数。例1:假定5个样本(人)具有如下指标:(1)请对个体进行分类;(2)对变量进行分类。 表3:五个人的六种身体特征指标身高(cm)体重(公斤) 眼睛形状鼻子形状习惯用手性别个体1166120单高右女个体2175145双低右男个体3168135单高右男个体4167100双低右女个体5174150双低左男1,双眼皮0,单眼皮1,体重1300,体重1301,身高1700,身高170解:变量中包含定距和定类变量,可以全部变成虚拟变量(也可将后四个虚拟),令X1= ;X2= ;X3= ;1,高鼻梁0,低鼻梁1,女0,男1,用左手0,用右手X4= ;X5= ;X
5、6= ,表3可转化为表4:X1X2 X3X4X5X6个体1000101个体2111000个体3010100个体4001001个体5111010(1)根据两个个体共同特征的多少来对个体分类(fn li),以欧式距离的平方来进行聚类,个体之间的距离越小越相似,可求得:d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5; d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2;d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2;d2(1,5)=(0-
6、1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6;同理计算其他(qt)距离,得到下表:表5:5个体(gt)间距离1234510250323042340561440根据距离大小,判断相似程度。个体2和5距离最小,最相似。1和3,1和4距离较小,较相似。如果分两类,则可分为1,5和 1,3,4。(2)对特征变量进行分类,先计算两个变量间的相似系数: r12= = =0.6667同理计算其它相关系数:表6:六个变量间的相关系数12345611.000020.66671.000030.66670.16671.00004-0.6667-0.1667-1.00001.000
7、050.61240.40820.4082-0.40821.00006-0.6667-1.0000-0.16670.1667-0.40821.0000表6中出现(chxin)负相关系数,不予考虑符号(fho),仅以绝对值来表示相关(xinggun)程度。X2与X6,X3与X4两对变量最相似,同时X2和X3、X4,X6和X3、X4之间相关系数很小,所以 X2,X6和 X3,X4是几乎不相交的两类。X1、X5和其它5个变量的相关关系都适中,所以二者都不宜于其它变量合并,将X1和X5单独归为一类。几个注意问题:(1)对个体进行聚类时,1-1匹配和0-0匹配是完全同等看待,实际上不太合理。如两个左撇子比
8、两个同用右手的人更相似一些。因此有时对1-1匹配和0-0匹配区别处理,或给予不同权数。(2)此法聚类较为主观,对X1和X2处理较粗糙。第二节 谱系聚类法谱系聚类法中常用的聚集法是先将所有研究对象都各自视为一类,将最靠近的首先聚类,再将这个类和其它类中最靠近的对象结合,一直合并到所有对象都综合成一类。谱系聚类法的聚集或分割过程可以用“谱系图”直观表示出来。一、最短距离法 5 67 1 24 3两个类之间的距离定义为:两类中两两元素之间距离最小者,并依此逐次选择最靠近的类聚集的方法。例如 d1,2,3,45,6,7= mind15, d16, d17, d25, d26, d27, d35, d3
9、6, d37, d45, d46, d47 = d37例2:假定5个对象间的距离如表9所示,用最短距离法聚类,并画出谱系图。表7:5个对象间距离1234510260324043450571550解:将5个对象分别视为1类,最靠近的两类是2和5,因为它们间具有最小类间距离d25=min 6,2,3,7,4,1,5=1,将2和5合并为一个新类2,5。其次再求出2,5和1,3,4的距离: d2,51=min d21, d51 = min 6, 7=6d2,53=min d23, d53 = min 4,5=4d2,54=min d24, d54 = min 4,5=4于是(ysh)可以将2,5,1,
10、3,4这四类的距离(jl)重新做出表10(1):表8(1):4个类间的距离(jl)2,51342,50160342044350在这4类中,1和3最靠近,它们具有最小类间距离d13=min 6, 4,2,3,5=2。将1和3合并成新类 1,3,再求出 1,3和 2,5,4的距离:d 1,32,5=min d12,5, d32,5 = min 6, 4=4d 1,34=min d14, d34 = min 3,5=3将 1,3, 2,5,4这三类的距离作出表10(2):表8(2):3个类间的距离2,5 1,342,50 1,3404430在这三类中,最靠近的类是 1,3和4,d 1,34=min
11、4, 3 =3。因此可将 1,3和4合并成为一个新类 1,3,4,这时只有两个不同的类 2,5和 1,3,4,它们的距离为d2,5 1,3,4= min d2,5 1,3, d2,54 = min 4, 4=4。最后再将 2,5和 1,3,4合并为一类,由此完成整个聚类过程。相应谱系图如图1:图1:最短距离法谱系图 1 2 3 4 距离 2 5 1 3 4 对象(duxing)2、最长距离法与最短距离法聚类方式(fngsh)相同,不同的是类与类之间的距离定义为两类中元素之间距离最大者。例如: 1 24 3 5 67 d1,2,3,45,6,7= maxd15, d16, d17, d25, d
12、26, d27, d35, d36, d37, d45, d46, d47 = d16例3:对例3中的相同数据(shj)用最长距离法聚类并画处谱系图:解:首先将最靠近的2和5合并为一类,并计算2,5和1,3,4的距离:d2,51= max d21, d51 = max 6, 7=7d2,53= max d23, d53 = max 4,5=5d2,54= max d24, d54 = max 4,5=5 由此可以写出新的四个类间的距离如表9(1)所示。其中最靠近的是1和3,将其合并为新类 1,3,并计算 1,3和 2,5,4的距离:d 1,32,5= max d12,5, d32,5 = ma
13、x 7,5=7d 1,34= max d14, d34 = max 3,5=5新的三类间的距离如表9(2)所示,由于两个距离都是5,因此可以合并 1,3和4为一个新类,也可以合并2,5和4为一个新类。不管何种合并,最后新的两类间的距离都是7,如表9(3)和表9(4)。表9(1):4个类间的距离2,51342,50170352045350表9(2):3个类间的距离2,5 1,342,50 1,3704550表9(3):两个类间的距离2,5 1,3,42,50 1,3,470 表9(4):两个(lin )类间的距离2,5,4 1,32,5,40 1,370两种聚类过程的谱系图如图3,第一种聚类结果
14、(ji gu)和图1的结果一致。图3:最长距离法谱系(px)图(两种可能聚类结果) 1 2 3 4 5 6 7 距离 1 2 3 4 5 6 7 距离2 25 51 43 14 33、中间距离法 类与类之间的距离即不取最短距离也不取最长距离,而是取某个中间的距离,即中间距离法。 G1G2 G3 d GN例如由G1和G2组成的新类GN,其与G3的距离为三角形的中线d的平方:。采用中间距离法进行聚类时一般使用欧式距离的平方。最短距离法和最长距离法的优点:聚类过程是单调的,即每一步聚类时的距离都大于前一步,所以谱系图一目了然。中间距离法的优点:空间守恒,即两个类之间的距离基本上都取中间的,即不取最短
15、(空间收缩),也不取最长(空间扩张)。最短距离法和最长距离法的缺点:空间不守恒。中间距离法的缺点:非单调,有时聚类的距离小于前一步聚类时的距离,所以谱系图有时不易理解。共同的缺点:没有考虑各类中研究对象(duxing)的数量以及各样本的信息。4、重心(zhngxn)法两个类之间的距离定义(dngy)为两类的重心间的距离,聚类过程同前。5、类平均法两个类之间的距离(平方)定义为两类中的元素两两之间的平均(平方)距离。6、变差平方和法分类思想类似方差分析,使类内元素间的变差平方和尽可能小,类与类之间的变差平方和尽可能大。表10:六种谱系聚类法的比较方法SPSS命令空间性质单调性对距离的要求适用形结
16、果的唯一性备注最短距离法SINGLE压缩单调条形,S形唯一太压缩,不够灵敏最长距离法COMPLETE扩张单调适用于椭球形距离表中有相同元素时,可能不唯一结果太扩张,样本大时失真中间距离法MEDIAN守恒非单调欧式距离平方重心法CENTROID守恒非单调同上类平均法WAVERAGE守恒单调不太压缩也不太扩张,效果较好,较常用变差平方和法WARD扩张单调欧式距离平方效果较好,较常用谱系聚类法在距离的选择以及各种聚类法的选择仍带有一定主观性,因而在聚类时,可多用几种距离和方法,最后根据实际问题性质确定合适的聚类结果。除谱系聚类法外,还有非谱系聚类法和模糊聚类法等。如果对变量进行聚类,一般先求出变量间
17、的相似系数,按照相似系数越大变量越相似的原则,聚类过程类似样本聚类。也可将相似系数转化为距离,然后再聚类,d=2,c表示两个变量间的某种相似系数,d为某种距离。例5:24名优秀运动员的七项全能项目得分间的相关系数如表14,对这七项指标进行聚类分析。 表11:七个体育项目的相关系数变量100米栏X1跳高X2铅球X3200米X4跳远X5标枪X6800米X7100米栏X11.000跳高X20.44981.000铅球X30.68380.46661.000200米X40.84660.32980.56751.000跳远X50.81130.54200.59430.81121.000标枪X60.32140.2
18、1540.68960.31430.32761.000800米X70.57060.14980.37620.67900.49570.05561.000解:变量(binling)X1和X4(简称(jinchng)1和4)的相关系数最大,先将1和4聚成一个新类 1,4,然后(rnhu)计算 1,4和变量2、3、5、6、7的相关系数:r21,4= max r21, r24 = max 0.4498,0.3298=0.4498r31,4= max r31, r34 = max 0.6838,0.5675=0.6838这些相关系数绘成新表12(1),其中最大的相关系数是0.8113,所以将变量5归入 1,4
19、中形成 1,4,5,然后求出 1,4,5与变量2、3、6、7的相关系数。继续下去直到全部变量都并为一类为止(见表14(1)至14(5))。最后的谱系图(图5)说明,7个变量可分为四类: 1,4,5, 3,6, 7和 2,即速度型项目 100米栏,200米,跳远,投掷型项目铅球,标枪,耐力型项目 800米和弹跳型项目 跳高。 表12(1)变量 1,423567 1,41.00020.44981.00030.68380.46661.00050.81130.54200.59431.00060.32140.21540.68960.32761.00070.67900.14980.37620.49570.05561.000表12
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年张家口市桥东区街道办人员招聘考试参考试题及答案解析
- 202集团粤港澳新闻中心招聘记者实习生3名笔试参考题库及答案详解
- 2026克州乌恰西极人力资源服务有限公司招聘10人笔试备考题库及答案详解
- 2026福建宁德古田县鹤塘中心卫生院(古田县第二医院)编外人员招聘1人笔试参考题库及答案详解
- 2026年广东省清远市街道办人员招聘考试备考题库及答案解析
- 2026山东省水利勘测设计院有限公司招聘20人笔试参考题库及答案详解
- 2026天津市卫生健康委员会所属天津市中西医结合医院(天津市南开医院)第二批次招聘3人笔试参考试题及答案详解
- 2026年广西壮族自治区桂林市街道办人员招聘考试模拟试题及答案解析
- 小学学生饮水杯容量与喝水次数-基于2023年课间喝水行为统计
- 2026河南省医学科学院智能医学研究所招聘工作人员10人笔试参考题库及答案详解
- GB/T 19466.1-2025塑料差示扫描量热(DSC)法第1部分:通则
- 上海拆迁合同范本
- 高速铁路轨道施工与维护课件 2.无缝线路养护维修
- 中职学校新校区搬迁舆情预案背景
- 钢筋加强施工方案
- 上海软课题申报书示范
- 2025年入党积极分子培训考试试题库及答案
- 聊城市协管员招聘面试题及答案
- 2025海南海口市总工会招聘下属事业单位人员2人(第1号)考试参考试题及答案解析
- 江苏入团考试试题及答案
- 2025年四川省中医规培考试试题
评论
0/150
提交评论