




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、聚类分析人类认识世界往往首先将被认识的对象进行分类,聚类分析是研究分类问题的多元数据分析方法,是数值分类学中的一支。多元数据形成数据矩阵,见下表 1。在数据矩阵中,共有 n 个样品 x1,x2,xn(列向),p 个指标(行向)。聚类分析有两种类型:按样品聚类或按变量(指标)聚类。表 1数据矩阵聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚到一个小的分类,然后逐步扩大,使得关系疏远的聚合到一个大的分类,直到所有的样品(或变量)都完毕,形成一个表示亲疏关系的谱系图,依次按照某些要
2、求对样品(或变量)进行分类。一、分类统计量距离与相似系数1样品间的相似性度量距离用样品点之间的距离来衡量各样品之间的相似性程度(或靠近程样品指标j , . , xnx1 x2Mxpj1.xn1j 2.xn 2MMLMLMjp.xnp度)。设d ( xi , x j ) 是样品 xi , x j 之间的距离,一般要求它满足下列条件:1) d ( xi , x j ) ³ 0 , 且 d2) d ( xi , x j ) = d ( x j , xi ) ;3) d ( xi , x j ) £ d ( xi , xk ) + d ( xk , x j ) .= x j ;i在
3、聚类分析中,有些距离不满足 3),我们在广义的角度上仍称它为距离。1.1距离1é2 ù 2pik - x jk ) údë k =1û1.2绝对距离pik - x jk |dk =11.3Minkowski 距离1ém ù mpik - x jk ) údë k =1û1.4Chebyshev 距离ik - x jk |d (1.5方差距离1é( x - x )2 ù 2p) = êåikjkúd ( x , xijs2êë
4、k =1úûknx = 1 å 1 n - 1nå其中, s =- x )2 .2x( xikkikkni =1i =11.6马氏距离1i - x j ) S ( xi - x j )ùûT-12其中 S 是由样品, . , xn 算得的协方差矩阵:j1nn1nåi =1x =S =n - 1i - x)Tx,ii =1样品聚类通常称为Q 型聚类,其出发点是距离矩阵。2变量间的相似性度量相似系数当对p 个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(或关联程度)。一般地,若 cab 表示变量xa , xb 之间的相
5、似系数,应满足:1) | cab |£ 1 且 caa = 1 ;2)= ±1 Û xa = cxb (c ¹ 0) ;cab3)= cba .cabcab 的绝对值越接近于 1,说明变量 xa , xb 的关联越大。相似系数中最常用的是相关系数与夹角余弦。2.1相关系数变量xa , xb 之间的相关系数定义为:nå(i=1- xb )ibsabr=,abs snnaa bb- x)2ibbi=1i=1事实上, rab 是变量xa , xb 的观测值Tnb )(a )与(之间的相关系数。2.2夹角余弦变量 x , x 的观测值)T ,其夹角余(
6、a )与(abnb弦定义为:nå xia xib=i=1cabnnåå22xxiaibi=1i=1变量聚类通常称为 R 型聚类。在 R 型聚类中,相似系数矩阵 C 是出发点,相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵。二、谱系聚类法这里所介绍的是样品的谱系聚类法。1类间距离定义为简单起见,以i,j 分别表示样品 xi , x j ,以 dij 简记i,j 之间的距离d ( xi , x j ) 。Gp,Gq 分别表示两个类,设它们分别含有 np,nq 个样品。若类Gp 中有样品np ,则其均值np1å xii =1xp = np称为类 Gp 的重心
7、。类 Gp 与 Gq 之间的距离记为定义方式。Dpq,有多种多样1.1最短距离= miniÎGp , jÎGqDpqdij1.2最长距离= maxiÎGp , jÎGqDpqdij1.3类平均距离= 1 å å dDpqijn n iÎGp jÎGqp q1.4重心距离= d ( xp , xq )Dpq1.5离差平方和距离np nq=- x )D2pqpqn + npq2类间距离的递推公式按照谱系聚类法的思想,先将样品聚小类,再逐步扩大为大类。设类 Gr 由类Gp、Gq 合并所得,则Gr 包含nr=np+nq 个
8、样品。问题:由 Gp,Gq 与其它类 Gk(kp,q)的距离计算 Gr 与 Gk(kp,q)的距离,即建立类间距离的递推公式。2.1最短距离= minDpk , Dqk Drk2.2最长距离= maxDpk , Dqk Drk2.3类平均距离= np+ nqDDDrkpkqknnrr2.4重心距离= np+ nq- np × nqD2D2D2D2rkpkqkpqnnnnrrrr2.5离差平方和距离= np + nk+ nq + nknkD2D2D2-D2rkn + npkn + nqkn + npqrkrkrk3谱系聚类法的步骤谱系聚类法的步骤如下:Step1n 个样品开始时作为 n
9、个类,计算两两之间的距离,一个对称距离矩阵:éd1n ù0d120M.êdúd= ê2n ú21Dêúúû(0)MMêdd.0ë n1n2此时,Dpq=dpq;Step2选择 D(0)中的非对角线上的最小元素,设这个最小元素是Dpq。此时,Gp=xp,Gq=xq。将Gp,Gq 合并成一个新类Gr=Gp,Gq。在 D(0)中消去Gp 和Gq 所对应的行与列,并加入有新类Gr 与剩下的其它未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵D(1),它是n-1 阶方阵;St
10、ep3从 D(1)出发重复 Step2 的作法得 D(2),再由D(2)出发重复上述步骤,直到n 个样品聚为 1 个大类为止;注意:在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。4. 谱系聚类法的统计量用谱系聚类法聚类时,聚多少类合适,这是一个实际的问题。一个较好的聚类应该在类内各样品尽可能相似的前提下,使得类的个数尽可能少。这里需要考虑谱系距离用到的统计量,利用它们,可以在一定程度上判别聚多少类为合适。4.1 R2 统计量设谱系得第 G 层共有G 个类,定义nGT = åi =1PG = å Skk =1i - x) ,nSk =
11、9;iÎGk其中, xk 为 Gk 的重心,Sk 越iii =1小,说明 Gk 中各样品越相似。定义R2统计量如下:R2 = 1 - P/ TGR2 总是随着分类数目的减少而减小,可以从 R2 值的变化看 n 个样品分成几类最合适。比如,分为 5 类以前各类的 R2 减小较缓慢;假定分为 5 类时,R2=0.85,而下一次合并,即分为 4 类时 R2 减小较快, 如 R2=0.35,则认为分为 5 类较合适。4.2半偏相关统计量这一统计量与离差平方和距离有关。设类 Gp,Gq 的离差平方和分别是Sp = å (i - xp ), Sq = å (i - xq ),
12、 iÎG piÎGq将 Gp,Gq 合并成 Gr 后的离差平方和为Sr = åiÎGri - xr ) ,合并后的离差平方和增量为= np + nqn + n2W= S - S - Spqrpqpqnnrr定义半偏相关统计量为:SPRSQ = Wpq / TSPRSQ 是R2 值与该步 R2 值的差值,当 SPRSQ 值越大时,说明上一次合并效果越好。4.3伪F 统计量伪F 统计量 PSF 是PSF = (T - PG ) /(G - 1)PG /(n - G)PSF 值越大表示这些观测可显著地分为 G 个类。4.4伪统计量t2设Sp,Sq,Wpq 的含
13、义如前所述,定义伪统计量为t2WpqPST 2 =( Sp + Sq ) /(np + nq - 2)PST2 大,说明合并Gp,Gq 为Gr 后,使得离差平方和的增量Wpq 相对于原Gp,Gq 的类内离差平方和大。这表明合并的两个类 Gp,Gq 是很的,也就是上一次聚类效果较好。三、快速聚类法参见:,. 数据分析(P228-241).北京:科学聚类分析课堂例题。为了研究世界各国森林、草原的分布规律,共抽取了 21 个的数据,每个4 项指标,原始数据见下表 1。使用该原始数据对国别进行聚类分析。表 1 抽样数据表国别森林面积(万公顷)森林覆盖率(%)林木蓄积量(亿立方米)草原面积(万公顷)中国
14、1197812.593.531908美国2844630.4202.023754250167.224.858德国102828.414.0599英国2108.61.51147法国145826.716.01288意大利63521.13.65143261332.7192.82385澳大利亚1070013.910.545190前9200041.1841.537370捷克45835.88.9168波兰86827.811.4405匈牙利16117.42.5129南斯拉夫92936.311.4640亚63426.711.3447亚38534.72.5200674820.529.01200218084.033.
15、71200尼日利亚149016.10.82090墨西哥485024.632.67450巴西5750067.6238.015900解提供了两种方法进行聚类分析。答一种是利用 clusterdata 函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法;另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用 pdist 函数计算变量之间的距离;(2)用 linkage 函数定义变量之间的连接;(3)用 cophenetic 函数评价聚类信息;(4)用cluster 函数创建聚类。11.1中相关函数介绍pdist 函数调用格式:Y=pdist(X, me
16、tric)说明:用 metric指定的方法计算 X 数据矩阵中对象之间的距离。X:一个 m×n 的矩阵,它是由m 个对象组成的数据集, 每个对象的大小为n。Metric 取值如下:euclidean:距离;距离(默认);seuclidean:标准化mahalanobis:马氏距离;cityblock:距离;minkowski:明可夫correlation: jaccard:距离;cosine:hamming: chebychev:Chebychev 距离。squareform 函数调用格式:Z=squareform(Y,.)1.2说明:强制将距离矩阵从上三角形式转化为方阵形式,或从方
17、阵形式转化为上三角形式。1.3linkage 函数调用格式:Z=linkage(Y, method)说明:用method参数指定的算法计算系统聚类树。Y:pdist 函数返回的距离向量;method:可取值如下:single:最短距离法(默认);离法;complete:最长距average:未均法;平均距离法;weighted:平centroid: 质心距离法;距离法;median:质心ward:内平方距离法(最小方差算法)返回:Z个包含聚类树信息的(m-1)×3 的矩阵。1.4dendrogram 函数调用格式:H,T,=dendrogram(Z,p,)说明:生成只有顶部p 个节点
18、的冰柱图(谱系图)。1.5cophenet 函数调用格式:c=cophenet(Z,Y)说明:利用 pdist 函数生成的Y 和 linkage 函数生成的Z 计算cophenet 相关系数。cluster 函数调用格式:T=cluster(Z,)说明:根据linkage 函数的输出Z 创建分类。clusterdata 函数调用格式:T=clusterdata(X,) 说明:根据数据创建分类。T=clusterdata(X,cutoff)与下面的一组命令等价: Y=pdist(X,euclid); Z=linkage(Y,single); T=cluster(Z,cutoff);程序一次聚类法X=11978 12.5 93.5 31908;57500 67.6 238.0 15900;T=clusterdata(X,0.9)%上一条命令与下面三条等价1.61.72.2.1Y=pdist(X,euclid);Z=linkage(Y,single);T=cluster(Z,cutoff);4x 1043.532.521.510.507201928 2110谱系图分类结果:2.2分步聚类Step1寻找变量之间的相似性用pdist 函数计算相似矩阵,有多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中学教师资格考试《综合素质》教育研究方法案例分析题库解析及答案试卷
- 2025年初中地理学业水平考试模拟试卷及答案(人文地理地理信息系统应用案例)
- 消防管理实务中应注意的事项试题及答案
- 2024高级审计师应试重点试题及答案
- 消防工程专业发展机会试题及答案
- 医学美容技术安全、效果与用户体验的平衡
- 2025年入团精神共鸣试题及答案
- 临床护理流程试题及答案
- 22025年护师护理能力提升试题及答案
- 国际审计准则理解试题及答案
- 2025-2030中国环境监测发展分析及发展趋势与投资前景研究报告
- 少模掺铒光纤放大器增益均衡与平坦化设计研究
- 大疆精灵4 RTK无人机操作与测绘培训指南
- 新型毒品相关知识课件
- 2025年陕西延长石油(集团)有限责任公司招聘笔试参考题库含答案解析
- 线上医药销售培训
- 注册建造师执业管理办法
- 湖北省十一校2024-2025学年高三第二次联考数学试卷(解析版)
- 2025年宪法知识竞赛全套题库及答案(共150题)
- 2025修订版《保障中小企业款项支付条例》解读学习课件
- 公司管理制度编号方法
评论
0/150
提交评论