第12讲聚类分析课件_第1页
第12讲聚类分析课件_第2页
第12讲聚类分析课件_第3页
第12讲聚类分析课件_第4页
第12讲聚类分析课件_第5页
已阅读5页,还剩135页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析2ClusterAnalysis聚类分析21分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的省份成若干类,就有很多种分类法;可以按照地域或自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类分析做什么?分类俗语说,物以类聚、人以群分。聚类分析做什么?2聚类分析对于一个数据,人们既可以对观测值(事件,样品)来分类(相当于对数据中的行分类),也可以对变量(指标)进行分类(相当于对数据中的列分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。聚类分析做什么?聚类分析对于一个数据,人们既可以对观测值(事件,样品)来分类3第四节Q型系统聚类法系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。hierarchicalclusteringmethod第四节Q型系统聚类法系统聚类法(层次聚类法):在聚类分4

聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。聚类分析聚类分析也是一种分类技术。与多元分析的其他51.聚类的目的使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),1.聚类的目的使同一类内的差别较小,而类与类之62.聚类的种类根据分类的原理可将聚类分析分为:系统聚类与快速聚类根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类clusteringforindividuals与指标聚类clusteringforvariables)2.聚类的种类根据分类的原理可将聚类分析分为:7设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。聚类分析概述设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为83.聚类分析数据格式k3.聚类分析数据格式k9饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量

样本聚类结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。饮料数据(drink.sav)16种饮料的热量、咖啡因、钠10(一)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij(一)距离假使每个样品有p个变量,则每个样品都11Q型聚类统计量(距离)把n个样本点看成p维空间的n个点1、绝对距离(Block距离)2、欧氏距离(Euclideandistance)Q型聚类统计量(距离)把n个样本点看成p维空间的n个点12Q型聚类统计量(距离)Q型聚类统计量(距离)133、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev)Q型聚类统计量(距离)3、明考斯基距离(Minkowski)Q型聚类统计量(距离)142.明氏(Minkowski

)距离2.明氏(Minkowski)距离15实例计算品实例计算品16绝对值距离绝对值距离17Euclidian距离的平方Euclidian距离的平方18Euclidian距离Euclidian距离19变量标准化后的Euclidian距离作用:消除量纲的影响变量标准化后的Euclidian距离作用:消除量纲的影响204.Lance和Williams

距离4.Lance和Williams距离215.

斜交空间距离可考虑变量间相关性问题5.斜交空间距离可考虑变量间相关性问题226.

配合距离适用于分类变量,尤其是名义尺度变量6.配合距离适用于分类变量,尤其是名义尺度变量23

步骤:1、对数据进行变换处理,消除量纲2、构造n个类,每个类只包含一个样本计算3、n个样本两两间的距离{dij}4、合并距离最近的两类为一新类5、计算新类与当前各类的距离,重复(4)6、画聚类图7、决定类的个数和类第四节Q型系统聚类法

步骤:1、对数据进行变换处理,消除量纲第四节Q型系统24

类与类之间的距离

1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)类与类之间的距离

1.最短距离法(singl25

类与类之间的距离

8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估计法(EML)10.密度估计(densitylinkage)11.两阶段密度估计法(two-stagedensitylinkage)等。类与类之间的距离

8.Mcquitty的相似26最小距离法(singlelinkagemethod)极小异常值在实际中不多出现,避免极大值的影响

(一)最短距离法

(singlelinkage,nearestneighbor)

两类间两样本距离最短为A2与B1之间的距离(一)最短距离法

(singlelinkage,neare27例:如下图所示1、设全部样本分为6类,2、作距离矩阵D(0)ω1ω2ω3ω4ω5ω23ω314ω4748ω55262ω685913(一)最短距离法

例:如下图所示ω1ω2ω3ω4ω5ω23ω314ω4748283、求最小元素:4、把ω1,ω3合并ω7=(1,3)ω4,ω6合并ω8=(4,6)5、作距离矩阵D(1)ω7ω2ω8ω23ω874ω5522(一)最短距离法

3、求最小元素:ω7ω2ω8ω23ω874ω5522(一)最29*3、求最小元素:*4、把ω8,ω5,ω2合并ω9=(2,5,4,6)5、作距离矩阵D(2)(一)最短距离法

ω7ω93ω7=(1,3)*3、求最小元素:(一)最短距离法

ω7ω93ω7=(1,330最短距离法案例以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分最短距离法案例以当前某个样本与已经形成的小类中的各样本距离中31G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}

d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-3.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21

12345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210河南与甘肃的距离最近,先将二者(3和4)合为一类G6={G3,G4}G1={辽宁},G2={浙江},G3={河南},G4={甘肃32d61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80d72=d(3,4,5)2=min{d23,d24,d25}=23.54

712D3=70112.800223.5411.670河南、甘肃与青海并为一新类G7={G6,G5}={G3,G4,G6}G8={G1,G2}最短距离法案例d61=d(3,4)1=min{d13,d14}=13.1233d78=min{d71,d72}=12.8078D4=70812.80河南3甘肃4青海5辽宁1浙江2最短距离法案例最短距离法案例34案例2.6个民族的粗死亡率与期望寿命案例2.6个民族的粗死亡率与期望寿命35第12讲聚类分析ppt课件36待续!待续!37第12讲聚类分析ppt课件38第12讲聚类分析ppt课件39第12讲聚类分析ppt课件40第12讲聚类分析ppt课件41第12讲聚类分析ppt课件42第12讲聚类分析ppt课件43(习作1)最短距离法

现有5个样品,每个只有一个指标,它们分别是1,2,4.5,6,8.试用最短距离把它们分类.

G1={1},G2={2},G3={4.5},G4={6},G5={8}.(习作1)最短距离法现有5个样品,44(二)最长距离法

(completelinkage,furthestneighbor)

样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离

最大距离法(completelinkagemethod)可能被极大值扭曲,删除这些值之后再聚类(二)最长距离法

(completelinkage,fur45第12讲聚类分析ppt课件46第12讲聚类分析ppt课件47第12讲聚类分析ppt课件48第12讲聚类分析ppt课件49第12讲聚类分析ppt课件50(三)中间距离法

(medianmethod)

最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离KLJM(三)中间距离法

(medianmethod)最长距离夸51(四)中间距离法的变形——可变法

(四)中间距离法的变形——可变法52(五)类平均法

(averagelinkagebetweengroup)SPSS作为默认方法,称为between-groupslinkageKLJM(五)类平均法

(averagelinkagebetwe53类平均法案例类平均法案例54(六)可变类平均法

(flexible-betamethod)类平均法的变型KLJM(六)可变类平均法

(flexible-betametho55类平均距离法(averagelinkagemethod)类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法(六)可变类平均法

(flexible-betamethod)(六)可变类平均法

(flexible-betametho56(七)重心法

(centroidmethod)

B2A2**B1A1**B3*类类间的距离用各自重心间的距离表示

(七)重心法

(centroidmethod)57重心法(centroidhierarchicalmethod)类的重心之间的距离对异常值不敏感,结果更稳定

(七)重心法

(centroidmethod)

重心法(centroidhierarchicalmeth58(八)Ward最小方差法

(Ward’minimumvariancemethod)

先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM-SSK-SSL)最小的两类合并,直至所有的样品归为一类为止。(八)Ward最小方差法

(Ward’minimumva59离差平方和法(wardmethod)D2=WM-WK-WL即对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。ClusterKClusterLClusterM离差平方和法(wardmethod)ClusterKCl60案例案例61(九)八种系统聚类方法的统一

以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:(九)八种系统聚类方法的统一以上聚类方法的计算步骤完62八种系统聚类法公式的参数

八种系统聚类法公式的参数63系统聚类法的性质

单调性中间距离法、重心法不具有单调性空间的浓缩与扩张不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。几种聚类方法获得的结果不一定相同系统聚类法的性质单调性几种聚类方法获得的结果不一定相同64

什么情况下需要聚类以上分析,没有大量的数据去支持,DataMining就什么都挖不出来。大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等;聚类分析可以辅助企业进行客户细分,但是Datamining的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利用。什么情况下需要聚类以上分析,没有大量的数据去支持,Data65

聚类的应用领域聚类的应用领域661.

CLUSTER过程例8.3.1下面的例题是对游泳运动员进行项目(姿势)分类的实例。为简化,又说明问题,只取10名运动员的3项测试数据为例。其中:变量X1=肩宽/髋宽*100;X2=胸厚/胸围*100;X3=腿长/身长*100。预计分为4类:蝶、仰、蛙、爬。已知NO=9、8、4、6的运动员分别是这4种姿势成绩突出者。下面的程序对10名运动员用重心法进行聚类分析,用TREE过程画出树形图,并建输出数据集,该数据集中还要包括原始变量X1~X3的数据,以便用PLOT过程绘制散点图。由于数据单位均为长度比乘100,故没有选用STD选项。(本例数据取自:徐迪生、刘学贞编著的《体育用数据处理方法和程序》第三册,北京体育学院教务处印)。

聚类的应用的SAS程序1.

CLUSTER过程例8.3.1下面的例题是对游泳运67聚类的应用例的SAS程序聚类的应用例的SAS程序68运行结果:

运行结果:

69第12讲聚类分析ppt课件70程序解释及统计结论:

从聚类历史数据和下面的树形图可以看出编号为2和5的首先聚为一类,类号为9(CL9),成员数为2。第二步CL9与编号为8的观测聚为一类,类号8(CL8),成员数为3。第三步同时有3对观测:编号1、4;编号3、7;编号6、10。各聚为一类,类号分别为7(CL7)、6(CL6)、5(CL5)成员数都为2。第四步CL6与编号为9的观测聚为CL4,成员数为3。第五步CL8与CL4聚为CL3,成员数为6;第六步CL3、CL5聚为CL2,成员数为8。第七步CL7、CL2聚为CL1,成员数为10,即最终聚为一类。从PSEUDOF值的变化看有两个峰:一个聚类数为4时,其值为15.20,另一个聚类数为9时,其值为12.78,显然是没有意义的。因此,从伪F值可以判断分为4类是合适的,这和TREE图是一致的。程序解释及统计结论:

712.FASTCLUS过程

例8.3.2下面是对费雪提供的鸢尾花数据进行聚类分析,这是进行多因素分析的典型数据,我们采用该数据进行样本快聚类。数据是对3种鸢尾花:刚毛鸢尾花(SPNO=1)、变色鸢尾花(SPN()=2)、佛吉尼亚尼鸢尾花(SPN()=3)各采集50个样本,测量其花萼长(SLEN)、花萼宽(SWID)、花辨长(PLEN)、花辨宽(PWID)、单位为mm,并记录了这3种鸢尾花的编号(SPN()),以便与聚类结果进行比较。2.FASTCLUS过程

例8.3.2下面是对费雪提供的72第12讲聚类分析ppt课件73第12讲聚类分析ppt课件74第12讲聚类分析ppt课件75RUN;PROCFASTCLUSDATA=L.IRISMAXC=3MAXITER=10OUT=CLUS3;VARSLENSWIDPLENPWID;PROCFREQ;TABLESCLUSTER*SPECIES;TITLE`FISHER"SIRISDATA`;RUN;PROCCANDISCOUT=CANNOPRINT`;CLASSCLUSTER;VARSLENSWIDPLENPWID;TITLE2`CANONICALDISCRIMINANTANALYSISOFIRISCLUSTERS`;RUN;PROCPLOT;PLOTCAN2*CAN1=CLUSTER;TITLE2`PLOTOFCANONICALVARIABLESIDENTIFIEDBYCLUSTER`;RUN;RUN;76聚类方法③动态聚类法开始将n个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。

④有序样品的聚类n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。

其他还有加入法、有重叠的类、模糊聚类等。

聚类方法③动态聚类法开始将n个元素粗糙地分成若干77

[例6.4.2]某研究者收集了24种菌株,其中17~22号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。镶得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。

菌株号X1X2X3X4X5X6X7X8

10.772818.87010.00000.76950.000044.94350.000016.5758

20.864219.92630.00000.81190.741945.97750.000013.6080

30.824321.09770.00000.42410.729345.14470.000015.6668

40.922920.07570.00000.70150.701844.30250.000015.9571

50.887320.72610.00000.48120.816745.72820.000014.6814

60.689410.10210.86012.82470.000011.09012.225314.7233

70.628717.45620.00000.87870.000051.12270.000016.6821

81.714621.07121.27456.93230.000011.98210.000014.2464

90.844020.79480.00000.52890.702442.42890.000017.1255

100.979723.43130.00000.47780.789043.91190.000014.5129

110.981123.52690.00000.49890.837542.38140.000014.8207

121.056017.45861.04811.15910.611315.89862.161813.1660

用CLUSTER过程实现样品聚类分析

[例6.4.2]某研究者收集了24种菌株,其中17~78130.334210.92180.00000.93790.000030.56890.000016.1205

141.381615.97311.02701.21060.566320.09422.188111.7304

151.343523.12941.24890.89390.000012.33882.059512.1598

162.386119.74560.00000.90930.338968.85720.00004.9522

171.618023.57860.00002.65970.000012.31100.000014.0923

181.046923.69990.00000.76980.717249.01650.000012.1561

190.753913.02840.00002.29780.808530.63360.000010.4001

201.381323.09620.00001.76880.000021.88000.000014.6781

210.41628.66350.00001.43220.600128.08380.000013.7243

222.071721.19060.00001.15770.625566.89660.00005.6805

231.013317.25850.00001.16230.667319.71170.000014.8122

240.33467.04280.00001.13860.544527.06240.000014.2519

菌株号X1X2X3X4X5X6X7X8

130.334210.921879菌株号X9X10X11X12X13X14X15X16

10.00000.00007.69192.12394.96563.04610.00000.0000

20.00000.00008.55961.53175.02541.30410.00000.0000

30.00000.00007.57241.82854.27091.47240.00000.0000

40.00000.00007.81161.95554.10901.63770.00000.0000

50.00000.00007.93081.92054.22991.50440.00000.0000

61.26051.623829.86841.446216.05724.67441.54750.9376

70.00000.00006.73991.30213.67871.08900.00000.0000

80.83871.190322.32261.035011.15133.28621.05400.6633

90.00000.00008.55081.92234.63461.30740.00000.0000

100.00000.00007.45131.75094.03731.41420.00000.0000

110.00000.00007.58001.85513.97291.38630.00000.0000

121.12511.288723.98121.525211.79113.56471.20110.7989

130.86140.935020.04912.460610.92632.94230.96800.5866

141.13181.337023.18821.379011.71413.56351.18380.7657

151.18421.326723.99041.152011.93333.60341.13750.7110

菌株号X9X10X11X12X1380160.00000.00000.00001.64290.00000.00000.00000.0000

170.88831.216723.31051.303911.74623.48751.10420.6779

180.00000.00005.52892.24502.88500.97070.00000.0000

190.87541.416120.65892.470310.29902.95560.95220.6328

200.72850.99021857091.52539.53872.89171.01690.7444

211.09791.529322.63162.631412.32233.46161.12000.7169

220.00000.00000.00001.66320.00000.00000.00000.0000

231.07891.363823.00151.771911.43943.39581.06580.6366

241.16501.498023.84492.517613.26883.65581.12390.7382

菌株号X9X10X11X12X13X14X15X16

160.00000.00000.0081[SAS程序]

DATAcly;

INPUTx1-x16;

CARDS;………….数据流…..;PROCCLUSTERSTANDARDMETHOD=AVERAGENONORMNOSQUARECCCPSEUDOOUT=TREE;

PROCTREEDATA=TREEHORIZONTALSPACES=1;RUN;

[程序修改指导]在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式(即距离的定义方法不同),指定的方法是在METHOD=后面填入1个相应的选择项,它们是:

AVERAGE(平均法)CENTROID(重心分量法)

COMPLETE(最长距离法)DENSITY(非参数概率密度估计法)

EML(最大似然法)FLEXIBLE(flexible-beta法)

MCQUITTY(Mcquitty的相似分析法)MEDIAN(中位数法)

SINGLE(最短距离法)TWOSTAGE(两阶段密度法)

WARD(Ward最小方差法)

[SAS程序]

DATAcly;

INPUTx1-x182不同的聚类形式之间的主要区别在于:计算新类与其他类之间的距离的递推公式不同,一旦任何两类之间的距离算出来后,仍按距离最小者先合并。用不同的聚类形式对同一批资料进行聚类,其聚类结果不完全相同,需结合专业知识从各种聚类结果中选择最合适的。这11种方法所对应的递推公式从略,感兴趣的读者可参阅有关专著。

第1个过程步是调用CLUSTER过程进行样品聚类分析。选用的聚类形式是平均法(AVERAGE);对变量实施标准化(STANDARD);在选用多数聚类形式时,NONORM阻止距离被正态化成均数为1或均方根为1;当METHOD=WARD时,NONORM阻止类间平夯总平和正态化而产生半偏相关平;当METHOD=DENSITY,EML,或TWOSTAGE时,选择项NONORM无效;当METHOD=CENTROID,MEDIAN或WARD时,NOSQUARE阻止距离被平。

选择项CCC、PSEUDO都是为了计算一些统计量用以判别全部样品究竟聚成几类合适。CCC要求打印出聚类判别据的立方(即判断资料聚成几类合适的一种统计量)及在一致无效假设下近似期望值R2,PSEUDO要求打印伪F(标志PSF)和t2(标志PST2)统计量。当分类数目不同时,它们就有不同的取值,CCC和PSF出现峰值所对应的分类数较合适、PST2出现峰值的前一行所对应的分类数较合适。

OUT=TREE产生1个名为TREE的输出数据集,它可被TREE过程用来输出聚类结果的树状图。HORIZONTAL要求将树状图水平置,SPACES=1要求置各样品之间的间隔为1。所输出的图看上去并不直观(从略),用GRAPH模块绘出样品聚类图的SAS程序很长,将在本章第6节中给出。

不同的聚类形式之间的主要区别在于:计算新类与其他类之间的距离83[输出结果及其解释]AverageLinkageClusterAnalysis

EigenvaluesoftheCorrelationMatrix

EigenvalueDifferenceProportionCumulative

①②③④

18.292035.943440.5182520.51825

22.348590.275440.1467870.66504

32.073160.898580.1295720.79461

41.174580.170750.0734110.86802

51.003830.357150.0627400.93076

60.646690.331180.0404180.97118

70.315510.255370.0197190.99090

80.060140.011210.0037590.99466

90.048930.025310.0030580.99772

100.023610.016150.0014760.99919

110.007470.004130.0004670.99966

120.003330.002070.0002080.99987

130.001270.000730.0000790.99995

140.000530.000340.0000330.99998

150.000190.000050.0000120.99999

160.00014.0.0000091.00000

Thedatahavebeenstandardizedtomean0andvariance1

Root-Mean-SquareTotal-SampleStandardDeviation=1

这是用平均距离法进行样品聚类分析的结果,首先给出的是①相关矩阵的特征值、②两相邻特征值之差、③各特征值占总方差16的百分比和④累计百分比。

[输出结果及其解释]AverageLinkageClu84NCLClustersJoinedFREQSPRSQRSQERSQCCCPSFPST2DistTie

23OB10OB1120.000051.000..837.0.200

22OB3OB420.000201.000..373.0.385

21CL22OB530.000430.999..2192.10.519

20OB21OB2420.000440.999..186.0.572

19CL21OB940.000790.998..1442.50.660

18CL19CL2360.002100.996..87.45.70.830

17OB2CL1870.001400.995..80.22.00.883

16OB12OB1420.001120.993..81.0.0.908

15OB16OB2220.001730.992..77.0.1.129

14OB1OB720.001890.990..74.9.1.180

13CL17OB1880.003910.986..64.24.71.348

12OB19OB2320.006430.979..52.1.2.176

11CL12CL2040.011160.968..39.83.22.305

10CL16OB1530.009300.959..36.48.32.311

9CL14CL13100.026630.932..25.919.82.609

8OB13CL1150.013240.919..26.02.22.747

7OB6CL1040.021560.898..24.84.13.434

6CL8OB1760.032360.865..23.14.14.027

5CL7CL6100.092960.772..16.17.84.565

4CL9CL15120.098330.6740.6450.8513.825.14.801

3CL5OB8110.065100.6090.5591.1816.33.15.731

2CL4CL3230.459440.1490.427-3.793.924.76.376

1CL2OB20240.149420.0000.0000.00.3.98.392

NCLClustersJoinedFREQSPRSQ85接着给出了将24个样品依次聚成23~1类的结果。NCL为聚类数;(ClustersJoined)为每次聚成1个新类的2个样品(标有OB)或旧类(标有CL);FREQ为新类中所含的样品数;SPRSQ为半偏R2,它表示每一次合并对信息的损失程度,看这1列的数值可知:从3类合并成2类时损失最多,此统计量表明聚成3类较合适;RSQ为R2,它反映的是累计聚类结果,上一次的R2减去本次半偏R2等于本次R2,从3类合并成2类R2减少了很多,它也支持分3类;ERSQ为在一致无效假设下近似期望的R2;再结合CCC、PSF、PST2这3个统计量的值,看看究竟分几类较合适。CCC在NCL=3时达到唯一的峰值1.18;PSF在NCL=16、NCL=8和NCL=3时3次达靛值,但在NCL=3时峰更陡些;PST2在多处出现峰值,但从NCL=3到NCL=2比从NCL=5到NCL=4时峰值增加的幅度更大一些。综合这3个统计量的结果可知:将24个样品分为3类较合适。AverDist为两样品或类间的平均距离。

下面详细看看样品聚类的过程:开始24个样品各自成1类,共有24类,经过1次运算后,将第10号与第11号样品合并成1个新类,记为CL23,因为此时共有23类,经过第2次运算后,将第3号与第4号样品合并成另1个新类,记为CL22,因为此时共有22类;依次类推。若有SAS/GRAPH模块,并运行本章第6节中所给的程序,可得到图6.4.1。接着给出了将24个样品依次聚成23~1类的结果。NCL为聚类86

图6.4.1样品聚类分析的动态过程。

从图上可清楚地看出:聚成3类是较合适的。按图中纵轴方向由上往下样品排列的顺序号,若聚成3类,各类所包含的样品分别为:(10~22)、(21~8)、(20)。由此可看出:第20号样品与其他样品相似程度较小。

[专业结论]因17~22号样品是已知菌株,故得知:24号与21号最接近、16号与22号最接近、23号与19号最接近、(10,11,3,4,5,9,2)号与18号最接近。

图6.4.1样品聚类分析的动态过程。

从图87如果在[例6.4.2]中的样品数不是24,而是成千上万,甚至更多,用CLUSTER过程就需要计算很长时间,况且,在实际问题中,常希望将样品聚成较少的几类更有实用价值。此时,用SAS中提供的FASTCLUS过程能很好地将资料聚成两类或三类。程序会自动给每个样朴上所属类别的标记,于是,可对每类样品作进一步地分析。

[例6.4.3]在[例6.4.1]中进行了人脑老化资料的变量聚类分析,资料中含有10个指标60个样品,但此资料实际上有893个样品。现使用FASTCLUS过程对全部资料进行快速聚类分析,结合专业知识可知,将脑老化程度分为轻、中、重为宜。资料太多,从略,这里仅给出SAS程序。

[SAS程序]──[D6P7.PRG]

DATAa1;DATAb1b2b3;

INFILE'c:\llhyjb.dat';SETaaa;

INPUTagetjsgxxxsIFc=1THENOUTPUTb1;

tsckbjjjbs;IFc=2THENOUTPUTb2;

PROCFASTCLUSOUT=aaaIFc=3THENOUTPUTb3;

MAXC=3CLUSTER=c;PROCPRINTDATA=b1;

VARagetjsgxxxsPROCPRINTDATA=b2;

tsckbjjjbs;PROCPRINTDATA=b3;

RUN;RUN;

(程序的第1部分)(程序的第2部分)

如果在[例6.4.2]中的样品数不是24,而是成千上万,甚88[程序修改指导]数据很多,存在硬盘C上,文件名为LLHYJB.DAT,它有893行10列。首先调用FASTCLUS过程对资料进行快速聚类,要求将那些在10个指标上尽可能接近的样品聚在同一类,共聚成3类(MAXC=3);分类的标志用C表示(CLUSTER=C),它的取值为1~3;将聚类结果(含原始数据和分类标志)输出到数据集AAA中去(OUT=AAA)。

程序的第2部分是产生3个数据集B1、B2、B3,它们分别包含标志为1、2、3的样品,最后用PRINT过程将它们分别输出到OUTPUT窗口中去(结果从略),也可对数据集作其他处理。

[程序修改指导]数据很多,存在硬盘C上,文件名为LLHYJ89用ACECLUS过程对需作样品聚类分析的资料进行预处理

少数场合下用CLUSTER或FASTCLUS过程进行样品聚类效果不佳,这可能是由于资料不满足经典聚分析方法所要求的条件,为此,SAS提供了1个专门用于对需作样品聚类分析的资料进行预处理的过程,即ACECLUS过程,它可以对数据进行线性转换,使转换后的数据满足

经典聚类分析方法的要求。

[例6.4.4]沿用[例6.4.2]资料,先用ACECLUS过程,后用CLUSTER过程进行样品聚类分析。

[SAS程序]──[D6P8.PRG]

DATAcly;

INFILE'a:clyclust.dat';

INPUTx1-x16;

PROCACECLUSOUT=aaaP=0.02;

PROCCLUSTERDATA=aaaSTANDARDMETHOD=AVERAGENONORM

NOSQUARECCCPSEUDOOUT=TREE;

PROCTREEDATA=TREEHORIZONTALSPACES=1;RUN;

[程序修改指导]此程序仅比[D6Pd.PRG]多了调用ACECLUS过程的语句,这里的P=0.02是1个控制迭代过程的量。

用ACECLUS过程对需作样品聚类分析的资料进行预处理

90[主要输出结果及其解释]AverageLinkageClusterAnalysis

Aver

NCLClustersJoinedFREQSPRSQRSQERSQCCCPSFPST2DistTie

23OB3OB1020.001560.998..29.1.1.515

22CL23OB530.005930.993..12.63.82.668

21OB4OB1120.005340.987..11.5.2.802

20OB12OB1420.007420.980..10.2.3.304

19CL22OB940.010620.969..8.72.83.473

18CL21OB1830.015710.953..7.22.94.321

17CL19CL1870.028820.925..5.43.74.522

16OB16OB2220.013950.911..5.4.4.532

15OB2CL1780.018930.892..5.31.74.787

14OB21OB2420.016070.876..5.4.4.863

13CL15OB790.036100.840..4.82.96.136

12CL20OB1530.032080.807..4.64.36.161

11OB1CL13100.035320.772..4.42.36.229

10OB19CL1430.030460.742..4.51.96.265

9CL10OB2340.033400.708..4.61.46.647

8OB13CL950.035640.673..4.71.36.875

7OB6CL1240.039410.633..4.92.06.920

6CL11CL16120.079090.554..4.54.67.147

5CL7CL890.079530.475..4.32.97.582

4CL5OB17100.044080.4310.473-1.145.01.37.640

3CL6CL4220.247960.1830.383-4.342.38.78.441

2CL3OB8230.076610.1060.263-3.312.62.09.263

1CL2OB20240.105960.0000.0000.00.2.610.474

[主要输出结果及其解释]AverageLinkage91我们以多元分析中一个经典的数据作为例子,这是Fisher分析过的鸢尾花数据,有三种不同鸢尾花(Setosa、Versicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。这个数据已知分类,并不属于聚类分析的研究范围。这里我们为了示例,假装不知道样本的分类情况(既不知道类数也不知道每一个观测属于的类别),让SAS取进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的结果。这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。为了进行谱系聚类并产生帮助确定类数的统计量,使用如下过程:我们以多元分析中一个经典的数据作为例子,这是Fisher分析92procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;procclusterdata=sasuser.iris93PseudoiNCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt**2e

149OB16OB7620.0000001.0000....148OB2OB5820.0000071.0000..1854.1.T147OB96OB10720.0000071.0000..1400.1.T146OB89OB11320.0000071.0000..1253.1.T145OB65OB12620.0000071.0000..1182.9.T……25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.0008050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL36OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.0

Pseudoi9415CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26CL20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725950.00000.0000000.000.502.815CL24CL28150.95第五节R型系统聚类法指标(变量)聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换,化为广义距离,然后用前面方法聚类之 。原理与以上聚类法类似,只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度第五节R型系统聚类法指标(变量)聚类采用相似系数96

用VARCLUS过程实现变量聚类分析

[例6.4.1]为研究人脑老化的严重程度,有人测定了不同年龄的60名正常男性10项有关指标的数据,各变量的含义如下:AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。

AGETJSGTSXXXSCKBJJJBSAGETJSGTSXXXSCKBJJJBS

16179145.14495435.323.924820835.005123724.703.73

18128143.575114630.663.304918851.875103422.544.77

19118211.673125337.013.085013843.205114533.472.78

2018957.04594730.103.9051167143.58524026.274.38

2115966.575105737.142.7252178142.86573423.935.10

22198143.295114630.663.2453108143.43344126.014.04

2416953.502104327.644.415411886.18523725.453.80

2519963.57194226.544.4955118142.15404229.682.61

26179143.86395229.243.545687922.10154529.806.67

用VARCLUS过程实现变量聚类分析

[例6.4.1972715816.00494232.304.3857121074.50582415.957.29

28187143.98595133.943.035810699.50244328.963.50

292010141.93584330.794.51591110128.690124431.152.89

301410142.93574532.674.456012788.78281812.927.43

31198103.735103319.915.716110526.3550158.9611.14

321410143.572124431.924.1262128717.00583221.834.71

33159143.36564228.615.396314949.402124228.964.01

34157143.945104330.264.316412953.005123022.185.41

35179142.642112727.794.45667738.49512920.625.67

36189123.235103825.834.686715863.43563724.655.50

3719873.00593825.383.736814568.00084028.064.34

3816874.384113523.344.99696728.34222917.024.69

39208141.435114630.303.41701391194413825.833.70

4017872.052123724.564.4971159144.50564128.015.06

41179113.705113523.764.337210723.33573824.803.88

4216983.33591232.112.63730765.77103121.275.73

4320832.502103925.903.777420884.11573927.695.60

44149142.574104327.033.7175128148.14342819.236.26

4518822.67583927.513.94766736.75352416.637.56

46208102.825104027.063.54789748.2024139.448.91

47189141.93594327.955.017913519.50063825.533.24

2715816.00494232.304.98

[SAS程序]

DATAabc;PROCVARCLUSCENTROID;

INPUTagetjsgxxxstsckbjjjbs;RUN;

tsckbjjjbs@@;PROCVARCLUSHIMAXC=4;

CARDS;数据流;VARagetjsgxxxs

OCVARCLUS;tsckbjjjbs;RUN;

VARagetjsgxxxsPROCVARCLUSCENTROIDMAXC=4;

tsckbjjjbs;VARagetjsgxxxs

RUN;tsckbjjjbs;RUN;

(程序的第1部分)(程序的第2部分)

第五节R型系统聚类法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论