第12讲 聚类分析2.ppt_第1页
第12讲 聚类分析2.ppt_第2页
第12讲 聚类分析2.ppt_第3页
第12讲 聚类分析2.ppt_第4页
第12讲 聚类分析2.ppt_第5页
已阅读5页,还剩135页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,聚类分析2ClusterAnalysis,分类,俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的省份成若干类,就有很多种分类法;可以按照地域或自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,聚类分析做什么?,聚类分析,对于一个数据,人们既可以对观测值(事件,样品)来分类(相当于对数据中的行分类),也可以对变量(指标)进行分类(相当于对数据中的列分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。,聚类分析做什么?,第四节Q型系统聚类法,系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。,hierarchicalclusteringmethod,聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。,聚类分析,1.聚类的目的,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。,根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。,根据某种准则(最短距离法、最长距离法、中间距离法、重心法),,2.聚类的种类,根据分类的原理可将聚类分析分为:系统聚类与快速聚类根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类clusteringforindividuals与指标聚类clusteringforvariables),设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。,聚类分析概述,3.聚类分析数据格式,k,饮料数据(drink.sav),16种饮料的热量、咖啡因、钠及价格四种变量,样本聚类结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。,(一)距离,假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij,Q型聚类统计量(距离),把n个样本点看成p维空间的n个点1、绝对距离(Block距离)2、欧氏距离(Euclideandistance),Q型聚类统计量(距离),3、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev),Q型聚类统计量(距离),2.明氏(Minkowski)距离,实例计算,品,绝对值距离,Euclidian距离的平方,Euclidian距离,变量标准化后的Euclidian距离,作用:消除量纲的影响,4.Lance和Williams距离,5.斜交空间距离,可考虑变量间相关性问题,6.配合距离,适用于分类变量,尤其是名义尺度变量,步骤:,1、对数据进行变换处理,消除量纲2、构造n个类,每个类只包含一个样本计算3、n个样本两两间的距离dij4、合并距离最近的两类为一新类5、计算新类与当前各类的距离,重复(4)6、画聚类图7、决定类的个数和类,第四节Q型系统聚类法,类与类之间的距离,1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Wardsminimum-variancemethod),类与类之间的距离,8.Mcquitty的相似分析法(Mcquittyssimilarityanalysis)9.最大似然估计法(EML)10.密度估计(densitylinkage)11.两阶段密度估计法(two-stagedensitylinkage)等。,最小距离法(singlelinkagemethod)极小异常值在实际中不多出现,避免极大值的影响,(一)最短距离法(singlelinkage,nearestneighbor),两类间两样本距离最短为A2与B1之间的距离,例:如下图所示1、设全部样本分为6类,2、作距离矩阵D(0),(一)最短距离法,3、求最小元素:4、把1,3合并7=(1,3)4,6合并8=(4,6)5、作距离矩阵D(1),(一)最短距离法,*3、求最小元素:*4、把8,5,2合并9=(2,5,4,6)5、作距离矩阵D(2),(一)最短距离法,7=(1,3),最短距离法案例,以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。,例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分,G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海,d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-3.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.2112345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4,d61=d(3,4)1=mind13,d14=13.12d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54712D3=70112.800223.5411.670,河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6,G8=G1,G2,最短距离法案例,d78=mind71,d72=12.8078D4=70812.80河南3甘肃4青海5辽宁1浙江2,最短距离法案例,案例2.6个民族的粗死亡率与期望寿命,待续!,(习作1)最短距离法,现有5个样品,每个只有一个指标,它们分别是1,2,4.5,6,8.试用最短距离把它们分类.,G1=1,G2=2,G3=4.5,G4=6,G5=8.,(二)最长距离法(completelinkage,furthestneighbor),样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离,最大距离法(completelinkagemethod)可能被极大值扭曲,删除这些值之后再聚类,(三)中间距离法(medianmethod),最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离,K,L,J,M,(四)中间距离法的变形可变法,(五)类平均法(averagelinkagebetweengroup),SPSS作为默认方法,称为between-groupslinkage,K,L,J,M,类平均法案例,(六)可变类平均法(flexible-betamethod),类平均法的变型,K,L,J,M,类平均距离法(averagelinkagemethod)类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法,(六)可变类平均法(flexible-betamethod),(七)重心法(centroidmethod),B2A2*B1A1*B3*,类类间的距离用各自重心间的距离表示,重心法(centroidhierarchicalmethod)类的重心之间的距离对异常值不敏感,结果更稳定,(七)重心法(centroidmethod),(八)Ward最小方差法(Wardminimumvariancemethod),先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSMSSKSSL)最小的两类合并,直至所有的样品归为一类为止。,离差平方和法(wardmethod),D2=WMWKWL即对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。,案例,(九)八种系统聚类方法的统一,以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:,八种系统聚类法公式的参数,系统聚类法的性质,单调性中间距离法、重心法不具有单调性空间的浓缩与扩张不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。,几种聚类方法获得的结果不一定相同,什么情况下需要聚类,以上分析,没有大量的数据去支持,DataMining就什么都挖不出来。大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等;聚类分析可以辅助企业进行客户细分,但是Datamining的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利用。,聚类的应用领域,1.CLUSTER过程,例8.3.1下面的例题是对游泳运动员进行项目(姿势)分类的实例。为简化,又说明问题,只取10名运动员的3项测试数据为例。其中:变量X1=肩宽/髋宽*100;X2=胸厚/胸围*100;X3=腿长/身长*100。预计分为4类:蝶、仰、蛙、爬。已知NO=9、8、4、6的运动员分别是这4种姿势成绩突出者。下面的程序对10名运动员用重心法进行聚类分析,用TREE过程画出树形图,并建输出数据集,该数据集中还要包括原始变量X1X3的数据,以便用PLOT过程绘制散点图。由于数据单位均为长度比乘100,故没有选用STD选项。(本例数据取自:徐迪生、刘学贞编著的体育用数据处理方法和程序第三册,北京体育学院教务处印)。,聚类的应用的SAS程序,聚类的应用例的SAS程序,运行结果:,程序解释及统计结论:从聚类历史数据和下面的树形图可以看出编号为2和5的首先聚为一类,类号为9(CL9),成员数为2。第二步CL9与编号为8的观测聚为一类,类号8(CL8),成员数为3。第三步同时有3对观测:编号1、4;编号3、7;编号6、10。各聚为一类,类号分别为7(CL7)、6(CL6)、5(CL5)成员数都为2。第四步CL6与编号为9的观测聚为CL4,成员数为3。第五步CL8与CL4聚为CL3,成员数为6;第六步CL3、CL5聚为CL2,成员数为8。第七步CL7、CL2聚为CL1,成员数为10,即最终聚为一类。从PSEUDOF值的变化看有两个峰:一个聚类数为4时,其值为15.20,另一个聚类数为9时,其值为12.78,显然是没有意义的。因此,从伪F值可以判断分为4类是合适的,这和TREE图是一致的。,2.FASTCLUS过程,例8.3.2下面是对费雪提供的鸢尾花数据进行聚类分析,这是进行多因素分析的典型数据,我们采用该数据进行样本快聚类。数据是对3种鸢尾花:刚毛鸢尾花(SPNO=1)、变色鸢尾花(SPN()=2)、佛吉尼亚尼鸢尾花(SPN()=3)各采集50个样本,测量其花萼长(SLEN)、花萼宽(SWID)、花辨长(PLEN)、花辨宽(PWID)、单位为mm,并记录了这3种鸢尾花的编号(SPN()),以便与聚类结果进行比较。,RUN;PROCFASTCLUSDATA=L.IRISMAXC=3MAXITER=10OUT=CLUS3;VARSLENSWIDPLENPWID;PROCFREQ;TABLESCLUSTER*SPECIES;TITLEFISHERSIRISDATA;RUN;PROCCANDISCOUT=CANNOPRINT;CLASSCLUSTER;VARSLENSWIDPLENPWID;TITLE2CANONICALDISCRIMINANTANALYSISOFIRISCLUSTERS;RUN;PROCPLOT;PLOTCAN2*CAN1=CLUSTER;TITLE2PLOTOFCANONICALVARIABLESIDENTIFIEDBYCLUSTER;RUN;,聚类方法,动态聚类法开始将个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。有序样品的聚类个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。其他还有加入法、有重叠的类、模糊聚类等。,例6.4.2某研究者收集了24种菌株,其中1722号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。镶得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。菌株号X1X2X3X4X5X6X7X810.772818.87010.00000.76950.000044.94350.000016.575820.864219.92630.00000.81190.741945.97750.000013.608030.824321.09770.00000.42410.729345.14470.000015.666840.922920.07570.00000.70150.701844.30250.000015.957150.887320.72610.00000.48120.816745.72820.000014.681460.689410.10210.86012.82470.000011.09012.225314.723370.628717.45620.00000.87870.000051.12270.000016.682181.714621.07121.27456.93230.000011.98210.000014.246490.844020.79480.00000.52890.702442.42890.000017.1255100.979723.43130.00000.47780.789043.91190.000014.5129110.981123.52690.00000.49890.837542.38140.000014.8207121.056017.45861.04811.15910.611315.89862.161813.1660,用CLUSTER过程实现样品聚类分析,130.334210.92180.00000.93790.000030.56890.000016.1205141.381615.97311.02701.21060.566320.09422.188111.7304151.343523.12941.24890.89390.000012.33882.059512.1598162.386119.74560.00000.90930.338968.85720.00004.9522171.618023.57860.00002.65970.000012.31100.000014.0923181.046923.69990.00000.76980.717249.01650.000012.1561190.753913.02840.00002.29780.808530.63360.000010.4001201.381323.09620.00001.76880.000021.88000.000014.6781210.41628.66350.00001.43220.600128.08380.000013.7243222.071721.19060.00001.15770.625566.89660.00005.6805231.013317.25850.00001.16230.667319.71170.000014.8122240.33467.04280.00001.13860.544527.06240.000014.2519,菌株号X1X2X3X4X5X6X7X8,菌株号X9X10X11X12X13X14X15X1610.00000.00007.69192.12394.96563.04610.00000.000020.00000.00008.55961.53175.02541.30410.00000.000030.00000.00007.57241.82854.27091.47240.00000.000040.00000.00007.81161.95554.10901.63770.00000.000050.00000.00007.93081.92054.22991.50440.00000.000061.26051.623829.86841.446216.05724.67441.54750.937670.00000.00006.73991.30213.67871.08900.00000.000080.83871.190322.32261.035011.15133.28621.05400.663390.00000.00008.55081.92234.63461.30740.00000.0000100.00000.00007.45131.75094.03731.41420.00000.0000110.00000.00007.58001.85513.97291.38630.00000.0000121.12511.288723.98121.525211.79113.56471.20110.7989130.86140.935020.04912.460610.92632.94230.96800.5866141.13181.337023.18821.379011.71413.56351.18380.7657151.18421.326723.99041.152011.93333.60341.13750.7110,160.00000.00000.00001.64290.00000.00000.00000.0000170.88831.216723.31051.303911.74623.48751.10420.6779180.00000.00005.52892.24502.88500.97070.00000.0000190.87541.416120.65892.470310.29902.95560.95220.6328200.72850.99021857091.52539.53872.89171.01690.7444211.09791.529322.63162.631412.32233.46161.12000.7169220.00000.00000.00001.66320.00000.00000.00000.0000231.07891.363823.00151.771911.43943.39581.06580.6366241.16501.498023.84492.517613.26883.65581.12390.7382,菌株号X9X10X11X12X13X14X15X16,SAS程序DATAcly;INPUTx1-x16;CARDS;.数据流.;PROCCLUSTERSTANDARDMETHOD=AVERAGENONORMNOSQUARECCCPSEUDOOUT=TREE;PROCTREEDATA=TREEHORIZONTALSPACES=1;RUN;程序修改指导在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式(即距离的定义方法不同),指定的方法是在METHOD后面填入个相应的选择项,它们是:AVERAGE(平均法)CENTROID(重心分量法)COMPLETE(最长距离法)DENSITY(非参数概率密度估计法)EML(最大似然法)FLEXIBLE(flexible-beta法)MCQUITTY(Mcquitty的相似分析法)MEDIAN(中位数法)SINGLE(最短距离法)TWOSTAGE(两阶段密度法)WARD(Ward最小方差法),不同的聚类形式之间的主要区别在于:计算新类与其他类之间的距离的递推公式不同,一旦任何两类之间的距离算出来后,仍按距离最小者先合并。用不同的聚类形式对同一批资料进行聚类,其聚类结果不完全相同,需结合专业知识从各种聚类结果中选择最合适的。这11种方法所对应的递推公式从略,感兴趣的读者可参阅有关专著。第个过程步是调用CLUSTER过程进行样品聚类分析。选用的聚类形式是平均法(AVERAGE);对变量实施标准化(STANDARD);在选用多数聚类形式时,NONORM阻止距离被正态化成均数为或均方根为;当METHOD=WARD时,NONORM阻止类间平夯总平和正态化而产生半偏相关平;当METHOD=DENSITY,EML,或TWOSTAGE时,选择项NONORM无效;当METHOD=CENTROID,MEDIAN或WARD时,NOSQUARE阻止距离被平。选择项CCC、PSEUDO都是为了计算一些统计量用以判别全部样品究竟聚成几类合适。CCC要求打印出聚类判别据的立方(即判断资料聚成几类合适的一种统计量)及在一致无效假设下近似期望值R2,PSEUDO要求打印伪F(标志PSF)和t2(标志PST2)统计量。当分类数目不同时,它们就有不同的取值,CCC和PSF出现峰值所对应的分类数较合适、PST2出现峰值的前一行所对应的分类数较合适。OUT=TREE产生个名为TREE的输出数据集,它可被TREE过程用来输出聚类结果的树状图。HORIZONTAL要求将树状图水平置,SPACES要求置各样品之间的间隔为。所输出的图看上去并不直观(从略),用GRAPH模块绘出样品聚类图的SAS程序很长,将在本章第节中给出。,输出结果及其解释AverageLinkageClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative18.292035.943440.5182520.5182522.348590.275440.1467870.6650432.073160.898580.1295720.7946141.174580.170750.0734110.8680251.003830.357150.0627400.9307660.646690.331180.0404180.9711870.315510.255370.0197190.9909080.060140.011210.0037590.9946690.048930.025310.0030580.99772100.023610.016150.0014760.99919110.007470.004130.0004670.99966120.003330.002070.0002080.99987130.001270.000730.0000790.99995140.000530.000340.0000330.99998150.000190.000050.0000120.99999160.00014.0.0000091.00000Thedatahavebeenstandardizedtomean0andvariance1Root-Mean-SquareTotal-SampleStandardDeviation=1这是用平均距离法进行样品聚类分析的结果,首先给出的是相关矩阵的特征值、两相邻特征值之差、各特征值占总方差16的百分比和累计百分比。,NCLClustersJoinedFREQSPRSQRSQERSQCCCPSFPST2DistTie23OB10OB1120.000051.000.837.0.20022OB3OB420.000201.000.373.0.38521CL22OB530.000430.999.2192.10.51920OB21OB2420.000440.999.186.0.57219CL21OB940.000790.998.1442.50.66018CL19CL2360.002100.996.87.45.70.83017OB2CL1870.001400.995.80.22.00.88316OB12OB1420.001120.993.81.0.0.90815OB16OB2220.001730.992.77.0.1.12914OB1OB720.001890.990.74.9.1.18013CL17OB1880.003910.986.64.24.71.34812OB19OB2320.006430.979.52.1.2.17611CL12CL2040.011160.968.39.83.22.30510CL16OB1530.009300.959.36.48.32.3119CL14CL13100.026630.932.25.919.82.6098OB13CL1150.013240.919.26.02.22.7477OB6CL1040.021560.898.24.84.13.4346CL8OB1760.032360.865.23.14.14.0275CL7CL6100.092960.772.16.17.84.5654CL9CL15120.098330.6740.6450.8513.825.14.8013CL5OB8110.065100.6090.5591.1816.33.15.7312CL4CL3230.459440.1490.427-3.793.924.76.3761CL2OB20240.149420.0000.0000.00.3.98.392,接着给出了将24个样品依次聚成23类的结果。NCL为聚类数;(ClustersJoined)为每次聚成个新类的个样品(标有OB)或旧类(标有CL);FREQ为新类中所含的样品数;SPRSQ为半偏R2,它表示每一次合并对信息的损失程度,看这列的数值可知:从类合并成类时损失最多,此统计量表明聚成类较合适;RSQ为R2,它反映的是累计聚类结果,上一次的R2减去本次半偏R2等于本次R2,从类合并成类R2减少了很多,它也支持分类;ERSQ为在一致无效假设下近似期望的R2;再结合CCC、PSF、PST2这个统计量的值,看看究竟分几类较合适。CCC在NCL=3时达到唯一的峰值1.18;PSF在NCL=16、NCL=8和NCL=3时次达靛值,但在NCL=3时峰更陡些;PST2在多处出现峰值,但从NCL=3到NCL=2比从NCL=5到NCL=4时峰值增加的幅度更大一些。综合这个统计量的结果可知:将24个样品分为类较合适。AverDist为两样品或类间的平均距离。下面详细看看样品聚类的过程:开始24个样品各自成类,共有24类,经过次运算后,将第10号与第11号样品合并成个新类,记为CL23,因为此时共有23类,经过第次运算后,将第3号与第4号样品合并成另个新类,记为CL22,因为此时共有22类;依次类推。若有SASGRAPH模块,并运行本章第节中所给的程序,可得到图6.4.1。,图6.4.1样品聚类分析的动态过程。从图上可清楚地看出:聚成类是较合适的。按图中纵轴方向由上往下样品排列的顺序号,若聚成类,各类所包含的样品分别为:(1022)、(218)、(20)。由此可看出:第20号样品与其他样品相似程度较小。专业结论因1722号样品是已知菌株,故得知:24号与21号最接近、16号与22号最接近、23号与19号最接近、(10,11,3,4,5,9,2)号与18号最接近。,如果在例6.4.2中的样品数不是24,而是成千上万,甚至更多,用CLUSTER过程就需要计算很长时间,况且,在实际问题中,常希望将样品聚成较少的几类更有实用价值。此时,用SAS中提供的FASTCLUS过程能很好地将资料聚成两类或三类。程序会自动给每个样朴上所属类别的标记,于是,可对每类样品作进一步地分析。例6.4.3在例6.4.1中进行了人脑老化资料的变量聚类分析,资料中含有10个指标60个样品,但此资料实际上有893个样品。现使用FASTCLUS过程对全部资料进行快速聚类分析,结合专业知识可知,将脑老化程度分为轻、中、重为宜。资料太多,从略,这里仅给出SAS程序。SAS程序D6P7.PRGDATAa1;DATAb1b2b3;INFILEc:llhyjb.dat;SETaaa;INPUTagetjsgxxxsIFc=1THENOUTPUTb1;tsckbjjjbs;IFc=2THENOUTPUTb2;PROCFASTCLUSOUT=aaaIFc=3THENOUTPUTb3;MAXC=3CLUSTER=c;PROCPRINTDATA=b1;VARagetjsgxxxsPROCPRINTDATA=b2;tsckbjjjbs;PROCPRINTDATA=b3;RUN;RUN;(程序的第部分)(程序的第部分),程序修改指导数据很多,存在硬盘C上,文件名为LLHYJB.DAT,它有893行10列。首先调用FASTCLUS过程对资料进行快速聚类,要求将那些在10个指标上尽可能接近的样品聚在同一类,共聚成类(MAXC=3);分类的标志用C表示(CLUSTER=C),它的取值为;将聚类结果(含原始数据和分类标志)输出到数据集AAA中去(OUT=AAA)。程序的第部分是产生个数据集B1、B2、B3,它们分别包含标志为、的样品,最后用PRINT过程将它们分别输出到OUTPUT窗口中去(结果从略),也可对数据集作其他处理。,用ACECLUS过程对需作样品聚类分析的资料进行预处理少数场合下用CLUSTER或FASTCLUS过程进行样品聚类效果不佳,这可能是由于资料不满足经典聚分析方法所要求的条件,为此,SAS提供了个专门用于对需作样品聚类分析的资料进行预处理的过程,即ACECLUS过程,它可以对数据进行线性转换,使转换后的数据满足经典聚类分析方法的要求。例6.4.4沿用例6.4.2资料,先用ACECLUS过程,后用CLUSTER过程进行样品聚类分析。SAS程序D6P8.PRGDATAcly;INFILEa:clyclust.dat;INPUTx1-x16;PROCACECLUSOUT=aaaP=0.02;PROCCLUSTERDATA=aaaSTANDARDMETHOD=AVERAGENONORMNOSQUARECCCPSEUDOOUT=TREE;PROCTREEDATA=TREEHORIZONTALSPACES=1;RUN;程序修改指导此程序仅比D6Pd.PRG多了调用ACECLUS过程的语句,这里的P=0.02是个控制迭代过程的量。,主要输出结果及其解释AverageLinkageClusterAnalysisAverNCLClustersJoinedFREQSPRSQRSQERSQCCCPSFPST2DistTie23OB3OB1020.001560.998.29.1.1.51522CL23OB530.005930.993.12.63.82.66821OB4OB1120.005340.987.11.5.2.80220OB12OB1420.007420.980.10.2.3.30419CL22OB940.010620.969.8.72.83.47318CL21OB1830.015710.953.7.22.94.32117CL19CL1870.028820.925.5.43.74.52216OB16OB2220.013950.911.5.4.4.53215OB2CL1780.018930.892.5.31.74.78714OB21OB2420.016070.876.5.4.4.86313CL15OB790.036100.840.4.82.96.13612CL20OB1530.032080.807.4.64.36.16111OB1CL13100.035320.772.4.42.36.22910OB19CL1430.030460.742.4.51.96.2659CL10OB2340.033400.708.4.61.46.6478OB13CL950.035640.673.4.71.36.8757OB6CL1240.039410.633.4.92.06.9206CL11CL16120.079090.554.4.54.67.1475CL7CL890.079530.475.4.32.97.5824CL5OB17100.044080.4310.473-1.145.01.37.6403CL6CL4220.247960.1830.383-4.342.38.78.4412CL3OB8230.076610.1060.263-3.312.62.09.2631CL2OB20240.105960.0000.0000.00.2.610.474,我们以多元分析中一个经典的数据作为例子,这是Fisher分析过的鸢尾花数据,有三种不同鸢尾花(Setosa、Versicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。这个数据已知分类,并不属于聚类分析的研究范围。这里我们为了示例,假装不知道样本的分类情况(既不知道类数也不知道每一个观测属于的类别),让SAS取进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的结果。这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。为了进行谱系聚类并产生帮助确定类数的统计量,使用如下过程:,procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;,PseudoiNCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt*2e149OB16OB7620.0000001.0000.148OB2OB5820.0000071.0000.1854.1.T147OB96OB10720.0000071.0000.1400.1.T146OB89OB11320.0000071.0000.1253.1.T145OB65OB12620.0000071.0000.1182.9.T25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.0008050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL36OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.0,15CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26CL20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725950.00000.0000000.000.502.8,第五节R型系统聚类法,指标(变量)聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换,化为广义距离,然后用前面方法聚类之。,原理与以上聚类法类似,只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度,用VARCLUS过程实现变量聚类分析,例6.4.1为研究人脑老化的严重程度,有人测定了不同年龄的60名正常男性10项有关指标的数据,各变量的含义如下:AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。AGETJSGTSXXXSCKBJJJBSAGETJSGTSXXXSCKBJJJBS16179145.14495435.323.924820835.005123724.703.7318128143.575114630.663.304918851.875103422.544.7719118211.673125337.013.085013843.205114533.472.782018957.04594730.103.9051167143.58524026.274.382115966.575105737.142.7252178142.86573423.935.1022198143.295114630.663.2453108143.43344126.014.042416953.502104327.644.415411886.18523725.453.802519963.57194226.544.4955118142.15404229.682.6126179143.86395229.243.545687922.10154529.806.67,2715816.00494232.304.3857121074.50582415.957.2928187143.98595133.943.035810699.50244328.963.50292010141.93584330.794.51591110128.690124431.152.89301410142.93574532.674.456012788.78281812.927.4331198103.735103319.915.716110526.3550158.9611572124431.924.1262128717.00583221.834.7133159143.36564228.615.396314949.402124228.964.0134157143.945104330.264.316412953.005123022.185.4135179142.642112727.794.45667738.49512920.625.6736189123.235103825.834.686715863.43563724.655.503719873.00593825.383.736814568.00084028.064.343816874.384113523.344.99696728.34222917.024.6939208141.435114630.303.41701391194413825.833.704017872.052123724.564.4971159144.50564128.015.0641179113.705113523

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论