聚类分析sasPPT课件_第1页
聚类分析sasPPT课件_第2页
聚类分析sasPPT课件_第3页
聚类分析sasPPT课件_第4页
聚类分析sasPPT课件_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,聚类分析sas程序,.,2,系统聚类的基本格式PROCCLUSTERMETHOD=聚类方法;Var变量名列表;ID变量名;Copy变量名列表;By变量名;Run;指定的聚类方法有method=averave类平均Centroid重心法,complete最长距离法,Single最短距离法,ward离差平方和法Flexible可变类平均法Median中间距离法EML最大似然谱系法,系统聚类,.,3,选项1数据集选项输入数据集data=sas数据集,默认最近生成的数据集输出数据集outtree=sas数据集,生成用于画聚类树的数据集2控制聚类之前的数据处理变量标准化standard3控制聚类过程信息的打印noid禁止聚类过程中每次产生合并时打印id值Print=n打印聚类过程的最后n层例print=3要求sas打印从3个类到所有样品合并为1个类时的聚类过程,默认打印全过程Simple打印每个变量的描述统计量,.,4,语句By语句对by变量定义的组分别做聚类分析Id语句指定标示观测的变量,用于区分聚类历史中打印输出集ottree指定的数据集中的观测,若省略,则用obn表示,n为观测的序号Copy语句把语句中指定的变量从输入数据集复制到outtree指定的输出数据集中Var语句指出参与聚类分析的变量,默认所有数值变量参与分析,.,5,2020/5/22,5,P127.例1.表4.18个样品2个指标的观测值为:,例中两个指标的量纲相同,可以不作标准化变换,.,6,2020/5/22,6,datacluster07;inputx1x2;cards;25234443-43-22-32-1-3;procclusternoeigen/*不计算特征值*/rsquareout=tremethod=single;varx1x2;proctree;run;,.,7,2020/5/22,7,SingleLinkageClusterAnalysisRoot-Mean-SquareTotal-SampleStandardDeviation=2.795085MeanDistanceBetweenObservations=5.035943NumberFrequencyNormalizedofofNewemipartialMinimumClusClusJoiClusterR-SquaredR-SquaredDistanceTieterstersned7OB3OB420.0045710.9954290.198573T6OB6OB720.0045710.9908570.1985735OB5CL630.0198100.9710480.2808244OB1OB220.0182860.9527620.397145T3CL4CL740.0388570.9139050.3971452CL3CL570.5957010.3182040.8187361CL2OB880.3182040.0000001.012525,.,8,2020/5/22,8,Root-Mean-SquareTotal-SampleStandardDeviation=2.795085,MeanDistanceBetweenObservations=5.035943,.,9,2020/5/22,9,NumberFrequencyNormalizedofofNewsemi-partialMinimumClusClusJoiClusterR-SquaredR-SquaredDistanceTieterstersned7OB3OB420.0045710.9954290.198573T6OB6OB720.0045710.9908570.1985735OB5CL630.0198100.9710480.2808244OB1OB220.0182860.9527620.397145T3CL4CL740.0388570.9139050.3971452CL3CL570.5957010.3182040.8187361CL2OB880.3182040.0000001.012525,新类号,类与类的连接,新类中样品数,半偏R方:数值大则上一次合并的效果好,规范化的最短距离,捆:同时合并,.,10,2020/5/22,10,.,11,例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。,.,12,2020/5/22,12,dataex;inputxyz;cards;282928182318112216212322262926202322162222142324242924222724;procclusternoeigenrsquareout=treemethod=single;varxyz;proctreehor;/*hor表示画纵向谱系,默认横向*/run;,.,13,2020/5/22,13,Root-Mean-SquareTotal-SampleStandardDeviation=4.11141MeanDistanceBetweenObservations=8.930861NormTMiniNCL-ClustersJoined-FREQSPRSQRSQDiste9OB4OB620.0011.9990.1128OB1OB520.0088.9900.3167T7CL8OB930.0263.9640.3167T6CL7OB1040.0394.9240.31675OB7OB820.0099.9150.33594CL9CL540.0690.8460.46173OB2CL450.0357.8100.50082CL6CL390.4847.3250.51311CL2OB3100.3252.0000.8228,.,14,2020/5/22,14,.,15,聚类的基本格式ProcFastclusmaxcluster=nradius=t;Var变量名列表;Id变量名;By变量名;Run;说明maxcluster=n规定分类的最大个数nRadius=t规定下一个凝聚点与现有凝聚点的最小距离,默认为0,动态聚类,.,16,选项1数据集选项输入数据集data=sas数据集seed=sas数据集,指定初始凝聚点数据集。指定一个数据集,sas从中选择初始凝聚点,若缺省,sas从data=给出的数据集中选择初始凝聚点输出数据集Out=sas数据集,除包含输入数据集变量外,还包含两个变量:名字为cluster的变量表明各个观测分入的类号,名字为distance的变量,表明观测离所在类重心的距离Mean=sas数据集,指定一个数据集,其中包含各类的均值和一些统计量,.,17,选项2计算最终凝聚点的选项converge=c,指定收敛判别准则,c为非负值。当凝聚点改变的最大距离小于等于初始凝聚点之间的最小距离乘以c时,循环过程结束。C的默认值为0.02.只有出现maxiter=选项并且大于1时才能使用该选项。Delete=n当归入凝聚点所在类的观测个数小于等于n时,删除那些凝聚点。删除过程在完成drift选项和由maxiter=选项指定的每次迭代后进行的。当观测最终归入各类后,凝聚点不进行删除,因此,最后生成的类中可能出现类中样品个数小于n的情况。Drift初始凝聚点选好后,每当一个观测归入最靠近的凝聚点所在的类后,该类的凝聚点都要被类中现有观测的均值替代Maxiter=n指定重新计算类的凝聚点的最大迭代次数,.,18,2020/5/22,18,P149.例4.7.表4.216个样品2个指标的观测值为:,例中两个指标的量纲相同,可以不作标准化变换,.,19,2020/5/22,19,dataclu1/*(type=distance)*/;inputx1x2;cards;05232544435162-43-32-30-52110-10-2-1-1-1-3;dataclu2;inputx1x2;cards;43-320-1;procfastclusdata=clu1seed=clu2maxc=3out=clu3;procprintdata=clu3;run;,.,20,2020/5/22,20,ClusterMeansClusterX1X213.833333.000002-3.000002.400003-0.20000-1.20000OBSX1X2CLUSTERDISTANCE10523.9698922311.8333332512.7131444411.0137954310.16667,.,21,2020/5/22,21,OBSX1X2CLUSTERDISTANCE65112.3154176212.386308-4321.166199-3220.4000010-3022.4000011-5222.03961121132.50599130-130.28284140-230.8246215-1-130.8246216-1-331.96977,.,22,2020/5/22,22,改动初始凝聚点ob2,ob10,ob14dataclu1/*(type=distance)*/;inputx1x2;cards;05232544435162-43-32-30-52110-10-2-1-1-1-3;dataclu2;inputx1x2;cards;23-300-2;procfastclusdata=clu1seed=clu2maxc=3out=clu3;procprintdata=clu3;run;,.,23,2020/5/22,23,TheFASTCLUSProcedureReplace=FULLRadius=0Maxclusters=3Maxiter=1ClusterMeansClusterx1x2-13.0000000003.0000000002-3.7500000001.7500000003-0.500000000-1.750000000ClusterStandardDeviationsClusterx1x2-12.0701966781.60356745120.9574271081.25830573930.5773502690.957427108,.,24,2020/5/22,24,Obsx1x2CLUSTERDISTAN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论