SAS中聚类分析课件_第1页
SAS中聚类分析课件_第2页
SAS中聚类分析课件_第3页
SAS中聚类分析课件_第4页
SAS中聚类分析课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用SAS进行聚类分析8SAS中聚类分析系统聚类法8SAS中聚类分析书p243,表6.7,16个地区农民生活水平调查数据地区x1x2x3x4x5x6北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25内蒙128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山东115.8430.2612.233.6133.773.85河南101.1823.268.4620.220.54.38SAS中聚类分析datad641;inputgroup$x1-x6;cards;北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.1636.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.409.8918.173.25内蒙128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.5017.6419.1915.974.94山东115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.30;procprintdata=d641;run;输入资料:8SAS中聚类分析procclusterdata=d641method=avestdpseudocccouttree=b641;varx1-x6;idgroup;proctreedata=b641horizontalgraphics;title'使用类平均法的谱系聚类图';run;title;使用系统聚类方法,距离使用类平均法cluster过程,用来进行系统聚类method=ave或method=AVERAGE,表示类间距离使用类平均距离std或standard选项,变量数据都标准化(均值0,标准差1)以后,再计算距离pseudo,输出伪F、伪t平方统计量ccc选项,计算半偏R平方、ccc统计量varx1-x6,用x1、x2、…、x6作为计算距离的变量idgroup,用group变量的值作为每一个样品的idouttree=b641,将树形分类结果输出到数据集b641tree过程,输出CLUSTER和VARCLUS过程产生的树形分类结果8SAS中聚类分析8SAS中聚类分析NCL为聚类数;FREQ为新类中所含的样品数;SPRSQ为半偏R2,PSF为伪F,PST2为伪T2NormRMSDist是正规化的的两类元素间距离的均方根

8SAS中聚类分析使用系统聚类方法,距离使用中间距离法procclusterdata=d641method=medstdpseudocccouttree=b641;varx1-x6;idgroup;proctreedata=b641horizontalgraphics;title'使用中间距离法的谱系聚类图';run;title;method=med或method=MEDIAN,表示类间距离使用中间距离8SAS中聚类分析8SAS中聚类分析8SAS中聚类分析procclusterdata=d641method=flestdpseudocccBETA=-0.25outtree=b641;varx1-x6;idgroup;proctreedata=b641horizontalgraphics;title'使用可变类平均法的谱系聚类图';run;title;使用系统聚类方法,距离使用可变类平均法method=fle或method=FLEXIBLE,表示类间距离可变类平均法BETA=-0.25,这也是缺省值,故可以省略,表示可变类平均法中的参数beta的取值8SAS中聚类分析8SAS中聚类分析8SAS中聚类分析procclusterdata=d641method=wardstdpseudocccouttree=b641;varx1-x6;idgroup;proctreedata=b641horizontalgraphicsn=5out=c641;copygroupx1-x6;title'使用Ward法的谱系聚类图';run;title'使用Ward法';使用系统聚类方法,距离使用离差平方和(ward)法method=ward或method=war,表示类间距离使用离差平方和(ward)法tree过程中,n=5out=c641表示,分为5类时,分类的结果输出到数据集c641中copy语句不能少,它表示要把b641中的group、x1、…、x6拷贝到c641中去8SAS中聚类分析8SAS中聚类分析8SAS中聚类分析如果我们想分别计算分成5组以后,每组样本的均值。。8SAS中聚类分析procsortdata=c641;bycluster;run;procprintdata=c641;varclustergroupx1-x6;run;procmeansdata=c641;bycluster;varx1-x6;run;使用系统聚类方ward法,聚类为5类的结果输出,并分别计算各类均值means过程的bycluster语句,以cluster变量进行分组,并分别计算各个分组的均值。8SAS中聚类分析动态聚类法8SAS中聚类分析procstandardmean=0std=1data=d641out=sta653;varx1-x6;run;procfastclusdata=sta653out=out653maxc=5list;varx1-x6;idgroup;run;书p251,例6.5.3,还用表6.7的数据,但动态聚类standard过程,将数据标准化mean=0std=1,标准化后的数据,均值为0,标准差为1out=sta653,结果输出到数据集sta653中fastclus,进行快速(动态)聚类maxc=5,或写为MAXCLUSTERS=5,聚为5类。默认值为100。list,列表显示所有的样本点,它的id值、它归为哪一个cluster、它到自己的cluster的凝聚点的距离8SAS中聚类分析8SAS中聚类分析如果我们想分别计算分成5组以后,每组样本的均值。。8SAS中聚类分析上表是d641,下表是out653,它们有一个公共的变量group。如果我们能按group变量,把两个表合并起来,我们就可以计算每个cluster的均值。而不利的是,x1-x6的值从d641到out653时,发生了改变。8SAS中聚类分析dataout653a; setout653; keepgroupcluster;run;proc

sortdata=out653a;bygroup;run;proc

sortdata=d641;bygroup;run;dataout653b; merged641out653a; bygroup;run;proc

sortdata=out653b;bycluster;run;proc

meansdata=out653b;bycluster;varx1-x6;run;proc

printdata=out653b;varclusterx1-x6;run;1.首先,因为out653中的x1-x6发生了改变,我们把out653中的数据拷贝到out653a中,但去掉x1-x6,只保留group、cluster的信息。2.为了合并out653a和d641(它们有公共变量group),必须将它们都按变量group来排序。3.将out653a和d641合并为数据集out653b(用merge语句)。4.为了在合并的数据集out653b中计算按照cluster变量分类后的各类的均值,要将out653b按cluster变量进行排序。5.排序后,就可以用means过程计算按cluster变量分类的均值了。6.最后用print过程,把结果列表打印出来。8SAS中聚类分析变量聚类法8SAS中聚类分析datad672(type=corr);title'在中学生中测量八个体型指标的相关系数';labelx1='身高'x2='手臂长'x3='上肢长'x4='下腿长'x5='体重'x6='颈围'x7='胸围'x8='胸宽';input_name_$x1-x8;_type_='corr';cards;x11.000.846.805.859.473.398.301.382x2.8461.000.881.826.376.326.277.415x3.805.8811.000.801.380.319.237.345x4.859.826.8011.000.436.329.327.365x5.473.376.380.4361.000.762.730.629x6.398.326.319.329.7621.000.583.577x7.301.277.237.327.730.5831.000.539x8.382.415.345.365.629.577.5391.000;procprint;title;书p261,例6.7.2,还用p260表6.12的数据,但使用变量聚类8SAS中聚类分析proc

varclusdata=d672maxc=8summaryouttree=o672;run;proc

treedata=o672horizontalgraphics;run;procvarclusdata=d672;run;procvarclusdata=d672centroid;run;centroid表示距离用质心法最简单的变量聚类:变量聚类也可以不使用主成份,而使用质心:复杂一点的变量聚类,可以打印出图形:maxc=8表示聚类为8个类,这将使树形聚类显示,从8个变量各成一小类开始。如果这里maxc=2,则树形的聚类显示,一开始就从两个类开始,就看不出8个变量是如何逐步聚成两个大类的。Varclus过程的summary选项输出一个概要表。8SAS中聚类分析8SAS中聚类分析summary选项所打印的内容:8SAS中聚类分析练习1、一组有关12盎司20种啤酒成分和价格的数据,分别用系统聚类法(距离用类平均距离)、动态聚类法,聚为4类,分别给出两种聚类方法的分类结果及各类均值。啤酒名热量(卡)钠含量酒精含量价格Budweiser144194.70.43Schlitz181194.90.43Ionenbrau157154.90.48Kronensourc17075.20.73Heineken1521150.77Old-milnaukee145234.60.26Aucsberger175245.50.4Strchs-bohemi149274.70.42Miller-lite99104.30.43Sudeiser-lich11363.70.44Coors140164.60.44Coorslicht102154.10.46Michelos-lich135114.20.5Secrs150194.70.76Kkirin149650.79Pabst-extra-l68152.30.36Hamms136194.40.43Heilemans-old144244.90.43Olympia-gold-7262.90.46Schlite-light9774.20.478SAS中聚类分析cluster1cluster2cluster3cluster4Nmeanofcaloriemeanofsodiummeanofalcoholmeanofcost实验报告中提交sas程序,和提交下面两个表就可以了。beernamescluster1cluster2cluster3cluster48SAS中聚类分析练习2、对30个省的文化程度聚类,变量名为DXBL,CZBL,WMBL,分别用系统聚类法(距离用离差平方和法)、动态聚类法,聚为3类,分别给出两种聚类方法的分类结果及各类均值。地区编号DXBLCZBLWMBL北京19.330.558.7天津24.6729.388.92河北30.9624.6915.21山西41.3829.2411.3内蒙51.4825.4715.39辽宁62.632.328.81吉林72.1526.31

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论