实验1 聚类分析指导.doc_第1页
实验1 聚类分析指导.doc_第2页
实验1 聚类分析指导.doc_第3页
实验1 聚类分析指导.doc_第4页
实验1 聚类分析指导.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验项目二:聚类分析实验指导一、实验目的:通过聚类分析的实验,熟悉聚类分析问题的提出、解决问题的思路、方法和技能,会调用SAS软件聚类分析过程命令,根据计算机计算的结果,分析和解决聚类分析问题的能力。二、预备知识:解决聚类分析问题的思路、理论和方法。三、实验内容:聚类分析问题的数据。四、实验仪器与材料:计算机与SAS软件。五、实验步骤:调用聚类分析过程命令输入数据得到聚类过程表和聚类图,距离选用欧氏距离,方法选用最短距离法和类平均法。六、结果的分析与应用(有关表图要有序号、中英文名、表的上下线为粗线、表的内线为细线、表的左右边不封口、表图不能跨页、表图旁不能留空块;表的序号、中英文名在表的上方;图的序号、中英文名在图的正下方;引用结论要注明参考文献):1.对最长距离法得到的聚类过程表和聚类图进行初步的定量分析;2.对离差平方和法得到的聚类过程表和聚类图进行初步的定量分析;3.进行两类方法的定量共性结果总结,结合共性结果、原始数据找出研究对象的基本情况。4.实验程序。七、聚类分析实验程序例:数据(1996年)为教科书P91例2.聚类分析过程命令Data pgm33b;Input x1-x6; cards;631.6161.90.36403 2607335.34498.4143.23.57176 102236.26557.670.62.18199 115719.48648.1281.81.4 286 1666029.39644 93.51.98234 1362122.68620.3248.62.56296 1721021.84498.4147.52.5 284 1357813.49469.456.13.68119 69111.72434.573 3.3699 57951.6681.916.33.0219 8760.52138.68.2 1.4 31 14111.2892.29.8 2.6131 17510.35174.95 5.1224 11010.48169 6.5 3.6840 17961.45262.249.42.6668 30673.09195.588.44.1953 27341.2578.627.84.9522 16620.1113.60.3 6.282 1010.01559.142.91.27201 117024.76521.1122.50.98248 1446111.91;Proc cluster standard method=complete nonormnosquare ccc pseudo out=tree;Proc tree data=tree horizontal spaces=1; run;刷黑该块过程命令程序,提交便计算出complete聚类结果。表1: 最长距离法聚类过程(Cluster History) T Max i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist e 19 OB10 OB12 2 0.0005 1.00 . . 118 . 0.3275 18 OB8 OB9 2 0.0007 .999 . . 98.7 . 0.4052 17 OB13 OB17 2 0.0012 .998 . . 77.1 . 0.5308 16 CL19 OB14 3 0.0029 .995 . . 49.8 6.2 0.7981 15 OB3 OB19 2 0.0030 .992 . . 42.7 . 0.8215 14 CL17 OB18 3 0.0061 .986 . . 31.7 4.9 1.0768 13 CL16 OB15 4 0.0062 .979 . . 27.9 3.7 1.0847 12 OB7 OB20 2 0.0055 .974 . . 27.3 . 1.1175 11 OB4 OB6 2 0.0056 .968 . . 27.6 . 1.1316 10 OB2 CL18 3 0.0103 .958 . . 25.4 14.4 1.3498 9 OB5 CL12 3 0.0092 .949 . . 25.5 1.7 1.3753 8 CL13 OB11 5 0.0081 .941 . . 27.2 2.5 1.5213 7 CL15 CL9 5 0.0172 .924 . . 26.2 2.9 1.9154 6 CL14 OB16 4 0.0132 .910 . . 28.4 3.6 2.0219 5 OB1 CL11 3 0.0355 .875 . . 26.2 6.3 2.6722 4 CL10 CL7 8 0.0577 .817 .844 -.87 23.8 7.5 2.8273 3 CL8 CL6 9 0.0532 .764 .785 -.57 27.5 9.8 3.3012 2 CL4 CL3 17 0.3177 .446 .652 -2.5 14.5 24.4 5.3873 1 CL5 CL2 20 0.4463 .000 .000 0.00 . 14.5 7.8488 图1:最长距离法聚类图Data pgm33b;Input x1-x6; cards;631.6161.90.36403 2607335.34498.4143.23.57176 102236.26557.670.62.18199 115719.48648.1281.81.4 286 1666029.39644 93.51.98234 1362122.68620.3248.62.56296 1721021.84498.4147.52.5 284 1357813.49469.456.13.68119 69111.72434.573 3.3699 57951.6681.916.33.0219 8760.52138.68.2 1.4 31 14111.2892.29.8 2.6131 17510.35174.95 5.1224 11010.48169 6.5 3.6840 17961.45262.249.42.6668 30673.09195.588.44.1953 27341.2578.627.84.9522 16620.1113.60.3 6.282 1010.01559.142.91.27201 117024.76521.1122.50.98248 1446111.91;Proc cluster standard method=ward nonormnosquare ccc pseudo out=tree;Proc tree data=tree horizontal spaces=1; run;刷黑该块过程命令程序,提交便计算出ward聚类结果。表2: 离差平方和法聚类过程(Cluster History) T False i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 BSS e 19 OB10 OB12 2 0.0005 1.00 . . 118 . 0.1638 18 OB8 OB9 2 0.0007 .999 . . 98.7 . 0.2026 17 OB13 OB17 2 0.0012 .998 . . 77.1 . 0.2654 16 OB3 OB19 2 0.0030 .995 . . 49.2 . 0.4108 15 CL19 OB14 3 0.0029 .992 . . 42.7 6.2 0.4247 14 OB7 OB20 2 0.0055 .986 . . 33.1 . 0.5587 13 OB4 OB6 2 0.0056 .981 . . 29.5 . 0.5658 12 OB15 OB16 2 0.0061 .974 . . 27.8 . 0.5911 11 CL17 OB18 3 0.0061 .968 . . 27.6 4.9 0.6122 10 CL15 OB11 4 0.0085 .960 . . 26.6 5.0 0.7211 9 OB5 CL14 3 0.0092 .951 . . 26.5 1.7 0.7297 8 OB2 CL18 3 0.0103 .940 . . 27.0 14.4 0.8295 7 CL10 CL12 6 0.0131 .927 . . 27.6 2.9 0.8992 6 CL16 CL9 5 0.0172 .910 . . 28.3 2.9 1.0493 5 OB1 CL13 3 0.0355 .875 . . 26.2 6.3 1.4927 4 CL7 CL11 9 0.0529 .822 .844 -.73 24.6 9.6 2.2125 3 CL8 CL6 8 0.0577 .764 .785 -.57 27.5 7.5 2.304 2 CL5 CL3 11 0.1863 .578 .652 -1.0 24.6 11.6 4.3336 1 CL2 CL4 20 0.5777 .000 .000 0.00 . 24.6 10.661Since the NOSQUARE option was specified, the combinatorial formula has been applied toun-squared Euclidean distances. The resulting cluster distances do NOT have their usualEuclidean interpretation and are therefore labeled False. 图2:离差平方和法聚类图语句解释: 聚类指定的方法是在“method=”后面填入一个相应的选择项,它们是:single(最短距离法),complete(最长距离法),average(类平均法), centroid(重心法),median(中位数法),ward(离差平方和法),flexible(可变类平均法),density(非参数概率密度估计法),eml(最大似然法),twostage(两阶段密度法)。cluster进行样品聚类分析; standard-对变量实施标准化; “method=”后为选用的聚类方法;nonorm 阻止距离被正态化;当method=ward时,nonorm 阻止类间平方和被总平方和正态化而产生半偏相关平方和;当method=density、eml或twostage时,选择项nonorm 无效;当method=centroid、median或ward时,nosquare阻止距离被平方. 选择项CCC、pseudo都是为了计算一些统计量用以判别全部样品究竟聚成几类合适。CCC要求打印出聚类判别据的立方(即判别资料聚成几类合适的一种统计量)及在一致无效假设下近似期望值R2。Pseudo要求打印伪F(标志PSF)和t2(标志PST2)统计量。当分类数目不同时,它们就有不同的取值,CCC和PSF出现峰值所对应的分类较合适、PST2出现峰值的前一行所对应的分类数较合适。out=tree产生一个名为tree的输出数据集,它可被tree过程用来输出聚类结果的树状图。Horizontal要求将树状图水平放置,spaces=1要求置各样品之间的间隔为1.其它语句参见文献1。1.最长距离法得到的聚类过程表1中,CCC出现峰值-0.57所对应的分类数3较合适、PSF出现峰值27.5所对应的分类数3较合适、PST2出现峰值24.4的前一行所对应的分类数3较合适,故分为3类。在图1中,取阈值T=3.68,得样品分为三类:第一类:美国、瑞典、丹麦;第二类:台湾、韩国、日本、德国、法国、新加坡、英国、瑞士;第三类:巴西、墨西哥、波兰、匈牙利、智利、泰国、印度、马来西亚、俄罗斯。2.离差平方和法得到的聚类过程表2中,CCC出现峰值-0.57所对应的分类数3较合适、PSF出现峰值27.5所对应的分类数3较合适,故分为3类。在图2中,取阈值T=3.8,得样品分为三类:第一类:美国、瑞典、丹麦;第二类:台湾、韩国、日本、德国、法国、新加坡、英国、瑞士;第三类:巴西、墨西哥、波兰、匈牙利、智利、泰国、印度、马来西亚、俄罗斯。3.进行两类方法的定量共性结果总结:样品分为三类:第一类:美国、瑞典、丹麦;第二类:台湾、韩国、日本、德国、法国、新加坡、英国、瑞士;第三类:巴西、墨西哥、波兰、匈牙利、智利、泰国、印度、马来西亚、俄罗斯。结合共性结果、原始数据找出上述国家信息基础设施的基本情况。表3: 三类样品的重心均值数据第一类第二类第三类633.33522.81134.06230.7793.6623.521.442.443.77328.3319532.221998110983161128.868.9950.95从表3的数据得出:第一类国家:美国、瑞典、丹麦的信息基础设施的重心排列都是第一,发展最好;第二类国家:台湾、韩国、日本、德国、法国、新加坡、英国、瑞士的信息基础设施的数据重心排列都是第二,发展较好;与第一类国家相比,第二类国家call-每千人拥有的电话线数较接近第一类国家(相差0.21倍),其它指标相差0.69-2.21倍,说明第二类国家信息基础设施还有较大的发展空间。第三类国家:巴西、墨西哥、波兰、匈牙利、智利、泰国、印度、马来西亚、俄罗斯的信息基础设施的数据重心排列都是第三,比较落后。第三类国家与第二类国家相比,第三类国家fee-高峰时期每三分钟国际电话的成本较接近第二类国家(相差0.54倍),其它指标相差2.9-8.5倍,说明第三类国家需要建立起码的信息基础设施,以便逐步提高第三类国家信息基础设施稳定和发展的质量。八、布置聚类分析实验作业(一星期内交)。 计算样本均值、样本方差阵过程命令date fitness; input x1-x3; cards;3.7 48.5 9.35.7 65.1 83.8 47.2 10.93.2 53.2 123.1 55.5 9.74.6 36.1 7.92.4 24.8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论