第六章数据分析(梅长林)习题答案.doc_第1页
第六章数据分析(梅长林)习题答案.doc_第2页
第六章数据分析(梅长林)习题答案.doc_第3页
第六章数据分析(梅长林)习题答案.doc_第4页
第六章数据分析(梅长林)习题答案.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章习题习题6.3解:用SAS的proc fastclus将各个国家聚为三类,即如果如下:聚类散点图如下:(2)聚为四类结果散点图如下:习题6.4解:通过proc fastclus聚为三类结果如下:Cluster ListingObsyearsClusterDistance from Seed119781474.3219791433.2319801362.1419811288.9519821260.0619831218.3719841141.781985160.4851919861169.31019871350.21119881730.51219891890.31319902985.01419912723.81519922249.21619932484.617199421475.118199531086.41919963394.5201997396.19752119983471.92219993958.6聚类结果散点图:习题6.6解:(1)在proc cluster过程中取选项“method=single”,用最短距离法得到的聚类结果如下所示:Cluster HistoryNCLClusters JoinedFREQMinDistTie10NDa21T9FrI21T8CL9S317ECL10326CL8P435CL7G444CL5Du55T3CL4CL6952CL3H108T1CL2Fi118上述聚类过程为:首先在最短距离为1的时候,将挪威语和丹麦语聚为一类,得新类CL10=丹麦语,挪威语,其中包含2个样本,这是全部类被分为10类;其次,将法语和意大利语聚为一类,CL9=法语,意大利语;其中包含两个样本,这是全部样本被分为9类,接着在最短距离为2的时候,波兰语被分到CL9当中,也即CL8=CL9,波兰语,然后英语被分到CL10中,的新类CL7=CL10,英语=丹麦语,挪威语,英语,如此等等,最后在最短距离为8的时候,所有类并入CL2中,这样全部样品归为一类,系统聚类结束。由谱系聚类法能够细致的看出由小到大的聚类过程,由合并时的距离水平可以看出样本之间的亲疏程度。然后利用proc tree 过程可以画出最短距离谱系图如下所示:其中以E、N、Da、Du、G、Fr、S、I、P、H、Fi分别代表英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语、芬兰语等11中语言。(2)最长距离法。在proc cluster过程中选取”method=conplete”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQMaxDistTie10NDa21T9FrI21T8ECL1032T7CL9S326DuG25T5CL7P454CL8CL657T3HFi282CL4CL3791CL2CL51110与最短距离法聚类过程相比,倒数第六步两种方法合并次序和合并距离水平有所不同。(3)类平均距离法。在proc cluster过程中选取”method=average”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQAverDistTie10NDa21T9FrI21T8CL9S31.57ECL10326CL8P445CL7G45T4CL5Du55.753CL4CL696.92HFi281CL3CL2119.0556与最短距离法聚类过程相比,倒数第二步两种方法合并次序不同,在最长距离聚类中时将匈牙利语和芬兰语先合并为一类在和CL3聚为一类。最长距离聚类法谱系图如下所示:(4)重心法。在proc cluster过程中选取”method=centroid”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQSquaredCentDistTie10NDa21T9FrI21T8CL9S31.257ECL1031.756CL8P43.55565CL7G44.4444T4CL5CL684.06253CL4Du95.35942CL3Fi106.56791CL2H116.22重心法与前述几种方法在类的合并以及距离水平都有所差异。其谱系聚类结果如下所示:2.习题6.7解:(1)最长距离法。在proc cluster过程中选取”method=complete”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQMaxDist1519891990213.91419992000217.061319851986218.831219911992229.0221119961997231.48910CL131987347.6069CL15CL12453.2448CL111998368.771995CL8481.2536CL1019884118.565CL919935123.184CL7CL146144.0931994CL47199.952CL6CL59306.91CL2CL316672.8然后得到聚为三类的结果:第一类:1989、1990、1992、1991、1993第二类:1999、2000、1996、1997、1998、1995、1994第三类:1985、1992、1988ObsyearsCLUSTERCLUSNAME119891CL5219901CL5319992CL3420002CL3519853CL6619863CL6719911CL5819921CL5919962CL31019972CL31119873CL61219982CL31319952CL31419883CL61519931CL51619942CL3谱系聚类结果图:(2)类平均距离法。在proc cluster过程中选取”method=average”,得到最长距离法聚类过程见下表:、Cluster HistoryNCLClusters JoinedFREQAverDistTie1519891990213.91419992000217.061319851986218.8312CL151991323.5081119961997231.48910CL131987338.3389CL121992442.1598CL111998356.31771995CL8473.32761988CL9589.9895CL7CL146110.94CL619936122.2631994CL57171.242CL10CL49185.581CL2CL316466.34谱系聚类结果图如下所示:然后得到聚为三类的结果:第一类:1989、1990、1992、1988、1991、1993第二类:1999、2000、1996、1997、1998、1995、1994第三类:1986、1987、1985ObsyearsCLUSTERCLUSNAME119891CL4219901CL4319992CL3420002CL3519853CL10619863CL10719911CL4819962CL3919972CL31019873CL101119921CL41219982CL31319952CL31419881CL41519931CL41619942CL3(3)对数据进行标准化之后,得到聚为三类的结果分别为:最长距离法:聚为三类的结果为:第一类:1999、2000、1996、1997、1998、1994第二类结果:1989、1990、1991、1992、1993第三类结果为:1895、1986、1987、1988ObsyearsCLUSTERCLUSNAME119991CL3220001CL3319892CL4419902CL4519853CL6619863CL6719961CL3819971CL3919912CL41019922CL41119873CL61219981CL31319951CL31419883CL61519932CL41619941CL3类平均距离法聚聚为三类的结果:第一类:1999、2000、1996、1997、1994、1995、1998、第二类:1989、1990、1991、1992、1993第三类:1985、1986、1987、1988ObsyearsCLUSTERCLUSNAME119991CL3220001CL3319892CL4419902CL4519853CL5619863CL5719912CL4819961CL3919971CL31019873CL51119922CL41219981CL31319951CL31419883CL51519932CL41619941CL3观察聚类结果发现,在数据标准化之前不同聚类方法得到的结果不仅尽相同,而且在标准化前后聚类结果也是不要一样的,但是在数据标准化之后,两种不同的聚类方法聚类结果完全相同。3.习题6.8解:首先从相关系数矩阵出发,通过变换得到距离矩阵。令,从出发,得到变换之后的距离矩阵:(1)最短距离聚类法。在proc cluster过程中取选项“method=single”,用最短距离法得到的聚类结果如下所示:Cluster HistoryNCLClusters JoinedFREQMinDistTie4x2x320.58253x1CL430.62092x4x520.7081CL3CL250.8394谱系聚类结果图:(2)最长距离法。在proc cluster过程中选取”method=conplete”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQMaxDistTie4x2x320.582

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论