聚类分析与主成分分析SAS的程序_第1页
聚类分析与主成分分析SAS的程序_第2页
聚类分析与主成分分析SAS的程序_第3页
聚类分析与主成分分析SAS的程序_第4页
聚类分析与主成分分析SAS的程序_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验三我国各地区城镇居民消费性支出的主成分分析和聚类分析(王学民编写)一、实验目的掌握如何使用SAS软件来进行主成分分析和聚类分析;看懂和理解SAS输出的结果,并学会以此来作出分析;掌握对实际数据如何来进行主成分分析;对同一组数据使用五种系统聚类方法及k均值法,学会对各种聚类效果的比较,获取 重要经验;掌握使用主成分进行聚类二、实验内容数据集sasuser.examp633中含有1999年全国31个省、直辖市和自治区的城镇居民家 庭平均每人全年消费性支出的八个主要变量数据。对这些数据进行主成分分析,可将这31 个地区的前两个主成分得分标示于平面坐标系内,对各地区作直观的比较分析。对同样的数 据

2、使用五种系统聚类方法及k均值法聚类,并对聚类效果作比较。最后,对主成分的图形聚 类和正规聚类的效果进行比较。实验1进行主成分分析,根据前两个主成分得分所作的散点图对31个地区进行比较分析。实验2分别使用最长距离法、中间距离法、两种类平均法、离差平方和法和k均值法进行聚类 分析,并比较其聚类效果。实验3主成分聚类,并与上述正规的聚类方法进行比较三、实验要求用SAS软件的交互式数据分析菜单系统完成主成分分析;完成五种系统聚类方法及k均值法,比较其聚类效果;根据前两个主成分得分的散点图作直观的聚类,并与上述正规的聚类方法进行比较。四、实验指导进行主成分分析在inshigt中打开数据集sasuser.

3、examp633,见图1。选菜单过程如下:在图1中选分析n多元(Y X) n在变量框中选x1,x2,x3,x4,x5,x6,x7,x8 (见 图2) nYn选输出n选主分量分析,主分量选项(见图3)n在图4中作图中的选择(主 成分个数缺省时为“自动”选项,此时只输出特征值大于1的主成分)n确定n确定n确 定萱 SAS - SASUSER. EXA1F633分析窗口地)帮助分布m d)拟合迁X) i:F:i盒形图/马赛克图(t)雄溷 Cf X) i:L:i散点图(Y X)等高线图(z Y X:I (C:I旋转图(z Y X)SAS责源管理器SAS环境的内容J谡辑库直方图/条形图(Y)物 文件(E

4、)编辑旧)元 多分析窗口地)帮助分布m d)拟合迁X) i:F:i盒形图/马赛克图(t)雄溷 Cf X) i:L:i散点图(Y X)等高线图(z Y X:I (C:I旋转图(z Y X)SAS责源管理器SAS环境的内容J谡辑库直方图/条形图(Y)物 文件(E)编辑旧)元 多收藏夹19 77 63 33 9784 86 H I 58 0.16暑直|若能鑫s |去宓 |犬喜I 12 旬_1更 I 14 I 15 I 16 I 17 I 18 I 19 I 20 I 21 I 我 I 23 I 24 I 25 I 26 I 27 可顶_ I 29 I 30 I 31一西茱南我2709.46l56:l

5、.78 i675.751427.65 i783.43 i942.23 3055.T7 2033.87 2057.86 2303.29 i974.28 i673.82 2i94.25 2646.61 i472.95 1525.57 1654.69 1375.46 i608.82区间型区间型 区间型_l巨间型JK间型x2(3x4x5xG衣着家庭设备用品及服务|医疗保健空通和通迅娱乐教育文化服务730.79749.41513.34;467.87 i1141.82495.47697.33 i 302.87 i234.19735.97,515.90362.37 i 285.32 i272.95 i540

6、.58477.77290.15 s 208.57 i201.50414.72 1! 524.29254.83192.17249.81463.09 !553.90246.91279.81239.18445.20 1492.42 :200.49218.36220.69459.62 :510.71211.88277.11224.65376.82 !550.74449.,371557.32 =4:i0.291428JT1893.3734t:.93572.40211.92689.73 ; 435.69271.28126.33 i334.12 : 160.77527.00,302;091514;66125

7、0.561405:i41034.98 !585.23 !795.87513.18461.67303.65233.81107.90209.70 i393.99613.32550.71219.79 i272.59599.43i! 431.79288.55208.14i217.00 i337.76 !511.88282.84! 201.01237.60617.74! 512.27401.39; 206.06321.29697.22353.23564.56356.27811.88873.06 1! 300.82338.65; 157.78329.06621.74186.44?202.72171.793

8、29.65477.17589.99 :516.21238.55!403.92730.05 :507.76344.79203.21240.24575.10 !437.75461.61153.32254.66445.5537.01 !369.07249.54290.84561.91839.70204.44: 209.11379.30371.04=390.89447.95 ; 259.51230.61 i490.90472.98328.90 i 219.86206.65443.69! 437.77258.78303.00244.93479.53 !480.89273.84; 317.32251.08

9、424.75i536.05432.46 i 235.82250.28 i541.30 !居住杂项商品和服答I区间型I区间型I I478.42 ! 570;841 364.91 1 28T7841 207.071 330?241 3G0;481 :17.6il 720;331457.64“”31:15.0:|1”188.631.212;101192.961iiBS.EiBl” 147.76 = 152.|:51” 时质”429.77 !252.54575.76 !323.36?314.00 !151.39535.1232.29 !509.39 !160.12 !371.62,211.84421.

10、31 !165.32 !523.52,182.52 1492.GO226.45 :1082.82 1420.81587.02 !210.27312.93 !279.19 !438.41225.80 :430.36 !223.46,346.11 !191.48407.70 i330.95,2t:9.59 !389.33 !469.10 !191.34249.66i228.19,288.56 !236.51 !228.73i195.93,344.85214.40 !取消方法输出res: i on:d::2::3::4::5::6::7::8::5::6Ax7x8薮多元仃X)描述性统计星:口散点圈矩

11、阵 80预测置信椭圆区主苗量傍析主始星选项|典型相关分析 典型相关选项|口最大冗余始析最大冗余选项|典型判别始析典型判别选项确定取消主分童选项分星表:区薮多元仃X)描述性统计星:口散点圈矩阵 80预测置信椭圆区主苗量傍析主始星选项|典型相关分析 典型相关选项|口最大冗余始析最大冗余选项|典型判别始析典型判别选项确定取消主分童选项分星表:区I特征值分星图:区I标准回归系数(模式)口原始回归系数区前2个分星的3个分星00000口标准得分系数口原始禅分系数散点圈散点圈OBiplott 标准 Y)OBiplott 原始 Y)部 0 12 部 0 12 3- oooo图4得到如图5、图6所示的结果:瞄.

12、特征值(相关系数矩阵)分星特征值差分比例累积5.0977003.7454350.63720.637221.3522650.7775410.16900.806230.5747240.1684320.07180.878140.4062910.1250230.05080.928950.2812680.1589910.03520.964060.1222770.0295990.01530.979370.0926780.0198800.01160.990980.0727970.00911.0000图5特征间量(相关系数矩阵)分室.变星.123xl0.401043-0.0771970.415062x20.1

13、320330.7491930.331790 x30.3751230.065073-0.441708x40.3199920.344687-0.477726::50.387805-0.2317570.279132x60.4058290.027154-0.309825x?0.326293-0.496029-0.033935x80.3963110.0959860.345331图6从图5可以看出,前两个和前三个主成分的累计贡献率分别达到80.6%和87.8%,第一 主成分亍在所有变量(除在X上的载荷稍偏小外)上都有近似相等的正载荷,反映了综合消费1-性支出的水平,因此第一主成分可称为综合消费性支出成分。

14、第二主成分J 2在变量X;上有很高的正载荷,在变量X*上有中等的正载荷,而在其余变量上有负载荷或很小的正载荷。4可以认为这个主成分度量了受地区气候影响的消费性支出(主要是衣着X;,其次是医疗保健X)在所有消费性支出中占的比重(也可理解为一种消费倾向),第二主成分可称为消费倾向 4成分。第三主成分很难给出明显的解释,因此我们只取前面两个主成分。在图1中选分析n散点图(YX) n选PCR1 tX ; PCR2TY ; regionT标签变量(见图7) n确定随即出现如图8所示的散点图,接下来我们对该图进行设置、调整,使之符合我们的要求。图7可从表1计算出医疗保健在消费性总支出中占的比率xJ2 x.

15、,然后进行由大到小的排序,各地区的顺 i =1序依次为:宁夏、黑龙江、青海、河北、辽宁、北京、浙江、陕西、甘肃、山西、吉林、河南、新疆、内 蒙古、天津、云南、山东、广东、湖北、四川、重庆、湖南、海南、江苏、上海、西藏、贵州、广西、安 徽、江西和福建,大致由寒冷的北方地区排到温暖的南方地区。这是由于气候的寒冷易导致医疗保健费用 的增加,因此,可以认为除衣着X;外医疗保健X4也是受地区气候影响的变量。在图9的数据窗口中点击左上角的“31”,以使所有观测都选中n将鼠标移至观测号 中,点击右键,选在图中加标签n在图8中点击左下角,出现上托菜单n刻度n作图 10中的选择n确定n作图11中的选择n确定n调

16、整好散点图:拉大图外围方框;图8中点击标记大小,选择6号字;下拉横坐标,左拉纵坐标;图8中点击参考线。天津 河IE 由西 内蒙舌 时黑龙江江苏2959.19 2459?77 i495;63 i406:33 i303.97 i730:84 i56i8637i2:3i 2207.58 2629?16 iXU 7f!730.79 .煎技承. 515:90 477:77 天津 河IE 由西 内蒙舌 时黑龙江江苏2959.19 2459?77 i495;63 i406:33 i303.97 i730:84 i56i8637i2:3i 2207.58 2629?16 iXU 7f!730.79 .煎技承.

17、 515:90 477:77 .曲矿洲. 553:90 .煎江塑. .打.打. 550:74 449?37 插七噩749.41 697?33 3G2/37 290?i5 通a:的 246?91 200?49 2ii;88 893?37 572/40 689?73513.34 302:37 2丽.:.驶. 208:57 .成 .溟瓦.由. 2i8:36 277:li.施.崩. 2i:32 435:69467.87 .能.矿.侑 272:95 201;50 249/81 盖2花 220/69 224:65 527:00 虢:亟 514:661141.82 .用打.待 540;58 4i4?72 4

18、63.09 445:20 0崩:就 376:82 1034:98 .就宫 种打件478.42 570?84 364:9i 28i;84 .演.:.的. 330/24 360?43 317;61 720:33 硒:77 .拧技视.457.64 305:08 i88?G3 2i2?iO .佰.匚能. T演.:能. i47?76 152/85 462:03 252?54 323?365.4264 2:0064 -0:769G -i?8437 -1/8267 -1?3136 -i?8598 -i;9276 5?8666 0/4072 3?58392.46ge 0:0449 .住.捅.施 0740440

19、:招崩 0:8448.住.曲.的. -0:1956 -0?3120 蚤抽甬a)IHII潮南 顽FK mTW28.11334.12160.77405.14461.67535.13232.290.2012-1.3375 :03.65233.81107.90209.70393.99509.39160.12-2.2344-1.8672 !13.32550.71219.79272.59599.43371.62211.84-0.14750.9838 !131.79288.55208.14217.00337.76421.31165.32-1.9473-0.3881 :)11.83:1 : 0 7282.84

20、 1H 1 0 0201.0101D 1D237.60 a 01 oj617.7400 7 :523.52DPI182.52:od .ir-0.7170 0 1 Q H-0.2472 !_ ri 0 n : d :3055.17353.23564.5g356.27811.88873.oe1082.82420.815.5835-3.0720 !2033.87300.82338.65157.78329.06621.74587.02218.27-0.2515-2.0585 !IH42.2H2057.86186.44202.72171.79329.65477.17312.93279.19-1.1575

21、-1.91312H.onH酿 陕西 甘萧礴2303.29 i974.282i94?25 2646;61 2H.onH酿 陕西 甘萧礴2303.29 i974.282i94?25 2646;61 i472:95 f525.57 底矿曲 i375?46 Tg诵.:.技589.99 507/76 437:75 537;01 麟.彻. 390:89 .折W崩. 437:77 480:89 536:05516.21 344:79369;07 204/44 447?95 328/90 258?78 273?84432?46236.55i53:32 249754 硕.j.j. .通瓦.引. 219/36 3

22、03:00 317:32 2丽.:.餐.403.92 240/24 .通.矿能. 290784 379:30 230?61 206/65 西矿.聪 .通.匚.确. 能工.就.730.05 575.i0 磷:崩. .所.:.j.371;04 丽.:.丽.449.B9 耳酉.:抽. 424?75 541;30438.41 430/36 346Ji 407:70 .就耍崩. 469J0 249/6B .网娈就. 228?73 344;85225.80 223?46 191?48 330/95 389?33 191?34 228J9 23e?5i .伯技.腮. 214?401.1156 -0/5337

23、 -1?2981 0?4357 0/4373 -0/8595 -1/5494 -i;0452 -i?50l7 -0:G9750.4100 0:0418 -0:3420 074791 2:3G50 -0:50ii 0:技技 莒注j 0:9069 0:6471列名型区间型J_l区间型J1反间型11区间型11反间型11反旧型1 |区间型I |反间型I 1区间型1regi onxlx3x4x5xGx7x8PCR1区间型IPCR2图10图11随即得到图12,该图是关于第一和第二主成分得分的散点图,该图对各地区的综合消 费性支出和受地区气候影响的消费性支出占的比重有较直观的描述。从图中可以看出,上海、 广

24、东和北京在最右边,城镇居民综合消费性支出是最高的;其次是浙江和天津;江西在散点 图的最左边,表明综合消费性支出是最低的;北京和西藏在散点图的最上边,说明受地区气 候影响的消费性支出占的比重最高;广东在最底部,表明受地区气候影响的消费性支出占的 比重最低。用五种系统聚类法及k均值法聚类,并比较其效果(1)分别使用最长距离法、中间距离法、两种类平均法和离差平方和法进行聚类分析, 为此编制如下的SAS程序: proc cluster data=sasuser.examp633 method=com std;id region;proc tree horizontal;id region;proc c

25、luster data=sasuser.examp633 method=med std;id region;proc tree horizontal;id region;proc cluster data=sasuser.examp633 method=ave std;id region;proc tree horizontal;id region;proc cluster data=sasuser.examp633 method=ave nosquare std;id region;proc tree horizontal;id region;proc cluster data=sasuse

26、r.examp633 method=war std;id region;proc tree horizontal;id region;run;程序说明:“proc cluster”是一个聚类分析过程;“ data=sasuser,examp633”规定过程分析 的是sasuser逻辑库中的examp633数据集;“method=com”规定了采用的系统聚类方法 是最长距离法(“method=med”是采用中间距离法;“method=ave”是采用类平均法, 缺省时类之间的距离为均方距离,如使用选项“nosquare”,则类之间的距离为平均距离;“method= war ”是采用离差平方和法);选项“ std”规定了在聚类之前须先对各变量 数据作标准化变换,缺省时是直接对原始数据进行聚类,而不作事先的标准化处理。语句“id region”用于识别打印输出中的观测,并以变量region的取值显示;如果缺省,则用OBn 显示,其中n为观测序号。“proc tree”是一个使用由cluster过程产生的数据集来画树形图的过程;选项 “horizontal”要求树形图的取向为水平方向,且树根在左边。如果没有指明此选项,贝9 其高度轴为垂直方向,树根在上部。聚类树形图的输出:0.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论