




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SAS主成分分析分类:数据之美 2013-07-28 20:18 2343 人阅读 评论(0)收藏 举报 目录(?)-1.主成分分析流程2.SAS主成分分析示例3.SAS主成分分析输出结果详解4.特征值和特征向量隐藏的秘密5.总结6.参考文献同事讲主成分分析,举了这么个例子:就像你选女人,有身材、相貌两 个指标,如果身材、相貌都很突出,那当然很好选择;但如果两个女人, 一个身材突出,一个相貌出众,看着都很喜欢,那可如何是好!这个时 候通过主成分分析,汇总出一个指标,这个指标可以一定程度上代替原 来的身材、相貌,这时就可以排序做出选择了。这例子当然有很多缺陷,但至少指出了主成分分析的目的之一:减
2、少决策变量数,也就是降维。主成分分析的另一个目的是防范多重共线性。实际问题往往涉及很多变量, 但某些变量之间会有一定的相关性, 我们 希望构造较少的几个互不相关的新指标来代替原始变量,去除多重共线性,减少所需分析的变量,同时尽可能减少这一过程的信息损失。主成 分分析正是基于这样的目的而产生的有效方法。主成分分析流程主成分分析包含以下流程:1、原始数据标准化。2、计算标准化变量间的相关系数矩阵。3、计算相关系数矩阵的特征值和特征向量。4、计算主成分变量值。5、统计结果分析,提取所需的主成分。SAS主成分分析示例我们从实战入手,先来个简单的例子,完整体验使用SAS进行主成分分析的过程。准备好图1所
3、示的数据集,该数据集包含 5个变量和22个观测。其中变量num用于标识每条观测。图1可以直接复制下面的程序完成输入:data Practice.PCA_Demo;in put num varl var2 var3 var4;cards;12110.799.79.529.517.9139.618.7321.28.4906.841222.742.524.156.868.222.455.622.673.629.268.326.7819.515.218.817.4924.85.443.72.9108.418.6146.219.711.11219.515.1
4、10.218.51328.34.713.31.81424.712.1116.812.61512.823.69023.71623.16.8100.13.71715.113.7100.914.2182.96.280.72.71918.411.899.313.82022.912.347.613.321225.829.4 83.5 27.618.8 8.661.1 8.9Jrun ;我们的目的是,化简var1-var4四个变量,找出可以替代这四个变量的若干个彼此独立的新变量,也就是找出主成分。主成分分析代码如下:proc princompdata = Practice.PCA_Demoout = Wo
5、rk.PCA_Demo_outprefix = compoutstat = Work.PCA_Demo_statJvar var1 var2 var3 var4;run ;这段代码翻译过来的意思是:对源数据Practice.PCA_Demo 的四个变量var1、var2、var3和var4 (以下简称原始变量)做主成分分析,输 出结果(包含源数据的所有变量及新增的主成分变量)放在Work.PCA_Demo_out数据集,主成分变量名的前缀使用comp。相关变量的统计结果(均值、方差、特征值、特征向量等)输出到Work.PCA_Demo_stat 。程序运行后,输出界面显示如图 2The PRI
6、NCOMP ProcedureObservat i ons22Varimbles4Simple StAt istlesMean StDvarlIB.130808088.04788vair214.6SSB8S3B7.67899557vdr37L2727272740.Q070S677var414.213S383S6.5777293SCorrBlation Matrixvar1var2var3var+廿LOOOO-.?353-.357S-.6931如2-_?359i.oauoo.ie?efl.9752var3-8B780.19261.00000.1739/a r4-.88910.S7G20.1739
7、1.0000Ei$envalues of ihe Correlai ion MatrixE i env a 1 ueD iff enenceProhort ionCumulit i ve12.&S54G7&41.744191S60.87490,674320.951276090.E23691560.23760.9127s0.3275M520.30591277o.oeis0.944640.021671760-00541.0000Eieriecl.or3complcomp 2ccwip3goiw4varl-.580270-.1114940.B3S0210.D8G318var20.2022-.2322
8、860.26242SG.789776var8K326150.9340480.27Q623D.O14334vaM0.570924-.2479170,39370573732输出结果Work.PCA_Demo_out 存放了原始数据集的所有变量以及新变量compl、comp2、comp3 和comp4 ,分别代表第1至第4主成分,它们对原始变量的解释力度依次减少。numirarlvazr2war3vaz4complcomp3co mp4112110.799.79 5-76。更 34o. oe229.517.9190.6IB. 71.301.60旧-,0B3321.20.490e. 9-L 2J 77
9、. M 05441222.742.524 11.3C-1.10. 11-05556.921. 255.222 41.S7-朋-.4-126S8.222 455 &22 &1.5Q-.73-2右C773 e-29.2326 72.75-0.72E0 266&15.515.319. S17 4-.267.40. 1C-179924 8S. 443.7么&-2. 2-.16-.IS0. 11010EVlB.e146.2K.T1 62L58讯-0, 1111126.94.44,91. 1-2.9-10. 171212IS.515. 110.2IS. 5-.25-1.6. 15-.2713134.713
10、.31.?-E.7-.96-.050. H1424,7IE. 11L6.SLOTLW01515U.&23.69D23. T1.&5-.060.52a.16览23.16.3100.13 T-L.&1. 12. ie0. 17171715 113. 7100 914 20. 16,730. 06-.06IS102.95.260 72.T-.ITE.-.0319吗ia. 411.899.313. aa Te 31-a. 2202022 912.347. B13.3-si-55n. 420E1215.89. 463 527. &2 T7-410.13 062E216.3a &61,1d 3-1(J.
11、OB-25-.u一同输出的还有统计结果 Work.PCA_Demo_statType ofObservationNajne ofVari able&rCompoin&ntVUlvarvar3Y苛41EAT16. 19090909114 96363636471.2T272T27314. 21363&3642STD6.041696037. 6799395T4140.00T09&7738.5?77263&473IT222222224CORKvar lL-0 T3525564T-0.357900243-0. 6830847465CORRvar 2-0. 73525564710.19257044990.
12、9752174995&CORkvar 3-0. 3579002430.1B2570449910OR.var 4-0 &830&47460. 97521749050.173898291818EIGEWAL2.699467676. 9S1276OTO30.32T5a452430. 021&T1T59gSCOREcompl-0 5302703290. 5E2O2212fi00 2326145510. 57092339141CJSCtJMcomp2-0. 111493681-0 2322662520 5340463283-0. 24791743S11scowcontpS0 S
13、5M211S3e0. 20242沁50 27062356560j39fl7O4M3412:scoocomp40.0&319530.7337761230 0143-93K23-0.673731660现在,我先假设你是个急性子,你可能会对我说:“不必告诉我这些输 出结果的含义,我给了你四个变量,你只要返回给我较少的可用的字段 就可以了。”那么我会回答你,新的变量 compl和comp2就可以替 代原来的四个变量varl、var2、var3和var4,因为这两个变量合起来 解释了原来四个变量91.27%的信息,能够满足要求。何以见得?请看图2的第4部分输出Eigenvalues of the Cor
14、relationMatrix,第四列Cumulative 显示,第一个特征值分量占比 0.6749(67.49% ),第1、2个特征值合起来占比 91.27%85%,因此新变量comp1和comp2已经足以替代原有四个变量,它们是源数据集的 主成分。没错,在SAS上进行主成分分析,就是这么简单,结果的使用也不复 杂,大多数情况下到此也就足够了。不过出于对科学本质的好奇,我们 还是要详细研究下每项输出结果的含义,以便更好地理解主成分分析。SAS主成分分析输出结果详解作为细节强迫症重度患者,图2图4只要有个点没搞清楚都觉得寝食难安。我们先来看图2。第1部分很简单,指出观测数为 22,变量数为4,也
15、就是我们在var 语句中指定4个原始变量。Mean第2部分Simple Statistics 是对原始变量的简单描述性统计,是均值,StD是标准偏差(注意标准偏差与标准差的区别)。Mean的计算公式我们都很熟悉,就是(1)标准偏差StD的计算公式是:(2)第3部分Correlation Matrix是原始变量的相关系数矩阵,其中的元 素代表4个原始变量两两之间的相关系数。相关系数的计算公式是:r _刀二 (购一总世一罚则仏一莎尸伽一耳尸(3)从原始变量的相关系数矩阵可以看出,变量var1和var2、var1和var4呈现出较为显著的负相关,变量var2和var4则是强烈的正相关,其相关系数高达
16、0.9752。第 4 部分 Eigenvalues of the Correlation Matrix输出了相关系数矩阵的特征值。Eigenvalue 列从大到小依次展示了 4个特征值,特征 值越大,表示对应的主成分变量包含的信息越多,对原始变量的解释力 度越强。Differe nee 是相邻两个特征值的差,比如1.74819156 = 2.69946764 -0.95127608Proportion 表示主成分的贡献率,也就是,比如第 1个特征值的贡献率 0.6749 = 2.69946764 /(2.69946764+0.95127608+0.32758452+0.02167176)。Cu
17、mulative 则是累计贡献率,到第 2个特征值累计贡献率0.9127 =0.6749 + 0.2378。我们在判断应提取多少个主成分时,根据的就是累计贡献率。0.9127的累计贡献率说明特征值1和特征值2对应的主成分变量comp1和 comp2合起来能够反映原始变量 91.27%的信息,能够满足应用需求。这时我们可以作出决策:提取两个主成分comp1和comp2代替4个原始变量。而如果我们希望主成分变量对原始变量的解释力度应达到95%以上,那么就需要加入comp3,共提取3个主成分,其累计贡献 率达到99.46%。而提取全部4个主成分变量,则没有达到降维的目的, 意义已经不大。至于这个累计
18、贡献率要达到多少才算满足需求,需要视 具体业务需求而定,我们的参考值是85%。第5部分Eigenvectors是特征值对应的特征向量。图 5 一秒钟告诉你 特征值和特征向量如何对应。图中的第 1个特征值入=2.699467638 对应第一个特征向量 V=(-0.530270329, 0.582022127, 0.232614551,0.570923894)。同理可知第2个特征值和第2个特征向量的对应。Correlat ion MsitfizxTar!vir?r37Sir4varl var2var41.OOOC-.7353-.3579-,0831-.73531.C0090.38260.9762-
19、.95790J8281.00000 J79S-.68310*375?0.1739LOOOC2 、 EieenYiIue112.6934&?64|II.95127B0BU.9274520.02IS7176Di fference1.746191500.G23691560.30591277Preport i on0.67490.2370U.0S130.0054CuKMjIat I YP0,B7490.31270.99461.0000cam plVari(- .539270var?0.5621)22var3O.28?615Y9ir40.5724CO ftp?comp8comp 40.0860210.0
20、AB919-,232?SS0f!B4230.7397760,334048(1.2706230.01494-.2473170爲胛7M-.673752E igenyectorsEigenvalues of the Cto rreI ali on Matrix特征值和特征向量的计算,依据 KW =入卩的公式。这里A是相关系数矩阵(见图5)可以自行验证下面的等式是成立的。1-0.73;255647-0.35)7900243说 3084746-0-7352556471.(11825704 &0.975217498-0357900243 -0.683084746 A0.182570450.97521749
21、910J73888292()173888292I丿-0.5302703!fl.582022120.23261455O.S70923892.fi994fi7638-0.530270329 0.5S 20221270.2326145510.570923894 /若要自行计算特征值和特征向量,可以在proc iml过程步中调用eigen上面计算相关系数矩阵的特征值和特征向量代码如下:proc iml ;A= 1 - 0.735255647- 0.357900243- 0.683084746-0.7352556471 0.182570450.975217499,-0.3579002430.182570
22、451 0.173888292,-0.6830847460.9752174990.1738882921;call eigen(eigenvalues, eigenvectors. A);print A eigenvalues eigenvectors;quit ;现在,我们要解读图3,根据前面的分析,在图3的数据集Work.PCA_Demo_out 中,我们只要保留 num、comp1 禾口 comp2三个字段,所形成的新数据集就可以替代源数据集,供未来的分析所使用。接下来,我们要来回答:主成分变量comp1、comp2、comp3和comp4的值是怎么来的?我们知道,主成分变量是原始变量的线
23、性表示,用公式表示如下:UXM(4)其中,X表示原始变量对应数据组成的矩阵(以下称为原始数据矩阵),U是特征向量以列向量形式依次排列组成的矩阵(以下称为特征向量矩阵)。在我们的示例中,211(L7呱了9.5 9.517.9139 j618721J8A906.8L222.742.524 JG8212522248.222 42263.029.268.326.719,515,218.81742485.443.72.9&4l&(i146.219.728.94.449LI19.515. i10.218.528,34.7133L824-Z12.1116.812.612.823. G9023723 16.S
24、100-13.715113.7UKL914卫2.9G22.7ISA11.8313.899 g丄2347G13.35.829.43.5276L8J61/18.9 JX =(-0.5902703290.58202212680.232614551 0詣打旳238944-3,111493901 -0.2322862&20.9340483283-3.247317436(L83G02118380.2624232125(L270G23365G(L39 870494340.08631949G3 0733776123|0.0L4393fl223 I-0.G73731668 丿那么公式(4 )的计算结果是:/ 2
25、3.7185.9531.134.7 X4831100.42S0.464.241.417L295P73.7517.1188.4349.0G5.9381J485J749.193.2422.3872.9520.974.1428.09845550.852.3813.6835.7G40.562.7349.2263.6946,174.68 14.3350J838 J62.82 丿什么?跟实际输出结果不符?挺好的,掉一次坑你就印象深刻了。事实上主成分数据矩阵不是原始数据矩阵和特征向量矩阵直接相乘的结果, 而是原始数据标准化后的数据矩阵和特征向量矩阵相乘的结果。这就回到我们在主成分分析流程就已经提到的至关重要
26、的第一步:原始数据标准化!数据标准化使得变量的平均值为0,标准偏差为1,消除了不同量纲对分析过程的影响。图3的输出结果是有缺失的,我们看不到原始变量的标准化变量。我们可以使用proc standard 过程步来查看数据标准化的结果,代码如下: proc standarddata = Practice.PCA_Demo out = Work.PCA_Demo_std mea n = 0std = 1 ;var varl var2 var3 var4;run打开输出数据集Work.PCA_Demo_std ,就能看到转化结果:MunrsrlViir2vst41L0.5975-0.503080. 7
27、10560.5522-0 3310 4344261.71/1380.523330 G224-0.602S6. 4631-0. 86444-0.5211 D59431-0. 71SZ1. 152655-1.1670.664117-o. mr0.05446&-o.m1. 020X9-. 3BLT. 9777T7-1 5641.BD5TBZ- 07431. 455T63tJ.41120 062301-1.31L60.3715991 C59T-i崗?-0.6692-1.3191010-0 9&30. 535ST21.67295 &39611111.5792-1.3234-i.e59-1 5291212
28、0.4112a.oem-1.52650.409713131.5CK5-i 26434-I 1491-I 44714141.05737 32碣1. 13798-0. ISB1515-0.4J11 lTBftl它0 48811. 105915IS0.3565-L01090.72055-1.226IT17-0J36-U 11&0.7-1055-0.QOEia10-1 651T. 009020. 23554-1.34219190.27454).359050. 70056-0. MB20200.S33B-0 25475-D. StilT-C.10T2121-I 211.9313330 30553i se
29、oe22220 322-OTT8S2-0. 2543-0.619现在,我们来修正下公式(4)( 5) 其中,X碱是X的数据标准化后的矩阵/ 0.5S8-(L831-0-503 fl .4340.7111J8-a.55 0.5230.622-0.8C30.468-0.864-0.52LL05D-0-7191.153-1.167fl .864-0 4020.054-IL993LO2-0,392).9781射41.900-0.0741.45604110.083-1.312)3711.07-L193-068-1.31D-0.9681.873(Jj64V1,579-1.323-1.059-L5290.4
30、110.07-1.5270.51.505-L284-L44-1.4471.057-0.3211138-0-L88-0.4211.1770468l.LOG0.858-LO110.721-1.226-1)136-0.112C.741-0.002-1.1551-1.089(1.230-L3420.274-03G0.701山(1480.834-fl-205-0-592-0.107-1 2911 9321.5611 0.324-0777_(U54(UL9 J现在再计算一遍Y,看看是不是如下结果呢?-fl.7580.850 341a 0631.458()09-0.081-L1820.7680-0920.0
31、541.383-L1450.108-U.D54L573-O.S2-0.477-0.115L5S7-fl. 734-0.279-O.tlOl2753-(teas0.2480.282-0,2G3-1820.159-0.173-2J75-o.ie-0.131“UM1.621.577DJD9-0J02k04-0.0800.171-0,247-1.6120.148-0.272-2709-).865-0.0480A42-0.5SLOGS1433-0.0011.C49-0.0630.5240.089-1.576LU50.159ii.ibS0.733U.()57-0.082-0.470x989-2.138-0
32、.03 1-0.220J190.305-0-198-fl-812-0.5510.417-0.081-0.4050.12(L259-L(1370.06-0.128y =矩阵的乘法公式告诉我们,本质上,某一个样本(比如样本 1 : (1, 21,10.7, 99.7,9.5)的第一主成分变量的值(-0.75812 ),就是原始变量 标准化后组成的行向量 (0.598, -0.503, 0.711, -0.55)与第一特征向量(列向量)(-0.530270329; 0.582022127; 0.232614551;0.570923894 )的乘积。第二主成分变量值,是原始变量组成的行向量proc c
33、orr 过程步与第二特征向量(列向量)的乘积。依次类推。我们来验证一下主成分变量之间是否线性无关。使用可以计算变量之间的相关系数,代码如下:proc corrdata = Work.PCA_Demo_outout = Work.PCA_Demo_Comp_Corrvar comp1-comp4;with comp1-comp4;run ;输出结果为:CORR迢程4 With娈至;coinplcdhr2chip3cowp44SE:coinplcoifcp2cmip3comr4圖单銃计里P1P2MP4c G c CN均值标淮偏差总和最小值最大值1101.648010-2.366332.771102
34、200.J7533Q-LS1152L5770Q22Q0.572350-M3786L03E712290J47210-0.271500.23160Pear sen相矣芙藪,N - 22当 HO: Rho=0 日不 ProbIrlcomp4complcomp2COUPScompl1.00900O-ODOCO0.000000.00000i.oonoLOOOOI.OOCOcomp2O.DOdOOLDOODOc.oooooO.OPOCOkoaooLOOOO1.0000co mp3o.qouooO.OQOOO1.00000Q.OOOCO仁(W1.0000i.ooeoconip4a.ooaooo.oaooog
35、.QDOOO1.ooocokoaoo1.00001.0000可以看出,主成分变量之间的相关系数都为零最后我们来说说图4的统计结果 Work.PCA_Demo_stat ,它其实就是把图2的输出结果存入数据集中。从表中Type of Observation 字段可以看出,MEAN表示均值,STD 是标准偏差,N是观测数,CORR是相关系数,EIGENVAL是特征值, SCORE是以行向量形式表示的特征向量。特征值和特征向量隐藏的秘密主成分变量对应的特征向量的每个元素,与对应的特征值的平方根的乘积,等于该主成分变量,与该元素列标签对应的原始变量之间的相关系 数。这是特征值与特征向量隐藏的秘密, 可
36、以用矩阵代数严格推导出来。不过这句话读起来比较费劲,我们用图8来表示这一关系。图中的eigVec1至eigVec4 是4个特征向量,对应的特征值分别为 eigVal1 至eigVal4。我们在每个列中进行操作,用特征向量每个元素分别乘以 对应特征值的平方根,得到该主成分变量与所有原始变量的相关系数。特til向量eigVecleigVec2eigVecSeigV&c4-0.5303-0.11150.83600.086315820-0.23230-2624073380.23250.93400.27060.01440.5709-0.247303987-0.6737聞值eigValleigVal2eigVaBeigVaM2,5995I0.95131032760.0217特彳正值平方根*qrt(igVa11)V iqrt(mgVa2)sqrt(eigVal3)&qrt(eigVal4)1.54300.97530.57240.1472相关系数complcomp2comp3corrip4-0.8712-0.10870.47850.0127var20,9563、-0.22660.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玉米爆炸现象的科学探秘
- 编程入门培训课程
- 数学培训汇报
- 课件模板喜庆
- 静物写生绘画课件
- 有趣的文字课件
- 防欺凌动画课件
- 课件最后致辞
- 广东护士大专自考试题及答案
- 押题宝典教师招聘之《幼儿教师招聘》模考模拟试题含答案详解【典型题】
- 共产党员因私出国(境)保留(停止)党籍审批表(科级以下工作人员版)
- 2025年综合类-热力司炉工考试-高级热力司炉工历年真题摘选带答案(5卷100道合辑-单选题)
- 电力系统介绍课件
- 2025年智能楼宇管理师(中级)考试试卷:绿色建筑与能源管理
- ERP上线奖惩管理办法
- 新兵入营安排活动方案
- 腰椎骨折术后护理
- 2025届湖南中考化学真题试卷【含答案】
- 并购绩效论文
- 2025年湖北省中考生物、地理合卷试卷真题(含答案)
- 幼儿发展评价手册使用培训
评论
0/150
提交评论