第五讲的多元统计分析_第1页
第五讲的多元统计分析_第2页
第五讲的多元统计分析_第3页
第五讲的多元统计分析_第4页
第五讲的多元统计分析_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五讲的多元统计分析第一页,共三十七页,编辑于2023年,星期一SAS多元统计分析概论多元统计分析是统计学的重要应用工具,SAS实现了许多常用的多元统计分析方法。SAS用于多变量分析的过程有PRINCOMP(主分量分析)、FACTOR(因子分析)、CANCORR(典型相关分析)、MDS(多维标度过程)、MULTTEST(多重检验)、PRINQUAL(定性数据的主分量分析)、CORRESP(对应分析),用于判别分析的过程有DISCRIM(判别分析)、CANDISC(典型判别)、STEPDISC(逐步判别),用于聚类分析的过程有CLUSTER(谱系聚类)、FASTCLUS(K均值快速聚类)、MODECLUS(非参数聚类)、VARCLUS(变量聚类)、TREE(画谱系聚类的结果谱系图并给出分类结果)。我们主要介绍一些最常见的多元统计方法。第二页,共三十七页,编辑于2023年,星期一SAS多元统计分析概论现实中的统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。多个指标(变量)可以分别进行分析,但是,我们往往希望综合使用这些指标,这时,有主分量分析、因子分析等方法可以把数据的维数降低,同时又尽量不损失数据中的信息。第三页,共三十七页,编辑于2023年,星期一SAS多元统计分析概论I.主分量分析一、理论介绍主分量分析的目的是从原始的多个变量取若干线性组合,能尽可能多地保留原始变量中的信息。从原始变量到新变量是一个正交变换(坐标变换)。设有是一个

维随机变量,有二阶矩,记,。考虑它的线性变换第四页,共三十七页,编辑于2023年,星期一第五页,共三十七页,编辑于2023年,星期一第六页,共三十七页,编辑于2023年,星期一第七页,共三十七页,编辑于2023年,星期一第八页,共三十七页,编辑于2023年,星期一SAS的PRINTCOMP过程有如下功能:完成主分量分析。主分量的个数可以由用户自己确定,主分量的名字可以用户自己规定,主分量得分是否标准化可自己规定。输入数据集可以是原始数据集、相关阵、协方差阵或叉积阵。输入为原始数据时,用户还可以规定从协方差阵出发还是从相关阵出发进行分析。由协方差阵出发时方差大的变量在分析中起到更大的作用。计算结果有:简单统计量,相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主分量解释的方差比例,累计比例等。可生成两个输出数据集:一个包含原始数据及主分量得分,另一个包含有关统计量,类型为TYPE=CORR或COV。可揭示变量间的共线关系。若某特征值特别接近0说明变量线性相关,这时用这些变量作回归自变量可能得到错误的结果。第九页,共三十七页,编辑于2023年,星期一PRINCOMP主要使用PROCPRINCOMP语句与VAR语句。PROCPRINCOMP语句用来规定输入输出和一些运行选项,包括:DATA=输入数据集,可以是原始数据集,也可以是TYPE=CORR,COV的数据集OUT=输出包含原始数据和主分量得分的数据集OUTSTAT=统计量输出数据集COV要求从协方差阵出发计算主分量。缺省为从相关阵出发计算。N=要计算的主分量个数。缺省时全算。NOINT要求在模型中不使用截距项。这时统计量输出数据集类型为TYPE=UCORR或UCOV。STD要求在OUT=的数据集中把主分量得分标准化为单位方差。不规定时方差为相应特征值。用VAR语句指定原始变量。必须为数值型(区间变量)。第十页,共三十七页,编辑于2023年,星期一三、应用举例例1.一月和七月平均气温的主分量分析在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。程序如下:SAS多元统计分析概论第十一页,共三十七页,编辑于2023年,星期一/*EXAMPLE1*/DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1INDIANAPOLIS27.975.0DESMOINES19.475.1WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC

PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;第十二页,共三十七页,编辑于2023年,星期一组成分得分输出到了数据集PRIN中,在INSIGHT中打开WORK.PRIN,分别绘制JULY对JANUARY、PRIN2对PRIN1的散点图。从图可以看出主分量为原始变量的一个正交旋转。图1一月、七月气温的散点图和主分量散点图

一月、七月气温的散点图和主分量散点图

第十三页,共三十七页,编辑于2023年,星期一TheSASSystem02:18Wednesday,October26,20051ThePRINCOMPProcedureObservations64Variables2SimpleStatisticsJULYJANUARYMean75.6078125032.09531250StD5.1276191011.71243309CovarianceMatrixJULYJANUARYJULY26.292477746.8282912JANUARY46.8282912137.1810888TotalVariance163.47356647EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative1154.310607145.1476470.94390.943929.1629600.05611.0000EigenvectorsPrin1Prin2JULY0.3435320.939141JANUARY0.939141-.343532显示结果如下:第十四页,共三十七页,编辑于2023年,星期一输出中,第一部分为简单统计量(均值和标准差),第二部分为协方差的特征值(注意我们在过程中用了COV选项,无此选项用相关阵),从这里可以看到贡献率(Proportion)和累计贡献率(Cumulative),第三部分为特征向量。按本结果的特征向量值及用COV选项规定使用协方差阵,我们可以知道两个主分量如此计算:PRIN1=0.326866(JULY-75.92)+0.945071(JANUARY-32.55)PRIN2=0.945071(JULY-75.92)+(-0.326866)(JANUARY-32.55)如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量系数一正一负,反应了冬季和夏季的气温差别。第十五页,共三十七页,编辑于2023年,星期一例2.美国各种类型犯罪的主分量分析在数据集CRIME中有美国各个州的各种类型犯罪的犯罪率数据。希望对这些犯罪率数据进行主分量分析以概括犯罪情况。程序如下:SAS多元统计分析概论第十六页,共三十七页,编辑于2023年,星期一/*EXAMPLE2*/DATACRIME;TITLE'各州每十万人的犯罪率';

INPUTSTATE$1-15MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;CARDS;ALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHCAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4SOUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WESTVIRGINIA6.013.242.290.9597.41341.7163.3WISCONSIN2.812.952.263.7846.92614.2220.7WYOMING5.421.939.7173.9811.62772.2282.0;PROC

PRINCOMPOUT=CRIMCOMP;RUN;PROC

SORT;BYPRIN1;PROC

PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第一主分量作为总犯罪率排列';PROC

SORT;BYPRIN2;PROC

PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第二主分量作为金钱犯罪与暴力犯罪对比的排列';PROC

GPLOT;PLOTPRIN2*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTTWOPRINCIPALCOMPONENTS';PROC

GPLOT;PLOTPRIN3*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTANDTHIRDPRINCIPALCOMPONENTS';RUN;第十七页,共三十七页,编辑于2023年,星期一EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN14.114962.876240.5878510.58785PRIN21.238720.512910.1769600.76481PRIN30.725820.409380.1036880.86850PRIN40.316430.058460.0452050.91370PRIN50.257970.035930.0368530.95056PRIN60.222040.097980.0317200.98228PRIN70.12406.0.0177221.00000

EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER0.300279-.6291740.178245-.2321140.5381230.2591170.267593RAPE0.431759-.169435-.2441980.0622160.188471-.773271-.296485ROBBERY0.3968750.0422470.495861-.557989-.519977-.114385-.003903ASSAULT0.396652-.343528-.0695100.629804-.5066510.1723630.191745BURGLARY0.4401570.203341-.209895-.0575550.1010330.535987-.648117LARCENY0.3573600.402319-.539231-.2348900.0300990.0394060.601690AUTO0.2951770.5024210.5683840.4192380.369753-.0572980.147046

第十八页,共三十七页,编辑于2023年,星期一第一主分量贡献率只有59%,前两个主分量累计贡献率达到76%,可以用前两个主分量。前三个主分量累计贡献率已达到87%,所以前三个主分量可以表现犯罪率的大部分信息。第一主分量的计算系数都是正数,所以它是一个州的犯罪率的一个加权平均,代表这个州的总的犯罪情况。第二主分量在入室盗窃(BURGLARY)、盗窃罪(LARCENY)、汽车犯罪(AUTO)上有较大的正系数,在谋杀(MURDER)、强奸(RAPE)、攻击(ASSAULT)上有较大的负系数,所以代表了暴力犯罪与其它犯罪的一种对比。第三主分量为抢劫、汽车犯罪等与盗窃罪、入室盗窃、强奸的对比,其意义不易解释。第十九页,共三十七页,编辑于2023年,星期一为了看出各州按第一主分量和第二主分量由低到高排列的情况,先用SORT过程排了序,然后用PRINT过程打印了结果(结果略)。在按第一主分量排序中,NorthDakota、SouthDakota、WestVirginia排列在前,说明其犯罪率最低,Nevada、California排列在后,说明其犯罪率最高。在按第二主分量排列的结果中,Mississippi排在最前,说明其暴力犯罪最高,Massachusetts最后,说明其暴力犯罪最低。后面用PLOT过程画了主成分的散点图。第二十页,共三十七页,编辑于2023年,星期一四、用SAS/INSIGHT进行主分量分析 在SAS/INSIGHT中可进行主分量分析。例如,对于上面的WORK.CRIME数据集,在INSIGHT中打开它后,选“Analyze|Multivariate(Y's)”,弹出选择变量的对话框,把各犯罪率变量都选为Y变量,然后按Output按钮,选中主分量分析(PrincipalComponentAnalysis)复选框,OK后就得到了多变量分析结果(包括原始变量的简单统计量、相关阵)和主分量分析的结果(特征值、累计贡献率、特征向量)。另外还画了前两个主分量的散点图。第二十一页,共三十七页,编辑于2023年,星期一应用组成分分析的论文讨论1.TheEffectofFinancialRatiosonReturnsfromInitialPublicOfferings:AnApplicationofPrincipalComponentsAnalysis2.ConceptualPerspectivesonSelectingthePrincipalVariablesinthePurchasingmanager’sindex第二十二页,共三十七页,编辑于2023年,星期一因子分析第二十三页,共三十七页,编辑于2023年,星期一第二十四页,共三十七页,编辑于2023年,星期一

SAS/STAT的FACTOR过程可以进行因子分析、分量分析和因子旋转。对因子模型可以使用正交旋转和斜交旋转,可以用回归法计算得分系数,同时把因子得分的估计存贮在输出数据集中;用FACTOR过程计算的所有主要统计量也能存贮在输出数据集中。二、FACTOR过程使用第二十五页,共三十七页,编辑于2023年,星期一FACTOR过程用法很简单,主要使用如下语句:PROCFACTORDATA=数据集

选项;VAR原始变量;RUN;输出结果包括特征值情况、因子载荷、公因子解释比例,等等。为了计算因子得分,一般在PROCFACTOR语句中加一个SCORE选项和“OUTSTAT=输出数据集”选项,然后用如下的得分过程计算公因子得分:PROCSCOREDATA=原始数据集SCORE=FACTOR过程的输出数据集OUT=得分输出数据集;VAR用来计算得分的原始变量集合;RUN;第二十六页,共三十七页,编辑于2023年,星期一三、例子数据集SOCECON为洛杉基12个地区统计的五个社会经济指标:人口总数(POP),教育程度(SCHOOL),就业数(EMPLOY),服务业人数(SERVICES),中等的房价(HOUSE)。用FACTOR过程可以进行主分量分析。下例中的SIMPLE选项要求计算变量的简单统计量,CORR要求输出相关阵。第二十七页,共三十七页,编辑于2023年,星期一DATASOCECON;TITLE'五个经济指标的分析';INPUTPOPSCHOOLEMPLOYSERVICESHOUSE;CARDS;570012.8250027025000100010.9600101000034008.81000109000380013.6170014025000400012.816001402500082008.326006012000120011.44001016000910011.533006014000990012.5340018018000960013.736003902500096009.633008012000940011.4400010013000;PROC

FACTORDATA=SOCECONSIMPLECORR;TITLE2'主分量分析';RUN;

第二十八页,共三十七页,编辑于2023年,星期一12345Eigenvalue2.87331.79670.21480.09990.0153Difference1.07671.58180.11490.0847Proportion0.57470.35930.04300.02000.0031Cumulative0.57470.93400.97700.99691.0000结果给出了五个变量的简单统计量,相关阵,和相关阵的特征值、累计贡献:2factorswillberetainedbytheMINEIGENcriterion.

第二十九页,共三十七页,编辑于2023年,星期一前两个主分量解释了93.4%的方差,按照缺省的选择因子个数的准则MINEIGEN,取大于1的特征值,所以取两个因子。因子模式阵(factorpattern,或称因子载荷阵)为最重要的结果之一:FactorPatternFACTOR1FACTOR2POP0.580960.80642SCHOOL0.76704-0.54476EMPLOY0.672430.72605SERVICES0.93239-0.10431HOUSE0.79116-0.55818第三十页,共三十七页,编辑于2023年,星期一它们是用公因子预报原始变量的回归系数。第一主分量(因子)在所有五个变量上都有正的载荷,可见这个因子反应了城市规模的影响。第二主分量在人口、就业上有大的正载荷,在教育程度和住房价格上有大的负载荷,则第二个因子较大的城市人口多但是教育程度和住房价格低。结果还给出了公因子解释能力的估计:FinalCommunalityEstimates:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论