多元统计分析报告_第1页
多元统计分析报告_第2页
多元统计分析报告_第3页
多元统计分析报告_第4页
多元统计分析报告_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析报告——按收入等级分家庭平均每人全年购买力差异1、问题背景:1.1数据来源:数据完全来源于《中国统计年鉴》2010年的数据统计,原统计数据总共统计2010年各个等级家庭平均购买的物品有17种,考虑到自身对多元统计的不娴熟,因此只节选了其中的12种。1.2问题背景:近10年来,随着中国经济的飞速发展,城镇居民的贫富差距也在日益的增加。本文通过2010年居民购买普通消费品数量差距的统计数据,针对我国8中不同收入等级的居民家庭做了多元统计分析。根据此分析,可以看出家庭收入水平对日常消费品购买力的各种影响,并且可以看出各个收入等级的消费水平以及全民平均水平。针对其结果分析,结合实际对我国的日常消费品在价格方面做出合理的建议,为经济市场的优化完善略尽薄力。2、分析方法介绍:2.1因子分析因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关剧增。因子分析的思想始于1904年查尔斯•斯皮尔曼对学生考试成绩的研究。2.1.1因子分析思想因子分析思想是把联系较为紧密的变量归为同一个类别,而不同类别的变量之间的相关性则较低。在同一个类别内的变量,可以想象是受到了某个共同因素的影响才彼此高度相关的,这个共同因素也称之为公共因子,它是潜在的并且是不可观测的。因子分析反映了一种降维的思想,通过降维将相关性高的变量聚在一起,不仅便于提取容易解释的特征,而且降低了需要分析的变量数目和问题分析的复杂性。2.1.2因子分析模型一般因子分析模型:设有n个样品,每个样品观察p个指标,这p个指标之间有较强的相关性(要求p个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。2.1.3因子分析步骤

A)确定因子载荷:主成分法、主轴因子法、最小二乘法、极大似然法、a因子提取法等。由于这些方法求解因子载荷的出发点不同,所得的结果也不完全相同,为此我们就本论文所用到的主成分法寻找公共因子的方法做详细介绍。主成分寻找公共因子的方法如下:假定从相关阵出发求解主成分成分按由大到小的顺序排列,记为^,、...,丫,则主成分与没有p个变量,则我们可以找出p个主成分。将所得的p个主原始变量之间存在如下关系式:成分按由大到小的顺序排列,记为^,、...,丫,则主成分与IY=yX+yX+...+yXY2=y21X1+y22X2+...+y2^XpY=yp1X1+y尸2X2+...+y套?式中,七为随机向量X的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X至UY的转换关系是可逆的,很容易得出由Y至UX的转换关系为:IX=yY+yY+...+yY111212P1PX=yY+yY+...+yY121222P2PX=yY+yY+...+yY

P1P12P2PPP我们对上面每一等式只保留前m个主成分而把后面的部分用8Z.代替,则⑵式可变为:」i=无占十为i&十…+r渤匕一耳云^=7[2^+"h■**■Y航]措+勺I户=^1/1+71^+'■■+7-这个式子在形式上已经与因子模型相一致,且yG=1,2.....啬i之间相互独立,为了把丫转化成合适的公因子,现在要做的i工作只是把主成分Yi变为方差为1的变量。为完成此变换,必须将L除以其标准差(即为特征根的平方根寸^。于是,令:Fi='•,芒'aij=咛ji,则⑶式变为:=苗1*+q拓+…+苗用氏+s\二但压+…+吃氏+勺—了侦二。机孔-‘"飞+opmFm+七这与因子模型完全一致,这样,就得到了载荷A矩阵和一组初始公因子(未旋转)。B)因子旋转:因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵A左乘一正交阵而得到。经过正交旋转而得到的新的公因子仍然保持彼此独立的性质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近与零,要么尽可能地远离零。C)因子得分:因子得分就是公共因子在每一个样品点上的得分。根据因子得分我们可以知道那个城市的经济发展水平要高,那个城市的经济发展水平要底。2.2聚类分析SAS软件中用于聚类分析的过程主要有以下三个:PROCCLUSTER系统聚类(Q型聚类分析),适用于对观测值或样品聚类;PROCFASTCLUS逐步聚类(Q型聚类分析),适用于大样本聚类;PROCVARCLUS变量聚类(R型聚类分析),适用于对变量或指标聚类。系统聚类法是聚类分析中采用最多的聚类方法,本次论文则主要运用这种聚类分析法。3、SAS程序:3.1变量设定及其数据录入总平均数最低收入户困难户低收入户中等偏下收入中等收入户中等偏上收入高收入户最高收入户YX1X2X3X4X5X6X7X8

其中,Y为因变量,X.(i=1,2...8)为自变量。3.2录入数据程序编辑datafit;title'userdatafit;title'userincomelevelofpurchasingInputYX1X2X3X4X5X6X7X8@@;cards;20.7314.9813.3318.3920.2121.8422.6323.3524.052.531.581.372.052.402.802.912.982.9610.007.586.958.669.6010.5911.1811.2411.09116.1193.6890.01106.23113.15121.85125.32126.04125.2.081.811.621.942.202.282.191.941.744.663.303.083.664.555.035.475.235.030.280.190.180.210.240.280.340.360.4054.2334.2431.4642.4249.2057.5663.4666.9970.915.093.012.633.924.575.435.966.486.8913.987.396.469.7611.9614.9817.0219.1320.193.671.811.532.613.113.834.594.955.578.434.173.625.777.188.589.8311.5214.89powerdifferences';;run;proc

run;print;结果如下图:Obs2C.7314.9813.3318.392.531.501.J72.0510.00proc

run;print;结果如下图:Obs2C.7314.9813.3318.392.531.501.J72.0510.007.时R.dSR-fiRHE.1133.6090.01106.23k.UJi.ai1.挝1.34-.653.303.083.66C.230.190.80.2154.蛰34.2431.46亿4?E.033.012.633.32lc.937.396.463.FC.C?1.011.532.01「一心4.17S.fi?5.77489IJ111?2I.3422.5323.3524.052.302J12.002.0C10.59■1-1R■1-?4■i.nfl121.35115.32126.04125.42L出i!.iy1.H41./45.335.475.235.03O.?80.3d0.360.d0E7.56(3.4666.99M.915.435J66.406.8914.387J2■8.I320.180.334.594.955.57胡■1.F?■4.RAn-o5n-54o7—-K-1OM^..L4R-1—■I.L5叮」叮-lLA4—1o29-H-24o-H-41Ou71di1进行因子分析,程序如下:datadanl;infile'e:rong.txt';inputX1X2X3X4X5X6X7X8;run;procfactordata=dan1method=principalpriors=onerotate=varimax;varX1X2X3X4X5X6X7X8;run;procfactordata=dan1method=principalpriors=srotate=varimax;varX1X2X3X4X5X6X7X8;run;procfactordata=dan1method=prinitpriors=srotatc=varimaxheywood;varX1X2X3X4X5X6X7X8;run;procfactordata=dan1method=mlpriors=rotate=varimaxheywood;varX1X2X3X4X5X6X7X8;run;程序说明:原始数据存储在e盘下的文本文件dan1.txt中,在数据步中用infile语句进行读取,变量X1—X8分别表示变量的意思在前面已经提到过。4个FACTOR过程步分别使用主成分法、无迭代的主因子法、迭代主因子法和最大似然法进行因子分析。在factor语句中有一些选项是比较重要的,以下逐一对其进行说明。选项method(可简写为m)用来指定提取公因子的方法,常用的方法有principal(主成分法)、prinit(迭代主因子法)和ml(最大似然法),其中principal为默认值。选项priors用来给共性方差赋初值,赋值方式包括asmc、max、one、random、smc。进行聚类分析,程序如下:datadan2;Inputname$YX1X2X3X4X5X6X7X8@@;cards;TOC\o"1-5"\h\z20.7314.9813.3318.3920.2121.8422.6323.3524.052.531.581.372.052.402.802.912.982.9610.007.586.958.669.6010.5911.1811.2411.09116.1193.6890.01106.23113.15121.85125.32126.04125.422.081.811.621.942.202.282.191.941.743.303.083.664.555.035.475.235.030.280.190.180.210.240.280.340.360.4054.2334.2431.4642.4249.2057.5663.4666.9970.915.093.012.633.924.575.435.966.486.8913.987.396.469.7611.9614.9817.0219.1320.191.811.532.613.113.834.594.955.578.434.173.625.777.188.589.8311.5214.89;run;procclusterdata=dan2simplemethod=singlenonorm;idname;proctree;procclusterdata=dan2method=averagenonorm;idname;proctree;run;程序说明:此程序语句是用以下语句调用CLUSTER过程:PROCCLUSTER选项;VAR变量;ID变量表;BY变量表;只有PROCCLUSTER语句是必须的,其他语句是可选择的。PROCCLUSTER选项中:DATA二数据名,用于指定所要处理的数据集名(本程序所指的数据集就是dan2这一数据集);SIMPLE或S,输出均值、标准差、偏度、峰度及双峰系数;METHOD或M二聚类方法名,用于指定某种聚类方法,有^一种方法可供选择,此程序样品间距离采用的是最短距离法(M=SINGLE或SIN)和类平均法(M=AVERAGE或AVE),其他的聚类方法还有重心法、最长距离法、密度法、最大似然法、可变法、中间距离法、二阶密度法、离差平方和法及相似分析法,要根据试验需要进行选择;NONORM选项防治将距离正态化,如果没有此选项,则距离被标准化为单位均值或单位均方根值。ID变量表,指定各观测值名称,如果省略,则每个观测值由OBn标记,其中n为观测值序号。PROCTREE语句,是调用TREE过程打印聚类的树状图,可直观明了的看出聚类的结果。4、结果分析:4.1因子分析结果TheFACTORProcedureInitialFactorMethod:PrincipalComponentsPriarCommunaIityEstImates:ONEEig已nveduE技oftheGorrelationMatrixTotal=8Au已rag已=1EigenvalueDifferencePreportionCuniulative17.971487147.943209010.39640.936420.028258140.028050350.DO351.00DO30.000207790.000155470.00001.000040.000052320.00004520O.DOOO1.00DO50.000007120.000002020.00001.000060.000005100.00000300O.DOOO1.00DO70.000002100.000001810.00001.000080.00000023O.DOOO1.00DO1factorwilltseretainedbytheMINEICEMcriterion.这是主成分法的第一部分结果,首先说明提取公因子的方法为主成分法,共性方差的初值为1。接着给出相关矩阵的特征值,如果选择主因子法,给出的将是约相关矩阵的特征值,由左至右的4列依次为特征值、前后两个特征值之差、贡献率、累积贡献率。由于没有定义保留因子数的最小特征值的界值,系统会默认为1,即特征值大于1的因子将被保留下来。此次数据中前1个特征值大于1,故保留前一个公因子,对应的累积贡献率为99.64%。FactorPatternFactor!幻O.9996S腰0.99780K30.996050.99917既0.99996邮0.99953K70.99803X80.99600以上输出的是因子载荷阵,从而可以写出含有一个公因子的因子模型。结果显示,公因子在每个变量上的载荷差不多。IVarianceExplainedbyEachFactorFsictcirl7.9714671该结果表明公因子能解释的方差为7.9714671.FinalCommunalityEstimates:Total=7.9714671X1X2离X4X5X6X7X80.999922770.994608690.992118290.990343250.999911430.999066900.996071450.99202429此部分输出的是共性方差,共性方差估计值之和为7.971467。其中每个变量的共性方差都接近1,说明该公因子几乎包含了原始变量的信息。TheFACTORProcedureFinalCommunalityRotationMethod:FinalCommunality1210.655380.75j302-0.755300.65j38RotatedFactorPatternFactor!Factor2"10.727150.686480.655380.755300.643930.765030.680430.732770.704630.709540.730150.683280.751660.65951%0.769000.63920OrthogonaITransformatIonMatrIxFactorWeightedUnweighteidFacturl588407.3904.02188007Factor-2524SSS.3343.977S17G5VarianceExpIaInedbyEachFactorVariableWeightsUnweighted=7.999698Estimatesand

TotalVariableWeightsUnweighted=7.999698VariableCommunalityVariableCommunalityWeigiltXIX2X3872770.153InftyXIX2X3872770.153Infty10518.270X40.9999339113648.982潮0.9999584218792.229湘0.99998731158345.7880.9999567426312.4650.9999401412915.537以上输出的是经过因子旋转以后的分析结果,可以看出,与因子旋转之前的结果相比,因子在各个变量上的载荷都减小了,并且有了第二个因子的影响。因此,经过因子旋转以后,各个公因子在专业上的意义更加明确了。最后给出的是每个公因子所能解释的方差与共性方差,由于正交旋转并不改变共性方差的大小,所以这里各变量的共性方差与旋转之前的结果相同。

TheFACTORProcedureInitialFactorMethod:PrincipalFactorsFrorCuriTniunaIityEstinates::SIvCXIV2*X4临MSJ=:7XB0.999999550.99989B580J93992080.99998997D.989398730.999997020.993995670.99999556EigcnralussoftheReducedCorreIationMatrik:Total=7-9999G616Average=O-S9B90GG5EigenvalueDifferenceProportionCumulaiive7.971462797J43210O10.99E40.39640.0282G2780.028061650.00361.0030O.OOC201?;0.000153540.0000I.OOJO0.000047690.000043820.0000I.OOJO0.000003870.00000342U.UULU1JUJU0.00000045C.OOJOOSi0.0000I.OOJO-.00000140[.00300(81-o.ooco1.0030-.0000022^1-0.0000I.OOJO5factorsIIberetairedbythePFOPOR7IONcriterionFactorPatternFactor!-scior2FactorS-actor^Factor520.99966-0.02596-0.001120.00070-0.(01020.叩唧J.0n3410.(0)^10J.OOOJE0.(0)58碇0.S3E050.0883I0.(0)73].00017-0.(0)^11灶O.$9)170.03989-0.(0^27J.O02JE0.(0)59KF0.999960.00635-n一印潮-n.rniARKE0.99953-J.O3O3E-O.OOD99-0.002460.(0)980.99B03-0.062450.(0309-0.003950.(0)030.33B00-0.089030.(05810.004470.(0)22这是最后一部分的结果图。聚类分析结果分析:TheSASSystem19:49fcnday.May5?20121TheCLUSTERProcedureSingleLirkaseClusterAnalysisVariab1eMeanSidDevSkev.TiEEsKurtosieBimedaIify%'沧X3M4}::5:弗X7X829.297016.866022.998021.133021.74301D.SS2D22.412022H147020.545097J9184L99099=200137-10653.03333.676839-29902.41405-861538.3271Z.755G7.354497-71092.79740,200913.DS4ELS4273.390536-1334L33535-641730/:!!:!!:!£:2H9J1130-76271.82622-2954LLG5840.75430.66930.G9300.7090D.5ES70.64660.60890.8534Eigenva1uesoftheCox<ai-iarceMatrixEigenva1ueDifferencePreportionCumu1ativeJ6718.121879151.42053487.13132178.7878953.34735E1.G0G592.I7B031.171940.122203566.701340.63372884-229220=2973308.42342i:i.i:i460125.42054i:i.Ul£:944.66076i:iJ:iU50G.5105GU.UULieLDD4I9D.DDD21.04964U.UULUIJJJIJOO0.6337rudaio0.37700.99380.33890.9997D.99991.LILILI01JJLIIJ0Riiiot-MearrSquareTotaI-SampIeEtardardDe:viation='EM.3204第一个结果,从左往右依次表示:均值、标准差、偏度、峰值、双峰系数。从均值可以看出,除了乂1和X5(即最低收入户和中等收入户)以外的其他变量均在20%左右。标准差能反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论