多元统计分析整理版_第1页
多元统计分析整理版_第2页
多元统计分析整理版_第3页
多元统计分析整理版_第4页
多元统计分析整理版_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、主成分分析的目的是什么?主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。2、主成分分析基本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。主成分和原始变量之间的关系表示为J1-+/马 T 卜Cp=IIQ2

2、Pxpyp=%工1+0的+a郎/主成分分析的数学模型3、在进行主成分分析时是否要对原来的 p 个指标进行标准化?SPSS 软件是否能对数据自动进行标准化?标准化的目的是什么?需要进行标准化, 因为因素之间的数值或者数量级存在较大差距, 导致较小的数被淹没导致主成分偏差较大,所以要进行数据标准化;设 p 个原始变量为y 力,、小力 ypp新的变量(即主成分)ah为第i个主成分片和原来的第j个变量甩之间的线性相关系数,称为载荷(loading比如,表示第1主成分和原来的第1个变量之间的相关系数, 曰力表示第2主成分和原来的第1个变量之间的相关系数进行主成分分析时 SPSS 可以自动进行标准化;标准

3、化的目的是消除变量在水平和量纲上的差异造成的影响。求解步骤对原来的 p 个指标进行标准化,以消除变量在水平和量纲上的影响根据标准化后的数据矩阵求出相关系数矩阵求出协方差矩阵的特征根和特征向量确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国 31 个省市自治区 2006 年的 6 项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每张表可以得出哪些结论,进行主成分分析,找出主成分并进行适当的解释:(下面是 SPSS 的输出结果,请根据结果写出结论)表一:数据输入界面AB11CDEFG)1地区人均GDF(元)财政收入 (万元)固定资产投资(亿元)年末总人口国人)居民消

4、费水平社合消费品零售总额同伙)(亿元)2北京S04BT111715143296415811677032T5.23天津4116341704791820.510751056413S6.64河北16962620S3405470.26398494533*45山西141235833T522255.T337548431613.46内蒙古20053343377433&3,22397SSOO1595.37辽宁2176891767185639.642716位g3434.6表二:数据输出界面 a)CorrelnionMitiix人均GDP政入固定资产投资年末总人口黑居费社概肖费品军售总颤Correlation人均

5、GDP1.000B70.362-.091,967,436财哪人,670LOOOJ32,560.,693,924固磔柳资,362.8321,00078.327,932年襦人口-.091560,7831000-.066.771居解物k平,96793,327-.0661.000.442社含肖费品藉麒.436.924.9327714421000此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。观察各相关系数,若相关矩阵中的大部分相关系数小于 0.3,则不适合作因子分析。TotnlVFhiiiceExplainerIComponentInitialEi

6、genvaluesExtractionSimsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%395366.05266.0523.95366,05266J52217/129.51895.5701.77129.51895,5703.1282.12897.6934,0951.59999.2975,D26433997206017.290100.000ExtractionMethod:PrincipalComponentAnalysis.表三为各成分的总解释方差表。component 为各成分的序号;init

7、ialEigenvalues 是初始特征值,total 是各成分的特征值,%ofvariance 是各成分的方差占总方差的百分比(贡献率)。Cumulative%是累计贡献率,表明前几个成分可以解释总方差的百分数。Extractionsums 是因子提取结果。一般来说,当特征根需大于 1,主成分的累计方差贡献率达到 80%以上的前几个主成分,都可以选作最后的主成分。由表可知,第一个主成分的特征根为 3.963,方差贡献率为66.052%,这表示第一个主成分解释了原始 6 个变量 66.052%的信息,可以看出前两个成分所解释的方差占总方差的 95.57%,仅丢失了 4.43%的信息。因此最后结

8、果是提取两个主成分。在 extractionsumsofsquaredloadings 一栏,自动提取了前两个公因子,因为前两个0-5电oT1T11T123456CDiriponentNumber表四是表示各成分特征值的碎石图。可以看出因子 1 与因子 2,以及因子 2 与因子 3之间的特征值之差值比较大。而因子 3、4、5 之间的特征值差值都比较小,可以初步得出保留两个因子将能概括绝大部分信息。明显的拐点为 3,因此提取 2 个因子比较合适。证实了表三中的结果。碎石图(ScreePlot),从碎石图可以看到 6 个主轴长度变化的趋势。实践中,通常选择碎石图中变化趋势出现拐点的前几个主成分作为

9、原先变量的代表,该例中选择前两个主成分即可。CompoiieiifMatrix3Component12人均GDP,670.725财制攵入.976.055固定资产投资,896-.351年末总人口.633-.728居民消祷水平,674.721社会消费品零售总额,950-.263ExtractionMethod:PrincipalComponentAnaiysisa.2componentsextracted表五是初始提取的成分矩阵,它显示了原始变量与各主成分之间的相关系数,表中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数公因子就可以解释总方差的绝大部分95.6%。S

10、creePlotaijo比如,第一主成分所在列的系数 0.670 表示第 1 个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大。第一主成分(component1)对财政收入,固定资产投资,社会消费品零售总额有绝对值较大白:必然70X1睚涡7&第 m6nen10.63以人昂.674x5壬心昆&6水平有绝上将较*72钓0.05所以丛得1Xi8x4+。721%-0.263X6版本一:根据我国 31 个省市自治区 2006 年的 6 项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序表一数据输入界面ABCDEF1G1地

11、区人均GDP(元)财政日入(万坨)固定资产投资(亿元)年末总人口访大)居民消费水平阮/人)社会消费品零售息额(亿元)2北京50467111715143296.41581167703275.23天津41163417047910205107510564135684河北1696262053405470.2689349453397.45山西1412358337522255.7337548431613.46内蓑古2005334337743363.2239758001595.37辽宁2179881767185689.642716g293434.6表二因子分析 SPSS 输出界面 a)KMOIKIBartl

12、ettsTesiKaiser-Meyer*OlkinMeasureofSamplingAdequacy695Elartlett 七 TestofApprox.Chi-Square277025Sphericityjf15Sig.000KMO 统计量为 0.695,接近 0.7,表明 6 个变量之间有较强的相关关系。适合作因子分析.Bartlett 球度检验统计量为 277.025。检验的 P 值接近 0,拒绝原假设,认为相关系数与单位阵有显著差异。可以因子分析。表三因子分析 SPSS 输出界面 b)CornnmimlitisInitialExtraction人均GDF1.000,975财珈攵入1

13、.000.955固定资产投资1001,927年末原人口1.000.930居民消费水平1001,974社会消费品零售总额1000,972Extract!orMethod:PrincipalComponentAralysis.表三为公因子提取前和提取后的共同度表,initial 列提取因子前的各变量的共同度extraction 列是按特定条件(如特征值1)提取公因子时的共同度,表中的共同度都很高,说明提取的成分能很好的描述这些变量。所有变量的共同度量都在 80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的。变量 Xi的信息能够被 k 个公因子解释的程度表四因子分析 SPSS 输出界面

14、 c)WNVcMceExphin&ilComponentnit闾EigervsluesExtractionSumsofSquaredLoadingsRotalionSumsmSquaredLosdingsTotal%ofVsrisnceCurralative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%1396366J0526B.0523J96366.05266,0523.1S7-53,29453,28471.77129期895.5701.77129.516955702.53742,2669557031282.12897.6984

15、,095158999.2875,026.43399,7206017280IOOJOOOExtractionMethod:PrincipalComponentAnalysis.表四为各成分的总解释方差。Component 表示按特征值大小排序的因子编号。Initial 下分别给出了相关系数矩阵的特征值、方差贡献率和累计方差贡献率。Extraction 是所提取的公因子未经旋转情况下的特征值,方差贡献了和累计方差贡献率。Rotation 项下是旋转后的。RotationSumsofSquaredLoadings”部分是因子旋转后对原始变量方差的解释情况。旋转后的累计方差没有改变,只是两个因子所解释

16、的原始变量的方差发生了一些变化。95.57%表明提取的两个公共因子的方差可以解释总方差的 95.57%。第 j 个公因子对变量 Xi的提供的方差总和,反映第 j 个公因子的相对重要程度RotatedComponentMcitiixaComponent12人均GDP112,931财咖攵入,755,622固定资产投资,931,247年末世人口,941-.213居民消费水平,1179B0社会消费品零售总额922.349ExtractionMettiod:PrincipalComponentAnalysisRotationMethod:VarimaxwithKaiserNormalizationRot

17、ationconvergedin3Iterations.旋转后成分矩阵。第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这几个载荷系数较大,主要解释了这几个变量。从实际意义上看,可以把因子 1 姑且命名为经济水平”因子。而第二个因子与人均 GDP、居民消水平这两个变量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子 2 姑且命名为消费水平”因子a=0.112于1+0.98172x2=0.755+0.622f2x3=0.931f+0.247f2xA=0.941工-0.213x5=0,117工+0.980 x6=0.922fx+0.349f2子分析的数学模型Comp

18、oikeiiVScoieCoeTficierrtMmiixComponent12人均GUF.105.430口才加攵入.180.171固定资产投资.300-.026年末总人口.372-237居民消费水平-104.429社会消费品零售菽颤.281.022ExtractionMeUiod:PrincipalComponeritAnalysis.Roiationruleltiod:VarimaxwithKaiserNormalization.表达式中的用已经不是原始变量, 而是标准化变量表五是因子得分系数矩阵。根据因子得分和原始变量的标准化值可计算每个观测量的各因子的分数。由因子得分系数矩阵,可以将公

19、因子表示为O得到的因子得分函数为工=-0.105甬+0.180工工+0,300吊+0+372X40.104兀+0+28f2=0430$+017屋092640237七+0429三+0.02次因子得分函数上面表达式中的片标推化变量.根据这一表达式便可以计算每个地区对应的第一个因子和第二个因子的取值,也称为因子得分像ctorscore),有了因子得分,就可以对每个地区分别按照前面命名的“经济水平 R 因子和消费水平”因子进行评价和排序4、因子分析基本思想?因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因

20、子分析的基本思想是根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量可以分解为两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。XI,x2,Xk,要寻找的 m 个因子(m0 x 三 G2,当 W(x):二 0判别准则为:待判,当W(x)=0注意:距离一般采用马氏距离;适合对自变量均为连续变量的情况进行分类;对各类的分布无特定的要求。2)Fisher 判别法:基本思想是通过将多维数据投

21、影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。所谓的投影实际上是利用方差分析的思想构造也一个或几个超平面,使得两组间的差别最大,每组内的差别最小。费歇尔判别函数为:y=(x-X2)?XxGyiy2,yy。xG2yiy2,y:v。xG2yi:y2,yv。计算需要用到的一些反映样品特征的值,比如均值、协方差阵,等等QSTEP0fiTEpQ2根据一定的原则建立判别函数u,1=0山+0*?+-+CR.XM为判别函数的一股形式,建立判别函数就是要确定这些系数.STEP03确定判别准则.有的判别准则需要计算一些判别时用到的参数,比如Fishei

22、判别需要计算临界值.STEP0检验判别效果,即验证判别函数用来进行判别时的准确度.STEP05对待判样品判别归类.其判别准则是:xGy1:y2,y:y0Fisher 判别对各类分布、方差都没有限制。但当总体个数较多时,计算比较麻烦。建立 Fisher 判别函数的准则是:使得综合指标 Z 在 A 类的均数ZA与在 B 类的均数ZB的差异IZA-ZB尽可能大,而两类内综合指标 Z 的变异SA+SB尽可能小3)Bayes 判别法:基本思想是:设有两个总体,它们的先验概率分别为 q1、q2,各总体的密度函数为 f1(x)、f2(x),在观测到一个样本 x 的情况下,可用贝叶斯公式计算它来自第 kP(G

23、k/x)-yfk(x)k-1,2、qkfk(x)个总体的后验概率为:k一种常用判别准则是:对于待判样本 x,如果在所有的 P(Gk/x)中 P(Gh/x)是最大的,则判定x 属于第 h 总体。通常会以样本的频率作为各总体的先验概率。Bayes 判别主要用于多类判别,它要求总体呈多元正态分布4)逐步判别法:逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。21、对 Bayes 判别法与 Fisher 判别法

24、作比较一一(k)(1)当 k 个总体的均值向量 x,x,x 共线性程度较局时,Fisher 判别法可用较少的判别函数进行判别,因而比 Bayes 判别法简单。另外,Fisher 判别法未对总体的分布提出什么特定的要求。(2)Fisher 判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。而这不足恰是 Bayes 判别法的优点,但值得指出的是,如果给定的先验概率不符合客观实际时,Bayes 判别法也可能会导致错误的结论。22、简述判别分析与聚类分析的区别。判别分析已知研究对象分为若干个类别,并且已经取得每一类别的若干观测数据,在此基础上寻求出

25、分类的规律性,建立判别准则,然后对未知类别的样品进行判别分类。聚类分析一批样品划分为几类事先并不知道,需要通过聚类分析来给以确定分几种类型。判别分析与聚类分析不同点在于,判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。28、K-均值聚类是否需要在聚类之前先做标准化处理?K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS 提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而 K-均值聚类法则需要单独做标准化处理,尔后再进行聚类)各变量

26、间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱33、简述多元线性回归中,写出两种多重共线性的诊断方法和解决方案。诊断方法:检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。如果出现下列情况,暗示存在多重共线性模型中各对自变量之间显著相关当模型的线性关系检验(F 检验)显著时,几乎所有回归系数的 t 检验却不显著回归系数的正负号与预期的相反。解决方案:将一个或多个相关的自变量从模型中剔除,使保留的自

27、变量尽可能不相关;如果要在模型中保留所有的自变量,则应避免根据 t 统计量对单个参数进行检验;对因变量彳 1 的推断(估计或预测)的限定在自变量样本值的范围内。34、一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的 25 家分行 2002 年的有关业务数据。试建立不良贷款 y 与贷款余额 XI、累计应收贷款 X2、贷款项目个数 X3 和固定资产投资额 X4 的线性回归方程,并解释各回归系数的含ABc1DEFGI1SUMMARYOUTPUT23回归统计4MultipleR0.39315RSquare0.79786AdjustedRSquare0.75717标准误

28、差17TB88观恻值25910方差分析11dfssNISFSignifieanceF12回归4249371262,342619,70401.0354E-0613残差2063.ZT923.164014总计24312.G5041516Coefficients标推误差tStatFvaluieLower95%Uppsr95%17Inte-rcept-102160.7824-1.30580.2064-2.65360.610418S10.04000.01043.63750.00100.01S30.061819XVariable20.14S00.07081.8TBT0.0T49-0.01S30312420X

29、Varibl30.014S0.0330C.LT50。能加-0.19B70167721XVariable4-0.029200151-193E800&70-0.06060.0022上表是计算机输出的结果。试写出多元线性回归模型,并进行统计学检验概述表中,看到 RSquare=0.7976,AdjustedRSquare=0.7571 表示模型的拟合优度很好。方差分析表中,对方程的显著性检验 F 对应的 sig=1.035E-06,小于 0.05,说明回归方程有统计意义。Coefficients 是各个变量的系数,由 P-value 值可以判定,只有变量 1 的 p-value 小于 0.05,说明

30、变量 1 与因变量 y 有显著相关关系。回归模型:Y=0.04*XVariable1-1.0216.38、简述 logistic 回归的原理和适用条件。Logistic 回归,是指因变量为二级计分或二类评定的回归分析。因变量 Y 是一个二值变量自变量 X1,X2,XmP 表示在 m 个自变量作用下事件发生的概率。1P(y=VXi,X2,.Xm)=1e7*;XTT:-;xr适用条件:因变量只有两个值,发生(是)或者不发生(不是)。自变量数据最好为多元正态分布,自变量间的共线性会导致估计偏差。实际上属于判别分析,因拥有很差的判别效率而不常用。适用于流行病学资料的因素分析(验室中药物的剂量-反应关系

31、、临床试验评价、病的预后因素分析。41、(汇总归纳)聚类分析基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。注意事项:1.系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2 .K-均值法要求分析人员事先知道样品分为多少类;3 .对变量的多元正态性,方差齐性等要求较高。应用领域:细分市场,消费行为划分,设计抽样方案等判别分析基本原理:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。常用判别方法:最大似然法,距离判别法,Fisher 判别法,Bayes 判别法,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论