毕业论文统计学本科多元回归分析中变量的选择——SPSS的应用

上传人：5*** IP属地：湖北上传时间：2021-10-10 格式：DOC 页数：29 大小：1.09MB 积分：30 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、毕业论文题目多元回归分析中的变量选取SPSS的应用院（系）数学与统计学院专业年级 2010级统计学学生姓名殷婷学号 2010101217 指导教师职称副教授日期 2014-4-22 多元回归分析中的变量选取SPSS的应用殷婷摘要本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现，同时通过对两组数据的实证分析，来研究统计学中多元回归分析中的变量选取，让大家对统计中的多元回归数据的选取和操作方法有更深层次的了解。一组数据是对于淘宝交易额的未来发展趋势的研究，一组数据时对于我国财政收入的研究。本文通过两个实证从不同程度上对数据选取的研究运用通俗的语言和浅

2、显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前，让大家对多元回归分析以及SPSS软件都可以有更深一步的了解。通过SPSS软件对数据进行分析，对数据进行处理的方法进行总结，找出SPSS对于数据处理和分析的优缺点，最后得在对变量的选取和软件的操作提出建议。关键词：统计学 SPSS 变量的选取多元回归分析 AbstractIn this paper, not only for complex statistical calculations done by the commonly used computer application software of SPSS, throug

3、h the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody to select multiple regression in statistical data and operation methods have a deeper understanding. Is a set of data for the future de

4、velopment trend of taobao transactions of research, a set of data for the research of our countrys financial income. In this paper, through two empirical to select data from different extent research using a common language and plain the SPSS statistical analysis method in multiple regression analys

5、is of present in front of everyone, let everyone to multiple regression analysis and SPSS software can have a deeper understanding. Through the SPSS software to analyze data, and summarizes method of data processing, find out the advantages and disadvantages of SPSS for data processing and analysis,

6、 finally had to put forward the proposal to the operation of the selection of variables and software.Keywords: Statistical SPSS The selection of variables multiple regression analysis 目录摘要1英文摘要1引言3第一章回归分析31.1自变量的选择41.2国内外研究现状5第二章案例分析一：淘宝交易额的研究62.1数据的来源及变量的选取62.2相关分析72.2.1散点图72.2.2计算相关系数82.3回归分析112.4

7、小结13第三章案例分析二：财政收入的研究143.1数据的来源及变量的选取143.2相关分析153.2.1散点图153.2.2计算相关系数173.3回归分析193.4逐步回归213.5小结24第四章总结及建议25参考文献26引言统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。然而随着社会的发展，统计的运用范围越来越广泛，统计学作为高等院校经济类专业和工商管理类专业的核心课程，不管是在经济管理领域，或是在军事、医学等领域的研究中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多，应用方面的灵活性也较强，计算量大且复杂。随着我国社会主义市场经济的日趋完善，不管是在宏

8、观经济的经济调控领域还是在微观的企业管理领域中，人们必须准确及时的获得经济运行中的各类信息才能得到高效的监控和科学的管理。然而科学研究的深入，研究的对象也日益变得复杂，复杂系统的研究问题更是成为当今研究的热点。为了更好的描述一个复杂的现象，就需要大量的数据和信息，如何高效、准确地利用已知的信息便成为当今社会研究的一项重要课题。基于以上背景，本文通过总结和吸取其他国内外学者对统计学研究的，并结合我国的实际情况，本文采用了案例一对于网络购物这块的的研究，通过对2005年到2012年的居民消费水平，以及我国网络普及度，我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究以及

9、案例二对于我国财政收入的研究，通过对2000年到2012年的人均国内生产总值，经济活动人口，全社会固定投资，进出口总额，居民消费价格水平对我国财政收入的影响进行定量数据的研究。通过对数据的选取，以及软件的操作方法来告知读者如何在SPSS的操作中变量选取的原则、要求和方法。第一章自变量的选择1.1自变量的选择在多元线性回归模型中，自变量的选择实质上就是模型的选择。现设一切可供选择的变量是t个 ,它们组成的回归模型称为全模型（记：），在获得n组观测数据后，我们有模型其中：是的观测值，是未知参数向量，是结构矩阵，并假定X的秩为。现从这t个变量中选变量，不妨设，那么对全模型中的参数和结构矩阵可作如下的

10、分块（记：）：，我们称下面的回归模型为选模型：其中：是的观测值，是未知参数向量，是结构矩阵，并假定的秩为。自变量的选择可以看成是这样的两个问题，一是究竟是用全模型还是用选模型，二是若用选模型，则究竟应包含多少变量最适合。如果全模型为真，而我们用了选模型，这就表示在方程中丢掉了部分有用变量，相反，如果选模型为真，而我们选用了全模型，这就表示在方程中引入了一些无用变量，下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见，先引入几个记号：全模型中参数的估计：其中：为矩阵的秩。在点点上的预测值为在选模型中参数的估计：在上的预测值为1.2国内外研究现状在科学技

11、术飞速发展的今天，统计学广泛吸收和融合相关学科的新理论，不断开发应用新技术和新方法，深化和丰富了统计学传统领域的理论与方法，并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国，社会主义市场经济体制的逐步建立，实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善，统计学的潜在功能将得到更充分更完满的开掘。在应用回归分析去处理实际问题时，回归自变量选择是首先要解决的重要问题。通常，在做回归分析时，人们根据所研究问题的目的，结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型，其结果是把一些对因变量影响很小的，有些甚至没有影响的自变量

12、也选入了回归模型中，这样一来，不但计算量变大，而且估计和预测的精度也会下降。此外，如果遗漏了某些重要变量，回归方程的效果肯定不好。在一些情况下，某些自变量的观测数据的获得代价昂贵，如果这些自变量本身对因变量的影响很小或根本没有影响，我们不加选择的引进回归模型，势必造成观测数据收集和模型应用的费用不必要的加大。因此，在应用回归分析中，对进入模型的自变量作精心的选择是十分必要的。SPSS软件作为当今国际上运用广泛的统计分析软件,因其具有自动统计绘图、数据的深入分析、易学易用、功能齐全等特点,在各个领域得到了迅速普及,并成为各行业管理组织提高管理水平、形成科学决策的重要手段。然而,我国对该软件的理解

13、和运用还处于早期应用阶段,对其功能的研究开发与实际生活当中的运用与西方发达国家相差甚远。特别是在管理决策方面,管理者对客观现实的准确把握对于决策起着至关重要的作用,他们花费大量人力、物力、财力收集统计数据,但是由于没有进行深度分析而浪费,或者仅仅利用SPSS软件进行简单分析而未进行深度开发,致使所得信息有限、各信息间的关系不明确,最终导致管理者的判断出现偏差。第二章案例分析一：淘宝交易额的研究2.1 数据的来源及变量的解释为研究淘宝网未来发展趋势，从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据，进行研究年龄对淘宝购物的影响。并在新浪财经网上获得淘宝网自2

14、005年到2012年的淘宝交易额以及淘宝注册人数的数据。在中商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费水平。淘宝注册人数（）在一定程度上反应了网络购物的群众的人数，反应了当今社会网络购物的普遍性。同时淘宝的注册人数也展现了人们对网络购物的认可度，换言之也就是说接受了网络购物并会在网上进行消费，是对网络购物很大程度上的支持。我国网络普及度（）是指我国近几年网络在我国普及的范围，这一块更好的反映了网络对居民网络消费的影响，因为网络是网络消费的必要条件。我国网络普及度反映的是在我国日趋发展的经济下，网络也得到了普遍的广泛，人们对网络的接受程度，信任程度也是直接影响

15、到淘宝的网络购物。居民消费水平（）是指居民在物质产品和劳务的消费过程中，对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。居民消费水平是指居民在物质产品和劳务的消费过程中，对满足人们生存、发展和享受需要方面所达到的程度。它主要通过消费的物质产品和劳务的数量和质量来反映。居民消费水平的提高也能很好的展现在网络消费上作出的贡献。通过对以上这三个定量数据的研究来其与淘宝交易额的关系，从而研究淘宝未来的发展趋势以及优劣态。原始数据如下：由于数据之间单位的不同，为了消除量纲的影响，把数据标准化进行处理，得到如下标准化的数据（所有取值保留了两位小数）：2.2

16、相关分析2.2.1散点图对y与各个变量作出散点图（1）淘宝注册人数与y的相关性散点图：（2）网络普及度与淘宝网交易总额的相关性检验：（3）我国居民消费水平与淘宝交易的相关性检验：由以上三个散点图可知，其所有的点均落在了左上至右下的一条直线上，表明了数据之间存在显著相关关系。所以我们还需要对数据进行进一步的分析，得到确切的答案。2.2.2计算相关系数（1）复相关系数r是用来衡量回归直线对于观察值配合的密切程度，即用来衡量因变量y与自变量，之间相关的密切程度。以下是用SPSS对数据进行相关性分析，得到如下的相关系数图解析：图中有带“*”号的结果表明有关的两变量在0.01的显著性水平下显著相关，由

17、上图可知，y与的相关系数为0.9920，表示呈一定的线性关系，相关系数检验对应的概率P值为0.000，小于显著性水平0.05，说明淘宝交易额与淘宝注册人数之间相关性显著。y与的相关系数为0.9010，表示呈一定的线性关系，相关系数检验对应的概率P值为0.002，小于显著性水平0.05，说明淘宝交易额与我国网络普及度之间相关性显著。y与的相关系数为0.9650，表示呈一定的线性关系，相关系数检验对应的概率P值为0.000，小于显著性水平0.05，说明淘宝交易额与居民消费水平之间相关性显著。综上所述通过SPSS得出的相关系数的矩阵得到为：0.992 =0.901 =0.965 由以上数据可以看出，

18、各列之间存在正相关关系。即淘宝网注册人数、我国网络普及度、我国居民消费水平与淘宝交易总额y存在正相关关系。（2）计算偏相关系数：在多变量的情况下，变量之间的相关系数是相当复杂的。任意两个变量之间都有可能存在着相关关系，因此，只知道被解释变量与解释变量的总的相关程度是不够的。如果需要了解某两个变量间的相关程度，就应在消除其他变量影响的情况下来计算他们的相关系数，这就是偏相关系数。下面是用SPSS作出的偏相关系数：消除我国网络普及度和居民消费水平的影响后，计算淘宝注册人数与淘宝交易额的偏相关系数为：CorrelationsControl Variablesyx1x2 & x3yCorrelatio

19、n1.000.894Significance (2-tailed).016df04x1Correlation.8941.000Significance (2-tailed).016.df40解析：由上可知，淘宝注册人数与淘宝交易额的偏相关系数为0.894。消除淘宝交易额和居民消费水平的影响后，我国网络普及度和淘宝交易额的偏相关系数为：CorrelationsControl Variablesyx2x3 & x1yCorrelation1.000-.806Significance (2-tailed).053df04x2Correlation-.8061.000Significance (2-t

20、ailed).053.df40解析：由上可知我国网络普及度与淘宝交易额的偏相关系数为-0.806。消除淘宝注册人数和我国网络普及度的影响后，我国居民消费水平和淘宝交易额的偏相关系数：CorrelationsControl Variablesyx3x1 & x2yCorrelation1.000.810Significance (2-tailed).051df04x3Correlation.8101.000Significance (2-tailed).051.df40解析：由上可知，我国居民消费水平和淘宝交易额的偏相关系数为0.810 。消除我国居民消费水平和淘宝交易额的影响后，淘宝注册人数和

21、我国网络普及度的偏相关系数：CorrelationsControl Variablesx1x2x3 & yx1Correlation1.000.584Significance (2-tailed).224df04x2Correlation.5841.000Significance (2-tailed).224.df40解析：由上可知，淘宝注册人数和我国网络普及度的偏相关系数为0.584。消除淘宝注册人数和淘宝交易额的影响后，我国居民消费水平和我国网络普及度的偏相关系数：CorrelationsControl Variablesx2x3y & x1x2Correlation1.000.863Si

22、gnificance (2-tailed).002df04x3Correlation.8631.000Significance (2-tailed).002.df40解析：由上可知，我国居民消费水平和我国网络普及度的偏相关系数为0.963 。消除我国网络普及度和淘宝交易额的影响后，我国居民消费水平和淘宝注册人数的偏相关系数：CorrelationsControl Variablesx3x1y & x2x3Correlation1.000-.505Significance (2-tailed).306df04x1Correlation-.5051.000Significance (2-taile

23、d).306.df40解析：由上可知，我国居民消费水平和淘宝注册人数的偏相关系数为-0.505 。综上：从以上的偏相关系数来看，如果我国网络普及度和居民消费水平保持不变，淘宝注册人数与淘宝交易额之间存在显著相关，当淘宝交易额和居民消费水平的保持不变时，我国网络普及度和淘宝交易额之间存在显著负相关，当淘宝注册人数和我国网络普及度的保持不变时，我国居民消费水平和淘宝交易额的也存在显著相关，当我国居民消费水平和淘宝交易额保持不变时，淘宝注册人数和我国网络普及度之间存在显著相关，当我国网络普及度和淘宝交易额保持不变时，我国居民消费水平和淘宝注册人数存在显著负相关。但是其关系强度较前者略低，所以经过以上

24、系数得到的偏相关系数可以看出，其相关程度较原关系的强度低，应采用原数据的自变量和因变量。即所采用的自变量和因变量保持不变。2.3回归分析对数据进行回归分析，得到如下结果：解析：复相关系数为0.997，判定系数为0.995，调整系数为0.990，估计值的标准误差为4.157 。ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression12661.52434220.508244.231.000aResidual69.123417.281Total12730.6477a. Predictors: (Constant), x3, x1, x2b. De

25、pendent Variable: y解析：由上面结果的看其显著性检验结果为，回归平方和为12661.224，残差平方和69.123，总平方和12730.647， F统计量的值为244.231，对应的概率P值为0.000，小于显著性水平0.05，,即：淘宝交易总额y与淘宝网注册人数、我国网络普及度和我国居民消费水平之间存在线性关系，所以可认为所建立的回归方程有效。CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-59.70921.531-2.

26、773.050x12.529.636.6593.980.016x2-15.9855.870-.563-2.723.043x370.13925.378.8792.764.031a. Dependent Variable: y解析：由上图可知，因变量y与常数项和自变量，的回归的标准化回归系数分别为-59.709，2.529，-15.985,70.139。3个回归系数B的显著性水平小于0.05，这里可以认为自变量，对因变量y有显著性影响。于是得到回归方程为: 由上图可知对数据进行t值检验，在给定的，自由度n=8-2=6的临界值时，查表得2.447因为，的参数对应的t统计量的绝对值均大于2.447，这

27、说明5%的显著性水平下，斜率系数均显著不为0，表明淘宝网注册人数，我国网络普及度，我国居民消费水平等变量联合起来对该商品的消费支出有显著的影响。P检验：由上表可以看出各自变量以及常数项的P值分别为：0.05，0.016,0.043及0.031，可以看出其P值均小于0.05，均通过检验综上所述，三个自变量对因变量都有显著性影响，并都通过了检验可以得到最优方程式为:2.4小结通过SPSS操作最后得到的淘宝交易额的预测方程式：再加上最后对数据的检验可以得出淘宝网注册人数，我国网络普及度，我国居民消费水平等变量联合起来对淘宝交易总额y有显著的影响。影响公式可以近似为：即：淘宝注册人数增加就可使得淘宝

28、网的交易额增加。众所周知我国网络普及度是在逐年增加的，这里表现出的网络普及度为负指标，并不代表网络普及度要递减才可以使得淘宝交易额增加，随着社会的发展，中国的发展更是越来越迅速，网络普及度的增加使得更多的地方有网络，更多的人了解网络才能使得我国淘宝注册人数的增加。这两个自变量之间存在着相对严密的关系。人均收入的增加固使得人们的消费指数上升，那么人们在网络购物和日常消费的比例也会发生变化，这里我们可以看出这个比例是在增加的，那么淘宝交易额增加也是必不可少的。第三章案例分析二：我国财政收入的研究3.1 数据的来源及变量的解释为研究我国财政收入情况，为研究人均国内生产总值，经济活动人口，全社会固定资

29、产投资，进出口总额，居民消费价格指数对财政收入的影响，通过中国国家统计局下载2000年到2012年的数据进行研究。人均国内生产总值是指国内生产总值的绝对值与该年平均人口的比值，是衡量一个国家或地区每个居民对该国家或地区的经济贡献或创造价值的指标。经济活动人口是指在16周岁及以上，有劳动能力，参加或要求参加社会经济活动的人口。包括就业人员和失业人员。全社会固定资产投资是指以货币形式表现的在一定时期内全社会建造和购置固定资产的工作量以及与此有关的费用的总称。其反映固定资产投资规模、结构和发展速度的综合性指标的同时，也是观察工程进度和考核投资效果的重要依据。我国的进出口总额是指实际进出我国国境的货物

30、总金额。其用以观察一个国家在对外贸易方面的总规模。财政收入y指国家财政参与社会产品分配所取得的收入，是实现国家职能的财力保证。财政收入按现行分税制财政体制划分为中央本级收入和地方本级收入。原数据如下：年份财政收入(亿元)y人均国内生产总值(元)x1经济活动人口(万人)x2全社会固定资产投资(亿元)x3进出口总额(人民币亿元)x41992年3483.372311.09667828080.19119.61993年4348.952998.366746813072.3112711994年5218.140446813517042.120381.91995年6242.25045.736885520019.

31、323499.91996年7407.995845.896976522913.524133.81997年8651.146420.187080024941.126967.21998年9875.956796.037208728406.126849.71999年11444.087158.57279129854.729896.22000年13395.237857.687399232917.739273.22001年16386.048621.717388437213.542183.62002年18903.649398.057449243499.951378.22003年21715.251054274911

32、55566.6170483.52004年26396.4712335.67529070477.4395539.12005年31649.2914185.47612088773.611169222006年38760.216499.776315109998.21409742007年51321.7820169.576531137323.91668642008年61330.3523707.777046172828.41799212009年68518.325607.577510224598.81506482010年83101.5130015.178388251683.82017222011年103874.4

33、35197.878579311485.12364022012年117253.538459.578894374694.7244160由于数据单位不同，为了消除量纲的影响，用SPSS对数据进行标准化处理，得到如下标准化的数据（所有取值保留了两位小数）：3.2相关分析3.2.1散点图（1）人均国内生产总值与我国财政收入的线性趋势关系：（2）经济活动人口与我国财政收入的线性趋势关系：（3）全社会固定资产投资与我国财政收入的趋势线性关系：（4）我国的进出口总额与财政收入的趋势线性关系：解析：由以上四个线性趋势图可以初步看出人均国内生产总值，经济活动人口，全社会固定资产投资，进出口总额与我国财政收入存在显

34、著相关。为验证其实际关系需要对数据进行进一步分析。3.1.2相关系数（1）本案例中计算的是因变量y与自变量，之间相关的密切程度。以下是用SPSS对数据进行相关性分析，得到如下的相关系数图解析：图中有带“*”号的结果表明有关的两变量在0.01的显著性水平下显著相关，由上图可知，y与的相关系数为10，表示呈一定的线性关系，相关系数检验对应的概率P值为0.000，小于显著性水平0.05，说明人均国内生产总值与我国财政收入之间相关性显著。y与的相关系数为0.9980，表示呈一定的线性关系，相关系数检验对应的概率P值为0.000，小于显著性水平0.05，说明经济活动人口与我国财政收入之间相关性显著。y

35、与的相关系数为0.9990，表示呈一定的线性关系，相关系数检验对应的概率P值为0.000，小于显著性水平0.05，说明全社会固定资产投资与我国财政收入之间相关性显著。y与的相关系数为0.9500，表示呈一定的线性关系，相关系数检验对应的概率P值为0.000，小于显著性水平0.05，说明我国的进出口总额与财政收入之间相关性显著。综上所述通过SPSS得出的相关系数的矩阵得到为：1 0.998 0.999 0.950 由以上数据可以看出，各列之间存在正相关关系。即人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y存在显著性相关关系。（2）计算偏相关系数：下面是用SPSS

36、作出人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y的偏相关系数：表一：表二：CorrelationsControl Variablesyx1x2 & x3 & x4yCorrelation1.000.782Significance (2-tailed).002df011x1Correlation.7821.000Significance (2-tailed).002.df110解析：表一为回归分析图中的人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额分别与财政收入y的偏相关系数，表二为SPSS偏相关系数操作中得出的我国人均国内生产总值与我国

37、财政收入的偏相关系数。由人均国内生产总值为例可以看出我国人均国内生产总值与我国财政收入的偏相关系数为0.782。P值检验的概率为0.0020.05，可以说明我国人均国内生产总值与我国财政收入之间显著性相关。同理，从以上的偏相关系数来看，如果人均国内生产总值、全社会固定资产投资、我国的进出口总额保持不变，经济活动人口与财政收入的偏相关系数为-0.673，其对应的P值检验为0.0120.05，经济活动人口与财政收入之间存在显著相关，当人均国内生产总值、经济活动人口、我国的进出口总额保持不变，全社会固定资产投资与财政收入的偏相关系数为0.670，其P值检验为0.0120.05, 我国的进出口总额与财

38、政收入的相关性不显著。 3.3回归分析对数据进行回归分析，得到如下结果：Model SummaryModelRR SquareAdjusted R SquareStd. Error of the Estimate11.000a.999.999.08605a. Predictors: (Constant), x4, x3, x2, x1解析：复相关系数为1，判定系数为0.999，调整系数为0.999，估计值的标准误差为0.08605 。ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression95.071423.7683.210E3.000aRe

39、sidual.08111.007Total95.15315a. Predictors: (Constant), x4, x3, x2, x1b. Dependent Variable: y解析：由上面结果的看其显著性检验结果为，回归平方和为95.071，残差平方和0.081，总平方和95.153， F统计量的值为3.210E3，对应的概率P值为0.000，小于显著性水平0.05，,即：人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y之间存在线性关系，所以可认为所建立的回归方程有效。CoefficientsaModelUnstandardized Coeffici

40、entsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)13.2054.5592.897.015x11.385.333.7184.160.002x2-13.8444.586-.131-3.019.012x3.300.100.3972.997.012x4.018.076.013.233.820a. Dependent Variable: y解析：由上图可知，因变量y与常数项和自变量，的回归的标准化回归系数分别为13.205,1.385-13.844,0.300,0.018。4个回归系数中可以看出的显著性水平大于0.05，即自变量对因

41、变量y的显著性不明显。而自变量，的P值检验均小于0.05，说明自变量，对因变量y有显著性影响。t检验：在给定的，自由度n=13-2=11的临界值时，查表得2.201可以看出常数项及自变量，的参数对应的t统计量的绝对值均大于2.201，这说明5%的显著性水平下，斜率系数均显著不为0，表明人均国内生产总值、经济活动人口、全社会固定资产投资等变量联合起来对我国的财政收入y有显著的影响。而我国的进出口总额的t值为0.233小于2.201，说明我国的进出口总额对我国的财政收入y的影响不显著。所以需要对数据进行逐步回归，剔除影响不显著的变量。未剔除不显著变量时的回归方程为：3.4逐步回归由上可知自变量进出

42、口总额未通过检验，因此对数据进行逐步回归的处理。逐步回归模型是以已知地理数据序列为基础，根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。逐步回归分析是指在多元线性回归分析中，利用求解求逆紧奏变换法和双检验法，来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。主要含义如下：1）逐步回归分析的理论基础是多元线性回归分析法；2）逐步回归分析的算法技巧是求解求逆紧奏变换法；3）逐步回归分析的方法技巧是双检验法，即引进和剔除检验法；4）逐步回

43、归分析的核心任务是建立最优回归方程；5）逐步回归分析的主要作用是降维。其主要用途：主要用于因果关系分析、聚类分析、区域规划、综合评价等等。对人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y进行逐步回归分析得：Variables Entered/RemovedaModelVariables EnteredVariables RemovedMethod1x1.Stepwise (Criteria: Probability-of-F-to-enter = .100).2x3.Stepwise (Criteria: Probability-of-F-to-enter =

44、 .100).3x2.Stepwise (Criteria: Probability-of-F-to-enter = .100).a. Dependent Variable: y解析：以上为逐步回归每一步进入或剔除回归模型中的变量情况。由上可以看出我国的进出口总额被剔除。其逐步回归的顺序为，.Model SummarydModelRR SquareAdjusted R SquareStd. Error of the Estimate1.998a.996.996.155912.999b.998.998.1095431.000c.999.999.08259a. Predictors: (Const

45、ant), x1b. Predictors: (Constant), x1, x3c. Predictors: (Constant), x1, x3, x2d. Dependent Variable: y解析：上表为逐步回归每一步的回归模型的统计量：R为相关系数，R Square相关系的平方，又叫判定系数，判定线性回归的拟合程度：这里可以看到自变量，的判定系数分别为0.996,0.998,0.999，这说明自变量与因变量之间的拟合程度很好。Adjusted R Square 是调整后的判定系数，其值与判定系数相同，最后一列是估计标准误差，分别为 0.156,0.109,0.083其值均很小，说

46、明所选值之间的标准误差很小。ANOVAdModelSum of SquaresdfMean SquareFSig.1Regression94.813194.8133.900E3.000aResidual.34014.024Total95.153152Regression94.997247.4983.958E3.000bResidual.15613.012Total95.153153Regression95.071331.6904.646E3.000cResidual.08212.007Total95.15315a. Predictors: (Constant), x1b. Predictors

47、: (Constant), x1, x3c. Predictors: (Constant), x1, x3, x2d. Dependent Variable: y解析：上表为方差分析表，及逐步回归每一步的回归模型的方差分析，可以看出其显著性水平的概率均为0.000，表明此回归模型极显著。解析：上表为回归方程系数表，根据多元回归模型：通过SPSS作出的逐步回归得到以上的结果，在统计显著水平，则T检验值为t=2.201下，三个变量及常数项的t检验的绝对值分别为7.394,4.346，-3.297,3.194其绝对值均大于t=2.201，说明三个因子自变量的显著性水平高。可得到的最优回归方程为：Tr

48、end值为该区域中2000年到2012年的模拟值。该值可以通过最优方程式得出，比如2012年的值为由上结果可以看出误差较小，其误差百分比在以内的占比比较大，说明模拟效果还可以。求得的逐步回归模型效果比较显著。3.5小结通过SPSS操作最后得到的我国财政收入的预测方程式：再加上最后对数据的检验可以得出人均国内生产总值、经济活动人口、全社会固定资产投资对财政收入y有显著的影响。从上面的操作可以看出变量通过初步的选取是不够的,需要对所选自变量进行检验,然后剔除未通过检验的变量,所以在案例二较案例一的区别在于多了一个逐步回归分析。即：众所周知人均国内生产总值，经济活动人口，全社会固定投资都是逐年变化

49、的，这里表现出的经济活动人口为负指标，随着社会的发展，中国的发展更是越来越迅速，这三个自变量之间存在着相对严密的关系。第四章总结及建议SPSS 是世界上最早采用图形菜单驱动界面的统计软件，其最突出的特点就是操作界面极为友好，输出结果美观漂亮，是“统计产品与服务解决方案”软件。除了数据录入及部分命令程序等少数的输入工作需要键盘键，而对于那些常见的统计方法，SPSS的命令语句、子命令及选择项的大部分都是由“对话框”的操作完成。所以不需要花大量时间来记忆这些大量的命令、过程或选择项。SPSS具有完整的数据输入、编辑、统计分析、报表、图形制作等功能，自带11种类型136个函数。由以上SPSS的操作方法

50、可以知道SPSS中有很多的统计方法，适合专业的统计人员对数据进行统计整理得出自己想要的结果。SPSS在得出的趋势线以及变量之间的线性关系，需要自己用一元线性回归的方法得出数据之间的系数，然后自己把方程写在趋势线旁边。SPSS从简单的统计描述到复杂的多因素统计分析方法，比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等都可以通过SPSS来实现。当然我们在数据的分析中可以根据自己的分析数据的需要进行灵活选择自己用什么软件比较方便。由两个案例分析中的操作中对比可以看出在对数据计算结果如果需要更精确一点，就需要通过对多元回归分析的操作方法进行对比可以知

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

毕业论文统计学本科多元回归分析中变量的选择——SPSS的应用

文档简介

温馨提示

最新文档

评论

毕业论文统计学本科多元回归分析中变量的选择——SPSS的应用

文档简介

温馨提示

最新文档

评论

相关文档