多元回归分析中变量的选择-SPSS的应用毕业论文_第1页
多元回归分析中变量的选择-SPSS的应用毕业论文_第2页
多元回归分析中变量的选择-SPSS的应用毕业论文_第3页
多元回归分析中变量的选择-SPSS的应用毕业论文_第4页
多元回归分析中变量的选择-SPSS的应用毕业论文_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE29毕业论文题目多元回归分析中的变量选取——SPSS的应用

多元回归分析中的变量选取——SPSS的应用摘要本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计中的多元回归数据的选取和操作方法有更深层次的了解。一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究。本文通过两个实证从不同程度上对数据选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解。通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议。关键词:统计学SPSS变量的选取多元回归分析AbstractInthispaper,notonlyforcomplexstatisticalcalculationsdonebythecommonlyusedcomputerapplicationsoftwareofSPSS,throughtheempiricalanalysisofthetwogroupsofdataatthesametime,tostudythestatisticsofthevariablesinthemultivariateregressionanalysis,leteverybodytoselectmultipleregressioninstatisticaldataandoperationmethodshaveadeeperunderstanding.Isasetofdataforthefuturedevelopmenttrendoftaobaotransactionsofresearch,asetofdatafortheresearchofourcountry'sfinancialincome.Inthispaper,throughtwoempiricaltoselectdatafromdifferentextentresearchusingacommonlanguageandplaintheSPSSstatisticalanalysismethodinmultipleregressionanalysisofpresentinfrontofeveryone,leteveryonetomultipleregressionanalysisandSPSSsoftwarecanhaveadeeperunderstanding.ThroughtheSPSSsoftwaretoanalyzedata,andsummarizesmethodofdataprocessing,findouttheadvantagesanddisadvantagesofSPSSfordataprocessingandanalysis,finallyhadtoputforwardtheproposaltotheoperationoftheselectionofvariablesandsoftware.Keywords:StatisticalSPSSTheselectionofvariablesmultipleregressionanalysis目录摘要 1英文摘要 1引言 3第一章回归分析 31.1自变量的选择 41.2国内外研究现状 5第二章案例分析一:淘宝交易额的研究 62.1数据的来源及变量的选取 62.2相关分析 72.2.1散点图 72.2.2计算相关系数 82.3回归分析 112.4小结 13第三章案例分析二:财政收入的研究 143.1数据的来源及变量的选取 143.2相关分析 153.2.1散点图 153.2.2计算相关系数 173.3回归分析 193.4逐步回归 213.5小结 24第四章总结及建议 25参考文献 26引言统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。然而随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军事、医学等领域的研究中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂。随着我国社会主义市场经济的日趋完善,不管是在宏观经济的经济调控领域还是在微观的企业管理领域中,人们必须准确及时的获得经济运行中的各类信息才能得到高效的监控和科学的管理。然而科学研究的深入,研究的对象也日益变得复杂,复杂系统的研究问题更是成为当今研究的热点。为了更好的描述一个复杂的现象,就需要大量的数据和信息,如何高效、准确地利用已知的信息便成为当今社会研究的一项重要课题。基于以上背景,本文通过总结和吸取其他国内外学者对统计学研究的,并结合我国的实际情况,本文采用了案例一对于网络购物这块的的研究,通过对2005年到2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究以及案例二对于我国财政收入的研究,通过对2000年到2012年的人均国内生产总值,经济活动人口,全社会固定投资,进出口总额,居民消费价格水平对我国财政收入的影响进行定量数据的研究。通过对数据的选取,以及软件的操作方法来告知读者如何在SPSS的操作中变量选取的原则、要求和方法。第一章自变量的选择1.1自变量的选择在多元线性回归模型中,自变量的选择实质上就是模型的选择。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记:),在获得n组观测数据后,我们有模型其中:是的观测值,是未知参数向量,是结构矩阵,并假定X的秩为。现从这t个变量中选变量,不妨设,那么对全模型中的参数和结构矩阵可作如下的分块(记:):,我们称下面的回归模型为选模型:其中:是的观测值,是未知参数向量,是结构矩阵,并假定的秩为。自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二是若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见,先引入几个记号:全模型中参数的估计:其中:为矩阵的秩。在点点上的预测值为在选模型中参数的估计:在上的预测值为1.2国内外研究现状在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要问题。通常,在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量也选入了回归模型中,这样一来,不但计算量变大,而且估计和预测的精度也会下降。此外,如果遗漏了某些重要变量,回归方程的效果肯定不好。在一些情况下,某些自变量的观测数据的获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,我们不加选择的引进回归模型,势必造成观测数据收集和模型应用的费用不必要的加大。因此,在应用回归分析中,对进入模型的自变量作精心的选择是十分必要的。SPSS软件作为当今国际上运用广泛的统计分析软件,因其具有自动统计绘图、数据的深入分析、易学易用、功能齐全等特点,在各个领域得到了迅速普及,并成为各行业管理组织提高管理水平、形成科学决策的重要手段。然而,我国对该软件的理解和运用还处于早期应用阶段,对其功能的研究开发与实际生活当中的运用与西方发达国家相差甚远。特别是在管理决策方面,管理者对客观现实的准确把握对于决策起着至关重要的作用,他们花费大量人力、物力、财力收集统计数据,但是由于没有进行深度分析而浪费,或者仅仅利用SPSS软件进行简单分析而未进行深度开发,致使所得信息有限、各信息间的关系不明确,最终导致管理者的判断出现偏差。第二章案例分析一:淘宝交易额的研究2.1数据的来源及变量的解释为研究淘宝网未来发展趋势,从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响。并在新浪财经网上获得淘宝网自2005年到2012年的淘宝交易额以及淘宝注册人数的数据。在中商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费水平。淘宝注册人数()在一定程度上反应了网络购物的群众的人数,反应了当今社会网络购物的普遍性。同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持。我国网络普及度()是指我国近几年网络在我国普及的范围,这一块更好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件。我国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛,人们对网络的接受程度,信任程度也是直接影响到淘宝的网络购物。居民消费水平()是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。它主要通过消费的物质产品和劳务的数量和质量来反映。居民消费水平的提高也能很好的展现在网络消费上作出的贡献。通过对以上这三个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态。原始数据如下:由于数据之间单位的不同,为了消除量纲的影响,把数据标准化进行处理,得到如下标准化的数据(所有取值保留了两位小数):2.2相关分析2.2.1散点图对y与各个变量作出散点图(1)淘宝注册人数与y的相关性散点图:(2)网络普及度与淘宝网交易总额的相关性检验:(3)我国居民消费水平与淘宝交易的相关性检验:由以上三个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在显著相关关系。所以我们还需要对数据进行进一步的分析,得到确切的答案。2.2.2计算相关系数(1)复相关系数r是用来衡量回归直线对于观察值配合的密切程度,即用来衡量因变量y与自变量,,之间相关的密切程度。以下是用SPSS对数据进行相关性分析,得到如下的相关系数图解析:图中有带“**”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由上图可知,y与的相关系数为0.992>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与淘宝注册人数之间相关性显著。y与的相关系数为0.901>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.002,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著。y与的相关系数为0.965>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与居民消费水平之间相关性显著。综上所述通过SPSS得出的相关系数的矩阵得到为:0.992=0.901=0.965由以上数据可以看出,各列之间存在正相关关系。即淘宝网注册人数、我国网络普及度、我国居民消费水平与淘宝交易总额y存在正相关关系。(2)计算偏相关系数:在多变量的情况下,变量之间的相关系数是相当复杂的。任意两个变量之间都有可能存在着相关关系,因此,只知道被解释变量与解释变量的总的相关程度是不够的。如果需要了解某两个变量间的相关程度,就应在消除其他变量影响的情况下来计算他们的相关系数,这就是偏相关系数。下面是用SPSS作出的偏相关系数:①消除我国网络普及度和居民消费水平的影响后,计算淘宝注册人数与淘宝交易额的偏相关系数为:CorrelationsControlVariablesyx1x2&x3yCorrelation1.000.894Significance(2-tailed)..016df04x1Correlation.8941.000Significance(2-tailed).016.df40解析:由上可知,淘宝注册人数与淘宝交易额的偏相关系数为0.894。②消除淘宝交易额和居民消费水平的影响后,我国网络普及度和淘宝交易额的偏相关系数为:CorrelationsControlVariablesyx2x3&x1yCorrelation1.000-.806Significance(2-tailed)..053df04x2Correlation-.8061.000Significance(2-tailed).053.df40解析:由上可知我国网络普及度与淘宝交易额的偏相关系数为-0.806。③消除淘宝注册人数和我国网络普及度的影响后,我国居民消费水平和淘宝交易额的偏相关系数:CorrelationsControlVariablesyx3x1&x2yCorrelation1.000.810Significance(2-tailed)..051df04x3Correlation.8101.000Significance(2-tailed).051.df40解析:由上可知,我国居民消费水平和淘宝交易额的偏相关系数为0.810。④消除我国居民消费水平和淘宝交易额的影响后,淘宝注册人数和我国网络普及度的偏相关系数:CorrelationsControlVariablesx1x2x3&yx1Correlation1.000.584Significance(2-tailed)..224df04x2Correlation.5841.000Significance(2-tailed).224.df40解析:由上可知,淘宝注册人数和我国网络普及度的偏相关系数为0.584。⑤消除淘宝注册人数和淘宝交易额的影响后,我国居民消费水平和我国网络普及度的偏相关系数:CorrelationsControlVariablesx2x3y&x1x2Correlation1.000.863Significance(2-tailed)..002df04x3Correlation.8631.000Significance(2-tailed).002.df40解析:由上可知,我国居民消费水平和我国网络普及度的偏相关系数为0.963。⑥消除我国网络普及度和淘宝交易额的影响后,我国居民消费水平和淘宝注册人数的偏相关系数:CorrelationsControlVariablesx3x1y&x2x3Correlation1.000-.505Significance(2-tailed)..306df04x1Correlation-.5051.000Significance(2-tailed).306.df40解析:由上可知,我国居民消费水平和淘宝注册人数的偏相关系数为-0.505。综上:从以上的偏相关系数来看,如果我国网络普及度和居民消费水平保持不变,淘宝注册人数与淘宝交易额之间存在显著相关,当淘宝交易额和居民消费水平的保持不变时,我国网络普及度和淘宝交易额之间存在显著负相关,当淘宝注册人数和我国网络普及度的保持不变时,我国居民消费水平和淘宝交易额的也存在显著相关,当我国居民消费水平和淘宝交易额保持不变时,淘宝注册人数和我国网络普及度之间存在显著相关,当我国网络普及度和淘宝交易额保持不变时,我国居民消费水平和淘宝注册人数存在显著负相关。但是其关系强度较前者略低,所以经过以上系数得到的偏相关系数可以看出,其相关程度较原关系的强度低,应采用原数据的自变量和因变量。即所采用的自变量和因变量保持不变。2.3回归分析对数据进行回归分析,得到如下结果:解析:复相关系数为0.997,判定系数为0.995,调整系数为0.990,估计值的标准误差为4.157。ANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression12661.52434220.508244.231.000aResidual69.123417.281Total12730.6477a.Predictors:(Constant),x3,x1,x2b.DependentVariable:y解析:由上面结果的看其显著性检验结果为,回归平方和为12661.224,残差平方和69.123,总平方和12730.647,F统计量的值为244.231,对应的概率P值为0.000,小于显著性水平0.05,,即:淘宝交易总额y与淘宝网注册人数、我国网络普及度和我国居民消费水平之间存在线性关系,所以可认为所建立的回归方程有效。CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-59.70921.531-2.773.050x12.529.636.6593.980.016x2-15.9855.870-.563-2.723.043x370.13925.378.8792.764.031a.DependentVariable:y解析:由上图可知,因变量y与常数项和自变量,,的回归的标准化回归系数分别为-59.709,2.529,-15.985,70.139。3个回归系数B的显著性水平小于0.05,这里可以认为自变量,,对因变量y有显著性影响。于是得到回归方程为:由上图可知对数据进行t值检验,在给定的,自由度n=8-2=6的临界值时,查表得2.447因为,,的参数对应的t统计量的绝对值均大于2.447,这说明5%的显著性水平下,斜率系数均显著不为0,表明淘宝网注册人数,我国网络普及度,我国居民消费水平等变量联合起来对该商品的消费支出有显著的影响。P检验:由上表可以看出各自变量以及常数项的P值分别为:0.05,0.016,0.043及0.031,可以看出其P值均小于0.05,均通过检验综上所述,三个自变量对因变量都有显著性影响,并都通过了检验可以得到最优方程式为:2.4小结通过SPSS操作最后得到的淘宝交易额的预测方程式:再加上最后对数据的检验可以得出淘宝网注册人数,我国网络普及度,我国居民消费水平等变量联合起来对淘宝交易总额y有显著的影响。影响公式可以近似为:即:淘宝注册人数增加就可使得淘宝网的交易额增加。众所周知我国网络普及度是在逐年增加的,这里表现出的网络普及度为负指标,并不代表网络普及度要递减才可以使得淘宝交易额增加,随着社会的发展,中国的发展更是越来越迅速,网络普及度的增加使得更多的地方有网络,更多的人了解网络才能使得我国淘宝注册人数的增加。这两个自变量之间存在着相对严密的关系。人均收入的增加固使得人们的消费指数上升,那么人们在网络购物和日常消费的比例也会发生变化,这里我们可以看出这个比例是在增加的,那么淘宝交易额增加也是必不可少的。第三章案例分析二:我国财政收入的研究3.1数据的来源及变量的解释为研究我国财政收入情况,为研究人均国内生产总值,经济活动人口,全社会固定资产投资,进出口总额,居民消费价格指数对财政收入的影响,通过中国国家统计局下载2000年到2012年的数据进行研究。人均国内生产总值是指国内生产总值的绝对值与该年平均人口的比值,是衡量一个国家或地区每个居民对该国家或地区的经济贡献或创造价值的指标。经济活动人口是指在16周岁及以上,有劳动能力,参加或要求参加社会经济活动的人口。包括就业人员和失业人员。全社会固定资产投资是指以货币形式表现的在一定时期内全社会建造和购置固定资产的工作量以及与此有关的费用的总称。其反映固定资产投资规模、结构和发展速度的综合性指标的同时,也是观察工程进度和考核投资效果的重要依据。我国的进出口总额是指实际进出我国国境的货物总金额。其用以观察一个国家在对外贸易方面的总规模。财政收入y指国家财政参与社会产品分配所取得的收入,是实现国家职能的财力保证。财政收入按现行分税制财政体制划分为中央本级收入和地方本级收入。原数据如下:年份财政收入(亿元)y人均国内生产总值(元)x1经济活动人口(万人)x2全社会固定资产投资(亿元)x3进出口总额(人民币亿元)x41992年3483.372311.09667828080.19119.61993年4348.952998.366746813072.3112711994年5218.140446813517042.120381.91995年6242.25045.736885520019.323499.91996年7407.995845.896976522913.524133.81997年8651.146420.187080024941.126967.21998年9875.956796.037208728406.126849.71999年11444.087158.57279129854.729896.22000年13395.237857.687399232917.739273.22001年16386.048621.717388437213.542183.62002年18903.649398.057449243499.951378.22003年21715.25105427491155566.6170483.52004年26396.4712335.67529070477.4395539.12005年31649.2914185.47612088773.611169222006年38760.216499.776315109998.21409742007年51321.7820169.576531137323.91668642008年61330.3523707.777046172828.41799212009年68518.325607.577510224598.81506482010年83101.5130015.178388251683.82017222011年103874.435197.878579311485.12364022012年117253.538459.578894374694.7244160由于数据单位不同,为了消除量纲的影响,用SPSS对数据进行标准化处理,得到如下标准化的数据(所有取值保留了两位小数):3.2相关分析3.2.1散点图(1)人均国内生产总值与我国财政收入的线性趋势关系:(2)经济活动人口与我国财政收入的线性趋势关系:(3)全社会固定资产投资与我国财政收入的趋势线性关系:(4)我国的进出口总额与财政收入的趋势线性关系:解析:由以上四个线性趋势图可以初步看出人均国内生产总值,经济活动人口,全社会固定资产投资,进出口总额与我国财政收入存在显著相关。为验证其实际关系需要对数据进行进一步分析。3.1.2相关系数(1)本案例中计算的是因变量y与自变量,,,之间相关的密切程度。以下是用SPSS对数据进行相关性分析,得到如下的相关系数图解析:图中有带“**”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由上图可知,y与的相关系数为1>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明人均国内生产总值与我国财政收入之间相关性显著。y与的相关系数为0.998>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明经济活动人口与我国财政收入之间相关性显著。y与的相关系数为0.999>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明全社会固定资产投资与我国财政收入之间相关性显著。y与的相关系数为0.950>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明我国的进出口总额与财政收入之间相关性显著。综上所述通过SPSS得出的相关系数的矩阵得到为:10.9980.9990.950由以上数据可以看出,各列之间存在正相关关系。即人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y存在显著性相关关系。(2)计算偏相关系数:下面是用SPSS作出人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y的偏相关系数:表一:表二:CorrelationsControlVariablesyx1x2&x3&x4yCorrelation1.000.782Significance(2-tailed)..002df011x1Correlation.7821.000Significance(2-tailed).002.df110解析:表一为回归分析图中的人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额分别与财政收入y的偏相关系数,表二为SPSS偏相关系数操作中得出的我国人均国内生产总值与我国财政收入的偏相关系数。由人均国内生产总值为例可以看出我国人均国内生产总值与我国财政收入的偏相关系数为0.782。P值检验的概率为0.002<0.05,可以说明我国人均国内生产总值与我国财政收入之间显著性相关。同理,从以上的偏相关系数来看,如果人均国内生产总值、全社会固定资产投资、我国的进出口总额保持不变,经济活动人口与财政收入的偏相关系数为-0.673,其对应的P值检验为0.012<0.05,经济活动人口与财政收入之间存在显著相关,当人均国内生产总值、经济活动人口、我国的进出口总额保持不变,全社会固定资产投资与财政收入的偏相关系数为0.670,其P值检验为0.012<0.05,即全社会固定资产投资与财政收入之间存在显著相关,当人均国内生产总值、经济活动人口、全社会固定资产投资保持不变,我国的进出口总额与财政收入的偏相关系数为0.070,其P值检验为0.820>0.05,我国的进出口总额与财政收入的相关性不显著。3.3回归分析对数据进行回归分析,得到如下结果:ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate11.000a.999.999.08605a.Predictors:(Constant),x4,x3,x2,x1解析:复相关系数为1,判定系数为0.999,调整系数为0.999,估计值的标准误差为0.08605。ANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression95.071423.7683.210E3.000aResidual.08111.007Total95.15315a.Predictors:(Constant),x4,x3,x2,x1b.DependentVariable:y解析:由上面结果的看其显著性检验结果为,回归平方和为95.071,残差平方和0.081,总平方和95.153,F统计量的值为3.210E3,对应的概率P值为0.000,小于显著性水平0.05,,即:人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y之间存在线性关系,所以可认为所建立的回归方程有效。CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)13.2054.5592.897.015x11.385.333.7184.160.002x2-13.8444.586-.131-3.019.012x3.300.100.3972.997.012x4.018.076.013.233.820a.DependentVariable:y解析:由上图可知,因变量y与常数项和自变量,,,的回归的标准化回归系数分别为13.205,1.385-13.844,0.300,0.018。4个回归系数中可以看出的显著性水平大于0.05,即自变量对因变量y的显著性不明显。而自变量,,的P值检验均小于0.05,说明自变量,,对因变量y有显著性影响。t检验:在给定的,自由度n=13-2=11的临界值时,查表得2.201可以看出常数项及自变量,,的参数对应的t统计量的绝对值均大于2.201,这说明5%的显著性水平下,斜率系数均显著不为0,表明人均国内生产总值、经济活动人口、全社会固定资产投资等变量联合起来对我国的财政收入y有显著的影响。而我国的进出口总额的t值为0.233小于2.201,说明我国的进出口总额对我国的财政收入y的影响不显著。所以需要对数据进行逐步回归,剔除影响不显著的变量。未剔除不显著变量时的回归方程为:3.4逐步回归由上可知自变量进出口总额未通过检验,因此对数据进行逐步回归的处理。逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。

逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。主要含义如下:

逐步回归分析的理论基础是多元线性回归分析法;

逐步回归分析的算法技巧是求解求逆紧奏变换法;

3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法;

4)逐步回归分析的核心任务是建立最优回归方程;

5)逐步回归分析的主要作用是降维。

其主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。对人均国内生产总值、经济活动人口、全社会固定资产投资、我国的进出口总额与财政收入y进行逐步回归分析得:VariablesEntered/RemovedaModelVariablesEnteredVariablesRemovedMethod1x1.Stepwise(Criteria:Probability-of-F-to-enter<=.050,Probability-of-F-to-remove>=.100).2x3.Stepwise(Criteria:Probability-of-F-to-enter<=.050,Probability-of-F-to-remove>=.100).3x2.Stepwise(Criteria:Probability-of-F-to-enter<=.050,Probability-of-F-to-remove>=.100).a.DependentVariable:y解析:以上为逐步回归每一步进入或剔除回归模型中的变量情况。由上可以看出我国的进出口总额被剔除。其逐步回归的顺序为,,.ModelSummarydModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.998a.996.996.155912.999b.998.998.1095431.000c.999.999.08259a.Predictors:(Constant),x1b.Predictors:(Constant),x1,x3c.Predictors:(Constant),x1,x3,x2d.DependentVariable:y解析:上表为逐步回归每一步的回归模型的统计量:R为相关系数,RSquare相关系的平方,又叫判定系数,判定线性回归的拟合程度:这里可以看到自变量,,的判定系数分别为0.996,0.998,0.999,这说明自变量与因变量之间的拟合程度很好。AdjustedRSquare是调整后的判定系数,其值与判定系数相同,最后一列是估计标准误差,分别为0.156,0.109,0.083其值均很小,说明所选值之间的标准误差很小。ANOVAdModelSumofSquaresdfMeanSquareFSig.1Regression94.813194.8133.900E3.000aResidual.34014.024Total95.153152Regression94.997247.4983.958E3.000bResidual.15613.012Total95.153153Regression95.071331.6904.646E3.000cResidual.08212.007Total95.15315a.Predictors:(Constant),x1b.Predictors:(Constant),x1,x3c.Predictors:(Constant),x1,x3,x2d.DependentVariable:y解析:上表为方差分析表,及逐步回归每一步的回归模型的方差分析,可以看出其显著性水平的概率均为0.000,表明此回归模型极显著。解析:上表为回归方程系数表,根据多元回归模型:通过SPSS作出的逐步回归得到以上的结果,在统计显著水平,则T检验值为t=2.201下,三个变量及常数项的t检验的绝对值分别为7.394,4.346,-3.297,3.194其绝对值均大于t=2.201,说明三个因子自变量的显著性水平高。可得到的最优回归方程为:Trend值为该区域中2000年到2012年的模拟值。该值可以通过最优方程式得出,比如2012年的值为由上结果可以看出误差较小,其误差百分比在以内的占比比较大,说明模拟效果还可以。求得的逐步回归模型效果比较显著。3.5小结通过SPSS操作最后得到的我国财政收入的预测方程式:再加上最后对数据的检验可以得出人均国内生产总值、经济活动人口、全社会固定资产投资对财政收入y有显著的影响。从上面的操作可以看出变量通过初步的选取是不够的,需要对所选自变量进行检验,然后剔除未通过检验的变量,所以在案例二较案例一的区别在于多了一个逐步回归分析。即:众所周知人均国内生产总值,经济活动人口,全社会固定投资都是逐年变化的,这里表现出的经济活动人口为负指标,随着社会的发展,中国的发展更是越来越迅速,这三个自变量之间存在着相对严密的关系。第四章总结及建议SPSS是世界上最早采用图形菜单驱动界面的统计软件,其最突出的特点就是操作界面极为友好,输出结果美观漂亮,是“统计产品与服务解决方案”软件。除了数据录入及部分命令程序等少数的输入工作需要键盘键,而对于那些常见的统计方法,SPSS的命令语句、子命令及选择项的大部分都是由“对话框”的操作完成。所以不需要花大量时间来记忆这些大量的命令、过程或选择项。SPSS具有完整的数据输入、编辑、统计分析、报表、图形制作等功能,自带11种类型136个函数。由以上SPSS的操作方法可以知道SPSS中有很多的统计方法,适合专业的统计人员对数据进行统计整理得出自己想要的结果。SPSS在得出的趋势线以及变量之间的线性关系,需要自己用一元线性回归的方法得出数据之间的系数,然后自己把方程写在趋势线旁边。SPSS从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等都可以通过SPSS来实现。当然我们在数据的分析中可以根据自己的分析数据的需要进行灵活选择自己用什么软件比较方便。由两个案例分析中的操作中对比可以看出在对数据计算结果如果需要更精确一点,就需要通过对多元回归分析的操作方法进行对比可以知道,采用逐步回归分析的方法对数据进行处理,剔除没有通过检验的,对因变量影响不显著的。由以上案例中可以看到,多元回归分析中变量的选择不能靠简单的自行筛选就可以,有时候对于一些变量的筛选都通过检验,并不能代表你在选择数据上有多高明,而是需要通过相关性分析,计算复相关系数和偏相关系数来了解你所选的变量之间的相关关系谁更大一些。同时也可以知道在变量的选择中我们需要的是先选择模型,到底是全回归模型还是选模型,而若用选模型究竟应该包含多少变量最适合,案例一我们用的是去全模型进行分析,案例二我们用得则是选模型,在用全模型还是选模型需要通过对变量进行分析,而相关系数以及方差分析就是很好检验数据的方法。从而可以看出所选的变量是否符合要求。然后再通过回归分析,看数据之间的P值检验,是否通过P值检验,如果两个检验均通过,说明说选定的变量在多元回归分析中,自变量对因变量有显著性影响,从而确定影响程度的大小,最后在通过检验之后得到最优方程式,这就是自变量与因变量之间的关联方程式。该方程式预测了我国淘宝注册人数,网络普及度和居民消费水平关于淘宝交易额的影响的预测方程式。实验中通过对数据的检验可以看出其计算结果的误差系数较低。从案例分析二,我们还可以看到在选择变量时当存在为通过检验,或者变量之间的偏相关系数大于复相关系数时的处理方法,这里我们研究的是当自变量的P值检验或t值检验没通过是,对于变量选取的处理方法,本文采用了一个简单的SPSS的操作方法,逐步回归分析,通过软件操作,逐步回归分析会通过逐步的对数据进行检验,把关联程度大的先检验,逐步进行最后直接剔除未通过检验的数据,在逐步回归之前我们也得到一个预测方程式,很显然,在解释变量未通过检验的情况下,所得到的预测方程式是完全没有意义,其在操作过程中更是方便简洁。通过以上两个案例分析,我们可以看出,不能只靠肉眼的观察和直观的选择就对变量进行判断,需要通过一系列的检验方法对数据进行对比研究,才能得出最优的方程式。参考文献[1]魏和清,罗良清.实用统计学.中国财政经济出版社,2011.7[2]符啟勋.实用统计学.国防工业出版社,2008.7[3]王正朋.实用统计学.中国财政经济出版社,2008.6[4]薛薇.基于SPSS的数据分析.对外经济贸易大学出版社,2007 [5]冯力.统计学实验.东北财经大学出版社,2012.3[6]陈珍珍.统计学.厦门大学出版社,2006.12[7]阮桂海.SPSS实用教程.北京大学出版社.1999[8]阮桂海.数据统计与分析-SPSS应用教程.北京大学出版社,2005[9]何晓群.现代统计分析方法与应用.中国人民大学出版社,2012.2[10]张海瑜.SPSS软件在管理决策方面的应用扩展.北京化工大学,2011[11]余建英.数据统计分析与SPSS应用.北京:人民邮电出版社,2004[12]薛微.基于SPSS的数据分析[M].北京:中国人民大学出版社,2006[13]吴世军.SPSS在数据分析中的应用[J].统计与决策,2006[14]朱建平,殷瑞飞.SPSS在统计分析中的应用[M].清华大学出版社,2007[15]詹世煌,方世荣.统计学导论.台湾:晓园出版社.1995.5[16]许飞琼,曾玉平.统计学.北京:中国统计出版社,1995.9[17]汪浩瀚,丁元耀.应用统计学.中国人民大学出版社,1993.4[18]黄良文.统计学原理.中国统计出版社,2002[19]茆诗松.概率论与数理统计.中国统计出版社,1999[20]毛炳寰.用Excel和SPSS学习统计学.中国财政经济出版社,2005.9[21]王玉荣.统计数据分析软件教程.对外经济贸易大学出版社,2007[22]薛薇.基于SPSS的数据分析.中国人民大学出版社,2007[23]肖智.应用统计学实验.重庆大学出版社,2007[24]李纬铮.应用统计学.高等教育出版社.1989[25]胡健颖,冯泰.实用统计学.北京大学出版社[26]汤银才.R语言与统计分析.高等教育出版社,2008.5[27]何晓群.多元统计学.中国人民大学出版社.2010[28]高尚华.线性统计建模线性回归与方差分析.1994基于C8051F单片机直流电动机反馈控制系统的设计与研究基于单片机的嵌入式Web服务器的研究MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究基于模糊控制的电阻钎焊单片机温度控制系统的研制基于MCS-51系列单片机的通用控制模块的研究基于单片机实现的供暖系统最佳启停自校正(STR)调节器单片机控制的二级倒立摆系统的研究基于增强型51系列单片机的TCP/IP协议栈的实现基于单片机的蓄电池自动监测系统基于32位嵌入式单片机系统的图像采集与处理技术的研究基于单片机的作物营养诊断专家系统的研究基于单片机的交流伺服电机运动控制系统研究与开发基于单片机的泵管内壁硬度测试仪的研制基于单片机的自动找平控制系统研究基于C8051F040单片机的嵌入式系统开发基于单片机的液压动力系统状态监测仪开发模糊Smith智能控制方法的研究及其单片机实现一种基于单片机的轴快流CO〈,2〉激光器的手持控制面板的研制基于双单片机冲床数控系统的研究基于CYGNAL单片机的在线间歇式浊度仪的研制基于单片机的喷油泵试验台控制器的研制基于单片机的软起动器的研究和设计基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究基于单片机的机电产品控制系统开发基于PIC单片机的智能手机充电器基于单片机的实时内核设计及其应用研究基于单片机的远程抄表系统的设计与研究基于单片机的烟气二氧化硫浓度检测仪的研制基于微型光谱仪的单片机系统单片机系统软件构件开发的技术研究基于单片机的液体点滴速度自动检测仪的研制基于单片机系统的多功能温度测量仪的研制基于PIC单片机的电能采集终端的设计和应用基于单片机的光纤光栅解调仪的研制气压式线性摩擦焊机单片机控制系统的研制基于单片机的数字磁通门传感器基于单片机的旋转变压器-数字转换器的研究基于单片机的光纤Bragg光栅解调系统的研究单片机控制的便携式多功能乳腺治疗仪的研制基于C8051F020单片机的多生理信号检测仪基于单片机的电机运动控制系统设计Pico专用单片机核的可测性设计研究基于MCS-51单片机的热量计基于双单片机的智能遥测微型气象站MCS-51单片机构建机器人的实践研究基于单片机的轮轨力检测基于单片机的GPS定位仪的研究与实现基于单片机的电液伺服控制系统用于单片机系统的MMC卡文件系统研制基于单片机的时控和计数系统性能优化的研究基于单片机和CPLD的粗光栅位移测量系统研究单片机控制的后备式方波UPS提升高职学生单片机应用能力的探究基于单片机控制的自动低频减载装置研究基于单片机控制的水下焊接电源的研究基于单片机的多通道数据采集系统基于uPSD3234单片机的氚表面污染测量仪的研制基于单片机的红外测油仪的研究96系列单片机仿真器研究与设计基于单片机的单晶金刚石刀具刃磨设备的数控改造基于单片机的温度智能控制系统的设计与实现基于MSP430单片机的电梯门机控制器的研制基于单片机的气体测漏仪的研究基于三菱M16C/6N系列单片机的CAN/USB协议转换器基于单片机和DSP的变压器油色谱在线监测技术研究基于单片机的膛壁温度报警系统设计基于AVR单片机的低压无功补偿控制器的设计基于单片机船舶电力推进电机监测系统基于单片机网络的振动信号的采集系统基于单片机的大容量数据存储技术的应用研究基于单片机的叠图机研究与教学方法实践基于单片机嵌入式Web服务器技术的研究及实现基于AT89S52单片机的通用数据采集系统基于单片机的多道脉冲幅度分析仪研究机器人旋转电弧传感角焊缝跟踪单片机控制系统基于单片机的控制系统在PLC虚拟教学实验中的应用研究基于单片机系统的网络通信研究与应用基于PIC16F877单片机的莫尔斯码自动译码系统设计与研究基于单片机的模糊控制器在工业电阻炉上的应用研究基于双单片机冲床数控系统的研究与开发HYPER

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论