




免费预览已结束,剩余11页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北 京 航 空 航 天 大 学 数 理 统 计 论 文利用逐步回归法对青岛的财政收入分析摘要:一个地区的生产总值受多个因素的影响,很难对其进行准确的估计预测。针对青岛地区生产总值,本文选取了几个主要的影响因素,利用SPSS17.0软件,应用逐步回归的统计方法,对数据进行了分析处理,得到了多元线性回归方程,建立了青岛地区生产总值的简单数学模型,并对影响该地区生产总值的显著性因素进行了分析。关键词:逐步回归分析 SPSS 生产总值 预测 方差引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。这一技术被用于几乎是所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学1。逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程2。 SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能,而且用它处理正交试验设计中的数据程序简单,分析结果明了3。基于以上优点,SPSS已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。如果要了解一个地区的经济状况,就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如吸引的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文选取了山东青岛统计信息网上从1995-2007年财政收入及主要影响因素的数据,包括工业,农业,建筑业,交通运输仓储邮电通信业,批发和零售贸易餐饮业,金融保险业,总人口数。本文中为了方便讨论,我把因素定为:x1代表工业总产值;x2代表农业总产值;x3代表建筑业总产值;x4代表人口总数;x5代表批发和零售贸易餐饮业;x6代表金融保险业;x7代表交通运输仓储邮电通信业,y代表当年的青岛财政收入;y为随机变量,x1,x2x7为变量。如表一所示因素数据额年份财政收入(亿元)工业(亿元)农业(亿元建筑业亿元)人口数(万人)批发零售贸易.餐饮业(亿元)金融保险业(亿元)交通运输.仓储.邮电通信业(亿元)1995631.45263.98112.5330.45684.6340.1246.0941.61996710.19289.91132.8138.58690.2745.6551.354.211997797.7340116.9742695.4457.6762.2364.221998888.39366.87140.446.88699.5769.9957.3470.011999992.83420.7137.3651.5702.9778.5958.9484.2520001150.07500.32139.8859.7706.6590.3549.01105.8920011316.08578.23143.2270.51710.49103.6851.98120.9720021518.17680.96145.9484.01715.65129.9942.7140.7520031780.42825.52147.51111.69720.68145.8741.51166.4920042163.81024.08161.8147.32731.12160.5652.3211.3420052695.821263.29178.33132.96740.91211.867.35287.3520063206.581527.49183.95149.68749.38238.487.56343.8420073 786.521 785.31203.59168.24757.99286.32122.18397.75表1 青岛地区生产总值相关数据表逐步回归的基本思想及方法回归分析是研究因变量和自变量之间变动比例关系的一种方法,最终结果一般是建立某种经验性的回归方程。回归分析因变量的多少有一元回归和多元回归之分,本文中的回归模型因有6个因变量股为多元回归。在实际研究中,影响因变量Y的因素有很多,而这些因素之间可能存在多重共线性,特别是在各个解释变量之间有高度的相互依赖性,如温度和雨量、雨量与雨日之间的关系密切,这就给回归系数的估计带来不合理的解释。为了得到一个可靠的回归模型,需要一种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量,在它们和Y的观测数据基础上建立“最优”的回归方程。逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生出来的一种算法技巧。逐步回归分析法在筛选变量方面较为理想,故目前多采用该方法来组建回归模型。该方法也是从一个自变量开始,视自变量对Y作用的显著程度,从大到小地依次逐个引入回归方程。但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要进行F值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。 本文运用SPSS for Windows软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量,组建回归方程。当F =F =0时,则所有的变量全部被引入, 逐步回归分析结果就和一般的多元线性回归分析结果相同。当F取值比较大时,理论和实践都表明,在相同的F水平上,用逐步回归筛选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。为了从挑选因子中筛选出尽可能多的因子建立回归预测模型,本系统可以自己给出F 临界值,计算机默认的F为0.05,F为0.1, 如果入选的自变量因子数目不多,可通过人为降低F临界值的水平而筛选出更多的因子。如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。如最后建立的回归预测模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性回归预测模型。建立回归模型及分析将表1中的数据输入到SPSS软件中的数据区域,建立数据变量,如表二所示,即青岛地区财政收入y(亿元)、工业生产总值x1(亿元)、农业生产总值x2(亿元)、建筑业生产总值x3(亿元)、人口数值x4(万人)、批发和零售贸易餐饮业x5(亿元),金融保险业x7(亿元)、交通运输.仓储.邮电通信业(亿元)NameTypeWidthDecimalsLabelValueMissingColumnsAlignMeasureyearNumeric80年份nonenone8RightScaleyNumeric82财政收入(亿元)nonenone8RightScalex1Numeric82工业(亿元)nonenone8RightScalex2Numeric82农业(亿元)nonenone8RightScalex3Numeric82建筑业(亿元)nonenone8RightScalex4Numeric82人口数(万人)nonenone8RightScalex5Numeric82批发零售贸易.餐饮业(亿元)nonenone8RightScalex6Numeric82金融保险业(亿元)nonenone8RightScalex7Numeric82交通运输.仓储.邮电通信业亿元)nonenone8RightScale 表2 数据变量表从SPSS17.0 for Windows菜单中选择AnalyzeRegressionLinear,将变量“地区生产总值y”设置为因变量(Dependent),其余除年代外的数据设置为自变量(Independents),方法选逐步回归(Stepwise)输出结果的分析采用数理统计软件spss,用逐步回归法对表二数据计算,运行共得到6个表和2个图。它们分别为变量引入/剔除方式信息表(表三)、模型汇总表(表四)、方差分析表(表五)、模型回归系数表(表六)、被剔除的变量信息表(表七)、残差统计表(表八)、残差分布直方图(图一)和观测量累计概率P-P图(图二)。1. 对变量引入/剔除方式信息表的分析输入移去的变量a模型输入的变量移去的变量方法1工业(亿元).步进(准则: F-to-enter 的概率 = .100)。2农业(亿元.步进(准则: F-to-enter 的概率 = .100)。3批发零售贸易.餐饮业.步进(准则: F-to-enter 的概率 = .100)。4建筑业亿元).步进(准则: F-to-enter 的概率 = .100)。5人口数(万人).步进(准则: F-to-enter 的概率 = .100)。a. 因变量: 财政收入表3 变量引入/剔除方式信息表表三显示变量的引入和剔除,以及引入或剔除的标准。系统在进行逐步回归过程中产生了5个模型,模型1是按照F检验的标准概率值,先将与y(青岛地区的财政收入)最密切的自变量X1(工业产值)引入模型,建立y与X1之间的一元线性回归模型,然后再把X2(农业产值)引入模型,建立了y与X1,X2之间的二元线性模型,最后分别依次把X5(批发零售贸易.餐饮业),X3(建筑业亿元),X4(人口数)引入模型,分别建立了他们与y之间的三元,四元,五元线性模型。2. 对模型汇总表的分析模型汇总f模型RR 方调整 R 方标准 估计的误差11.000a.999.99920.32221.000b1.0001.00014.39131.000c1.0001.00011.31541.000d1.0001.0005.39651.000e1.0001.0003.962a. 预测变量: (常量), 工业(亿元)。b. 预测变量: (常量), 工业(亿元), 农业(亿元。c. 预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业。d. 预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业, 建筑业亿元)。e. 预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业, 建筑业亿元), 人口数(万人)。f. 因变量: 财政收入表4 模型汇总表表四中显示了各模型的拟合情况,回归模型概述表中给出了y与自变量x1之间的相关系数R=1,调整判断系数为0.99说明变量y与x1之间具有高度显著线性关系,第二个到第五个模型相关系数都为1,说明该模型相关变量是因变量的很好的预测变量。3. 对方差分析表的分析Anovaf模型平方和df均方FSig.1回归7514999.25017514999.25018197.018.000a残差4129.79710412.980总计7519129.047112回归7517265.20823758632.60418149.463.000b残差1863.8409207.093总计7519129.047113回归7518104.80732506034.93619573.800.000c残差1024.2418128.030总计7519129.047114回归7518925.22241879731.30564555.772.000d残差203.826729.118总计7519129.047115回归7519034.85851503806.97295794.430.000e残差94.190615.698总计7519129.04711a. 预测变量: (常量), 工业(亿元)。b. 预测变量: (常量), 工业(亿元), 农业(亿元。c. 预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业。d. 预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业, 建筑业亿元)。e. 预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业, 建筑业亿元), 人口数(万人)。f. 因变量: 财政收入表5 方差分析表表五显示各模型的方差分析结果,对模型一:F等于18197.018,显著性概率Sig. 0.001;模型二:F等于18149.463,显著性概率Sig. 0.001;对模型三,F等于19573.800,显著性概率Sig. 0.001;模型四:F等于64555.772,显著性概率Sig. 0.001,模型五,F等于95794.430,显著性概率Sig. 0.001,可以认为y(青岛市财政收入)与x1(工业产值)、x2(农业产值),X5(批发零售贸易.餐饮业),X3(建筑业亿元),X4(人口数)存在高度显著的线性关系。4. 对模型回归系数表的分析模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量)128.94511.65611.063.000102.974154.916工业(亿元)2.018.0151.000134.896.0001.9842.0512(常量)-100.75569.930-1.441.184-258.94957.438工业(亿元)1.916.032.95059.252.0001.8431.990农业(亿元2.053.621.0533.308.009.6493.4573(常量)-57.53357.516-1.000.346-190.16775.100工业(亿元)1.759.067.87226.451.0001.6061.912农业(亿元1.570.523.0413.000.017.3632.776批发零售贸易.餐饮业1.161.454.0902.561.034.1162.2074(常量)-47.17327.499-1.715.130-112.19817.851工业(亿元)1.812.033.89854.499.0001.7331.891农业(亿元1.536.250.0406.153.000.9462.126批发零售贸易.餐饮业1.291.218.1015.930.001.7761.805建筑业亿元)-.695.131-.037-5.308.001-1.005-.3855(常量)-1279.210466.638-2.741.034-2421.031-137.388工业(亿元)1.830.025.90772.311.0001.7681.892农业(亿元1.233.216.0325.709.001.7051.762批发零售贸易.餐饮业.822.239.0643.440.014.2371.406建筑业亿元)-.890.121-.047-7.346.000-1.186-.593人口数(万人)1.872.708.0462.643.038.1393.605表6 模型回归系数表表六中显示各模型的偏回归系数,标准化偏回归系数及其对应的检验值。根据表中数据非标准化系数B的数值可知,逐步回归过程中先后建立的二个模型分别是:模型1: Y = 128.945+2.018x1模型2: Y = -100.755+1.916x1+2.053x2模型3:Y = -57.533+1.759x1+1.570x2+1.161x5模型4:Y = -47.173+1.812x1+1.536x2+1.291x5-0.695x3模型5:Y = -1279.210+1.830x1+1.233x2+0.822x5-0.89x3+1.872x4Beta的值的公式为:Beta = B*Sx/Sy,其中B为回归方程的非标准化回归系数,Sx为自变量标准差,Sy为因变量的标准差。在这二个模型中,代入五个自变量的值的值,可以计算出因变量y的标准化预测值、统计量值和t分布的双尾显著性概率Sig.,。在模型中,系数均小于0.05,可认为回归是显著的。5对被剔除的变量信息表的分析已排除的变量f模型Beta IntSig.偏相关共线性统计量容差VIF最小容差1农业(亿元.053a3.308.009.741.1079.326.107建筑业亿元)-.031a-1.235.248-.381.08112.347.081人口数(万人).078a2.110.064.575.03033.241.030批发零售贸易.餐饮业.129a2.842.019.688.01663.778.016金融保险业(亿元).004a.430.678.142.6381.567.638交通运输.仓储.邮电通信业亿元).257a2.746.023.675.004263.365.0042建筑业亿元)-.032b-2.036.076-.584.08112.351.049人口数(万人).034b.926.381.311.02146.840.021批发零售贸易.餐饮业.090b2.561.034.671.01473.317.014金融保险业(亿元).003b.492.636.172.6381.569.103交通运输.仓储.邮电通信业亿元).174b2.293.051.630.003308.962.0033建筑业亿元)-.037c-5.308.001-.895.08012.507.013人口数(万人)-.031c-.785.458-.284.01189.616.007金融保险业(亿元).013c3.461.011.794.4762.100.010交通运输.仓储.邮电通信业亿元).183c5.249.001.893.003309.642.0034人口数(万人).046d2.643.038.733.007142.179.006金融保险业(亿元).005d1.059.330.397.2024.950.005交通运输.仓储.邮电通信业亿元).096d1.389.214.493.0011391.844.0015金融保险业(亿元)-.004e-.735.495-.312.09210.826.002交通运输.仓储.邮电通信业亿元).034e.514.629.224.0011835.733.000a. 模型中的预测变量: (常量), 工业(亿元)。b. 模型中的预测变量: (常量), 工业(亿元), 农业(亿元。c. 模型中的预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业。d. 模型中的预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业, 建筑业亿元)。e. 模型中的预测变量: (常量), 工业(亿元), 农业(亿元, 批发零售贸易.餐饮业, 建筑业亿元), 人口数(万人)。f. 因变量: 财政收入表七 被剔除的变量信息表表七中显示逐步回归过程所建立的二个模型中剔除掉的变量信息,包括各变量的Beta值,t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计(Collinearity Statistics)的容差。对模型来说,它的偏回归系数的P值都大于0.05,接受原假设不能把这些变量加入方程中从多重共线性来看,它包含了最小容差值,它们的实际容差值都大于最小容差,可以认为他们的共线性在容许范围之内。6.对残差统计表的分析残差统计量a极小值极大值均值标准 偏差N预测值629.993207.821487.63826.77012标准 预测值-1.0372.081.0001.00012预测值的标准误差1.6403.7662.725.68112调整的预测值626.183212.111487.77827.37212残差-2.5198.306.0002.92612标准 残差-.6362.096.000.73912Student 化 残差-.7882.303-.022.88212已删除的残差-5.52910.024-.1414.62712Student 化 已删除的残差-.7606.171.3101.90412Mahal。 距离.9699.0194.5832.57912Cook 的距离.000.252.090.08912居中杠杆值.088.820.417.23412a. 因变量: 财政收入表8 残差统计表表八显示预测值、残差、标准化预测值、标准化残差的最小值、最大值,均值,标准差以及样本容量。根据概率的3原则,标准化残差的最大值为2.3033,说明样本中的数据中没有奇异数据。7.对残差分布直方图和观测量累计概率P-P图的分析 图1 残差分布直方图 图2 观测量累计概率P-P图回归分析中,总假定残差服从正态分布,这两张图就是根据样本数据的计算结果显示残差分布的实际状况,然后对残差分布是否服从正态分布的假设做出检验。从回归残差的直方图与附于图上的正态分布两线相比较,可以明显看出残差分布与正态分布的相合性存在一定偏差。但由于用来进行分析的样本较小,样本容量仅为13,并不能服从否定残差正态分布的假设。图二为观测量累计概率P-P图,也是用来比较残差分布与正态分布差异的图形。图中纵坐标为 Expected Cumulative Probability (期望累计概率分布),横坐标为 Observed Cumulative Probability (观测量累计概率分布)。图二中的斜线对应着一个均值为0的正态分布。如果图中的散点密切地分布在这条斜线附近,说明随机变量残差服从正态分布,从而表明样本确实是来自于正态总体。如果离这条直线太远,应该怀疑随机变量的正确性。从图二的散点分布状况来看,13个散点大致散布于斜线附近,因此可以认为残差分布基本上是正态的。结论由上面的分析可知,模型5满足多元线形回归的假设条件,这样可以分析结果得到回归方程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年滨州邹平怀远学校教师考前自测高频考点模拟试题带答案详解
- 【中考专题】2026年中考数学专项提优复习:方程与方程组【附答案】
- 2025汽车融资租赁合同范例
- 2025昆仑数智科技有限责任公司春季高校毕业生招聘15人模拟试卷及完整答案详解1套
- 2025湖南怀化国际陆港辰溪港区发展有限责任公司招聘工作人员拟聘用人员考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025年河北廊坊市农林科学院公开选聘博士研究生1名考前自测高频考点模拟试题及参考答案详解1套
- 2025第二季度贵州安顺市平坝区美农科技有限公司招聘9人考前自测高频考点模拟试题及答案详解(必刷)
- 2025北京首都师范大学实验小学招聘2人模拟试卷附答案详解
- 2025杭州市钱塘区教育局所属事业单位高层次人才引进15人模拟试卷及参考答案详解一套
- 2025福建厦门市集美区实验小学顶岗教师招聘1人考前自测高频考点模拟试题及答案详解(易错题)
- DL-T-1878-2018燃煤电厂储煤场盘点导则
- 【顺丰控股财务报表探析探究14000字(论文)】
- 【农村电商发展探究文献综述与理论基础4500字】
- 地震逃生知识培训
- 《济南市城镇燃气领域重大隐患判定指导手册》
- 人工智能助力企业创新发展
- 资料员之资料员基础知识题库及完整答案(各地真题)
- 卢卡奇的《历史与阶级意识》
- JJG693-2011燃气泄漏检测仪器检定规程
- 三峡大学科技学院实习报告及实习成绩考核鉴定表模板
- 电缆电线技术标书
评论
0/150
提交评论