基于SAS分析北京市GDP影响因素的研究_第1页
基于SAS分析北京市GDP影响因素的研究_第2页
基于SAS分析北京市GDP影响因素的研究_第3页
基于SAS分析北京市GDP影响因素的研究_第4页
基于SAS分析北京市GDP影响因素的研究_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于SAS分析北京市GDP影响因素的研究一、前言 北京是中华人民共和国的首都、直辖市和国家中心城市,是全国的政治、文化、科教和国际交往中心,是世界著名的古都和现代国际城市。2011年全年北京市实现地区生产总值(GDP)16000.4亿元,按可比价格计算,比上年增长8.1%,其中人均GDP达到80394元人民币,按年平均汇率折合12447美元;2011年年末,北京市常住人口突破2000万大关,达2018.6万人;2011年12月,北京居民消费价格指数(CPI)同比上涨4.4%。 按2010年世界银行划分世界上不同国家和地区的贫富程度标准来看,北京实现的人均GDP已处于上中等富裕国家地区的上游,接

2、近富裕国家地区的水平。 2012年北京市实现地区生产总值17801亿元,按可比价格计算,比上年增长7.7%,增幅比上年略低0.4个百分点。北京市人均地区生产总值86024元,折合13686美元。 加快文化创意产业集聚区建设,支持文化企业重组、改造和上市,预计文化创意产业总收入超过9000亿元,增长20%以上。国内外旅游人数达到2.1亿人次,旅游总收入3216.2亿元。第三产业比重为75.7%。 更新淘汰老旧机动车22.4万辆,新增纯电动车1100辆,单位地区生产总值能耗、水耗和主要污染物排放量继续全面下降。 北京是综合性产业城市,综合经济实力保持在全国前列,第三产业规模居中国大陆第一。2012

3、年总部经济发展能力第1名。初步核算,2013年实现地区生产总值19500.6亿元,比上年增长7.7%。其中,第一产业增加值161.8亿元,增长3%;第二产业增加值4352.3亿元,增长8.1%;第三产业增加值14986.5亿元,增长7.6%。按常住人口计算,北京市人均地区生产总值达到93213元。三次产业结构由2012年的0.8:22.7:76.5变为0.8:22.3:76.9。 作为首都第一个大规模整体定向开发的金融功能区,进过十几年的发展,金融街已经成为中国的金融决策监管中心、资产管理中心、金融支付结算中心、金融信息中心:金融街集中了中国人民银行、中国银监会、中国证监会、中国保监会等中国最

4、高等金融决策和监管机构,几乎所有有关中国金融的重大决策都在这里酝酿、讨论和最终形成,是中国金融业最具影响力的金融中心区。二、理论背景为了在更高层次上发展北京市的经济,关注北京市GDP是必要的。GDP是按市场价格计算的国内生产总值的简称,它是一个国家(地区)所有常住单位在一定时期内生产活动的最终成果。GDP是国民经济核算的核心指标,也是衡量一个国家或地区经济状况和发展水平的重要指标。而影响到业GDP的因素是多方面。例如,居民消费、政府消费性支出、政府购买、出口、居民收入、投资等。为了实证对GDP具体影响因素,以便于我们根据实证结果,提出政策性建议,针对北京市目前的发展情况,本文选取了1978年到

5、2011年的时序数据作为研究的范围,以北京市GDP为被解释变量,并选取固定资本形成总额、社会消费品零售总额、出口总额为解释变量。研究影响GDP的影响因素可以进一步证实其反映出了人民生活水平,生活质量的提高;也可以反映出北京市经济的脉象,便于北京市更好的发展。三、建立模型本模型是通过对北京市19782011年数据进行研究确定模型所包含的变量,因变量(被解释变量)为GDP(Y单位:亿元),自变量(被解释变量)有3个,固定资本形成总额(X1单位:亿元)社会消费品零售总额(X2单位:亿元)出口总额(X3单位:亿美元)确定模型的数据形式,我们先假设数学模型为:四、实验方法本次研究主要是分析自变量和因变量

6、的关系以及找出合适的模型,并且运用时间序列的方法对社会消费品零售总额进行预测分析。我们先用SAS对我们假定的模型对变量X1,X2,X3分析,看看它们与Y的关系(运用的方法的逐步回归和主成分法)然后在GDP进行时间序列分析,最后预测未来3年的数据。五、数据来源1.数据来源于中国知网2.数据引入年份GDP(亿元)Y固定资本形成总额(亿元)X1社会消费品零售总额(亿元)X3出口总额(亿美元)X5197882.6518.5525.28.65197993.0123.9129.0812.211980103.5325.5634.6415.421981107.962538.0415.371982114.113

7、2.3639.7614.241983123.4238.2744.6314.271984147.5348.6752.1712.341985175.7867.664.1211.531986194.7475.8981.3912.551987220.1281.6395.5715.171988259.7196.85121.2816.831989283.4995.43134.316.861990310.9598.03139.8817.861991342.65144.19159.4416.061992411.04185.12181.217.521993538.94246.16227.4219.4219947

8、32.89345.46303.3724.001995931.97417.95375.6429.9819961121.93491.9470.0440.4919971264.63556.43535.0250.1819981374.6640.15587.1254.9919991500.95631.92657.2863.3220001701.88695.1736.6386.2920011919.09805.34832.795.0220022150.76926.65941.36115.9520032578.031180.54922.27143.7420043110.971446.491044.78208

9、.6520053905.641739.41190.06274.1520064462.742087.241356.79335.4020075252.762615.091603.74381.6120086719.0135942078.7422.2920097521.855077.892430.83299.8520109224.466468.542902.5537538069.943395.06444.98六、SAS操作1.逐步回归法逐步回归的基本思想是:首先在待选的M个变量中选择一个对因变量影响最大的自变量,这可以通过因变量与每一自变量进行回归得到的F值来判断。若最大的F

10、值在给定的显著性水平下是显著的,则该变量被选中,否则选元结束。第二步,在剩下的M-1个变量中再选择一个变量加入到模型中,这可以通过偏F检验来判断。偏F统计量为: 其中,表示模型已存在变量的条件下新加入变量对因变量的贡献。若最大的偏F统计量在给定的显著性水平下是显著的,则对应的自变量则被加入到模型中,否则不再加入其它变量,选元结束。第三步,对已在模型中的每个变量进行显著性检验。若检验不显著,则去掉该变量,再重复进行第二步和第三步,否则保留该变量,重复进行第二步和第三步,这一过程一直进行到待选的全部自变量根据给定的显著性水平没有一个再能被选入模型或排除出刚构成的回归模型为止。输入程序:data e

11、xp3;input Y X1 X2 X3;cards;82.6518.5525.28.6593.0123.9129.0812.21103.5325.5634.6415.42107.962538.0415.37114.1132.3639.7614.24123.4238.2744.6314.27147.5348.6752.1712.34175.7867.664.1211.53194.7475.8981.3912.55220.1281.6395.5715.17259.7196.85121.2816.83283.4995.43134.316.86310.9598.03139.8817.86342.65

12、144.19159.4416.06411.04185.12181.217.52538.94246.16227.4219.42732.89345.46303.3724.00931.97417.95375.6429.981121.93491.9470.0440.491264.63556.43535.0250.181374.6640.15587.1254.991500.95631.92657.2863.321701.88695.1736.6386.291919.09805.34832.795.022150.76926.65941.36115.952578.031180.54922.27143.743

13、110.971446.491044.78208.653905.641739.41190.06274.154462.742087.241356.79335.405252.762615.091603.74381.616719.0135942078.7422.297521.855077.892430.83299.859224.466468.542902.55375.1711307.38069.943395.06444.98;proc reg graphics;model Y=X1 X2 X3/selection=stepwise sls=0.05 sle=0.2 r;plot student.*p.

14、='*'run;该程序告诉我们先建立一个临时数据集(一般临时的数据集在逻辑库里的work中)名叫EXP3;里面有4个变量Y X1 X2 X3.其中proc reg graphics 是表示回归作图“selection=stepwise”表示逐步回归(选元,并给出回归结果),“sls=0.05”表示变量保留在模型中的显著性水平为0.05,而“sle=0.2”则表示变量选入到模型中的显著性水平为0.2,PLOT语句画标准残差与预测值的残差图。逐步回归结果图和残差图图1图2图3图4图5图6从图1至图6是对因变量Y进行逐步回归的结果,第一步(图1),变量X2被加入到模型中,说明三个自变

15、量分别关于Y回归,其中由X2与Y回归得到的F统计量值最大,为3642.82,对应的概率为0.0001,在0.05的显著性水平下通过检验。第二步,分别把变量X1和X3加入到刚建立的模型中,并分别计算其偏F检验值,结果表明X1的偏F统计值大于X3的偏F统计值,为20.3对应的概率为0.0001,小于进入模型的显著性水平0.20,所以X1被选入到模型中,此时模型中已有EXPEND和ads两个变量。第三步,对X3和X1分别计算其偏F统计量值及其对应的概率(程序繁多就不一一输出),结果两个变量的偏F检验对应的概率都小于保留在模型中的显著性水平0.05,因此两个变量都被保留下来。第四步,重复第二步和第三步

16、,即把最后一个变量加入到由X2和X1对Y进行回归的模型中,结果两个变量的偏F检验对应的概率也都小于保留在模型中的显著性水平0.05,因此两个变量也都可以被保留下来。从残差图(图6)中和逐步回归表中可以得到回归方程如下:统计量值: (0) (854.93) (361.21) (624.13) F=41426.4对应概率:(0.9981)(<0.0001) (<0.0001) (<0.0001) (<0.0001)R-Square = 0.9998 and C(p) = 4,MSE=2164.55531,SSR=649371、固定资产形成总额,社会消费品零售总额和出口总额都

17、与GDP有显著的 关系。2.固定资产形成总额的系数表明固定资产形成总额没每加1亿元,GDP将增加0.6353亿元;社会消费品零售总额的系数表明社会消费品零售总额每1亿元,GDP将增加1.21375亿元,出口总额每增加1亿美元,GDP将增加4.48899亿元。2.多重共线性多重共线性是指在多元回归分析中自变量之间存在线性关系,用数学术语来表达就是系数矩阵的秩<P+1,即R()<P+1,换句话说,某一个自变量可以被其它自变量线性表示,此时称自变量之间完全共线。但实践中,由于系数矩阵来自于样本观测,所以自变量之间的完全共线往往较少,代之的是自变量之间的近似共线性或称为高度共线性。当回归模

18、型中的自变量存在高度共线性时,虽然参数的OLS法估计量仍是的BLUE估计,但其估计量的稳定性却很差,也就是说对于不同的样本得到的参数估计值往往差别很大,从而造成检验失效。因此在进行多元线性回归分析时,判断和处理自变量间多重共线性非常必要。 1自变量间多重共线性的判断自变量间多重共线性的判断方法很多。除了利用有关理论经验地判断外,如C-D函数中的劳动力和资本使用量之间往往存在多重共线,通常在统计上一个简单而又有效的判断方法是:对所有自变量关于因变量进行回归,若拟合优度很高,且F检验显著,但每一个自变量的回归数T检验都不显著,则表明自变量间可能存在高度的多重共线。 关于多重共线,SAS系统提供了以

19、下判断指标:方差膨胀因子VIF,定义为VIF ,它表示回归系数的估计量由于自变量的共线性使得方差增加的一个相对度量,表示第个自变量对模型中其余自变量进行线性回归 得到的拟合优度。一般来说,VIF>1,则表明自变量间存在高度共线。条件指数(condition indices) K,定义为:最大特征值与每个特征值比值的平方根,其中最大条件指数K称为矩阵的条件数。一般来说,若1K10,则可以认为自变量之间不存在或弱的多重共线;10<K<30,则认为自变量之间存在较强的多重共线;若K30,则认为存在高度的多重共线。方差比率(Var Prop),通过主成分分析方法把矩阵X的P+1个特征

20、值分解到P+1个主成分变量上(常数项也作为一个变量),每个变量分得的方差称为方差比率。对大的条件数若同时有两个以上的方差比率超过50%,则认为这些变量之间存在一定程度的相关。在SAS中输入代码:proc reg corr; /*对模型进行回归分析过程,并要求计算变量之间的相关系数*/model y=x1 x2 x3/ vif collin collinoint; /* vif要求计算方差膨胀因子,而collin和collinoint则要求进行多重共线诊断*/run;在上面的程序中,proc reg调用回归分析过程,并按MODEL语句给出的模型结构进行分析,其中选项corr要求计算变量之间的相关

21、系数, vif要求计算方差膨胀因子,而collin和collinoint则要求进行多重共线诊断,两者的区别是前者没有对截据项进行调整,而后者进行了调整。当截据项经检验是显著时,应考察由collinoint输出的结果,否则参看由collin输出的结果(由于我们前面已经检验了截距项是显著的,所以我们这里考察collinoint输出的结果)。程序运行结果如下:变量之间线性回归及多重共线诊断结果图7图8图9图10从变量之间线性回归及多重共线诊断结果中最上面的相关系数阵(图7)可以看出,X1、X2、X3与Y都是正相关,并且X1、X2,X3都与Y高度正相关,相关系数分别为0.9853,0.9956和0.9

22、456。在自变量之间,X2与Y的相关系数为0.9956最高,而X2与X1的相关系数高达0.977(X2为社会消费品零售总额,X1为固定资本形成总额)X2和X3以及X1和X3的相关系数也很好高其值分别为0.9356和0.8827;上述说明X2与Y存在高度的线性关系,也说明X2和X1、X3存在高度相关性,且X1和X3也存在高度相关性(可以说明存在多重共线性);这与我们从经济理论得到的判断是一致的。输出表中(图9)的方差膨胀因子(vaiance inflation)和最下面的共线性诊断(因为截据项检验显著)也说明了这一点。其中条件数为14.66908,而在变量X1和X2上的方差比率分别为0.8878

23、3和0.99208,远超过50%,说明两变量高度共线。如果不对多重共线进行处理而直接进行线性回归,根据输出分析表可以写出以下方程:检验统计量:(-0.00) (29.24) (19.01) (24.98) F=41426.4对应概率: (<0.0001)(<0.0001) (<0.0001) (<0.0001) (<0.0001)R-Square=0.9998 Adj R-Sq=0.9997 Root MSE=46.52478上述分析中我们发现的X2和X3存在高度相关性,虽然X2和X3的T检验显著。由于自变量X2与X3高度相关,为了消除这一影响,通常可以去掉一个不

24、重要的因素,然后就剩下的两个自变量对因变量进行回归。考虑到X2和X3对Y都很重要,为保留这两个变量,以下我们将REG过程就三个自变量对Y做主成分回归。3.主成分回归: 利用主成分分析方法,把P个自变量表示成K(K<P)个主成分。由主成分的性质知,这K个主成分是不相关的。再用这K个主成分关于因变量回归,最后把回归结果再转化为由原来的自变量和因变量之间的回归模型。输入代码:proc reg data=EXP3 outest=result1 outvif;/*对模型进行回归,并且把结果输入到数据集result*/model Y=X1 X2 X3/pcomit=1;/* “pcomit=1”表示

25、去除最后一个主成分*/run;proc print data=result1;run; 在上述程序中,MODEL语句后的选项“pcomit=1”表示去除最后一个主成分,用剩下的P-1个主成分作为自变量关于因变量回归。本例中有三个自变量,所以主成分有三个,去除一个后还有两个。用这两个主成分对进口额进行回归,回归的结果存放到由proc reg语句规定的选项“outest=”的数据集result1中。程序运行结果如下:图11由图11第三行可以写出主成分回归方程如下: 从方程中我们可以得出如下结果:固定资本形成总额的系数表明固定资本形成总额每增加1亿元,GDP将增加0.63348亿元,而城社会消费品零

26、售总额系数表明社会消费品零售总额每增加1元,GDP将增加1.21941亿元,出口总额每增加1亿美元,GDP将增加4.47803亿元。4.预测 我们预测Y(预测下一年的GDP)可以通过时间序列的方法进行预测。先通过SAS的文件菜单点击导入数据,并且把导入的数据命名为tjsj(一般导入的数据在逻辑库的work里面)。对数据进行平稳性检验。输入代码:data Y; /*建立临时数据集命名为sj*/input year Y; /*输入年份以及变量数据*/cards; /*进行数据录入*/197882.65197993.011980103.531981107.961982114.111983123.42

27、1984147.531985175.781986194.741987220.121988259.711989283.491990310.951991342.651992411.041993538.941994732.891995931.9719961121.9319971264.6319981374.619991500.9520001701.8820011919.0920022150.7620032578.0320043110.9720053905.6420064462.7420075252.7620086719.0120097521.8520109224.46201111307.3;proc

28、 gplot data=Y; /*对数据集进行绘制时序图*/plot Y*year/haxis=1978 to 2012 by 2; /*指出曲线图变量所在坐标轴,Y是曲线图的纵轴,year则是曲线图的横轴;haxis则是将横从1978至2012进行等距离划分,相邻两个值间隔2*/symbol c=red i=join v=star; /*各点的形状为星号,通过直线连接,曲线颜色为红色*/run; 第一个代码表示对该序列绘制时序图用于观测平稳性,其中plot Y*date的含义是规定将输出以date为横坐标,以Y为纵坐标的曲线图;symbol c=red i=jion v=star该语句的作用

29、是规定所绘制图形的格式。此图形中各点的形状为星号,各点是通过直线连接的,曲线的颜色为红色。绘制图12所示:图12 图12为原始数据时序图,可以看出具有明显的趋势性(有点成曲线指数增加的趋势)为非平稳模型。所以对原序列进行1阶差分。输入代码:data Y;input year Y;dif1=dif(Y); /* 对序列Y进行一阶差分*/cards;197882.65197993.011980103.531981107.961982114.111983123.421984147.531985175.781986194.741987220.121988259.711989283.491990310.

30、951991342.651992411.041993538.941994732.891995931.9719961121.9319971264.6319981374.619991500.9520001701.8820011919.0920022150.7620032578.0320043110.9720053905.6420064462.7420075252.7620086719.0120097521.8520109224.46201111307.3;proc gplot data=Y; /*对数据集进行绘制时序图*/plot dif1*year/haxis=1978 to 2012 by 2

31、; /* dif1是曲线图的纵轴,year则是曲线图的横轴;haxis则是将横从1978至2012进行等距离划分,相邻两个值间隔2*/symbol c=red i=join v=star; /*各点的形状为星号,通过直线连接,曲线颜色为红色*/run;输出结果如图13所示图13 由图13看出1阶差分后序列在某一均值附近较平稳的波动,为了进一步确定序列的平稳性,所以对序列进行自相关以及白噪声检验。对差分后的新序列进行白噪声检验并判断其平稳性。输入代码:proc arima data=Y; /*对数据进行arima模型识别*/identify var=Y(1); /*对1阶差分数据进行自相关和纯随

32、机性检验*/run;图14图15图16由图16可以看出,经过白噪声检验,延迟6阶后检验统计量P值为0.694,仍大于给定的显著性水平,所以可以对序列继续进行二阶差分:输入代码;data Y;input year Y;dif1=dif(Y);dif2=dif(dif1); /* 对新序列进行二阶差分*/cards;197882.65197993.011980103.531981107.961982114.111983123.421984147.531985175.781986194.741987220.121988259.711989283.491990310.951991342.6519924

33、11.041993538.941994732.891995931.9719961121.9319971264.6319981374.619991500.9520001701.8820011919.0920022150.7620032578.0320043110.9720053905.6420064462.7420075252.7620086719.0120097521.8520109224.46201111307.3;proc gplot data=Y; /*对数据集进行绘制时序图*/plot dif2*year/haxis=1978 to 2012 by 2; /* dif2是曲线图的纵轴,

34、year则是曲线图的横轴;haxis则是将横从1978至2012进行等距离划分,相邻两个值间隔2*/symbol c=red i=join v=star; /*各点的形状为星号,通过直线连接,曲线颜色为红色*/run;输出结果如图17所示。图17 由图17可以看出,2阶差分后序列在某一均值附近较平稳波动,为了进一步确定其平稳性,对序列进行自相关检验。输入代码:proc arima data=Y; /*对数据进行arima模型识别*/identify var=Y(2); /*对2阶差分数据进行自相关和纯随机性检验*/run;图18图19图20 由图20可以看出,经过白噪声检验,延迟6阶的检验P值

35、小于0.0001,比给定的显著性水平小,因此,拒绝原假设,认为该序列为平稳的非白噪声序列。所以,对该序列建模是有意义的。对平稳序列寻找相对最优定阶。输入代码:proc arima data=Y;identify var=Y(2) nlag=8 minic p=(0:7) q=(0:7); /*在identify命令中增加一个可选命令minic,SAS系统会自动输出BIC信息达到最小的模型得阶数*/run;其中BIC信息量达到最小的模型得的阶数,实现模型优化的过程。输出结果如下图所示。图21 由图21可以看出,在自相关延迟阶数小于等于7,移动平均延迟阶数也小于等于7的所有ARMA(p,q)模型中,BIC信息量相对最小的是ARMA(6,7)模型,即ARMA模型,并对其进行模型估计。输入代码:proc arima data=Y;identify var=Y(2);estimate p=6 q=7;/*对模型ARMA(5,3)进行参数估计*/run; 该代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论