02-多元线性回归模型_第1页
02-多元线性回归模型_第2页
02-多元线性回归模型_第3页
02-多元线性回归模型_第4页
02-多元线性回归模型_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.3多元线性回归与最小二乘估计(1.1)1.假定条件、最小二乘估计量和高斯一马尔可夫定理多元线性回归模型:(1.1)兀=Po+「1%+P2%七-+L%k-1+ut其中兀是被解释变量(因变量),xtj是解释变量(自变量),ut是随机误差项,P.,i=0,1,,k-1是回归参数(通常未知)。'对经济问题的实际意义:^与气,存在线性关系,xtj,j=0,1,...,k-1,是Jt的重要解释变量。气代表众多影响兀变化的微小因素。使兀的变化偏离了E(少=P°+P1xt1+P2xt2+..•+Pk-1xtk1决定的k维空间平面。「当给定一个样本(兀,七,xt2,…,xtk_1),t=1,2,…,T时,上述模型表示为七=P0+P1x11+P2x12+.+Pk擂]k_1+u1,经济意义:xtj是兀的重要解释变量。如Po+P1X21+P2X22+.+Pk-1X2k-1+U2,代数意义:与%存在线性关系。几何意义:y表示一个多维平面。-「11,・・-「11,・・x-11x21・x1jx2j・x1x2,・・k一1k一1「P01p1「u11u-(Tx1)_1xT1xTjxT・」k-1」(Txk)PLk-1」(kx1)■uTyT=Po+P1xT1+P2XT2+・・・+Pk-1XTk-1+UT(1'2)此时兀与xt.已知,Pj与ut未知。(Tx1)^1^2(1.3)(1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定⑴随机误差项ut是非自相关的,每一误差项都满足均值为零,方差6相同且为有限值,即E(u)E(u)=0=Var(u)=E(UU')=b2I=b200001假定⑵解释变量与误差项相互独立,即E(XU)=0假定⑶解释变量之间线性无关。rk(X'X)=rk(X)=k其中rk(.)表示矩阵的秩。假定⑷解释变量是非随机的,且当T一8时T-1XX一Q其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。QQ卜卜minS=(Y-XP)'(Y-XP)=Y'Y-PXY-Y'XP+PXXP=YY-2PXY+史X'XP(1.5)因为YXP是一个标量,所以有YXP=PX'Yo(1.5)的一阶条件为:as人—=-2XY+2XXP=0aP(1.6)化简得因为(XX是一个非退化矩阵(见假定⑶),所以有p=(X'X)-1XY(1.7)因为X的元素是非随机的,(XX)-1X是一个常数矩阵,则P是Y的线性组合,为线性估计量。求出P,估计的回归模型写为(1.9)其中P=(队氏...)'是P的估计值列向量,U=(Y-XP)称为残差列向量。因为01k—1一八U=Y-XP=Y-X(X'X)-1X'Y=[I-X(X'X)-1X']Y(1.10)所以I!也是Y的线性组合。P的期望和方差是E(P)=E[(X'X)-1XY]=E[(X'X)-1X'(XP+u)]=P+(XX)-X'E(u)=P(1.11)Var(P)=E[(P-P)(P-P)']=E[(X'X)-^X'uUX(X'X)-1]=E[(XX)-1X'b2IX(X'X)-1]=b2(X'X)-1高斯一马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。P具有无偏性。P具有最小方差特性。P具有一致性,渐近无偏性和渐近有效性。2.残差的方差(1.12)一人.s2=U'U/(T-k)S2是b2的无偏估计量,E(S2)=b2。p的估计的方差协方差矩阵是(1.13)AVar(P)=s2(X'X)-1(1.14)3.多重确定系数(多重可决系数)(1.15)总平方和=女七2一2亍孔yt+T&2”,-"(1.16)(1.17)(1.18)(1.19)(1.20)SST=»叫一»"一―描声t=1tt=1't=1't=1其中y是yt的样本平均数,定义为y=(Z]yyt。同理,回归平方和为SSR=ZT(y—y)2=y'y-Ty2其中y的定义同上。残差平方和为SSE=»(y_y)2=»u2=u'Ut=1ttt=1t则有如下关系存在,SST=SSR+SSEssrYY-Ty2SSTYY-Ty2显然有=女七2一2亍孔yt+T&2”,-"(1.16)(1.17)(1.18)(1.19)(1.20)4.调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数R2如下:R2)(1.21)R2=1-地=14(笠3丝)=1-

SST/(T-1)T-R2)(1.21)5.OLS估计量的分布若u〜N(0,b2l),则每个ut都服从正态分布。于是有Y〜N(XP,Q2I)(1.22)因P也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有P〜N(P,Q2(XX)-1)(1.23)6.方差分析与F检验与SST相对应,自由度T-1也被分解为两部分,(T-1)=(k-1)+(T-k)(1.24)回归均方定义为MSR=SR,误差均方定义为MSE=岩表1.1方差分析表方差来源平方和自由度均方回归SSR=Y'Y-Ty2k-1MSR=SSR/(k-1)误差SSE=U'UT-kMSE=SSE/(T-k)总和SST=YY-Ty2T-1

H0:P1=P2=…=Pk-1=0;H"j不全为零(1.25)F_MSR_SSR/(k-1)〜F-MSE一SSE/(T-k)〜("T-k)7.(1.25)7.t检验H0:P.=0,(j=1,2,…,k-1),H1:p.R'_s^p^_BjqVar(p)j+1=B/vs2(x-X)-1j't(「k)(技6).判别规则:若It|<ta(T-k)接受H0;若|t|>ta(T-k)拒绝H0。p.的置信区间全部P.的联合置信区间接受F_y(P-B)'(XX)(P-p)/s2〜F(1.27)kX>(/v,J.K)(p-P)'(X'X)(P-P)<s2kFa(k,T-k),它是一个k维椭球。(1.28)单个p.的置信区间P._Pi±Hj+1Sta/2(T-k).(1.29)预测点预测C_(1%1%2…%k-1)S则T+1期被解释变量jT+1的点预测式是,L+rCB=&°+B1%1+…+Bk-1%k-1(顷)E(jt+1)的置信区间预测首先求点预测式Cp的抽样分布E(宁t+「=E(Cp)=CP(1.32)Var(L+1)_Var(Cp)_E[(Cp-CP)(Cp-CP)']_E[C(p-P)[C(p-P)]']_CE[(p-P)(p-p)']C'

=CVar(&)C'=C。2(X'X)-1C'=。2c(XX)-1C',因为P服从多元正态分布,所以CB也是一个多元正态分布变量,即JT+1=CP〜N(CP,b2C(X'X)-1C')(1.33)(1.34)t堂T+1-E(Jt+Q一<6-邙sv'C(X'X)TC's、;(1.33)(1.34)t堂T+1-E(Jt+Q一<6-邙sv'C(X'X)TC's、;C(X'X尸C'〜t(T-k)(1.35)置信区间c6土山(1,算)s、《x)-1c,(1.36)(3)单个jT+1的置信区间预测jT+1值与点预测值jT+1有以下关系—...JT+1一jt+1+UT+1其中uT+1是随机误差项。因为E(Jt+1)=E(JT+")=邙Var(jT+1)=Var(JT+1)+Var(uT+1)=b2C(X'X)-1C'+b2=b2(C(X'X)-1C'+1)因为6服从多元正态分布,所以jT+1也是一个多元正态分布变量,即jT+1〜N(CP,b2C(X'X)-1C'+1)与上相仿,单个JT+1的置信区间是一A•'CP土y(T-k)syC(X'X)-1C+计算举例:(见《计量经济分析》第19-27页,熟悉矩阵运算(file:b1e1)(1.37)(1.38)(1.39)(1.40)10.预测的评价指标注意,以下6个公式中的et表示的是预测误差,不是残差。可以在样本内、外预测。(1)预测误差。预测误差定义为et=Jt-yt,t=T+1,T+2,...是对单点预测误差大小的测量。(2)相对误差PE(PercentageError)。PE=工匕,t=T+1,T+2,...是对单点预测相对误差大小的测量。(3)误差均方根rmserror(RootMeanSquaredError)rmserror=1—^(J-y)2TtVt=1通过若干个预测值对预测效果进行综合评价。(4)绝对误差平均MAE(MeanAbsoluteError)通过若干个预测值对预测的绝对误差进行综合评价。(5)相对误差绝对值平均MAPE(MeanAbsolutePercentageError)MAPE=-ILTt=1综合运用以上4种方法,通过若干个预测值对预测的相对误差进行综合评价。以上5个式子中,yt表示预测值,yt表示实际值。公式中的累加范围是用1至T表示的,当然也可以用于样本外预测评价。Forecast:YFActual:YForecastsample:115Includedobservations:15RootMeanSquare0.(Erlr(9474MeanAbsoluteErrOiG16331MeanAbs.PercentlE2rro5560TheilInequalityCo(te0fic6e)07BiasProportion0.000000VariancePropo01(b(n0264CovarianceProCpSi9隐7364,5)Theil不等系数的范围是4,5)Theil不等系数的范围是[0,1]11.建模过程中应注意的问题研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。(1988、1989年居民消费价格指数分别为18.8%、18%。)依照经济理论以及对具体经济问题的深入分析初步确定解释变量。

例:我国粮食产量=f(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4)通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非图3.5(nonli8,1982-1998)图3.5(nonli8,1982-1998)年INV(投资)IMPORT年INV(投资)IMPORT(进口)19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.200060LABOR(5)谨慎对待离群值(outlier)。离群值可能是正常值也可能是异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。(欧盟对华投资和中国从欧盟进口)5040302010017880828486889092949698000204图3.6把5.1282错输入为51.28。

过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,yt=81xt+ut,为例,①正规方程只有一个(不是两个),。('"」)=2Z(y-8x)(-x)=0叽V1'"即Zutxt=0,而没有&t=0,即残差和等于零不一定成立。②可决系数R2有时会得负值!原因是有时会有SSE>SST。为维持SSE+SSR=SST,迫使SSR<0。改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。以一元回归模型的估计公式为例说明之。.Z(x一X)(y一y)8=—Zt——1乙(x一X)2tZ(X-X)(yty)JZ(x一x)2^cx^zX)(y^zy^lZKZHD^壬(疽)2\.'Z(yt-yt)2回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次,h0:8]=82=…=8k-1=0;H1:8j不全为零。)若F检验结果能拒绝原假设,应进一步作t检验(检验k次,H0:8广0,(j=1,2,…,k-1),H1:8/W0)。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。在作F与t检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数的t检验是双端检验,但t检验表的定义有P(|11>ta)=a,P(t<ta)=a图3.8图3.8不能在估计的回归系数之间比

应该对回归系数作如下变换对于多元回归模型,当解释变量的量纲不相同时,较大小。若要在多元回归模型中比较解释变量的相对重要性,(1.41)其中s(xt)和5(yt)分别表示xt和兀的样本标准差。七*可用来直接比较大小。

不能在估计的回归系数之间比

应该对回归系数作如下变换以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项),三=B*乌三1+R*=2+...+US(七)1S(七)2,(%2)'两侧同乘町),得3-亍)=B*s(七)(x-x)+B*s(—)(x-x)+...+us(y)11s(x1)1112s(xt2)t22tt,因为均值点必在回归直线上,去掉上式中由均值点构成的方程,则必有y=B*s(七)x+B*s(yt)x+...+us(y)f1s(x"t12s(气2)t2tf所以有''P*^^=p.,i=1,2,...k-1,即p*=p.^B^,i=1,2,...k-1js(xtj)jjjs(yt)既是(1.41)式。利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是①根据预测公式离样本平均值越远,预测误差越大。以一元回归模型为例;K〜N(P0+P1七,萨(1+]^(^^))从公式看,当xF=x时,yF的分布方差最小,即预测区间最小,预测精度最高。而预测点xF越远离x,yF的分布方差越大,即预测区间越大,预测精度越差。②有时,样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过16%之后,青铜的硬度急剧下降,不再遵从锡含量为0-16%时的关系。回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。(产出对劳动力的弹性为负值!)残差项应非自相关(用DW检验,亦可判断虚假回归)。否则说明①仍有重要解释

变量被遗漏在模型之外。②选用的模型形式不妥。(14)通过对变量取对数消除异方差。(15)避免多重共线性。(16)解释变量应具有外生性,与误差项不相关。(17)应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。(18)模型的结构稳定性要强,超样本特性要好。(19)世界是变化的,应该随时间的推移及时修改模型。建模案例1:《全国味精需求量的计量经济模型》(file:1c02)(见《预测》1987年第2期)依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即①商品价格,②代用品价格,③消费者收入水平,④消费者偏好。模型为:商品需求量=f(商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量=f(商品价格,收入水平)选择恰当的变量(既要考虑代表性,也要考虑可能性)用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水平代替收入水平。因为①消费水平与味精销售量关系更密切。②消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。味精销售量=f(销售价格,人均消费水平)用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。味精销售量=f(平均销售价格,不变价格的消费水平)收集样本数据(抽样调查,引用数据)从中国统计年鉴和有关部门收集样本数据(1972-1982,T=11。数据见下页。)。定义销售量为(吨),平均销售价格为%(元/公斤),不变价格的消费水平为%(元)。相关系数表如下:不变价格的消费水平32)0.9771平均销售价格(幻)味精销售量3,)-0.3671注:临界值广005(9)3.60不变价格的消费水平32)0.9771确定模型形式并估计参数*=-144680.9+6313.4x1t+690.4x2,(1)(-3.92)(2.17)(15.32)R2=0.97,DW=1.8,t005(8)=2.3回归系数6313.4无显著性(兀与x1t应该是负相关,回归系数估计值却为正,可见该估计值不可信)。剔除不显著变量x1t,再次回归,*=-65373.6+642.4x2,(2)(-10.32)(13.8)R2=0.95,DW=1.5,t005(9)=2.26问题:&]=6313.4,为什么检验结果是P1=0?量纲的变化对回归结果会造成影响吗?DependentVariable:YMethod:LeastSquaresDate:03/24/01Time:12:49Sample:19721902Includedobservations:11VariableCoefficientStd.Errort-StatisticProb.C-144680.936909.30-3.9199050.0044X16313.3922907.4102.1714830.0617X2690.440545.0717215.318710.0000R-squared0.971474Meandependentvar20886.00AdjustedR-squared0.964343S.D.dependentvar13980.06S.E.ofregression2639.001Akaikeinfocriterion15.98398Sumsquaredresid55751758Schwarzcriterion16.09250Loglikelihood-100.5202F-statistic136.2231Durbin-Watsonstat1.793474Prob(F-statistic)0.000001建模案例2:(file:b1c4)中国国债发行额模型(多元回归)首先分析中国国债发行额序列的特征。1980年国债发行额是43.01亿元(占GDP的1%),2001年国债发行额是4604亿元(占GDP的4.8%)。以当年价格计算,21年间(1980-2001)增长了106倍。平均年增长率是24.9%。

DEBTMeanDEBTMean1216.395Median434.6850Maximum4604.000Minimum43.01000Std.Dev.1485.993中国当前正处在社会主义市场经济逐步完善,宏观经济平稳运行的阶段。国债发行总量(DEBT,亿元)应该与经济总规模,财政赤字的多少,每年的还本付息能力有关系。选择3个解释变量,国内生产总值(百亿元),财政赤字额(亿元),年还本付息额(亿元),根据散点图建立中国国债发行额(DEBT,亿元)模型如下:DEBTt=P0+6]GDPt+P2DEFt+P3REPAYt+ut其中GDPt表示年国内生产总值(百亿元),DEFt表示年财政赤字额(亿元),REPAYt表示年还

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论