多元线性回归模型_第1页
多元线性回归模型_第2页
多元线性回归模型_第3页
多元线性回归模型_第4页
多元线性回归模型_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.3多元线性回归与最小二乘估计假定条件、最小二乘估计量和高斯一马尔可夫定理多元线性回归模型:乂=(1.1)1%乂=(1.1)1%++…+k-1Xtk-1+Ut其中片是被解释变量(因变量),xtj是解释变量(自变量),ut是随机误差项,.,i=0,1,…,k-1是回归参数(通常未知)。对经济问题的实际意义:片与xtj.存在线性关系,标j=0,1,…,k-1,是yt的重要解释变量。ut代表众多影响yt变化的微小因素。使yt的变化偏离了E(y)=°+1xt1+若2+..・+k-1xtk-1决定的k维空间平面。当给定一个样本(yt,xt1,xt2,…,xtk-1),t=1,2,…,T时,上述模型表示为〃y】=°+1xn+『12+・・・+k-1x1k-1+u1,经济意义:%•是yt的重要解释变量。Y?2=°+1X21+才22+・・・+k-1X2k-1+U2,代数意义:为与xtj存在线性关系。'几何意义:乂表示一个多维平面。yT=°+1XT1+2^T2+・・・+k-1XTk-1+UT,(1.2)\七1【2=y『1-/二(Tx\七1【2=y『1-/二(Tx1),卢ut未知。1x11…x1j•…x1k-11x21…x2j•…•…x2.k-1..1xT1…xTj•…xTk-1+u,此时叫与xt,.已知Fo1七+\u]u1•(Txk)BL"k-1」(kx1)u_l_TJ(Txl)(1.3)(1.4)为保证得到最优估计量,回归模型(1・4)应满足如下假定条件。假定⑴随机误差项ut是非自相关的,每一误差项都满足均值为零,方差2相同且为有限值,即「0-「100-E(u)=0=:.,Var(u)=E(uu*)=2I=2000lO01_DX=EX2-(EX)2假定⑵解释变量与误差项相互独立,即E(X'u)=0假定⑶解释变量之间线性无关。rk(XX)=rk(X)=k其中rk(・)表示矩阵的秩。假定⑷解释变量是非随机的,且当T-8时T-1XX—Q其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。minS=(Y-X我)'(Y-X我)=YY-BXY-Y*XB+B'X‘XBTOC\o"1-5"\h\z\o"CurrentDocument"=YY-2B'XY+B'X'X6(1.5)因为Y、X6是一个标量,所以有Y'X6=时XTo(1.5)的一阶条件为:8S人,、\o"CurrentDocument"—=-2XY+2XXJ3=0(1.6)化简得一一八XY=XX。因为(XX)是一个非退化矩阵(见假定⑶),所以有TOC\o"1-5"\h\z人一^一一、\o"CurrentDocument"。=(XX)-1XY(1.7)因为X的元素是非随机的,(XX)-1X是一个常数矩阵,则B是Y的线性组合,为线性估计量。求出我,估计的回归模型写为Y=XB+u(1.9)其中我=e&&)'是的估计值列向量,u=(y-x6)称为残差列向量。因为01k—1一八._._-.---..._.u=Y-X0=Y-X(XX)-1XT=[I-X(XX)-1X*]Y(1.10)所以ii也是Y的线性组合。0的期望和方差是\o"CurrentDocument".人....\o"CurrentDocument"E(0)=E[(XX)-1XY]=E[(XX)-1X*(X+u)]\o"CurrentDocument"=+(XX)-1X'E(u)=(1.11)Var(0)=E[(B-)(B-)']=E[(XX)-1X*uUX(XX)-1]=E[(XX)-1X'2IX(XX)-1]=2(XX)-1(1.12)高斯一马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。0具有无偏性。0具有最小方差特性。0具有一致性,渐近无偏性和渐近有效性。残差的方差

S2=u•u/(T-k)(1.13)S2是b2的无偏估计量,E(S2)=b2。&的估计的方差协方差矩阵是AV^r(0)=S2(XX)-1(1.14)多重确定系数(多重可决系数)(1.15)总平方和SST=»(y-力2=Ey2_£t2》亍+^Tj2t=1*t=]t』tt=1(1.16)(1.17)(1.18)(1.19)(1.20)=Ety*2—2yEty*+Ty2=YY-Ty2,其中y是片的样本平均数,定义为y=21yt)/t。同理,回归平方和为ssr=»(yt-y)2=Y,Y-ty2其中y的定义同上。残差平方和为sse=»(y-y)2=£u2=u'ut=i。tt=1t则有如下关系存在,SST=SSR+SSE-一R2=SSRY,Y-Ty2SST「YY-Ty2显然有0R21。(1.16)(1.17)(1.18)(1.19)(1.20)R2=调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数R2如下:(1.21)2I)(1.23)(1.24)SSE/(T-k)=1_(Tz!)(SST-SSR)=1-T-1R2)SST/(T-1)T-kSSTT(1.21)2I)(1.23)(1.24)5.OLS估计量的分布若uN(0,b2l),则每个ut都服从正态分布。于是有YN(X,b(1.22)因0也是u的线性组合(见公式1.7),依据(1・11)和(1・12)有'.一・.0N(,G2(XX)-1)6.方差分析与F检验与SST相对应,自由度T-1也被分解为两部分,(T-1)=(k-1)+(T-k)

回归均方定义为MSR=詈,误差均方定义为MSE=告H0:P1=携=…=%-1=0;MSRMSEH1:0.不全为零H0:P1=携=…=%-1=0;MSRMSEH1:0.不全为零_SSR/(k-1)-SSE/(T-k)F..(k-1,T-k)(1.25)设检验水平为,则检验规则是,H0。F检验示意图t检验示意图(k-1,T-k),接受H0;若F>F(k-1,T-k),拒绝7.t检验H0:j=0,(j=1,2,…,k-1),H1:△0t=M=0j5(0)j判别规则:若tj+1=br*2(x-x)j+1〜'(T-k)(1.26)妇T-k)接受H0;若>'a(T-k)拒绝H0。8..的置信区间(1)全部8..的置信区间(1)全部.的联合置信区间接受-0)'(XX))/S2(k,T-k)(1.27)(-0)'(XX)(-0)(k,T-k),它是一个k维椭球。方差来源平方和自由度均方回归k-1MSR=SSR/(k-1)SSR=Y'Y-ty2误差SSE=u'uT-kMSE=SSE/(T-k)总和SST=YY-Ty2T-1表1.1方差分析表(1.28)单个0•的置信区间(1.29)(1.30)(1.31)(1.32)Qr?.I_』Pi-6i7j+1s妇g(1.29)(1.30)(1.31)(1.32)预测点预测C=(1XT+11XT+12…XT+1k-1)则T+1期被解释变量*+1的点预测式是,yT+1=CP=P0+P1XT+11+…Pk-1XT+1k-1E(yT+1)的置信区间预测首先求点预测式Cp的抽样分布e(yT+1)=E(Cp)=CpVar(yT+i)=Var(Cp)=E[(Cp-CP)(Cp-CP),]=E[C(p-p)[C(p-p)]']=CE[(p-p)(p-p)']C'=CVar(p)C'=CB(XX)-1C1=bC(X'X)-1C',(1.33)因为p服从多元正态分布,所以Cp也是一个多元正态分布变量,即=CB-N(Cp,bC(XX)-1C')(1.34)构成t分布统计量如下t=yT「E(yT,1)=C6-Cp~t(Tk)(1.35)s、;C(X'X)tCs.C(X'X)-iC置信区间Cpt/2(1,T-k)^C(X'X)-1C'(1.36)(3)单个yT+1的置信区间预测yT+1值与点预测值yT+1有以下关系7t+1=yT+1+知(L37)其中uT+1是随机误差项。因为E(*+1)=E(yT+1+Ut+1)=Cp(1.38)Var(yT+1)=Var(y小)+Var(uT+1)=b2C(XX)-1C,+b2=b2(C(XX)-1C,+1)(1.39)因为p服从多元正态分布,所以yT+1也是一个多元正态分布变量,即yT+1-N(Cp,bC(X'X)-1C'+1)与上相仿,单个yT+1的置信区间是一q■*—Cpt/2(T-k)s£C(X'X)-1C斗1(1.40)计算举例:(见《计量经济分析》第19-27页,熟悉矩阵运算(file:b1e1)预测的评价指标

注意,以下6个公式中的%表示的是预测误差,不是残差。可以在样本内、外预测。预测误差。预测误差定义为et=y广yt,t=T+1,T+2,…是对单点预测误差大小的测量。相对误差PE(PercentageError)。y—yPE=—」,t=T+1,T+2,...七是对单点预测相对误差大小的测量。误差均方根rmserror(RootMeanSquaredError)1x57-、crmserror=i一乙(y^-y)2\t=1通过若干个预测值对预测效果进行综合评价。绝对误差平均MAE(MeanAbsoluteError)MAE=-lL\yt-yt|t=1通过若干个预测值对预测的绝对误差进行综合评价。⑸相对误差绝对值平均MAPE(MeanAbsolutePercentageError)■4^yytMAPE=-ATt=1综合运用以上4种方法,通过若干个预测值对预测的相对误差进行综合评价。■4^yyt以上6个式子中,yt表示预测值,叫表示实际值。Theil的取值范围是[0,1]。显然在预测区间内,当力:与yt完全相等时,Theil=0;当预测结果最差时,Theil=1。公式中的累加范围是用1至T表示的,当然也可以用于样本外预测评价。建模过程中应注意的问题300002500020000150001000030000250002000015000100005000080818283848586878889909192研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。(1988、1989年居民消费价格指数分别为18.8%、18%。)依照经济理论以及对具体经济问题的深入分析初步确定解释变量。

例:我国粮食产量=/(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4)通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非线性、无关系)二二二■::z3::22-?:Z二:-(nonli8,1982-1998)(5)谨慎对待离群值(outlier)0离群值可能是正常值也可能是异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。(欧盟对华投资和中国从欧盟进口)年INV(投资)IMPORT(进口)-IMPORT19912.56200023.4700019922.42970032.290001旬-•L一19936.71240063.99000。G工命--,101]-199415.3760078.75000199521.31000149.1300弓廿-199627.37000113.8100199741.71000106.1500「1—,/INVUIU-UJUdU'Ll199839.78000112.2000⑹过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,了产1xt+ut,为例,正规方程只有一个(不是两个),即Utxt=0,而没有Ut=0,即残差和等于零不一定成立。②可决系数R2有时会得负值!原因是有时会有SSE>SSTo为维持SSE+SSR=SST,迫使SSR<0o⑺改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统

计检验结果。以一元回归模型的估计公式为例说明之。._£§—x)(yt—y)1=£(x一X)2t}£(x-x)(y-y)、:Z3x)2t=4=—£tts£(&)(T-2)=£(x)(yt—y)|「J£(xt—云,£(yt-yt(T-2)回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次,H0:禹=互=…=0时=0;H1:鸟•不全为零。)若F检验结果能拒绝原假设,应进一步作t检验(检验k次,H0:.=0,(j=1,2,…,k-1),H1:.0)。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。在作F与t检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数的t检验是双端检验,但t检验表的定义有P(|11>ta)=a,P(t<ta)=a当对每一个回归系数做t检验后为什么仍然不与F当对每一个回归系数做t检验后为什么仍然不与F检验等价?对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换(1.41)B.*=B.3,j=1,2,…,k-1jjs(yt)其中s(x)和s(y)分别表示xt和yt的样本标准差。Bj*可用来直接比较大小。(1.41)1*%—气+2*%2一%+…+uSEJSE2)以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项),=s(yt)*s(yt)(x-x)+*s(yt)(x-x)++us(v)1s(xti)xi)+2S(xt2)"t2x21*%—气+2*%2一%+…+uSEJSE2)*s(yt)(x-x)+*s(yt)(x-x)++us(v)1s(xti)xi)+2S(xt2)"t2x2)+…+"W,因为均值点必在回归直线上,,去掉上式中由均值点构成的方程,则必有y=—s(y「x1+*s(y「x2+…+us(y)'1s(xti)t12s(xt2)t2,W利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是①根据预测公式离样本平均值越远,预测误差越大。以一元回归模型为例;谯N(0+3,6Q+5+;厂二))FT乙(乂七-X)2从公式看,当XF=X时,yF的分布方差最小,即预测区间最小,预测精度最高。而预测点匕越远离X,yf的分布方差越大,即预测区间越大,预测精度越差。有时,^样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过16%之后,青铜的硬度急剧下降,不再遵从锡含量为0-16%时的关系。图3.10青铜硬度与锡含量的关系图3.10青铜硬度与锡含量的关系回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。(产出对劳动力的弹性为负值!)残差项应非自相关(用DW检验,亦可判断虚假回归)。否则说明①仍有重要解释变量被遗漏在模型之外。②选用的模型形式不妥。通过对变量取对数消除异方差。避免多重共线性。解释变量应具有外生性,与误差项不相关。应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。模型的结构稳定性要强,超样本特性要好。世界是变化的,应该随时间的推移及时修改模型。建模案例1:《全国味精需求量的计量经济模型》(15le:1c02)

(见《预测》1987年第2期)依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即①商品价格,②代用品价格,消费者收入水平,④消费者偏好。模型为:商品需求量=f(商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量=f(商品价格,收入水平)选择恰当的变量(既要考虑代表性,也要考虑可能性)用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水平代替收入水平。因为①消费水平与味精销售量关系更密切。②消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。味精销售量=f(销售价格,人均消费水平)用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。味精销售量=f(平均销售价格,不变价格的消费水平)收集样本数据(抽样调查,引用数据)从中国统计年鉴和有关部门收集样本数据(1972-1982,T=11。数据见下页。)。定义销售量为乂(吨),平均销售价格为X](元/公斤),不变价格的消费水平为x2(元)。相关系数表如下:平均销售价格(x1)不变价格的消费水平(x2)味精销售量(y)-0.36710.97716900050000-om-3am-23030600005000040000-SOMO-20000-a-11.0600005000040000-SOMO-20000-a-11.011211111.611.812012J2注:临界值,0.05(9^0*60°1101201301401S110Q17Q133确定模型形式并估计参数=-144680.9+6313.4x1t+690.4x2t(1)(-3.92)(2.17)(15.32)R2=0.97,DW=1.8,t0.05(8)=2.3回归系数6313.4无显著性怂匕与x2t应该是负相关,回归系数估计值却为正,可见该估计值不可信)。剔除不显著变量》1,,再次回归,=-65373.6+642.4x2t(2)(-10.32)(13.8)R2=0.95,DW=1.5,t0.05(9)=2.26问题:[=6313.4,为什么检验结果是]=0?量纲的变化对回归结果会造成影响吗?建模案例2:(file:b1c4)中国国债发行额模型(多元回归)首先分析中国国债发行额序列的特征d980年国债发行额是43.01亿元(占GDP的1%),2001年国债发行额是4604亿元(占GDP的4.8%)。以当年价格计算,21年间(1980-2001)增长了106倍。平均年增长率是24.9%。DEBTMeanDEBTMean1216.395Median434.6850Madinin1114604.000Mininiuni43.0WOOStd.Dev.1465.993中国当前正处在社会主义市场经济逐步完善,宏观经济平稳运行的阶段。国债发行总量(DEBT,,亿元)应该与经济总规模,财政赤字的多少,每年的还本付息能力有关系。选撬个解释变量,国内生产总值(百亿元),财政赤字额(亿元),年还本付息额(亿元),根据散点图建立中国国债发行额(DEBT,,亿元)模型如下:DEBTt=0+1GDP,+2DEFt+3REPAYt+ut其中GDPt表示年国内生产总值(百亿元),D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论