




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 多元线性回归分析多元线性回归分析是一元线性回归分析的拓展,最明显的变化是解释变量个数由一个增加到多个,模型的估计与检验原理都是一样的,当然,也会出现一些新的问题,比如多重共线性、可决系数的调整等。主要内容包括:多元线性回归模型的定义;假定条件,估计方法,估计量的特性,多重可决系数,t检验和F检验,回归系数的区间估计,点预测与区间预测,预测结果的评价方法,偏相关和复相关系数等。一、多元线性回归模型定义1、影响被解释变量Y的解释变量X有(k-1)个,这些解释变量可以分别表示为,;2、被解释变量Y是解释变量X的线性组合;3、被解释变量Y是参数的线性组合。 在上述条件下,多元线性回归的数学模型可以表示为: (t=1,2,3,n)其中是被解释变量(因变量),是解释变量(自变量),是随机误差项,是回归参数(通常未知)。对经济问题的实际意义:与存在线性关系, 是的重要解释变量。ut代表众多影响变化的微小因素。使的变化偏离了决定的k维空间平面。当给定样本,( t = 1, 2, , n)时,实际样本可以表示为:第一组为: 第二组为: 第三组为: 第n组为: 因此,上述模型也可以用方程组表示为:模型的6个假定条件(与一元线性回归模型比较):1、随机差项的数学期望为零,即有: ( t = 1, 2, , n)2、随机差项的方差是一个常数,即有:3、不同的随机误差项和之间互相独立,即有: ( t ,s= 1, 2, , n. ts)4、解释变量与随机误差项不相关,即有: ( i=2,3,k;t = 1, 2, , n)5、随机差项为服从正态分布的随机变量,即有:上述五个假设与一元线性回归模型的假设条件相同。多元线性回归模型增加的一个假设条件是关于多个解释变量之间关系的,这就是假设6:6、任何解释变量之间不存在严格的线性相关关系。即不存在完全的多重共线性。多元线性回归模型的矩阵表示多元线性回归分析的四个方程:总体回归模型:总体回归方程:样本回归模型:样本回归方程: 多元回归分析中的矩阵表示方程组表示的转化可以定义,。用矩阵表示的四个方程为:总体回归模型: 总体回归方程: 样本回归模型: 样本回归方程:假设条件的矩阵表示:假设1: 假设2和假设3:=假设4表示矩阵X的所有元素均为非随机因素,即X为确定性矩阵。假设5表示矩阵U服从多元正态分布,即有:假设6表示要求矩阵X是满秩。第二节 参数的最小二乘估计多元回归分析的思想与一元回归分析一样,我们仍然是要通过样本来对总体系数进行估计,在这里就是对系数矩阵进行估计,也就是对总体系数矩阵进行估计,得出其估计值。在这个估计当中,仍然使用的是最小二乘准则,即使残差平方和达到最小值。不同的是采用矩阵运算的形式来进行,具体步骤就是,求出残差,和残差平方和,进而通过一阶必要条件来解。由样本回归模型: 和样本回归方程:,可得残差为,进而残差平方和为:注意:1这里运用到了矩阵转置的穿脱原理;2、运用到一个标量矩阵的转置恒等;3、注意矩阵的运算中法则特别是交换律。就残差平方对求偏导数并令其等于零得:这就是参数矩阵的估计值。两个有意义的结论:1、残差和等于零2、解释变量与残差互相独立离差形式的最小二乘估计量参数矩阵的估计值为。从这个估计值可以看出,要计算矩阵乘积的逆矩阵,计算工作量相当大。采用离差形式的样本观察值将大大简化计算,并且有助于我们的理解。对多元线性回归的总体模型的两边求平均值有:(这里要注意表示方法的含义)进一步,我们可得:定义:,则以离差形式表示的总体回归模型为:总体回归方程为:对多元线性样本回归模型两边求平均值,并变换得离差形式表示的样本回归模型为:样本回归方程为:进一步,运用最小二乘估计准则,可得以离差形式表示的参数估计矩阵为:。的求法是什么?第三节 最小二乘估计量的性质一、线性特征:系数矩阵估计值是被解释变量Y和随机扰动项U的线性组合。证明:因为根据最小二乘估计准则,我们得出系数矩阵估计值为:,说明是被解释变量Y的线性组合。又因为:这说明是随机扰动项U的线性组合。从而,具有线性性。二、无偏性这说明系数矩阵估计值是总体参数矩阵的无偏估计量,具有无偏性。三、最优性(有效性、最小方差性)指的是用最小二乘估计准则得到的系数矩阵估计值的方差最小。因此,证明时要计算出的方差,然后证明最小二乘准则下的这个方差最小。的协方差矩阵定义为:根据无偏性,有,所以根据线性性,有,所以,因此有以下推导过程:即有现在要证明这个方差最小。设为总体参数的一个线性无偏估计量。因为具有线性性,所以可设。所以有:因为是无偏估计量,所以必然有。这样,必有,故。根据定义,的协方差为:又,所以,即我们已经证明考虑的性质。可以说明,的方差大于的方差,因为具有一般性,且包含,所以的方差最小。误差项方差估计由样本回归模型:得到:令,则其中具有1、对称性();2、幂等性();3、与X互相独立()。所以残差平方和为:残差平方和为标量,故也为标量。,所以有:即有进一步,说明是的无偏估计量。如果定义,则是的无偏估计量。用代替方差中的,我们可以得到方差的估计值为:以离差形式表示的的方差以及方差估计值为:,。第四节 参数估计式的分布特性与检验模型的设定、估计、检验和预测是计量经济学的基本研究规范。在多元回归分析中,这些内容仍然是研究的重点。一、 参数估计式的分布特征1、为什么要讨论参数估计式的分布特征?多元线性模型的系数估计矩阵为: 和后一个是离差形式的系数估计矩阵。2、系数矩阵估计式有哪些特征?(1)线性特征表明系数矩阵估计值是被解释变量Y和随机扰动项U的线性组合。这在讨论系数矩阵的分布特征上意味着什么?(2)系数矩阵估计式分布特征的数学表达 又因为系数矩阵估计值是随机扰动项U的线性组合,即有:,因此,可以知道,系数矩阵估计值中的每一个元素等于中的对应元素与随机扰动项线性组合的和。又根据假定条件,随机扰动项U服从多元正态分布,即有:,根据正态分布的特征,系数矩阵估计值也服从正态分布。根据无偏性,我们知道,正态分布的均值为,即有:又根据最小方差性的讨论,我们知道,正态分布的方差为:因此,正态分布服从均值为,方差为的多元正态分布,数学形式可以表示为:从上一节的误差项方差的估计中,我们知道,是的无偏估计量,其中,用代替方差中的,我们可以得到正态分布服从均值为,方差为的多元正态分布,数学形式可以表示为:因此,对于正态分布而言,我们知道的是方差,而总体均值未知。二、总体参数检验与置信区间1、总体参数检验的含义2、检验的工具对于正态分布而言,我们知道的是从样本中得到的方差,而总体均值未知。对总体参数的检验属于已知方差,来对均值进行检验。3、检验的类别对于多元回归模型而言,参数检验的类别有两种:(1) 对单个参数的检验和置信区间(含义是什么)检验对于这种检验而言,与一元回归模型的参数检验的思想、统计量一致,其经济含义也一致。对总体系数举证中的每个参数值进行检验。过程为:零假设为:备择假设为:计算统计量查t分布表,得出临界值。若,则拒绝零假设,接受备择假设,即认为。注意的问题:1、统计量;2、显著性水平;3、经济含义;置信区间通常说,单个参数的置信区间为(2) 参数的整体检验含义:检验多个解释变量对被解释变量的共同影响是否显著,是从总体模型的意义上来进行的检验。因此,这里要检验的是解释变量(总体,不是样本)系数是否全为零。因此,参数的整体检验的假设是:零假设:即解释变量系数同时为零,也可说解释变量对被解释变量的共同影响不显著。相应地,备择假设是解释变量系数不同时为零,即存在某个不为零。理论证明:检验所用的统计量 .即统计量服从分子自由度为k-1,分母自由度为n-k的F分布。ESS和RSS为可解释平方和(回归平方和)和残差平方和。关于F分布F检验示意图 F分布含义:给定显著性水平,则有:注意:1、F检验是单边检验;2、F检验的自由度(参数个数,解释变量个数);3、与t检验的区别。因此,如果计算出来的F统计量的值小于临界值,则接受原假设,即解释变量系数同时为零,此时解释变量对被解释变量的共同影响不显著。如果计算出来的F统计量的值大于于临界值,则拒绝原假设,接受备择假设。即解释变量系数不同时为零,存在有解释变量对被解释变量的影响显著。三、相关分析(可决系数)1、一元线性回归模型的可决系数:总离差平方和: 回归平方和: 残差平方和:可决系数或拟合优度可以定义为:2、多元样本可决系数多元样本可决系数度量通常用多元样本可决系数或多元样本决定系数来度量估计的回归方程的拟合优度。它指被解释变量中的变异性能被估计的多元回归方程解释的比例。同样用来表示拟合优度。与此同时,在多元分析中,总变差也可以分解为回归平方和与残差平方和,即有和因此,多元回归中,决定系数可以表示为:多元决定系数的特点重要特征:随着解释变量数目的增加而变大。原因:随着解释变量的增加,残差平方和RSS不断减小,从而不断增加(为什么?书本上介绍的原因、公式上的原因、经济模型含义。)越大越好吗?随着解释变量数目的增加,增加,原因在于残差平方和的减小,但是,前面的分析,我们知道,是的无偏估计量,其中: 因此,增加解释变量个数,不一定能减小误差项方差估计值。如果引入的解释变量增加,但残差平方和减小的幅度较小,则误差项方差估计值会增加,即会增加。增加的影响:推测精确度的降低原因:两难选择的均衡:修正的决定系数:含义是什么?和的关系:所以修正的决定系数的使用范围:案例:Y:人均国内生产总值X2:人均粮食产量X3:人均原油产量X4:人均钢产量X5:人均煤产量单因素方差分析一、课前回顾:变量之间关系分析的方法1、回归分析:2、相关分析:相关系数度量和拟合优度度量(R2)二、单因素方差分析基本思想例:某种商品的销售量Y受商品价格指数的影响。Ai商品价格指数X商品销售量YniAi商品价格指数X商品销售量YniA1123n1=4A1123n1=4120120122122119119A21.120n2=5A2118 n2=51.118116 1.119117 1.118116 1.115114 A31.216n3=6A3113 n3=61.217114 1.218115 1.215113 1.216113 1.214112 A41.316n4=6A4112 n4=61.31219 1.314111 1.313110 1.315112 上述表格按照不同的价格指数,分别统计了四组商品销售量,gon共有20个样本。每一种价格指数表示一个水平。从表中我们可以得到什么呢?有两个直观的现象:一是相同的商品价格水平下,商品的销售数量不同。二是不同的商品价格水平下,商品的销售数量不同。上述两个现象,用经济学语言来讲是什么呢?这就是商品的销售数量(被解释变量Y)在不同的价格水平(解释变量X)下,发生变化。上述的现象是从样本中得出的,那么现在,我们要解决的问题是:在总体的意义上,商品销售量的这种差别(被解释变量Y的差异性)是否受到这种价格指数(解释变量X)的显著影响?这个问题是单因素方差分析问题(这是什么含义?被解释变量的变差来源问题)怎样通过上述的样本来推断断商品销售量是否受到这种价格指数的显著影响呢?(这就是显著性检验问题,原假设是什么,备择假设是什么,统计量是什么,统计量服从什么分布等)(我们需要解决的问题是什么?)在上述的例子中,商品价格指数X有五个水平Ai,对被解释变量Y发生影响。每个水平下,有一个总体Yij,设为第i个水平下的总体均值,假定各总体服从同方差的正态分布,且各总体相互独立,则各总体服从均值为,方差为的正态分布。因此,商品销售量是否受到价格指数的显著影响这一问题转化为各个总体的均值是否相等的问题,(如果我们能够推断出各个总体的均值相等,则说明商品销售数量受价格指数的影响不显著。从而被解释变量的变差来源不是价格指数,而是其他因素。)因此,这一问题转化为通过样本均值来检验假设是否成立。 若零假设假设成立,则各个总体的均值是相等,从而,商品销售量受价格指数的影响不显著。进一步,可以说,被解释变量的变差来源不是价格指数,换言之,被解释变量与解释变量之间没有关系。若零假设假设不成立,则各个总体的均值不相等,从而,商品销售量受价格指数的影响显著。进一步,可以说,被解释变量的变差来源是价格指数,换言之,被解释变量与解释变量之间具有相关关系。二、 单因素方差分析的方法1、总离差平方和的分解从上述的例子可以看出,在同一价格指数X的各个水平Ai下,产品销售数量存在差异。这种差异因为是在一个相同的价格水平下表现出来的,因此,可以认为是由于其他的随机干扰因素引起的。同时,在不同格指数X下,产品销售数量存在差异,这种差异的主要原因是由于价格指数(因素A)的不同造成的。设:,表示每个水平Ai的样本平均值;,表示所有样本的总平均值;,表示总样本数量。所以有:定义:为总离差平方和,表示各个样本值与总平均值的离差平方和。为由因素A(解释变量)引起的组间离差平方和(为什么?),表示各组平均值对总平均值的理查的加权平方和,反映了从各个不同水平总体中取出的各个样本间的差异程度,这反映了因素A的不同水平所引起的系统性误差。为由随机因素(扰动项)引起的组内离差平方和(为什么?)表示从K个总体中的每一个样本内部的离差平方和,他反映了同一水平下个总体内部的随机因素引起的误差。可以证明:2、检验方法从直观上看,若组间离差平方和ASS与组内离差平方和RSS相比大得多,这说明不同水平之间有明显差异(解释变量),k个总体不能认为服从同一正态分布,从而各个均值不相等,从而,零假设不成立。反之,则接受原假设。因此,可以通过比较组间离差平方和ASS与组内离差平方和RSS的大小来检验零假设,并进而做出被解释变量和解释变量之间的关系。比较组间离差平方和ASS与组内离差平方和RSS的大小来进行检验,要首先建立与两者之比有关的统计量的分布。如果零假设成立,则与组间离差平方和ASS与组内离差平方和RSS有关的统计量:服从分子自由度为k-1,分母自由度为n-k的F分布。从而在给定一定显著性水平的情况下,可以进行F检验,以此来判断零假设拒绝与否,并进而得出解释变量对被解释变量是否有影响的结论。五、方差分析、相关分析和回归分析的关系1、方差分析实质:解释变量与被解释变量之间关系。统计量:ASS为组间离差平方和,RSS组内离差平方和。2、(多元)回归分析实质:多个解释变量与被解释变量之间关系。检验解释变量对被解释变量共同影响是否显著的统计量为:ESS为回归平方和,RSS为残差平方和。3、相关分析(R2)实质:指的是方程的拟合程度,度量的是解释变量与被解释变量之间的相关程度,说明的同样是解释变量与被解释变量之间的关系。度量:4、三者之间的关系实质关系:数量关系:即上式子也可以写为:给定显著性水平,则对于一个回归模型而言,我们在进行整体模型的显著性检验时,可以可到一个F分布临界值,进而代入上面式子,我们可以得到一个R2的一个临界值,通过比较这个临界值,可以判断回归模型拟合优度是否显著。六 用逐步引入法选择解释变量基本思想:借助方差分析方法,对总变差中由新增加的解释变量所带来的增加的可解释部分的方差比进行F检验,以此决定新引入的解释变量是否合适(为什么?)。例:商品销售量的影响因素分析:销售额Y价格指数X2售后服务支出X3替代产品销售量X4231100.420190.5221110.419190.4201.1100.6181.190.4191.1100.4181.190.5151.170.3161.280.5171.280.4181.290.4151.270.3161.280.3141.270.2161.380.2121.360.2141.370.2131.360.2151.370.2只引入解释变量价格指数X2的回归结果:Dependent Variable: YMethod: Least SquaresDate: 10/10/12 Time: 20:51Sample: 1 20Included observations: 20VariableCoefficientStd. Errort-StatisticProb.C43.456143.87463611.215540.0000X2-22.807023.326144-6.8568940.0000R-squared0.723149Mean dependent var17.00000Adjusted R-squared0.707769S.D. dependent var2.937955S.E. of regression1.588212Akaike info criterion3.857734Sum squared resid45.40351Schwarz criterion3.957307Log likelihood-36.57734F-statistic47.01700Durbin-Watson stat2.595624Prob(F-statistic)0.000002回归平方和为:引入解释变量价格指数X2、X3的回归结果:Method: Least SquaresDate: 10/10/12 Time: 22:22Sample: 1 20Included observations: 20VariableCoefficientStd. Errort-StatisticProb.C12.539044.5295602.7682690.0132X2-7.1751582.647454-2.7102110.0149X31.5495930.2057497.5314790.0000R-squared0.936160Mean dependent var17.00000Adjusted R-squared0.928650S.D. dependent var2.937955S.E. of regression0.784771Akaike info criterion2.490630Sum squared resid10.46970Schwarz criterion2.639990Log likelihood-21.90630F-statistic124.6461Durbin-Watson stat0.849598Prob(F-statistic)0.000000回归平方和为:因此,引入X3之后,可解释变差的增加部分为:所以根据方差分析方法,查F分布表,得临界值,故,拒绝零假设,新引入的变量X3是显著的。应该引入X3。引入解释变量价格指数X2、X3、X4的回归结果:Dependent Variable: YMethod: Least SquaresDate: 10/10/12 Time: 22:44Sample: 1 20Included observations: 20VariableCoefficientStd. Errort-StatisticProb.C12.828964.7448102.7037880.0157X2-7.4311792.839483-2.6170890.0187X31.5815070.2344776.7448340.0000X4-0.7320862.325567-0.3147990.7570R-squared0.936553Mean dependent var17.00000Adjusted R-squared0.924657S.D. dependent var2.937955S.E. of regression0.806429Akaike info criterion2.584456Sum squared resid10.40525Schwarz criterion2.783602Log likelihood-21.84456F-statistic78.72676Durbin-Watson stat0.880705Prob(F-statistic)0.000000第五节 多重共线性一、多重共线性的分类:1、完全多重共线性:解释变量矩阵中的某些列向量是其他向量的线性组合,这时参数系数矩阵求不出来(为什么?)。这种情况称之为解释变量之间存在完全多重共线性。2、完全多重共线性:各解释变量之间完全独立。计量经济学关注的问题,不是是否存在多重共线性,而是共线性程度的强弱。一般提到多重共线性时,是指存在比较强的线性相关关系。三、 多重共线性的影响1、完全多重共线性时,造成参数系数矩阵无法求出来。2、严重(明显)多重共线性的影响:(1)不能对总体参数做出准确推断;(2)方差变大,导致t统计量偏小,发生淘汰不应淘汰的解释变量的情况,导致弃真错误。(3)导致产生错误的模型设定。(4)模型的可靠程度减低。二、多重共线性的检验1、相关系数检验法及其使用范围2、逐步分析检验法先引入经济意义明显的解释变量,并进行参数估计与检验,逐步引入其他解释变量,如果出现决定系数大,F统计量也很大,但t统计量很小,无法通过检验,则表明存在严重的多重共线性。四、 多重共线性问题的处理方法1、根据研究的目的,保留重要解释变量。2、去掉不重要的解释变量。3、一阶差分法消除多重共线性。如果原有多元线性回归模型为:则t-1期的多元线性回归模型为:令一阶差分为:用t期的方程减去t-1期的方程,可得这就是原模型的一阶差分方程。如果原模型存在严重的多重共线性,则其一阶差分方程的共线性会减轻或者是消除,进而我们就可以对一阶差分方程进行估计。问题:常数项怎么得到?4、主分量法。案例分析(如何检验,如何消除多重共线性?)例:天津市1974-1987年粮食销售量的影响因素Y:粮食销售量X2;市常驻人口数X3;人均收入X4;肉销售量X5;蛋销售量X6;鱼虾销售量天津市粮食销售量影响因素年份YX2X3X4X5X6197498.45560.20153.206.531.231.891975100.70603.11190.009.121.302.031976102.80668.05240.308.101.802.711977133.95715.47301.1210.102.093.001978140.13724.27361.0010.932.393.291979143.11736.13420.0011.853.905.241980146.15748.91491.7612.285.136.831981144.60760.32501.0013.505.478.361982148.94774.92529.2015.296.0910.071983158.55785.30552.7218.107.9712.571984169.68795.50771.1619.6110.1815.121985162.14804.80811.8017.2211.7918.251986170.09814.94988.4318.6011.5420.591987178.69828.731094.6523.5311.6823.37首先,粮食销售量与影响因素的散点图Y与X2Y与X3Y与X4Y与X5:Y与X6:其次,根据散点图,尝试建立回归方程:第三,对回归方程进行估计,软件输出结果如下:Depen
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (正式版)DB15∕T 3280-2023 《披碱草属植物栽培技术规程》
- 公司年度预算编制模板财务规划与资源配置
- (正式版)DB15∕T 3252-2023 《食品生产加工小作坊示范点评价规范》
- IT项目计划管理模板进度风险控制版
- 道德伦理考试题及答案
- 大象爬树考试题及答案
- 给日本地震灾区小朋友的一封信550字15篇
- 语文写作指导课:《写作的基本技巧与方法》
- 技术研发流程规范化管理工具
- 团队项目计划与执行进度跟踪模板
- 《燃煤火力发电企业设备检修导则》
- (高清版)TDT 1013-2013 土地整治项目验收规程
- 作文提纲课件
- 智慧养殖物联网解决方案
- 个人借款协议书范文:免修版模板范本
- 孙燕姿所有歌曲歌词大全(11张专辑)
- 竹简与毛笔背景的国学主题PPT
- 《欧姆定律》 单元作业设计
- 新高考人教版高中化学必修一全套课件
- 带秋字的古诗飞花令
- 体育原理完整版
评论
0/150
提交评论