




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章 多元线性回归简单线性回归模型是用一个解释变量来解释应变量的。但在现实经济关系中,人们所要研究的变量往往受到一个以上的变量的影响,或者说可由多个变量来解释。例如,个人消费不仅与个人当期收入有关,还可能与财富及预期收入有关;个人收入不仅与受教育年限有关,还与年龄的大小有关;等等。所以用多个解释变量来说明应变量会使模型更为有用。第一节 多元线性回归模型的基本假设 设Y为应变量,为k个不同用来说明Y的被称为解释变量的变量,其中恒等于1,则称式子(3.1)所表示的模型为多元线性回归模型。 (3.1)其中,为随机扰动项;固定参数, 称为(总体)回归系数或偏回归系数。若令, , , 则(3.1)式可用如下矩阵形式表为 (3.1)在本章,我们研究满足如下经典假设的多元线性回归模型。假设1 随机扰动项的数学期望(均值)为零。即 (3.2)假设1意味着 (3.3)称(3.3)式为线性回归模型(3.1)的总体回归函数总体回归方程。假设2 随机扰动项的方差相等,并且跨期扰动项不相关。即 用I表示单位矩阵,则假设2即为 (3.4)这里的假设2就是第二章的假设2与假设3的综合,即同方差性与序列无关性的综合。假设3 随机扰动项和解释变量X不相关,即中不含解释变量X的任何信息。用数学式子可表示为 (3.5)在X是非随机变量矩阵的情况下,(3.5) 式是自动成立的,但为了一般起见,即使X为随机变量矩阵,只要(3.5) 式成立,那么对X为非随机变量矩阵情况下的结论,可以直接推广到X为随机变量矩阵的情形。假设3是一个非常重要的假设,它说明,随机向量Y中能够用X解释的部分完全从随机扰动项中分离了出来,因而,在随机扰动项中不再包括与解释变量相关的因素了。假设4 X是秩为k的矩阵。它要求X的各列线性无关,或者说解释变量之间不存在多重共线性。所谓多重共线性是指解释变量之间存在完全或近乎完全的线性相关。假设5 随机扰动项为服从正态分布的随机向量,即 (3.6)在样本容量足够大时,由数理统计学中的中心极限定理,假设5是近似成立的,此外,如果我们只是为为估计回归系数的值,假设5就是一个不必要的假设。假设6 解释变量X有足够多的变异。第二节 多元线性回归模型的参数估计一 最小二乘估计 设与总体回归模型(3.1)对应的样本回归模型为 (3.7)或用矩阵表示为 (3.7)其中表示总体回归系数向量的最小二乘估计,表示残差向量。其基本意义与第二章相同。在线性样本回归模型(3.7)或(3.7)中,使残差平方和最小的回归系数的估计称为最小二乘估计(LSE或OLS)。即使 (3.8)最小的。其中是的转置。下面推导最小二乘估计的表达式或计算公式。 为求使(3.8)式最小的,可将看成是的函数,则其关于的一阶偏导数必须为零,即据此得到正规方程 (3.9)若是非奇异的(假设6可保证),则 (3.10)可证上式即为使残差平方和最小的估计量。为证是使残差平方和最小的最小值点只需证其二阶偏导数矩阵是正定的即可。事实上, (3.11)对任意一非零向量c,令,则。除非v的每一元素都为零,否则是正的。但若v=0的话,则必是奇异的(因为c是非零向量),这与的非奇异假定相矛盾,所以一定是正定的。 可将(3.9)式写成 (3.9)上式在形式上与第二章的(2.15)是一致的。例3.1 表3.1是在表2.2的基础上加上一列广告支出的数据表。设苹果销量不仅与的价格(元/千克)有关,而且与相应的广告支出有关。用表示价格,表示广告支出(元),Y表示需求量(千克),设在任意价格水平上超市有满足任意需求的能力。那么,这12天的数据就是需求函数的表现。若假设需求量平均来看是价格和广告支出的线性函数。试估计该需求函数。表3.1销售量(千克)价格(元/千克)广告支出(元/千克)55100.557090.639080.7210070.79070.6310570.7358070.561106.50.71512560.7511560.691305.50.71513050.65解 设需求量关于价格和广告支出的线性回归模型为令恒等于1,则由表3.1中的资料计算得=所以故样本回归模型为 上式初步说明在价格水平不变的条件下广告有较大的边际效应。二 最小二乘估计的统计特性1 线性性。所谓线性性是指总体回归系数的估计量是应变量的线性函数。从最小二乘估计量的表达式知线性性是显然的。2 无偏性。即 (3.12)因即 (3.13)所以,即无偏性成立。3 有效性。在所有线性无偏估计量中,最小二乘估计量具有最小方差。为证明最小二乘估计量的有效性,先求的协方差矩阵 (3.14)再设的另一线性无偏估计量为,其中,A是一个矩阵。则由得 (3.15)和 令,则,代入上式,得在上式中,由于是一个非负定矩阵(的二次型是),即是一个非负定矩阵,这说明,的主对角线上的表示各回归系数的线性估计量的元素,大于的主对角线上的相应元素。可见,在所有线性无偏估计量中,最小二乘估计量具有最小方差。 综合以上性质得高斯马尔可夫定理:对满足经典假设1-4的多元线性回归模型,其回归系数的最小方差线性无偏估计量是最小二乘估计量。三 随机扰动项方差的估计 由于回归系数的最小二乘估计的方差与随机扰动项的方差有很大的关系,所以根据样本资料估计随机扰动项的方差也就很有必要了。为此,先考虑残差向量 (3.16) 其中称为最小二乘基本等幂矩阵,它是一个矩阵,它具有 对称性(),等幂性(),而且与解释变量不相关()。这些性质通过简单矩阵运算即可得到。再考虑残差平方和的数学期望 tr(A)表示矩阵A的主对角线上的元素的和,称为矩阵的迹,通过验算即知:矩阵的和的迹等于迹的和;矩阵的转置的迹等于原矩阵的迹;矩阵的数乘的迹等于矩阵的迹乘以该数;矩阵的乘积的迹与矩阵的位置无关,即tr(AB)=tr(BA)。在这里要注意到:矩阵的迹等于它本身。 (3.17)故 (3.18)这说明随机扰动项的方差的一个无偏估计量为 (3.19)四 最大似然估计与Cramer-Rao定理 下面用最大似然法估计模型 (3.1) 中的参数。设随机扰动项为服从正态分布的随机向量,即。则,随机向量的密度函数为 (3.20)其对数似然函数为 (3.21) 在给定样本条件下,求参数的估计值,使对数似然函数达到最大。设回归系数的最大似然估计为,随机扰动项的方差的最大似然估计为,则 可见回归系数的最大似然估计与最小二乘估计是一样的,而随机扰动项的方差的最小似然估计则有所不同,而且是有偏的。但当样本容样很大时,最大似然估计与无偏估计基本一致,即是渐进无偏的。 为了进一步研究回归系数的统计特性,我们应用第二章第二节的Cramer-Rao定理及其推论:Cramer-Rao定理:设是基于样本的关于参数向量的无偏估计量,则的协方差矩阵与信息矩阵的逆矩阵(简称逆信息矩阵)之差将是一个半正定矩阵。 推论:设是参数向量的无偏估计量,而的主对角线上的元素为,则。下面求对数似然函数(3.21)信息矩阵故 (3.22)它的逆为: (3.23)由于回归系数的最小二乘估计的协方差矩阵为,它与信息矩阵的逆矩阵在相应位置的主对角线上的元素相同,所以最小二乘估计量不仅是最优线性无偏估计,而且还是最优无偏估计。五 估计量的分布特性 显然样本回归系数向量服从数学期望为向量,协方差矩阵为的多元正态分布。即 (3.24) 而服从自由度为的分布,而且与相互独立。这个结论正是曾在第二章第三节所给出的定理,当时并没有给出证明,现在证明之。 首先证明服从自由度为的分布,即证明 (3.25) 由于对称等幂矩阵的秩等于它的迹 参见美威谦H.格林著,王明舰等译经济计量分析第32-44页,中国社会科学出版社,1998年3月。,而最小二乘等幂矩阵M是对称的等幂矩阵,根据(3.17)式便知最小二乘等幂矩阵的迹为,所以它的秩为。 又由于对称的等幂矩阵的特征根不是1就是0,故存在正交矩阵C,使得 同上。,其中是一个主对角线上前个数为1,其它位置上的元素都为0的对角矩阵。 将代入中,得 (3.26) 令,则 (3.27)其中是将作正交变换后的结果。 根据,以及得也服从数学期望为零,协方差矩阵为的正态分布,从而其分量服从数学期望为零,方差为的正态分布,而且由于不同分量的协方差为零,所以不同分量是相互独立的。故为个相互独立的标准正态分布的平方和,根据分布的定义,服从自由度为的分布。其次,关于与相互独立的问题,可由下式验证。 (3.27)可见,残差与回归系数的最小二乘估计是相互独立的,从而作为残差的函数的与回归系数的最小二乘估计也是相互独立的。 上述结论为多元回归系数的置信区间与显著性检验的研究打下了理论基础。第三节 多元回归模型的统计检验 多元回归模型的统计检验是要对已得模型是否可用于经济分析、政策评价、结构分析、预测等问题在统计性质方面作出分析与评价,以决定已得模型的应用价值。就其内容来看,它包括总体参数的置信区间的探求,显著性检验和一般线性假设检验,拟合优度与方差分析,相关分析等。一 置信区间1 总体回归系数的置信区间 对于多元线性回归模型,设其中为矩阵中第i行,第j列的元素。由于,所以回归系数的最小二乘估计的方差为 (3.28) 因此随机变量的标准化随机变量服从标准正态分布。同简单线性回归分析一样,我们引入样本回归系数的标准误。则因为随机变量的分子服从标准正态分布,分母为一个自由度为的分布除以其自由度后的算术平方根。根据t分布的定义,服从自由度为的t分布。故,的置信度为的置信区间为 (3.29)其中为置信度为时t分布的双侧临界值。2 总体方差的置信区间多元线性回归模型中方差的置信区间与简单线性回归模型中的情形类似。由于在的正态性假设下,变量 (3.30) 服从自由度为的分布。故可利用分布来建立的置信区间: (3.31)其中居于双重不等式中间的值由(3.40)给出,而和是得自数值表中自由度为的两个值(临界值),使得它们各切去分布的100尾部面积。将(3.40) 代入(3.41),并加整理得, (3.32)这就给出了的置信区间。二 假设检验1 回归系数的显著性检验(t检验)。所谓回归方程的显著性检验是指对总体线性回归模型 (3.1)而言,假设是否在统计上被拒绝,如果不被拒绝,则称回归系数对被解释变量的影响是不显著的,或称解释变量对应变量的影响是不显著的;如果假设在统计上被拒绝,则称回归系数对被解释变量的影响是显著的,或称解释变量对应变量的影响是显著的。 如前所述,服从自由度为的t分布,所以在假设的前提下,服从自由度为的t分布。故可构造t检验程序如下:(1)设置原假设与对立假设:原假设和对立假设;(2)作统计量 (3.33)(3)根据样本数据和原假设计算统计量t的值;(4)根据统计量t的值进行显著性判断:如果统计量t的值落入了以为中心的其概率度为(称为显著性水平,一般为值较小的正数,通常小于0.1)的区间内,即t的绝对值小于某个临界值,则我们认为没有理由拒绝假设,从而不显著异于零,表明根据观测样本来看,解释变量对应变量的影响是不显著的;如果统计量t的值落在以为中心且概率度为的区间之外,即t的绝对值大于某个临界值则说明小概率事件发生了,这说明我们的假设可能有误,所以要拒绝假设,这就是说显著异于零,表明根据观测样本来看,解释变量对应变量的影响是显著的。2 回归方程的显著性检验(F检验)。所谓回归方程的显著性检验是指对总体线性回归模型 (3.1)而言,假设是否在统计上被拒绝,如果不被拒绝,则称回归方程对被解释变量的影响是不显著的;如果被拒绝,则称回归方程对解释变量的影响是显著的。表现在样本上就是由回归所产生的变异在解释应变量的变异方面是否明显。 由于在零假设前提下,可证统计量 (3.34)服从第一个自由度为,第二个自由度为的F分布。故可设计显著性检验程序。(1) 设置原假设与对立假设:原假设: (即回归方程不显著)和对立假设:不全为零 (即回归方程显著);(2) 作统计量(3) 根据样本数据和原假设计算统计量F的值;(4) 根据统计量F的值进行显著性判断:如果统计量F的值小于某个临界值(是使得的F分布的值)。不拒绝回归方程不显著的假设。如果统计量F的值大于某个临界值,则拒绝回归方程不显著的假设,即回归方程显著。在这里表示显著性水平。 值得注意的是,能否逐一地用t检验对偏回归系数进行显著性检验来代替对回归方程所作的总显著性检验呢?回答是否定的。事实上,在我们检验偏回归系数的显著性时,我们并没有考虑不同解释变量之间的在应用同一个样本时的联系,或者说,我们没有考虑样本回归系数之间的相关性。而在对回归方程进行总显著性检验和联合显著性检验时,则我们不能不考虑样本回归系数之间的相关性,所以在多元回归分析中,t检验和F检验是不能相互替代的。*3 线性约束检验(F检验)。对偏回归系数的显著性检验可以看成是在原线性回归模型中令某偏回系数为零以后得到的被称作是受约束(受到某个偏回归系数为零的约束)的线性回归模型是否就可以说明经济变量之间的关系的问题;同样对回归方程的显著性检验也可以看成是在原线性回归模型中令所有解释变量(常数项除外)前的回归系数都为零后的同样被称作是受约束(受到所有解释变量前的回归系数都为零的约束)的线性回归模型是否就可以说明经济变量之间的关系的问题。如果把这种思维加以展开,我们则容易想到一般的线性约束的检验问题。对多元线性回归模型或 (3.1)我们要检验线性约束 (3.35)是否不能在统计上拒绝。这就是指,我们要根据样本来对线性约束(3.35)进行统计检验。在(3.35)式中,C是一个矩阵,它的秩为r,d是一个矩阵即是一个r维列向量。所以线性约束(3.35),代表了r个独立的线性约束。 由于我们是根据样本进行推断,所以我们要用回归系数的最小二乘估计来检验(3.35)式是否显著不成立,或者与的差异是否足够大,以至于我们要拒绝线性约束。为此,我们考虑的统计特性。由于服从正态分布,所以也服从正态分布,在原假设的前提下,有 (3.36)故 (3.37)服从自由度为r的分布参见美威谦H.格林著,王明舰等译经济计量分析第86-87页,中国社会科学出版社,1998年3月。又根据(3.25)式可得知:末受约束的回归模型的残差平方和与扰动项的方差的比值服从自由度为的分布。故 (3.38)服从第一个自由度为r,第二个自由度为的F检验。因而,可构造F检验程序如下:(1) 设置原假设与对立假设:原假设:和对立假设:(2) 作统计量(3) 根据样本数据和原假设计算统计量F的值;(4) 根据统计量F的值进行显著性判断:如果统计量F的值小于某个临界值(是使得的F分布的值)。不拒绝线性约束假设。如果统计量F的值大于某个临界值拒绝线性约束假设。在这里表示显著性水平。显然回归方程的显著性检验是线性约束检验的特例,只要在约束方程中令则线性约束,即为回归方程的总显著性检验的原假设。4 精确显著性水平:p值。显著性检验的一个令人迷惑的地方是显著性水平的选择是主观的,无论是回归系数的显著性检验还是回归方程的总显著性检验,直至线性约束的检验,都涉及到这个问题。当选定一个显著性水平(比如1%)时回归系数可能是不显著的,但改变显著性水平的值(比如5%)后,回归系数则显著起来。在这样的情况下,相应的解释变量对应变量的影响是否显著的问题,就是一个很难回答得令人满意的问题。既然如此,我们还不如在已得样本下,计算出相应的检验统计量如t统计量,或F统计量的值,客观地给出其绝对值超过已计算出的这个统计量的确切的概率值。这个概率值叫做p值,也叫观测或精确显著性水平,或犯第类错误的精确概率。用更专业化的语言说,p值是一个虚拟假设可被拒绝的最低显著性水平。 这样,与其人为地确定一个显著性水平,还不如客观地将精确显著性水平告诉读者,让读者自己来决定原假设是否该拒绝。第四节 拟合优度与方差分析一 方差分解 与简单线性回归模型类似,在多元线性回归模型中,也可进行方差分解。对于作为应变量的随机变量,其样本观测值为(相应的解释变量取值为)。尽管我们根据最小二乘法求出样本回归方程以反映解释变量对应变量的解释。但是,这并没有反映的变化在多大程度上可以用样本回归函数的变化来解释。只有对此有了一定的了解,我们才能回答样本回归线在多大程度上与样本似合的问题。可以通过方差分析来研究的变差(相对于样本均值)中可以用样本回归函数()来说明的部分和不能由样本回归函数来说明的部分。注意到:两边平方:求和:故: (3.39)上式中左边表示应变量的样本值相对于其平均数的离差的平方和,它说明了应变量的样本值的变异程度,称之为总变差或总平方和,用SST表示。式子中右边的第一项是应变量的预测值(或者说更准确地说在样本回归线上与应变量相应的值)相对于其平均数(应变量的样本平均数与其预测值的平均数相等)的离差的平方和,它说明了预测值的变异程度,由于这此值都在样本回归线上故称之为回归平方和,用SSR表示。式子右边的第二项是残差的平方和,用SSE表示。所以(2.76)表示总变差可以分解为由回归方程解释的变差和不能由回归方程解释的变差,即总平方和等于回归平方和加上残差平方和。(2.76)式可以写成:SST=SSR+SSE (3.39)二 拟合优度 在应变量的样本总平方和中,一部分为回归平方和,另一部分为残差平方和。这就意味着从已得的样本观测值来看,应变量的变差一部分可以用解释变量来解释,而另一部分则不能用解释变量来解释。显然能够用解释变量来解释的部分占应变量的总变差的比例就是表示样本回归线对应变量的样本值拟合程度的一个量度,我们称这个量度为判定系数或决定系数,用表示。即 (3.40) 显然,判定系数的值在0和1之间。当时,残差平方和为零,从而必有残差为零。这时,应变量的变差可完全由解释变量解释,此时,从已得样本来看,样本点全部落在样本回归线上。当时,应变量的变差完全不能由解释变量解释。一般情况下,。而越接近1,回归模型的拟合状态就越好。 显然,在多元线性回归模型中增加一个解释变量,则残差平方和一般会减小(至少不会增大),从而判定系数则会相应的增大。由此可得知即使加入一个与应变量没有什么关系的变量作为解释变量,也会使判定系数增大。所以在比较有同一应变量但有不同个数的解释变量的两个回归时,选择有较大判定系数的回归模型就有可能误导。因此,有时我们有必要消除因解释变量个数的不同对判定系数的影响。可采用如下被称为校正判定系数来说明不同个数的解释变量的拟合优度。 (3.41) 但是,校正判定系数也有一些可能更严重的问题如可能为负等。 此外,在回归方程的总显著性检验中的F统计量与决定系数之间有如下关系: (3.42)三 再论线性约束检验 上一节已讨论过线性约束检验的问题,但在操作性方面上一节的讨论是不太方便的。为了使线性约束检验更便于操作和更自然,将约束条件代入到原回归模型中,得两个回归模型:不受约束的回归模型 (3.43)其中,分别代表在没有约束条件下的回归系数和扰动项。 受约束的回归模型 (3.44)其中,分别代表约束条件下的回归系数和扰动项。 用最小二乘法求得不受约束的(3.43)和受约束的(3.44)样本回归模型分别为 (3.45)和 (3.46)其中,分别代表在没有约束条件下的回归系数的最小二乘估计和残差;分别代表约束条件下回归系数的最小二乘估计和残差。 则显而易见受约束的残差平方和大于不受约束的残差平方和,并且 (3.47)服从第一个自由度为m,第二个自由度为n-k的F分布。其中,m是线性约束条件的个数,k为未受约束模型中解释变量的个数(包括常数项),n为样本容量。 (3.47)式还可表示为 (3.48) 根据以上讨论,可设计线性约束检验如下:1 利用样本数据对不受约束的多元线性回归(3.43)做回归求出残差平方和(或决定系数)。2 将m个线性约束条件代入原不受约束的多元线性回归模型中,得出约束条件下的多元线性回归模型(3.44)。3 利用样本数据对受约束的多元线性回归(3.44)做回归求出残差平方和(或决定系数)。4 构造F统计量(或),并计算其值。5 查自由度为的F分布表得显著性水平为的F分布的临界值。6 根据统计量F的值进行显著性判断:如果统计量F的值小于,则不拒绝线性约束。如果统计量F的值大于,则拒绝线性约束。四 方差分析表 把方差分解、判定系数和F统计量列在一个如下表所示的表格中就形成了一个方差分析表。表3.2 方差分析表变差来源变差自由度均方回归SSRk-1残差SSE=n-k总SST=SSR+SSEn-1例3.2 设GDP增长率线性地决定于人均消费增长率,投资增长率,政府支出增长率,货币供给增长率,和出口增长率。试根据表3.3的数据进行回归分析和方差分析。表3.3 宏观经济数据表年份GDP(亿元)人均消费(元)非国家投资(亿元)政府支出增长率货币供给量(亿元)出口总额(亿美元)199018547.98031530.79.26950.72985.8199121617.88961880.79.88633.33827.1199226638.110702581.410.511731.54676.3199334634.413315146.424.116280.45284.8199446759.417467427.124.820540.710421.8199558478.122369121.117.823987.112451.8199667884.6264110907.316.328514.812576.4199774462.6283411849.416.334826.315160.7199878345.2297213036.916.938953.715231.6199982067.5313813906.9522.145837.216159.8200089442.2339716413.2920.553147.220635.2200195933.336111530.71959871.622029.1资料来源:中国统计年鉴2002。解 根据题意建立多元线性回归模型如下:为了估计上述模型,根据表3.3的资料计算得表3.4如下:表3.4 提炼的宏观经济数据表年份19910.1655120.1158160.2286549.80.2420760.28176703119920.232230.1941960.37257410.50.3588660.22189124919930.3001830.2439250.99364724.10.3877510.13012424419940.3500850.3117960.44316424.80.2616830.97203319950.2506170.2806410.22808417.80.1677840.1947840119960.1608550.1811270.19583216.30.1887560.01000658519970.09690.0730780.08637316.30.2213410.20548805719980.0521420.0486940.10021616.90.1185140.00467656519990.0475120.0558550.06673722.10.176710.060939120000.0898610.0825370.18022220.50.1594770.27694649720010.0725730.062997-0.90674190.1265240.067549624(一) 根据表3.4中的资料用最小二乘法得样本回归模型为上式中括号内的数字为相应回归系数的t值。1从样本回归模型中可看出:第一, 决定系数表明拟合优度很好。第二,的系数所对应的t值为-0.277,表明投资的增长率对国内生产总值的增长率的影响并不显著;的系数所对应的t值为-0.128,表明政府支出的增长率对国内生产总值的增长率的影响并不显著。第三,的系数所对应的t值为9.77,的系数所对应的t值为3.38,和的系数所对应的t值为2.23,表明人均消费的增长率对国内生产总值的增长率的影响是相当显著的,货币供给的增长率对国内生产总值的影响也是显著的,出口增长率也有一定的显著性。第四,表明回归方程是显著的。2对样本观测值进行方差分析如下:方差分析表变差来源变差自由度均方回归0.10831850.021664残差0.00144650.000289总0.109764100.010976(二) 现对原回归模型附加三个线性约束:。受约束的回归模型为 根据表3.4中的资料用最小二乘法得受约束条件下的样本回归模型为上式中括号内的数字为相应回归系数的t值。1进行线性约束检验。显然不能拒绝线性约束假设。故可采用受约束模型。2在受约束的样本回归模型中进行显著性检验。由于的系数所对应的t值为8.61,所以其显著性水平极高,其精确性显著水平为;而的系数所对应的t值为3.07,所以货币供给的增长率也是显著性,其精确性显著水平为0.0154,的系数所对应的t值为1.93,在10%的显著性水平下也能通过显著性检验,其精确性显著水平为0.09。3受约束回归模型条件下的方差分析表为受约束条件下的方差分析表变差来源变差自由度均方回归0.1065730.035523残差0.00319480.000399总0.109764110.009979根据以上分析得出结论:国内生产总值增长的关键性因素当首推消费的增长,其次是货币供给量的增长,再次是出口的增长。第五节 偏相关系数与回归系数释义为了简单起见,考虑如下二元回归模型 (3.49)上式中的应变量和解释变量均以其离差形式给出。设其最小二乘估计的样本回归模型为 (3.50)一 偏相关系数在多元回归模型中,偏相关系数是指在某一个或某些解释变量不变条件下应变量与一个解释变量的相关系数。用分别表示Y与,Y与,与的简单相关系数,即在没有考虑其它变量是否变化下的两个变量之间的相关系数。有时称它们为零阶相关系数。用表示在保持不变条件下Y与的相关系数;用表示在保持不变条件下Y与的相关系数。称它们为一阶偏相关系数。这里的阶是指在研究两个变量的相关性时,排除它们所共同含有的因素(模型中的解释变量)的个数。在研究保持不变条件下Y与的相关关系时,如何排除Y与所共同含有的因素呢?由于这里研究的问题是样本问题,所以不妨用最小二乘法做Y对的回归得其残差,则从样本来看,这个残差就是把Y中含有的因素排除了,记为;同样用最小二乘法做对的回归得其残差,则从样本来看,这个残差就是把中含有的因素排除了,记为。于是在保持不变条件下Y与的相关系数,即一阶相关系数,就是与的简单(或零阶)相关系数。设在最小二乘法下,Y对的简单线性回归为 (3.51)对的简单线性回归为 (3.52)则在保持不变条件下Y与的相关系数,即一阶相关系数为 (3.53)类似地,若Y对的简单线性回归为 (3.54)对的简单线性回归为 (3.55)则在保持不变条件下Y与的相关系数,即一阶相关系数为 (3.56) 可以证明 (3.57) (3.58)虽然一阶相关系数与零阶相关系数在大小上并无一定的关系,即一阶相关系数可能大于或小于零阶相关系数,但是当零阶相关系数较大,而一阶相关系数接近零的时候,则说明可能存在谬误相关。二 偏回归系数释义 对二元线性回归模型,考虑回归方程 (3.59)易见,从而 (3.60) 可见,偏回归系数的意义是:在其它解释变量不变的条件下,解释变量或增加一个单位时,平均来看,应变量的增量。在现实经济活动中,经济变量的取值一般是非实验性的,所以在研究被解释变量受多个因素的影响时,很难通过实验将一个或几个解释变量固定或控制在某一水平去考察一个解释变量的变化对应变量的偏影响。但从上面的分析可知,多元回归分析解决了这个问题。正如许多人所说,多元回归方程的OLS估计,解决了实验科学中保持其它情况不变的问题,从而使对经济学的研究变得具有“实验性”。但是简单线性回归则不能做到这一点。在经典线性回归分析中,常常把应变量的期望值看成一种典型值,把误差或扰动看成是对典型值的偏离,而现代的计量分析则主要是把偏离看成未观测到的因素的作用。所以当经济变量之间的关系本来是多元关系而我们用简单线性回归模型来代替时,由于简单线性回归模型把许多未观测到的因素放入到扰动项中了,因此很难说斜率项回归系数是在其它变量保持不变时,解释变量对被解释变量的影响,换言之,由于简单线性回归模型把许多未观测到的因素放入到扰动项中,从而使研究者无法通过最小二乘法把这些变量控制,因而回归系数所反映的并不是模型中的解释变量对应变量的净影响。所以一般来说,回归系数的最小二乘估计是有偏的和不一致的。例如:真实模型为 (3.49)误设为 (3.61)的最小二乘估计为,则 (3.62)其中,为对的样本OLS回归系数。可见所表明的是对应变量的直接效应与通过其它解释变量如而影响应变量的间接效应如之和。因此简单线性回归中的回归系数并没有反映解释变量对应变量的净影响。因此,如果在模型中忽略了真实模型中的一个或几个解释变量,则其回归系数的最小二乘估计量不仅是有偏的,而且还是不一致的。当回归模型中所忽略的变量与解释变量有正的相关关系时,回归系数的最小二乘估计会偏高,而当所忽略的变量与解释变量有负的相关关系时,回归系数的最小二乘估计会偏低。第六节 预测一 均值预测1 点预测 考虑满足正态经典假设条件的简单线性回归模型 (3.1)其样本回归函数为当由各解释变量为分量构成的解释向量控制在时,应变量的均值为称为均值的点预测。易知,均值的点预测是无偏的。事实上,。的方差为 (3.63)2 区间预测 由于是正态分布的线性函数,所以它也服从正态分布,故有 (3.64)若用表示的标准误,则易证服从自由度为的t分布。故当解释变量的值为时,应变量的均值的置信度为的置信区间为 (3.65)其中,为当显著性水平为时的自由度为的t分布的双侧临界值。当样本容量较大时,比如大于30,则可用服从标准正态分布的Z统计量代替t统计量。二 个值预测 对多元线性回归模型(3.1) ,其样本回归方程为 ,则当解释变量的值为时,我们把由样本回归方程所决定的值也称为当解释变量取值为时应变量的点预测。 可见无论是应变量的个值还是其均值,和简单线性回归模型一样,它们的预测值就其表达式而言是一样的,但是含义却不太相同。首先,对均值的预测可以归结为总体参数的估计问题,而对个值的预测则不能。这是因为当把解释变量的值控制在某一水平时,应变量的均值从总体来看就是一个常数,它不是随机变量,所以对它的估计实际上就是一个参数估计问题。但是,对个值的估计则并非如此,当解释变量控制在某一水平时,应变量的值为多少,在我们的模型中,它是随机的,因而,就个值而言,它是一个随机变量,所以对个值的估计是对随机变量的取值所进行的估计,不是参数估计。其次,因为在解释变量给定时,应变量的个值是围绕其总体均值而上下波动的,当我们用样本回归函数所决的应变量的值(这个值取决于样本,所以当样本不同时,其值也不同)来估计总体均值和个值时,其相对个值的偏差的方差必定大于其相对于均值的方差,而大于的程度度就是个值围绕均值波动的程度,由于个值围绕均值的波动正是模型中的随机扰动,所以这个波动程度正好可用随机扰动项的方差表示,故预测值相对于总体个值的方差等于预测值的方差(因为均值的点预测是无偏的,所以其相对于均值的方差等于预测值的方差)加上随机扰动项的方差。可证明, (3.66)第三,预测值相对于均值而言是无偏的,但预测值相对于个值而言,则不存在这个问题,这也是因为均值是一个参数,而个值则是一个随机变量。 在经典正态假设下,个值预测的置信度为的置信区间为 (2.89)其中为的标准误, 为当显著性水平为时的自由度为的t分布的双侧临界值。例3.3 表3.5是对武汉市楼盘销售价格及相关情况的抽样调查表。其中,建筑类别分别用1、2、3、4表示多层、多层别墅、小高层、高层;交通状况综合分、物业管理综合分、周边配套等级分是通过对居住户的问卷调查平均而得。表3.5 对武汉市楼盘销售价格及相关情况抽样调查表楼盘名均价建筑类别交通状况综合分物业管理综合分绿化率(%)周边配套等级分幸福人家2150277336太阳城2600388307同温层2400377406奥林花园1800166306大江园3000398438东湖名居3000399458绿色晴川2300377336水木清华2100266307都市经典30003884010银海华庭375041095010帝景园2800398408华锦花园2450356346水木清华21002563071 试根据表3.5中的资料,做楼盘均价关于建筑类别、交通状况、物业管理、绿化率和周边配套的回归;2 对回归方程和解释变量作显著性检验;3 对应变量的样本值进行方差分析;4 令交通状况综合分和物业管理综合分前的回归系数为零,进行线性约束检验;5 根据适当的回归模型对作为高层建筑的学雅芳邻的楼盘均价进行点预测,设它的交通状况综合得分为8分,物业管理综合分为7分,绿化率为36%,周边配套等级分为8分。解 分别用表示楼盘均价、建筑类别、交通状况综合分、物业管理综合分、绿化率和周边配套等级分。建立多元线性回归模型如下:1根据表3.5中的数据用最小二乘法进行回归得样本回归方程如下: 2进行总显著性检验和解释变量的显著性检验 1)由于F=55.3,回归方程是显著的; 2)在显著性水平为10%时,建筑类别、绿化率和周边配套等级分都是显著的。3方差分析表变差来源变差自由度均方回归32459045649180.9残差87172.45711738.9总3333076.4512 4设线性约束后的回归模型为根据表3.5中的数据用最小二乘法进行回归得样本回归方程如下:可见受约束模型的显著性状况稍有改进。5点预测: =2974.1 如果用受约束模型进行预测则有:=3025.2习题三一 名词解释1多元线性回归模型2总体回归系数的置信区间3总体方差的置信区间4t检验5F检验6线性约束检验7拟合优度8精确显著性水平9偏相关系数10偏回归系数11均值预测12个值预测二 问答题1为什么受约束的残差平方和大于不受约束的残差平方和?2在多元回归模型中忽略了真实模型中的一个或几个解释变量会会造成什么后果?3在一个二元回归模型中,简单相关系数与一阶相关系数有何关系?4为什么说多元回归分析在很大程度上解决了无法在实验室进行的“保持其它变量不变”的问题?5试写出二元线性回归模型的回归系数的最小二乘估计公式和多元回归模型的回归系数的矩阵表达估计式。6设多元回归模型为试证明多元回归系数的最小二乘估计及估计式的方差可由下列式子给出:其中小写字母表示相应变量的离差,的回归模型中的第j个解释变量的离差对回归模型中其余解释变量的离差的最小二乘回归的残差的第i个值,表示第j个解释变量的离差的第i个观测值,表示对其余解释变量的相关系数的平方即对其余解释变量最小二乘回归的判定系数。 7简述多元线性回归模型的线性约束检验程序。8简述回归系数的OLS估计量的分布特征(假设回归模型满足正态经典假设)。9均值预测与个值预测的预测区间的长度有何关系?10简述多元回归分析与边际分析的关系。三 解答题1设某容量为100的样本回归模型为其中括号内的数字为相应系数的t统计量的值。如果两个解释变量之间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版全国性猎头公司战略合作合同下载
- 2025版保姆与老人长期护理服务合同-温馨相伴每一天
- 2025年会议中心场地租赁合同模板
- 2025版外贸出口货物风险评估与控制合同
- 2025导游劳动合同范本:含导游行为规范与奖惩措施的导游服务合同
- 2025版新能源汽车售后服务专项委托代理合同
- 基于物联网的2025年城市轨道交通智慧运维系统创新实践报告
- 咖啡连锁品牌在2025年市场布局中的社区商业饮品品牌市场潜力分析报告
- 生物信息学育种应用-洞察及研究
- 2025版通勤车辆安全驾驶培训服务合同
- T/CGAS 026.1-2023瓶装液化石油气管理规范第1部分:安全管理
- PEP人教版六年级上册英语课后辅导计划
- 餐饮劳务合同协议书样本
- 中医护理灸疗技术操作规范:督灸
- 泌尿外科手术分级管理制度
- 阿尔茨海默病药物治疗指南(2025)解读
- 报酬协议模板
- 《贵阳市公共交通场站设计导则》
- 新时代中小学教师职业行为十项准则
- 职业指导师考试题库及答案(含各题型)
- 企业融资过程中的税务问题解析
评论
0/150
提交评论