复回归分析估计问题_第1页
复回归分析估计问题_第2页
复回归分析估计问题_第3页
复回归分析估计问题_第4页
复回归分析估计问题_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复回归分析估计问题第一页,共四十九页,2022年,8月28日

复回归分析,也就是多元线性回归分析,讨论应变量或回归子Y,依赖于两个或更多个解释变量或回归元的模型。 本章主要讨论有两个解释变量的情形。

§7.1三变量模型:符号与假定三变量的PRF为:()其中是截距项,表示所有未包含到模型中来的变量对Y的平均影响。和被称为偏回归系数(partialregressioncoefficients)。贵州财经大学经济研究所白万平教授第二页,共四十九页,2022年,8月28日

在经典线性回归模型(CLRM)的框架下,我们对()作如下假定:

ui的均值为零,即:对每一个i()无序列相关:()同方差性:()ui与每一个X变量之间都有零协方差:()贵州财经大学经济研究所白万平教授第三页,共四十九页,2022年,8月28日

其实,只要X2和X3是非随机的,并且有()成立,则这个假定就自动得到满足。无设定偏误,或:模型被正确地设定()

X诸变量间无精确的共线性,或

X2与X3之间无精确的线性关系()(NoexactlinearrelationshipbetweenX2andX3)另外,还假定:多元回归模型对参数而言是线性的;回归元的值在重复抽样中是被固定的,以及回归元的取值有足够的变异性(variability)。贵州财经大学经济研究所白万平教授第四页,共四十九页,2022年,8月28日

()式要求X2和X3之间无精确的线性关系,用专业术语讲就是无共线性(nocollinearity)或无多重共线性(nomulticollinearity)。简单地说,就是没有一个解释变量可以写成其余解释变量的线性组合。从数学上看,无共线性的含义是,不存在一组不全为零的和,使得:()如果这一关系式存在,则说明X2和X3是共线的(collinear)或线性相关的(linearlydependent)。如果()式仅当时成立,则说X2和X3是线性独立的。贵州财经大学经济研究所白万平教授第五页,共四十九页,2022年,8月28日

如果,这会不会破坏无共线性的假定呢?不会,因为这里的两个变量的关系是非线性的,并不违背回归元之间没有精确线性关系的要求。在极端情形下,如果X2和X3存在精确的线性关系,比如,则独立的解释变量实际上只有一个,而不是两个了:

贵州财经大学经济研究所白万平教授第六页,共四十九页,2022年,8月28日§7.2对复回归方程的解释把()的两边对Y求条件期望得:()可见,复回归分析是以多个解释变量的固定值为条件的回归分析。我们所获得的,是各个自变量X值固定时,Y的平均值或Y的平均响应(meanresponse)。

§7.3偏回归系数的含义偏回归系数的含义:度量着在保持X3不变的情况下,X2每变化1个单位时,Y的均值的变化。换一句话说,给出X2的单位变化对Y均值的“直接”或“净”影响(净在不染有X3的影响)。则给出了X3的单位变化对Y均值的“直接”或“净”影响,净在不沾有X2的影响。贵州财经大学经济研究所白万平教授第七页,共四十九页,2022年,8月28日

如何分离出X2对Y的“真实”或净影响呢?(双残差方法)第一步:Y仅对X3回归:()其中是样本残差项,b13的下标1指变量Y只对X3回归。第二步:X2对X3回归:()其中也是残差项。于是:

()贵州财经大学经济研究所白万平教授第八页,共四十九页,2022年,8月28日

()其中和是分别从回归()和()得来的估计值。残差和的含义:表示去掉X3对Y的(线性)影响后的Yi值;表示除去X3对X2的(线性)影响后的X2i的值。这样一来,和就代表是“净化了的(purified)”Yi和X2i。即除去了X3的影响(沾染)的Yi和X2i。具体例子见P194关于儿童死亡率与人均收入、妇女识字率的关系。贵州财经大学经济研究所白万平教授第九页,共四十九页,2022年,8月28日

第三步:做对的回归:()其中,是样本残差项。那么,就是X2对Y的“真实”或净影响的一个估计,或者说,是Y对X2的真实斜率的一个估计。

§7.4偏回归系数的OLS估计一、OLS估计量()式的PRF相对应的样本回归函数(SRF)为:()其中是残差项,是总体随机扰动项ui的相应部分。贵州财经大学经济研究所白万平教授第十页,共四十九页,2022年,8月28日OLS方法的实质就是,通过残差平方和(RSS)的一阶条件求未知参数的估计值:()贵州财经大学经济研究所白万平教授第十一页,共四十九页,2022年,8月28日

于是,得正规方程:从而,的OLS估计量为:()

()贵州财经大学经济研究所白万平教授第十二页,共四十九页,2022年,8月28日

()

如果X2和X3无关,会怎样?OLS估计量的特点:①可以从方程()和()中的一个通过x2和x3的对调而得到另一个,所以,它们本质上是对称的。②两个方程的分母完全相同。③三变量情形是双变量情形的自然而然的推广。二、OLS估计量的方差和标准误我们计算出标准误主要有两个作用:①建立置信区间②检验统计假设。公式如下,证明见第九章。贵州财经大学经济研究所白万平教授第十三页,共四十九页,2022年,8月28日

()

()

()或者:()其中,r23是X2和X3的样本相关系数:贵州财经大学经济研究所白万平教授第十四页,共四十九页,2022年,8月28日

()

()或者:()()()在上述公式中是总体干扰项ui的方差,的无偏估计量是:贵州财经大学经济研究所白万平教授第十五页,共四十九页,2022年,8月28日

()

注:自由度为(n-3),这是因为在估计之前,必须先估计和。从而损失了3个自由度。四变量中自由度为(n-4)等。而()课堂作业:证明上式贵州财经大学经济研究所白万平教授第十六页,共四十九页,2022年,8月28日贵州财经大学经济研究所白万平教授第十七页,共四十九页,2022年,8月28日

三、OLS估计量的性质1.三变量回归面通过均值,和。因为,()告诉我们:这个性质可以推广到一般情形,如在K变量回归中有:2.估计的(即)的均值等于真实的均值。由和得:贵州财经大学经济研究所白万平教授第十八页,共四十九页,2022年,8月28日

()将上式两边对所有样本值求和,再除以样本容量n得:()从而有:(由于())()其中贵州财经大学经济研究所白万平教授第十九页,共四十九页,2022年,8月28日因此,SRF:的离差形式表达为:()3.在求解OLS估计量的过程中,曾经有:这就是4.残差与和都不相关,就是贵州财经大学经济研究所白万平教授第二十页,共四十九页,2022年,8月28日

这也是求解OLS估计量的副产品:

即是所求。5.残差与不相关,即贵州财经大学经济研究所白万平教授第二十一页,共四十九页,2022年,8月28日∵()

∴贵州财经大学经济研究所白万平教授第二十二页,共四十九页,2022年,8月28日6.由()和()可见,越大(越接近1),和越大。,它们将很难估计和的真值。7.由()和(),与成反比,即X2的样本值变化越大,的方差越小,对的估计的精度越高。对的方差也如此。8.偏回归系数的OLS估计量是BLUE(最佳线性无偏估计)。证明略(用矩阵证明更简单,见第9章)。贵州财经大学经济研究所白万平教授第二十三页,共四十九页,2022年,8月28日ML估计在总体扰动项服从的假定下,ML与OLS所得的回归系数估计相同。但是,的估计有区别,前者所得估计是无偏的,后者是渐近无偏的。ML估计的方差贵州财经大学经济研究所白万平教授第二十四页,共四十九页,2022年,8月28日§7.5复判定系数与复相关系数R

(TheMultiplecoefficientofDeterminationandtheMultiplecoefficientofCorrelationR)复判定系数:在三变量(或者更多变量)的模型中,衡量Y的变异由变量、等联合解释的比重,记作。在概念上,近似于。的推导:()

是从所拟合的回归线(SRF)估计的值,它是真实的一个估计量。()可以变换为:()贵州财经大学经济研究所白万平教授第二十五页,共四十九页,2022年,8月28日

上式两边平方,再对i求和,得:

()()表明:总平方和=解释平方和+残差平方和即:TSS=ESS+RSS

()表明:

贵州财经大学经济研究所白万平教授第二十六页,共四十九页,2022年,8月28日

代入()有:

整理得:()于是,由定义有:

(),越接近于1,我们说模型“拟合”优度越高。贵州财经大学经济研究所白万平教授第二十七页,共四十九页,2022年,8月28日

复相关系数R:度量Y和所有解释变量在一起的关联程度。在一元回归中,r可正可负;但是,在多元回归中,R永远取正值。实际上,R没有太大的意义,用途不大。§7.6例子说明标准化后的优势§7.7从复回归的角度看简单回归:设定偏误初探

()模型试图用人均收入和妇女识字率去解释儿童死亡率的变化:

()如果采用双变量模型去拟合的话,则为:

()

贵州财经大学经济研究所白万平教授第二十八页,共四十九页,2022年,8月28日

既然()是“正确”的模型,那么,()就必然是一个有偏误的模型,其偏误在于丢失了一个不应该省略的变量。如果()的是真实的一个无偏估计,即,那么,在一元回归中的简单回归系数将不会是的无偏估计量。事实上,有以下关系式:()其中,是对回归中的斜率系数,即或者,有:贵州财经大学经济研究所白万平教授第二十九页,共四十九页,2022年,8月28日证明:离差形式的三变量总体回归模型可以表述为:(1)先乘以

,再乘以,得到通常的正规方程:

(2)

(3)用除(2)的两边得:

(4)贵州财经大学经济研究所白万平教授第三十页,共四十九页,2022年,8月28日

(∴是固定量)方程(4)便可以写为:(5)(5)式两边取期望值,得:

(6)(与,不相关,,是常数)其实,不仅有偏误,的方差也很可能有偏误。

贵州财经大学经济研究所白万平教授第三十一页,共四十九页,2022年,8月28日这是因为:(7)把(5)式和(6)式代入(7)式并化简得:

(8)贵州财经大学经济研究所白万平教授第三十二页,共四十九页,2022年,8月28日

由()式我们知道:

()

可见,(8)式和()不同,是一个有偏估计量。。结论:简单回归系数不仅度量了对Y的“直接”或“净”影响,而且也度量了通过它对所忽略变量的影响而影响Y的间接或诱发(induced)影响。简单地说,度量着对Y的总影响(直接影响加间接影响),而仅度量了对Y的直接或净影响。贵州财经大学经济研究所白万平教授第三十三页,共四十九页,2022年,8月28日结论:如果需要一个三变量回归,就不要尝试简单或双变量回归。或者说得更一般,如果你认定某个特殊的回归模型是“正确”模型,就不要从中略去一个或多个变量,而把它加以修改。如果你忽视这条原则,你就会得到有偏误的参数估计。不仅如此,你还可能低估了真实的方差并因而低估了回归系数的估计标准误。贵州财经大学经济研究所白万平教授第三十四页,共四十九页,2022年,8月28日§7.8与调整(校正)(andtheAdjusted)我们知道:其中,,与模型中X变量的个数无关。但是,则与模型中的回归元个数相关。随着X变量个数的增加,很可能减小,至少不会增大,从而将会增大。因此,在比较具有相同的因变量但有着不同个数的X变量的两个回归模型时,选择有最高值的模型就必须小心。这时,较高的可能来自解释变量个数的增加,并不能说明模型更好。贵州财经大学经济研究所白万平教授第三十五页,共四十九页,2022年,8月28日

考虑有关的自由度数,采用方差而不用变异,对的表达式进行修正,可以导出校正(校正判定系数,校正可决系数):

()其中,k代表模型中包括截距项在内的参数个数。显然,在三变量回归(二元回归)中k=3。 为校正(adjusted)。“校正”指的是,利用相应的自由度对()式中的平方和进行校正。有个自由度,而有个自由度。贵州财经大学经济研究所白万平教授第三十六页,共四十九页,2022年,8月28日贵州财经大学经济研究所白万平教授第三十七页,共四十九页,2022年,8月28日

需要指出的是,回归分析的目的并不是要追求较高的之值,而是要取得总体回归系数的可信任的估计量,以便作出统计推断。因此,研究人员应当更多地从理论上探讨解释变量与因变量之间的关系,而不能单凭最高的之值来选择模型。换言之,某个解释变量是否应列入模型,在很大程度上取决于事前的理论分析。PKPK此外,还有AIC,APC等评价模型的标准贵州财经大学经济研究所白万平教授第三十八页,共四十九页,2022年,8月28日贵州财经大学经济研究所白万平教授第三十九页,共四十九页,2022年,8月28日贵州财经大学经济研究所白万平教授第四十页,共四十九页,2022年,8月28日贵州财经大学经济研究所白万平教授第四十一页,共四十九页,2022年,8月28日§7.11偏相关系数一、简单与偏相关系数的释义对于三变量回归模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论