多元回归分析估计课件_第1页
多元回归分析估计课件_第2页
多元回归分析估计课件_第3页
多元回归分析估计课件_第4页
多元回归分析估计课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲第三讲 多元回归分析:估计多元回归分析:估计Multiple Regression Analysis: Estimation一、基本概念一、基本概念二、二、OLS估计估计三、三、OLS估计量的性质估计量的性质一、基本概念一、基本概念基本概念基本概念多元回归分析的普遍性:一些例子多元回归分析的普遍性:一些例子因变量因变量自变量自变量猪肉需求量猪肉需求量猪肉价格;牛肉价格;收入猪肉价格;牛肉价格;收入工资工资学历;工龄学历;工龄货币需求货币需求利率;国民收入利率;国民收入学习成绩学习成绩智商;性别;学习时间;学习支出;智商;性别;学习时间;学习支出;家庭收入;父母受教育程度;家庭收入;父母受

2、教育程度;教师;班级平均成绩;学校类型教师;班级平均成绩;学校类型基本概念基本概念多元线性回归模型(多元线性回归模型(multiple linear regression model)为什么要采用多元回归分析?为什么要采用多元回归分析?o 如果采用简单回归模型(如果采用简单回归模型(2),工作经验对工资的影响被),工作经验对工资的影响被放到误差项里。而工作经验与受教育水平是相关的,从而放到误差项里。而工作经验与受教育水平是相关的,从而E(u|education)0,不满足,不满足SLR.4(零条件均值假定),因(零条件均值假定),因此(此(2)式中)式中1的的OLS估计量是有偏的估计量是有偏的

3、o 简单回归模型难以做到保持其它相关条件不变简单回归模型难以做到保持其它相关条件不变uXXXYkk 22110)2()1(10210ueducationwageuexperienceeducationwage 基本概念基本概念参数参数/系数(系数(parameter/coefficient)一个关键的假定:零条件均值假定一个关键的假定:零条件均值假定为为斜斜率率为为截截距距,其其中中,称称为为参参数数或或系系数数。、中中,在在总总体体回回归归函函数数), 1(010110kjuXXYjkkk 112112221102121),|(,),|(0)(),|(XXXYEXXXXXXXXXXYEuEX

4、XXuEkkkkkk 的的影影响响为为:改改变变不不变变,保保持持,总总体体回回归归函函数数为为:假假定定n OLS的估计方法的估计方法n 拟合优度拟合优度二、二、OLS估计估计OLS的估计方法的估计方法样本回归函数(样本回归函数(SRF)n 为了估计出总体回归函数中的参数,需要从总体中抽取一为了估计出总体回归函数中的参数,需要从总体中抽取一个样本。用个样本。用(X1i , , Xki , Yi): i=1, ,n 表示从总体中得到表示从总体中得到的一个样本容量为的一个样本容量为n的随机样本。通过这个样本可以估计的随机样本。通过这个样本可以估计样本回归函数:样本回归函数: uXXXYXXXYk

5、kkk 2211022110或或OLS的估计方法的估计方法 kkikiikikikiiikikiiknikikiiniiiniikkkXXYXXXYXXXYQQQXXYYYuQ 、个个方方程程,可可以以解解出出个个未未知知数数有有针针对对一一阶阶条条件件:和和最最小小:,使使得得残残差差项项的的平平方方之之、找找到到一一组组1011011011101012110121210110)(0)(0)(0/0/0/)()(minOLS的估计方法的估计方法o 在本课程中,只需理解多元回归在本课程中,只需理解多元回归OLS估计的原理,不需了估计的原理,不需了解具体的计算过程,计算过程交由统计软件完成解具体

6、的计算过程,计算过程交由统计软件完成OLS的估计方法的估计方法回归系数估计值的含义回归系数估计值的含义o 多元回归分析:在非实验环境中完成受控试验,即保持其多元回归分析:在非实验环境中完成受控试验,即保持其他条件不变他条件不变jjjjjljkkjjkkjjjjljjjjkkXYXXXjlXXXXXXXYXXjlXYXXeffectpartialYXkjXXY ,则则:不不变变,同同理理,若若,则则:不不变变,若若变变化化的的数数量量。变变化化一一个个单单位位时时以以外外的的自自变变量量不不变变,即即保保持持),的的偏偏效效应应(对对)表表示示(任任意意一一个个中中,在在样样本本回回归归方方程程

7、)()1(1)(, 1110110110OLS的估计方法的估计方法例题例题3_1(课本(课本p71,例,例3.1)colGPA: 大学平均成绩大学平均成绩hsGPA:高中平均成绩:高中平均成绩ACT:大学能力测试成绩:大学能力测试成绩141009404530291 nACT.hsGPA.colGPAOLS的估计方法的估计方法例题例题3_2 (课本(课本p72,例,例3.2)位位任任职职年年数数):资资历历(在在当当前前工工作作单单:工工作作经经验验(工工龄龄):受受教教育育年年限限小小时时工工资资的的对对数数tenureexpereduclwagetenureexpereduclwage:02

8、2. 0004. 0092. 0284. 0 OLS的估计方法的估计方法例题例题3_3 :简单回归和多元回归的比较(课本:简单回归和多元回归的比较(课本p75,例,例3.3)o 多元模型多元模型o 简单模型简单模型prateCoefficientmrate5.521age.243_cons80.119prateCoefficient拟合优度拟合优度拟合优度拟合优度o 与简单回归分析类似,为了衡量根据与简单回归分析类似,为了衡量根据OLS估计得出的样本估计得出的样本回归函数对真实数据的拟合程度,引入回归函数对真实数据的拟合程度,引入复判定系数(复判定系数(multiple coefficient

9、 of determination)度量模型的拟合优度度量模型的拟合优度自自变变量量的的关关联联程程度度用用于于度度量量因因变变量量与与所所有有被被定定义义为为复复相相关关系系数数,解解释释的的比比例例。另另外外,异异能能够够被被所所有有自自变变量量表表示示因因变变量量的的样样本本总总变变为为模模型型的的复复判判定定系系数数,定定义义RSSTSSRSSTSSERuSSRYYSSEYYSSTniiniinii 1;)(;)(2121212拟合优度拟合优度例题例题3_4(课本(课本p77,例,例3.5)narr86Coefficientpcnv-0.150 ptime86-0.034 qemp86

10、-0.104 _cons0.712 R20.0413narr86Coefficientpcnv-0.151 ptime86-0.037 qemp86-0.103 avgsen0.007 _cons0.707 R20.0422拟合优度拟合优度o 增加解释变量一般会使复判定系数变大。因此,不能简单地增加解释变量一般会使复判定系数变大。因此,不能简单地根据复判定系数是否增大来决定是否加入某个解释变量根据复判定系数是否增大来决定是否加入某个解释变量例题例题3_5colGPA: 大学平均成绩;大学平均成绩;hsGPA:高中平均成绩:高中平均成绩ACT:大学能力测试成绩;:大学能力测试成绩;skipped

11、: 每周平均逃课数每周平均逃课数2340083001504120390117600094045302861172048204151222.Rskipped.ACT.hsGPA.colGPA.RACT.hsGPA.colGPA.RhsGPA.colGPA n 多元回归模型的高斯多元回归模型的高斯-马尔科夫假定马尔科夫假定n OLS估计量的无偏性估计量的无偏性n OLS估计量的方差估计量的方差n OLS估计量的性质估计量的性质三、三、OLS估计量的性质估计量的性质多元回归模型的高斯多元回归模型的高斯-马尔科夫假定马尔科夫假定o 与简单回归分析相同,为了判断点估计的无偏性、有效性与简单回归分析相同,

12、为了判断点估计的无偏性、有效性等性质并进行假设检验,还需对回归模型做出一些假定等性质并进行假设检验,还需对回归模型做出一些假定o 多元回归模型的高斯多元回归模型的高斯-马尔科夫假定马尔科夫假定2kkkkXXuVarMLRXXuEMLRMLRMLRMLRuXXY ),|(5 .0),|(4 .3 .2 .1 .11110同同方方差差性性:零零条条件件均均值值:全全的的线线性性关关系系且且自自变变量量之之间间不不存存在在完完异异个个解解释释变变量量具具有有一一定定变变不不存存在在完完全全共共线线性性;每每的的从从总总体体中中随随机机抽抽样样得得到到样样本本的的随随机机性性:样样本本是是的的型型对对

13、于于参参数数而而言言是是线线性性参参数数的的线线性性性性:回回归归模模对对于于总总体体回回归归函函数数多元回归模型的高斯多元回归模型的高斯-马尔科夫假定马尔科夫假定o 完全共线性(完全共线性(perfect collinearity):回归模型中的某些解:回归模型中的某些解释变量之间存在完全的线性关系释变量之间存在完全的线性关系区别区别o MLR.3关注自变量之间的关系,关注自变量之间的关系,MLR.4关注自变量与误差关注自变量与误差项之间的关系。项之间的关系。2211032133221100, 0XXXuXXXY ,令令存存在在譬譬如如,对对于于多元回归模型的高斯多元回归模型的高斯-马尔科夫

14、假定马尔科夫假定o 存在完全共线性时将无法得到存在完全共线性时将无法得到OLS估计量估计量o 例题例题3_6(课本(课本p81-82)的的偏偏效效应应不不变变,因因此此无无法法得得到到保保持持变变化化时时,无无法法完完全全相相关关,那那么么当当和和事事实实上上,如如果果、已已知知,仍仍无无法法得得到到、,即即便便和和只只能能得得到到估估计计实实际际上上只只有有两两个个,根根据据这这样样,真真正正的的解解释释变变量量则则有有:若若,对对于于1212121010203322033211201021013322110)()(XXXXXOLSuXXuXXYXXuXXXY OLS估计量的无偏性估计量的无

15、偏性OLS估计量的无偏性(证明见课本估计量的无偏性(证明见课本p106,附录,附录3A.3)o 保证保证OLS估计量无偏性的关键性假定是零条件均值假定估计量无偏性的关键性假定是零条件均值假定MLR.4,这一假定成立意味着自变量与误差项不相关,这一假定成立意味着自变量与误差项不相关,此时称该自变量为此时称该自变量为外生变量(外生变量( exogenous variable);如;如果某个自变量与误差项相关,称这个自变量为果某个自变量与误差项相关,称这个自变量为内生变量内生变量( endogenous variable)。k,j ,)(EOLSMLR.jjjj1041 的无偏估计量。即:的无偏估计

16、量。即:是是估计量估计量下,下,在假定在假定OLS估计量的无偏性估计量的无偏性违反零条件均值假定的几种常见情况:违反零条件均值假定的几种常见情况:o 遗漏解释变量遗漏解释变量o 测量误差测量误差o 样本选择样本选择本讲讨论第本讲讨论第1种情况,第种情况,第2种和第种和第3种情况在教材第种情况在教材第9章及章及17章讨论章讨论OLS估计量的无偏性估计量的无偏性遗漏变量对遗漏变量对OLS估计量无偏性的影响(课本估计量无偏性的影响(课本p84-88)11121211112112111211110221100)1()()()()2()1( 的无偏估计就取决于的无偏估计就取决于是否为是否为,那么,那么为

17、正确模型,即为正确模型,即如果如果因此,偏差为:因此,偏差为:估计值。估计值。的简单回归的斜率系数的简单回归的斜率系数对对为为其中,其中,以及,以及可以证明:可以证明:如果模型设定为:如果模型设定为:正确的模型为:正确的模型为: EbiasXXEXYXXYOLS估计量的无偏性估计量的无偏性遗漏变量对遗漏变量对OLS估计量无偏性的影响(课本估计量无偏性的影响(课本p84-88)有向上的偏误有向上的偏误,即,即,那么,那么若若有向下的偏误有向下的偏误,即,即,那么,那么若若如果如果)有向下的偏误(有向下的偏误(,称,称,那么,那么若若)有向上的偏误(有向上的偏误(,称,称,那么,那么若若如果如果的

18、无偏估计的无偏估计仍然是仍然是,那么,那么如果如果的符号相同,因此有:的符号相同,因此有:的样本相关系数的样本相关系数和和与与1112111221111211122111112121211)(0)(00),()3()(0)(00),()2()(0),()1(),( EEXXCorrbiasdownwardEbiasupwardEXXCorrEXXCorrXXCorrXXOLS估计量的无偏性估计量的无偏性例题例题会会有有向向下下的的偏偏误误,即即因因此此。,而而且且可可以以预预期期由由于于,使使用用了了如如果果遗遗漏漏了了为为家家庭庭收收入入为为生生师师比比,为为学学校校平平均均成成绩绩,假假若

19、若正正确确的的模模型型为为:会会高高估估真真实实的的会会有有向向上上的的偏偏误误,即即即即因因此此。,而而且且可可以以预预期期由由于于,使使用用了了如如果果遗遗漏漏了了假假若若正正确确的的模模型型为为:1121210210111121112102100)(000)()(00 bias)incomeratio,(CorruratiocoresincomeincomeratioscoreuincomeratiocoresEbias)abilityschooling,(CorruschoolingwageabilityuabilityschoolingwageOLS估计量的无偏性估计量的无偏性小结小

20、结o 如果遗漏的变量与现有的自变量不相关,那么即便遗漏了如果遗漏的变量与现有的自变量不相关,那么即便遗漏了这个变量也不会影响现有自变量的这个变量也不会影响现有自变量的OLS估计的无偏性;但估计的无偏性;但如果遗漏的变量与现有的自变量相关,就会影响现有自变如果遗漏的变量与现有的自变量相关,就会影响现有自变量的量的OLS估计的无偏性估计的无偏性o 遗漏相关变量的重要原因是这些变量难以观测(如能力、遗漏相关变量的重要原因是这些变量难以观测(如能力、永久性收入),这时可以采用一些办法来解决,如教材第永久性收入),这时可以采用一些办法来解决,如教材第9章介绍的代理变量,第章介绍的代理变量,第15章介绍的

21、工具变量法等。章介绍的工具变量法等。OLS估计量的无偏性估计量的无偏性包含无关变量对包含无关变量对OLS估计量无偏性的影响估计量无偏性的影响o 可以证明,在模型中包含对因变量无影响的自变量不会影可以证明,在模型中包含对因变量无影响的自变量不会影响现有响现有OLS估计量的无偏性(课本估计量的无偏性(课本p84)。)。o 但是如果这个无关变量与现有的自变量相关,就会增加但是如果这个无关变量与现有的自变量相关,就会增加OLS估计量的方差,从而影响其有效性估计量的方差,从而影响其有效性OLS估计量的无偏性估计量的无偏性例题例题工资收入:工资收入:wage;受教育年限:;受教育年限:schooling能

22、力:能力:ability; 兄弟姐妹的数量:兄弟姐妹的数量:siblingo 在工资方程中包含了兄弟姐妹的数量这个无关变量,则在工资方程中包含了兄弟姐妹的数量这个无关变量,则1的的OLS估计仍然是无偏的。但由于受教育年限可能与兄弟估计仍然是无偏的。但由于受教育年限可能与兄弟姐妹的数量相关,因此会增加姐妹的数量相关,因此会增加1的的OLS估计量的方差,从估计量的方差,从而影响其有效性。而影响其有效性。esiblingabilityschoolingwageuabilityschoolingwage 3210210 包包含含了了无无关关变变量量:假假定定正正确确的的模模型型为为:OLS估计量的方差

23、估计量的方差回归标准误:误差项标准差的估计(证明见课本回归标准误:误差项标准差的估计(证明见课本p762,附录,附录E.2)为为回回归归标标准准误误的的无无偏偏估估计计量量是是:下下,误误差差项项方方差差在在假假定定 22221151 . iuknMLROLS估计量的方差估计量的方差OLS估计量的方差和标准误(证明见课本估计量的方差和标准误(证明见课本p107,附录,附录3A.5)o 为简便起见,以下只讨论我们最关注的斜率系数为简便起见,以下只讨论我们最关注的斜率系数eXXXXXRkXRXXXSSTVarSERSSTVarkjMLRkkjjjjjjjjnijjijjjjjjj 11111102

24、21222)1(,)()()()11()(, 151 .:模模型型的的系系数数,即即下下列列多多元元回回归归进进行行回回归归而而得得到到复复判判定定)个个解解释释变变量量(含含截截距距项项对对其其余余为为的的样样本本总总变变异异。称称为为变变量量;的的方方差差和和标标准准误误为为:,下下,对对于于在在假假定定OLS估计量的方差估计量的方差例题例题3_7colGPA: 大学平均成绩;大学平均成绩;hsGPA:高中平均成绩:高中平均成绩ACT:大学能力测试成绩;:大学能力测试成绩;skipped: 每周平均逃课数每周平均逃课数2340)026. 0()011. 0()094. 0()332. 0(

25、083. 00150412039011760)011. 0()096. 0()314. 0(009404530286122.RskippedACT.hsGPA.colGPA.RACT.hsGPA.colGPA OLS估计量的方差估计量的方差OLS估计量方差的决定因素估计量方差的决定因素o OLS估计量的方差越小,则表明估计量越精确,它取决于估计量的方差越小,则表明估计量越精确,它取决于三个因素三个因素越越小小程程度度越越低低,与与其其它它解解释释变变量量的的相相关关越越小小,即即容容量量实实现现越越小小,可可通通过过增增加加样样本本越越大大,适适变变量量实实现现,但但不不一一定定合合越越小小,

26、可可通通过过增增加加解解释释越越小小,)()()()11()(2222 jjjjjjjjjVarXRVarTSSVarRSSTVar OLS估计量的方差估计量的方差o 如果回归模型中的某些解释变量之间存在一定程度的线性如果回归模型中的某些解释变量之间存在一定程度的线性关系,称为关系,称为多重共线性(多重共线性(multicollinearity)。o 多重共线性一般来说都会存在,因此很多计量经济学家对多重共线性一般来说都会存在,因此很多计量经济学家对此颇为担心。但多重共线性不会影响此颇为担心。但多重共线性不会影响OLS估计量的无偏性估计量的无偏性,而且,而且OLS估计量的方差偏大经常来源于样本

27、容量过小,估计量的方差偏大经常来源于样本容量过小,从而解释变量的样本变异较小。有的计量经济学家把后一从而解释变量的样本变异较小。有的计量经济学家把后一种情况称为微数缺测性(种情况称为微数缺测性(micronumeriosity),并认为对多),并认为对多重共线性不必过分担心。重共线性不必过分担心。会会比比较较大大和和从从而而会会比比较较大大,和和的的相相关关程程度度较较高高,那那么么和和如如果果譬譬如如,对对于于)()(322322323322110 arVarVRRXXuXXXYOLS估计量的方差估计量的方差对多重共线性的进一步说明对多重共线性的进一步说明o 很多时候,在建立模型时引入较多的解释变量是将它们作很多时候,在建立模型时引入较多的解释变量是将它们作为控制变量,因此,如果我们最关心的解释变量与其它解为控制变量,因此,如果我们最关心的解释变量与其它解释变量相关性不强,那么即便其它解释变量之间相关程度释变量相关性不强,那么即便其它解释变量之间相关程度很高,对于我们所关注的变量的参数估计也不会有太大影很高,对于我们所关注的变量的参数估计也不会有太大影响。响。o 例如,我们主要关注大学里学生出勤率对期末考试成绩的例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论