




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元复回归分析第一页,共三十六页,编辑于2023年,星期五1.复回归分析:估计问题1.1三变量模型:符号和假设将双变量的总体回归模型(PRF)推广,就得到了三变量的总体回归模型。其中,Y是应变量,X2和X3是解释变量,u是随机干扰项,i是指第i次观测值(当数据为时间序列时,下标t表示第t次观测)。系数β1和β2被称为偏回归系数。我们继续在经典线性回归模型(CLRM)框架下,这样我们对模型做出如下假设:第二页,共三十六页,编辑于2023年,星期五其中(6)是说X2与X3之间没有精确的线性关系,专业上称为无共线性或无多重共线性。无共线性是说没有一个解释变量可以写成其余解释变量的线性组合。如果不存在一组不全为零的数λ2和λ3,使得:如果是这关系存在,我们就说,X2与X3的共线的或线性相关。令一方面,如果这一关系仅当λ2=λ3=0时存在,则X2与X3线性独立。第三页,共三十六页,编辑于2023年,星期五(a)图表示X2和X3不存在线性关系。(b)图中,区域Y的3和4区域的变异是由于X2引起的,而Y的4和5区域的变异是由于X3引起的,但是区域4是X2和X3共有的,我们无法精确地区别开来,这样区域4代表了共线性。无共线性就要求像(a)图那样,解释变量没有重叠区域。第四页,共三十六页,编辑于2023年,星期五1.2对复回归方程的解释对式子两边求条件期望:这样,式子给出以变量X2和X3的固定值为条件的Y的条件均值或期望值。如同双变量回归分析,复回归分析是以多个解释变量的固定值为条件的回归分析,并且我们所获取的,是变量X值固定时的Y的平均值或Y的平均响应。第五页,共三十六页,编辑于2023年,星期五1.3偏回归系数的含义偏回归系数的含义如下:β2度量者在保持X3不变的情况下,X2每变化1单位,Y的均值E(Y|X2,X3)的变换。换句话说,β2给出保持X3不变时Y的均值E(Y|X2,X3)对X2的斜率。类似的,β3度量者在保持X2不变的情况下,X3每变化1单位,Y的均值E(Y|X2,X3)的变换。如何理解保持不变?假定Y代表产出,X2和X3分布代表劳动和资本投入。再假定X2和X3都是生产必须的,且它们用于生产的投入比例可以变换。当劳动投入增加一个单位带来的产出的增加(劳动的边际产量)。在这里有一个前提,就是劳动增加的同时,资本投入的数量保持不变,否则我们无法区分在增加的Y中,哪些是由于劳动X2的增加带来的,哪些是由于资本X3增加带来的。只有想办法使得资本X3投入保持不变,才能衡量劳动X2投入对产出增长的真实贡献。第六页,共三十六页,编辑于2023年,星期五1.4偏回归系数的OLS估计先写出样本回归函数(SRF):OLS方法是要选择未知参数的值,使得残差平方和尽可能的小,用符号表示为:对未知数求微分,并令表达式为零,得到下述正则方程:第七页,共三十六页,编辑于2023年,星期五按照用小写字母表示对样本离差的惯例,解正则方程得:β2和β3最小二乘估计量的性质:(1)可以从方程2和方程3中通过x2和x3的对调得到另外一个,所有它们本质上是对称的;(2)两个方程的分母完全相同;(3)三变量情形是双变量的自然推广。第八页,共三十六页,编辑于2023年,星期五得到偏回归系数的OLS估计量,既可以推出这些估计量的方差和标准误。我们计算标准误有两个目的:建立置信区间和检验统计假设。下列公式不加证明的给出,相关推导过程请参阅文献。第九页,共三十六页,编辑于2023年,星期五仿照前章,我们能够证明δ2的一个无偏估计量是(注意:这里的自由度是(n-3),因为我们在估计残差之前必须要估计参数β1、β2和β3
,所以消耗了3个自由度。)第十页,共三十六页,编辑于2023年,星期五1.5OLS估计量的性质1.三变量回归线(面)通过均值。(为什么?)2.估计的Yi的均值等于真实Yi的均值。证明:第十一页,共三十六页,编辑于2023年,星期五3.4.残差与Y,X2和X3均不相关,于是有5.根据式子:随着X2和X3的相关系数r23增大,的方差也在增大,在r23=1时,完全共线性,这些方差变得无限大。直观地看,随着r23的增大,要知道β2和β3的真值越来越难。而X的样本值变化越大(x越大),则方差越小,从而能够更精确的估计β2和β3
。第十二页,共三十六页,编辑于2023年,星期五1.6复判定系数R2在三变量模型中,我们想知道Y的变异由X2和X3联合解释的比例,提供这一信息的数量被称为复相关系数,记为R2。第十三页,共三十六页,编辑于2023年,星期五式中各项均可以从样本数据中计算得出,因此R2也很容易得到。R2是一个落在0和1之间的数。如果是1,则所拟合的回归线100%的解释了Y的变异;如果是0,则模型不解释任何Y的变异。R2越靠近1,说明模型的“拟合”越好。1.7校正的R2R2有一个重要的性质,即它是出现在模型中的解释变量个数的非减函数。随着解释变量个数的增加,R2必然增大而不会减少。回忆R2的定义:这里,与模型中X的变量没有关系。但是RSS即与模型中的X个数有关。随着X的个数增加,模型的很可能减小(至少不会变大),随之,R2变大。第十四页,共三十六页,编辑于2023年,星期五那么,怎样解决这个问题呢?我们必须考虑到模型中X变量的个数,那么:也就是说,分子分母均除以其自由度(df),这样我们就消除了由于解释变量增加而带来的R2变大的问题,被称为校正的R2(adjustedR2)。在计算中要先计算均值,故损失一个自由度,自由度为(n-1),的自由度中的k,是指包括截距项在内的模型中的参数的个数。在三变量模型中,的自由度是(n-3)。第十五页,共三十六页,编辑于2023年,星期五2.复回归分析:推断问题2.1再一次正态性假设如果我们的唯一目的是对回归模型的参数作点估计,则普通最小二乘法(OLS)将足够使用,并不需要对干扰项ui的概率分布作任何假设,但我们的目的还要对其进行估计和推断,我们还需要假定ui服从某个概率分布。我们曾经假设ui遵循均值为零、方差为常数的正态分布。有了正态分布的假设,我们发现,偏回归系数的OLS估计量是最优线性无偏估计(BLUE),此外,估计量本身也是正态分布,其均值等于,而方差遵循自由度为n-3的χ2分布,并且三个OLS估计量均独立于而分布,在标准误的计算中,由它的无偏估计替代时,我们有:均服从自由度为n-3的t分布。第十六页,共三十六页,编辑于2023年,星期五注意,自由度为n-3是因为我们在计算和之前,我们必须先要估计三个回归系数,从而给残差平方和(RSS)的计算加上了三个约束。于是,t分布可用于建立关于真实总体偏回归系数的置信区域并检验统计假设。同理χ2分布可用于检验关于真实的假设。一个例子:美国个人消费与个人可支配收入的关系假设我们要研究在过去几年中美国个人消费支出的行为,用了下述简单模型:
其中Y:个人消费支出(PCE)
X2:个人可支配收入(PDI)
X3:以年计的时间在用到时间序列数据的回归分析中,我们通常引进一个时间或趋势变量。第十七页,共三十六页,编辑于2023年,星期五第十八页,共三十六页,编辑于2023年,星期五对上述回归方程结果解释如下:如果把X2和X3固定在零处,则个人消费支出的均值估计为531.6亿美元;偏回归系数0.7266是说,保持其他变量(X3)不变,个人收入每增加1美元,平均消费支出增加约73美分。同理,若X2不变,平均个人消费支出估计每年约增加27亿美元。R2值为0.9988,表明两个解释变量解释了1956-1970年间美国个人消费支出的变异约99.9%。校正的R2值则表明考虑了自由度的作用后,X2和X3仍解释Y的变异的99.8%。我们根据表8.1中的数据,估计回归线如下:第十九页,共三十六页,编辑于2023年,星期五2.2复回归中的假设检验:总评一旦我们走出简单的双变量线性回归模型的范围,假设检验就会以多种有趣的形式出现,诸如:
1.检验关于个别偏回归系数的假设。
2.检验所估计的复回归模型的总显著性,也就是要判别是否全部偏回归系数同时为零。
3.检验两个或多个系数是否相等。
4.检验偏回归系数是否满足某种约束条件。
5.检验所估计的回归模型在时间上或在不同横截面单元上的稳定性。
6.检验回归模型的函数形式。因为在经验分析中常常出现这些类型的一种或多种检验,我们将分节讨论每一种类型的检验。第二十页,共三十六页,编辑于2023年,星期五2.3检验关于个别偏回归系数的假设如果假设成立,我们可以用t检验统计量对任一偏回归系数进行检验。我们设:虚拟假设的意思是:保持X3不变,个人可支配收入对个人消费支出无(线性)影响。为了检验这个虚拟假设,我们利用t检验。如果计算的t值超过了选定显著水平的临界t值,就可以拒绝假设;否则,就不拒绝它。如果取α=0.05,对于12个自由度有tα/2=2.179(双尾检验)。由于计算的t值14.9060远远超过临界t值2.179,故我们拒绝原假设,在统计上是显著的,或显著地异于零。第二十一页,共三十六页,编辑于2023年,星期五从图解上来展示这一情形。我们曾在前面看到假设检验和置信区间估计之间存在密切关系:β2的95%置信区间是:具体的数值是:第二十二页,共三十六页,编辑于2023年,星期五也就是说,β2以95%的置信系数落在0.6205与0.8327之间。这样,如果选取了样本容量为15的100个样本,构造100个这样的置信区间,则我们预测其中95个包含着真实的β2值。由于虚拟假设β2=0下,计算的t统计变量的值14.9060没有落在这个区间内,从而我们拒绝虚假假设H0。事实上,我们注意:各个回归系数的p值都异常的低,表明每个回归系数都在一个比5%或1%低得多的显著水平上,是统计上显著的。第二十三页,共三十六页,编辑于2023年,星期五2.4检验样本回归的总显著性上面我们讨论的仅仅是对个别的系数的显著性进行检验,下面我们考虑虚拟假设,H0:β2=β3=0,是关于β2和β3联合地或者同时地等于零的一个联合假设。对象这样的一个假设检验称之为对回归的总显著性检验。我们在上面的讨论中逐一地检验了偏回归系数的个别显著性,为什么还有对样本回归进行总显著性检验?事实上,上述单个检验我们只能够保证每个偏回归系数单独地来看,在统计上显著的不为零,但是我们无法保证他们联合起来共同的不为零。用统计的话说:“检验一个个假设,不等于联合地检验同样的这些假设。其直观上的理由是,在对几个假设的联合检验中,任一单一假设都受其他假设所含信息的影响。”那么,我们如何联合检验虚拟假设H0:β2=β3=0?第二十四页,共三十六页,编辑于2023年,星期五检验复回归的总显著性的方差分析法:F检验回忆等式:按照方差分析(ANOVA)程序,列出方差分析表:第二十五页,共三十六页,编辑于2023年,星期五我们可以证明,在ui的正态分布的假设下,构造一个F变量:服从自由度为2和(n-3)的F分布。上述F有什么用?我们进一步可以证明,若则:若β2=β3=0,便能证明:也就是说,如果虚拟假设成立,上面两个式子都给出了真实方差的估计。因为,如果虚拟假设成立,说明Y与X2和X3的关系微不足道,Y的变异唯一的来源是ui所代表的随机因素。因而,如果虚拟假设不成立,X2和X3确实影响了Y,则上述两个式子之间就不能画上等号。第二十六页,共三十六页,编辑于2023年,星期五从而,F变量的值为偏回归系数同时为零的假设提供了一种假设检验。如果从上式中计算出来的F值大于给定显著性水平的F表中的临界值,我们就拒绝H0;否则就不拒绝它。另一种方法是如果所测的F的p值足够低,可以拒绝H0。如果取5%的显著性水平,F的临界值为3.89,显然所计算出的F值是显著的,从而我们拒绝H0:β2=β3=0。(如果虚拟假设成立,得到一个大于5129的F值的概率小于5%。)第二十七页,共三十六页,编辑于2023年,星期五F检验方法的一般性描述:顺便提及,大多数回归软件在方差分析表中,都给出了在虚拟假设βi=0下的F值。第二十八页,共三十六页,编辑于2023年,星期五R2和F之间的一个重要关系式刚才我们给出了一般化的F统计量,对F进行恒等变形。这里我们用到了定义R2=ESS/TSS。当R2越大,F值也就越大。如果R2=1,则F值为无限大。因此,F检验既是所估计回归的总显著性检验,也是R2的一个显著性检验。利用R2和F之间的关系,重新设计方差分析表(ANOVA):第二十九页,共三十六页,编辑于2023年,星期五利用R2来表示F检验的好处是计算上的简便:只有知道R2就可以计算F值。第三十页,共三十六页,编辑于2023年,星期五2.5检验两个回归系数是否相等在经典假设下,可以证明:服从自由度为(n-4)的t分布。而标准误则可以从下述我们熟悉的公式中得到:第三十一页,共三十六页,编辑于2023年,星期五检验方法的步骤:1.估计。2.大多数计算机软件包都提供所估计参数的方差和协方差。从而计算分母中的标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 动态变化的Adobe设计师试题及答案
- 电气工程师资格证书考试常见题型分享试题及答案
- 直击质量工程师考试的试题及答案要点
- 质量工程师资格证书考试2024年的职业路径与试题选择试题及答案
- 酒店市场营销案例分析试题及答案
- Adobe设计师考试常见误区试题及答案
- 挑战自我的酒店管理试题及答案
- 质量工程师资格证书考试2024年的参考资料与试题分析试题及答案
- 智能交通发展现状与趋势考试试题与答案
- 发电厂再热机组的旁路系统(热力发电厂课件)
- 金融大数据银行项目使用手册
- 《装饰构造与施工工艺实习》课程标准
- 中考数学解题技巧专题巧用旋转进行计算全国公开课一等奖百校联赛微课赛课特等奖课件
- 环境设计创新创业项目计划书
- MOOC 人工智能原理-北京大学 中国大学慕课答案
- 新概念第一册单词默写表
- 海迈工程量清单计价软件使用说明书样本
- 工程伦理试题及答案
- 广告公司年度合作协议-带附件
- 幼儿园办学规模及租金建议方案
- 公证文书书写的常见错误与纠正方法
评论
0/150
提交评论