已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江工商大学金融学院姚耀军讲义系列第六讲 多重共线一、 数学准备:FWL定理对于多元线性回归模型: (1)在OLS法下,各系数估计通过求解四个正规方程而获得。事实上,如果只关注某一个斜率系数的估计结果,则通过构造一系列简单线性回归模型就能获得所关注的斜率系数的估计。假设我们现在关注,那么构造系列简单线性回归模型的过程是:第一步:把对其他解释变量进行回归(请注意,截距所对应的解释变量为1),即有: (2)第二步:把也对(2)中的解释变量进行回归,即有: (3)第三步:把对进行回归(因为与其均值都为零,所以该回归模型不必带有截距项),即有: (4)现在有两个结论,即,结论一:;结论二:残差等于多元回归中的残差。这两个结论就是著名的FWL定理(Frisch-Waugh-Lovell theorem)。关于FWL定理的一个简单证明见附录1。附录2涉及到该定理的应用。笔记: 所反映的是,在控制其他因素后对的影响(与“偏导数”概念对应)。与的相关关系可能是由于它们共同的“亲戚” 与所带来的。在控制共同“亲戚”对及其的影响后,我们所发现的与的相关关系被称为偏相关关系。在前述步骤中,第一步与第二步实际上是在剔除共同“亲戚”的影响。练习:基于简单线性回归模型:验证FWL定理。如果我们只需要结论一,则上述三步骤可以被简化为两步骤:首先把对其他解释变量进行回归,得到残差,其次把对进行回归:可以验证:,但应该注意此时并不能保证成立。笔记: 在这里对所进行的是无截距回归。事实上,此时是否增加截距项并不影响斜率估计结果。这是因为,由于,故,而该等式右边正是有截距情况下斜率的估计结果。练习:(1)针对上述例子,利用OLS法的代数知识,证明:并说明此时为何不能保证成立。(2)对进行OLS估计,利用前述知识证明:在这里,、分别是与及其的样本相关系数。笔记:一些有用的结论:1、当与及其样本无关时则。注意,仅仅与样本无关不能保证。2、当与样本无关时,多元线性回归中的等于简单线性回归中的,两者皆等于。二、 考察的方差是多少呢? OLS法保证了,因此由于我们假定是非随机的,进而也是非随机的。假定,则有: 注意到,是(2)中的残差平方和,我们已知道:其中是根据(2)计算的决定系数。因此有:通常被称为方差膨胀因子(VIF),而被称为容忍度(Tolerence)。另外,由于为的样本方差,因此有: (6)根据(6)式,一个总结是,保持其他影响因素不变,的方差(或者标准差)将:(1)随着样本容量的增加而减少;(2)随着样本方差的增加而减少;(3)随着增加而增加;(4)随着误差项方差的增加而增加;笔记:样本容量越大则信息越多;样本方差越大意味着在解释y时我们掌握的样本覆盖面广,故信息越多。信息越多将提高估计精度。越大表示解释变量所蕴含信息的重叠度高,因此有效信息较少,故降低估计精度。误差项方差大即y的方差大,这意味着被解释对象更加捉摸不定,从而估计面临着更大的困难,估计精度下降。一般是未知的,需要估计。从而的标准误为:其中。因此,考虑初始模型(1),显然有:因此,有: (7)特别要注意,是随机的(在(7)式中,是随机的,其随机性来源于y的随机性)。既然是随机的,那么我们再也不能像对(6)式那样总结了!然而在大样本下,由于标准误在概率上收敛于标准差,故此时有关标准差的一些结论可以应用于标准误。思考题:针对特定的样本,依据(7)式可以计算出一个确定性的值。如果在模型(1)上再增添一个解释变量,显然一般是增加的,因此将增加的标准差,但一定会增加的标准误吗?三、 多重共线及其后果当越大,我们称解释变量共线性程度越严重(针对模型(1),这样的判定系数有三个)。当, 被完全拟合,换句话说,存在:其中不为零。那么根据公式:有:。此时,我们称解释变量完全共线性。解释变量完全共线违背了高斯-马尔科夫假定。当解释变量其共线性程度并未达到完全共线性时,我们称解释变量多重共线。注意,多重共线并未违背高斯-马尔科夫假定,只要其他高斯-马尔科夫假定成立,OLS估计量仍保持所有的良好性质。那么为什么我们还要讨论多重共线呢?显然这是因为,正如前面所讨论的,多重共线程度较高可能导致OLS估计量的标准差或者标准误较大。如果情况确实如此,那么有:(1)t检验的可靠性降低,犯第二类错误的概率较大;(2)置信区间更宽,以致我们不能很好地猜测b1的取值。思考题:为什么此时t检验犯第二类错误的概率较大?四、 多重共线一定会带来后果吗?考虑模型,现在,与的相关性很大,因此,在OLS法下,与的方差或许很大。但与的相关性很大并不一定意味着、及其常变量1能够很好地拟合,因此,的方差并不一定大。总体来看,尽管由于与的相关性很大导致模型出现严重的多重共线性,然而由于我们关注的是对b1的估计,而的方差并不一定大,故就我们的关注点来说,多重性共线或许并未产生严重的后果。另外从公式可以看出,影响的因素很多,因此,即使很大也并不一定使得就很大。而按照Kliens rule of thumb,当大于初始模型的时,多重共线问题才值得关注。当利用估计模型以作预测之用时,我们经常对整个模型的拟合度较为关注,而并不关注个别系数是否显著。此时,多重共线也并不值得我们忧虑。五、 如何判断多重共线的严重程度?(一)利用典型症状来判断。这些典型症状是:1、模型整体拟合较好但很多解释变量不显著。为理解这种症状出现的逻辑,考虑在初始模型增添一个解释变量。显然,新模型其判定系数一般是更大的(相应的是,新模型F值可能较大)。然而,增加解释变量很可能导致严重的多重共线性,进而可能导致OLS估计量的标准误很大,结果使得很多解释变量不显著。2、系数估计的符号不符合理论预期,但往往不显著。在经典线性模型假定下,OLS估计量服从正态分布。假定按照某种经济学理论,真实参数是一个正分数。如果多重共性严重导致真实参数的OLS估计量标准差很大,则尽管OLS估计量的期望值等于真实参数,但它的概率密度曲线很大一部分将落入第二象限,于是,OLS估计值很可能出现负值,导致估计结果的符号不符合预期(预期的符号是正号)。然而我们知道,如果与很大的标准差相一致,OLS估计量的标准误也很大,则t检验的结果很可能是系数估计与0没有显著差异。笔记:系数估计的符号不符合理论预期,且又是显著的,这是解释变量与误差项相关的一个信号。3、增加样本容量或者删除一些变量导致估计结果发生了很大的变化。为理解这种症状出现的逻辑,考虑一个简单的极端情况。假定解释变量矩阵是X,而增加一次观测后解释变量矩阵是X1,删除一个解释变量后解释变量矩阵是X2。其中X、X1、X2如下所示:显然,当解释变量矩阵是X时解释变量完全共线,此时我们根本无法获得估计结果。而当解释变量矩阵是X1与X2时,无论如何,我们可以获得估计结果。(二)考察解释变量两两相关系数。如果存在取值较大的相关系数,那么这意味着多重共线性程度严重。然而也应该注意到,即使两两相关系数都很小,多重共性性仍可能是严重的。思考题:为什么即使两两相关系数都很小,多重共线性仍可能是严重的?(三)考察VIF或者。如果VIF大于10,一般认为存在较严重的多重共线性(当然也可考察容忍度)。按照VIF的定义,显然,当VIF大于10时,必有一个解释变量对其他解释变量回归所得到的超过90%,而这是一个很高的判定系数。(四)特征根检验。当完全共线时,不存在,当存在严重的多重共线时,。假设的特征根是,根据矩阵代数知识:,因此,如果的特征根中至少有一个近似为0,则。因此可以根据的特征根来判断多重共线的严重程度。笔记:在实践中,通常基于标准化变量回归模型(每一个解释变量的每一次观察值都减去样本均值,然后再除以样本标准差,此即变量的标准化处理。标准化变量回归模型再也不含截距。)来利用特征根方法。记标准化变量回归模型的解释变量矩阵为,则即为解释变量的相关系数矩阵(你能够验证吗?)。接下来我们可以根据这个相关系数矩阵的特征根(特征根个数为k)来判断原模型的多重共线性的严重性。定义病态数CN(Condition Number)=最大特征根/最小特征根、病态指数CI(Condition Index),当CI大于30或者CN大于1000时,一般认为多重共线程度严重。六、 多重共线的处理方法多重共线如果产生了令我们忧虑的后果,我们该怎么办? (一)无为而治一般认为,多重共线是一个样本问题,你手中样本恰好有这样的表现!如果多重共线导致了估计精度问题,那说明你掌握的数据所包含的信息含量很低,因此,“遇到多重共线我该怎么办?”这个问题无异于“如果我没有很多的观测值该怎么办?”(Goldberger,1991)。如果你不能增加样本容量,那么采取一些治疗多重共线的方法(如逐步回归等),反而可能带来灾难性的后果(Leamer,1961)(例如,如果采用逐步回归,也许这将导致遗漏一些重要的变量,结果使得OLS估计量不满足一致性)。因此,当无法增加样本容量的情况下,无为而治可能是最恰当的方式!(二)重新建模例一:初始模型是一个包含人口变量的多元回归模型,如果初始模型表现出的多重共线性令你不安,那么你可以重新建立一个涉及到人均变量的模型,在该模型中,人口变量并不作为一个单独的解释变量而出现。例二:时间序列变量通常具有相似的时间趋势从而共线性程度可能较高,你或许可以对这些变量取差分,利用差分变量进行建模。例三:对一些变量取对数有时也是一种好办法。例四:有时在重新建模时会使用相关变量的线性组合作为解释变量,而不是把每个变量单独作为解释变量。问题是如何确定线性组合的权重。主成分分析法是解决这个问题的好办法,见附录3。(三)使用先验信息考虑模型,假如与其他解释变量相关性很高,从而模型多重共线性严重。如果某个理论或者先前的研究表明,是一已知常数。那么我们可以试着重新估计一模型:显然,先验信息的可靠性是十分重要的。(四)其他方法,参见相关教科书,要注意相关方法的缺陷(例如逐步回归法的缺陷)。附录1:FWL定理的一个简单证明及其推广由下述三式:有:即:由于分别与、样本不相关,故。 证明:定义,则另外,由于、与其均值都为零,故于是:推广:对必有:其中分别是各自对进行带截距回归所得到的残差。附录2:简单相关、偏相关与复相关;有何种联系?x1与x2具有简单相关系数r12,然而这种相关性可能是由于x1与x2分别与x3相关造成的。在控制了x3(保持x3不变)之后,x1与x2的相关性被称为偏相关。另外,x1与(x2,x3)的相关关系被称为复相关。样本复相关系数的平方就是回归模型的判定系数R2。这些基于样本的相关系数具有何种联系呢?一、样本偏相关系数rsample12.3的计算步骤:第1步:把对进行回归有: (1)记x1的拟合值为。第2步:把对进行回归,即有: (2)记x2的拟合值为。第3步:计算与的简单相关系数。则有:可以证明,见第三讲附录3。二、R2与简单相关系数与偏相关系数的联系把对进行回归,有: 而对于回归模型,其判定系数是: 根据第一讲无截距回归的代数知识,我们知道,又因为皆为0,因此。另外,按照判定系数的定义,与分别是回归(1)与回归(2)的判定系数。而在简单线性回归中,判定系数等于被解释变量与解释变量(样本)简单相关系数的平方。从上面的结果可知,这再次表明,当增加解释变量时,判定系数不会减少!附录3:主成分分析法主成分分析是设法将k个具有一定相关性的指标进行线性组合,以重新形成新的综合指标。我们希望这个新的综合指标其方差越大越好,这是因为方差代表了新的综合指标所具有的信息量。假设新的综合指标是,则的选择将使取极大值。我们还对权数施加约束:,我们马上会看到这个约束的含义。在矩阵语言下,有:为了选择权数,我们求解一个最优化问题:利用第一讲中有关矩阵微分知识,有:注意到方差-协方差矩阵是正定且对称的,于是有:显然,是的特征向量,而是特征值。由于,故特征向量是单位化的。上述数学推导表明,选择权数即是求解这个矩阵的特征向量。假设各个特征值并不相等,则这个对称矩阵的特征向量是两两正交的。于是,基于不同特征向量所构建的k个主成分必然是不相关的,即对于,有:练习:对于,证明。提示:。因为特征向量两两正交,故对于,与必有一个为零。 我们注意到:这个矩阵的主对角线上的元素依次是。由于矩阵的迹等于特征根之和,故有:在实践中,通常是基于标准化变量(指标)进行主成分分析。显然此时X的方差-协方差矩阵就是相关系数矩阵。我们注意到这个矩阵的主对角线元素都为1,故有:当然X的方差-协方差矩阵需要利用样本数据进行估计。在标准化变量情形下,如果样本数据集是A,则即为样本协方差矩阵(相关系数矩阵)。为达到简化指标的目的,我们往往并不需要全部的主成分。假设,如果最终选择的是前m个主成分,那么一般要求这m个主成分的累计方差贡献率()在85%以上。在确定了m个主成分之后,不难得到各主成分的观测值。 为了处理的多重共线问题,现在我们就y的标准化变量zy对前m()个主成分进行回归。当特征值相异时,各主成分是两两不相关的,故这样的回归再也不存在多重共线问题了。假定回归结果是是:由于其中是样本相关系数矩阵的第i个特征向量。因此有:定义:,则回忆第一讲有关标准化系数的笔记,我们不难反推出非标准变量回归的系数估计。应该注意,如果利用全部的主成分(共k个)进行回归并反
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冀教版五年级下学期(新版)数学第3单元长方体和正方体单元试卷(附答案)-01
- 2026中国血液制品行业供需平衡与产能规划研究报告
- 2026中国肿瘤免疫治疗伴随诊断市场跨国企业竞争策略分析报告
- (251115)商户服务指南
- 2025年护理保研复试抽题题目及答案
- 2026年蔬菜种植公司绿禾市场需求分析与销售预测制度
- 2025年初级眼镜验光员职业技能等级认定理论知识考核题库及答案
- 招生营销宣传方案
- 避孕手术应急预案
- 夏日购物活动策划方案
- 海南省宅基地管理办法
- 产程中产妇的饮食管理
- 眩晕综合症的护理查房
- 中望cad培训课件
- 公益组织印章管理制度
- 大学生国际贸易职业生涯规划书范文
- 半导体器件物理知到智慧树期末考试答案题库2025年中山大学
- 现代汉语结构分析能力试题及答案
- 中职《电工电子技术与技能》核心考试题库(附答案)
- 建房补充协议合同范本
- 2025-2030中国冰雪装备器材行业市场发展分析及发展趋势与投资前景研究报告
评论
0/150
提交评论