




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、;,今清.:J. I云士处;第1计,0章 多元线性回归与相关T千,心千一,温晕七 订 J千L ?1一.寸.立心在住沁勹?平 、喟 r - 、习-:-.一、”r、= 二 7r .嘿;、飞哼- “.a.飞 1 遠鱼燮.学习目标v 熟悉多元线性回归模型矩阵形式;v 掌握多元线性回归模型、参数估计过程及参数的解释, 标准化参数估计值;v 了解多元线性回归共线性的诊断问题;v 理解复相关系数与偏相关系数;v 掌握多元线性回归的SAS程序(REG过程以及选项)。v 熟悉计算偏相关系数的SAS程序。多元线性回归与相关的基础理论v 在许多实际问题中,还会遇到一个随 量与多个变量的相关关系问题,需要用多元回归分
2、析的方法来解决。前面介绍的一元回归分析是其特殊情形。但由于多元回归分析比较复杂,在此仅简要介绍多元线性回归分析。v 由于经济现象的复杂性,一个被解释变量往往受多个解释变量的影响。多元回归模型就是在方程式中有两个或两个以上自变量的线性回归模型。多元线性回归预测是用多元线性回归模型,对具有线性趋势的税收问题,使用多个影响因素所作的预测。多元线性回归v 多元线性回归分析也称为复线性回归分析, 它是一元线性回归分析或简单线性回归分析的推广,它研究的是一组自变量如何直接影响一个因变量。这里的自变量指的是能独立自由变化的变量,一般用x表示;因变量y指的是非独立的、受其它变量影响的变量,一般用y表示。由于多
3、元线性回归分析(包括一元线性回归分析)仅涉及到一个因变量,所以有时也称为单变量线性回归分析。回归变量的选择与逐步回归v 在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制,这就涉及到自变量选择的问题。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。v 在回归方程中若漏掉对Y影响显著的自变量,那么建立的回 归式用于预测时将会产生较大的偏差。但回归方程若包含的 变量太多,且其中有些对Y影响不大,显然这样的回归式不 仅使用不方便,
4、而且反而会影响预测的精度。因而选择合适 的变量用于建立一个“最优”的回归方程是十分重要的问题。回归变量的选择与逐步回归v 选择“最优”回归方程的变量筛选法包括逐步回归法,向前引入法和向后剔除法。v 向前引入法是从回归方程仅包括常数项开始,把自变量逐个引入回归方程。具体地说,先在m个自变量中选择一个与因变量线性关系最密切的变量,记为,然后在剩余的m-1个自变量中,再选一个,使得xi1 , xi 2 联合起来二元回归效果最好,第三步在剩下的m-2个自变量中选择一个变量,使得xi1 , xi 2 , xi3 联合起来回归效果最好,.如此下去,直至得到“最优”回归方程为止。回归变量的选择与逐步回归v
5、向前引入法中的终止条件为,给定显著性水平,当某一个对将被引入变量的回归系数作显著性检查时,若p-value,则引入变量的 过程结束,所得方程即为“最优”回归方程。v 向前引入法有一个明显的缺点,就是由于各自变量可能存在着相互关系,因此后续变量的选入可能会使前面已选入的自变量变得不重要。这样最后得到的“最优”回归方程可包含一些对Y影响不大的自变量。回归变量的选择与逐步回归v 向后剔除法与向前引入法正好相反,首先将全部m个自变量引入回归方程,然后逐个剔除对因变量Y作用不显著的自变量。具体地说,从回归式m个自变量中选择一个对Y贡献最小的自变量,比如,将它从回归方程中剔除;然后重新计算Y与剩下的m-1
6、个自变量回归方程,再剔除一个贡献最小的自变量,比如,依次下去,直到得到“最优”回归方程为止。向后剔除法中终止条件与向前引入法类似。v 向后剔除法的缺点在于,前面剔除的变量有可能因以后变量的剔除,变为相对重要的变量,这样最后得到的“最优”回归方程中有可能漏掉相对重要的变量。回归变量的选择与逐步回归v 逐步回归法是上述两个方法的综合。向前引入中被 选入的变量,将一直保留在方程中。向后剔除法中 被剔除的变量,将一直排除在外。这两种方程在某 些情况下会得到不合理的结果。于是,可以考虑到, 被选入的的变量,当它的作用在新变量引入后变得 微不足道时,可以将它删除;被剔除的变量,当它 的作用在新变量引入情况
7、下变得重要时,也可将它 重新选入回归方程。这样一种以向前引入法为主, 变量可进可出的筛选变量方法,称为逐步回归法。回归变量的选择与逐步回归v 它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小,由大到小地逐个引入回归方程,而对那些对作用不显著的变量可能始终不被引人回归方程。另外,己被引人回归方程的变量在引入新变量后也可能失去重要性,而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步,每一步都要进行检验,以保证在引人新变量前回归方程中只含有对影响显著的变量,而不显著的变量已被剔除。v 首先给出引入变量的显著性水平和剔除变量的显著
8、性水平, 然后筛选变量。开始回归变量的选择与逐步回归筛选结束对不在方程中的变否量考虑能否引入引入变量对已在方程中的变量考虑能否剔除回归变量的选择与逐步回归v 逐步回归分析的实施过程是每一步都要对已引入回归方程的 变量计算其偏回归平方和(即贡献),然后选一个偏回归平 方和最小的变量,在预先给定的水平下进行显著性检验,如 果显著则该变量不必从回归方程中剔除,这时方程中其它的 几个变量也都不需要剔除(因为其它的几个变量的偏回归平 方和都大于最小的一个更不需要剔除)。相反,如果不显著, 则该变量要剔除,然后按偏回归平方和由小到大地依次对方 程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都
9、是显著的。接着再对未引人回归方程中的变量分别 计算其偏回归平方和,并选其中偏回归平方和最大的一个变 量,同样在给定水平显著性检验,如果显著则将该变量 引入回归方程,这一过程一直继续下去,直到在回归方程中 的变量都不能剔除而又无新变量可以引入时为止,这时逐步 回归过程结束。多重共线性v 回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上, 解释变量间完全不相关的情形是非常少见的, 大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多
10、不确定性的结果。多重共线性v 设回归模型y = 0+ 1 x1+ 2 x2+ p xp+如果矩阵X的列向量存在一组不全为零的数,k0.k1.k2 kp使k0+ k1xi1+ k2 xi 2+kp xi p= 0v I =1,2,n,则称其存在完全共线性,如果,k0+k1 xi1+ k2 xi 2+kp xi p 0v I =1,2,n,则称其存在近似的多重共线性。多重共线性v 当存在严重的多重共线性时,会给回归系数的统计 检验造成一定的困难,可能造成F检验获得通过,T 检验却不能够通过。在自变量高度相关的情况下, 估计系数的含义有可能与常识相反。在进行预测时, 因为回归模型的建立是基于样本数据
11、的,多重共线 性也是指抽样的数据。如果把建立的回归模型用于 预测,而多重共线性问题在预测区间仍然存在,则 共线性问题对预测结果不会产生特别严重的影响, 但是如果样本数据中的多重共线性发生了变化则预 测的结果就不能完全的确定了。多重共线性检验v 检查和解决自变量之间的多重共线性,多多元线性回归分析来说是很必要和重要的一个步骤,常用的共线性诊断方法包括:v 直观的判断方法v 方差扩大因子法(VIF)v 特征根判定法直观的判断方法v 在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。v 回归系数的符号与专业知识或一般经验相反v 对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确
12、得到了显著 的通过v 如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化v 重要变量的回归系数置信区间明显过大方差扩大因子法(VIF)jv 一般认为如果最大的VIFj 超过10,常常表示j存在多重共线性。事实上VIF0.9。10这说明R 2特征根判定法v 根据矩阵行列式性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式| X X|0 时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明X X有多少个特征根近似为零矩阵X就有多少个多K=lml重共线性。根据条件数ili,其中m为最大的特征根.li为其他的特征根,通常
13、认为0k10存在着多重共线性。多重共线性的处理方法v 增加样本容量,当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中, 由于受到各种条件的限制增加样本容量有时又是不现实的v 剔除一些不重要的解释变量,主要有向前法和后退法,逐步回归法。多重共线性的处理方法v 前进法的主要思想是变量由少到多的,每次增加一个,直至没有可引入的变量为止。具体做法是首先对一个因变量y和 m个自变量分别建立回归方程,并分别计算这m个回归方程的F值,选其最大者,记为Fj,,给定显著性水平F,如果FjF, 则变量引入该方程,再分别对(X
14、j,X1),(Xj,X2)(Xj,Xm)做回归方程,并对他们进行F检验,选择最大的Fi值,如果Fi.F,则该变量引入方程,重复上述步骤,直到没有变量引入为止。v 后退法,是先用m个因变量建立回归方程,然后在这m个变量中选择一个最不显著的变量将它从方程中剔除,对m个回归系数进行F检验,记所求得的最小的一个记为Fj,给定一个显著性的水平,如果FjF则将Xj从方程中删除,重复上述步骤直到所有不显著的变量被剔除为止。多重共线性的处理方法v 逐步回归法,前进法存在着这样的缺点当一个变量 被引入方程时,这个变量就被保留在这个方程中了, 当引入的变量导致其不显著时,它也不会被删除掉, 后退法同样存在着这样的
15、缺点,当一个变量被剔除 时就永远的被排斥在方程以外了,而逐步回归法克 除了两者的缺点。逐步回归的思想是有进有出。将 变量一个一个的引入,每引入一个变量对后面的变 量进行逐个检验,当变量由于后面变量的引入而不 变的不显著时将其剔除,进行每一步都要进行显著 性的检验,以保证每一个变量都是显著的。多重共线性的处理方法v 主成分法。当自变量间有较强的线性相关性时,利用P个变量的主成分,所具有的性质, 如果他们是互不相关的,可由前 m个主成来建立回归模型。v 由原始变量的观测数据计算前m个主成分的的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时P元降为 m元,这样既简化了回归
16、方程的结构, 且消除了变量间相关性带来的影响。复相关系数与偏相关系数v 在学习一元线性回归分析时,讨论了与之紧密联系的一元相关分析或简单相关分析。将这个概念扩展到多元,就是多元相关分析或复相关分析。简单相关分析研究两个变量之间的关联性,复相关研究多个变量之间的关联性。复相关系数v 复相关系数是指在具有多元相关关系的变量中,用来测定因变量y与一组自变量之间相关程度的指标。v 复相关系数的计算公式为:ry ,123. . .m =1 - SES=1 -( yi -( yi -T22yi)yi)偏向关系数v 偏相关系数度量了当其它变量固定不变时,或者说, 消除了其它变量的影响之后,两个变量之间线性关
17、 联的强度。v 设有三个变量 x1 , x2 , x3,如果在三个变量中,剔除 x3的影响,可计算x1 , x2对计算公式为:x3 偏向关系数,记作r12,3 ,其r12,3 =rx1 x2, x3rx1x2- rx1 x32 rx x232=v 1 - (r x1x3)1 - (r x2 x3)偏向关系数v 如果在这三个变量中,剔除x2的影响,可计rr算x1、x3 对x2偏向关系数,记作r13,2,其计算公式为:r=rx1 x3x xx x-1232)13,21 - (r)2x1x21 - (r2x3x2偏向关系数v 如果在这三个变量中,剔除x1 的影响,可计算x2、x3 对式为:x1偏向关
18、系数,记作r23,1,其计算公r23,1 =rx2 x3, x1x2 x3- rx2 x1rx x=r31221 - (r x2 x1)1 - (r x3x1)多元相关分析与多元回归分析的区别v 比较多元相关分析与多元回归分析,它们的相同点是都讨论了变量之间的关联性。区别是:多元回归分析给出了变量之间的依存关系,而多元相关分析却没有给出依存关系;多元回归分析要求将变量分为自变量和因变量,而多元相关分析不要求将变量分为自变量和因变量;分为自变量和因变量要求因变量服从正态分布,而多元相关分析要求所有变量服从正态分布。多元相关分析与多元回归分析的区别v 同样,比较多元相关分析与多元回归分析, 有三对概念需要加以区别:回归系数和相关系数;偏回归系数和偏相关系数;确定系数和复相关系数。本章小节v 多元线性回归分析也称为复线性回归分析,它是一元线性回归分析或简单线性回归分析的推广,它研究的是一组自变量如何直接影响一个因变量。这里的自变量指的是能独立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论