多重线性回归_第1页
多重线性回归_第2页
多重线性回归_第3页
多重线性回归_第4页
多重线性回归_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十三章 多重线性回归 授课教师:吴立娟授课教师:吴立娟 流行病与卫生统计学系流行病与卫生统计学系内 容 多重线性回归 回归分析中自变量的选择 多因素线性回归的应用及注意事项复 习 线性回归分析是研究一个变量和另外一些变量间线性关系的统计分析方法。 在回归分析中,最简单的情形是模型中只包含两个有“依存关系”的变量,一个变量(反应变量)随另一个变量(自变量)的变化而变化,且呈直线变化趋势,称之为简单线性回归。 给定给定X X的数值的数值, , Y Y 的数值取在一个平均值的数值取在一个平均值 (y|x)附近 对应于不同的对应于不同的X X值值, , Y Y 的平均值座落在一条直线上平均值座落在一

2、条直线上 - - 回归直线回归直线. . y|x 和和 X X的关系可用一个线性方程描写的关系可用一个线性方程描写. .|y xX简单线性回归方程总体样本“Y hat”表示估计值,给定x时y的总体均数的估计值。YabXXXY直线回归方程的求解:最小二乘原理YabXYX iiYY 回归系数及其计算回归系数及其计算找一条直线使残差平方和最小找一条直线使残差平方和最小 利用微积分知识利用微积分知识,容易得到容易得到 这条线一定过两个点这条线一定过两个点 和和最小 )(2 yy),0(abXaY线性回归分析的前提条件 线性(linear)反应变量Y与自变量X呈线性变化趋势 独立(independent

3、)任意两个观察值相互独立,一个个体的取值不受其他个体的影响 给定X时,Y正态分布(normal)给定X取值时,Y的取值服从正态分布 等方差(equal variance)指对应于不同的X值,Y值的总体变异相同直线回归应用条件LINE示意图回归方程有统计学意义吗 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步进行假设检验。检验回归模型是否成立:方差分析检验总体回归系数是否为零:t检验 例1: 某研究者研究大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温()、空气湿度(%)、风速(m/s)等因素的关系,结果见表1: 单位时间

4、内过往的汽车数(千辆)、气温()、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?如何定量地描述这些因素对一氧化氮浓度的影响?哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何? 第一节 多重线性回归 多重多重线性回归线性回归(multiple linear regression) 因变量因变量: : 一个一个, , Y Y 自变量自变量: : 多个多个, , X X1, 1, X X2, 2, X X3, 3, , , XpXp方程:方程:ppXbXbXbbY.22110概概

5、念念 多元多元线性回归线性回归(multi- variate linear regression) 简称简称多元多元回归回归(multi- variate regression): 因变量因变量: : 多个多个, , Y Y1 1,Y Y2 , 2 , 自变量自变量: : 多个多个, X1, X2, X3, , X1, X2, X3, 方程:方程:ppXbXbXbbY1221111011.ppXbXbXbbY2222112022.多重线性回归方程 多重线性回归方程是简单线性回归方程的扩展pppxxxYXXX 22110,.,2,1|其中 表示当所有自变量为0时反应变量Y的总体平均值。 为变量X

6、i 的总体偏回归系数(partial regression coefficient),表示当方程中其他自变量保持常量时,自变量Xi每增加(或减少)一个计量单位,反应变量Y平均变化 个单位。0ii 样本回归方程 ppXbXbXbbY.22110Y反应变量Y的总体平均值12|,.,pY x xx的估计值。 b00的估计。 为常数项,又称为截距,是总体参数bi为自变量Xi 的偏回归系数,是总体参数 的估计值。i 如果要建立由车流量( )和风速( )预测一氧化氮浓度(Y)的线性回归方程,模型可以写成: 1X4X44110XbXbbY4b4b表示在车流量不变的情况下,风速每增加一个单位(1m/s),估计

7、空气中一氧化氮的浓度平均改变个单位(ppm)。表13-1 多重线性回归分析数据格式 前提条件(LINE)多重线性多重线性回归分析步骤回归分析步骤(1)(1) 求回归方程求回归方程 - - 最小二乘原则最小二乘原则(2)(2) 假设检验假设检验 - - 检验回归方程是否具有统计学意义,检验回归方程是否具有统计学意义,模型有意义的前提下,再分别对模型有意义的前提下,再分别对各偏回归系数各偏回归系数进行假进行假设检验设检验。(3)(3)变量选择变量选择 - - 以尽量少的自变量以尽量少的自变量, , 达到较好地解释达到较好地解释Y Y的目的的目的基本原理:寻找一套适宜的偏回归系数( ),建立多重线性

8、回归方程,使得反应变量的观测值 与回归方程的估计值回归系数的估计,求回归方程采用最小二乘法 (least squared method)来估计偏回归系数 pbbbb,210iYiY之间的残差平方和最小。 SPSS实现方法: Analyze-Regression-Linear- y选入Dependent x1、x2、X3.XP选入Independent Method-Enter Stepwise Backward Forward -ok43621035. 01055. 6004. 0116. 0142. 0XXXXY当建立样本回归方程后,首先要考察这个回归方程是否有意义?即在, , , , 中,

9、是否至少存在一个自变量与Y的总体均数呈线性关系?回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少?四个自变量是否都对反应变量有影响?也即是各个偏回归系数( )所对应的总体偏回归系数( 是否等于0?思考:1X2X3X4X4321,bbbb4321, 回归的目的回归的目的: :估计估计H H0 0成立时成立时, , 只能用只能用Y Y的均数的均数 来估计来估计 残差残差: , : , 自由度自由度= =H H1 1成立时成立时, , 给定给定 可以用可以用 来估计来估计 残差残差: : , , 自由度自由度= 残差减少了残差减少了 统计推断 这个回归方程有统计学意义吗这个

10、回归方程有统计学意义吗? ? XYyXY2)(yySSi总1nXYiyix2)(iiyySS残1 pn回残总SSSSSS- - 这是回归模型的贡献这是回归模型的贡献 2)(yySSi回自由度自由度= = p方差分析的基本思想 总变异:把反应变量的观察值的离均差平方和记为 ,它反映了没有利用自变量的信息时的观察值的变异性,即没有考虑车流量、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的大小,其自由度记为 (为样本量)。 2)(yySSi总1 n总 根据回归方程计算得到的预测值 与实际观察值 之间的差异称为残差,记残差的离均差平方和为 ,它反映了的变异中不能由回归解释的部分,其自由度记为 ,P

11、 为自变量个数。 把 与 之差记为回归平方和 ,它反应了回归模型的贡献,即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,其自由度记为 。 iy iy2)(iiyySS残1pnE总SS残差SS回归SSp回SSMSFP 表13-3 检验回归方程整体意义的方差分析表变异来源自由度回归40.0640.01617.59.001残差190.0170.001总230.081P0H表中值小于0.001,按照0.05的检验水准,可以拒绝,认为所建立的回归方程是有意义的。用这四个自变量构成的回归方程解释空气中一氧化氮浓度的变化是有意义的。确定系数确定系数 或称决定系数,以反映回归方程的效果好坏。 总回归SS

12、SSR 22R本例 0.79,说明利用车流量、气温、气湿和风速等四个因素可以解释一氧化氮浓度的约80的变异,可以认为回归的效果较好 。复相关系数复相关系数 (coefficient of multiple correlation)又称多重相关系数又称多重相关系数 决决定定系系数数 R调整的确定系数调整的确定系数(adjusted R2, ) 11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差2adR 回归系数的假设检验回归系数的假设检验 由于存在抽样误差,即使总体偏回归系数为零,也可能得到样本偏回归系数不为零的情形,因此需要对偏回归系数进行假设检验,以推断总体偏回归系数是

13、否为零 。0:0iH0:1iH05. 0 检验统计量为biibiSbtbiSi其中, 是第 个偏回归系数的标准误 05. 0P05. 0P车流量、气温、风速对一氧化氮浓度的影响有统计学意义( ),但是气湿的影响没有统计学意义( )。)。 标准偏回归系数标准偏回归系数Standardized partial regression coefficient所有变量标准化后做回归所有变量标准化后做回归, ,所得系数称为标准偏回归所得系数称为标准偏回归系数系数. .注意:注意: 一般回归系数一般回归系数有单位,用来解释各自变量对有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,应变量的

14、影响,表示在其它自变量保持不变时, 增加或减少一个单位时增加或减少一个单位时Y Y的平均变化量的平均变化量 。不能用。不能用各各 来比较各来比较各 对对 的影响大小。的影响大小。 标准化回归系数标准化回归系数无单位,用来比较各自变量无单位,用来比较各自变量对应变量的影响大小,对应变量的影响大小, 越大,越大, 对对 的影响越大。的影响越大。iXibiXY,ibXiY第二节 回归分析中变量的选择 并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。 在许多研究中,多因素线性回归分析的目的是建立一个预测效果最优的回归模型,需要对自变量进行筛选: 将对反应变量没有影响的自变量从模型中剔除,将

15、对反应变量的作用有意义的自变量纳入模型当中。 残差平方和( )缩小或确定系数( )增大 2)(iiyySS残残差SS2R越小越好!越小越好!总残差总回归SS12SSSSSSR越大越好!越大越好! 然而然而, , 只要增加自变量个数只要增加自变量个数, , 这个量就会减小这个量就会减小!?!?自变量筛选的统计学标准残差的均方( )缩小或调整确定系数( )增大 残差MS2adR1pnSSMS残差残差11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差自变量筛选的统计学标准AIC统计量pSSnAIC2)nln(残差AIC值达到最小,该模型为最佳模型,AIC准则自变量筛选的统计学标

16、准自变量筛选的方法 最优子集回归分析法: p个变量有2p1个方程 逐步回归分析: 向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入剔除法(stepwise selection)(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2p1个),按一定准则选择最优模型,常用的准则有: 校正决定系数或残差的均方(考虑了自变量的个数) AIC(Akaikes Information Criterion)准则;最优子集法的局限性 如果自变量个数为4,则所有的回归有24115个;当自变量数个数为10时,所有可能的回归为 2101

17、1023个;.;当自变量数个数为50时,所有可能的回归为25011015个。 前进法(forward selection) 后退法(backward elimination) 逐步回归法(stepwise regression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和偏回归平方和的F检验,它表示在原有回归方程基础上引入或剔除某一自变量后所增加或减少的那部分回归平方和.1; 1;)1(21)(pnpnSSSSSSFjj残回回(二)逐步回归分析(1)前进法)前进法 自变量从无到有、从少到多自变量从无到有、从少到多 1. 将偏回归平方和最大且能使回归系数检验拒绝

18、者入选为第一个自变量;规定一个界值,2. 接着将余下的变量中偏回归平方和最大并使检验拒绝者选为第二个自变量; 如此不断引入新的自变量,直到再不能拒绝时为止。 局限性:只进不出,后续变量的引入可能会使先进入方程的自变量变得不重要。(2 2)后退法)后退法 先将全部自变量放入方程,然后逐步剔除先将全部自变量放入方程,然后逐步剔除 1. 首先对全部候选变量作总的回归,每次剔除一个偏回归平方和最小而使回归系数的检验不能拒绝者。2. 直到再不能剔除时为止 。 局限性:只出不进,自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程 。(3 3)逐步回归法)逐步回归法

19、 双向筛选(实际应用最多):双向筛选(实际应用最多):在向前引入的每一步之后都要考虑在向前引入的每一步之后都要考虑从已引入方程的变量中剔除相形见绌者从已引入方程的变量中剔除相形见绌者. . 引入引入有意义的变量(前进法),有意义的变量(前进法),剔除剔除无意义变量无意义变量 (后退法)(后退法) 先规定两个阈值P引入和P剔除(P引入P剔除),当候选变量中最大P值 P引入时,引入相应变量;已进入方程的变量最小P值 P剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止(计算复杂)多重线性回归的应用 (1)定量地建立一个反应变量与多个解释变量之间的线性关系。例如,建立肺活量的大小与身高、体重、

20、年龄和性别之间的线性关系。 (2)筛选危险因素。例如,筛选高血压的危险因素。 (3)通过较易测量的变量估计不易测量的变量。例如,建立婴儿体表面积关于身高、体重、月龄的多因素线性回归方程,可以通过容易测量的身高、体重、月龄等变量估计不易测量的体表面积。 (4)通过解释变量预测反应变量。例如,通过风速、汽车流量、气温等指标预测空气中一氧化氮的浓度。 (5)通过反应变量控制解释变量。例如,在气温、风速不变的情况下,通过控制汽车流量来实现空气中一氧化氮浓度不超过一定的水平。多重线性回归应用时的注意事项多重线性回归应用时的注意事项 1样本含量 2方程“最优”问题 3关于逐步回归 4多元共线性 5. 哑变

21、量设定6. 变量间的交互作用7. 残差分析多重共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差估计系数方差加大,系数估计不稳,结果分析困难。因此在多因素线性回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。4 4多重共线性多重共线性 多重共线性的表

22、现在实际应用中主要表现为:多重共线性的表现在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释 出现以上表现,提示存在多重共线性问题,应进行多重共线性诊断。方差膨胀因子VIF (2) 容忍度(tolerance) 以每个自变量作为应变量,对其他自变量进行回归分析时得到的残差比例,大小用1-R2来表示,该指标越小,则说明该自变

23、量被其余变量预测的越精确,共线性可能越严重。如果自变量的容忍度小于0.1,则可能存在共线性问题。5 5 哑变量的设定2分类,可用一个(0,1)变量。如性别0 1 X男女 k分类,k-1个(0,1)变量,如血型。 多重线性回归分析有时先将有序变量或无序多分类变量转换成为多个二分类变量之后,才能将它们引入回归模型。将有序变量或无序多分类变量转换成为多个二分类变量的过程常被称为“哑元化(dummying)”,得到的多个二分类变量称为“哑变量(dummy variable)”。型非AAX101血型是一个无序多分类变量,它的取“值”是A、B、AB、O四种,可以用3个二分类变量来描述。令型非BBX102型

24、非ABBAX1031X2X3XABABO表11-5 用二分类哑变量描述血型血型变量100010001000编号 X1 X2 X3 Y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1 数据格式回归方程 建立回归方程建立回归方程 0112233Ybb Xb Xb Xb1 :相当相当A 型相对于型相对于O 型的差别型的差别b2 :相当:相当B 型相对于型相对于O 型的差别型的差别b3 :相当:相当AB 型相对于型相对于O 型的差别型的差别 (2)等级 定量。 一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。1 1 2 3 X小 学中

25、 学大 学 4 大 学 以 上 011Ybb X 解释:b(b1)反映X(X1) 增加1个单位, 增加b个单位(如:500元)。 表示中学文化较小学收入多500, 大学较中学多500,余类推。,3,2, 1X,2, 1 ,0XYb1,b2,b3分别反映中学、大学、大学以上相对于小分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小学文化程度者经济收入差别的大小也可将K个等级转换为K-1个(0,1)变量为了检验两个自变量是否具有交互作用,为了检验两个自变量是否具有交互作用,普遍的做法是在方程中加入它们的乘积项。普遍的做法是在方程中加入它们的乘积项。6. 变量间的交互作用变量间的交互

26、作用 例例2 2 某项研究调查了3334名有心脏疾患的妇女,了解血清高密度脂蛋白胆固醇(HDL cholesterol,mg/dl)与体质指数(body mass index, BMI, kg/m2)的关系,考虑到是否患糖尿病(DIABETES)也是影响HDL水平的因素,因此建立了一个以体质指数、是否患糖尿病为自变量,HDL为反应变量的线性回归方程,结果如表13-4所示。表13-4 以体质指数、是否患糖尿病为自变量的线性回归方程变量bSEtP95%CIBMI-0.3910.017-22.5310.000-0.426-0.357DIABETES-4.7830.092-52.2070.000-4.

27、962-4.603CONSTANT67.5510.363185.8470.00066.83968.264F=2441.323, P0.001; R2=0.594, adjR2=0.594, Root MSE=2.02模型假定HDL的平均水平随BMI的变化而变化的规律在糖尿病妇女和非糖尿病组之间是相同的,表现为相同的偏回归系数 -0.391605040302010 70605040 糖尿病组非糖尿病组糖尿病组非糖尿病组 在多重线性回归模型中引入一个新的自变量(DMBMI),定义为BMI和DIABETES的乘积,这个乘积项描述的是两个自变量与反应变量之间的关系。由于两个自变量已经在模型中,乘积项就可以解释为交互作用。 表13-5 以体质指数、是否患糖尿病为自变量,包含交互作用项的线性回归结果VariablebSEtP95%CIDIABETES-11.3400.965-11.7550.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论