多重线性回归ppt课件_第1页
多重线性回归ppt课件_第2页
多重线性回归ppt课件_第3页
多重线性回归ppt课件_第4页
多重线性回归ppt课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重线性回归 (Multiple Linear Regression),一、概述 二、参数估计与假设检验 三、回归方程评价与共线性诊断 四、MLR分析策略 五、进一步讨论的问题,提纲,多重线性回归是简单线性回归的推广,是多变量统计分析中的常用方法之一。 多变量统计分析是研究客观事物中多种因素间相互依赖和作用统计规律性的一个数理统计学分支。,一、多重线性回归概述,一个结果变量Y和多个自变量(X1, X2 , , Xk)间的线性回归称为多重线性回归(MLR)。,应用: 探索疾病发生的危险因素; 确定自变量对因变量影响相对重要性; 用回归方程进行预测。,例1:某地13岁男童身高、体重、肺活量的实测数据(部分),问题:,身高、体重与肺活量有无线性关系? 用身高和体重预测肺活量有多高的精度? 单独用身高或体重是否也能达到同样效果? 身高对肺活量的贡献大,还是体重的贡献大?,回归方程: Y:结果变量/应变量/因变量 outcome variable response variable dependent variable X:自变量/解释变量 independent variable explanatory variable,a为截距(intercept),又称常数项(constant),表示各自变量均为0时y的平均估计值。 bi 称为偏回归系数(partial regression coefficient),简称为回归系数。,称为 y 的估计值或预测值(predicted value)。,当x1=150,x2=32时, =1.9168, 表示对所有身高为150cm,体重为32kg的13岁男童,肺活量平均估计值为1.9168(L)。,1.MLR的参数估计 最小二乘法 (least square, LS) 基本思想 残差平方和 (sum of squares for residuals)最小,二、MLR的参数估计与假设检验,估计值与残差,估计值与残差有下列性质:,为最小。,Y的总变异分解:,未引进回归时的总变异: (sum of squares about the mean of Y) 引进回归以后的变异(剩余): (sum of squares about regression) 回归的贡献,回归平方和: (sum of squares due to regression),2. 方程的假设检验,Y的总变异分解为两部分: 回归贡献U 剩余变异Q 整个方程是否有意义,就看回归所能解释的变异U比剩余Q大多少而定。,假设检验为: :各总体偏回归系数j均为0; :各总体偏回归系数j不全为0。,回归方程的方差分析表,例1资料方差分析表,3.偏回归系数的假设检验与可信区间,偏回归系数的t 检验:,n-m-1个自由度,标准偏回归系数与自变量的贡献,决定系数:,决定系数(coefficient of determination),调整决定系数:,R2可用于检验多重回归方程的统计学意义:,H0:2=0; H1:20。 检验统计量为:,0R1。 当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对值:R= | ryx | 当有多个自变量x1,x2,xm时,R的值比任何一个自变量与因变量的简单相关系数之绝对值大, 即:,复相关系数: R 反映的是应变量与自变量线性组合的总的相关关系,其性质:,剩余标准差,剩余标准差,剩余标准差的用途:,反映回归方程的估计精度; 可用于偏回归系数的假设检验; y的容许区间估计; y的可信区间估计; 自变量的选择等。,因此,剩余标准差在回归分析中是一个非常重要的统计量。,三、回归方程评价与共线性诊断,复相关系数R : 校正复相关系数Radj: 剩余标准差:,赤池信息准则(AIC准则),统计量,选择 Cp 最接近p 的那个模型。,多重共线性的概念:,方差膨胀因子-VIF多重共线性严重程度的指标。,多重共线性的诊断: 简单相关系数,大于0.8; 方差膨胀因子(VIF),VIF大于等于10; 逐步回归检测法; 丁元林,等. 多重线性回归分析中的常用共线性诊断方法. 数理医药学杂志. 2004; 17: 299.,直观判断法: (1)增加或减少一个自变量,回归系数的估计值变化较大; (2)重要的自变量回归系数的标准误大,没有显著性; (3)某些自变量的回归系数与已知的研究结果相反; (4)相关矩阵中,自变量的相关系数较大。,多重共线性的处理: (1)经验方法 把VIF最大的从模型中剔除,再拟合模型和检验。 增加样本含量,可减小回归参数的方差,也可减小回归参数估计的标准误。 差分后变量之间的相关性要比差分前若许多; 利用先验信息 约束最小二乘估计; 变量变换:相对指标、构造指数、相加合并。 (2)逐步回归方法消除共线性,实例1的拟合:health_weight.sas,回归系数的估计 回归方程的假设检验 决定系数和剩余标准差 偏回归系数的假设检验 标准偏回归系数与自变量的贡献 因变量的区间估计 衡量回归方程的标准 逐步回归 以上内容在SAS中均可以用“proc reg” 完成。,Model的选项: Clb: 计算偏回归系数及其回归系数的假设检验与自变 量均数95的可信区间。 Stb: 计算出标准偏回归系数(自变量对因变量的直接 贡献)。 Cli : 计算每一观察值因变量期望值(均数)的95的 可信区间 (95% CL Predict)。 Clm: 计算每一观测值因变量的95的容许区间 (95% CL Mean)。 VIF: 计算方差膨胀因子。,四、MLR分析策略,(一)数据类型: 定量 定性 等级 (二)多重线性回归要求: 应变量为定量指标,且满足线性回归的条件 (LINE); 自变量无特殊要求,但要求与应变量的关系为线性。,1. 定量指标,二分类指标,常用0,1变量表示,如性别:,2. 定性指标,需定量化方可引入模型,多分类指标: 血型 (A,B,AB,O) x1=0, x2=0, x3=0 表示O型 x1=1, x2=0, x3=0 表示A型 x1=0, x2=1, x3=0 表示B型 x1=0, x2=0, x3=1 表示AB型 哑变量(dummy)又称指示变量(indicator variable),只适合于分类变量中分类不多的情况。,3. 等级指标 可将等级直接数量化后引入模型; 以哑变量形式引入模型。,(三)变量筛选策略,对自变量进行描述性分析、检验正态性、线性关系、与因变量的简单相关与回归分析。,1. 注重研究变量的策略,2. 最佳子集回归方程,缺点:计算量太大 ,不能保证引入回归方程的各自 变量 ,方程外的各自变量 。,优点:拟合的回归方程MS最小。,例2 数据,Title Optimal subset regression; data exe2; input x1 x2 x3 x4 y; cards; 13 7 26 19 11.5 16 6 19 14 10.2 15 11 40 34 19.8 24 10 32 26 19.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 8 29 17 13.7 22 11 39 38 25.3 19 12 15 33 21.6 10 7 17 20 9.7 21 9 18 19 15.3 29 13 14 38 28.3 35 14 24 34 29.8 18 10 11 35 21.6 ; proc reg; model y=x1 x2 x3 x4/selection=rsquare adjrsq mse cp aic best=6; run;,指定了选择模型的方法。 如缺省,表所有变量都选到模型中。,“best=n”用于指定选择子集的模型的最大个数, n11或该选项缺省所有子集的模型都被估计出来 n 11则有n个子集的模型都被估计出来节约运行时间,例2资料的一切可能回归(24-1=15个),建立回归方程的原则:少而精。 R、Radj、Sy.x1x2xp 、AIC、 Cp 在变量数较少时,可以求出所有可能的回归 (all possible regressions),又称“最优子集回归”。,3. 逐步回归(stepwise regression),优点:计算量小 ,保证引入回归方程的各自变量 ,方程外的各自变量 。,缺点:是拟合的回归方程的MS剩最小。,筛选自变量的方法: 前进法:自变量对y的贡献大小依次进入方程 后退法:给定剔除标准,自变量对y的贡献大小依次剔除方程; 逐步向前法:与前进法区别:低于入选标准的变量剔除。 逐步向后法:与逐步向前法的方向相反。,假设检验的P值,即对偏回归系数进行假设检验,P值越小,则贡献越大。 理论:P剔= P选 实际:P剔P选 偏回归平方和的检验统计量F。 F值越大,则贡献越大。,剔选变量的标准:,proc reg; model y=x1 x2 x3 x4/selection=stepwise sle=0.15 sls=0.14 details; run; sle = 选入变量时入选标准; sls =选入变量时剔除标准; Details后面缺省指定输出回归的所有步骤; detailssummary则只输出最后一步。,五、进一步讨论的问题,1. 回归系数反常及其原因,当存在较严重的多重共线性时: 回归系数的符号与实际不符 回归系数估计值与实际相差太大 回归系数的标准误太大,某些重要变量选不进方程 方程P ,而各偏回归系数 P。,解决办法: 剔除自变量 主成分回归 岭回归,2. 应用条件(LINE),线性 (Linearity) 独立性 (Independence) 正态性 (Normality) 方差齐性 (Equal variance/Homogeneity),Linearity:自变量与因变量为线性关系。 检验方法:散点图判断。 Independent: 因变量y取值之间相互独立,即残差相互独立,不存在自相关。 检验方法:用专业知识判断;残差间相互独立的检验方法,使用线性回归过程中的DW检验。,DW统计量检验是否 存在自相关。 公式: DW值在0-4之间。,Normal distribution: 自变量的任何一个线性组合,因变量y均服从正态分布,即要求残差服从正态分布。 检验方法:绘制标准化残差的直方图、茎叶图、PP图和QQ图)。,Model ; output out=aaa predicted=pred residual=resi stdr=standarizedresi; plot residual. *(npp. nqq.); Run;,Equal variance/Homogeneity:在自变量X的取值范围内,不论X取什么值,Y都有相同的方差。即标准化残差的大小不随变量取值的改变而改变。 检验方法:标准化残差图,绘制y的估计值(预测值)和标准化残

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论