多元线性回归_第1页
多元线性回归_第2页
多元线性回归_第3页
多元线性回归_第4页
多元线性回归_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元 线性回归 多元 线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。 简单线性回归是研究一个因变量( Y) 和一个自变量(X) 之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量( Y) 和多个自变量( Xi) 之间数量上相互依存的线性关系。 简单线性回归的大部分内容可用于多元回归,因其基本概念是一样的。内容安排多元线性回归模型与参数估计回归方程和偏回归系数的假设检验标准化偏回归系数和确定系数多元回归分析中的若干问题回归分析中自变量的选择多元线性回归分析的作用多元 线性回归模型与参数估计 设有自变量 x1,x2, xp和因变量 Y以及一份由 n个个体构成的随机样本 (x1i,x2i, xpi,, Yi), 且有 如下关系: y =B0+B1x1+B2x2+B p xp+ (模型)B0、 B1、 B2和 Bp为待估参数, 为残差。 由一组样本数据,可求出等估参数的估计值 b0、 b1、 b2和 bp,, 得到如下回归方程:i =b0+b1x1+b2x2+ bp xp 由此可见,建立回归方程的过程就是对回归模型中的参数(常数项和偏回归系数)进行估计的过程。参数的最小二乘估计 与 简单回归类似,我们寻求参数 B0、 B1、 B2和Bp的适宜估计数值 b0、 b1、 b2和 bp,, 使实际观察值和回归方程估计值之间残差平方和最小,即 Q (yi i) 2= (yi b0 b1x1i b2x2i bp xp i) 2对 b0、 b1 、 bp分别求偏导数,今偏导数为零可获得 P 1个正规方程,求解正规方程可得待估参数值。回归方程和偏回归系数的假设检验回归方程的假设检验:建立回归方程后,须分析应变量 Y与这 p个自变量之间是否确有线性回归关系,可用 F分析。H0: B1 B2 .=B p=0H1: H0不正确 0.05F MS回归 / MS误差MS回归 SS回归 p SS回归 = bjLjy ( j =1,2.,P)MS误差 SS误差 (n-p-1) SS误差 为残差平方和 偏回归系数的假设检验回归方程的假设检验若拒绝 H0, 则可分别对每一个偏回归系数 bj作统计检验, 实质是考察在固定其它变量后,该变量对应变量 Y 的影响有无显著性。H0: Bj=0H1: Bj不 为零 0.05F ( Xj 的偏 回归平方和 1) / MS误差Xj 的偏回归平方和:去 Xj后回归平方和的减少量若 H0成立,可把 Xj从 回归方程中剔除,余下变量重新构建新的方程。标准化偏回归系数和确定系数 标准化偏回归系数:在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。 bj = bj (sj / sy) 确定系数 :简记为 R2, 即 回归平方和 SS回归 与总离均差平方和 SS总 的比例。R2 SS回归 SS总可用来定量评价在 Y的总变异中,由 P个X变量建立的线性回归方程所能解释的比例。回归分析中的若干问题 资料要求 :总体服从多元正态分布。但实际工作中分类变量也做分析。 n足够大,至少应是自变量个数的 5倍 分类变量在回归分析中的处理方法有序分类:治疗效果: x=0(无效 ) x=1(有效 ) x=2(控制 )无序分类:有 k类,则用 k 1变量(伪变量) 如 职业 ,分四类可用三个伪变量:y1 y2 y3工人 1 0 0农民 0 1 0干部 0 0 1 学生 0 0 0 多元线性回归方程的评价评价回归方程的优劣、好坏可用确定系数 R2和剩余标准差 Sy,x1,2p 。Sy,x1,2. p SQRT( SS误差 n-p-1)如用于预测,重要的是组外回代结果。回归方程中自变量的选择 多元线性回归方程中并非自变量越多越好 ,原因是自变量越多剩余标准差可能变大;同时也增加收集资料的难度。故需寻求 “最佳 ”回归方程,逐步回归分析是寻求 “较佳 ”回归方程的一种方法。选择变量的统计学标准 R2最大R2 SS回归 SS总 adjR2最大:adjR2 1 MS误差 / MS总 Cp值最小Cp( n-p-1)(MS误差 .p/MS误差 .全部 1)(p+1)选择变量的方法 最优子集回归分析法 :p个变量有 2p 1个方程 逐步回归分析向前引入法 (forward selection)向后剔除法 (backward selection)逐步引入剔除法 (stepwise selection)H0: K个自变 量为好 H1: K 1个自变量为好 向前引入法 ( forward selection)自变量由少到多一个一个引入回归方程。将 corr(y , xj)最大而又能拒绝 H0者,最先引入方程,余此类推。至不能再拒绝H0为止。 向后剔除法 ( backward selection)自变量先全部选入方程,每次剔除一个使上述检验最不能拒绝 H0者,直到不能剔除为止。 逐步引入剔除法 ( stepwise selection)先规定两个阀值 F引入 和 F剔除 ,当候选变量中最大 F值 F引入 时,引入相应变量;已进入方程的变量最小 F F剔除 时,剔除相应变量。如此交替进行直到无引入和无剔除为止。(计算复杂)多元线性回归方程的作用 因素分析 调整混杂因素的作用 统计预测例:测量 16名四岁男孩心脏纵径 X1( CM)、 心脏横径X2( CM) 和心象面积 Y( CM2) 三项指标,得如下数据。试作象面积 Y对心脏纵径 X1、 心脏横径 X2多元线性回归分析。例:某科研协作组调查山西某煤矿 2期高血压病患者 40例,资料如下表,试进行影响煤矿工人 2期高血压病病人收缩压的多元线性回归分析。Logistic回归多 元 回归分析可用来分析多个自变量与一个因变量的关系,模型中因变量 Y是边连续性随机变量,并要求呈正态分布。但在医学研究中,常碰到因变量的取值仅有两个,如药物实验中,动物出现死亡或生存,死亡概率与药物剂量有关。设 P表示死亡概率, X表示药物剂量, P和 X的关系显然不能用一般线性回归模型 P B0 B1X来表示。这时可用 Logistic回归分析。内容安排 Logistic回归模型 模型参数的意义 Logistic回归模型的参数估计 Logistic回归方程的假设检验 Logistic回归模型中自变量的 筛选 Logistic回归的应用 Logistic回归模型 先 引入 Logistic分布函数,表达式为:F( x) = ex / ( 1+ex ) X的取值在正负无穷大之间; F(x)则在 0 1之间取值,并呈单调上升 S型曲线。人们正是利用 Logistic分布函数这一特征,将其应用到临床医学和流行病学中来描述事件发生的概率。以 因 变量 D 1表示死亡, D 0表示生存,以 P( D 1 X) 表示暴露于药物剂量 X的动物死亡的概率,设P( D 1 X) e Bo+BX /(1+e Bo+BX )记 Logit(P)=lnp/(1-p),则上式可表示为:Logit(P) Bo+BX这里 X的取值仍是任意的, Logit(P)的值亦在正负无穷大之间,概率 P的数值则必然在0 1之间。 p/(1-p)为 事件的优势, Logit(P)为对数优势,故 logistic回归又称对数优势线性回归一般地,设某事件 D发生( D 1) 的概率 P依赖于多个自变量( x1,x2, , xp), 且P( D 1) e Bo+B1X1+ BpXp /(1+e Bo+B1X1+ BpXp )或 Logit(P) Bo+B1X1+B p X p则称该 事件发生的概率与变量间关系符合多元Logistic回归或对数优势线性回归。logistic回归模型参数的意义优势比( odds ratio, OR): 暴露人群发病优势与非暴露人群发病优势之比。P(1) / 1-p(1)OR= P(0) / 1-p(0)Ln(oR)=logitp(1)-logitp(0)=(B0+B1) (B0+B0)=B可见 B是暴露剂量增加一个单位所引起的对数优势的增量,或单位暴露剂量与零剂量死亡优势比的对数。 eB就是两剂量死亡优势比。常数项 B0是所有变量 X等于零时事件发生优势的对数。Logistic回归的参数估计 Logistic回归模型的参数估计常用最大似然法,最大似然法的基本思想是先建立似然函数或对数似然函数,似然函数或对数似然函数达到极大时参数的取值,即为参数的最大似然估计值。其步骤为对对数似然函数中的待估参数分别求一阶偏导数,令其为 0得一方程组,然后求解。由于似然函数的偏导数为非线性函数,参数估计需用非线性方程组的数值法求解。常用的数值法 为 Newton-Raphson法。不同研究的设计方案不同,其似然函数的构造略有差别,故 Logistic回归有非条件 Logistic回归与条件 Logistic回归两种。Logistic回归的假设检验1、拟合优度检验:目的是检验模型估计值与实际观察值的符合程度。 SAS程序提供了下列统计量。A、 AIC和 SC: 对同一份资料,在模型比较中,这两个越小,表明模型越合适。B、 2LogL: 用于检验全部自变量(协变量)的联合作用。如显著,表明全部协变量的联合作用显

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论