多元回归分析_第1页
多元回归分析_第2页
多元回归分析_第3页
多元回归分析_第4页
多元回归分析_第5页
已阅读5页,还剩42页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Multi-Regression Analysis 多重回归分析童新元 中国人民解放军总医院多元回归引例什么是低碳经济?低碳经济是以低能耗、低污染、低排放为基础的经济模式。是人类社会继农业文明、工业文明之后的又一次重大进步。低碳经济实质是清洁能源开发、能源高效利用的环保节能型经济。现代医学模式1977 年美国罗彻斯特大学精神病学、内科学教授恩格尔(George L. Engel) 提了现代医学模式: bio-psycho-social medical model。 生物心理 社会(人文环境、自然环境) 中医学医学模式: 人体自然社会心理(天人一体)什么是PM2.5PM英文全称为particu

2、late matter(颗粒物,PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物。它的直径还不到人的头发丝粗细的1/20。PM2.5产生的主要来源是日常发电、工业生产、汽车尾气排放等过程中经过燃烧而排放的残留物,含有重金属等有毒物质。2012年2月,国务院发布新环境空气质量标准增加了PM2.5监测指标。大气污染问题研究现代工业社会,大气污染对人类的生理和心理带来非常严重的危害,1952年12月的伦敦烟雾事件夺去了四千多人的生命。问题:怎样进行大气污染研究?怎样了解大气污染的情况及其影响原因?研究试验设计试验因素:汽车流量,气温,空气湿度,风速试验对象: 24个城市试验效

3、应: 大气污染物一氧化氮NO浓度试验控制条件: 选择24个工业水平相近城市的一个交通点 在低空相同的高度测定了该时间段大气污染物一氧化氮NO浓度研究试验实施例11-1 选择24个工业水平相近城市的一个交通点,统计单位时间过往的汽车数(千辆),同时在低空相同的高度测定了该时间段的气温(C), 空气湿度(%),风速(m/s)和大气污染物一氧化氮NO浓度(10-8) 。如下表。P192 试分析汽车流量,气温,空气湿度,风速与大气污染物一氧化氮NO浓度关系。 24个城市大气污染的研究数据 城市汽车流量气温空气湿度风速NO浓度11.3020.0080.000.4566.0021.4423.0057.00

4、0.5076.0030.7926.5064.001.501.00241.4428.0068.002.0099.00二、多重线性回归分析 直线相关与回归分析一个自变量和一个因变量间的关系, 在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关。 多元回归分析正是为解决这些问题而产生的 。 1) 多重线性回归模型Yb0+b1X1+b2X2+bpXp。 其中b0为截距, b1 ,b2 bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi改变1个单位时Y的平均值Y将改变bi个单位.2)多元回归方程的

5、建立 1) 求回归系数 常用最小二乘估计的方法求解待定系数b0和偏回归系数b1、b2bp。2)回归方程的检验 由样本计算得到的回归方程是总体回归的估计。多元回归方程有没有意义需要作假设检验。采用的是方差分析。3)偏回归系数作检验样本计算得到的这些偏回归系数bi(i=1,2,p)是总体偏回归系数(i=1,2p)的估计值。在建立起方程后有必要对这些偏回归系数作检验。设研究问题中含有p个自变量x1, x2,xp及因变量Y. n个观察对象. 其数据结构为: 编号 X1 X2 . XP y 1 x11 x12 x1p y1 2 x21 x22 x2p y2 3 x31 x32 x3p y3 n xn1

6、xn2 xnp yp3)数据结构4)实例讲解选择24个工业水平相近城市的一个交通点,统计单位时间过往的汽车数(千辆),同时在低空相同的高度测定了该时间段的气温(C), 空气湿度(%),风速(m/s)和大气污染物一氧化氮NO浓度(10-8) 。如下表。试分析汽车流量,气温,空气湿度,风速与大气污染物一氧化氮NO浓度关系。 本例结果 参数估计表- 变量 回归系数 标准误 t P- (Constant) -0.142 0.069 -2.04 0.055 车流量X1 0.116 0.027 4.23 0.005 气温X2 0.004 0.002 2.36 0.028 空气湿度X3 -0.00006 0

7、.001 -0.01 0.992 风速X4 -0.035 0.011 -3.21 0.005 - y=-0.142+0.116x1+0.004x2-0.00006x3-0.035x4表中可以看出, 汽车流量,气温,风速对一氧化氮NO的浓度的影响有统计学意义. 方差分析表- y的变异来源 SS DF MS F值 P - 回归方程 0.064 4 0.016 17.59 0.001 随机误差 0.017 19 0.001 总变异 0.081 23- p0.05,一氧化氮NO的浓度与汽车流量,气温,空气湿度,风速之间的回归方程有统计学意义.5)多元回归的作用 (1) 建立回归模型: Y=0+1X1+

8、2X2+pXp ; (2) 预测预报 若已知x1, x2 xp数值大小时, 通过模型可以预测y的值以及估计y的变化范围; (3) 因素分析 找出对因变量y有显著影响的因素。 6)多元回归分析的前提条件(1) 线性 y=b0+b1x1+b2x2+.bpxp(2) 独立 n个个体之间互相独立;(3) 正态 给定X1, X2, , Xp的数 值后, 相应的y值服从正态分布;(4) 等方差 当X1,X2,Xp的数值变 动时,相应的y有相同的方差。 三、筛选变量的方法在多元线性回归分析中,研究者往往是根据自己的经验或借鉴他人的研究结果选定若干个自变量,这些自变量对因变量的影响作用是否都有统计学意义还有待

9、于考察。通过多元性线回归分析,常常会发现其中有很多自变量对因变量的影响无意义。 同时,也常会遇到自变量间存在共线性的问题,影响到偏回归系数估计和回归方程的“质量”。 因此,在建立回归方程的过程中有必要考虑对自变量进行筛选,挑选出若干个与因变量作用较大的变量建立回归方程。剔除那些对因变量没有多大影响的变量,从而建立一个较理想、较稳定的回归方程。前进法后退法逐步法 1)逐步回归的思想事先给定挑选自变量进入方程的P界值(缺省值P=0.1),开始方程中没有自变量,然后,按自变量对y的贡献大小由大到小依次挑选进入方程,每选入一个变量,都要对已在模型中的变量进行检验,对大于剔除标准的变量要逐一剔除。2)逐

10、步回归中F值的计算* 逐步选择变量每一步都在权衡得失的情形下决定变量的取或舍。每一步都作一次如下的检验: H0 : p个自变量为好 H1 : p+1个自变量为好采用F作为统计量。 SS残 (H0 )-SS残 (H1 ) F SS残 (H1 )/ (n-p-2) 其中SS残 (H0)表示用p个变量回归的残差平方和 SS残 (H1) 表示用p+1个变量回归的残差平方和。 若FF(界值),则拒绝H0 ,可决定增多相应的自变量; 否则,不拒绝H0 , 可决定不增加相应的自变量。3)Pe和Ps的确定1 Pe, Ps 需要多次选取。2 常取0.5, 0.4,0.3, 0.2, 0.1, 0.05.3 剔除

11、变量的界值Ps要大于选进变量的界值Pe四、衡量回归方程的标准 采用不同的剔除变量方法,选入不同剔除变量的标准;会得到不同的回归方程,我们要根据实际问题,对每个变量的单独作用、变量间的交互作用作出恰当的评价。一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。 因此,在建立回归方程时,要遵循一个原则,即“少而精”,具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一个量化的标准来衡量所得模型的“优”与“劣”。 目前,常用的衡量方程好坏的标准有如下几个:1) 决定系数R2 (复相关系数的平方) R2 =1-SS残/SS总

12、= SS模/SS总, , 它表示在因变量y的总变异中可由回归方程所解释部分的比例。0R21, 越接近于1, 说明回归方程效果越好。2)校正的决定系数Adj R2 复相关系数是随方程中的变量个数增加而增加的,即使自变量对Y无显著性意义,为了克服这一缺点,对它进行校正: Adj R2 =1-MS残/MS总,0AdjR21, 越接近于1, 说明回归方程效果越好。3) 它反映了应变量在扣除自变量的线性影响后的离散程度; 剩余标准差越接近于0, 说明回归方程效果越好。3)剩余标准差 五、回归分析注意几点1、定性变量的数值化2、共线性问题3、异常点诊断4、残差分析1、定性变量的数值化 在医学研究中,常常会

13、遇到各种不同的指标,如年龄、性别、病情、疗效等。统计学上称为随机变量,简称变量. 根据变量取值的不同可分为定量变量、定性变量和等级变量三种类型。 在进行统计分析前,要根据数据的特点和分析方法的要求,对不同的变量进行转换处理,如定性变量的定量化等。 定量变量 定量变量是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。 对于定量变量, 在通常情况下以原始观察值的形式出现。但有根据变量的特点有时可分段处理,亦称定量变量定性化。研究老年病时,以其它年龄组作对对照,可将年龄分65岁以上一组和 65岁以下一组。定性变量是对研究对象的定性特征描述,有不同类别之分, 亦称分类变量

14、。如性别可分为:男、女。称为二分类血型可分为A、B、 AB、 O四类型。称为多分类。 在多元分析时要对定性变量进行赋值才能进行统计,称其为定性变量的定量化。 定性变量:二项分类 变量如性别,用一个变量表示,一般可赋值为0和1,或1和2。 1 女 X= 0 男多分类变量血型分为A、B、 AB、 O四类型,一元分析时可用1,2,3,4代表不同的组。 但多元分析时需要采用哑变量方法进行处理. 1 A 型 1 B 型 1 ABX1= X2= X3= 0 其它 0 其它 0 其它哑变量的个数当X1=0,X2=0,X3=0时为O型. 4分类变量需用三个哑变量来区分。一般N分类,需要N-1个哑变量表示。 等

15、级变量是对研究对象 的等级特征的描述。如病情分轻、中,重三个等级。数值化法:只须用一个X作为分类变量, 然后按等级顺序分别赋值。例如,用X表示病情, 其赋值方法分为: 0 轻 X= 1 中 2 重 等级变量2、共线性问题。当自变量均为随机变量时, 若他们之间高度相关,则称自变量间存在共线性(colinearity)。 共线性会给多重回归带来很大麻烦, 其参数估计自然极不稳定, 甚至参数值可大可小,可正可负,其意义无法解释; 有时, 参数估计值的标准差很大, 以致该参数估计值的统计学意义受到怀疑。 克服共线性的方法 逐步回归分析 主成分回归分析 逐步选择变量是对付共线性的办法之一,经逐步选择后,两个高度相关的自变量X1 和X2 常常不能同时进入方程, 但两者高度相关, 谁先进入方程带有偶然性. 经逐步选择后, 固然克服了共线性的麻烦, 同时也丢失一部份可利用的信息,故将高度相关的几个变量的信息综合起来参与回归是个好办法, 即进行主成分回归分析. 3、异常点诊断当散点图中出现了极端离群的点时,应考虑其是否为异常的情况. Student残差=(Yi -Y)/Si,当残

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论