11-2多重线性回归B_第1页
11-2多重线性回归B_第2页
11-2多重线性回归B_第3页
11-2多重线性回归B_第4页
11-2多重线性回归B_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重线性回归分析Multiple linear regression医用多元统计分析方法o 直线回归直线回归 研究一个因变量研究一个因变量(dependent variable)与一个与一个 自变量自变量(independent variable)间的线性关系。间的线性关系。o 多重线性回归多重线性回归 研究一个因变量与一组自变量间的线性关系研究一个因变量与一组自变量间的线性关系概念的引入 医用多元统计分析方法多重回归分析o多重线性回归oLogistic回归oCox 比例风险回归 Cox proportional hazards regressionmultiple linear regres

2、sionLogistic regression医用多元统计分析方法 一、多重线性回归主要内容1 多重线性回归模型简介2 回归系数的估计3 方程的假设检验4 决定系数与剩余标准差5 偏回归系数的假设检验6 标准偏回归系数与自变量的贡献 文献导读医用多元统计分析方法某地13岁男童身高,体重,肺活量的实测数据(部分)编号身高(cm)x1体重(kg)x2肺活量(L)y1135.132.01.753163.646.22.755156.237.12.757167.841.52.759145.033.02.5011165.549.53.0013153.341.02.7515160.547.22.251714

3、7.640.52.0019155.144.72.7521143.031.51.7523160.840.42.7525158.237.52.0027144.534.72.2529156.532.01.75医用多元统计分析方法问题:o 身高、体重与肺活量有无线性关系?o 用身高和体重预测肺活量有多高的精度?o 单独用身高、或体重是否也能达到同样效果?o 身高的贡献大,还是体重的贡献大?医用多元统计分析方法1.1 多重线性回归模型简介o 多重回归n multiple regressionn multiple linear regressiono 因变量n dependent variablen re

4、sponse variable (响应变量)o 自变量n independent variablen explanatory variable(解释变量)医用多元统计分析方法回归模型o 因变量y, 自变量为x1, x2, , xmo a为截距(intercept),又称常数项(constant), 表示各自变量均为0时y的估计值o bi 称为偏回归系数(partial regression coefficient),简称为回归系数o 称为 y 的估计值或预测值(predicted value) mmxbxbxbay 2211y 医用多元统计分析方法例:o 根据某地29名13岁男童的身高x1(c

5、m),体重x2(kg)和肺活量y(L)建立的回归方程为: o b1=0.005017(L/cm),表示在体重不变的前提下,身高每增加1cm,肺活量平均增加0.005017(L);2105406. 0005017. 05657. 0 xxy 医用多元统计分析方法yo 当x1=150,x2=32时, =1.9168, 表示对所有身高为150cm,体重为32kg的13岁男童,估计平均肺活量为1.9168(L)。 2105406. 0005017. 05657. 0 xxy 医用多元统计分析方法2 回归系数的估计(了解)o 最小二乘法(least square, LS)o 基本思想n 残差平方和(su

6、m of squares for residuals)最小 nimminiiixbxbxbbyyyQ122211012 医用多元统计分析方法估计值与残差 编号编号ye编号编号ye11.751.8420-0.092022.001.77960.220432.752.7527-0.002742.501.98030.519752.752.22360.526462.002.1381-0.138172.752.51960.230481.501.8612-0.361292.501.94580.5542102.252.19040.0596113.002.94060.0594121.251.6037-0.353

7、7132.752.41990.3301141.751.9268-0.1768152.252.7912-0.5412161.751.9318-0.1818172.002.3643-0.3643182.252.5653-0.3153192.752.62890.1211202.002.2668-0.2668211.751.8546-0.1046222.252.01650.2335232.752.42510.3249242.502.31330.1867252.002.2552-0.2552261.752.1330-0.3830272.252.03510.2149282.502.34530.154729

8、1.751.9494-0.1994y y 医用多元统计分析方法估计值与残差有下列性质:0)(11 niiniiieyy niiniiieyy1212)(医用多元统计分析方法3 Y的总变异分解o未引进回归时的总变异: (sum of squares about the mean of Y)o引进回归以后的变异(剩余): (sum of squares about regression)o回归的贡献,回归平方和: (sum of squares due to regression) 2)(YY 2)(YY 2)(YY医用多元统计分析方法回归方程的方差分析表 变异来源变异来源SS自由度自由度MSF总

9、总SS总总n-1回归回归SS回归回归mMS回归回归=SS回归回归/mMS回归回归/MS剩余剩余剩余剩余SS剩余剩余n-m-1MS剩余剩余=SS剩余剩余/(n-m-1)医用多元统计分析方法例3.1资料回归方程的方差分析 变异来源SS自由度自由度MSFP总5.6336206928回归3.0757339421.5378669715.63190.0000剩余2.55788685260.09838026医用多元统计分析方法4 偏回归系数的假设检验o H0: i =0;o H1: i 0。)1( mnbiitsbti 医用多元统计分析方法STATA的输出结果. regreg y x1 x2 y x1 x2

10、 Source | SS df MS Number of obs = 29-+- F( 2, 26) = 15.63 Model | 3.07573394 2 1.53786697 Prob F = 0.0000 Residual | 2.55788675 26 .098380259 R-squared = 0.5460-+- Adj R-squared = 0.5110 Total | 5.63362069 28 .201200739 Root MSE = .31366- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x1 | .00501

11、65 .0105754 0.47 0.639 -.0167216 .0267547 x2 | .0540611 .0159838 3.38 0.002 .021206 .0869162 _cons | -.5656643 1.240127 -0.46 0.652 -3.114782 1.983454-医用多元统计分析方法标准偏回归系数o 偏回归系数间不能直接比较,若比较,偏回归系数间不能直接比较,若比较,必须化成没有单位的标准偏回归系数必须化成没有单位的标准偏回归系数yyiiiillbb 0935215. 06336. 59532.1957005017. 01111yyllbb6668242.

12、 06336. 51192.8570540611. 02222yyllbb医用多元统计分析方法标准偏回归系数. reg y x1 x2 , beta Source | SS df MS Number of obs = 29-+- F( 2, 26) = 15.63 Model | 3.07573394 2 1.53786697 Prob F = 0.0000 Residual | 2.55788675 26 .098380259 R-squared = 0.5460-+- Adj R-squared = 0.5110 Total | 5.63362069 28 .201200739 Root

13、MSE = .31366- y | Coef. Std. Err. t P|t| Beta-+- x1 | .0050165 .0105754 0.47 0.639 .0935215 x2 | .0540611 .0159838 3.38 0.002 .6668242 _cons | -.5656643 1.240127 -0.46 0.652 .-STATA的输出结果医用多元统计分析方法直线回归分析的结果. reg y x1- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x1 | .0315609 .0083471 3.78 0.001

14、.0144341 .0486878 _cons | -2.608541 1.275414 -2.05 0.051 -5.225474 .008393-. reg y x2- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x2 | .0596878 .0105587 5.65 0.000 .0380232 .0813524 _cons | -.0091673 .3961987 -0.02 0.982 -.8221 .8037653- 为什么单变量分析时都有统计学意义,而同时放入方程则一个有统计学意义,另一个无统计学意义?医用多元统计分析方法自变

15、量的作用X1(身高) Y(肺活量)X2(体重)医用多元统计分析方法自变量作用的分解 自变量中间变量直接贡献间接贡献与y的相关riy身高x1x2b1 =0.09352b2 r12=0.66682 0.7421=0.49480.5884体重x2x1b2 =0.66682b1 r12=0.09352 0.7421=0.06940.7362医用多元统计分析方法 5 衡量回归方程拟合优度的指标o 回归方程中自变量的个数 原则:少而精o 决定系数(determination coefficient) 总剩余总回归SSSSSSSSR12医用多元统计分析方法复相关系数的性质 o 定义:决定系数平方根o 0R1

16、。o 当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对值:R= | ryx |o 当有多个自变量x1,x2,xm时,R的值比任何一个自变量与因变量的简单相关系数之绝对值大,即: myxyxyxrrrR,max21 医用多元统计分析方法校正复相关系数2adjR)1 (11122RmnnRadj医用多元统计分析方法 剩余标准差 o 剩余标准差 n 残差的标准差mxxxys21 111212 mnQmnyysniiimy医用多元统计分析方法剩余标准差的用途o 剩余标准差可用于偏回归系数的假设检验o y的容许区间估计o y的可信区间估计o 自变量的选择等 因此,剩余标准差在回归分

17、析中是一个非常重要的统计量医用多元统计分析方法o 决定系数、复相关系数和校正复相关系数越大都说明回归方程的拟合优度越好,自变量与因变量的关系越密切。o 剩余标准差则相反,其值越小越好。o 当方程中变量增加时,决定系数和复相关系数总是增加的。校正复相关系数增加了对自变量个数的“惩罚”。当所增加的自变量的作用较大,则Radj是增加的;当增加的自变量作用很小,则Radj反而是减少的。医用多元统计分析方法o 剩余标准差与校正复相关系数具有类似的性质。当所增加的自变量的作用较大,剩余标准差减少;当增加的自变量作用很小,剩余标准差反而增加。 校正复相关系数和剩余标准差常用来衡量方程的拟合优度。实际分析医用

18、多元统计分析方法 模拟数据X1X2X3X4yX1X2X3X4y137261911.5166191410.21511403419.82410322619.8218291713.72211393825.31912153321.610717209.72711132722.3188342214.83210211519.12911282120.7178181611.71811163219.62610352319.41610153420.3146141810.6187231411.12813213425.52311292920.7199132918.72513414028.91210193819.3329

19、121518.3238251715.63611371821.52811333224.7319251417.7219181915.32913143828.33514243429.81810113521.6医用多元统计分析方法例2资料的一切可能回归(24-1=15个)2adjRpxxxys21参数个数方程中变量R22x10.365290.344134.44830 x20.915120.912291.62671x30.05190.020295.43669x40.586000.572203.592593x1,x20.920780.915321.59841x1,x30.375960.332924.486

20、17x1,x40.993390.992930.46182x2,x30.916010.910211.64586x2,x40.922130.916761.58472x3,x40.609070.582113.550754x1,x2,x30.921230.912791.62203x1,x2,x40.993810.993140.45485x1,x3,x40.993600.992920.46227x2,x3,x40.923480.915281.598725x1,x2,x3,x40.994010.993130.45543医用多元统计分析方法o R2是变量越多其值越大 o 以R2准则选择变量数最多的回归方程,

21、而以其他准则,则均选择包含X1,X2,X4的回归方程。o 因此,从一切可能的回归中,我们选择包含X1,X2,X4的回归方程为最优 医用多元统计分析方法二、 逐步回归(stepwise regression) o概念o分析思路o实例医用多元统计分析方法决定系数复相关系数R 校正复相关系数Radj 剩余标准差衡量回归方程的标准医用多元统计分析方法1 逐步回归概念逐步回归概念 在多重回归分析中,由于自变量间的相互联系,在多重回归分析中,由于自变量间的相互联系,相互影响,以致于有些变量单纯地看,对因变量有作相互影响,以致于有些变量单纯地看,对因变量有作用,而与另一些自变量组合在一起时,其对因变量的用,

22、而与另一些自变量组合在一起时,其对因变量的作用会被其他的自变量所代替。(如:身高、体重与作用会被其他的自变量所代替。(如:身高、体重与肺活量关系)。因此,若建立最优回归方程,理论上肺活量关系)。因此,若建立最优回归方程,理论上应从应从m个自变量所有组合建立的方程中挑选最好的一个自变量所有组合建立的方程中挑选最好的一个,但在实际上可行性差。个,但在实际上可行性差。 如:如:m2, 22-1=3 m=10, 210-1=1023医用多元统计分析方法o 目的:目的:n 建立一个只包含对因变量作用显著,而不建立一个只包含对因变量作用显著,而不 包含对因变量作用不显著自变量的回归方程包含对因变量作用不显

23、著自变量的回归方程o 优点:优点:n 因素筛检因素筛检 n 减少方程中自变量,方便使用减少方程中自变量,方便使用 n 方程稳定性好方程稳定性好医用多元统计分析方法2 分析思路o 前进法(step-up, forward-entry procedure) o 后退法(step-down, backward-elimination procedure) o 逐步向前法(forward stepwise)o 逐步向后法(backward stepwise)医用多元统计分析方法前进法的基本思想o 选定一个标准。o 开始方程中没有自变量(常数项除外)o 按自变量对y的贡献大小,由大到小依次挑选进入方程。

24、(假设检验的P值越小贡献越大)o 每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。o 直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。医用多元统计分析方法后退法的基本思想o 选定一个标准o 开始所有变量均在方程中o 按自变量对y的贡献大小由小到大依次剔除变量。o 每剔除一个变量,则重新计算方程内各自变量对y的贡献。o 直到方程内变量均达到入选标准,没有自变量可被剔除为止。医用多元统计分析方法逐步前进法o 区别于前进法o 每选入一个变量,都要对已在模型中的变量进行检验,对低于剔除标准的变量要逐一剔除。然后再考虑选变量。医用多元统计分析方法逐步后退法o 区别于后退法o 每剔

25、除一个变量,都要对在模型外的变量进行检验,对符合入组标准的变量要逐一选入。然后再考虑剔变量。医用多元统计分析方法实例分析医用多元统计分析方法 本例样本含量为本例样本含量为32,最大自变量数为,最大自变量数为4,因此,回归方程检,因此,回归方程检验的分子自由度为验的分子自由度为4,分母自由度为,分母自由度为27,取,取 =0.10,F界值界值为为2.17。医用多元统计分析方法o 前进法逐步回归前进法逐步回归 开始开始X X2 2以最大贡献进入方程,说明以最大贡献进入方程,说明X X2 2的独立的独立作用最强。当作用最强。当X X4 4进入方程后,进入方程后,X X1 1的偏回归平方的偏回归平方和

26、突然变得很大,当它进入方程后,和突然变得很大,当它进入方程后,X X2 2的作用的作用减弱,方差分析结果低于减弱,方差分析结果低于2.172.17的界值,被剔除的界值,被剔除出方程。这说明出方程。这说明X X1 1与与X X4 4的联合作用很强,并代的联合作用很强,并代替了独立作用最大的替了独立作用最大的X X2 2。o 后退法逐步回归后退法逐步回归 所有变量都在方程时,所有变量都在方程时,X X3 3的偏回归平方和最的偏回归平方和最小,。故首先剔除小,。故首先剔除X X3 3。剔除。剔除X X2 2后,后,X X1 1,X X4 4的偏回的偏回归平方和明显增加。归平方和明显增加。医用多元统计

27、分析方法三、 logistic回归ologistic回归的概念回归的概念*o系数的解释系数的解释*o变量的假设检验变量的假设检验 医用多元统计分析方法问题的提出o 应变量是连续性变量,并表达为自变量的线性组合 o 应变量为分类变量,其观察结果是按属性分类的,最简单的是二分类变量,n 如 “有效”与“无效”;“患病”与“不患病”;“有反应”与“无反应”;“生存”与“死亡”; “阴性”与“阳性”等。n 这类资料常用率P来描述,如有效率,患病率,反应率,生存率,阳性率等 医用多元统计分析方法率(P)的特点z z-5-4-3-2-10123450.2.4.6.81P P1.取值范围为01之间;2.与自

28、变量的关系是非线性的,但经 logit 变换可成线性。医用多元统计分析方法1.模型简介o logit P为优势之对数(log odds)o 其中 为优势o logistic回归模型 PPP1lnlogit PPodds 1mmxxxP 2211logit 医用多元统计分析方法logistic回归模型的几种形式mmxxxP 2211logit 1122()11mmxxxPe 112211221mmmmxxxxxxePe 医用多元统计分析方法与多重线性回归区别 多重线性回归 logistic回归 因变量 Y 连续 二分类 误差 e 正态分布 二项分布 回归系数 最小二乘法 极大似然法 假设检验 F

29、, t Ward 检验,似然比检验医用多元统计分析方法2.系数的解释o 在数学上:logistic 回归模型中系数的解释与多元线性回归模型中系数的解释相同,也即表示 xi 改变一个单位时,logit P 的改变量。mmxxxP 2211logit 子宫内膜癌病例-对照研究资料 雌激素 使用过 未使用过 病例 55(a) 128(b) 对照 19(c) 164(d) 医用多元统计分析方法OR计算bcaddbcappppORdbdpdbbppcaapcac00110011111171.31281916455)1()1(0011 bcadPPPPOR医用多元统计分析方法可信区间估计 dcbauOR1

30、111exp 6 . 61 . 21641191128155196. 1exp7089. 3%95CI医用多元统计分析方法Logistic回归分析o 子宫内膜癌病例子宫内膜癌病例-对照研究资料的计算机输入格式对照研究资料的计算机输入格式 表表 17.9 子子宫宫内内膜膜癌癌病病例例-对对照照研研究究资资料料的的计计算算机机输输入入格格式式 结结果果变变量量 Y 暴暴露露因因素素 x 频频数数 f 1 1 55 0 1 19 1 0 128 0 0 164 医用多元统计分析方法o logistic回归分析结果回归分析结果 变变 量量估计系数估计系数标准误标准误SEzPOR95%CIx1.3107

31、0.29114.5030.0003.70892.09646.5615常数项常数项-0.24780.1179-2.1010.036xP1.3107+0.2478- =logit 医用多元统计分析方法xxeeP3107.12478.03107.12478.01 eeeeeeeeePPPPOR = 111111)1()1(0001110011eOR 7089. 33107. 1 eOR医用多元统计分析方法i o 优势的自然对数值o 在暴露因素在暴露因素 x 为二水平时,暴露时为二水平时,暴露时x=1,非暴露时,非暴露时x=0,则,则logistic回归模型中回归模型中x的系数就是暴露与非暴的系数就是

32、暴露与非暴露优势比的对数值。露优势比的对数值。的解释的解释)ln( OR logit - logit )1()1(lnln010011babaaPPPPPPOR 医用多元统计分析方法o当暴露因素当暴露因素x为等级变量时,一般以最小等级或最大为等级变量时,一般以最小等级或最大等级作为参考组,并按等级顺序依次取为等级作为参考组,并按等级顺序依次取为0,1,2, 表示表示 x 增加增加 一个等级时的优势比,一个等级时的优势比, 表示表示 x 增增加加k个等级时的优势比。个等级时的优势比。o当暴露因素当暴露因素x为连续变量时,为连续变量时, 表示表示x 增加增加1时的优时的优势比势比 e ke e医用

33、多元统计分析方法o 若暴露因素若暴露因素 x 为多分类变量,需转换为指示变量为多分类变量,需转换为指示变量如血型变量如血型变量 x 为为A、B、 AB、O四个值,在分析四个值,在分析建模时,要将其转变为建模时,要将其转变为3个指示变量。个指示变量。x x1 1时:时:D1D10 0, D2D20 0, D3D30 0 表示表示A A型血型血 x x2 2时:时:D1D11 1, D2D20 0, D3D30 0 表示表示B B型血型血 x x3 3时:时:D1D10 0, D2D21 1, D3D30 0 表示表示ABAB型血型血 x x4 4时:时:D1D10 0, D2D20 0, D3D

34、31 1 表示表示O O型血型血这里这里 D11为为B型,型, D10为非为非B型;型; D21为为AB型,型,D20为非为非AB型;型; D31为为O型,型, D30为非为非O型。型。医用多元统计分析方法o 将将3个指示变量同时纳入个指示变量同时纳入logistic回归模型得,回归模型得, 1, 2, 3,o 分别表示:分别表示: 1为为B型血与型血与A型血相比,患白血病的优势比之型血相比,患白血病的优势比之对数值;对数值; 2为为AB型血与型血与A型血相比,优势比之对数值;型血相比,优势比之对数值; 3为为O型血与型血与A型血相比,优势比之对数值。型血相比,优势比之对数值。医用多元统计分析

35、方法3.变量的假设检验(1) Walds检验 Walds检验实际上是比较估计系数与0的差别)(0 SEz )1 , 0( N 的的95可信区间:可信区间:OR的的95可信区间:可信区间:)(96. 1)(96. 1 SESE )(96. 1)(96. 1 SESEee 医用多元统计分析方法例例4 在食道癌危险因素研究中,采用病例在食道癌危险因素研究中,采用病例-对照设计,对照设计,调查了调查了200个食道癌患者和个食道癌患者和788个非食道癌患者个非食道癌患者可疑因素可疑因素变量名变量名 取取 值值年龄年龄(岁岁)AGE0=25-34,1=35-44,2=45-54, 3=55-64,4=65

36、-74,5=75+每日饮酒量每日饮酒量(g)ALC0=0-39, 1=40-79,2=80-119,3=120+每日吸烟量每日吸烟量(g)TOB0=0-9, 1=10-19,2=20-29, 3=30+医用多元统计分析方法变量变量估计系数估计系数标准误标准误zP95CIAGE0.74380.08189.0940.0000.5835 0.9040ALC1.10260.103210.6870.0000.9003 1.3048TOB0.43090.09394.5870.0000.2467 0.6150常数项常数项-4.88680.3361-14.5410.000-5.5455-4.2281表表11

37、资料三个变量的资料三个变量的logistic回归结果回归结果 医用多元统计分析方法例4 结果解释6047. 54976. 1:3249.270119. 3:2232.411039. 2:4309. 01026. 17438. 08868. 4log34039. 054039. 0131026. 151026. 1157438. 057438. 01eOReOReOReOReOReORTOBALCAGEitp每日吸烟量每日饮酒年龄可用于控制某混杂因素,分析时将该因素纳入模型。可用于控制某混杂因素,分析时将该因素纳入模型。医用多元统计分析方法解释暴露因素的影响时,该混杂因素实际上是控制了变量估计系

38、数OR95%CIAGE0.74382.10391.79232.4698ALC1.10263.01202.46043.6872TOB0.43091.53861.28001.8496常数项常数项-4.8868控制了吸烟和饮酒,年龄每增加个等级,患食道癌的可能性增加1.1倍。控制了年龄和吸烟,饮酒每增加个等级,患食道癌的可能性增加2.0倍。控制了年龄和饮酒,吸烟每增加个等级,患食道癌的可能性增加0.54倍。医用多元统计分析方法(2)似然比检验)似然比检验 似然比检验是通过比较两个相嵌套模型似然比检验是通过比较两个相嵌套模型的对数似然函数统计量的对数似然函数统计量G GGPGK2(模型模型P 的对数似

39、然函数的对数似然函数模型模型K 的对数似然函数的对数似然函数) 其中,模型其中,模型P 中的变量是模型中的变量是模型K 中变量的一中变量的一部分,另一部分就是我们要检验的变量。这部分,另一部分就是我们要检验的变量。这里,里,G 服从自由度为服从自由度为K-P 的的 2 分布。分布。医用多元统计分析方法模型编号 模型中变量对数似然函数参数个数自由度1常数项-494.7442119872常数项+AGE-451.0977829863常数项+ALC-422.4246029864常数项+TOB-482.0589629865常数项+AGE+ALC-375.6744839856常数项+AGE+TOB-433

40、.0976539857常数项+ALC+TOB-416.3495939858常数项+AGE+ALC+TOB-365.1567349849常数项+AGE+ALC+TOB+(AGE*ALC)-365数项+AGE+ALC+TOB+(AGE*TOB)-365.01774598311常数项+AGE+ALC+TOB+(ALC*TOB)-364.32995598312常数项+AGE+ALC+TOB+(ALC*TOB)+ (AGE*TOB)+(AGE*ALC)-364.300807981医用多元统计分析方法如要检验变量如要检验变量ALCALC是否有统计学意义,则可通过比较模型是否有统计

41、学意义,则可通过比较模型3 3与模与模型型1 1的对数似然函数值的对数似然函数值G G2 2-494.74421-494.74421(-422.42460)(-422.42460)144.6392144.6392自由度为自由度为1 1(k2-k1)k2-k1),模型自由度为,模型自由度为987987(n-k) P0.001n-k) P0.001。如要检验在控制如要检验在控制AGEAGE的影响后,变量的影响后,变量ALCALC是否有统计学意义,则可是否有统计学意义,则可通过比较模型通过比较模型5 5与模型与模型2 2的对数似然函数值,得:的对数似然函数值,得:G G2 2-451.09778-4

42、51.09778(-375.674484)(-375.674484)150.8466150.8466自由度为自由度为1 1, P0.001P0.001。医用多元统计分析方法四、多重回归分析的正确应用o两种模型的区别与联系o回归分析的应用条件o回归系数反常的原因o指标的量化医用多元统计分析方法1.两种模型的区别与联系o 2个回归模型相同点n 从统计学上来说,它们均属于广义线性模型。等号的右边为自变量的线性组合;等号的左边表示由自变量的线性组合得到的估计值o 2个回归模型不同点n 估计值的意义不同,多元线性回归模型,估计值表示因变量的均数;logistic回归模型,估计值表示OR之对数.n 适用范

43、围不同,多元线性回归模型适用于因变量为计量资料,logistic回归模型适用于因变量为二分类资料。医用多元统计分析方法2.回归分析的应用条件回归分析的应用条件o 2个模型相同点:均要求独立性和线性,o 2个模型不同点:对因变量分布的要求不同。n 多元线性回归 正态性,方差齐性n logistic回归 二项分布。医用多元统计分析方法3.回归系数反常的原因回归系数反常:o 回归系数与专业上能接受的值相差很大,甚至符号相反;o 回归方程有统计学意义,但每个变量均无统计学意义;o 有些自变量从专业知识看似乎是很重要的,但在回归方程中却不重要,因而选不进方程。医用多元统计分析方法常见原因:o 异常数据或

44、强影响点的干扰。o 自变量的观察范围太窄,或方差太小;o 自变量数太多或样本含量不够;o 自变量间存在多重共线性医用多元统计分析方法4.指标的量化o定量指标定量指标 自变量与因变量呈线性,直接以原变量进入自变量与因变量呈线性,直接以原变量进入分析;自变量与因变量呈非线性,尝试变量变分析;自变量与因变量呈非线性,尝试变量变换,如换,如 x x2 2,log(log(x x) ) 定性指标定性指标o定性资料定性资料 二分类指标,用二分类指标,用0 0,1 1 表示;多分类指标,表示;多分类指标,用哑变量。用哑变量。医用多元统计分析方法o等级资料等级资料处理方法:处理方法:n 如果如果y y 的改变

45、在每个等级上是近似相等的,的改变在每个等级上是近似相等的,可将等级数量化后直接进入分析;可将等级数量化后直接进入分析;n 若若 y y 在每个等级上的变化不相等,可视为在每个等级上的变化不相等,可视为定性指标,用哑变量表示。定性指标,用哑变量表示。医用多元统计分析方法医用多元统计分析方法3.8 指标的量化 o 性别 如果是男性如果是女性 10 xxbbY10 医用多元统计分析方法例 t 检验与回归的关系正常人组II期矽肺组64.26 74.9742.84 88.0652.48 93.4748.19 95.1080.22100.6769.61101.1418.19113.5250.90正常人与矽

46、肺患者血清粘蛋白合理(mg/100mg)医用多元统计分析方法资料重新整理 y group 1. 64.26 0 2. 42.84 0 3. 52.48 0 4. 48.19 0 5. 80.22 0 6. 69.61 0 7. 18.19 0 8. 50.9 0 9. 74.97 1 10. 88.06 1 11. 93.47 1 12. 95.1 1 13. 100.67 1 14. 101.14 1 15. 113.52 1 医用多元统计分析方法t 检验结果. ttest y , by(group)Two-sample t test with equal variances- Group

47、| Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- 0 | 8 53.33625 6.662102 18.84327 37.58288 69.08962 1 | 7 95.27571 4.535631 12.00015 84.17742 106.374-+-combined | 15 72.908 6.871658 26.61382 58.16976 87.64624-+- diff | -41.93946 8.307497 -59.88672 -23.99221-Degrees of freedom: 13 Ho: mean(0) - m

48、ean(1) = diff = 0 Ha: diff 0 t = -5.0484 t = -5.0484 t = -5.0484 P |t| = 0.0002 P t = 0.9999医用多元统计分析方法与方差分析结果等价. anova y group Number of obs = 15 R-squared = 0.6622 Root MSE = 16.0516 Adj R-squared = 0.6362 Source | Partial SS df MS F Prob F -+- Model | 6566.62918 1 6566.62918 25.49 0.0002 | group |

49、 6566.62918 1 6566.62918 25.49 0.0002 | Residual | 3349.50389 13 257.654145 -+- Total | 9916.13307 14 708.29522 医用多元统计分析方法与回归分析结果的比较. reg y group Source | SS df MS Number of obs = 15-+- F( 1, 13) = 25.49 Model | 6566.62918 1 6566.62918 Prob F = 0.0002 Residual | 3349.50389 13 257.654145 R-squared =

50、0.6622-+- Adj R-squared = 0.6362 Total | 9916.13307 14 708.29522 Root MSE = 16.052- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- group | 41.93946 8.307497 5.05 0.000 23.99221 59.88672 _cons | 53.33625 5.675101 9.40 0.000 41.07594 65.59656-53.3362541.93946ygroup医用多元统计分析方法回归系数与各组均数的关系53.3362541.93

51、9460 53.336251: 53.3362541.9394695.27571ygroupgroupygroupy:医用多元统计分析方法指标的量化 o 血型(A,B,AB,O) x1=0, x2=0, x3=0 表示O型 x1=1, x2=0, x3=0 表示A型 x1=0, x2=1, x3=0 表示B型 x1=0, x2=0, x3=1 表示AB型哑变量(dummy)又称指示变量(indicator variables) 3322110 xbxbxbbY 医用多元统计分析方法方差分析与回归分析正常人组I期矽肺组II期矽肺组64.2665.46 74.9742.8460.63 88.065

52、2.4869.73 93.4748.1974.97 95.1080.2280.44100.6769.6197.58101.1418.1995.20113.5250.9096.39血清粘蛋白合理(mg/100mg)医用多元统计分析方法各组均数. tab group , sum(y) | Summary of y group | Mean Std. Dev. Freq.-+- 0 | 53.336251 18.84327 8 1 | 80.050001 14.766198 8 2 | 95.275713 12.000153 7-+- Total | 75.392174 23.069605 23医用

53、多元统计分析方法指标的量化 o 组别(0,1,2) x1=0, x2=0 表示0组(正常人) x1=1, x2=0 表示1组(矽肺I期) x1=0, x2=1 表示2组(矽肺II期)哑变量(dummy)又称指示变量(indicator variables) 01122Ybb xb x医用多元统计分析方法资料整理正常人组I期矽肺组II期矽肺组64.26065.461 74.97242.84060.631 88.06252.48069.731 93.47248.19074.971 95.10280.22080.441100.67269.61097.581101.14218.19095.201113

54、.52250.90096.391血清粘蛋白含量(mg/100mg)医用多元统计分析方法方差分析的结果. anova y g Number of obs = 23 R-squared = 0.5836 Root MSE = 15.6138 Adj R-squared = 0.5419 Source | Partial SS df MS F Prob F -+- Model | 6832.7588 2 3416.3794 14.01 0.0002 | group | 6832.7588 2 3416.3794 14.01 0.0002 | Residual | 4875.78815 20 243.

55、789407 -+- Total | 11708.5469 22 532.206679 医用多元统计分析方法回归分析的结果. reg y g2 g3 Source | SS df MS Number of obs = 23-+- F( 2, 20) = 14.01 Model | 6832.7588 2 3416.3794 Prob F = 0.0002 Residual | 4875.78815 20 243.789407 R-squared = 0.5836-+- Adj R-squared = 0.5419 Total | 11708.5469 22 532.206679 Root MS

56、E = 15.614- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- g2 | 26.71375 7.806878 3.42 0.003 10.42889 42.99861 g3 | 41.93946 8.080887 5.19 0.000 25.08303 58.7959 _cons | 53.33625 5.520297 9.66 0.000 41.82111 64.85139-医用多元统计分析方法系数与均数23232353.33625 53.3362526.71375 53.3362541 939460, 0, II1, 0, 0, 1

57、, ggYggYggY (正常人)(正常人)(矽肺I期)(矽肺I期)。(矽肺 期)。(矽肺 期)2353.3362526.7137541.93946Ygg医用多元统计分析方法男婴男婴女婴女婴身高身高体重体重体表面积体表面积身高身高体重体重体表面积体表面积543.002446543.002117502.251928532.252200512.502094512.501906563.502506513.001850523.002121513.001632769.503845777.503934809.0043807710.004180749.504314779.504246809.00407874

58、9.003358768.004134737.5038099613.5058309112.0053589714.0060139113.0056109916.0064109415.0060749211.0052839212.0052909415.0061019112.505291协方差分析与回归分析医用多元统计分析方法heightweightygenderhwygender543.0024461543.0021170502.2519281532.2522000512.5020941512.5019060563.5025061513.0018500523.0021211513.0016320769.

59、5038451777.5039340809.00438017710.0041800749.5043141779.5042460809.0040781749.0033580768.0041341737.50380909613.50583019112.00535809714.00601319113.00561009916.00641019415.00607409211.00528319212.00529009415.00610119112.5052910资料整理医用多元统计分析方法协方差分析. anova y height weight gender, cate(gender) Number of

60、 obs = 30 R-squared = 0.9845 Root MSE = 203.667 Adj R-squared = 0.9827 Source | Partial SS df MS F Prob F -+- Model | 68508456.5 3 22836152.2 550.53 0.0000 | height | 925956.904 1 925956.904 22.32 0.0001 weight | 374288.752 1 374288.752 9.02 0.0058 gender | 144515.841 1 144515.841 3.48 0.0733 | Resi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论