05医学统计学11ch09双变量回归与相关_第1页
05医学统计学11ch09双变量回归与相关_第2页
05医学统计学11ch09双变量回归与相关_第3页
05医学统计学11ch09双变量回归与相关_第4页
05医学统计学11ch09双变量回归与相关_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章双变量回归与相关本章内容:本章内容: 第一节第一节 直线回归直线回归 第二节第二节 直线相关直线相关 第三节第三节 秩相关秩相关 第四节第四节 加权直线回归(不讲)加权直线回归(不讲) 第五节第五节 两条回归直线的比较(不讲)两条回归直线的比较(不讲) 第六节第六节 曲线拟合曲线拟合( (简单介绍)简单介绍)双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y

2、的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关第一节 直线回归一、直线回归的概念 目的:目的:研究应变量研究应变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。 X值和值和Y的均数的关系,的均数的关系, 不同于一般数学上的不同于一般数学上的X 和和Y的函数的函数 关系。关系。 为了直观地说明直线回归的概念,以8名儿童的年龄(岁)与其尿肌酐含量(mmol/24h)数据(见例9-1)在坐标纸上描点,得到图9-1所示散点图(scatter plot)。 在定量描述儿童年龄与其尿肌酐含量数量上的依

3、存关系时,将年龄称为自变量(independent variable),用 X 表示;尿肌酐含量称为应变量(dependent variable),用 Y 表示。 由图9-1可见,尿肌酐含量 Y 随年龄 X 增加而增大且呈直线趋势,但并非8个点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫其方程叫直线回归方程直线回归方程,以区别严格意义的直线方,以区别严格意义的直线方程。程。 回归是回归分析中最基本、最简单的一种,故回归是回归分析中最基本、最简单的一种,故又称简单回归。又称简单回归。 (91)YabX直线回归方程的一般表达

4、式为直线回归方程的一般表达式为 Y 为各X处Y的总体均数的估计。1a 为回归直线在为回归直线在 Y 轴上的截距。轴上的截距。a 0,表示直线与纵轴的交点在,表示直线与纵轴的交点在原点的上方;原点的上方;a 0,直线从左下方走向右上方,直线从左下方走向右上方,Y 随随 X 增大而增大;增大而增大; b0,直线从左上方走向右下方,直线从左上方走向右下方,Y 随随 X 增大而减小;增大而减小; b=0,表示直线与,表示直线与 X 轴平行,轴平行,X 与与Y 无直线关系无直线关系。 b 的统计学意义是:的统计学意义是:X 每增加每增加(减减)一个一个单位,单位,Y 平均改变平均改变b个单位。个单位。

5、公式(9-1)称为样本回归方程,它是对两变量总体间线性关系的一个估计。根据散点图我们可以假定, 对于X各个取值,相应Y的总体均数|Y X在一条直线上(图 9-2) ,表示为 | (92) Y XX 英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景: 儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子

6、父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。33.730.516YX 目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。YYY原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小二、直线回归方程的求法

7、 式中式中XYl为为 X 与与 Y 的离均差乘积和的离均差乘积和: ()()()() (9 5)XYlX X Y YXYXYn2()()()XYXXXXYYlblXX (9-3) (9-4) aYbX除了图中所示两变量呈直线关系外, 一般还假定每个X对应Y的总体为正态分布,各个正态分布的总体方差相等且各次观测相互独立。这样,公式(9-1)中的Y实际上是X所对应Y的总体均数|Y X的一个样本估计值, 称为回归方程的预测值(predicted value),而a、b分别为和的样本估计。 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年

8、龄(X)的回归方程。 表表9-1 8名正常儿童的年龄名正常儿童的年龄 (岁)与尿肌酐含量(岁)与尿肌酐含量 (mmol/24h) XY编 号 1 2 3 4 5 6 7 8 年龄 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 1由原始数据及散点图(图 9-1)的观察,两变量间呈直线趋势,故作下列计算。 2计算X、Y的均数X、Y,离均差平方和XXl、YYl与离均差积和XYl。 解题步骤3计算有关指标 769.58XXn 23.872.98388YYn 222()(76)764428XXXlXn 222()

9、(23.87)72.26831.04628YYYlYn ()()(76)(23.87)232.615.84508XYXYlXYn 此直线必然通过点此直线必然通过点( , )( , )且与纵坐标轴相且与纵坐标轴相交于截距交于截距 。如果散点图没有从坐标系原。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易点开始,可在自变量实测范围内远端取易于读数的于读数的 值代入回归方程得到一个点的值代入回归方程得到一个点的坐标,连接此点与点坐标,连接此点与点( , )( , )也可绘出回归也可绘出回归直线。直线。 XYaXXY三、直线回归中的统计推断(一)回归方程的假设检验 建立样本直线回归方程,

10、只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?0如图 9-3 中,无论X如何取值,|Y X总在一条水平线上,即0,总体直线回归方程并不成立,意即Y与X无直线关系,此时|Y XY。然而在一次随机抽样中,如果所得样本为实心园点所示,则会得到一个并不等于 0 的样本回归系数b。b与 0相差到多大可以认为具有统计学意义?可用方差分析或与其等价的 t 检验来回答这一问题。 理解回归中方差分析的基本思想,需要对应变量Y的离均差平方和YYl作分解(如图 9-4 所示) 。 1方差分析 图 9-4 中,任意一点P的纵坐标被回归直线Y与均数Y

11、截成三个线段,其中:)()(YYYYYY。由于P点是散点图中任取的一点, 将全部数据点都按上法处理,并将等式两端平方后再求和则有 数理统计可证明:222)()()(YYYYYY()(YYY-)0Y = SSSSSS总回残 (9-6) 上式用符号表示为 式中 总SS即2)(YY,为Y的离均差平方和,表示未考虑X与Y的回归关系时Y的总变异。 回SS 即2)(YY,为回归平方和。由于特定样本的均数 Y 是固定的, 所以这部分变异由iY的大小不同引起。 当 X 被引入回归以后,正是由于iX的不同导致了iiYabX不同,所以回SS反映了在 Y 的总变异中可以用X 与 Y 的直线关系解释的那部分变异。 b

12、 离 0 越远,X 对 Y 的影响越大,回SS就越大,说明回归效果越好。 YSS残即2)(YY,为残差平方和。它反应除了X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分, 表示考虑回归之后Y真正的随机误差。在散点图中, 各实测点离回归直线越近,SS残也就越小,说明直线回归的估计误差越小,回归的作用越明显。 上述三个平方和,各有其相应的自由度 ,并有如下的关系: 总回残,1n总,1回,2n残 (9-7) 以上分解可见,不考虑回归时,随机误差是 Y 的总变异总SS;而考虑回归以后,由于回归的贡献使原来的随机误差减小为SS残。 如果两变量间总体回归关系确实存在,回

13、归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:MS回为回归均方 MS残为残差均方。 F服从自由度为 回残、的F分布。 式中22XYXYXXXXSSblllb l回 (9-9) SSMSFSSMS回回回残残残, 1 2n回残, (9-8) 对0这一假设是否成立还可进行如下t检验 0bbbtS,2n (9-10) Y XbXXSSl (9-11) 2nSSSXY残 (9-12) 2. t 检验 例9-2 检验例9-1数据得到的直线回归方程是否成立? (1)方差分析0H: 0,即尿肌酐含量与年龄之间无直线关系 1H: 0,即尿肌酐含量与年龄之间有直线关系 0.05 2

14、25.845 /420.8134XYXXSSll回 1.04620.81340.2328SSSSSS总回残 变异来源 自由度 SS MS F P 总 变 异 7 1.0462 回 归 1 0.8134 0.8134 20.97 0.01 残 差 6 0.2328 0.0388 表9-2 方差分析表 列出方差分析表如表9-2。11、26,查F界值表,得0.01P 。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有直线关系。 (2)t 检验0H、1H 及同上 本例8n ,SS残0.2328,XXl42,b0.1392 按公式(9-10)、(9-11)和(9-12) 0.23280.

15、197082Y XS,0.19700.030442bS 6,查t界值表,得0.0020.005P。按0.05水准,拒绝0H,接受1H,结论同上。 0.13924.5790.0304t 注意:本例20.974.579Ft,即直线回归中对回归系数的t检验与F检验等价,类似于两样本均数比较可以作t检验亦可作方差分析。 (二)总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到的1双侧可信区间为/2,bbts (9-13) 例9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。例 9-2 已算得=0.0304bS,按自由度6, 查t界值表,得到0.05/2,6

16、2.447t,按公式(9-13) 计算的 95%可信区间: (0.1392-2.4470.0304,0.1392+2.4470.0304)=(0.0648,0.2136)注意到此区间不包括 0,可按0.05 水准同样得到总体回归系数不为 0 的结论, 即用区间估计回答相同时的假设检验问题。 (三)利用回归方程进行估计和预测 1总体均数|Y X的可信区间 给定X的数值0X,由样本回归方程算出的0Y只是相应总体均数0|Y X的一个点估计。0Y会因样本而异, 存在抽样误差。 给定0XX时,总体均数0|Y X的(1)可信区间为 00/2,YYtS(9-15) (9-14) 反映其抽样误差大小的标准误为

17、0202()1()Y XYXXSSnXX2个体Y值的预测区间 所谓预测就是把预报因子(自变量 X)代入回归方程对总体中预报量(应变量 Y)的个体值进行估计。给定 X 的数值0X, 对应的个体 Y 值也存在一个波动范围。 其标准差0YS(注意勿与样本观察值 Y 的标准差相混)按公式(9-16)计算 (9-16) 00/2,YYtS(9-17) 0202()11()YY XXXSSnXX 例9-4 用例9-1所得直线回归方程,计算当X0=12时, 的95%可信区间和相应个体值的95%预测区间。0Y X计算步骤例9-1、例9-2已计算出 1.66170.1392, 9.5, 42, 0.1970XX

18、Y XYXXlS 当012X 时,1.66170.1392 123.3321Y 。 按公式(9-14)和(9-16) 021(129.5)0.19700.1031842YS021(129.5)0.1970 10.2223842YS已查得0.05/2,62.447t,代入公式(9-15) , 故012X 时尿肌酐含量总体均数的 95%可信区间为 (3.3321-2.4470.1031,3.3321+2.4470.1031) =(3.080,3.584) 代入公式(9-17) ,012X 时尿肌酐含量个体值的 95%预测区间为 (3.3321-2.4470.2223,3.3321+2.4470.2

19、223) =(2.788,3.876) 第二节 直线相关 直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说明。 目的:研究 两个变量X,Y数量上的依存(或相 关) 关系。 特点:统计关系一、直线相关的概念二、相关系数的意义与计算 1. 意义:相关系数意义:相关系数(correlation coefficient)又)又称称Pearson积差相关系数,用来说明具有直线关积差相关系数,用来说明具有直线关系的两变量间相关的密切程度

20、与相关方向。系的两变量间相关的密切程度与相关方向。以符号r表示样本相关系数, 符号表示其总体相关系数。 相关系数没有单位,其值为相关系数没有单位,其值为-1 -1 r r 1 1。r r值为正值为正表示正相关,表示正相关,r r值为负表示负相关,值为负表示负相关,r r的绝对值等的绝对值等于于1 1为完全相关,为完全相关,r r=0=0为零相关。为零相关。 2. 计算:样本相关系数的计算公式为22()()()()XYXX YYXX YYlrllXXYY(9-18) 由例9-1算得,42XXl,1.046YYl,5.845XYl 按公式(9-18) 5.8450.881842 1.046r 例9

21、-5 对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。三、相关系数的统计推断(一)相关系数的假设检验20, 212rrrtnSrn(9-19) 例9-6 对例9-5所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?检验步骤0H: 0,1H: 0,=0.05 本例n=8,r=0.8818,按公式(9-19)20.88184.57910.881882t 按6,查 t 界值表,得0.0020.005P时,计算检验统计量 u,查 t 界值表。 1nrus (9-26) 例 9-8 某省调查了 1995 年到 1999 年当地居民 18 类死因的构成以及每种死因导致的潜在工

22、作损失年数 WYPLL 的构成, 结果见表 9-3。以死因构成为 X,WYPLL 构成为 Y,作等级相关分析。 死因类别 死因构成(%) WYPLL 构成(%) d 2d (1) X(2) P(3) Y(4) Q(5) (6)=(3)-(5) (7)=(6)2 1 0.03 1 0.05 1 0 0 2 0.14 2 0.34 2 0 0 3 0.20 3 0.93 6 3 9 4 0.43 4 0.69 4 0 0 5 0.44 5 0.38 3 2 4 6 0.45 6 0.79 5 1 1 7 0.47 7 1.19 8 1 1 8 0.65 8 4.74 12 4 16 9 0.95

23、9 2.31 9 0 0 10 0.96 10 5.95 14 4 16 11 2.44 11 1.11 7 4 16 12 2.69 12 3.53 11 1 1 13 3.07 13 3.48 10 3 9 14 7.78 14 5.65 13 1 1 15 9.82 15 33.95 18 3 9 16 18.93 16 17.16 17 1 1 17 22.59 17 8.42 15 2 4 18 27.96 18 9.33 16 2 4 合 计 171 171 92 表9-3 某省1995年到1999年居民死因构成与WYPLL构成检验步骤0H: 0s,即死因构成和 WYPLL 构成之

24、间无直线相关关系 1H: 0s,即死因构成和 WYPLL 构成之间有直线相关关系 0.05 36(92)10.9051818sr 本例18n=,查附表 14 的 rs界值表(P539) , 得 P0.01。按0.05水准拒绝0H,接受1H, 可认为当地居民死因的构成和各种死因导 致的潜在工作损失年数 WYPLL 的构成存 在正相关关系。 二、相同秩较多时rs的校正对X与Y分别排秩时, 若相同秩较多, 宜用公式(9-27)计算校正sr 3233() 6()() 62() 62XYsXYnnTTdrnnTnnT公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,

25、公式(9-27)与公式(9-25)相等。 (9-27) 、 22()()()()XYXX YYXX YYlrllXXYY(9-18)第六节 曲线拟合 (curve fitting) 医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型的是服药后血药浓度时间曲线或毒理学动物实验中动物死亡率与给药剂量的关系就非直线形式。 当发现散点图中应变量Y和自变量X间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。 一、曲线拟合的一般步骤1依据分析目的确定自变量 X 和应变量 Y 之后,根据两变量散点图呈现的趋势,结合专业知识及既往经验选择合适的曲线形式。 2选用适当

26、的估计方法求得回归方程。例如在半对数坐标系中,散点呈较为明显的直线趋势,即可选用形如a bXYe的指数曲线或形如lgYabX的对数曲线。 3实际工作中有时可结合散点图试配几种不同形式的曲线方程并计算其 R2,一般来说 R2较大时拟合效果较好。 此处决定系数R2定义为 222()11()YYSSRSSYY 残总(9-51) 例9-13 以不同剂量的标准促肾上腺皮质激素释放因子CRF(nmol/L)刺激离体培养的大鼠垂体前叶细胞,监测其垂体合成分泌肾上腺皮质激素ACTH的量(pmol/L)。根据表9-10中测得的5对数据建立CRF-ACTH工作曲线。表表 9-10 标准标准 CRF(X)刺激刺激大鼠垂体前叶细胞分泌大鼠垂体前叶细胞分泌 ACTH(Y)测定结果测定结果 编号编号 X lgXX Y 2 X 2Y X Y 1 0.005 2.30 34.11 5.29 1163.49 78.49 2 0.050 1.30 57.99 1.69 3362.84 75.45 3 0.500 0.30 94.49 0.09 89

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论