研-统计8双变量回归与相关_第1页
研-统计8双变量回归与相关_第2页
研-统计8双变量回归与相关_第3页
研-统计8双变量回归与相关_第4页
研-统计8双变量回归与相关_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Eg:某医师收集并测定95例糖尿病患者的体重指数BMI(kg/cm2)、HOMA-R指数、胰岛素与瘦素比值A/L等指标,试估计这些指标之间的相关性?分析年龄与冠状动脉粥样硬化等级之间的相关关系。 年龄(岁) 冠状动脉硬化等级冠状动脉硬化等级 合计合计 + + +2030405070 22 4 227 24 9 316 23 13 7 9 20 15 14 98 63 59 58合计合计 122 89 41 26 278 例 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h), 估计年龄与尿肌酐含量间有无关系,是否可由年龄推算尿肌酐含量。 双变量回归与相关 linear regre

2、ssion and correlation回归分析与相关分析回归分析与相关分析双变量间关系双变量间关系:年龄年龄身高、肺活量身高、肺活量体重、药物体重、药物剂量与动物死亡率等剂量与动物死亡率等。 依存关系依存关系:应变量:应变量(dependent variable)Y随自变量随自变量(independent variable)X变化而变化。变化而变化。 回归分析回归分析 互依关系互依关系: 应变量应变量Y与自变量与自变量 X间间的彼此关系的彼此关系 相关分析相关分析双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本

3、:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关“一因一果一因一果”,即一个自变量与一个依变量一元,即一个自变量与一个依变量一元回归分析;回归分析;研究研究“多因一果多因一果”,即多个自变量与一个依变,即多个自变量与一个依变量的回归分析称为多元回归分析。量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归一元回归分析又分为直线回归分析与曲线回归分析两种;分析两

4、种;多元回归分析又分为多元线性回归分析与多元多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。非线性回归分析两种。( linear regression 线性回归线性回归)1直线回归的概念:直线回归的概念:直线回归是分析直线回归是分析两变量间两变量间线性依存变化的数量关系。线性依存变化的数量关系。“回归回归”的由来的由来2.条直线。条直线。7570656075706560height of fatherheight of son儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 。 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的

5、平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。33.730.516YX目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。3.: 确定。例如确定。例如 园周长与半径:园周长与半径: y=2r:不确定。例如血压和年龄的关系,:不确定。例如血压和年龄的关系,直线回归直线回归的任务就是找出一条最能描述变量的任务就是找出一条最能描述变量间非确定性数量关系的一条直线,此直线为间非确定性数量关系的一条直线,此直线为回归直线,相应的直线方

6、程称为回归直线,相应的直线方程称为直线回归方程直线回归方程( linear regression equation)。 (9 1)YabX4. 直线回归方程的一般表达式为直线回归方程的一般表达式为 Y 为各X处Y的总体均数的估计。为回归直线在为回归直线在 y 轴上的截距轴上的截距a 0a = 0a 0b = 0b 0,Y随随X的的增大增大而而增大(减少增大(减少 而而减少)减少) 斜上;斜上; b0,Y随随X的的增大增大而而减小(减少减小(减少 而而增加)增加) 斜下;斜下; b=0,Y与与X无直线关系无直线关系 水平水平。 b越大,表示越大,表示Y随随X变化越快,直线越陡峭。变化越快,直线越

7、陡峭。 | (92) Y XX,a与b分是与相应的样本估计值5直线回归方程参数的计算直线回归方程参数的计算 y = a + bx 最小二乘法原则最小二乘法原则 (least square method):使各实际:使各实际散点(散点(Y)到直线()到直线( )的纵向距离的平方和最小。)的纵向距离的平方和最小。即使即使 (残差或剩余值)最小。(残差或剩余值)最小。2YYYYi (Y的估计值) = a + bXi Yi估计值i残差i = Yi 估计值i残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直

8、线。XXXYllnXXnYXXYXXYYXXb/)()(222XbYaniiiniiibXaYYYYYQ12122)()( 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。 表表9-1 8名正常儿童的年龄名正常儿童的年龄 (岁)与尿肌酐含量(岁)与尿肌酐含量 (mmol/24h) XY编 号 1 2 3 4 5 6 7 8 年龄 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 (1) 由原始数据作散点图,观察两变量间的趋势

9、由原始数据作散点图,观察两变量间的趋势8名正常儿童的年龄名正常儿童的年龄 (岁)与尿肌酐含量(岁)与尿肌酐含量 (mmol/24h)可在自变量实测范围内远端取易于读数的 X 值代入回归方程得到一个点的坐标,连接此点与点( , )也可绘出回归直线。6、直线回归中的统计推断(一)回归方程的假设检验(一)回归方程的假设检验建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 存在?0 理 解 回 归 中 方 差 分 析 的 基 本 思 想 ,需 要 对 应 变 量Y的 离 均 差 平 方 和YYl作 分解 ( 如 图

10、9-4 所 示 ) 。 1方差分析 YYYYYYY回归部分)(YY )(YY 总情况Y剩余部分)(YY 实测点),(YXPYX X222()()()()()()YYYYYYYYYYYYSSSSSS总剩回总剩回可有数学证明得到:即同样有:或MS回为回归均方 MS残为残差均方。 F服从自由度为 回残、的F分布。 22XYXYXXXXSSblllb l回 (9-9) 如果两变量间总体回归关系确实存在,回归的贡献就要大于随如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计机误差,大到何种程度时可以认为具有统计意义,可计算统计量量 F F2222

11、22()()()()()()()XXYYXYXYXlXXXnYlYYYnXYlXXYYXYnSSblSSSSSS回剩总回推断总体回归系数推断总体回归系数 是否为是否为0, 确定所求得的回归方程是否成确定所求得的回归方程是否成 立。立。2. t 检验2-n2,0残SSSlSSnSbtXYXXXYbbb即各实际点与回归线纵轴即各实际点与回归线纵轴方向的离散程度,即标准方向的离散程度,即标准估计误差估计误差 例9-2 检验例9-1数据得到的直线回归方程是否成立? (1)方差分析变异来源 自由度 SS MS F P 总 变 异 7 1.0462 回 归 1 0.8134 0.8134 20.97 0.

12、01 残 差 6 0.2328 0.0388 表9-2 方差分析表 列出方差分析表如表9-2。11、26,查F界值表,得0.01P 。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有直线关系。 决定系数(coefficient of determination) :回归平方和与总平方和之比,取值在0到1之间且无单位,其大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。22222/(1)/(2)/XYXXXYYYXY YYlSSllRSSlllMSSSRFRnMSSS回总回回回总剩=剩(2)t 检验579.40304.01392.00304.042197

13、0.0,1970.0282328.0.tSSbXY(二)总体回归系数的可信区间 利用上述对回归系数的t检验,可以得到的1 双侧可信区间为/2,bbts (9-13) 例9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。例 9-2 已算得=0.0304bS,按自由度6, 查t界值表,得到0.05/2,62.447t,按公式(9-13) 计算的 95%可信区间: (0.1392-2.4470.0304,0.1392+2.4470.0304)=(0.0648,0.2136)注意到此区间不包括 0,可按0.05 水准同样得到总体回归系数不为 0 的结论, 即用区间估计

14、回答相同时的假设检验问题。 (三)利用回归方程进行估计和预测 给定0XX时,总体均数0| Y X的(1)可信区间为 00/2,YYtS(9-15) (9-14) 反映其抽样误差大小的标准误为0202()1()Y XYXXSSnXX2个体Y值的预测区间 (9-16) 00/2,YYtS(9-17) 0202()11()YY XXXSSnXX 例9-4 用例9-1所得直线回归方程,计算当X0=12时, 的95%可信区间和相应个体值的95%预测区间。0Y X计算步骤例9-1、例9-2已计算出 1.66170.1392, 9.5, 42, 0.1970XXY XYX XlS 当012X 时,1.661

15、70.1392 123.3321Y 。 按公式(9-14)和(9-16) 021(129.5)0.19700.1031842YS021(129.5)0.1970 10.2223842YS已查得0.05/2,62.447t,代入公式(9-15) , 故012X 时尿肌酐含量总体均数的 95%可信区间为 (3.3321-2.4470.1031,3.3321+2.4470.1031) =(3.080,3.584) 代入公式(9-17) ,012X 时尿肌酐含量个体值的 95%预测区间为 (3.3321-2.4470.2223,3.3321+2.4470.2223) =(2.788,3.876) 95

16、 的可信区间与的可信区间与 个体个体 Yi 的预测范围有关数据的预测范围有关数据编编号号X XY YY_hatY_hat均数均数标准误标准误个值个值标准误标准误均数均数下限下限均数均数上限上限个值个值下限下限个值个值上限上限1 113 13 3.543.543.471 3.471 0.1271 0.1271 0.2344 0.2344 3.1602 3.1602 3.7824 3.7824 2.8977 2.8977 4.0449 4.0449 2 211 11 3.013.013.193 3.193 0.0832 0.0832 0.2138 0.2138 2.9892 2.9892 3.39

17、66 3.3966 2.6697 2.6697 3.7161 3.7161 3 39 9 3.093.092.915 2.915 0.0713 0.0713 0.2095 0.2095 2.7401 2.7401 3.0889 3.0889 2.4020 2.4020 3.4270 3.4270 4 46 6 2.482.482.497 2.497 0.1271 0.1271 0.2344 0.2344 2.1858 2.1858 2.8080 2.8080 1.9233 1.9233 3.0705 3.0705 5 58 8 2.562.562.775 2.775 0.0832 0.0832

18、 0.2138 0.2138 2.5716 2.5716 2.9790 2.9790 2.2521 2.2521 3.2985 3.2985 6 610 10 3.363.363.054 3.054 0.0713 0.0713 0.2095 0.2095 2.8793 2.8793 3.2281 3.2281 2.5412 2.5412 3.5662 3.5662 7 712 12 3.183.183.332 3.332 0.1031 0.1031 0.2223 0.2223 3.0799 3.0799 3.5843 3.5843 2.7882 2.7882 3.8760 3.8760 8 8

19、7 7 2.652.652.636 2.636 0.1031 0.1031 0.2223 0.2223 2.3839 2.3839 2.8883 2.8883 2.0922 2.0922 3.1800 3.1800 Y直线回归方程的应用直线回归方程的应用* 描述两变量的依存数量关系;描述两变量的依存数量关系;* 利用回归方程进行预测:由易测的变量值估利用回归方程进行预测:由易测的变量值估算难算的变量值(由算难算的变量值(由 x 估计估计 y););X:汽车流量:汽车流量 ( 辆辆/小时小时 ) , y: NOx ( mg/M3) y = -1.674 + 0.0001838 x *利用回归方程

20、进行控制:即利用回归方程进行利用回归方程进行控制:即利用回归方程进行 逆估计(由逆估计(由 y 估计估计 x)。)。( linear correlation ) 简单相关简单相关(simple correlation),用于,用于双变量双变量正正态分布资料。态分布资料。进行直线相关分析的基本任务在于根据进行直线相关分析的基本任务在于根据x x、y y的实际观测值计算表示两个相关变量的实际观测值计算表示两个相关变量x x与与y y线线性相关程度和性质的统计指标性相关程度和性质的统计指标相关系数相关系数r r,并进行显著性检验。并进行显著性检验。 直线相关是直线相关是研究两变量研究两变量 x、y

21、之间协同之间协同变化的线性关系变化的线性关系的分析方法。的分析方法。1.51.51.61.61.71.71.81.81.91.92 22.12.12.22.22.32.32.42.42.52.52.62.62.72.72.82.82.92.930303232343436363838404042424444 体重(体重(kg),),x肺活量(肺活量( ),YL十名女中学生体重与肺活量散点图十名女中学生体重与肺活量散点图2对资料的要求对资料的要求 x、y 都是正态分布资料的随机变量。都是正态分布资料的随机变量。3相关系数相关系数(correlation coefficient ,r ) : -1

22、r 1描述两个变量直线相关的描述两个变量直线相关的方向与方向与 密切程度密切程度的指标。的指标。正相关正相关 负相关负相关0 r 1 -1 r 0r = 1 r = - 1完全正相关完全正相关 完全负相关完全负相关r 0 r 0 r 0零相关零相关 零相关零相关 零相关零相关_ ( x - x )( y - y ) l xyr = = _ _ ( x - x ) 2 ( y - y ) 2 l xx l yy _ ( x )( y )l xy = ( x - x )( y - y ) = xy - n_ ( x ) 2l xx = ( x - x ) 2 = x 2 - n_ ( y ) 2l

23、 yy = ( y - y ) 2 = y 2 - n_10名女中学生的体重名女中学生的体重(x)与肺活量与肺活量(y)的直线相关计算的直线相关计算编号编号 X Y X2 Y2 XY (1) (2) (3) (4) (5) (6) 1 35 1.60 1225 2.5600 56.00 2 37 1.60 1369 2.5600 59.20 3 37 2.40 1369 5.7600 88.80 4 40 2.10 1600 4.4100 84.00 5 40 2.60 1600 6.7600 104.00 6 42 2.50 1764 6.2500 105.00 7 42 2.65 1764

24、 7.0225 111.30 8 43 2.75 1849 7.5625 118.25 9 44 2.75 1936 7.5625 121.00 45 2.20 2025 4.8400 99.0010 405 23.15 16501 55.2875 946.55 _ _ ( x - x ) 2 ( y - y ) 2 l xx l yy 计算:计算:_ ( x - x )( y - y ) l xyr = = _ ( x )( y )l xy = ( x - x )( y - y ) = xy - n _ _ 8.975 ( x ) 2l xx = ( x - x ) 2 = x 2 - n

25、_ 98.5 ( y ) 2l yy = ( y - y ) 2 = y 2 - n _1.69525r = 8.97598.5 1.69525= 0.69454相关系数的假设检验相关系数的假设检验检验检验 r 是否来自总体相关系数是否来自总体相关系数 = 0 的的 总体,总体,推断两变量的相关关系是否成立。推断两变量的相关关系是否成立。S r 为相关系数的标准误为相关系数的标准误 检验假设:检验假设:H0 : 0, H1: 0, =0.05 r - 0 rt = = , S r 1 - r 2 n - 2_ = n - 2t = 0.6945(1-0.69452 ) / (10-2)= 2.

26、730 = n 2 = 10 2 = 8P 0.05结论:可认为该地女中学生的体重与肺活量结论:可认为该地女中学生的体重与肺活量 有正相关关系有正相关关系由例9-1算得,42XXl,1.046YYl,5.845XYl 按公式(9-18) 5.8450.881842 1.046r 例9-5 对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。 例9-6 对例9-5所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?检验步骤检验步骤0H: 0,1H: 0,=0.05 本例n=8,r=0.8818,按公式(9-19)20.88184.57910.881882t 按6,查 t

27、界值表,得0.0020.005P。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有正的直线相关关系。 若直接查 r 界值表(附表 13, P538),结论相同。 决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计算公式为:222XYXXXYYYXX YYSSlllRSSlll回总(9-23) 取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 2R公式(9-23)说明当总SS固定不变时,回归平方和的大小决定了相关系数 r 绝对值的大小。回归平方和越接近总平方和, 则

28、r 绝对值越接近 1, 说明相关的实际效果越好。 五、直线回归与相关应用的注意事项五、直线回归与相关应用的注意事项 1根据分析目的选择变量及统计方法直线相关用于说明两变量之间直线关系的方向和密直线相关用于说明两变量之间直线关系的方向和密切程度,切程度,X X与与Y Y没有主次之分(没有主次之分(反映两变量的相互关反映两变量的相互关系系)。直线回归则进一步地用于定量刻画应变量直线回归则进一步地用于定量刻画应变量Y Y对自变量对自变量X X在数值上的依存关系(在数值上的依存关系(反映两变量的依存关系)反映两变量的依存关系),其,其中应变量的定夺主要依专业要求而定,可以考虑把易中应变量的定夺主要依专

29、业要求而定,可以考虑把易于精确测量的变量作为于精确测量的变量作为X X,另一个随机变量作,另一个随机变量作Y Y,例如,例如用身高估计体表面积。用身高估计体表面积。 两个变量的选择一定要两个变量的选择一定要结合专业背景结合专业背景,不能把毫无,不能把毫无关联的两种现象勉强作回归或相关分析。关联的两种现象勉强作回归或相关分析。2进行相关、回归分析前应绘制散点图(1 1) 散点图可考察两变量是否有直线趋势;散点图可考察两变量是否有直线趋势;(2 2) 可发现离群点(可发现离群点(outlieroutlier)。)。 散点图对离群点的识别与处理需要从专业知识和现散点图对离群点的识别与处理需要从专业知

30、识和现有数据两方面来考虑,结果可能是现有回归模型的假设有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。它估计方法。3资料的要求 直线相关分析要求直线相关分析要求 X X与与Y Y 服从双变量正态分布;服从

31、双变量正态分布; 直线回归要求至少对于每个直线回归要求至少对于每个 X X 相应的相应的 Y Y 要服从要服从正态分布,正态分布,X X可以是服从正态分布的随机变量也可以可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;是能精确测量和严格控制的非随机变量; * * 对于双变量正态分布资料,根据研究目的可选对于双变量正态分布资料,根据研究目的可选择由择由 X X 估计估计 Y Y 或者由或者由 Y Y 估计估计 X X ,一般情况下两个,一般情况下两个回归方程不相同)。回归方程不相同)。 反应两变量关系密切程度或数量上影响大小的统反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是计量应该是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论