医学统计学双变量回归与相关课件_第1页
医学统计学双变量回归与相关课件_第2页
医学统计学双变量回归与相关课件_第3页
医学统计学双变量回归与相关课件_第4页
医学统计学双变量回归与相关课件_第5页
已阅读5页,还剩191页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022/11/11医学统计学1

双变量回归与相关BivariateRegression&Correlation第二军医大学卫生统计学教研室张罗漫第9章2022/11/10医学统计学1Bivariate2022/11/11医学统计学2

讲课内容:

第一节直线回归(重点)

第二节直线相关(重点)

第三节秩相关第六节两条回归直线的比较第七节曲线拟合2022/11/10医学统计学2讲课内容:2022/11/11医学统计学3

第2、第3、第4章介绍了计量资料单变量的统计描述与统计推断:P.13

例2-1:计算101名成年女子血清总胆固醇的平均指标与变异指标。P.51

例3-7:比较阿卡波糖胶囊(试验组)与拜糖苹胶囊(对照组)降低糖尿病人的空腹血糖值

有无差别。P.73例4-2:比较安慰剂组、降血脂新药2.4g

组、降血脂新药4.8g组、降血脂新药7.2g组降低患者的低密度脂蛋白含量有无差别。2022/11/10医学统计学3第2、第3、第4章介2022/11/11医学统计学4在医学研究中常要分析两变量间或多变量间的关系:年龄与血压药物剂量与动物死亡率肺活量与身高、体重、胸围和肩宽等...2022/11/10医学统计学4在医学研究中常要分析两变量间2022/11/11医学统计学5事物间的相关关系确定性关系两变量间的函数表达式

圆的周长与半径的关系:C=2R

路程与速度、时间的关系:L=ST

数学中X与Y的直线函数关系:Y=a+bX

非确定性关系

两变量间存在关系,但未精确到可以用函数表达式来描述。

年龄与血脂的关系;身高与体重的关系;体重与体表面积的关系。2022/11/10医学统计学5事物间的相关关系2022/11/11医学统计学6第一节直线回归LinearRegression2022/11/10医学统计学6第一节直线回归Line2022/11/11医学统计学7一、直线回归的概念“回归”是一个借用已久因而相沿成习的统计学术语。直线回归是分析成对观测数据中两变量间线性依存关系的方法。2022/11/10医学统计学7一、直线回归的概念2022/11/11医学统计学8生物遗传学上的“回归”

PearsonK(英,1857~1936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高间(X,英寸)存在线性依存关系:

=33.73+0.516X

但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身高比其父亲高。GaltonF(英,1822~1911)将这种现象称之为子一代身高向人群平均身高的“回归”。2022/11/10医学统计学8生物遗传学上的“回归”2022/11/11医学统计学9Regression释义210=10242022/11/10医学统计学9Regression释义22022/11/11医学统计学10FrancisGaltonFrancisGalton爵士(英,1822~1911)是达尔文(CharlesDarwin)的表弟。他对统计学的主要贡献是提出“相关”与“回归”的概念,用统计方法对进化论中的变异进行研究,开创了生物统计学。2022/11/10医学统计学10FrancisGalto2022/11/11医学统计学11KarlPearsonKarlPearson(英,1857~1936)是FrancisGalton的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。2022/11/10医学统计学11KarlPearsonK2022/11/11医学统计学12天文学上的“回归”地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆动。由于地球轴心的来回摆动,太阳光垂直照射到地球上就有南、北两个极限位置(南、北纬23027’),分别称南、北回归线,太阳光对赤道“回归”垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。

2022/11/10医学统计学12天文学上的“回归”2022/11/11医学统计学13日常生活中的“回归”现象

1岁姜二狗,7岁姜二狗同学,20岁小姜同志,30岁姜科长,40岁姜处长,50岁姜局长,60岁姜老,70岁老姜,80岁姜二狗。

目前“回归”已成为表示变量之间数量依存关系的统计术语,并且衍生出“回归方程”、“回归系数”等统计学概念。2022/11/10医学统计学13日常生活中的“回归”现象2022/11/11医学统计学14例某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),试估计尿肌酐含量(Y)对其年龄(X)的回归方程。2022/11/10医学统计学14例某地方病研究所调查了2022/11/11医学统计学15年龄(岁)X尿肌酐含量Y(mmol/24h)hat2022/11/10医学统计学15年龄(岁)X尿肌酐含量Y(2022/11/11医学统计学16各散点呈直线趋势但并非均在一条直线上根据原始数据拟合的直线方程与数理上二元一次函数方程在内涵上有区别,称为直线回归方程。2022/11/10医学统计学16各散点呈直线趋势2022/11/11医学统计学17二、直线回归方程的求法最小二乘法在所有直线中最小2022/11/10医学统计学17二、直线回归方程的求法最小2022/11/11医学统计学182022/11/10医学统计学18CASIOfx-3600PV计算器计算a、b与r步骤

键盘

说明

1MODE2

进入线性回归模式

LR2SHIFTKAC

清除以前储存数据

313XDYD3.54DATA

数据输入

11XDYD3.01DATA9XDYD3.09DATA4SHIFTr

显示相关系数

0.88185SHIFTa

显示截距

1.66176SHIFTb

显示回归系数

0.1392

SHIFTDEL删除输错的一对数据CASIOfx-3600PV计算器计算a、b与r步骤2022/11/11医学统计学20年龄(岁)X尿肌酐含量Y(mmol/24h)(8,2.8)(12,3.3)2022/11/10医学统计学20年龄(岁)X尿肌酐含量Y(2022/11/11医学统计学21b的意义斜率(slope)

年龄每增加1岁,尿肌酐含量平均增加0.1392(mmol/24h)b的单位为(Y的单位/X的单位)2022/11/10医学统计学21b的意义斜率(slop2022/11/11医学统计学22a截距(intercept,constant)X=0时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。a的意义2022/11/10医学统计学22a截距(interce2022/11/11医学统计学23回归直线的有关性质直线通过均点各点到该回归线纵向距离平方和较到其它任何直线者为小。

为来自的一个样本对于X各个取值,相应Y的总体均数2022/11/10医学统计学23回归直线的有关性质直线通过2022/11/11医学统计学24XY2022/11/10医学统计学24XY2022/11/11医学统计学25三、直线回归方程中的统计推断(一)回归方程的假设检验1.方差分析(1)建立检验假设并确定检验水准

H0:β=0H1:β≠0α=0.05的分解重点2022/11/10医学统计学25三、直线回归方程中的统计推2022/11/11医学统计学26因变量Y总变异的分解X

Y

Y2022/11/10医学统计学26因变量Y总变异2022/11/11医学统计学27SS总=SS回+SS残2022/11/10医学统计学27SS总=SS回+SS残2022/11/11医学统计学28未引进回归时的总变异:

(sumofsquaresofdeviationfrommean)引进回归以后的剩余变异:

(sumofsquaresofresiduals)回归的贡献,回归平方和:

(sumofsquaresduetoregression)Y的总变异分解2022/11/10医学统计学28未引进回归时的总变异:Y的2022/11/11医学统计学29

(3)计算检验统计量F值SS总=lYY=1.0462

SS回=blXY=l2XY/lXX=5.8452/42=0.8134SS残=SS总-SS回=1.0462-0.8134=0.2328v总=v回+v剩v总=n-1,v回=1,v残=n-22022/11/10医学统计学29(3)计算检验统计量F值2022/11/11医学统计学30F0.01(1,6)=13.742022/11/10医学统计学30F0.01(1,6)=132022/11/11医学统计学312.t检验回归的剩余标准差扣除了X的影响后Y方面的变异;引进回归方程后,Y方面的变异。2022/11/10医学统计学312.t检验回归的剩余标2022/11/11医学统计学32(2)计算检验统计量t值(1)建立检验假设并确定检验水准(3)确定P值下结论

2022/11/10医学统计学32(2)计算检验统计量t2022/11/11医学统计学33

(二)总体回归系数的可信区间此区间不包括β=0,结论为b有统计学意义。2022/11/10医学统计学33(二)总体回归系数的可2022/11/11医学统计学34

SPSS结果2022/11/10医学统计学34SPSS结果2022/11/11医学统计学35

(三)利用回归方程进行估计与预测1.总体均数的可信区间:给定X后对应Y的总体均数给定X后对应Y的样本均数2022/11/10医学统计学35(三)利用回归方程进行估2022/11/11医学统计学362.个体Y值的容许区间

给定X后对应个体Y值波动范围2022/11/10医学统计学362.个体Y值的容许区间给2022/11/11医学统计学37

XY(体重,kg)(体表面积,103cm2) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2 6.075 16.0 6.411例某地10名三岁儿童体重与体表面积2022/11/10医学统计学37X2022/11/11医学统计学381112131415164.55.05.56.06.57.0可信区间与容许区间示意

(confidenceband&toleranceband)X体重Y体表面积2022/11/10医学统计学3811121314151642022/11/11医学统计学39第二节直线相关LinearCorrelation2022/11/10医学统计学39第二节直线相关Lin2022/11/11医学统计学40生物遗传学上的“相关”在回归分析中,有理由认为父亲身高决定儿子身高,故把父亲身高作为自变量X,儿子身高作为应变量Y。PearsonK(英,1857~1936)在对同一家庭中兄弟与姐妹身高间关系进行分析时,发现两者难以象父亲与儿子身高间关系那样区别自变量X与应变量Y,也不必计算回归方程。GaltonF(英,1822~1911)将这种现象称之为“相关”。2022/11/10医学统计学40生物遗传学上的“相关”2022/11/11医学统计学41

当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关。两个变量有共变现象,称为有相关关系。相关关系不一定是因果关系。一、直线相关的概念2022/11/10医学统计学41当一个变量增大,另一个也2022/11/11医学统计学42r=0(h)r=0(f)r=-1(d)r=1(b)0<r<1(a)-1<r<0(c)r0(e)r

0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关相互关系示意图2022/11/10医学统计学42r=0r=0r=-2022/11/11医学统计学43相关系数的性质两变量间的线性关系密切程度与相关方向用直线相关系数r表示。-1≤r≤1r>0为正相关r<0为负相关r=0为零相关或无相关2022/11/10医学统计学43相关系数的性质两变量间的线2022/11/11医学统计学44二、相关系数的意义与计算

Pearson相关系数标准化后的协方差2022/11/10医学统计学44二、相关系数的意义与计算2022/11/11医学统计学452022/11/10医学统计学452022/11/11医学统计学46SPSS结果2022/11/10医学统计学46SPSS结果2022/11/11医学统计学47三、相关系数的统计推断(一)相关系数的假设检验尿肌酐含量与年龄之间无直线相关关系2022/11/10医学统计学47三、相关系数的统计推断(一2022/11/11医学统计学48附表2附表132022/11/10医学统计学48附表2附表132022/11/11医学统计学49(二)总体相关系数的可信区间相关系数的抽样分布在≠0时呈偏态分布Z的1-α可信区间:变换后r的1-α可信区间:Z变换后服从正态分布2022/11/10医学统计学49(二)总体相关系数的可信区2022/11/11医学统计学50相关系数的抽样分布

(||=0.8,n=100,1000次抽样)-0.8-0.6-0.4-0.20.00100200300-1.0

00.20.40.60.81.00100200300=-0.8=0.82022/11/10医学统计学50相关系数的抽样分布

(|2022/11/11医学统计学51R.A.Fisher(1921)的z变换

z近似服从均数为,标准差为的正态分布。

2022/11/10医学统计学51R.A.Fisher(12022/11/11医学统计学52相关系数的z变换值的抽样分布(=-0.8)00.51.01.52.0050100150200-0.8-0.6-0.4-0.20.00100200300-1.0变换前变换后2022/11/10医学统计学52相关系数的z变换值的抽样分2022/11/11医学统计学53

01234050100150200

00.20.40.60.81.00100200300相关系数的z变换值的抽样分布(=0.8)变换前变换后2022/11/10医学统计学530123405010012022/11/11医学统计学54相关系数的可信区间估计1.将r变换为z。2.根据z服从正态分布,估计z的可信区间。3.再将z变换回r。2022/11/10医学统计学54相关系数的可信区间估计1.2022/11/11医学统计学55求得8名健康成人血清总胆固醇与低密度脂蛋白胆固醇含量间的r=0.974,试求总体相关系数ρ的95%可信区间。z的95%可信区间:

总体相关系数ρ的95%可信区间:

(0.85870.9954)2022/11/10医学统计学55求得8名健康成人血清总胆固2022/11/11医学统计学56四、决定系数0﹤R2﹤1

Y的总变异中回归关系所能解释的百分比年龄可解释尿肌酐含量变异性的77.75%2022/11/10医学统计学56四、决定系数0﹤R22022/11/11医学统计学57五、直线回归与直线相关的区别与联系

区别

r没有单位,b有单位;相关表示相互关系,没有依存关系;回归有依存关系;对资料的要求不同:

当X和Y都是随机的,可以进行相关和回归分析;

当Y是随机变量,X是控制变量时,理论上只能作回归而不能作相关分析;2022/11/10医学统计学57五、直线回归与直线相关的区2022/11/11医学统计学58

区别

I型回归:Y是随机变量,X是控制变量;

II型回归:Y与X均是随机变量。同一资料中由X推算Y与由Y推算X的回归方程不同:2022/11/10医学统计学58区别2022/11/11医学统计学59

联系均表示线性关系符号相同:共变方向一致假设检验结果相同:tr=tb

可以互相换算:

2022/11/10医学统计学59联系假设检验结果相同:t2022/11/11医学统计学60六、直线回归与相关应用的注意事项相关:X与Y没有主次,为双向。回归:Y依X变化而变化,为单向。自变量的选择:原因、容易测量、变异小要有实际意义。1.根据分析目的选择变量及统计方法2022/11/10医学统计学60六、直线回归与相关应用的注2022/11/11医学统计学61孩子的身高与小树的高度间显示出显著的相关性2022/11/10医学统计学61孩子的身高与小树2022/11/11医学统计学62有无异常点,谨慎剔除。2.进行相关、回归分析前要绘制散点图,进行判断2022/11/10医学统计学62有无异常点,谨慎剔除。2.2022/11/11医学统计学63离群值对相关的影响2022/11/10医学统计学63离群值对相关的影响2022/11/11医学统计学64样本的间杂性对相关性的误导2022/11/10医学统计学64样本的间杂性对相关性的误导2022/11/11医学统计学653.用残差图考察数据是否符合模型假设条件Y与X为线形关系误差服从均数为0的正态分布方差相等各观察单位独立回归模型应用前提条件:2022/11/10医学统计学653.用残差图考察数据是否符2022/11/11医学统计学66e02022/11/10医学统计学66e02022/11/11医学统计学670000eeee2022/11/10医学统计学670000eeee2022/11/11医学统计学68P值越小越有理由认为变量间直线关系存在,不能说关系越密切。直线回归关系可以内插,不宜外延。当样本含量较大时,统计学检验的作用减弱。r0.05/2,100=0.1954.结果的解释及正确应用2022/11/10医学统计学68P值越小越有理由认为变量间2022/11/11医学统计学69第三节秩相关RankCorrelation一、Spearman秩相关2022/11/10医学统计学69第三节秩相关Ran2022/11/11医学统计学70应用条件:1.不服从双变量正态分布而不宜作积差相关分析;2.总体分布类型未知;3.原始数据用等级表示。2022/11/10医学统计学70应用条件:2022/11/11医学统计学71workyearsofpotentiallifelost2022/11/10医学统计学71workyearsof2022/11/11医学统计学722022/11/10医学统计学722022/11/11医学统计学73或用秩Pi、Qi直接计算积差相关系数r附表14(n≤50)2022/11/10医学统计学73或用秩Pi、Qi直接计算积2022/11/11医学统计学74SPSS结果2022/11/10医学统计学74SPSS结果2022/11/11医学统计学75第六节两条回归直线的比较

一、两个回归系数的比较二、两个截距的比较2022/11/10医学统计学75第六节两条回归直线2022/11/11医学统计学762022/11/10医学统计学762022/11/11医学统计学77YXbcb2b1bc02022/11/10医学统计学77YXbcb2b1bc02022/11/11医学统计学78第七节曲线拟合

2022/11/10医学统计学78第七节曲线拟合2022/11/11医学统计学79一、曲线拟合的一般步骤

1.依据分析目的确定X与Y,根据两变量散点图、结合专业知识选择曲线类型。

2.求回归方程:曲线直线化。

3.拟合优度:R2。2022/11/10医学统计学79一、曲线拟合的一般步骤2022/11/11医学统计学80CRF:促肾上腺皮质激素释放因子ACTH:肾上腺皮质激素例9-132022/11/10医学统计学80CRF:促肾上腺皮质激素释2022/11/11医学统计学81

例9-13数据散点图CRF(nmol/L)XYACTH(pmol/L)2022/11/10医学统计学81例9-13数据散点2022/11/11医学统计学822022/11/10医学统计学822022/11/11医学统计学83

例9-13数据对X作对数变换散点图YACTH(pmol/L)lg[CRF(nmol/L)]X’2022/11/10医学统计学83例9-13数据对X作对2022/11/11医学统计学84例9-142022/11/10医学统计学84例9-142022/11/11医学统计学85

例9-14数据散点图病人住院天数(天)XY预后指数2022/11/10医学统计学85例9-2022/11/11医学统计学86lnY预后指数

例9-14数据对Y作对数变换散点图病人住院天数(天)X2022/11/10医学统计学86lnY预后指数例9-12022/11/11医学统计学87用最小二乘估计只能保证最小不能保证将变换值方程回代后得到的最小。2022/11/10医学统计学87用最小二乘估计只能保证2022/11/11医学统计学88

二、曲线拟合的用途

1.定量刻画X与Y的关系。

2.用决定系数R2反应两变量曲线关系的密切程度。2022/11/10医学统计学88二、曲线拟合的用途2022/11/11医学统计学89YX0三、常见的几种曲线对数曲线2022/11/10医学统计学89YX0三、常见的几种曲线对2022/11/11医学统计学90YX0指数曲线2022/11/10医学统计学90YX0指数曲线2022/11/11医学统计学91YX0Y=b0+b1X+b2X2

抛物线2022/11/10医学统计学91YX0Y=b0+b2022/11/11医学统计学92YXY=b0+b1X+b2X2+b3X3

03次多项式曲线2022/11/10医学统计学92YXY=b0+b12022/11/11医学统计学93SPSS中曲线模型2022/11/10医学统计学93SPSS中曲线模型2022/11/11医学统计学942022/11/10医学统计学94例9-13例9-13例9-14例9-142022/11/11医学统计学97

讲课内容:

第一节直线回归(重点)

第二节直线相关(重点)

第三节秩相关第六节两条回归直线的比较第七节曲线拟合2022/11/10医学统计学97讲课内容:2022/11/11医学统计学98Thankyou!2022/11/10医学统计学98Thankyou!2022/11/11医学统计学99

双变量回归与相关BivariateRegression&Correlation第二军医大学卫生统计学教研室张罗漫第9章2022/11/10医学统计学1Bivariate2022/11/11医学统计学100

讲课内容:

第一节直线回归(重点)

第二节直线相关(重点)

第三节秩相关第六节两条回归直线的比较第七节曲线拟合2022/11/10医学统计学2讲课内容:2022/11/11医学统计学101

第2、第3、第4章介绍了计量资料单变量的统计描述与统计推断:P.13

例2-1:计算101名成年女子血清总胆固醇的平均指标与变异指标。P.51

例3-7:比较阿卡波糖胶囊(试验组)与拜糖苹胶囊(对照组)降低糖尿病人的空腹血糖值

有无差别。P.73例4-2:比较安慰剂组、降血脂新药2.4g

组、降血脂新药4.8g组、降血脂新药7.2g组降低患者的低密度脂蛋白含量有无差别。2022/11/10医学统计学3第2、第3、第4章介2022/11/11医学统计学102在医学研究中常要分析两变量间或多变量间的关系:年龄与血压药物剂量与动物死亡率肺活量与身高、体重、胸围和肩宽等...2022/11/10医学统计学4在医学研究中常要分析两变量间2022/11/11医学统计学103事物间的相关关系确定性关系两变量间的函数表达式

圆的周长与半径的关系:C=2R

路程与速度、时间的关系:L=ST

数学中X与Y的直线函数关系:Y=a+bX

非确定性关系

两变量间存在关系,但未精确到可以用函数表达式来描述。

年龄与血脂的关系;身高与体重的关系;体重与体表面积的关系。2022/11/10医学统计学5事物间的相关关系2022/11/11医学统计学104第一节直线回归LinearRegression2022/11/10医学统计学6第一节直线回归Line2022/11/11医学统计学105一、直线回归的概念“回归”是一个借用已久因而相沿成习的统计学术语。直线回归是分析成对观测数据中两变量间线性依存关系的方法。2022/11/10医学统计学7一、直线回归的概念2022/11/11医学统计学106生物遗传学上的“回归”

PearsonK(英,1857~1936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高间(X,英寸)存在线性依存关系:

=33.73+0.516X

但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身高比其父亲高。GaltonF(英,1822~1911)将这种现象称之为子一代身高向人群平均身高的“回归”。2022/11/10医学统计学8生物遗传学上的“回归”2022/11/11医学统计学107Regression释义210=10242022/11/10医学统计学9Regression释义22022/11/11医学统计学108FrancisGaltonFrancisGalton爵士(英,1822~1911)是达尔文(CharlesDarwin)的表弟。他对统计学的主要贡献是提出“相关”与“回归”的概念,用统计方法对进化论中的变异进行研究,开创了生物统计学。2022/11/10医学统计学10FrancisGalto2022/11/11医学统计学109KarlPearsonKarlPearson(英,1857~1936)是FrancisGalton的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。2022/11/10医学统计学11KarlPearsonK2022/11/11医学统计学110天文学上的“回归”地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆动。由于地球轴心的来回摆动,太阳光垂直照射到地球上就有南、北两个极限位置(南、北纬23027’),分别称南、北回归线,太阳光对赤道“回归”垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。

2022/11/10医学统计学12天文学上的“回归”2022/11/11医学统计学111日常生活中的“回归”现象

1岁姜二狗,7岁姜二狗同学,20岁小姜同志,30岁姜科长,40岁姜处长,50岁姜局长,60岁姜老,70岁老姜,80岁姜二狗。

目前“回归”已成为表示变量之间数量依存关系的统计术语,并且衍生出“回归方程”、“回归系数”等统计学概念。2022/11/10医学统计学13日常生活中的“回归”现象2022/11/11医学统计学112例某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),试估计尿肌酐含量(Y)对其年龄(X)的回归方程。2022/11/10医学统计学14例某地方病研究所调查了2022/11/11医学统计学113年龄(岁)X尿肌酐含量Y(mmol/24h)hat2022/11/10医学统计学15年龄(岁)X尿肌酐含量Y(2022/11/11医学统计学114各散点呈直线趋势但并非均在一条直线上根据原始数据拟合的直线方程与数理上二元一次函数方程在内涵上有区别,称为直线回归方程。2022/11/10医学统计学16各散点呈直线趋势2022/11/11医学统计学115二、直线回归方程的求法最小二乘法在所有直线中最小2022/11/10医学统计学17二、直线回归方程的求法最小2022/11/11医学统计学1162022/11/10医学统计学18CASIOfx-3600PV计算器计算a、b与r步骤

键盘

说明

1MODE2

进入线性回归模式

LR2SHIFTKAC

清除以前储存数据

313XDYD3.54DATA

数据输入

11XDYD3.01DATA9XDYD3.09DATA4SHIFTr

显示相关系数

0.88185SHIFTa

显示截距

1.66176SHIFTb

显示回归系数

0.1392

SHIFTDEL删除输错的一对数据CASIOfx-3600PV计算器计算a、b与r步骤2022/11/11医学统计学118年龄(岁)X尿肌酐含量Y(mmol/24h)(8,2.8)(12,3.3)2022/11/10医学统计学20年龄(岁)X尿肌酐含量Y(2022/11/11医学统计学119b的意义斜率(slope)

年龄每增加1岁,尿肌酐含量平均增加0.1392(mmol/24h)b的单位为(Y的单位/X的单位)2022/11/10医学统计学21b的意义斜率(slop2022/11/11医学统计学120a截距(intercept,constant)X=0时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。a的意义2022/11/10医学统计学22a截距(interce2022/11/11医学统计学121回归直线的有关性质直线通过均点各点到该回归线纵向距离平方和较到其它任何直线者为小。

为来自的一个样本对于X各个取值,相应Y的总体均数2022/11/10医学统计学23回归直线的有关性质直线通过2022/11/11医学统计学122XY2022/11/10医学统计学24XY2022/11/11医学统计学123三、直线回归方程中的统计推断(一)回归方程的假设检验1.方差分析(1)建立检验假设并确定检验水准

H0:β=0H1:β≠0α=0.05的分解重点2022/11/10医学统计学25三、直线回归方程中的统计推2022/11/11医学统计学124因变量Y总变异的分解X

Y

Y2022/11/10医学统计学26因变量Y总变异2022/11/11医学统计学125SS总=SS回+SS残2022/11/10医学统计学27SS总=SS回+SS残2022/11/11医学统计学126未引进回归时的总变异:

(sumofsquaresofdeviationfrommean)引进回归以后的剩余变异:

(sumofsquaresofresiduals)回归的贡献,回归平方和:

(sumofsquaresduetoregression)Y的总变异分解2022/11/10医学统计学28未引进回归时的总变异:Y的2022/11/11医学统计学127

(3)计算检验统计量F值SS总=lYY=1.0462

SS回=blXY=l2XY/lXX=5.8452/42=0.8134SS残=SS总-SS回=1.0462-0.8134=0.2328v总=v回+v剩v总=n-1,v回=1,v残=n-22022/11/10医学统计学29(3)计算检验统计量F值2022/11/11医学统计学128F0.01(1,6)=13.742022/11/10医学统计学30F0.01(1,6)=132022/11/11医学统计学1292.t检验回归的剩余标准差扣除了X的影响后Y方面的变异;引进回归方程后,Y方面的变异。2022/11/10医学统计学312.t检验回归的剩余标2022/11/11医学统计学130(2)计算检验统计量t值(1)建立检验假设并确定检验水准(3)确定P值下结论

2022/11/10医学统计学32(2)计算检验统计量t2022/11/11医学统计学131

(二)总体回归系数的可信区间此区间不包括β=0,结论为b有统计学意义。2022/11/10医学统计学33(二)总体回归系数的可2022/11/11医学统计学132

SPSS结果2022/11/10医学统计学34SPSS结果2022/11/11医学统计学133

(三)利用回归方程进行估计与预测1.总体均数的可信区间:给定X后对应Y的总体均数给定X后对应Y的样本均数2022/11/10医学统计学35(三)利用回归方程进行估2022/11/11医学统计学1342.个体Y值的容许区间

给定X后对应个体Y值波动范围2022/11/10医学统计学362.个体Y值的容许区间给2022/11/11医学统计学135

XY(体重,kg)(体表面积,103cm2) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2 6.075 16.0 6.411例某地10名三岁儿童体重与体表面积2022/11/10医学统计学37X2022/11/11医学统计学1361112131415164.55.05.56.06.57.0可信区间与容许区间示意

(confidenceband&toleranceband)X体重Y体表面积2022/11/10医学统计学3811121314151642022/11/11医学统计学137第二节直线相关LinearCorrelation2022/11/10医学统计学39第二节直线相关Lin2022/11/11医学统计学138生物遗传学上的“相关”在回归分析中,有理由认为父亲身高决定儿子身高,故把父亲身高作为自变量X,儿子身高作为应变量Y。PearsonK(英,1857~1936)在对同一家庭中兄弟与姐妹身高间关系进行分析时,发现两者难以象父亲与儿子身高间关系那样区别自变量X与应变量Y,也不必计算回归方程。GaltonF(英,1822~1911)将这种现象称之为“相关”。2022/11/10医学统计学40生物遗传学上的“相关”2022/11/11医学统计学139

当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关。两个变量有共变现象,称为有相关关系。相关关系不一定是因果关系。一、直线相关的概念2022/11/10医学统计学41当一个变量增大,另一个也2022/11/11医学统计学140r=0(h)r=0(f)r=-1(d)r=1(b)0<r<1(a)-1<r<0(c)r0(e)r

0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关相互关系示意图2022/11/10医学统计学42r=0r=0r=-2022/11/11医学统计学141相关系数的性质两变量间的线性关系密切程度与相关方向用直线相关系数r表示。-1≤r≤1r>0为正相关r<0为负相关r=0为零相关或无相关2022/11/10医学统计学43相关系数的性质两变量间的线2022/11/11医学统计学142二、相关系数的意义与计算

Pearson相关系数标准化后的协方差2022/11/10医学统计学44二、相关系数的意义与计算2022/11/11医学统计学1432022/11/10医学统计学452022/11/11医学统计学144SPSS结果2022/11/10医学统计学46SPSS结果2022/11/11医学统计学145三、相关系数的统计推断(一)相关系数的假设检验尿肌酐含量与年龄之间无直线相关关系2022/11/10医学统计学47三、相关系数的统计推断(一2022/11/11医学统计学146附表2附表132022/11/10医学统计学48附表2附表132022/11/11医学统计学147(二)总体相关系数的可信区间相关系数的抽样分布在≠0时呈偏态分布Z的1-α可信区间:变换后r的1-α可信区间:Z变换后服从正态分布2022/11/10医学统计学49(二)总体相关系数的可信区2022/11/11医学统计学148相关系数的抽样分布

(||=0.8,n=100,1000次抽样)-0.8-0.6-0.4-0.20.00100200300-1.0

00.20.40.60.81.00100200300=-0.8=0.82022/11/10医学统计学50相关系数的抽样分布

(|2022/11/11医学统计学149R.A.Fisher(1921)的z变换

z近似服从均数为,标准差为的正态分布。

2022/11/10医学统计学51R.A.Fisher(12022/11/11医学统计学150相关系数的z变换值的抽样分布(=-0.8)00.51.01.52.0050100150200-0.8-0.6-0.4-0.20.00100200300-1.0变换前变换后2022/11/10医学统计学52相关系数的z变换值的抽样分2022/11/11医学统计学151

01234050100150200

00.20.40.60.81.00100200300相关系数的z变换值的抽样分布(=0.8)变换前变换后2022/11/10医学统计学530123405010012022/11/11医学统计学152相关系数的可信区间估计1.将r变换为z。2.根据z服从正态分布,估计z的可信区间。3.再将z变换回r。2022/11/10医学统计学54相关系数的可信区间估计1.2022/11/11医学统计学153求得8名健康成人血清总胆固醇与低密度脂蛋白胆固醇含量间的r=0.974,试求总体相关系数ρ的95%可信区间。z的95%可信区间:

总体相关系数ρ的95%可信区间:

(0.85870.9954)2022/11/10医学统计学55求得8名健康成人血清总胆固2022/11/11医学统计学154四、决定系数0﹤R2﹤1

Y的总变异中回归关系所能解释的百分比年龄可解释尿肌酐含量变异性的77.75%2022/11/10医学统计学56四、决定系数0﹤R22022/11/11医学统计学155五、直线回归与直线相关的区别与联系

区别

r没有单位,b有单位;相关表示相互关系,没有依存关系;回归有依存关系;对资料的要求不同:

当X和Y都是随机的,可以进行相关和回归分析;

当Y是随机变量,X是控制变量时,理论上只能作回归而不能作相关分析;2022/11/10医学统计学57五、直线回归与直线相关的区2022/11/11医学统计学156

区别

I型回归:Y是随机变量,X是控制变量;

II型回归:Y与X均是随机变量。同一资料中由X推算Y与由Y推算X的回归方程不同:2022/11/10医学统计学58区别2022/11/11医学统计学157

联系均表示线性关系符号相同:共变方向一致假设检验结果相同:tr=tb

可以互相换算:

2022/11/10医学统计学59联系假设检验结果相同:t2022/11/11医学统计学158六、直线回归与相关应用的注意事项相关:X与Y没有主次,为双向。回归:Y依X变化而变化,为单向。自变量的选择:原因、容易测量、变异小要有实际意义。1.根据分析目的选择变量及统计方法2022/11/10医学统计学60六、直线回归与相关应用的注2022/11/11医学统计学159孩子的身高与小树的高度间显示出显著的相关性2022/11/10医学统计学61孩子的身高与小树2022/11/11医学统计学160有无异常点,谨慎剔除。2.进行相关、回归分析前要绘制散点图,进行判断2022/11/10医学统计学62有无异常点,谨慎剔除。2.2022/11/11医学统计学161离群值对相关的影响2022/11/10医学统计学63离群值对相关的影响2022/11/11医学统计学162样本的间杂性对相关性的误导2022/11/10医学统计学64样本的间杂性对相关性的误导2022/11/11医学统计学1633.用残差图考察数据是否符合模型假设条件Y与X为线形关系误差服从均数为0的正态分布方差相等各观察单位独立回归模型应用前提条件:2022/11/10医学统计学653.用残差图考察数据是否符2022/11/11医学统计学164e02022/11/10医学统计学66e02022/11/11医学统计学1650000eeee2022/11/10医学统计学670000eeee2022/11/11医学统计学166P值越小越有理由认为变量间直线关系存在,不能说关系越密切。直线回归关系可以内插,不宜外延。当样本含量较大时,统计学检验的作用减弱。r0.05/2,100=0.1954.结果的解释及正确应用2022/11/10医学统计学68P值越小越有理由认为变量间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论