医学统计学:直线相关和回归分析_第1页
医学统计学:直线相关和回归分析_第2页
医学统计学:直线相关和回归分析_第3页
医学统计学:直线相关和回归分析_第4页
医学统计学:直线相关和回归分析_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、直线相关和回归分析Medical statistics医学统计学直线相关分析Linear Correlation AnalysisPage 3相关分析:主要内容问题的提出相关关系与确定性关系相关和直线相关的概念直线相关的图示直线相关系数的计算直线相关系数的假设检验和区间估计Page 4问题的提出以往方法的局限仅限于考察一个观察指标Page 5问题的提出人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少?儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和音调长度的数量关系?人的肺活量往往随着胸围的增加而增加。举重运动员所能举起的最大重量是

2、否与他的体重有关?Page 6相关关系与确定性关系所谓确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以通过这种函数关系精确计算出来。C =2RS=vt非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高随年龄增长而增高;体表面积与体重有关Page 72.相关的概念当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是

3、反向的,则称为负相关(negative correlation)。 Page 8直线相关的概念直线相关(linear correlation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。Page 9用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlation coefficient),又称为积差相关系数(coefficient of product-moment correlation),Pearson相关系数 。总体相关系数用希腊字母r表示,而样本相关系数用r表示,取值范围均为-1,1。Page 10r=0r=0r

4、-1r1完全正相关完全负相关零相关零相关0r1-1r0r=0 r=0零相关正相关负相关零相关直线相关的图示Page 11r =-1-1r 0r =0直线相关的图示与相关系数的关系0r 1r =1Page 12直线相关系数的计算Page 13以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。两岁时的身高(英寸)3930323435363630成年身高(英寸)7163636768687064Page 14绘制散点图Y 成年后身高(单位:英寸)X 2岁时的身高(单位:英寸)3032343638406365676971Page 15Page 16Page 1

5、7相关系数的假设检验H0:r0,两变量间无直线相关的关系;H1:r0。Page 18H0:0,两变量间无直线相关的关系;H1:0,两变量间有直线相关的关系;a =0.05=8-2=6以自由度为6查附表2的t界值表,得P0.01,按=0.05的水准拒绝H0,接受H1,认为2岁时的身高和成年身高之间存在正相关。Page 19总体相关系数的区间估计从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。 Page 20相关系数的抽样分布( = - 0.8)-0.8-0.6-0.4-0.20.00100200300-1.0Page 21相关系数的抽样分布( = 0)-1.0-0.8-0.6-0.4

6、-0.20.00.20.40.60.81.00100200300Page 22相关系数的抽样分布( =0.8) 00.20.40.60.81.00100200300Page 23R.A. Fisher(1921) 的 z 变换 z近似服从均数为 ,标准差为 的正态分布。 Page 24相关系数的z 值的抽样分布( = - 0.8)00.51.01.52.0050100150200Page 25相关系数的z 值的抽样分布( = 0)-2-1012050100150200Page 26相关系数的z 值的抽样分布( = 0.8) 01234050100150200Page 27相关系数的可信区间估计

7、将 r 变换为 z ;根据 z 服从正态分布,估计 Z 的可信区间;再将 z变换回 r 。Page 28相关系数的可信区间估计 Fishers 变换 r z 正态近似 Fishers 反变换 的95%CI Z的95%CI Page 29该可信区间有什么含义?直线回归分析Linear Regression AnalysisPage 31直线回归分析:主要内容引言直线回归的定义直线回归方程的求解回归系数的t检验回归问题的方差分析直线回归系数和回归方程的解释与直线回归有关的区间估计相关与回归的区别和联系正确应用Page 32引言对于2岁时的身高和成年后身高间的关系即便具有相同的2岁身高,成年后的身高

8、也不一定相同; 2岁身高X与成年后身高Y的散点图Y 成年后的身高(英寸)X 两岁时的身高(英寸)3032343638406365676971Page 33引言对于女大学生的体重和肺活量间的关系即便具有相同的体重,肺活量也不一定相同;Y 肺活量(L)X 体重(kg)40602.04.03.02.53.5504555女大学生体重(X)与肺活量(Y)的散点图Page 34折衷的解释2岁身高影响成年的身高,但并非确定地决定它(determine it exactly) ;女学生的体重虽然影响了肺活量;但并非确定地决定它;因此,虽然它们之间有数量关系,但并非确定性的数量关系。是一种非确定性关系;一种宏观

9、的关系!Page 35所谓确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以通过这种函数关系精确计算出来。非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。Page 36直线回归的定义宏观上来讲,他们呈直线关系,但并不能用来描述。所以我们用“hat”表示估计值,给定X时Y的条件均数(Y均数的估计值)Page 37 Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) b 回归系数 (re

10、gression coefficient, slope) a 截距 (intercept)Page 38不同斜率时回归直线的表现XYPage 39直线回归方程的求解两岁时的身高(英寸)3930323435363630成年身高(英寸)7163636768687064Page 40直线回归方程的求解:最小二乘原理Y 成年后身高(单位:英寸)X 2岁时的身高(单位:英寸)3032343638406365676971Page 41直线回归方程的求解最小二乘法(Least Square Method)Page 42最小二乘法求解(了解) 根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即

11、:Page 43最小二乘法求解(了解)Page 44直线回归方程的求解2岁身高和成年身高之间关系Page 45直线回归方程Page 46直线回归系数的t检验回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对回归方程的检验:F检验Page 47直线回归系数的t检验总体回归系数 =0,则回归关系不存在。H0:总体回归系数为0, =0;H1:总体回归系数不为0,0;=0.05。Page 48直线回归系数的t检验Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度Page 49直线回归系数的t检验名词辨析: Y的变异 Y本身的变异 Y 体重增加量(g)X 进食量(g)600

12、650700750800850900950120140160180200154.42gSY22.630SY.X12.39Page 50直线回归系数的t检验H0:总体回归系数0;H1:总体回归系数0; =0.05。 =8-2=6按=6查t界值表,得P0.01。按 =0.05水准拒绝H0,接受H1。认为成年身高和2岁时的身高间存在直线回归关系。 Page 51回归系数与相关系数的假设检验结果等价Page 52回归方程的方差分析:因变量总变异的分解X P (X,Y)YQLSPage 53Page 54上式两端平方,然后对所有的n点求和,则有Page 55 Page 56Y的总变异分解未引进回归时的总

13、变异: (sum of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression)Page 57Y的总变异分解 总n1 回1 剩余n2 总回SSSSr=2Page 58Y的总变异可以用回归来解释的部分即与X有关的部分不能用X来解释的部分即与X无关的部分(随机误差)份额的大小可以用相关系数的平方来衡量(决定系数)Page 59回归方程的方差分析Page 60H0:2岁身高和成年身高无直线回归关系;H1: 2岁身

14、高和成年身高有直线回归关系;=0.05。 SS总 =67.5000SS剩 =60.3571SS回 = SS总-SS剩 =67.50-60.36=7.14列方差分析表Page 61方差分析表 F=50.70,今1=1,2=6,查 F界值表,得P0.0001,按 =0.05水准拒绝H0,接受H1,故可认为2岁和成年身高之间有线性回归关系。变异来源SSvMSFP总变异67.50007回 归60.3571160.357150.700.0001剩 余7.142961.1905Page 62直线回归中三种假设检验间的关系在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。

15、tr=tb=7.12=F1/2=50.701/2Page 63回归系数和回归方程的意义及性质b 的意义a 的意义 和 的意义 的意义Page 64b的含义 b的涵义:两岁身高每高1英寸,成年后的身高平均高0.9286英寸。Page 65a 的意义a 截距(intercept, constant)X=0 时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。Page 66估计值 的意义X=39, = 71.3929 即两岁身高为39英寸时,其成年后身高均数的估计值为71.3929英寸X=35, = 67.6786 即两岁身高为35英寸时,其成年后身高均数的估计值为67.6786英寸给定

16、X时,Y的均数的估计值。当 时,Page 67编号2岁(英寸)X成年(英寸)Y估计值残差1397171.3929-0.39292306363.0357-0.03573326364.8929-1.89294346766.75000.25005356867.67860.32146366868.6071-0.60717367068.60711.39298306463.03570.9643合计272534534.00000.0000估计值与残差Page 68图7.2 2岁身高X与成年后身高Y的散点图X 2岁时身高3032343638406365676971XY 成年后身高(单位:英寸)Page 69残

17、差平方和 (residual sum of squares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘) 的意义Page 70与直线回归有关的区间估计回归系数的可信区间估计估计值 的可信区间估计个体Y值的容许区间估计Page 71复习 可信区间 容许区间均数的可信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差 Page 72总体回归系数 的可信区间估计根据 t 分布原理估计:Page 73本例中已计算得sb=0.1304(0.9286-2.4470.1304, 0.9286-2.4470.1304)=( 0.6095,1.2477

18、)含义用(0.6095, 1.2477)来估计两岁身高与成年身高间的直线回归系数,可信度为95%。Page 74 的可信区间估计 样本 总体Y的总平均给定X时Y的平均 (Y的条件均数) 根据 t 分布原理:Page 75X=38时,求 的95%可信区间 =34,lXX=77159.67, =12.3921当X=34 时, =70.464470.46442.4470.4688=(68.88,70.05) 即身高为34英寸的两岁儿童,估计其成年后平均身高为70.4644英寸,95可信区间为(68.88,70.05) (g)。Page 76Y的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的

19、一个估计。给定X 时 Y 值的容许区间是 Y 值的可能范围。 Y的100(1- )%容许限:Page 7770.46442.4471.2694=(67.3583,73.5705)即所有身高为34英寸的两岁儿童,估计其成年后有95的个体身高在(67.36,73.57) 之间。Page 78剩余标准差、条件标准误、条件标准差抽样误差抽样误差个体变异Page 792岁身高(英寸)成年身高(英寸)(英寸)的95%可信区间Y的95%容许区间下限上限下限上限306463.035761.448264.623259.929666.1419306363.035761.448264.623259.929666.1

20、419326364.892963.753466.032361.990167.7957346766.750065.806167.693963.918269.5818356867.678666.682268.675064.828970.5283366868.607167.467769.746665.704471.5099367068.607167.467769.746665.704471.5099397171.392969.539073.246768.142574.6432Page 80估计值、95%可信区间和95%容许区间成年后身高英寸X 2岁时的身高(单位:英寸)30 32 34 36 38 58 60 62 64 66 68 70 72 74 76 31 33 35 37 39 Page 81直线回归与直线相关的区别与联系联系均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;二者间可以相互换算用回归解释相关Page 82直线回归与直线相关的区别与联系区别r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系;回归表示依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析; I型回归:X是精确控制的;II型回归:X是随机的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论