医学精品课件:10第十章直线相关与回归_第1页
医学精品课件:10第十章直线相关与回归_第2页
医学精品课件:10第十章直线相关与回归_第3页
医学精品课件:10第十章直线相关与回归_第4页
医学精品课件:10第十章直线相关与回归_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021/2/9,1,医学统计学 人民卫生出版社,第十章 直线相关与回归,2021/2/9,2,学习目标 1.掌握:相关与回归的概念;相关系数与回归 系数的意义和计算;相关系数与回归 系数的假设检验。 2.熟悉:相关与回归的区别与联系;相关分析 与回归分析中应注意的问题;秩相关 的应用条件。 3.了解:最小二乘法原理;线性相关与回归的 应用,2021/2/9,3,在前面我们所研究的资料仅涉及到一个变量,主要是描述该变量的统计特征或统计推断。譬如求出该变量的集中趋势和离散程度指标,对该变量进行均数的假设检验或进行方差分析等。然而,在医学研究中会涉及到两个或两个以上的变量,譬如,人的身高与体重、体

2、温与脉搏、年龄与血压、体重与肺活量等,它们之间存在一定的联系,2021/2/9,4,变量间的关系,确定性关系(函数关系,非确定性关系(相关关系,如圆的面积公式,人的身高与体重、体温与脉搏、年龄与血压、体重与肺活量,变量间非确定性关系称为相关关系(correlation,2021/2/9,5,第一节 直线相关 一、相关系数的意义 (一)散点图 数据点在平面直角坐系上的分布图称为散点图(scatterdiagram)。散点图表示因变量随自变量而变化的大致趋势,当两正态分布变量在散点上的变化呈直线趋势时称为直线相关(linear correlation)或称简单相关(simple correlati

3、on),反之称为非线性相关。(nonlinear correlation,2021/2/9,6,图10-1 几种常见的散点图,2021/2/9,7,相关的种类,按影响因素多少,按影响因素的表现方式,按相关的方向,按相关的程度,单相关,复相关,线性相关,非线性相关,正相关,负相关,完全相关,不完全相关,不相关,2021/2/9,8,三)相关的程度和方向 用于描述两变量间相关密切程度和相关方向的指标称为相关系数(correlation coefficient),样本相关系数用符号r表示,总体相关系数用符号表示。相关系数没有单位,其取值范围为: 1r1,2021/2/9,9,一般认为,当样本含量较大

4、的情况下(n100),大致可按下列标准估计两变量相关的程度: r0.7 高度相关 0.7r0.4 中度相关 0.4r0.2 低度相关,2021/2/9,10,二、相关系数的计算,10-1,式中l与l分别为变量X与Y的离均差平方和,lXY为两变量X、Y的离均差积和,n为样本容量,10-2,10-3,10-4,2021/2/9,11,例10-1 某医师测量12名20岁健康男大学生的身高与前臂长,资料见表10-1。试求身高与前臂长的相关系数,表10-1 12名20岁健康男大学生身高与前臂长资料,2021/2/9,12,解:(1)绘制散点图 如图10-2所示,图10-2 12名20岁男大学生身高与前臂

5、长散点图,2021/2/9,13,表10-2 例10-1相关系数计算表,2)列相关系数计算表 从图中可以知,这些点近似分布在一条直线上,呈线性相关。列出相关系数计算表,如表10-2所示,2021/2/9,14,2)计算相关系数r 已知 ,把表10-2的结果代入公式10-2,10-3,10-3,10-1得,2021/2/9,15,三、相关系数的假设检验 在相关系数计算出来后,还不能认为这两个变量间就存在相关关系,因为它只是一个样本相关系数,仅为总体相关系数的估计值。要判断r是否来自总体相关系数=0的一个样本,还需对样本相关系数进行假设检验后,才能判断两总体是否存在直线相关关系。相关系数的假设检验

6、常用t检验法和查表法,相关系数计算出来后,能否认为两变量间存在线性关系?不能,2021/2/9,16,一)t 检验,自由度,10-5,式中Sr为相关系数的标准误,n为样本含量,2021/2/9,17,例10-2 对例10-1资料所得r值,检验20岁健康男大学生的身高与前臂长是否存在直线相关关系。 (1)建立检验假设,确定检验水准 H0:0,两变量间无直线相关关系 H1:0,两变量间有直线相关关系 =0.05,2)计算r值 已知n=12,r=0.7953, 代入公式(10-5)、(10-6)得,2021/2/9,18,3)确定值,作出推断结论 按n-2=10,查附表2,t 界值表,t0.002/

7、2,10=3.930 ,现tr3.930,故P0.002。按的检验水准,拒绝H0,接受H1,可认为20岁健康男大学生的身高与前臂长呈正直线相关关系,2021/2/9,19,二)查表法 查附表11,r界值表,列出相关系数r与0差别有无统计学意义的判断界值,按自由度=n-2查r界值表,当rr/2,(n-2)时,则P,可认为两变量间存在直线相关关系;反之,rr/2,(n-2) 时,则P,则认为两变量间不存在直线相关关系,2021/2/9,20,例10-3 对例10-1资料所得r值,用查表法检验20岁健康男大学生的身高与前臂长是否存在直线相关关系。 解:本例r0.7953,按=10查附表11,得r0.

8、002/2.10=0.795,现rr0.002/2,10,故P0.002,按的检验水准,拒绝H0,接受H1,可认为该地20岁健康男大学生的身高与前臂长呈正直线相关关系。检验结果与t检验相同,2021/2/9,21,第二节 直线回归 一、直线回归的概念 在描述两变量X与Y的关系时,如果散点图呈直线趋势或有直线相关关系,就可以用一个直线方程来表示两个变量在数量上的依存关系,这个直线方程叫做回归方程(regression equation),用直线回归方程表示两个变量在数量上的依存关系的统计分析方法叫做回归分析,2021/2/9,22,二、直线回归方程的计算公式,10-7,10-8,10-7,这里

9、就是给定X时Y的估计值,a为回归直线在Y轴上的截距(intercept),b为回归方程的斜率,称为回归系数(regression coefficient,2021/2/9,23,三、直线回归方程的计算 例10-4 利用例10-1资料,已知12名20岁健康男大学生的身高与前臂长存在直线相关关系,现求身高与前臂长的直线回归方程。 计算步骤: (1)列回归系数计算表 同表10-2,求出X ,Y ,XY ,X2 , Y2 。 本例X=2079 ,Y=545 ,XY=94683 ,X2=361493 ,Y2=24835,2021/2/9,24,2)求,前面已经计算出=1306.25 ,=261.75,3

10、)求回归系数b和截距a,2021/2/9,25,4)列出回归方程 将求出的a和b代入公式(10-7)得出,5)绘制回归方程图 本例取X1=155,则 ;X2=190,则。在图上确定(155,41.77)和(190,48.78)两个点直线连接,即得出直线回归方程的图形,见图10-3,2021/2/9,26,图10-3 12名20岁男大学生身高与前臂长回归直线,2021/2/9,27,三、回归系数的假设检验 求出回归方程后,还不断定X与Y就存在直线回归关系,这是因为b只是一个样本回归系数,只是对总体回归方程的一个统计推断,由于抽样误差是客观存在的,还需检验b是否来自于总体回归系数=0的一个样本。回

11、归系数的假设检验有t检验和方差分析,这里仅介绍 t 检验,回归方程建好能否认为两变量间存在直线关系,回答 No,2021/2/9,28,10-10,10-11,10-12,式中 是样本回归系数 b的标准误, 表示样本回归系数的变异程度;为剩余标准差(residual standard deviation),是指扣除X对Y的影响后,Y对回归直线的离散程度,t 检验法,2021/2/9,29,例10-5 根据例10-4的结果,用t检验法检验身高与前臂长有无直线回归关系。 (1)建立检验假设,确定检验水准 H0:0,即身高与前臂长无直线回归关系 H1:0,即身高与前臂长有直线回归关系 0.05,2)

12、计算值tb 前面已求出lXX =1306.25,lYY=82.92,lXY=261.75,代入上述公式有,2021/2/9,30,3)确定P值,作出推断结论 按n-2=10,查附表2,t界值表,t0.002/2,10=3.930 ,现tb3.930,故P0.002。按0.05的检验水准,拒绝H0,接H1受,可认为20岁健康男大学生的身高与前臂长存在直线回归关系,2021/2/9,31,四、总体回归系数的区间估计 样本回归系数b只是总体回归系数的一个点估计值。类似与总体均数的可信区间的估计,的双侧(1-)可信区间可由公式(10-13)计算,10-13,2021/2/9,32,例10-6 根据例1

13、0-4中所得的b=0.2004,估计其总体回归系数的双侧95%可信区间。 上述假设检验中已得出Sb=0.0483,自由度=10,查t界值表,得到t0.05/2,10=2.179,按公式(10-13)计算出的95%可信区间为(0.0952,0.3056)。得出的95%的可信区间中未包含0,这与前面假设检验结果一致,2021/2/9,33,五、直线回归方程的应用 1.定量描述两变量之间的依存关系 通过回归系数的假设检验,若认为两变量间存在着直线回归关系,则可用直线回归来描述。 2.利用回归方程进行预测 利用回归方程进行预测这是回归方程的重要应用。 3.利用回归方程进行统计控制 统计控制是利用回归方

14、程进行逆估计,即要求应变量Y值在一定范围内波动,进一步来得到自变量X的取值,然后通过X取值来控制Y的变化,2021/2/9,34,第三节 进行直线相关与回归分析时应注意的问题 一、直线相关与回归分析的注意事项 1. 作相关与回归分析不要把两种毫无联系现象的作相关与回归分析。 2. 相关关系不一定是因果关系,它可能是伴随关系。要证明两事物间确实存在因果关系,必须凭借专业知识加以证明。 3. 在进行直线相关与回归分析之前,应先绘制散点图。当观察点的分布呈直线趋势时,方可进行相关与回归分析。 4. 回归方程一般只适用于自变量X的原始数据范围内,不能任意外延。 5. 建立回归方程的条件一旦改变,原回归

15、方程不宜继续使用。 6. 正确解释结果,2021/2/9,35,二、直线相关与回归的区别与联系 (一)区别 1. 资料要求不同 2. 统计意义不同 3. 分析目的不同 4范围不同-1r1,-b+。 5量度单位不同r没有单位,b有单位,2021/2/9,36,二)联系 1变量间关系的方向一致 对同一资料,其与的正负号一致。 2假设检验等价 对同一样本,tr=tb。 3与值可相互换算,10-14,10-15,2021/2/9,37,第四节 秩相关分析 前面所研究的直线相关分析要求资料服从双变量的正态分布,对于那些资料分布类型不明、呈偏态分布和有序分类变量资料,就不能在沿用前面的方法,要描述两事物间

16、的相关关系,常采用秩相关(rank correlation)来分析两个变量相关方向与密切程度。秩相关也称等级相关,属于非参数统计方法,可用于有序分类变量或相对数表示的资料,2021/2/9,38,一、秩相关系数的计算 Spearman秩相关分析法是将原始数据、按数值从小到大排序编秩,以秩次作为新的变量计算秩相关系数(rank correlation coefficient)系数,用来表示与间线性相关关系的密切程度和方向。与直线相关系数一样,相关系数的取值范围也在1rs1之间, rs0为正相关。秩相关系数是总体相关系数的估计值,2021/2/9,39,Spearman秩相关系数rs计算公式为,1

17、0-16,10-17,10-18,10-19,式中p、q分别为变量X、Y的秩次,2021/2/9,40,例10-7 在肝癌病因研究中,某地调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量(以最高含量为10),资料见表10-3(2)、(4)两栏。试求黄曲霉毒素相对含量与肝癌死亡率的秩相关系数rs,2021/2/9,41,黄曲莓毒素相对含量 肝癌死亡率(1/10万) 乡编号,表10-3 黄曲莓毒素相对含量与肝癌死亡率,2021/2/9,42,解:1. 先将X、Y 分别由小到大编秩次,见表10-3中的第(3)栏和第(5)栏。在编秩过程中遇到数字相同时,求平均秩次。 2. 计算出p

18、2、q2和pq见表中的第(6)、第(7)和第(8)栏。 3.计算Spearman秩相关系数,2021/2/9,43,2021/2/9,44,二、秩相关系数的假设检验 rs是由样本资料计算出来的相关系,它是总体相关系数s的估计值,由于存在抽样误差,需要检验rs是否来自s=0的总体。 当时n50,可根据n的大小查附表12,rs界值表,若rsa,说明X、Y两变量之间不存在相关系数;若rsr,n,则P,说明、两变量存在相关关系。当n50时,可以进行t检验,2021/2/9,45,例10-8 对例10-7的资料检验黄曲霉毒素相对含量与肝癌死亡率有无相关关系。 解:(1)建立检验假设,确定检验水准 H0:s0,即两变量间无相关关系 H1:s0,即两变量间有相关关系 =0.05,2)计算秩相关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论