医学统计学7 相关分析与回归分析ppt课件_第1页
医学统计学7 相关分析与回归分析ppt课件_第2页
医学统计学7 相关分析与回归分析ppt课件_第3页
医学统计学7 相关分析与回归分析ppt课件_第4页
医学统计学7 相关分析与回归分析ppt课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章第七章 线性回归与相关线性回归与相关统计学的两个主要内容参数估计和假设检验t检验 秩和检验卡方检验指标变量之间关系相关分析回归分析学习目标学习目标 了解线性回归分析和相关分析的用途。熟悉线性回归分析和相关分析的基本步骤。掌握相关系数和回归系数的定义,简单相关分析和回归分析的适用条件。 在医药科学研究中常常要分析两个变量间的关系,如血药浓度和时间、年龄和血压、药片的硬度和药片的消溶速度等。 一般来说,变量之间的关系可分为确定性和不确定性两大类。R1R1R2R1R2R3确定性的关系:两变量间的函数关系 22113.14 13.14()cRSm 222223.14 1.57.07()cmRS

2、222333.14 212.56()cRSm 2显然,运动员体重越大,他能举起的重量也越大,显然,运动员体重越大,他能举起的重量也越大,但举重成绩和运动员体重到底是怎样的关系,除但举重成绩和运动员体重到底是怎样的关系,除了运动员体重外,生理因素、心理因素也会影响了运动员体重外,生理因素、心理因素也会影响到运动员的成绩,怎样建立这些因素对举重成绩到运动员的成绩,怎样建立这些因素对举重成绩的模型。的模型。(举重成绩的比较)(举重成绩的比较)举重是一种一般人都能看懂的运动,它共分举重是一种一般人都能看懂的运动,它共分九个重量级,有两种主要的比赛方法:抓举九个重量级,有两种主要的比赛方法:抓举和挺举。

3、和挺举。 表中给出了九个重量级的世界纪表中给出了九个重量级的世界纪录。录。255200110以上以上237.518511022118090207.517082.5195157.575180141.567.5161.513060151120.55614110952挺举公斤)挺举公斤)抓举公斤)抓举公斤)成果成果重量级上限体重量级上限体重)重)确定性关系与随机关系确定性关系与随机关系l确定性的函数关系:两变量间的函数关系确定性的函数关系:两变量间的函数关系 。l l 随机性的关联关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。 圆的周长与半径的关系:圆的周长与半径的关系: C2R

4、速度、时间与路程的关系:速度、时间与路程的关系:LST 青少年身高与年龄的关系;青少年身高与年龄的关系; 体重与体表面积的关系;体重与体表面积的关系;l线性相关分析linear correlation analysis或简单相关分析(simple correlation analysis)l 则是研究2个随机变量间是否有线性联系、联系程度及方向的统计方法。第一节第一节 直线相关直线相关直线相关直线相关 (linear correlation) 描述具有线性关系的两个随机变量间描述具有线性关系的两个随机变量间相关方向和密切程度的一种统计分析方法。相关方向和密切程度的一种统计分析方法。相关系数相关

5、系数 (correlation coefficient) 描述具有线性关系的两变量间,相描述具有线性关系的两变量间,相关关系的密切程度大小和相关方向的关关系的密切程度大小和相关方向的指标,总体相关系数用指标,总体相关系数用 表示,样本相关表示,样本相关系数用系数用r表示。表示。一、直线相关的概念一、直线相关的概念散点图能直观地看出两变量间的关系,因此研究散点图能直观地看出两变量间的关系,因此研究两变量的关系应先绘出散点图,而后再确定两者两变量的关系应先绘出散点图,而后再确定两者的量化关系。的量化关系。图9-1 常见的散点图 相关系数的方向示意图相关系数的方向示意图体重(kg),X肺活量Y(L)

6、40424446485052545658602.22.42.62.83.03.23.43.6r0r0体重(kg),X肺活量Y(L)40424446485052545658602.22.42.62.83.03.23.43.6相关系数的大小示意图相关系数的大小示意图r = 1 0 r 0.560,则,则P0.05,拒绝,拒绝H0 ,即即认为变量认为变量X与与Y间的线性相关关系有统计学意义。间的线性相关关系有统计学意义。rP391(2)t检验H0: =0 H1: 0 0.0513215765. 7215)9070. 0(1907. 02122nrrtr查查t界值表,界值表, 按按0.05水准,拒水准

7、,拒绝绝H0,接受,接受H1,可认为凝血时间的长短与凝血酶浓度呈负相,可认为凝血时间的长短与凝血酶浓度呈负相关。关。,05. 0,160. 213,05. 0Pttr线性相关分析的应用 (一当两变量有线性趋势时,才能进行线性相关分析。一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。 (二相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关。 (三相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相关分析。如研究不同温度下兔肺动脉张力,人为选定四个温度16,24,30,37,获得如下资料。 (四异常点

8、的存在对相关分析往往有影响,要特别注意。 图 9-3 剔除异常值前后的散点图 (五分层资料盲目合并容易引起假象。 左图显示:合并前,两组数据无相关关系,但合并后呈正相关。右图显示:合并前,两组数据分别呈正相关,但合并后无相关关系。 相关关系不等于因果关系;相关关系不等于因果关系;相关分析要有实际意义,两个变量的选择相关分析要有实际意义,两个变量的选择 一定要结合专业背景,不能把毫无关联的两一定要结合专业背景,不能把毫无关联的两种现象勉强作相关分析。种现象勉强作相关分析。 注意相关关系成立的数据范围;注意相关关系成立的数据范围;小小 结结小小 结结 案例案例 有研究者欲研究某药口服量与血药浓度关

9、有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为系,把口服药物设定为1, 2.5, 5, 7.5, 10, 15, 20, 30等档次,每档各取等档次,每档各取3只动物共只动物共24只进行试只进行试验,于服药后验,于服药后1 h抽血检验血药浓度。在抽血检验血药浓度。在SPSS中作散点图,计算得口服药物量与血药浓度的中作散点图,计算得口服药物量与血药浓度的Pearson相关系数相关系数=0.979,经假设检验,经假设检验P0.001,认为口服药物量与血药浓度呈线性正相关。认为口服药物量与血药浓度呈线性正相关。 请问:本例的两个变量各有何特征?可以计算Pearson相关系数吗?若可以,则计

10、算的方法与步骤有何不妥吗?计算结果正确吗?可以推出本例的结论吗? 案例辨析案例辨析 本例的重要问题是,线性相关的条件不满足,本例的重要问题是,线性相关的条件不满足,即口服剂量是人为取定的,属于非随机变量,因此不宜即口服剂量是人为取定的,属于非随机变量,因此不宜作相关分析。其次,仅利用作相关分析。其次,仅利用Pearson相关系数与假设检相关系数与假设检验值就认为两者呈线性正相关为时过早。分析本例的散验值就认为两者呈线性正相关为时过早。分析本例的散点图,可发现散点呈曲线形,而非直线型,因此即使口点图,可发现散点呈曲线形,而非直线型,因此即使口服剂量是随机变量也不宜直接作线性相关分析。第三,服剂量

11、是随机变量也不宜直接作线性相关分析。第三,研究者取的剂量范围为研究者取的剂量范围为130,而结论认为口服药物量,而结论认为口服药物量与血药浓度呈线性正相关,未限定浓度范围,也是不妥与血药浓度呈线性正相关,未限定浓度范围,也是不妥的。相关分析很重要的一条就是在多大范围作的研究就的。相关分析很重要的一条就是在多大范围作的研究就在多大范围下结论,因为超过范围很可能结论就不再成在多大范围下结论,因为超过范围很可能结论就不再成立。立。 第二节直线回归l对于具有相关关系的变量,虽然不能用精确的函数表达式来表达其关系,但是大量观察数据的分析表明,它们之间存在着一定的相互依存关系。l相关分析是用相关系数来刻画

12、这些变量之间相互依存关系的密切程度;l回归分析从变量的观测数据出发,定量地反映它们之间相互依存关系,判断所建立的回归方程式的有效性,进行预测或估计。 函数关系:它反映着现象之间严格的数量化依存关系,也称确定性的依存关系。如正方形的面积和边长的关系。 回归关系:变量之间存在着不确定、不严格的依存关系,即对于一个变量的某个数值,可以有另一变量的若干数值与之相对应 bxaybxay2XY 在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之严格对应。 回归关系的几个例子回归关系的几个例子回归分析的基本概念l一、简单线性回归一、简单线性回归Regression的意义的意义 简单线性回归是用来

13、分析一个变量反应变量如何随另一个变量解释变量变化而变化数量关系的一种方法l回归分析回归分析Regression analysisRegression analysis)l从一组样本数据出发,确定变量之间的数学从一组样本数据出发,确定变量之间的数学关系式;关系式;l对这些关系式的可信程度进行各种统计检验,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出具并从影响某一特定变量的诸多变量中找出具有统计学意义的变量;有统计学意义的变量;w自变量与因变量自变量与因变量w a)自变量自变量(independent variable)或解或解释变量:释变量:w 影响因变量的变量,

14、影响因变量的变量, 一般用一般用X表示表示wb)因变量因变量(dependent variable)或响应变或响应变量:量:w 受其它变量影响的变量,一般用受其它变量影响的变量,一般用Y表示表示w通常由给定的通常由给定的x值来对值来对Y值进行推断,故值进行推断,故x是是给定的、非随机的,给定的、非随机的,Y是随机变量。是随机变量。w l直线回归分析的关键就是求出回归方程直线回归分析的关键就是求出回归方程 中中a a、b b两个常数。由数学知识可知,两点决定一条直线。两个常数。由数学知识可知,两点决定一条直线。将容量为将容量为n n的样本标在的样本标在(x,y)(x,y)坐标平面上,可得到坐标平

15、面上,可得到n n个点。个点。n n个点可确定许多直线,到底以哪条线作为回归线呢?个点可确定许多直线,到底以哪条线作为回归线呢?直线回归的主要应用是统计预测,即根据实测的直线回归的主要应用是统计预测,即根据实测的X X估算估算Y Y,当然是希望估算的当然是希望估算的Y Y称为称为 )与实测之间的差值)与实测之间的差值Y Y )越小越好。)越小越好。bXaYYY最小二乘法建立回归方程最小二乘法建立回归方程l故由样本资料决定回归线时,往往用数学上的最小二乘故由样本资料决定回归线时,往往用数学上的最小二乘法法least square methodleast square method原理求解原理求解

16、a a和和b b两个系数两个系数和和的点估计值),即在所有直线中找出残差平的点估计值),即在所有直线中找出残差平方和方和 ,记为,记为SSSS残差达最小值时所对应的直残差达最小值时所对应的直线作为回归线。线作为回归线。2YY最小二乘法建立回归方程最小二乘法建立回归方程1801年,意大利天文学家朱赛普皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。高斯也计算了谷神星的轨道。奥地利天文学家海因里希奥尔伯斯根据高斯计算出来的轨道重新发

17、现了谷神星。高斯使用的最小二乘法的方法发表于1809年他的著作中。iiiYY让所有点的让所有点的 的平方和最小的平方和最小iiYYv用最小二乘法拟合直线,选择用最小二乘法拟合直线,选择a和和b使其残差样本点使其残差样本点到直线的垂直距离到直线的垂直距离)平方和达到最小。平方和达到最小。xxxyLLXXYYXXb2)()(XbYabXaY系数估计公式:系数估计公式: 回归方程:回归方程:二、回归分析的方法步骤二、回归分析的方法步骤绘制散点图绘制散点图求回归系数和常数项求回归系数和常数项列出回归方程,并进行假设检验列出回归方程,并进行假设检验回归方程的解释回归方程的解释例例7-1l欲了解急性脑血管

18、病患者血清IL-6与脑脊液IL-6含量之间的关系,某医师随机抽取了该院确诊的10例蛛网膜下腔出血患者,测量24小时内血清IL-6和脑脊液IL-6(pg/ml),问蛛网膜下腔出血患者脑脊液IL-6含量是否随血清IL-6含量的变化而变化?表表7-1 蛛网膜下腔出血患者血清和脑脊液蛛网膜下腔出血患者血清和脑脊液IL-6(pg-ml)检测结果检测结果患者号12345678910血清22.451.658.125.165.979.775.332.496.485.7脑脊液134.0167.0132.380.2100.0139.1187.297.2192.3199.4(一散点图(一散点图(二)(二) 建立直线

19、回归方程建立直线回归方程l解 例7-1可知:l由系数求解公式得:101.16242,664.6104,698.7201,87.142,26.59yyxxxylllyx961.729 . 51797. 187.1421797. 1664.6104698.7201)()(2xbyaLLXXYYXXbxxxyl故所求回归方程为:l回归系数b=72.96表示血清IL-6含量每增加一个单位,将会使脑脊液IL-6含量增加72.96ngxy18.196.72l表示回归线性模型中的总体回归系数表示回归线性模型中的总体回归系数l参数参数的意义:若自变量的意义:若自变量X增加增加1个单位,反应变量个单位,反应变量

20、Y的平均值便增加的平均值便增加个单位。个单位。l =0,说明,说明Y与与X之间并不存在线性关系;之间并不存在线性关系;l 0,说明,说明Y与与X之间存在线性关系。之间存在线性关系。l理由:从理由:从=0的总体抽得样本,计算出的回归系数的总体抽得样本,计算出的回归系数b很很可能不为零。可能不为零。总体回归系数的统计推断总体回归系数的统计推断t检验检验式式7-7式式7-8式式7-6。于可以认为回归系数不等,所以005. 0, 82962. 23983. 01797. 1005. 00:0:8 ,05. 010PttnsbtHHbb三、直线回归分析的统计推断目的:检验求得的回归方程在总体中是否目的:

21、检验求得的回归方程在总体中是否成立;成立;方法:单因素方差分析。方法:单因素方差分析。xy10yyyyyy),(iiyxniiniiniiyyyyyy121212变异的分解:变异的分解:变异的种类变异的种类 产生原因产生原因解释解释SS总总:Y的离均差平方和的离均差平方和 没有利用没有利用X的信息时,的信息时,Y 观察值的变异观察值的变异 反映因变量反映因变量Y的总变异的总变异SS回归回归: (回归平方和)(回归平方和) 当自变量当自变量X引入引入 模模型后所引起的变异型后所引起的变异反映在反映在Y的总变异中,的总变异中,可用可用Y与与X的线性关系解释的那部的线性关系解释的那部分变异分变异。S

22、S回归回归越大,说明回越大,说明回归效果越好。归效果越好。SS残差残差: (残差平方和)(残差平方和) 总变异中无法用总变异中无法用X和和Y的回归关系解释的那的回归关系解释的那部分变异部分变异反应自变量反应自变量X以外因素对以外因素对Y的的变异的影响变异的影响。表示考虑回归。表示考虑回归之后,之后,Y的随机误差。的随机误差。2YY2YY2YY回归方程假设检验的步骤回归方程假设检验的步骤l(1) 建立假设H0:=0(方程无统计学意义)l(2)计算lxx、lxy、lyy,再计算SS回归、SS残差的值:l(3)计算检验统计量的F值:回归总残差回归SSSSSSllSSxxxy,/2回归残差回归回归/S

23、SSSF l(4) 对给定检验水准,查F分布表(附表4),得临界值F(1,n-2);l(5)统计判断:FF时,则P,拒绝H0 ;l F,不拒绝H0 例例7-1 l对例7-1中数据,试检验Y对x的线性回归方程的统计学意义。(=0.05)l查F分布表,得临界值F0.05(1,8)=5.32,因FF ,l 则P0.05,拒绝H0,认为方程有统计学意义。7742. 88/227.7746874.8495227.7746874.8495101.16242,874.8495664.6104698.7201101.16242,664.6104,698.720122残差回归残差回归MSMSFSSllSSlll

24、xxxyyyxxxy方差分析表方差分析表决定系数决定系数l描述回归拟合效果l取值01之间,取值说明在Y的总变异中回归关系能解释的比例。l本例:5231. 01010.162428737.84952总回归SSSSR说明说明SAH患者脑脊液患者脑脊液IL-6含量含量52.31%的变异的变异与血清与血清IL-6有关。有关。四、线性回归分析的前提条件四、线性回归分析的前提条件l回归模型的基本假设1.线性linear)2.独立independent)3.正态 (normal)4.等方差equal variance)线性线性linear)指反应变量指反应变量Y的总体平均值与的总体平均值与自变量自变量X呈线性关系。呈线性关系。独立独立independent)指任意两个观察值互相指任意两个观察值互相独立。独立。正态正态 (normal)指指X取某值时,对应的应变量取某值时,对应的应变量Y服从正态分布。服从正态分布。等方差等方差equal variance)是指在自变量是指在自变量X取取值范围内,不论值范围内,不论X取什么值,取什么值,Y都具有相同都具有相同的方差。的方差。 直线回归方程的应用直线回归方程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论