卫生统计学直线相关与回归.ppt_第1页
卫生统计学直线相关与回归.ppt_第2页
卫生统计学直线相关与回归.ppt_第3页
卫生统计学直线相关与回归.ppt_第4页
卫生统计学直线相关与回归.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章,直线回归与相关,Dec,8,2009,前言,单变量统计(univariatestatistics):描述某一变量的统计特征或比较该变量的组间差别,如t、u、F检验双变量统计(bivariatestatistics):研究两个变量之间的关系如何。糖尿病人的血糖与胰岛素水平年龄与高血压抗菌药的浓度与琼脂糖抑菌斑的直径,本章只介绍两个变量间的直线关系的分析,1.回归关系:描述变量间的依存关系,即数量关系,,2.相关关系:描述变量间的相互关系,即互依关系,一、直线回归分析的概念,I型回归:一为选定变量,另一为呈正态分布的随机变量,II型回归:为双变量正态分布的随机变量,第一节直线回归(Linearregression),Dec,8,2009,Dec,8,2009,直线回归:在直角坐标系中绘制散点图,所有散点并不都在一条直线上,但有一种直线趋势,回归方程:区别与线性函数,线性函数要求变量间有严格的函数关系一一对应。,回归方程式:,回归系数b(coefficientofregression):为回归直线的斜率,X改变一个单位,改变b个单位。,二、直线回归方程的求法,最小二乘估计法:要求各实测点到回归直线的纵向距离的平方和最小。,离均差积和,表10110名胎儿的股骨径长度和出生体重的数据,1.绘制散点图由散点图(图101)可见,两变量间呈直线趋势,故进行下列计算。2.计算统计指标:X、Y、XY、X2、Y2、lXX、lYY与lXY。,3.求回归系数b、截距a,列出方程。,根据回归方程式作图,在自变量X取值范围内任取两个X值,带人方程式,得Y的估计值,连接两点,即回归直线。,回归直线过(0,a)和(,)。,4.绘制直线回归直线,(0,-4516.99)和(6.813,2899),三、回归分析中的统计推断,点的纵坐标被回归直线与均数截成三段:,1.方差分析,第一段:,第二段:,第三段:,所有点平方求和,因,有,SS总=SS回+SS剩,总=回+剩,总=n-1回=1剩=n-2,反映了Y的总变异度,反映了Y的总变异中可以用X和Y的直线关系解释的那部分变异,反映除了X对Y的线性影响之外一切因素对Y的变异作用,回=1,剩=n-2,构造检验统计量,表10.2回归分析的方差分析表,其中:,(1)建立假设:,H0:0,胎儿的股骨径长度与胎儿体重之间无直线回归关系H1:0,胎儿的股骨径长度与胎儿体重之间有直线回归关系0.05,(2)计算检验统计量,SS剩SS总SS回34606903305742.71154947.29,表10.3例10.2资料的方差分析计算表,查附表3.1方差分析表,得F0.05,(1,8)=5.32,FF0.05,(1,8),所以P0.05,按0.05水准,拒绝H0,接受H1,故认为胎儿的股骨径长度与胎儿体重之间存在直线回归关系。,(3)确定P值,作出统计推断,式中Sb为回归系数的标准误,计算公式为:,2.t检验,n2,式中SY,X为Y的剩余标准差,扣除X的影响后Y的变异指标,计算公式:,为Y的剩余平方和,计算公式为:,n-2=8,3.直线回归的区间估计,(1)总体回归系数的区间估计,例103试用例101所计算的样本回归系数b1088.51估计其总体回归系数的95%可信区间。,(1088.512.30683.32,1088.512.30683.32)(896.37,1280.65),例104用例10.1所求直线回归方程,试计算当X7.00cm时,的95%可信区间。,当X7.00时,,(3102.582.30646.69,3102.582.30646.69)(2994.91,3210.25)g,(3)个体Y值的容许区间,例105用例104中的数据进一步计算当X7.0时,个体Y值的95%容许区间。,(3102.582.306146.79,3102.582.306146.79)(2764.08,3441.08)g,4.直线回归方程的应用,(1)描述两变量的依存关系,(2)利用回归方程进行预测,(3)利用回归方程进行统计控制,(4)应用回归方程应注意的问题,1)做回归分析要有实际意义,2)在进行直线回归分析前,应绘制散点图,3)直线回归方程的适用范围一般为自变量的取值范围,线性相关(linearcorrelation)又称简单相关(simplecorrelation)用相关系数(r)来表示两个变量间的直线关系。,线性相关的性质可由散点图来直观地说明,一、线性相关和相关系数的概念,适用于服从双变量正态分布的双随机变量。,第二节直线相关,二、相关系数的意义,相关系数(correlationcoefficient)又称为积差相关系数(coefficientofproductmomentcorrelation),它是说明具有直线关系的两变量间相关关系的密切程度与相关方向的指标。相关系数r没有单位,1r1。,计算r的公式为:,三、相关系数的计算,例108就例101资料试计算胎儿股骨径长度和胎儿体重的相关系数。由例101中已计算出的lXX2.79、lYY3460690、lXY3036.93按公式(1020)计算,四、相关系数的假设检验,H0:0H1:00.05,n2,例109就例108所得r值,检验胎儿股骨径长度和胎儿体重间是否有直线相关关系。,建立假设检验:H0:0H1:00.05,计算检验统计量,n28,查t界值表,得P0.05,拒绝H0。,相关:相关关系,1.区别,(1)资料要求不同,回归:型(Y正态分布)、II型都可以。,相关:II型资料(双变量正态分布),(2)应用情况不同,回归:依存关系,五、直线回归与相关的区别和联系,(1)方向一致(2)假设检验等价(3)用回归解释相关(4)的平方称为决定系数(coefficientofdetermination):反映了Y的总变异中由X变量可以解释的部分。,2.联系,Dec,8,2009,直线回归与相关应用的注意事项,根据专业知识确定自变量和应变量;不能把毫无关联的两种现象勉强作回归或相关;在研究两变量之间的密切程度时,不但要求总体相关系数0,而且要求样本的r不能太小,否则即使假设检验认为两变量之间有直线相关关系,但由于r太小,而使得这种关系变得毫无意义|r|0.70高度相关,0.4|r|50时,相同秩次较多时,rs的校正:,Dec,8,2009,第五节曲线拟合,医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型的是服药后血药浓度时间曲线或毒理学动物实验中动物死亡率与给药剂量的关系就非直线形式。当散点图中应变量Y和自变量X间表现出非线性趋势时,可以通过曲线拟合(curvefitting)方法来刻画两变量间数量上的依存关系。,Dec,8,2009,一、曲线拟合的基本方法,据专业知识及过去经验(或文献)选择曲线类型。算术格纸、半对数格纸、双对数格纸等,将实测数据制成点图。目前已使用不多。如果既无前人经验作参考,又无合适的格纸可作散点图趋势分析,则可先在普通格纸上绘点图,再根据各点分布趋势用试配法来选择曲线类型。,Dec,8,20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论