医学第十二章 简单回归分析_第1页
医学第十二章 简单回归分析_第2页
医学第十二章 简单回归分析_第3页
医学第十二章 简单回归分析_第4页
医学第十二章 简单回归分析_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

简单回归分析

simplelinearregression南大公共卫生学院卫生统计教研室主要内容回归的概念及回归分析的作用简单线性回归线性回归的应用残差分析非线性回归案例讨论〔linearregression〕“回归〞的来源Golton研究儿子身高〔Y〕与父亲身高〔X〕间关系时提出,后用来描述通过自变量的数值预测反响变量的平均水平FrancisGalton(1822-1911)

回归概念的起源回归的概念及回归分析的作用Y因变量,响应变量或反响变量dependentvariable,responsevariableX自变量,解释变量

independentvariable,explanatoryvariable

回归(regression)的概念通过自变量(X)的数值来预测变量(Y)的均数值和个体值及其变异.

回归分析的作用

通过可测或易测的变量对未知或不可测量变量的状态进行估计.相关关系与确定性关系确定性关系即两变量间的函数关系圆的周长与半径的关系:C=2R速度、时间与路程的关系:L=STX与Y的函数关系:Y=a+bX相关关系与确定性关系非确定性关系两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄的关系年龄与血脂的关系回归分析是用来研究非确定性关系的一种统计分析方法身高与体重的关系药物浓度与反响率的关系体重与体外表积的关系简单线性回归simplelinearregression简单线性回归模型simplelinearregressionmodel其中Yi为第i个个体的反响变量值,Xi为其自变量值,为回归直线的截距参数,为回归直线的斜率参数,i为误差.

案例:对15名健康人测量其凝血酶浓度(X)与凝血时间(Y),试分析X与Y间的关系?假定X与Y符合上述线性模型,那么第i个个体的凝血时间等于其凝血酶浓度的倍加上,再加上一点随机误差i简单线性模型线性回归方程

上述模型的参数是未知的,我们一般通过样本数据(15例健康者)来建立一有关Y依X变化的线性表达式,该表达式称为线性回归方程,即其中a,b分别是模型参数,的估计值,是与X相对应的Y的平均值。

如果能够通过样本数据找到一条如上图虚线所示的直线,那么只要给定一个人的凝血酶浓度,我们就可以估计具有该凝血酶浓度的一类人的凝血时间Y的平均值(通过来估计)回归模型的前提假设前提条件(LINE)线性(linear)独立性(independent)正态性(normal)等方差(equalvariance)残差

iYX1X2X3X4

1

2

3

4回归模型前提假设示意图回归模型参数的估计最小二乘原那么估计原理

参数和一般只能通过样本数据来估计,当X取值为Xi时,Y的平均值的估计值应该为a+bXi,而实际观察值却是Yi,两者之差称为残差(residual),即:使回归残差平方和最小的策略称为最小二乘原那么Yi回归模型参数的估计估计方法根本于最小二乘原那么,Q(a,b)作为以a和b为自变量的二元函数要最小,那么Q(a,b)关于a和b的一阶偏导数同时等于零,据此,可推算出a和b的计算公式为:例12-1的回归模型参数的估计值总体回归系数

的统计推断样本回归系数b的标准误例12-1的回归方程回归系数b的标准误总体回归系数

的统计推断总体回归系数

的假设检验从=0的总体抽得样本,其样本回归系b可能不为零。同一资料回归系数的检验与相关系数的假设检验完全等价H0:=0;H1:0例12-1的回归方程回归系数b的假设检验总体回归系数

的统计推断总体回归系数

的置信区间参数的(1-)的置信区间为:线性回归的应用总体回归线的95%置信带给定X=Xp时,Y的总体均数的点估计为给定X=Xp时,给定X=Xp时,Y的总体均数的(1-)的置信区间为:总体回归线的95%置信带本例的第一观测值X1=1.1,SY.X=0.49994代入上述公式,可计算出标准误,及X=X1时,Y的总体均数的可信区间。总体回归线的95%置信带XYXY

(1-)的置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,置信度为(1-)。线性回归的应用个体Y预测值的区间估计给定X=Xp时,Y的总体均数的点估计为给定X=Xp时,个体Y值(1-)的预测区间为:给定X=Xp时,个体Y值围绕着对应于Xp值的总体均数波动,其分布的标准差的估计值为个体Y预测值的区间估计仍以第一观测点为例,计算该点预测值的标准差及95%预测区间为:个体Y预测值的区间估计和Y的总体均数的置信区间XYPIPICICIY总体均数的(1-)置信区间个体Y值的(1-)预测区间残差分析残差指观测值Yi与回归模型拟合值之差。

它反映模型与数据拟合优劣的信息。残差分析旨在通过残差深入了了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。残差图以X或Y为横轴,残差为纵轴,或者相反,绘制的散点图,称为残差图,残差有多种形式,如标准化残差,学生化残差,剔除残差等。如果样本数据每一点的残差以零为中心,均匀地散布在零的两侧,不呈现任何特殊的形状,那么我们认为,该样本数据满足拟合该模型的前提条件。凝血酶数据的回归残差图Y值非线性回归

一般而言,在自然界的生命现象中呈绝对的线性关系并不多见。很多情况下变量间的关系呈现非线性关系,此时,我们要采用非线性回归方法来分析这种变量间的关系。

非线性回归要比线性回归更能充分地表达变量间的关系,而且现在常用的统计软件包都能拟合非线性模型,所以非线性模型在当今显得越来越重要。

对自变量进行某种变量变换,把变量间的曲线关系变换为符合线性模型的关系,那么,就可以用线性模型的理论与计算方法来分析非线性回归模型。拟合非线性回归的常用方法---变换自变量非线性回归通过自变量的变换使非线性模型线性化---曲线直线化非线性回归如果是需对应变量进行变量变换,才能使非线性模型线性化,此时,不能采用变量变换的方法使曲线直线化而进行线性回归分析。这种情况下,应该采用非线性回归模型来拟合最正确模型。原因

因为对应变量变换后,采用线性模型进行分析,最小二乘原则只能保证变量变换后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论