预防医学考研资料-山大协和版-简单回归分析101208_第1页
预防医学考研资料-山大协和版-简单回归分析101208_第2页
预防医学考研资料-山大协和版-简单回归分析101208_第3页
预防医学考研资料-山大协和版-简单回归分析101208_第4页
预防医学考研资料-山大协和版-简单回归分析101208_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问题提出第十一章我们学习了两变量的关联性分析,要求对每一个研究对象同时观测两个指标,数据是成对出现的,两个指标之间是平等的,不存在因变量和自变量的关系,关联性分析探讨的是两变量之间的互依关系。如果要讨论变量之间的依存关系,一个变量随另一个变量的数量变化而变化,这时就存在因变量和自变量的关系,应当用什么方法进行分析?两变量的简单回归分析〔直线回归分析〕★1.掌握直线回归的根本概念。2.熟悉直线回归方程的建立。★3.掌握回归系数的假设检验。4.了解直线回归方程的应用。★5.掌握直线相关和直线回归的联系与区别。主要内容回归(regression)的由来Ŷ=33.73+0.516XGoltonPearson统计的根本问题在于“由过去的数据来推断未来会发生什么事〞。例11-1在某地一项膳食调查中,随机抽取14名40-60岁的健康妇女,测得每人的根底代谢(kj/d)与体重的数据,见表11-1。据此数据如何判断这两项指标间有无相关?Ŷ=1106.7864+61.4229XŶ=a+bX14名中年健康妇女根底代谢与体重测量值的关系3000350040004500500055006000354045505560657075体重〔kg〕根底代谢〔(Kj/d〕一、线性回归的根本概念Ŷ=a+bX

直线回归方程(Linearregressionequation)X:自变量(independentvariable)Y:因变量(dependentvariable)Ŷ:实测Y值的估计值(theestimationofY)a:截距(intercept)b:回归系数(regressioncoefficient)1.直线回归方程中的符号及其含义:三、回归参数的估计简单线性回归模型:1.回归模型:Yi

是实测Y值。α是模型的截距。β是的模型总体回归系数(斜率)。Xi是X的实测值。ε是残差(residual),ei=Yi-Ŷi。样本线性回归方程:通常情况下研究者只能获取一定数量的样本数据,用该样本数据建立的有关X与Y变化的线性表达式为回归方程。总体线性回归模型:估计Ŷ=a+bX14名中年健康妇女根底代谢与体重测量值的关系3000350040004500500055006000354045505560657075体重〔kg〕根底代谢〔(Kj/d〕14名中年健康妇女的根底代谢与体重测量值的关系3000350040004500500055006000354045505560657075体重〔kg〕根底代谢〔Kj/d〕2.回归参数估计的最小二乘(LSE)原那么:参数α和β统计量a和b适宜统计量a和b3.回归参数的估计步骤:例11-1在某地一项膳食调查中,随机抽取14名40-60岁的健康妇女,测得每人的根底代谢(kj/d)与体重的数据,见表11-1。据此数据如何判断这两项指标间有无相关?(1)由样本数据绘制散点图:14名中年健康妇女根底代谢与体重测量值的散点图3000350040004500500055006000354045505560657075体重〔kg〕根底代谢〔(Kj/d〕(2)回归分析的根本计算公式:(3)由样本数据计算根本统计量:(4)带入公式计算回归系数b:回归系数b的意义:当自变量X每变动一个单位时,因变量Y相应平均变动的单位数。(5)带入公式计算回归方程的截距a:(6)最小二乘原那么下的回归方程:(7)绘制回归图形:此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读取的值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。14名中年健康妇女根底代谢与体重测量值的散点图3000350040004500500055006000354045505560657075体重〔kg〕根底代谢〔Kj/d〕☆☆(XY)Ŷ=1106.7864+61.4229X四、总体回归系数β的统计推断建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须答复它所来自的总体的直线回归关系是否确实存在,即是否对总体有β≠0?Attention:

由样本信息得出的结论一定要经过假设检验!1.总体回归系数β的假设检验:(t检验法)回归系数b的标准误(1)回归系数b的标准误:Ŷ的标准误(standarderrorofestimate)2)计算检验统计量t值:

1)建立假设,确定检验水准α:H0:β=0,H1:β≠0α=0.053)确定P值,下结论:

P<0.05,拒绝H0,认为有统计学意义,总体回归系数β≠0。可以认为健康妇女的根底代谢与体重有直线关系。(2)假设检验的根本步骤:2.总体回归系数β的假设检验:(F检验法)方差分析的根本思想:根据变异的来源将总变异分解,同时相应的将自由度进行分解,计算各局部的均方(方差),计算F值,判断有无统计学意义。(X,Y)(2)总变异的分解:总变异残差回归的变异如果两变量间总体回归关系确实存在,回归的奉献就要大于随机误差〔残差〕,大到何种程度时可以认为具有统计意义?(3)可计算统计量F:查F界值表,得,P<0.05。按α=0.05水准拒绝,拒绝H0,可以认为健康妇女的根底代谢与体重有直线关系。(4)确定P值,下结论:4.总体回归系数β的置信区间估计:总体回归系数β的(1-α)双侧可信区间为:总体回归系数β的95%双侧可信区间为:五、决定系数(CoefficientofDetermination)

决定系数R2:回归平方和与总平方和之比,表示回归引起的变异在总变异中所占比重的大小,反映了回归的相对奉献。取值在0到1之间且无单位,取值越大,在Y的总变异中回归关系所能解释的百分比越大,回归的效果越好。其计算公式为:决定系数R2与变异度之间的关系:六、线性回归的应用统计预测统计控制1.Y的总体均数的置信区间:

给定X=Xp,由样本回归方程算出的Ŷp,只是Y的总体均数的一个点估计Ŷp=a+bXp。Ŷp会因样本而异,存在抽样误差,其标准误为:Y总体均数95%置信区间为:

例12-1X1=1.1时,Y的总体均数95%的置信区间为:依此类推可以计算所有X取值时Y的总体均数的置信区间。NO.实测值X实测值Y预测值均值Ŷ均值的标准误Y均值的95%CIY值的95%预测区间残差下限上限下限上限11.11414.09570.159913.750214.441212.961815.2297-0.095721.21313.39770.215912.931313.864112.221214.5741-0.397731.01514.79370.130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.750214.441212.961815.2297-0.095770.91615.49170.143615.181515.802014.368016.61550.508380.61717.58580.325616.882518.289216.296918.8747-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937100.91615.49170.143615.181515.802014.368016.61550.5083111.11514.09570.159913.750214.441212.961815.22970.9043120.91615.49170.143615.181515.802014.368016.61550.5083131.11414.09570.159913.750214.441212.961815.2297-0.0957141.01514.79370.130014.512815.074713.677715.90970.2063150.71716.88780.255316.336317.439315.675118.10050.1122表12-2血凝数据的预测值、残差、置信区间与预测区间图12-4总体回归线的95%置信带示意图(XY)2.个体Y预测值的区间估计:

所谓预测就是把预报因子〔自变量X〕代入回归方程对总体中预报量〔应变量Y〕的个体值进行估计。给定X=Xp,对应的个体Y值也存在一个波动范围。其标准差的计算公式为:个体Y预测值的区间(PredictionInterval,PI):

例12-1中X1=1.1时,Y的预测值的标准差为:例12-1中X1=1.1时,Y的预测值的预测区间为:14.0957±2.16×0.5249=12.9618~15.2297当同时考虑X的所有可能取值时,个体Y值的95%预测区间形成一个带子,称为Y值的95%预测带,它比总体回归线95%置信带更宽。图12-5和图12-6同时显示个体Y值的预测带与总体回归线的置信带,可见,在相同信度下,个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。图12-5总体回归线的95%置信带与Y值95%预测带示意图图12-6凝血酶浓度(X)与凝血时间(Y)回归线的95%置信带与Y值95%预测带六、直线相关与直线回归的关系两者之间的区别:(1)资料的要求不同:回归要求因变量Y服从正态分布,自变量X可以精确测量和严格控制;相关要求双变量服从正态分布。(2)应用不同:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论