医学统计学第十章 简单回归分析_第1页
医学统计学第十章 简单回归分析_第2页
医学统计学第十章 简单回归分析_第3页
医学统计学第十章 简单回归分析_第4页
医学统计学第十章 简单回归分析_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

章简单回归分析1

第一节简单线形回归第二节线形回归的应用

主要内容2

学习目标

①了解回归分析的基本思想。②熟悉线性回归的基本步骤;求解回归方程中参数估计量a和b值所遵循的策略—最小二乘原则。③掌握简单线性回归的基本概念;回归模型的前提假设;回归系数的含义、计算方法及假设检验。3教学重点线性回归模型的前提假设线性回归分析的基本步骤回归方程的解释4第一节简单线性回归

LinearRegressionAnalysis5为研究大气污染一氧化氮(NO)的浓度是否受到汽车流量、气候状况等因素的影响,选择24个工业水平相近的一个交通点,统计单位时间过往的汽车数(千辆),同时在低空相同高度测定了该时间段平均气温(℃)、空气湿度(%)、风速(m/s)以及空气中一氧化氮(NO)的浓度(×

),数据如表10-1所示。【例10.1】6表10-124个城市交通点空气中NO浓度监测数据7资料类型:定量资料;研究目的:了解一氧化氮浓度与汽车流量、气候状况等因素之间的依存关系。【案例解析】8一、回归分析的基本概念回归(Regression)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围9函数关系:它反映着现象之间严格的数量化依存关系,也称确定性的依存关系。如圆的面积和半径的关系。回归关系:变量之间存在着不确定、不严格的依存关系,即对于一个变量的某个数值,可以有另一变量的若干数值与之相对应R1R2R310回归关系的几个例子父亲身高y与子女身高x之间的关系收入水平y与受教育程度x之间的关系体重y与身高x1、胸围x2之间的关系体表面积y与体重x之间的关系商品销售额y与广告费支出x之间的关系11回归分析(Regressionanalysis)从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出具有统计学意义的变量;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。12自变量与因变量自变量(independentvariable)

能独立自由变化的变量一般用X表示因变量(dependentvariable):

非独立的、受其它变量影响的变量一般用Y表示c)x与y确定原则

13回归分析反应变量的类型线性回归定量变量二分类logistic回归…二分类变量多分类logistic回归…多分类变量有序logistic回归…等级变量回归分析的种类14解释变量的个数1个→简单回归2个或以上→多重回归X和Y有无线性关系→线性回归→非线性回归简单线性回归回归分析的种类15简单线性回归模型描述y如何依赖于x和误差项

的方程称为回归模型简单线性回归模型可表示为y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项

是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性0

和1

称为模型的参数16二、简单线性回归分析回归模型的基本假设1.线性(linear)2.独立(independent)3.正态(normal)4.等方差(equalvariance)LINE17

线性(linear)指反应变量Y的总体平均值与自变量X呈线性关系。独立(independent)指任意两个观察值互相独立。正态(normal)假定线性模型的误差项服从正态分布。等方差(equalvariance)是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。18

图1回归模型前提假设示意图19回归分析的方法步骤绘制散点图求回归系数和常数项回归系数和常数项的假设检验列出回归方程,并进行假设检验回归方程的解释20(一)绘制散点图图2车流量与空气中NO浓度关系散点图从散点图可见:车流量与空气中NO浓度有线性关系,可以考虑做线性回归分析。21(二)求回归系数和常数项22系数估计公式:回归方程:截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。231801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。2425本例中b=0.1584;a=-0.135326参数β的意义:若自变量X增加1个单位,反应变量Y的平均值便增加β个单位。β=0,说明Y与X之间并不存在线性关系;β≠0,说明Y与X之间存在线性关系。理由:从β=0的总体抽得样本,计算出的回归系数b很可能不为零。方法:回归系数的假设检验可通过t检验实现。(三)回归系数和常数项的假设检验27t检验2829(四)回归方程的假设检验目的:检验求得的回归方程在总体中是否成立;方法:单因素方差分析。30因变量

y的取值是不同的,y取值的这种波动称为变异。变异来源:因自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差来表示变异(变差)及其分解31xyy{}}32SST(总平方和){SSR(回归平方和)SSE(残差平方和)){{SSRSSESSTSSRSSTR233SST是指没有利用X的信息时,Y观察值的变异;SSE反应回归方程未能解释的那部分变异;SSR反应回归方程解释的那部分变异。决定系数(R2)=SSR/SST,反应了Y的总变异中回归关系所能解释的百分比,R2越大,说明构建的回归方程越好。34表3简单线性回归模型方差分析表35

查F界值表,得P<0.05,说明构建的回归方程具有统计学意义。研究表明,车流量和空气中NO浓度存在着线性依存关系:车流量每增加100辆(0.1千辆),空气中NO浓度平均可能增加0.01584×(五)回归方程的解释36线性回归分析的SPSS过程:Analyze→Regression→LinearDependentlist框→YIndependentlist框→X1OK37线性回归分析的结果:38第二节

线形回归的应用39一、总体回归线的95%置信带二、个体Y预测值的区间估计40

一、总体回归线的95%置信带41

42二、个体Y预测值的区间估计总体中,当XP为某一固定值时,个体Y值围绕着对应于XP值的总体均数波动,其分布的标准差按下式估计:43

44

图5空气中NO浓度(Y)与车流量(X)回归线的95%置信带与Y个体值的95%预测带45直线回归方程的应用(一)定量描述两变量之间的依存关系。(二)利用回归方程进行预测。(三)利用回归方程进行统计控制。46简单线性回归分析的注意事项1.要注意实际意义;2.绘制散点图观察两变量的关系以及找出异常点;3.注意自变量和因变量的变化范围。47小结相关分析是用来描述两变量的相关关系,当两变量满足双变量正态分布时,可以计算Pearson积差相关系数,如果有任何一个变量不满足正态分布或为等级资料,需计算Pearson等级相关系数。而回归分析是用来刻画两变量的依存关系,它要求资料满足LINE(线性、独立、正态和等方差),二者之间既有联系又有区别。484950【案例讨论】年龄与身高预测研究。某地调查了4~18岁男孩与女孩身高,数据见下表,试描述男孩与女孩身高与年龄间的关系,并预测10.5岁、16.5岁、19岁与20岁男孩与女孩的身高。表10-4某地男孩与女孩平均身高与年龄的调查数据51采用SPSS对身高与年龄进行回归分析,结果如表10-5和表10-6所示。表10-5男孩身高对年龄的简单线性回归分析结果?估计值标准误tPconstant83.73631.882444.48390.0000age5.27480.167631.47980.000052?估计值标准误tPconstant88.43263.280026.96110.0000age4.53400.292015.52900.0000表12-6女孩身高对年龄的简单线性回归分析结果53经拟合简单线性回归模型,t检验结果提示回归方程有非常显著的统计学意义。结果提示,拟合效果非常好,故可认为:(1)男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5.27㎝,4.53㎝,男孩生长速度快于女孩的生长速度。(2)依照回归方程预测该地男孩10.5、16.5、19和20岁的平均身高依次为139.12、170.77、183.96和189.23㎝,该地女孩10.5、16.5、19和20岁的平均身高依次为136.04、163.24、174.58和179.11㎝.54针对以上分析结果,请考虑:(1)分析过程是否符合回归分析的基本规范?(2)回归模型能反映数据的变化规律吗?(3)拟合结果和依据回归方程而进行的预测有问题吗?(4)男孩生长速度快于女孩生长速度的推断是否有依据?55案例辨析未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间呈现某种曲线变化趋势,用简单线性回归方程去描述其变化规律就是不妥当的。正确做法分析策略:作散点图,选择曲线类型,合理选择模型,统计预测。56(1)作散点图5758由图3,4可见,随着年龄的增加,身高也增加,但呈曲线变化趋势,15~16岁后,增加趋势逐渐趋于平缓。因此适合于拟合曲线回归方程。(2)选择曲线类型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论