




已阅读5页,还剩94页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章,双变量回归与相关LinearRegressionandCorrelation,何倩卫生统计学教研室,2020/6/7,2,1.数值变量的统计学描述和统计学推断2.分类变量的统计学描述和统计学推断,Review,前面各章我们讨论的问题,都只涉及到一个变量,如体重、血压、脉搏、血糖。,2020/6/7,3,指标变量之间关系的研究,糖尿病病人的血糖与其胰岛素水平的关系某人群年龄的变化与其收缩压的关系药物剂量与动物死亡率BRCA1和BRCA2基因型与乳腺癌发生的关系幽门螺旋杆菌感染与胃癌发病之间的关系。,2020/6/7,4,4,总体:无限或有限对变量值样本:从总体随机抽取的n对变量值(X1,Y1),(X2,Y2),(Xn,Yn)目的:研究X和Y的数量关系方法:回归与相关简单、基本直线回归、直线相关,双变量计量资料:,每个个体有两个变量值,什么是相关分析和回归分析?,变量之间的关系,关联性association,依存性relationship,常数:,数学模型:Y=f(X),相关分析,回归分析,2020/6/7,6,6,第一节直线回归Linearregression第二节直线相关Linearcorrelation第三节秩相关Rankcorrelation,Content,2020/6/7,7,第一节直线回归,一、直线回归的概念二、直线回归方程的求法三、直线回归中的统计推断,2020/6/7,8,一、直线回归的概念,Y应变量,响应变量(dependentvariable,responsevariable)X自变量,解释变量(independentvariable,explanatoryvariable)直线回归的形式:,2020/6/7,9,9,例9-1某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。,表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h),2020/6/7,10,年龄自变量(X);尿肌酐含量应变量(Y),样本回归方程,理论回归方程,(9-1),(9-2),2020/6/7,11,1.a为回归直线在Y轴上的截距。,a0:直线与纵轴的交点在原点的上方;a0:直线从左下方走向右上方,Y随X增大而增大;b0,b0,b=0,2020/6/7,13,Linear,Independent,Normal,Equal,L,I,N,E,2020/6/7,14,二、直线回归方程的求法,残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。,(X,Y),2020/6/7,15,最小二乘法(leastsquareestimation),(9-3),(9-4),保证各实测点至直线的纵向距离的平方和最小,2020/6/7,16,16,例9-1某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。,表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h),2020/6/7,17,2020/6/7,18,解题步骤,2020/6/7,19,19,X与Y的离均差积和,2020/6/7,20,20,2020/6/7,21,21,2020/6/7,22,回归系数和回归方程的意义及性质,b的意义a的意义的意义的意义的意义,2020/6/7,23,b的意义,斜率(slope)年龄每增加1岁,则尿肌酐平均增加0.1392(mmol/24h)b的单位为(Y的单位/X的单位),2020/6/7,24,a的意义,a截距(intercept,constant)X=0时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。,2020/6/7,25,估计值的意义,X=10时,=3.0537,即年龄为10岁儿童,其尿肌酐估计为3.0537(mmol/24h);给定X时,Y的估计值。当时,,2020/6/7,26,为残差:点到直线的纵向距离。,的意义,2020/6/7,27,残差平方和(residualsumofsquares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),的意义,2020/6/7,28,28,三、直线回归中的统计推断,样本回归方程,理论回归方程,0?,(一)回归方程的假设检验,2020/6/7,29,2020/6/7,30,1方差分析,X,P(X,Y),Y,应变量Y总变异的分解,2020/6/7,31,Y的总变异分解,未引进回归时的总变异:(sumofsquaresaboutthemeanofY)引进回归以后的变异(残差):(sumofsquaresaboutregression)回归的贡献,回归平方和:(sumofsquaresduetoregression),2020/6/7,32,Y的总变异分解,2020/6/7,33,检验统计量F,2020/6/7,34,34,式中,2020/6/7,35,35,方差分析实例(例9-2),2020/6/7,36,36,表9-2方差分析表,列出方差分析表如表9-2。,表9-2方差分析表,2020/6/7,37,2.t检验,回归系数的标准误,回归的剩余标准差,2020/6/7,38,t检验实例,2020/6/7,39,注意:,2020/6/7,40,回归问题的区间,回归系数的可信区间总体均数的可信区间个体Y值的预测区间,2020/6/7,41,知识点回顾,均数的可信区间:均数界值标准误个体的预测区间(参考值范围):均数界值标准差,2020/6/7,42,(二)总体回归系数的可信区间估计,根据t分布原理估计:0.13922.4470.0304(0.0648,0.2136)(mmol24h-1/岁),2020/6/7,43,的可信区间估计,根据t分布原理:,样本总体,Y的总平均给定X时Y的平均,2020/6/7,44,X0=12时,求的95%可信区间,=9.5,lXX=42,=0.1970。当X=12时,=1.6617+0.139212=3.3321,,2020/6/7,45,Y值的预测区间估计,给定X时Y的估计值是Y的均数的一个估计。给定X时Y值的预测区间是Y值的可能范围。Y值的100(1-)%预测区间:,2020/6/7,46,X0=12时,求Y的95%预测区间,=9.5,lXX=42,=0.1970。当X=12时,=1.6617+0.139212=3.3321,,2020/6/7,47,的可信区间与Y的预测区间,可信区间是针对条件均数的,而预测区间是针对Y的取值范围的。X=12时,的可信区间为:(3.080,3.584)(mmol24h),表示:年龄为12岁的儿童,估计其平均尿肌酐为3.3321,95可信区间为(3.080,3.584)(mmol24h)。X=12时,Y的预测区间为:(2.788,3.876)(mmol24h),表示:年龄为12岁的儿童,估计有95的儿童尿肌酐在(2.788,3.876)(mmol24h)之间。,2020/6/7,48,结论:,年龄为12岁的儿童,估计有95的儿童尿肌酐在(2.788,3.876)(mmol24h)之间,平均尿肌酐为3.3321,95可信区间为(3.080,3.584)(mmol24h)。,2020/6/7,49,95的可信区间与个体Y的预测区间图,2020/6/7,50,第二节直线相关,一、直线相关的概念二、相关系数的意义与计算三、相关系数的统计推断四、直线回归与相关应用的注意事项,2020/6/7,51,51,直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布(bivariatenormaldistribution)资料。目的:研究两个变量X,Y数量上的依存(或相关)关系。特点:统计关系,一、直线相关的概念,2020/6/7,52,52,二、相关系数的意义与计算,1.意义:相关系数(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。,2020/6/7,53,53,正相关,负相关,完全相关,零相关,2020/6/7,54,54,2.计算:样本相关系数的计算公式为,(9-18),2020/6/7,55,表9-315例正常成年人体重(kg)与双肾总体积(ml)的测量值,例9-5某医师测量了15名正常成年人的体重(kg)与CT双肾总体积(ml)大小,数据如表9-3所示。据此回答两变量是否有关联?其方向与密切程度如何?,2020/6/7,56,第一步:绘制散点图,2020/6/7,57,57,由公式算得,,按公式(9-18),第二步:计算,lxx=2555.733,lyy=20270.495,lxy=6301.038,2020/6/7,58,58,三、相关系数的统计推断,(一)相关系数的假设检验,(9-19),2020/6/7,59,59,检验步骤,本例n=15,r=0.8754,按公式(9-19),同一资料,tr=tb,2020/6/7,60,60,(二)总体相关系数的可信区间,2020/6/7,61,61,具体步骤如下:,2020/6/7,62,62,例9-7对例9-5所得r值,估计总体相关系数的95%可信区间。,再按公式(9-22)将z作反变换,得到双肾总体积与体重的总体相关系数95%可信区间为(0.6584,0.9579)。,2020/6/7,63,63,决定系数(coefficientofdetermination),定义为回归平方和与总平方和之比,计算公式为:,(9-23),取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。,2020/6/7,64,64,2020/6/7,65,Acorrelationcoefficientwascalculatedatthefirstanniversary,四、直线回归与相关应用的注意事项,2020/6/7,66,66,1根据分析目的选择变量及统计方法,直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分;直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。,2020/6/7,67,67,2020/6/7,68,68,2进行相关、回归分析前应绘制散点图第一步,(1)散点图可考察两变量是否有直线趋势;(2)可发现离群点(outlier)。,散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。,2020/6/7,69,69,3资料的要求,直线相关分析要求X与Y服从双变量正态分布;直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;*对于双变量正态分布资料,根据研究目的可选择由X估计Y或者由Y估计X,一般情况下两个回归方程不相同)。,e,0,残差示意图,0,0,0,0,e,e,e,e,2020/6/7,72,72,反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。,4结果解释及正确应用,2020/6/7,73,第三节秩相关(非参数统计方法),一、适用条件二、Spearman秩相关,2020/6/7,74,74,一、适用条件,双变量计量资料:资料不服从双变量态分布;总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。,2020/6/7,75,75,二、Spearman秩相关,1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。,2020/6/7,76,76,3.计算公式,(9-25),(9-26),(P721),2020/6/7,77,77,2020/6/7,78,78,表9-4某省1995年到1999年居民死因构成与WYPLL构成,2020/6/7,79,79,检验步骤,2020/6/7,80,80,二、相同秩较多时rs的校正,公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。,(9-27),2020/6/7,81,81,、,(9-18),PiXQiY,2020/6/7,82,SPSS的实现数据库(例9-1),2020/6/7,83,SPSS的实现(散点图制作)分析步骤,GraphsScatter/Dot
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2313-2025多参数在线激光粒度仪校准规范
- 2025年福州东盟海产品交易所有限公司总经理职位职业经理人市场化选聘考前自测高频考点模拟试题及参考答案详解一套
- 2025福建三明大田县公开招聘紧缺急需专业教师7人考前自测高频考点模拟试题及1套完整答案详解
- 小学安全培训收费标准表课件
- 2025年临沂兰陵县教育系统部分事业单位公开招聘教师(5人)考前自测高频考点模拟试题有答案详解
- 2025江苏连云港市海州湾发展集团有限公司及子公司招聘20人考前自测高频考点模拟试题及完整答案详解
- 2025广东广州市中山大学孙逸仙纪念医院超声科医教研岗位招聘模拟试卷及答案详解(历年真题)
- 安全培训教学课件制作
- 2025江西吉安市直三家公立医院编外招聘33人考前自测高频考点模拟试题附答案详解(黄金题型)
- 2025福建省高速公路集团有限公司招聘43人考前自测高频考点模拟试题及参考答案详解
- 临床医师定期考核必刷题库及答案(一)
- 职业本科《大学英语》课程标准
- 2024年承包建设工程合同
- 英语语法课程教学大纲
- 《陆上风电场工程概算定额》NBT 31010-2019
- 水平四初中羽毛球大单元教学教案(18课时)
- 2024年河北石家庄市高速公路集团限公司面向社会公开招聘收费人员150名公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 酒店住宿抵款协议书
- 【基于WBS分解图的工程项目施工进度管理与优化案例探析22000字(论文)】
- 配电箱安全专项教育培训课件
- 智慧医保监管一体化平台建设方案
评论
0/150
提交评论