




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Linear regression线性回归线性回归易洪刚易洪刚Department of Epidemiology & Biostatistics, School of Public Health Nanjing Medical University两指标间的关系分析两指标间的关系分析 直线相关分析直线相关分析 (Linear Correlation Analysis) 直线直线回归分析回归分析 (Linear Regression Analysis) 总结总结 (Summary)CONTENTS直线回归分析直线回归分析(linear regression analysis) 1 引言 2 回
2、归方程的建立 3 回归系数和回归方程的意义及性质 4 回归系数的假设检验 5 应变量总变异的分解 6 回归问题的方差分析 7 与直线回归有关的区间估计 8 过定点的直线回归 9 直线回归与直线相关的区别与联系 10 回归分析的正确应用 11 实例详解引言引言 对于对于2 2岁时的身高和成年后身高间的关系岁时的身高和成年后身高间的关系, ,相关关系;相关关系; 即便具有即便具有相同相同的的2 2岁身高,成年后的身高也岁身高,成年后的身高也不一定相不一定相同同; 2岁身高X与成年后身高Y的散点图Y 成年后的身高(英寸)X 两岁时的身高(英寸)3032343638406365676971引言 对于女
3、大学生的体重和肺活量间的关系对于女大学生的体重和肺活量间的关系 即便具有即便具有相同相同的体重,肺活量也的体重,肺活量也不一定相同不一定相同;Y 肺活量(L)X 体重(kg)40602.04.03.02.53.5504555女大学生体重(X)与肺活量(Y)的散点图折衷的解释折衷的解释 2岁身高影响成年的身高,但并非确定地决定它岁身高影响成年的身高,但并非确定地决定它(determine it exactly) ; 女学生的体重虽然影响了肺活量;但并非确定女学生的体重虽然影响了肺活量;但并非确定地决定它;地决定它; 因此,虽然它们之间因此,虽然它们之间有数量关系有数量关系,但并非,但并非确定确定
4、性的性的数量关系。数量关系。 是一种是一种非确定性关系非确定性关系;一种宏观的关系!;一种宏观的关系! 回答回答“变量之间是什么变量之间是什么数量数量关系?关系?“; 宏观上来讲,他们呈直线关系,但并不能用宏观上来讲,他们呈直线关系,但并不能用来描述。所以我们用回归方程:来描述。所以我们用回归方程:“hat”表示估计值,给定表示估计值,给定x时时y的的条件均数。条件均数。YabXYabX2 直线回归方程的建立直线回归方程的建立2 直线回归方程的建立直线回归方程的建立 Y 因变量因变量 (dependent variable, response variable) X 自变量自变量 (indep
5、endent variable, explanatory variable) 直线回归的形式:bXaY 不同斜率时回归直线的表现不同斜率时回归直线的表现0YabXb0YabXbXY0YabXb2 直线回归方程的建立直线回归方程的建立 最小二乘法(least square estimation)XXXYllXXYYXXb 2)()(XbYa YabX 例例 某地某地10名三岁儿童体重与体表面积名三岁儿童体重与体表面积 X Y (体重体重,kg) (体表面积体表面积,103cm2 )11.0 5.28311.8 5.29912.0 5.35812.3 5.29213.15.60213.7 6.01
6、414.4 5.83014.9 6.10215.2 6.07516.0 6.41110名3岁男童体重与体表面积散点图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)体重与体表面积的回归体重与体表面积的回归9396. 55439. 19040.247266. 544.13XYYYXXlllY X )/10(2385. 09040.249396. 5 23kgcmllbXXXY XY2385. 05212. 2 5212. 20.238513.44-5.7266 a回归直线的绘制回归直线的绘制 计算不太接近的两点的计算不太接近的两点的Y值:值: X=12k
7、g时时 Y=2.5212+0.238512=5.3832(103cm2) X=15kg时时 Y=2.5212+0.238515=6.0987(103cm2)XY2385. 05212. 2 10名3岁男童体重与体表面积回归图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)XY2358. 05211. 2 3 回归系数和回归方程的意义及性质回归系数和回归方程的意义及性质 b 的意义 a 的意义 的意义 的意义 的意义bXaY YY21niiiYY Yb 的意义 斜率斜率(slope) 体重与体表面积的关系体重与体表面积的关系 2.5212 + 0.238
8、5 X 体重每增加体重每增加 1 kg, 则体表面积则体表面积平均平均增加增加 0.2385(103cm2)n b 的单位为的单位为 (Y的单位的单位/X的单位的单位)Ya 的意义bXaY a 截距(intercept, constant) X=0 时,Y的估计值 A的单位与Y值相同 当X可能取0时,a才有实际意义。估计值 的意义 X=11时时, =5.145, 即体重为即体重为 11 kg 的三岁男童的三岁男童, 其平均体表面积之其平均体表面积之估计为估计为 5.145 (103cm2); X=15时,时, =6.099, 即体重为即体重为 15 kg 的三岁男童的三岁男童, 其平均体表面积
9、之其平均体表面积之估计为估计为 6.099 (103cm2). 给定给定X时,时,Y的估计值。的估计值。 当当 时,时,YYYXX YY 由体重(kg)估计体表面积(103cm2 ) X Y Y 的估计值的估计值 (体重体重,kg) (体表面积体表面积)11.0 5.2835.14511.8 5.2995.33612.0 5.3585.38312.3 5.2925.45513.1 5.6025.64613.76.0145.78914.4 5.8305.95614.9 6.1026.07515.2 6.0756.14616.0 6.4116.3372 5211 0 2358Y .XY 体重增量(
10、g)X 进食量(g)6007008009001000110120130140150160170180190 的意义23.94720.2305YX YY 为残差为残差(residual) :点到直线的纵向距离点到直线的纵向距离YY 残差平方和残差平方和 (residual sum of squares). 综合表示点距直线的距离。综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最在所有的直线中,回归直线的残差平方和是最小的。小的。(最小二乘最小二乘) 的意义2(YY ) XXXYYYlllYY22 点到直线的距离点到直线的距离bXaY YY 1112131415165.05.56
11、.06.51lY 2lY 点到回归直线的纵向距离平方和为最小!点到回归直线的纵向距离平方和为最小!直线回归系数的直线回归系数的t检验检验 回归系数也有抽样误差!回归系数也有抽样误差! 检验方法检验方法针对回归系数针对回归系数b的检验:的检验:t检验检验针对回归方程的检验:针对回归方程的检验:F检验检验4 回归系数的假设检验回归系数的假设检验总体回归系数总体回归系数 =0,则回归关系不存在,则回归关系不存在。 H0:总体回归系数为0, =0; H1:总体回归系数不为0,0; =0.05。回归系数的回归系数的 t 检验检验 22. nYYslssXYXXXYb 2 0 nsbtbb ,Y的剩余标准
12、差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度体重与体表面积回归系数的假设检验 H 0:总体回归系数:总体回归系数 0,即体重与体表面积无回归关系;,即体重与体表面积无回归关系;H 1:总体回归系数:总体回归系数 0,即体重与体表面积有回归关系。,即体重与体表面积有回归关系。 =0.05。 0.0001P 8, ,435. 902528. 02385. 002528. 09040.241262. 01262. 0810127318. 0 ,127318. 0.2 vtssYYbbXY体重与体表面积间存在回归关系。回归系数与相关系数的假设检验回归系数与相关系数的假设检验rbtt 结果等
13、价5 因变量总变异的分解因变量总变异的分解X P (X,Y)YY)(YY )( YYY)(YY YYYYY-=-YY+-iiiY YY Y-=-iY Y+-5 因变量总变异的分解因变量总变异的分解SS总SS剩SS回2YY2YY2YY+ Y的总变异分解的总变异分解 未引进回归时的总变异:未引进回归时的总变异: (sum of squares about the mean of Y) 引进回归以后的变异引进回归以后的变异(剩余剩余): (sum of squares about regression) 回归的贡献,回归平方和:回归的贡献,回归平方和: (sum of squares due to
14、regression) 2)(YY 2)(YY 2)(YYY的总变异分解的总变异分解 222 YYYYYY 剩回总SSSSSS 剩回总 总回归决定系数SSSSr 2 总n1 回1 剩余n2 Y的总变异可以用回归来解释的部分即与X有关的部分不能用X来解释的部分即与X无关的部分(随机误差)份额的大小可以用相关系数的平方来衡量(决定系数)6 回归方程的方差分析回归方程的方差分析6 回归方程的方差分析回归方程的方差分析SS/SS/MSFMS回归回归回归剩余剩余剩余6 回归问题的方差分析回归问题的方差分析 H 0:体重与体表面积间无直线回归关系;:体重与体表面积间无直线回归关系; H 1:体重与体表面积
15、间有直线回归关系。:体重与体表面积间有直线回归关系。 = 0.05。 lXX=24.9040,lYY=1.5439,lXY=5.9396, SS总总= lYY=1.5439SS剩剩 = lYY lXY / lXX=0.1273 SS回回 = SS总总-SS剩剩=1.5439-0.1273=1.4166方差分析表方差分析表变异来源变异来源 SS v MS F P 回回 归归 1.4166 1 1.4166 89.01 0.001 剩剩 余余 0.1273 8 0.0159 总变异总变异 1.5439 99175. 05439. 14166. 19579. 022 r今今11,28,查附表的,查附
16、表的F界值表,得界值表,得P0.001,按,按=0.05的检验水准拒绝的检验水准拒绝H0,接受,接受H1,认为体重与体表面,认为体重与体表面积间存在直线回归关系。积间存在直线回归关系。 直线回归中三种假设检验间的关系直线回归中三种假设检验间的关系 在直线回归中,相关系数的假设检验,在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程回归系数的假设检验,以及回归方程的方差分析结果等价。的方差分析结果等价。Fttbr 剩余标准差剩余标准差 22 nYYsXY (1) 扣除了X的影响后,Y方面的变异;(2) 引进 回归方程后, Y方面的变异。 名词辨析: Y的变异 Y本身的变异 Y 体
17、重增加量(g)X 进食量(g)600 650 700 750 800 850 900 950120140160180200154.42gSY22.63iiYY0SY.X12.39剩余标准差剩余标准差7 与直线回归有关的区间估计与直线回归有关的区间估计 回归系数的可信区间估计回归系数的可信区间估计 估计值估计值 的可信区间估计的可信区间估计 个体个体Y值的容许区间估计值的容许区间估计Y复习复习 可信区间可信区间 容许区间容许区间 均数的可信区间:均数的可信区间: 均数均数 界值界值标准误标准误 个体的容许区间个体的容许区间( (参考值范围参考值范围): ): 均数均数 界值界值标准差标准差 总体
18、回归系数总体回归系数 的可信区间估计的可信区间估计 根据根据 t t 分布原理估计分布原理估计:2 0 nsbtbb ,bnstb2, 试用体重与体表面积的资料所计算的样本回归系试用体重与体表面积的资料所计算的样本回归系数数b0.2385,估计其总体回归系数,估计其总体回归系数的的95%可信可信区间区间。 已知已知 0.02528bs 总体回归系数总体回归系数的的95%可信区间的上下限为可信区间的上下限为0.05,60.23850.025280.1802,0.2968t含义含义 :用:用0.18020.2968(103cm2/kg)来估计体重与体表面积间的直线回归系数,可信度为来估计体重与体表
19、面积间的直线回归系数,可信度为95。总体回归系数总体回归系数 的可信区间估计的可信区间估计 的可信区间估计的可信区间估计 Y 样本样本 总体总体Y Y的总平均的总平均给定给定X X时时Y Y的平均的平均 (Y的条件均数的条件均数) YYY 22.2,2,)()(1XXXXnstYstYXYnYn 根据根据 t t 分布原理分布原理:X=12时,求 的95%可信区间 =13.44, lXX=24.9040, =0.1262。 当X=12时, =5.3832,Y XXYs. Y05400904024124413101126202.).(.sY 则则X12kg时,时, 的的95%的可信区间为的可信区
20、间为Y含义:即体重为含义:即体重为12kg的的3岁男童,估计其平均体表面积为岁男童,估计其平均体表面积为5.3832(103cm2/kg),95可信区间为可信区间为(5.2587,5.5077) (103cm2/kg)。 的可信区间估计的可信区间估计 Y)10)(5077. 5 ,2587. 5(0540. 0306. 23832. 5232,cmstYYn Y的容许区间估计的容许区间估计 给定给定 X 时时 Y 的估计值是的估计值是 Y 的均数的一个估计。的均数的一个估计。 给定给定X 时时 Y 值的容许区间是值的容许区间是 Y 值的可能范围。值的可能范围。 Y的的100(1- )%容许限容
21、许限: 22.2,2,)()(11XXXXnstYstYXYnYn 试用体重与体表面积的资料所计算的样本回归系试用体重与体表面积的资料所计算的样本回归系数数b0.2385,计算,计算12kg时时 Y的的95的容许区间。的容许区间。此时此时Y的的95容许区间为容许区间为即体重为即体重为12kg的的3岁男童,估计有岁男童,估计有95的人体表面积在的人体表面积在5.0666到到5.6998 (103cm2/kg)之间。之间。 1373. 09040.24)1244.13(10111262. 02Ys5.3832 2.306 0.1372=5.06665.6998 的可信区间与的可信区间与Y的容许区间
22、的容许区间 可信区间是针对条件均数的,而容许区间是针对可信区间是针对条件均数的,而容许区间是针对Y的取值的取值范围的。范围的。 X=12时,时, 的可信区间为:的可信区间为:5.25785.5077(103cm2), 表示表示:体重为:体重为12kg的的3岁男童,估计其平均体表面积为岁男童,估计其平均体表面积为5.3832,95可信区间为可信区间为(5.2587,5.5077) (103cm2)。 X=12时,时,Y的容许区间为:的容许区间为:5.06665.6998(103cm2), 表示表示:体重为:体重为12kg的的3岁男童,岁男童, 估计有估计有95的人其体表的人其体表面积在面积在5.
23、06665.6998 (103cm2)之间。之间。Y Y可信区间与容许区间示意可信区间与容许区间示意(confidence band & tolerance band)1112131415164.55.05.56.06.57.08 过定点的直线回归 例 在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液,消化后测定其荧光强度,试作标准直线。 含硒量(g)X 荧光强度Y0.0000.000.0254.360.0509.310.10017.130.15025.030.20033.22过定点(X0,Y0)的直线回归方程的直线回归方程bXbXYYXXbYY )()(0000bXXbYY )(一般的直线回归方程(过X的均数和Y的均数):过定点(X0,Y0)的直线方程估计的直线方程估计 1)()()()()()()()(2.20200202200000 nYYsXXYYXXYYYYXXYYXXbXXbYYXY不同硒含量所得荧光强度的过定点的回归 荧荧光光强强度度Y0 0.025 0.05 0.075 0.1 0.125 0.15 0.175 0.2 0 5 10 15 20 25 30 35 硒含量硒含量X ( g)XY7488.167 10 直线回归与直线相关的区别与联系直线回归与直线相关的区别与联系 联系联系均表示线性关系;均表示线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消费者权益保护法的实施效果研究试题及答案
- 2025年企业战略变革试题及答案
- 伪随机数生成考试考题及答案
- 抖音双十一活动策划方案
- 2025年云计算应用考试试题及答案
- 计算机技术员考试试题及答案概述
- 项目合同协议书
- 新疆出入境边防检查总站所属事业单位2025年度公开招聘笔试和合格分数线笔试历年典型考题及考点剖析附带答案详解
- 公共关系技巧的训练计划
- 行政法学的评估标准及试题及答案
- 新课标背景下“教学评一体化”评的策略
- GB/T 44672-2024体外诊断医疗器械建立校准品和人体样品赋值计量溯源性的国际一致化方案的要求
- 一年级上册体育教学设计 -快速跑 人教版 17张
- DB34∕T 3345-2019 马尾松立木材积表
- 静脉血栓栓塞症(VTE)的-预防与护理
- 高等数学(第五版)课件 5.1 定积分的概念与性质
- 中建三局三公司安装分公司劳务企业定额
- 二轮复习3:阿氏圆反演变换秒杀
- 中层干部管理能力提升课件
- 二手房买卖意向合同协议
- 餐饮员工手册和规章制度
评论
0/150
提交评论