版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章章 双变量回归与相关双变量回归与相关 simple linear regression and correlation 回归分析与相关分析回归分析与相关分析 变量间关系问题变量间关系问题:年龄年龄身高、肺活量身高、肺活量体重、体重、药物剂量与动物死亡率等药物剂量与动物死亡率等。两个关系:两个关系:(1) 依存关系依存关系:应变量:应变量(dependent variable)Y随自变量随自变量(independent variable)X变化而变化。变化而变化。 回归分析回归分析(2) 互依关系:互依关系: 应变量应变量Y与自变量与自变量 X间间的彼此关系的彼此关系 相关分析相关分析本章
2、内容本章内容 第一节第一节 直线回归直线回归 第二节第二节 直线相关直线相关 第三节第三节 Spearman等级相关等级相关 (秩相关)(秩相关) 第四节第四节 秩回归秩回归 第五节第五节 加权直线回归加权直线回归 第六节第六节 两条回归直线的比较两条回归直线的比较 第七节第七节 曲线回归曲线回归第一节第一节 直线回归直线回归: 确定。例如确定。例如 园周长与半径:园周长与半径: y=2r :不确定。例如血压和年龄的关系,称为:不确定。例如血压和年龄的关系,称为直线直线回归回归(linear regression)。 目的目的: 建立直线回归方程建立直线回归方程 ( linear regres
3、sion equation)一、直线回归的概念一、直线回归的概念“回归回归”名称的由来名称的由来33.730.516YX小插曲:为什么叫”回归“? F. Galton K.Pearson7570656075706560height of fatherheight of son其他类型的散点图其他类型的散点图XYXYX00000YXYXYXY一般表达式一般表达式: 或或 a:截距:截距(intercept),直线与,直线与Y轴交点的纵坐标轴交点的纵坐标(X0)。b:斜率:斜率(slope),回归系数,回归系数(regression coefficient)。 意义:意义:X每改变一个单位,每改变
4、一个单位,Y平均改变平均改变b个单位个单位。 b0,Y随随X的的增大增大而而增大(减少增大(减少 而而减少)减少) 斜上;斜上; b0,Y随随X的的增大增大而而减小(减少减小(减少 而而增加)增加) 斜下;斜下; b=0,Y与与X无直线关系无直线关系 水平水平。 b越大,表示越大,表示Y随随X变化越快,直线越陡峭。变化越快,直线越陡峭。bXaY|Y XX|Y XXSimple Linear Regression ModelY的总体均数的总体均数自变量自变量 总体截距 总体斜率LINE 假定xy标准差相等标准差相等 EQUAL STANDARD DEVIATION 对于任何X值,随机变量Y的标准
5、差 Y|X相等独立独立 INDEPENDENCE 每一观察值之间彼此独立y|X = + x线性线性 LINEARITY 反应变量均数 与X间呈直线关系 Y|X= + X直线回归模型的四个假定直线回归模型的四个假定正态正态 NORMALITY 对于任何给定的 X, Y 服从正态分布,均数为 Y|X,标准差为 Y|X二、回归方程参数的二、回归方程参数的计算计算 最小二乘法原则最小二乘法原则 (least square method):使各实际:使各实际散点(散点(Y)到直线()到直线( )的纵向距离的平方和最小。)的纵向距离的平方和最小。即使即使 最小。最小。2YYXXXYllnXXnYXXYXX
6、YYXXb/)()(222XbYaY最小二乘 (Least squares)法图解Yi (Y的估计值) = a + bXi Yi估计值i残差i = Yi 估计值i寻找使残差i)2 最小的直线 iYiY实实 例例例例9-1 某地方病研究所调查了某地方病研究所调查了 8名正常儿童的尿肌酐名正常儿童的尿肌酐含量(含量(mmol/24h)如表)如表9-1。估计尿肌酐含量(。估计尿肌酐含量(Y)对其年龄(对其年龄(X)的回归方程。)的回归方程。 表表9-1 8名正常儿童的年龄名正常儿童的年龄 X(岁岁)与尿肌酐含量与尿肌酐含量 Y(mmol/24h) 编号编号12345678年龄年龄X131196810
7、127尿肌酐含量尿肌酐含量 Y3.543.013.092.482.563.363.182.65(,)X Y222/232.61 76 23.87/876476 /85.84500.139242XYXXXYXYnlblXXn /23.87/82.9838YY n回归参数估计值回归参数估计值 a、b计算的实例计算的实例 2.9838 0.1392 9.51.6617aYbX/76/89.5XX n11.66710.1392YX例9资料的回归方程:回归参数回归参数a、b的解释的解释 11.66710.1392YX例9资料的回归方程:1. 斜率斜率 (b)当当X每增加每增加1个单位时,个单位时, Y改
8、变改变 b个单位个单位本例本例b = 0.1392,表明在所研究的年龄范围,表明在所研究的年龄范围内,年龄每增加内,年龄每增加1岁,尿肌酐含量增加岁,尿肌酐含量增加0.1392 mmol/24h2. Y的截距的截距 (a)X = 0时时Y的平均值的平均值本例本例a1.6617,表示年龄为,表示年龄为0时,尿肌酐含时,尿肌酐含量的期望值为量的期望值为1.6617mmol/24h(注意有注意有时这种解释无实际意义,如本例)时这种解释无实际意义,如本例) 三、直线回归中的统计推断三、直线回归中的统计推断b0原因:原因: 由于抽样误差引起,总体回归系数由于抽样误差引起,总体回归系数 =0 存在回归关系
9、,总体回归系数存在回归关系,总体回归系数 0(一)回归方程的假设检验(一)回归方程的假设检验 YYYYYYY回归部分)(YY )(YY 总情况Y剩余部分)(YY 实测点),(YXPYX X222()()()()()()YYYYYYYYYYYYSSSSSS总剩回总剩回可有数学证明得到:即同样有:222222|()()()()22YYXYXYXXXXY XYYYYYYSSSSSSSSllSSblb llSSYYSMSnn剩总回总回剩剩公式可写成:2222XXYYXXYYYYSY|X为为Y的剩余标准差的剩余标准差扣除扣除X的影响后的影响后Y的变异程度。的变异程度。 编号编号年龄年龄X X肌酐肌酐Y
10、YX X2 2Y Y2 2XYXY1 1133.5416912.53 46.022 2113.011219.06 33.113 393.09819.55 27.814 462.48366.15 14.885 582.56646.55 20.486 6103.3610011.29 33.607 7123.1814410.11 38.168 872.65497.02 18.55合计合计767623.8723.8776476472.27 72.27 232.61232.61 X X Y Y X X2 2 Y Y2 2 XYXY222()() /YYYYYYnlSS 总1.046211.66710.1
11、392YX例9资料的回归方程:22222()0.2328XYYYXXXXYYlSSYYYYllXX剩22220.1392 5.84500.8134XYXXXYXXXX Y YllXXblb lSS回|0.2328 60.1790Y XSSS剩(n-2)SS剩剩的另一种解法的另一种解法 编号编号(1 1)X Y (2 2)(3 3)(4 4)(5)=(3)-(4)(5)=(3)-(4)(6)=(5)(6)=(5)2 21 1133.543.47130.0687 0.0047 2 2113.013.1929-0.1829 0.0335 3 393.092.91450.1755 0.0308 4 4
12、62.482.4969-0.0169 0.0003 5 582.562.7753-0.2153 0.0464 6 6103.363.05370.3063 0.0938 7 7123.183.3321-0.1521 0.0231 8 872.652.63610.0139 0.0002 合计合计7623.8723.8728-0.0028 0.23280.2328 Y2)(YY YY1.66170.1392YX备注:(1)方差分析方差分析 公式公式 ,n20bbbbbbtSSSSb为回归系数的标准误为回归系数的标准误2|Y XY XbXXXXSSSl SY|X为为Y的剩余标准差的剩余标准差扣除扣除X
13、的影响后的影响后Y的变异程度。的变异程度。 剩余(残差)标准差剩余(残差)标准差 SY|X22|222Y XY XYYSSSMSnnn剩剩残差 度量了实际散点远离回归直线的离散程度,反映了模型的可靠性。越小模型越好。 tb检验,区间的计算均需要使用这一值。斜率b的假设检验H0: = 0H1: 0 .05自由度自由度 8 - 2 = 6临界值临界值:( (二二 ) )总总 体体 回回 归归 系系 数数 的的 区区 间间 估估 计计 ( b-t /2(n-2)Sb ,b+t /2(n-2)Sb ) 简简 记记 为为 b t /2(n-2)Sb 求求 本本 例例的的 95 可可 信信 区区 间间 (
14、0.1392 2.447 0.0304, 0.1392+2.447 0.0304) (0.0648, 0.2136) (三)利用回归方程进行估计和预测(三)利用回归方程进行估计和预测1、 的区间估计的区间估计 缩缩 写写 为为 02/0YStY XXXYXYYlXxnSXXXxnSS20.220.)(1)()(10 本本 例例 : 当当0 x 1 2 时时 ,01.66170.1392123.3321Y 021(129.5)0.19700.1031842YS |Y X 的的 9 5 可可 信信 区区 间间 : (3 .3 3 2 1 2 .4 4 7 0 .1 0 3 1 , 3 .3 3 2
15、 1 2 .4 4 7 0 .1 0 3 1 ) = (3 .0 8 0 , 3 .5 8 4 ) |Y X2、 个体个体Y值的预测区间值的预测区间 缩缩 写写 为为 02/0YStY 2200.2()()1111()YYXYXX XxXxXSSSnXXnl 本本 例例 : 当当0 x 1 2 时时 ,01 .6 6 1 70 .1 3 9 21 23 .3 3 2 1Y 021(1 29 .5 )0 .1 9 7 010 .2 2 2 384 2YS 个个 体体Y 值值 的的9 5 预预 测测 区区 间间 : (3 .3 3 2 1 2 .4 4 7 0 .2 2 2 3 , 3 .3 3
16、2 1 2 .4 4 7 0 .2 2 2 3 ) = (2 .7 8 8 , 3 .8 7 6 ) 95 的可信区间与的可信区间与 个体个体 Y 的预测区间有关数据的预测区间有关数据编编号号X XY Y均数均数标准误标准误个值个值标准误标准误均数均数下限下限均数均数上限上限个值个值下限下限个值个值上限上限1 113 13 3.543.543.471 3.471 0.1271 0.1271 0.2344 0.2344 3.1602 3.1602 3.7824 3.7824 2.8977 2.8977 4.0449 4.0449 2 211 11 3.013.013.193 3.193 0.08
17、32 0.0832 0.2138 0.2138 2.9892 2.9892 3.3966 3.3966 2.6697 2.6697 3.7161 3.7161 3 39 9 3.093.092.915 2.915 0.0713 0.0713 0.2095 0.2095 2.7401 2.7401 3.0889 3.0889 2.4020 2.4020 3.4270 3.4270 4 46 6 2.482.482.497 2.497 0.1271 0.1271 0.2344 0.2344 2.1858 2.1858 2.8080 2.8080 1.9233 1.9233 3.0705 3.070
18、5 5 58 8 2.562.562.775 2.775 0.0832 0.0832 0.2138 0.2138 2.5716 2.5716 2.9790 2.9790 2.2521 2.2521 3.2985 3.2985 6 610 10 3.363.363.054 3.054 0.0713 0.0713 0.2095 0.2095 2.8793 2.8793 3.2281 3.2281 2.5412 2.5412 3.5662 3.5662 7 712 12 3.183.183.332 3.332 0.1031 0.1031 0.2223 0.2223 3.0799 3.0799 3.5
19、843 3.5843 2.7882 2.7882 3.8760 3.8760 8 87 7 2.652.652.636 2.636 0.1031 0.1031 0.2223 0.2223 2.3839 2.3839 2.8883 2.8883 2.0922 2.0922 3.1800 3.1800 XY|447. 2;1970. 0;42; 5 . 9;1392. 0;6617. 16,05. 0|tSlXbaXYXXY95 的可信区间与的可信区间与 个体个体 Y 的预测区间图的预测区间图XY|X第二节第二节 直线相关直线相关回归回归 - - 变量间的依存关系变量间的依存关系 相关相关 - -
20、 变量间的互依关系变量间的互依关系 直线相关直线相关(linear correlation):简单相关:简单相关(simple correlation),用于,用于双变量双变量正态分布资料。正态分布资料。图图9 96 6 相关系数示意图相关系数示意图 散点呈椭圆形分布,散点呈椭圆形分布,X X、Y Y 同时增减同时增减-正相关正相关(positive correlation)positive correlation); X X、Y Y 此增彼减此增彼减-负相关负相关(negative correlation) (negative correlation) 。 散点在一条直线上,散点在一条直线上
21、, X X、Y Y 变化趋势相同变化趋势相同-完全正相关完全正相关; ;反向变化反向变化-完全负相关完全负相关。图图9 96 6 相关系数示意图相关系数示意图 X X、Y Y 变化互不影响或无直变化互不影响或无直线相关关系线相关关系-零相关零相关(zero correlation)(zero correlation)一、一、 相关系数概念相关系数概念 相关系数相关系数(correlation coefficient),又称积差,又称积差相关系数(相关系数(coefficient of product moment correlation),或),或 Pearson Pearson 相关系数相关
22、系数(软件中常(软件中常用此名称)用此名称) 说明相关的说明相关的密切程度密切程度和和方向方向的指标。的指标。 r 样本相关系数样本相关系数YYXXXYlllYYXXYYXXr22r无单位,无单位,-1 r1。r 值为正值为正 正相关正相关, 为负为负 负相关;负相关; (与回归系数(与回归系数b b的符号相同)的符号相同)|r|=1 - - 完全相关,完全相关,r=0 - - 零相关。零相关。二、相关系数的意义与计算二、相关系数的意义与计算三、三、相关系数的统计推断相关系数的统计推断(一)(一)相关系数的假设检验相关系数的假设检验r0原因:原因: 由于抽样误差引起,由于抽样误差引起,=0 存
23、在相关关系,存在相关关系, 01、查表法、查表法例例9-6 对例对例9-5所得所得r值,检验尿肌酐含量与年龄是否有值,检验尿肌酐含量与年龄是否有直线相关关系?直线相关关系?H0: 0,H1: 0,=0.05本例本例n=8,=8-2=6,r=0.8818,查界值表,查界值表P828,得得0.002P0.005,按,按 =0.05水准拒绝,水准拒绝, 公式公式 2012rrrrtSrn,n-2Sr- - 相关系数的标准误相关系数的标准误 2、t检验检验查查t界值表界值表 ,0.002P0.005,按,按 =0.05水准拒绝,水准拒绝, 579. 4288818. 018818. 02rt(二)、总
24、体相关系数(二)、总体相关系数 的区间估计的区间估计必必须须先先对对 r 作作 z 变变换换 rz1tanh 或或 )1 ()1 (ln21rrz 公公式式中中 tanh 为为双双曲曲(hyperbolic)正正切切函函数数;tanh-1为为反反双双曲曲正正切切函函数数, 按按正正态态近近似似原原理理,z 的的 1可可信信区区间间为为: /2/2(3 ,3)zunzun 然然后后zrtanh 或或 1122zzeer,将将 z 可可信信区区间间变变换换回回到到 r 尺尺度度。 YXr2=0SSESSTYXr2=0.90SSESSTSSRYXr2=0.50SSESSTSSR7775. 00462
25、. 18134. 022SSTSSRrR本例四、决定系数四、决定系数(coefficient of determination) 五、直线回归与相关的五、直线回归与相关的应用注意事项应用注意事项 要有实际意义要有实际意义 有联系不一定是因果有联系不一定是因果关系关系 不能任意不能任意“外延外延”(4) 绘制散点图绘制散点图,有无离有无离群值,是否直线群值,是否直线 残差图(残差图(residual plot) x or y 0ResidualsHomoscedasticity: Residuals appear completely random. No indication of model
26、 inadequacy.0ResidualsCurved pattern in residuals resulting from underlying nonlinear relationship.0ResidualsResiduals exhibit a linear trend with time.Time0ResidualsHeteroscedasticity: Variance of residuals changes when x changes.x or y x or y 区别:区别: 六、直线回归与相关的区别与联系六、直线回归与相关的区别与联系 1. 资料:资料: X、Y服从双变
27、量正态分布服从双变量正态分布 Y为正态随机变量,为正态随机变量,X为选定变量为选定变量 2. 2. 应用应用 :回归回归 由一个变量值推算另一个变量值由一个变量值推算另一个变量值 相关相关 只反映两变量间互依关系只反映两变量间互依关系 相关相关: :3. 回归系数与原度量单位有关,而相关系数无关回归:回归:联系:联系: 第三节第三节 等级相关(秩相关)等级相关(秩相关)rank correlation 适用资料:适用资料: 不服从双变量正态分布不服从双变量正态分布 总体分布类型未知总体分布类型未知 原始数据用等级表示原始数据用等级表示 等级相关系数等级相关系数 rs(即(即Spearman C
28、orrelation Coefficient)反映两变量间相关的密切程度与方向反映两变量间相关的密切程度与方向 。WYPLL潜在工作损失年数潜在工作损失年数23366 92110.9051818sdrnn 注意:相同秩次较多时应校正注意:相同秩次较多时应校正 rs 。3233() 6()() 62() 62XYsXYnnTTdrnnTnnTTx(或TY)(t3t)/12 05. 00:0:10ssHH,即死因构成和即死因构成和WYPLL构成之间无直线相关关系构成之间无直线相关关系,即死因构成和即死因构成和WYPLL构成之间有直线相关关系构成之间有直线相关关系 本例本例n=18,查附表,查附表14的的rs界值表,得界值表,得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沃达丰合作协议书
- 沙石供料合同范本
- 河沙村签约协议书
- 2025年中国安科院危险化学品生产安全研究所招聘备考题库及1套完整答案详解
- 2026年生物统计服务合同
- 2026年建筑施工图纸交接协议
- 2025年大唐(内蒙古)能源开发有限公司招聘若干人备考题库含答案详解
- 2026年国际传统医药建筑遗产合同
- 2026年特色市场运营合同
- 中国电建集团及所属企业2026届校园招聘备考题库及1套完整答案详解
- 2025广东珠海市金湾区红旗镇招聘编外人员23人笔试考试参考试题及答案解析
- (新教材)部编人教版三年级上册语文 习作:那次经历真难忘 教学课件
- 甘草成分的药理作用研究进展-洞察及研究
- 具身智能+文化遗产数字化保护方案可行性报告
- (2025年新教材)部编人教版二年级上册语文 语文园地七 课件
- 广东深圳市2026届化学高三第一学期期末学业质量监测模拟试题含解析
- 电力公司考试大题题库及答案
- 国企金融招聘笔试题及答案
- 重庆市金太阳好教育联盟2026届高三10月联考(26-65C)英语(含答案)
- 成都市龙泉驿区卫生健康局下属15家医疗卫生事业单位2025年下半年公开考试招聘工作人员(18人)备考考试题库附答案解析
- 2025-2030中国光纤分布式测温系统市场需求预测报告
评论
0/150
提交评论