版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元线性回归PPT课件 (2)1第十五章第十五章 多元线性回归分析多元线性回归分析(multiple linear regression)陆健陆健 副教授副教授 2021-11-212021-11-21多元线性回归PPT课件 (2)2表表15-2 27名糖尿病患者的血糖及有关变量的测量结果名糖尿病患者的血糖及有关变量的测量结果序号序号总胆固醇总胆固醇甘油三酯甘油三酯胰岛素胰岛素糖化血红蛋白糖化血红蛋白血糖血糖X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.8265.840.928.616.413.3273.841.206.459.610.4多元线性
2、回归PPT课件 (2)3多元线性回归模型多元线性回归模型01122mmYXXXe偏回归系数偏回归系数(partial regression coefficient) j(j1,2, ,n)表示在其他自变量保持不变时,表示在其他自变量保持不变时,Xj增加或减少一个单位时增加或减少一个单位时Y的平均变化量。的平均变化量。残差残差(residual)e表示去除表示去除m个自变量对个自变量对Y影响后的随机误差。影响后的随机误差。多元线性回归PPT课件 (2)4多元线性回归模型的应用需要满足如下条件多元线性回归模型的应用需要满足如下条件nY与与X1,X2,Xm之间具有线性关系。之间具有线性关系。n各例观
3、察值各例观察值Yi(i=1,2, ,n)相互独立。相互独立。n残差残差e服从均数为服从均数为0,方差为,方差为 2的正态分布,等的正态分布,等价于对任意一组自变量价于对任意一组自变量X1,X2,Xm值,应值,应变量变量Y具有相同方差,并且服从正态分布。具有相同方差,并且服从正态分布。多元线性回归PPT课件 (2)5多元线性回归方程多元线性回归方程01122mmYbb Xb Xb X01122mmYXXXe(最小二乘法)(最小二乘法)多元线性回归PPT课件 (2)6多元线性回归方程的建立多元线性回归方程的建立11 11221121 1222221 122mmYmmYmmmmmmYl bl bl
4、bll bl bl bll bl blbl01122()mmbYb Xb Xb X本例本例12345.9433 0.14240.35150.27060.6382YXXXX多元线性回归PPT课件 (2)7多元线性回归方程的建立多元线性回归方程的建立n本例本例n由上面的方程可以看出:总胆固醇、甘油三酯由上面的方程可以看出:总胆固醇、甘油三酯和糖化血红蛋白的升高会引起血糖的升高,而和糖化血红蛋白的升高会引起血糖的升高,而胰岛素的升高会引起血糖的下降。胰岛素的升高会引起血糖的下降。12345.94330.14240.35150.27060.6382YXXXX多元线性回归PPT课件 (2)8多元线性回归
5、方程的假设检验及其评价多元线性回归方程的假设检验及其评价n将回归方程总所有自变量作为一个整体来检验它将回归方程总所有自变量作为一个整体来检验它们与应变量之间是否具有线性关系(方差分析法、们与应变量之间是否具有线性关系(方差分析法、复相关系数);复相关系数);n对回归方程的预测或解释能力作出综合评价(决对回归方程的预测或解释能力作出综合评价(决定系数);定系数);n在此基础上进一步对各个自变量的重要性作出评在此基础上进一步对各个自变量的重要性作出评价(偏回归平方和、价(偏回归平方和、t检验、标准回归系数)。检验、标准回归系数)。多元线性回归PPT课件 (2)9方差分析步骤建立假设方差分析步骤建立
6、假设nH0:自变量整体与应变量没有回归关系:自变量整体与应变量没有回归关系nH1:自变量整体与应变量有回归关系:自变量整体与应变量有回归关系n确定检验水准:确定检验水准:120m0.05多元线性回归PPT课件 (2)10方差分析步骤计算检验统计量方差分析步骤计算检验统计量SSSSSS总回归残差222()()()YYYYYY1 12 2 YYm mYj jYSSblb lb lb lm回归 1SSSSSSnm总残差回归/(1)SSSSmFSSSSnm回归回归回归残差残差残差多元线性回归PPT课件 (2)11方差分析步骤计算检验统计量方差分析步骤计算检验统计量表表15-4 例例15-1多元线性回归
7、方差分析表多元线性回归方差分析表变异来源变异来源自由度自由度SSMSFP总总26222.5519回归回归 4133.710733.42778.280.05残差残差22 88.8412 4.0382多元线性回归PPT课件 (2)12方差分析步骤结论方差分析步骤结论n结论:在结论:在 检验水准上,拒绝检验水准上,拒绝H0,接受,接受H1,自变量整体和应变量之间有回归关系,自变量整体和应变量之间有回归关系,可以认为所拟合的回归方程具有统计学意义。可以认为所拟合的回归方程具有统计学意义。0.05多元线性回归PPT课件 (2)13决定系数决定系数R2n计算公式:计算公式:R2SS回归回归/SS总总1-
8、SS残差残差/SS总总n用于说明自变量整体能够解释应变量变化用于说明自变量整体能够解释应变量变化的百分比,即模型对数据的拟合程度。的百分比,即模型对数据的拟合程度。n0R21,其值越接近其值越接近1,说明拟合程度越,说明拟合程度越好;越接近好;越接近0,说明拟合程度越差。,说明拟合程度越差。多元线性回归PPT课件 (2)14决定系数决定系数R2n本例:本例:R2133.7107/222.55190.6008n说明自变量(血糖)的变化说明自变量(血糖)的变化60可以用可以用总胆固醇、甘油三酯、胰岛素和糖化血总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变化来解释。红蛋白的变化来解释。多元线性回归PP
9、T课件 (2)15复相关系数复相关系数(multiple correlation coefficient)n计算公式:计算公式:n可用来度量应变量与自变量整体之间的线性可用来度量应变量与自变量整体之间的线性相关程度。相关程度。n如果自变量只有一个,则复相关系数等于直如果自变量只有一个,则复相关系数等于直线相关系数。线相关系数。n本例:本例:2RR0.60080.7751R 多元线性回归PPT课件 (2)16各自变量的假设和评价各自变量的假设和评价n对每一个自变量的作用进行检验和衡量它们对对每一个自变量的作用进行检验和衡量它们对应变量应变量Y的作用大小。的作用大小。n常用方法:常用方法: 偏回归
10、平方和偏回归平方和 t检验法检验法 标准化回归系数标准化回归系数多元线性回归PPT课件 (2)17偏回归平方和偏回归平方和n某自变量的偏回归平方和表示模型中含有其他某自变量的偏回归平方和表示模型中含有其他m1个自变量的条件下该自变量对个自变量的条件下该自变量对Y的回归贡的回归贡献。相当于从回归方程中剔除该自变量后所引献。相当于从回归方程中剔除该自变量后所引起的回归平方和的减少量。或者说在起的回归平方和的减少量。或者说在m1个个自变量的基础上新增加该自变量引起回归平方自变量的基础上新增加该自变量引起回归平方和的增加量。和的增加量。nm1个自变量对个自变量对Y的回归平方和由重新建立的的回归平方和由
11、重新建立的新方程得到。新方程得到。多元线性回归PPT课件 (2)18表表15-8 例例15-1数据回归分析的部分中间结果数据回归分析的部分中间结果 回归方程中的自变量回归方程中的自变量SS回归回归SS残差残差SS回归回归(Xj)X1,X2,X3,X4133.7107 88.8412X2,X3,X4133.0978 89.4540 0.6129(X1)X1,X3,X4121.7480100.803811.9627(X2)X1,X2,X4113.6472108.904720.0635(X3)X1,X2,X3105.9168116.635127.7939(X4)多元线性回归PPT课件 (2)19偏回
12、归平方和的检验步骤建立假设偏回归平方和的检验步骤建立假设nH0:自变量与应变量没有回归关系:自变量与应变量没有回归关系nH1:自变量与应变量有回归关系:自变量与应变量有回归关系n确定检验水准:确定检验水准:0j0.050j多元线性回归PPT课件 (2)20偏回归平方和的检验步骤计算检验统计量偏回归平方和的检验步骤计算检验统计量10.6129/10.15288.8412/(274 1)F 211.9627/12.96288.8412/(274 1)F 320.0635/14.96888.8412/(274 1)F 427.7939/16.88388.8412/(274 1)F ()/()()/1
13、/(1)jjjSSXXSSXFSSSSnm回归回归回归残差残差残差多元线性回归PPT课件 (2)21偏回归平方和的检验步骤结论偏回归平方和的检验步骤结论nF0.05,1,22=4.30nF10.05 F20.05n结论:在结论:在 水准处,不能拒绝总胆固醇(水准处,不能拒绝总胆固醇(X1)和甘油三酯(和甘油三酯(X2)的)的H0,不能认为这两个因素与血,不能认为这两个因素与血糖有回归关系。糖有回归关系。0.05多元线性回归PPT课件 (2)22偏回归平方和的检验步骤结论偏回归平方和的检验步骤结论nF3F0.05,1,22 P30.05 F4F0.05,1,22 P40.05n结论:在结论:在
14、水准处,拒绝胰岛素(水准处,拒绝胰岛素(X3)和糖化)和糖化血红蛋白(血红蛋白(X4)的)的H0,接受,接受H1,可以认为两者和血,可以认为两者和血糖有回归关系,糖化血红蛋白的回归贡献更大糖有回归关系,糖化血红蛋白的回归贡献更大(偏回(偏回归平方和越大,回归贡献越大)归平方和越大,回归贡献越大)。0.05多元线性回归PPT课件 (2)23t检验法检验法n等价于偏回归平方和检验;等价于偏回归平方和检验;n计算更为复杂;计算更为复杂;n同一资料,不同自变量的同一资料,不同自变量的t值可以相互比较,值可以相互比较,t的绝对值越大,说明该自变量对应变量的绝对值越大,说明该自变量对应变量Y的回的回归所起
15、的作用越大。归所起的作用越大。多元线性回归PPT课件 (2)24标准化回归系数标准化回归系数n自变量的测量单位各不相同,单从各偏回归自变量的测量单位各不相同,单从各偏回归系数的绝对值大小无法分析各自变量对应变系数的绝对值大小无法分析各自变量对应变量量Y的影响程度。的影响程度。n将原始数据标准化的公式:将原始数据标准化的公式:jjjjXXXS多元线性回归PPT课件 (2)25标准化回归系数标准化回归系数n将应变量和自变量都转换成标准化值后,再将应变量和自变量都转换成标准化值后,再计算得到的回归方程称为标准化回归方程,计算得到的回归方程称为标准化回归方程,相应的回归系数称为标准化回归系数。相应的回
16、归系数称为标准化回归系数。n标准化回归系数的绝对值越大,说明对应变标准化回归系数的绝对值越大,说明对应变量的作用越大。量的作用越大。n标准化回归系数的计算公式:标准化回归系数的计算公式:jjjjjjYYYlSbbblS多元线性回归PPT课件 (2)26标准化回归系数标准化回归系数n结果:对血糖影响大小的顺序依次为血红蛋结果:对血糖影响大小的顺序依次为血红蛋白(白(X4)、胰岛素()、胰岛素(X3)、甘油三酯()、甘油三酯(X2)和总胆固醇(和总胆固醇(X1)。)。22.57480.35150.30932.9257b 11.59340.14240.07762.9257b 33.67060.270
17、60.33952.9257b 41.82340.63820.39772.9257b 多元线性回归PPT课件 (2)27第二节第二节 自变量选择方法自变量选择方法n基本思路:基本思路: 尽可能将回归效果显著的自变量选入回归方尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的自变量排除在方程外,程中,将作用不显著的自变量排除在方程外,以此提高模型的精度。以此提高模型的精度。多元线性回归PPT课件 (2)28自变量选择方法自变量选择方法n全局择优法全局择优法 校正决定系数选择法、校正决定系数选择法、Cp选择法选择法n逐步选择法逐步选择法 前进法、后退法、逐步回归法前进法、后退法、逐步回归法
18、多元线性回归PPT课件 (2)29全局择优法校正决定系数选择法全局择优法校正决定系数选择法n自变量个数越多,未校正的决定系数越大。自变量个数越多,未校正的决定系数越大。n校正决定系数克服了自变量个数的影响,能校正决定系数克服了自变量个数的影响,能更好的比较不同自变量对应变量的作用。更好的比较不同自变量对应变量的作用。n计算公式:计算公式:2211 (1)11CMSnRRnpMS 残差总多元线性回归PPT课件 (2)30全局择优法全局择优法 Cp选择法选择法n计算公式:计算公式:n(SS残差残差)p是由是由p(pm)个自变量做回归时的误差个自变量做回归时的误差平方和,平方和, (MS残差残差)m
19、是包含全部是包含全部m个自变量的回个自变量的回归模型中得到的残差均方。归模型中得到的残差均方。()2(1)()ppmSSCnpMS残差残差多元线性回归PPT课件 (2)31全局择优法全局择优法 Cp选择法选择法n选择方程时应选择选择方程时应选择Cp值最接近值最接近p+1的回归方程的回归方程为最优方程。为最优方程。n注意:当注意:当p=m时,必有时,必有Cm=m+1,所有这种情,所有这种情况不应在选择的范围内。况不应在选择的范围内。多元线性回归PPT课件 (2)32表表15-6 例例15-1的所有回归方程的的所有回归方程的 和和Cp值值方程中的自变量方程中的自变量Cp方程中的自变量方程中的自变量
20、CpX2,X3,X40.5463.15 X2,X30.408 9.14X1,X2,X3,X40.5285.00 X1,X30.37510.78X1,X3,X40.4885.96 X40.34711.63X1,X2,X40.4477.97 X10.28414.92X1,X40.4417.42 X1,X20.27515.89X2,X40.4407.51 X30.23117.77X3,X40.4357.72 X20.17920.53X1,X2,X30.4089.882CR2CR2CR多元线性回归PPT课件 (2)33逐步选择法前进法(逐步选择法前进法(forward)n将变量逐个选入方程中,直到无法
21、再引入。将变量逐个选入方程中,直到无法再引入。n步骤步骤1:计算应变量和每一个自变量的直线回:计算应变量和每一个自变量的直线回归方程,将回归平方和最大且经归方程,将回归平方和最大且经F检验有意义检验有意义的自变量选入方程。的自变量选入方程。多元线性回归PPT课件 (2)34逐步选择法前进法(逐步选择法前进法(forward)n步骤步骤2:将其他自变量逐个引入方程,得到:将其他自变量逐个引入方程,得到m1个含有两个自变量的回归方程,计算新进个含有两个自变量的回归方程,计算新进入方程的自变量的偏回归平方和,并对最大偏入方程的自变量的偏回归平方和,并对最大偏回归平方和进行回归平方和进行F检验,如果有
22、意义,则该自检验,如果有意义,则该自变量就进入方程。变量就进入方程。n依此类推,直到没有自变量可以引入为止。依此类推,直到没有自变量可以引入为止。多元线性回归PPT课件 (2)35逐步选择法后退法(逐步选择法后退法(backward)n先将所有变量选入方程,然后逐步剔除无统计先将所有变量选入方程,然后逐步剔除无统计学意义的自变量。学意义的自变量。n被剔除的自变量是方程中偏回归平方和最小,被剔除的自变量是方程中偏回归平方和最小,且经且经F检验无统计学意义者。检验无统计学意义者。n多次重复剔除过程,直到无自变量会被剔除为多次重复剔除过程,直到无自变量会被剔除为止。止。多元线性回归PPT课件 (2)
23、36逐步选择法逐步回归法逐步选择法逐步回归法(stepwise)n将前进法和后退法结合形成的一种方法。将前进法和后退法结合形成的一种方法。n首先用前进法选择入选的自变量,然后对进入首先用前进法选择入选的自变量,然后对进入方程的自变量用后退法选择剔除的自变量。方程的自变量用后退法选择剔除的自变量。n入选和剔除的标准可以选择相同或不同的检验入选和剔除的标准可以选择相同或不同的检验水准,一般入选标准小于或等于剔除标准。水准,一般入选标准小于或等于剔除标准。多元线性回归PPT课件 (2)37表表15-7 例例15-1的逐步回归过程的逐步回归过程步骤步骤引入引入变量数变量数剔除剔除变量数变量数留在方程留
24、在方程中变量数中变量数R2FP1X410.37214.7880.00072X120.484 5.2440.03113X330.547 3.1850.08754X240.601 2.9620.09335X330.598 0.1520.70060.100.15入剔(,)多元线性回归PPT课件 (2)38“最优最优”回归方程回归方程n结果表明:血糖的变化与甘油三酯、胰岛素和糖化结果表明:血糖的变化与甘油三酯、胰岛素和糖化血红蛋白有线性关系。其中甘油三酯和糖化血红蛋血红蛋白有线性关系。其中甘油三酯和糖化血红蛋白的升高可引起血糖升高,而胰岛素升高则引起血白的升高可引起血糖升高,而胰岛素升高则引起血糖下降
25、。糖下降。n从标准化回归系数来看,糖化血红蛋白对血糖的影从标准化回归系数来看,糖化血红蛋白对血糖的影响最大。响最大。2346.49960.40230.28710.6632YXXX多元线性回归PPT课件 (2)39多元线性回归的应用多元线性回归的应用n影响因素分析(控制混杂因素)影响因素分析(控制混杂因素)n估计与预测估计与预测n统计控制统计控制多元线性回归PPT课件 (2)40多元线性回归应用的注意事项多元线性回归应用的注意事项n指标的数量化指标的数量化 应变量:一般要求为连续性变量应变量:一般要求为连续性变量 自变量:连续性变量、分类变量、有序变量自变量:连续性变量、分类变量、有序变量 连续
26、性变量:满足线性关系连续性变量:满足线性关系(变量转换变量转换) 分类变量:转换成哑变量分类变量:转换成哑变量 有序变量:按连续性变量处理有序变量:按连续性变量处理(变量较多变量较多) 转换成哑变量转换成哑变量(变量较少变量较少) 多元线性回归PPT课件 (2)41多元线性回归应用的注意事项多元线性回归应用的注意事项n样本含量样本含量 1、样本含量应该为变量数的、样本含量应该为变量数的510倍倍 2、Green经验公式:经验公式:228(1)/(1)nRRm多元线性回归PPT课件 (2)42多元线性回归应用的注意事项多元线性回归应用的注意事项n不能盲目信任逐步回归的结果;不能盲目信任逐步回归的
27、结果;n“最优最优”方程并不一定是最好;方程并不一定是最好;n调整入选和剔除标准会改变入选变量的数目;调整入选和剔除标准会改变入选变量的数目;n选择自变量理想的方法是专业知识和统计检验选择自变量理想的方法是专业知识和统计检验相结合的方法。相结合的方法。多元线性回归PPT课件 (2)43多元线性回归应用的注意事项多元线性回归应用的注意事项n多重共线性:一些自变量之间存在较强的线性多重共线性:一些自变量之间存在较强的线性关系。此时,采用最小二乘法建立回归方程可关系。此时,采用最小二乘法建立回归方程可能会引起一些不良后果。能会引起一些不良后果。n消除多重共线性的方法:消除多重共线性的方法: 剔除某些
28、造成共线性的自变量剔除某些造成共线性的自变量 将多个具有共线性的变量合成一个新变量将多个具有共线性的变量合成一个新变量 逐步回归法逐步回归法多元线性回归PPT课件 (2)44多元线性回归应用的注意事项多元线性回归应用的注意事项n偏相关系数:表示在一组变量中,任意两个偏相关系数:表示在一组变量中,任意两个变量在其他变量固定不变时,它们之间相关变量在其他变量固定不变时,它们之间相关的密切程度和方向。或者说,扣除其他变量的密切程度和方向。或者说,扣除其他变量对它们的影响后,两个变量之间的线性相关对它们的影响后,两个变量之间的线性相关情况。情况。n偏相关系数的计算:偏相关系数的计算:n偏相关系数的符号
29、同回归系数的符号。偏相关系数的符号同回归系数的符号。总回SSXSSrpXXXYX)(1,|321多元线性回归PPT课件 (2)45多元线性回归应用的注意事项多元线性回归应用的注意事项n当某一自变量对应变量的作用大小与另一个自当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个自变量有交互变量的取值有关时,则表示两个自变量有交互作用。作用。n有无交互作用的判断主要来自专业知识。有无交互作用的判断主要来自专业知识。n检验交互作用可将在方程中加入两个变量的乘检验交互作用可将在方程中加入两个变量的乘积项。积项。多元线性回归PPT课件 (2)46多元线性回归应用的注意事项多元线性回归应用的注意事项n残差:应变量观察值和根据方程所得的应变残差:应变量观察值和根据方程所得的应变量估计值之间的差值:量估计值之间的差值:n残差分析(残差分析(residual analysis)是检验资料是)是检验资料是否符合模型条件的一个有用的工具。否
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中铁城市发展投资集团有限公司招聘10人备考题库(含答案详解)
- 2026福建厦门市集美区上塘中学产假顶岗教师招聘1人备考题库及1套参考答案详解
- 2026四川资阳市本级(高新区、临空经济区)引进急需紧缺专业人才229人备考题库含答案详解(a卷)
- 2026辽宁朝阳经济技术开发区消防救援大队招录政府专职消防队员10人备考题库带答案详解
- 2026安徽宿州市第四人民医院劳务派遣人员招聘12人备考题库附答案详解(精练)
- 2026贵州黔南州企事业单位人才引进268人备考题库及一套完整答案详解
- 2026福建福州仓山产投集团下属福州仓山城市智能科技发展有限公司招聘1人备考题库及答案详解(真题汇编)
- 2026年4月广东深圳市大鹏新区政务服务和数据管理局招聘编外人员3人备考题库有答案详解
- 2026湖北武汉市新洲区中医骨伤专科医院招聘护理人员7人备考题库附答案详解(黄金题型)
- 2026顶峰滑雪公司招聘2人备考题库含答案详解(基础题)
- 机械工程材料课件 学习情境八 有色金属及其合金
- 食品安全事故处理制度
- 2024年西藏自治区中考物理试题卷(含答案)
- 《底层逻辑》刘润
- 第五节绿色施工管理体系与措施
- 破伤风急诊预防及诊疗专家共识
- 产教融合实训基地建设
- 2024年大型国有集团公司“两优一先”评选表彰工作方案
- 20G520-1-2钢吊车梁(6m-9m)2020年合订本
- 医疗废物分类及处理
- 《红楼梦》中的贵族生活
评论
0/150
提交评论