版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十四章多元线性回归分析
Multivariatelinearregression
多元线性回归分析第十四章多元线性回归分析
Multiv1
人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间一个变量的变化直接与另一组变量的变化有关:如:多元线性回归分析人的体重与身高、胸围一个变量的变化直接与2Multivariatelinearregression概念:多元线性回归分析也称复线性回归分析(multiplelinearregressionanalysis),它研究一组自变量如何直接影响一个因变量。自变量(independentvariable)是指独立自由变量的变量,用向量X表示;因变量(dependentvariable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariatelinearregressionanalysis)多元线性回归分析Multivariatelinearregression3多元回归分析数据格式多元线性回归分析多元回归分析数据格式多元线性回归分析4假定因变量Y与自变量间存在如下关系:式中,是常数项,称为偏回归系数(partialregressioncoefficient)。的含义为在其它自变量保持不变的条件下,自变量改变一个单位时因变量Y的平均改变量。为随机误差,又称残差(residual),它表示的变化中不能由自变量解释的部分。一、多元线性回归方程模型多元线性回归分析假定因变量Y与自变量5x1x2y多元线性回归分析x1x2y多元线性回归分析6应用条件:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,需要用广义线性回归模型分析。多元线性回归分析应用条件:注意:虽然模型要求因变量是连续数值变量,但对自变量7二、多元线性回归分析的步骤(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。多元线性回归分析二、多元线性回归分析的步骤(一)估计各项参数,建立多元线性回8(一)模型的参数估计多元线性回归分析(一)模型的参数估计多元线性回归分析927名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。例14.1多元线性回归分析27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空10各变量的离差矩阵多元线性回归分析各变量的离差矩阵多元线性回归分析11线性回归方程模型为:多元线性回归分析线性回归方程模型为:多元线性回归分析121、对模型的假设检验—F检验2、对偏回归系数的假设检验—F检验和t检验3、标准偏化回归系数(二)对模型及偏回归系数的假设检验多元线性回归分析1、对模型的假设检验—F检验(二)对模型及偏回归系数的假设检131、对模型的假设检验—F检验多元线性回归分析1、对模型的假设检验—F检验多元线性回归分析14SS回归=b1l1y+b2l2y
+b3l3y+b4l4y=0.1424×67.6962+0.3515×89.8025+0.2706×142.4347+0.6382×84.5570=133.7107;ν回归=m=4各变量的离差矩阵多元线性回归分析SS回归=b1l1y+b2l2y+b3l3y+b415SS总=lyy=222.5519;ν总=n-1=26SS剩余=SS总-SS回归=222.5519-133.7107=88.8412ν剩余=n-m-1=22
MS回归=
SS回归/ν回归;
MS剩余=
SS剩余/ν剩余;F=
MS回归/MS剩余1、对模型的假设检验—F检验多元线性回归分析SS总=lyy=222.5519;ν总=n-1=261、对模161、对模型的假设检验—F检验多元线性回归分析1、对模型的假设检验—F检验多元线性回归分析172、对偏回归系数的假设检验—F检验和t检验回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。①方差分析法②t
检验法多元线性回归分析2、对偏回归系数的假设检验—F检验和t检验回归方程成立只能18①偏回归系数的假设检验--方差分析法多元线性回归分析①偏回归系数的假设检验--方差分析法多元线性回归分析19①偏回归系数的假设检验--方差分析法多元线性回归分析①偏回归系数的假设检验--方差分析法多元线性回归分析20ParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|Estimate
变量自由度偏回归系数标准误t值P值标准化回归系数
Intercept225.943272.828592.100.04730X1220.142450.365650.390.70060.07758X2220.351470.204201.720.09930.30931X322-0.270590.12139-2.230.0363-0.33948X4220.638200.243262.620.01550.39774②偏回归系数的假设检验—t检验多元线性回归分析
21指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多元线性回归方程多元线性回归分析指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多22整个方程有统计学意义各自变量的参数估计对偏回归系数的假设检验多元线性回归分析整个方程有统计学意义各自变量的参数估计对偏回归系数的假设检验23注意多元线性回归分析注意多元线性回归分析24
3、标准化偏回归系数多元线性回归分析
25偏回归系数偏回归系数标准误标准偏回归系数多元线性回归分析偏回归系数偏回归系数标准误标准偏回归系数多元线性回归分析26(三)计算相应指标,对模型的拟合效果进行评价评价回归方程回归效果的优劣是回归分析的重要内容之一。常用评价指标有:复相关系数、决定系数、校正决定系数、剩余标准差等。
多元线性回归分析(三)计算相应指标,对模型的拟合效果进行评价评价回归方程回归271.复相关系数
复相关系数(R),衡量因变量Y与回归方程内所有自变量线性组合件相关关系的密切程度。
0<=R<=1,没有负值。
R的值越接近1,说明相关关系越密切;越接近0说明相关关系越弱。多元线性回归分析1.复相关系数复相关系数(R),衡量因变量Y与回归方282.决定系数多元线性回归分析2.决定系数多元线性回归分析293、剩余标准差多元线性回归分析3、剩余标准差多元线性回归分析304、校正决定系数多元线性回归分析4、校正决定系数多元线性回归分析31三、逐步回归分析多元线性回归分析三、逐步回归分析多元线性回归分析32(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2m-1个),按一定准则选择最优模型,常用的准则有:①校正决定系数(考虑了自变量的个数)②Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近p+1的模型为最优)③AIC(Akaike`sInformationCriterion)准则;AIC越小越好多元线性回归分析(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模33最优子集法的局限性
如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……..;当自变量数个数为50时,所有可能的回归为250-1≈1015个。多元线性回归分析最优子集法的局限性如果自变量个数为4,34(二)逐步选择法
1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验多元线性回归分析(二)逐步选择法1.前进法(forward35(1)前进法
自变量从无到有、从少到多
Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。多元线性回归分析(1)前进法自变量从无到有、从少到多Y对每一个36(2)后退法
先将全部自变量放入方程,然后逐步剔除
偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。建立新的回归方程。重复上述过程。
局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。多元线性回归分析(2)后退法先将全部自变量放入方程,然后逐步剔除37(3)逐步回归法
双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)
小样本检验水准
a一般定为0.10或0.15,大样本把a值定为0.05。a值越小表示选取自变量的标准越严。
多元线性回归分析(3)逐步回归法双向筛选:引入有意义的变量(前进38用逐步回归法筛选自变量进入方程的自变量剔出方程的自变量每一步时模型的决定系数R2C(p)统计量多元线性回归分析用逐步回归法筛选自变量进入方程的自变量剔出方程的自变量每一步39标准化偏回归系数y=0.35409x2-0.36013x3+0.41334x4多元线性回归分析标准化偏回归系数y=0.35409x2-0.36013x3+40第三节多元线性回归的应用及其注意事项
多元线性回归分析第三节多元线性回归的应用及其注意事项多元线性回归分析41二、多元线性回归应用时的注意事项
1.样本含量2.方程“最优”问题3.关于逐步回归4.多元共线性5.异常值识别与强影响分析
多元线性回归分析二、多元线性回归应用时的注意事项1.样本含量多元线性42多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。4.多元共线性多元线性回归分析4.多元共线性多元线性回归分析43
多元共线性的表现在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释出现以上表现,提示存在多元共线性问题,应进行多元共线性诊断。多元线性回归分析多元共线性的表现在实际应用中主要表现为:多元线性回归分44方差膨胀因子VIF多元线性回归分析方差膨胀因子VIF多元线性回归分析45特征根条件指数方差分量如果某一自变量只是和截距项存在共线性的话,可以认为不存在共线性。多元线性回归分析特征根条件指数方差分量如果某一自变量只是和截距项存在共线性的46残差学生化残差cook’s距离多元线性回归分析残差学生化残差cook’s距离多元线性回归分析47End多元线性回归分析End多元线性回归分析48此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!多元线性回归分析此课件下载可自行编辑修改,供参考!多元线性回归分析49第十四章多元线性回归分析
Multivariatelinearregression
多元线性回归分析第十四章多元线性回归分析
Multiv50
人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间一个变量的变化直接与另一组变量的变化有关:如:多元线性回归分析人的体重与身高、胸围一个变量的变化直接与51Multivariatelinearregression概念:多元线性回归分析也称复线性回归分析(multiplelinearregressionanalysis),它研究一组自变量如何直接影响一个因变量。自变量(independentvariable)是指独立自由变量的变量,用向量X表示;因变量(dependentvariable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariatelinearregressionanalysis)多元线性回归分析Multivariatelinearregression52多元回归分析数据格式多元线性回归分析多元回归分析数据格式多元线性回归分析53假定因变量Y与自变量间存在如下关系:式中,是常数项,称为偏回归系数(partialregressioncoefficient)。的含义为在其它自变量保持不变的条件下,自变量改变一个单位时因变量Y的平均改变量。为随机误差,又称残差(residual),它表示的变化中不能由自变量解释的部分。一、多元线性回归方程模型多元线性回归分析假定因变量Y与自变量54x1x2y多元线性回归分析x1x2y多元线性回归分析55应用条件:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,需要用广义线性回归模型分析。多元线性回归分析应用条件:注意:虽然模型要求因变量是连续数值变量,但对自变量56二、多元线性回归分析的步骤(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。多元线性回归分析二、多元线性回归分析的步骤(一)估计各项参数,建立多元线性回57(一)模型的参数估计多元线性回归分析(一)模型的参数估计多元线性回归分析5827名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。例14.1多元线性回归分析27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空59各变量的离差矩阵多元线性回归分析各变量的离差矩阵多元线性回归分析60线性回归方程模型为:多元线性回归分析线性回归方程模型为:多元线性回归分析611、对模型的假设检验—F检验2、对偏回归系数的假设检验—F检验和t检验3、标准偏化回归系数(二)对模型及偏回归系数的假设检验多元线性回归分析1、对模型的假设检验—F检验(二)对模型及偏回归系数的假设检621、对模型的假设检验—F检验多元线性回归分析1、对模型的假设检验—F检验多元线性回归分析63SS回归=b1l1y+b2l2y
+b3l3y+b4l4y=0.1424×67.6962+0.3515×89.8025+0.2706×142.4347+0.6382×84.5570=133.7107;ν回归=m=4各变量的离差矩阵多元线性回归分析SS回归=b1l1y+b2l2y+b3l3y+b464SS总=lyy=222.5519;ν总=n-1=26SS剩余=SS总-SS回归=222.5519-133.7107=88.8412ν剩余=n-m-1=22
MS回归=
SS回归/ν回归;
MS剩余=
SS剩余/ν剩余;F=
MS回归/MS剩余1、对模型的假设检验—F检验多元线性回归分析SS总=lyy=222.5519;ν总=n-1=261、对模651、对模型的假设检验—F检验多元线性回归分析1、对模型的假设检验—F检验多元线性回归分析662、对偏回归系数的假设检验—F检验和t检验回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。①方差分析法②t
检验法多元线性回归分析2、对偏回归系数的假设检验—F检验和t检验回归方程成立只能67①偏回归系数的假设检验--方差分析法多元线性回归分析①偏回归系数的假设检验--方差分析法多元线性回归分析68①偏回归系数的假设检验--方差分析法多元线性回归分析①偏回归系数的假设检验--方差分析法多元线性回归分析69ParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|Estimate
变量自由度偏回归系数标准误t值P值标准化回归系数
Intercept225.943272.828592.100.04730X1220.142450.365650.390.70060.07758X2220.351470.204201.720.09930.30931X322-0.270590.12139-2.230.0363-0.33948X4220.638200.243262.620.01550.39774②偏回归系数的假设检验—t检验多元线性回归分析
70指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多元线性回归方程多元线性回归分析指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多71整个方程有统计学意义各自变量的参数估计对偏回归系数的假设检验多元线性回归分析整个方程有统计学意义各自变量的参数估计对偏回归系数的假设检验72注意多元线性回归分析注意多元线性回归分析73
3、标准化偏回归系数多元线性回归分析
74偏回归系数偏回归系数标准误标准偏回归系数多元线性回归分析偏回归系数偏回归系数标准误标准偏回归系数多元线性回归分析75(三)计算相应指标,对模型的拟合效果进行评价评价回归方程回归效果的优劣是回归分析的重要内容之一。常用评价指标有:复相关系数、决定系数、校正决定系数、剩余标准差等。
多元线性回归分析(三)计算相应指标,对模型的拟合效果进行评价评价回归方程回归761.复相关系数
复相关系数(R),衡量因变量Y与回归方程内所有自变量线性组合件相关关系的密切程度。
0<=R<=1,没有负值。
R的值越接近1,说明相关关系越密切;越接近0说明相关关系越弱。多元线性回归分析1.复相关系数复相关系数(R),衡量因变量Y与回归方772.决定系数多元线性回归分析2.决定系数多元线性回归分析783、剩余标准差多元线性回归分析3、剩余标准差多元线性回归分析794、校正决定系数多元线性回归分析4、校正决定系数多元线性回归分析80三、逐步回归分析多元线性回归分析三、逐步回归分析多元线性回归分析81(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2m-1个),按一定准则选择最优模型,常用的准则有:①校正决定系数(考虑了自变量的个数)②Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近p+1的模型为最优)③AIC(Akaike`sInformationCriterion)准则;AIC越小越好多元线性回归分析(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模82最优子集法的局限性
如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……..;当自变量数个数为50时,所有可能的回归为250-1≈1015个。多元线性回归分析最优子集法的局限性如果自变量个数为4,83(二)逐步选择法
1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验多元线性回归分析(二)逐步选择法1.前进法(forward84(1)前进法
自变量从无到有、从少到多
Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。多元线性回归分析(1)前进法自变量从无到有、从少到多Y对每一个85(2)后退法
先将全部自变量放入方程,然后逐步剔除
偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。建立新的回归方程。重复上述过程。
局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。多元线性回归分析(2)后退法先将全部自变量放入方程,然后逐步剔除86(3)逐步回归法
双向筛选:引入有意义的变量(前进法),剔除无意义变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高职摄影摄像技术(视频拍摄技巧)试题及答案
- 2025年大学农业工程(农机与农艺结合)试题及答案
- 2025年高职数字印刷技术(印刷质量控制)试题及答案
- 2025年中职(市场营销)市场竞争分析综合测试题及答案
- 2025年大学通信(移动通信技术)试题及答案
- 2025年大学广播电视学(广电应用研究)试题及答案
- 2025年高职艺术学(艺术创作)试题及答案
- 2025年大学医学遗传学(遗传规律应用)试题及答案
- 2025年中职数控技术应用(数控编程基础)试题及答案
- 2025年中职(建筑材料检测)水泥性能检测试题及答案
- 元宇宙发展研究报告清华大学-202201
- GB/T 4728.7-2022电气简图用图形符号第7部分:开关、控制和保护器件
- GB/T 4393-2008呆扳手、梅花扳手、两用扳手技术规范
- GB/T 40931-2021滑雪板术语
- GB/T 26218.2-2010污秽条件下使用的高压绝缘子的选择和尺寸确定第2部分:交流系统用瓷和玻璃绝缘子
- GB/T 14627-2011液压式启闭机
- GB/T 1239.1-2009冷卷圆柱螺旋弹簧技术条件第1部分:拉伸弹簧
- 医学科研设计与论文撰写2
- 汽车租赁合同协议免费下载版5篇
- 化学实验室安全培训(化学品储存安全管理)课件
- 《侠客风云传前传》主线流程攻略1.0.2.4
评论
0/150
提交评论