版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,卫生统计学(第7版),第十二章 多重线性回归与相关,2,第十二章: 多重线性回归与相关,Multiple Linear regression and correlation,第一节 多重线性回归的概念及其统计描述 第二节 多重线性回归的假设检验 第三节 复相关系数与偏相关系数 第四节 自变量筛选 第五节 关于多重线性回归的应用,3,第一节 多重线性回归的概念及其统计描述,4,线性回归与相关,简单线性回归: Y与一个自变量的回归: YX,多元线性相 关: 一个Y与多个X的相关 (Y; X1,X2,Xk),k2,简单线性相 关: 一个Y与一个X的相关Y;X),多重线性回归: Y与多个自变量的回
2、归: Y(X1,X2,Xk),k2,人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间,例 子,一、多重回归分析数据格式,7,表12-1 某学校20名一年级大学生肺活量及有关变量测量结果,一、多重线性回归模型的一般形式,二计算偏回归系数,建立回归方程:,10,表12-1 某学校20名一年级大学生肺活量及有关变量测量结果,12,例12-1 表12-1资料的参数估计值,回归方程:,表 12-3 SAS 程序的输出结果,第二节、多重线性回
3、归方程的假设检验,1、回归方程的方差分析(所有回归系数为0),表12-2 检验回归方程整体意义的方差分析表(SAS结果),有关计算公式,2、有关评价指标,软件有关结果,Root MSE (残差标准差) 0.2853 R-Square (决定系数) 0.7251 Adj R-Sq (校正决定系数) 0.6732 Dependent Mean 应变量的均值2.763,(1).残差标准差( Root MSE ),反映了回归方程的精度,其值越小说明回归效果越好,(2).决定系数( determination coefficient),说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合
4、越好,20,决定系数,含义:被解释变量所解释的部分占总体离差的大小。越大越好,但是不会超过1。 缺点:如果在模型中增加一个解释变量,模型的解释功能增强了, 就增大了。这就给人一个错觉:要使得模型拟合得好,就必须增加解释变量。,(3).校正的决定系数( Adjusted determination coefficient),22,校正的决定系数,(三)、各自变量贡献大小的假设检验及其评价,1、各回归系数的t检验,2、标准化回归系数,26,3、偏回归平方和(sum of squares for partial regression)及其F检验,;j=1,2,m,28,第三节 复相关系数与偏相关系数
5、,1.复相关系数( multiple correlation coefficient),说明所有自变量与Y间的线性相关程度。 多重相关的实质就是Y的实际观察值与由p个自变量预测的值的相关程度。 如果只有一个自变量,此时,30,复相关系数与简单相关系数的区别是简单相关系数的取值范围是-1,1,而复相关系数的取值范围是0,1。这是因为,在两个变量的情况下,回归系数有正负之分,所以在研究相关时,也有正相关和负相关之分;但在多个变量时,偏回归系数有两个或两个以上,其符号有正有负,不能按正负来区别,所以复相关系数也就只取正值。,31,2、偏相关系数 在其他自变量保持不变条件下,某一因素与反应变 量之间的
6、相关性。,2、偏相关系数,几个相关系数的区别,第四节 自变量的选择,1. 变量多增加了模型的复杂度2. 计算量增大3. 估计和预测的精度下降4. 模型应用费用增加,一、全局择优法,根据一些准则(criterion)建立 “最优”回归模型,校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优) AIC(Akaikes Information Criterion)准则; AIC越小越好,(一) Cp准则的计算公式,(二) AIC准则的计算公式,38,表12-6 所有可能子集回归的参数估计与统计量,应用以上准则如何选择模型?,求
7、出所有可能的回归模型(共有2m1个)对应的准则值;按上述准则选择最优模型,SAS获得的几个准则值结果,全局择优法的局限性,如果自变量个数为4,则所有的回归有241 15个;当自变量数个数为10时,所有可能的回归为 2101 1023个;。;当自变量数个数为50时,所有可能的回归为25011015个。,二、逐步法,1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验,(一)前进法,自变量从无到有
8、、从少到多,Y对每一个自变量作直线回归,对回归平方和最大的自变量作F 检验,有意义(P小)则引入。 在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F 检验,。 局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,(二)后退法,先将全部自变量放入方程,然后逐步剔除,偏回归平方和最小的变量,作F 检验及相应的P值,决定它是否剔除(P大) 。 建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果 。,(三)逐步回归法,双向筛选 ;引入有意义的变量(前进法),剔除无意义变量(后退法),小样本检验水准a定为0.10或0.15,大样本把值定为0.
9、05。值越小表示选取自变量的标准越严。 注意,引入变量的检验水准要小于或等于剔除变量的检验水准。,46,例12-1(逐步选择法)结果(令入出0.10),逐步回归法实例(令入出0.10),逐步回归法实例(第一步),逐步回归法实例(第二步),逐步回归法实例(X1剔除否),逐步回归法实例(第三步),逐步回归法实例(X4/X1/X3剔除否),逐步回归法实例(第四步),逐步回归法实例(是否剔除),逐步回归法实例(是否剔除),例12-3的方差分析结果,例12-3的回归系数及其检验,第五节 多元线性回归的应用及其注意事项,一、应用,影响因素分析,控制混杂因素 预测:由自变量值推出应变量Y的值 控制:指定应变
10、量Y的值查看自变量的改变量,二、应用条件,三、应用的注意事项,(一)变量的数量化,(1)自变量为连续型变量 :必要时作变换,(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1,(3)自变量为二分类:如令男1,女0,(4)自变量为名义分类:需要采用哑变量(dummy variables)进行编码,名义分类变量的哑变量化,假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:,(二)样本含量,观察个体数n与变量个数m的比例一般至少应为: n : m510,(三)统计“最优”与专业的“最优”,不同准则、方法得出的“最优”方程不同; 不同的引入、剔
11、除标准获得的“最优”方程不同; 方程还受数据的正确性、共线性影响,(四)多重共线性,自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。,回归系数的符号与由专业知识不符 变量的重要性与专业不符,多重共线性的识别与解决办法,整个方程决定系数R2高,但各自变量对应的回归系数均不显著。,解决共线性的主要方法: 筛选自变量 用主成分回归 岭回归。,(五)交互作用,当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。 检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。,(六)残差分析(检验应用条件),(六)(用标准化残差发现异常点),一般标准化残差绝对值大于2考虑为异常点(outlier)(也称离群值),多重回归计算程序,SAS计算程序,72,小结,1. 线性回归分析:模型为:,3. 参数的假设检验。 4. 参数的解释:简单回归系数和偏回归系数不同 5. 回归方程的应用:预报和因素筛选。 6. 多元线性回归中关于因素的选取方法 7. 残差分析。,2. 模型中的参数估计方法:最小平方法。,73,练习题 一、 简单线性回归部分 方积乾主编:卫
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年黑龙江能源职业学院单招职业技能考试题库有答案详解
- 2026年江西交通职业技术学院单招综合素质考试题库有答案详解
- 2025年劳务派遣人员招聘(派遣至浙江大学脑与脑机融合前沿科学中心)备考题库及答案详解(考点梳理)
- 2025年苏州产业投资私募基金管理有限公司公开招聘8人备考题库及答案详解(夺冠系列)
- 2026年商丘学院单招职业适应性测试题库有答案详解
- 2025年平湖市青少年宫劳务派遣制教师招聘备考题库及完整答案详解
- 广西旅发大健康产业集团有限公司2025年12月招聘备考题库及1套参考答案详解
- 2025年陕西省人民医院工程相关专业临聘技术人员招聘备考题库及答案详解(易错题)
- 2026年湖南商务职业技术学院单招综合素质考试题库附答案详解
- 2026年广东水利电力职业技术学院单招职业技能考试题库有答案详解
- 储备粮检验室制度规范
- (正式版)DB34∕T 5268-2025 《 600MPa级普通热轧带肋高强钢筋应用技术规程》
- 化工企业变更管理制度1209-2
- 2026年消防设施操作员之消防设备基础知识考试题库500道及完整答案(各地真题)
- 2025年建筑施工高处作业安全培训考试题库(含答案)
- 2026年鄂尔多斯职业学院单招职业技能考试题库及答案详解一套
- 专案管理培训课件
- 2025-2026学年高一上学期第三次月考地理卷【测试范围:湘教必修一第1~4章】(考试版A3)(浙江专用)
- 杆状体肌病治疗及护理
- 2025中钞特种防伪科技有限公司招聘18人笔试历年备考题库附带答案详解试卷3套
- 2026年湖南有色金属职业技术学院单招职业技能考试必刷测试卷带答案
评论
0/150
提交评论