多因素回归知识点总结.docx_第1页
多因素回归知识点总结.docx_第2页
多因素回归知识点总结.docx_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多因素回归知识点总结一.哑变量因变量:即结果变量、应变量、被预测变量自变量:即协变量、解释变量、预测变量哑变量:回归分析中有两组以上的分组情况。若自变量是无序多分类变量,需要“哑变量化”处理。方法是设置“分组数减1”个指示变量。职业g1g2g3g4工人1000农民0100商人0010学生0001其他0000uyu0b1g1b2g2b3g3b4g4则学生组总体均数为u0b4g4二.混杂因素控制举例:是否服药(分现服药组、曾服药组、从未服药组)、年龄两个因素对血糖的影响若只考察“是否服药”一个因素,哑变量化是否服药g1g2现服药10曾服药01从未服药00uyu0b1g1b2g2则g1、g2的P值皆0.05,说明血糖受“是否服药”影响但发现3组人的年龄是不同的,因此必须排除年龄是否是混杂因素考察“是否服药”和年龄两个因素uyu0b1g1b2g2b3X发现g1、g2的P值皆0.05,而X的P值0.05,说明3组血糖不同其实是由于年龄不同导致,“是否服药”反而是混杂因素理论上,更严格的实验要求分析“是否用药”与年龄是否对血糖构成交互作用三.影响因素的筛选1.最优预测模型:需满足以下三个条件:自变量个数一定时,残差的平方和最小进入回归模型的自变量都有统计学意义再增加任一自变量,会导致更多自变量失去统计意义2.寻求最优预测模型方法:前进法:计算所有自变量的P值,从P值最大的开始,逐个纳入自变量,出现有P值0.05则剔除新加自变量,直到有统计学意义的自变量全部进入回归模型。缺点:后续变量的引入可能会使先进入方程的变量变得不重要前进逐步回归法:计算所有自变量的P值,从P值最大的开始,逐个纳入自变量,出现有P值0.05则剔除无统计意义且P值最大的自变量,依次循环引入、剔除,直到回归模型中所有自变量都有统计学意义,且再增加任一自变量,会导致更多自变量失去统计意义后退法:纳入所有自变量,先剔除无统计学意义且P值最大的自变量,再次计算并依前标准剔除,直到模型中所有自变量都有统计学意义。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果后退逐步回归法:纳入所有自变量,先剔除无统计学意义且P值最大的自变量,再次计算并依前标准剔除,剔除后还要考察已剔除的自变量是否能回纳入回归模型,直到既没有自变量可以引入,也没有自变量要剔除为止3.举例:有5个自变量X1X5X1X2X3X4X5说明步骤1回归系统b0.1750.513-0.1160.9450.348全部纳入,X3的P值最大,先剔除P值0.0970.0110.7120.0560.454步骤2回归系统b0.1380.5240.8830.407重新计算,X5的P值最大,故剔除P值0.0000.0080.0520.342步骤3回归系统b0.1350.5451.045所有自变量均有统计学意义,但仍要回纳X3是否可以重新进入P值0.0000.0050.014步骤4回归系统b0.1990.521-0.1981.111回纳后X3仍无统计学意义,不应纳入P值0.0480.0090.4990.0134.决定系数R2R2越接近1,说明拟合情况越好,R20.8说明因变量80%的变异是由自变量的变化引起的R21SS残差SS总R2随自变量个数的增加而增加,因此,在相近的情况下,以包含的自变量个数少者为优校正R2a1MS残差MS总R2a不会随无意义的自变量增加而增大;R2一定时,P值越大,R2a越小四.变量的交互作用1.多个自变量之间可能有交互作用,如果自变量的一次项不足以解释Y的变异,有时还需考虑两个自变量的“额外效应”,又称“交互作用”2.交互作用的回归方程:uyu0b1X1b2X2b3X1X23.是否引入交互作用主要根据研究背景知识,引入后需要进行统计检验五.共线性问题1.共线性:当自变量之间存在较强的相关关系时,称之为共线性。会导致回归系数的估计值失真。2.何时考虑存在自变量共线性:整个回归方程有统计学意义,但是每个自变量的均无统计学意义回归系数的符号与医学专业知识不一致参数估计的标准误变得很大,使t值变得很小,P值很大3.判断方法:利用自变量间的相关系数阵。若r 0.9,共线性可能性大4.处理方法:根据专业知识去除比较次要的、缺失值较多、测量误差较大的共线性因子六.多重线性回归、Logistic回归、Cox回归的比较1.相同点:对自变量没有要求,可以是定性变量(计数变量,可包括有序、无序),也可以是定量变量自变量为定性变量时,分组多于两个时注意哑变量化若自变量之间有较强相关关系,则会出现“共线性”问题,使回归分析结果无法合理解释都可以用于控制混杂因素2.不同点:样本含量:多重线性回归只需样本含量为自变量个数的510倍即可;logistic回归基于大样本假定,因此需要的样本含量需要为自变量个数的1520倍;Cox回归亦需1520倍多重线性回归的每一个入选影响因素都必须单独与因变量检验是否符合线性,若不符合线性,可检验满足什么关系(二次方、三次方)回归系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论