多元回归和logistic回归原理完整版_第1页
多元回归和logistic回归原理完整版_第2页
多元回归和logistic回归原理完整版_第3页
多元回归和logistic回归原理完整版_第4页
多元回归和logistic回归原理完整版_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计方法多元统计方法建立方程的计算量很大,一般需软件完成。前人手工计算这两种回归(借助科学计算器),精神可嘉80 年代,一个Logistic回归即使用计算机,计算的时间也以天计。调整或控制调整或控制单因素分析有意义,多因素没有意义的解释单因素分析有意义,多因素没有意义的解释指标多,难以理解。在计算自动化时代,这是回归的难点,我们不懂如何判断我们的模型的好坏回归的实际应用回归的实际应用SPSS菜单菜单(1)自变量为连续型变量 :必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男1,女0(4)自变量为名义分类:需要采用哑变量(dummy

2、 variables)进行编码 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:数据格式数据格式回归的一些定义回归的一些定义yi=b0+b1x1i+b2x2i+bnxni回归方程的建立回归方程的建立将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系,P0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏各自变量的假设检验与评价,检验各自变量和应变量是否有线性关系,P(可放宽)说明有线性关系,同样t值不说明线性关系的强弱,这样,一个回归方程就建立了,回归方程的建立就是如此easy。线性与拟合优度线性与拟合优度全局择优

3、法的模型为最佳接近提出年残残残残1)p()2()()(1()2()()(MallowsCL1964pmpmppCpnMSMSpnpnMSSSCCp准则的计算公式准则的计算公式准则的计算公式越小越好最小二乘法年由日本学者赤池提出AICpSnpnnAICpy)(2/ )ln(1973212.自变量到底如何选择自变量到底如何选择不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响强影响点,记录的选择强影响点,记录的选择变量记录强影响点,记录的选择强影响点,记录的选择判断强影响点的指标判断强影响点的指标判断强影响点的指标(判断强影响点的指标

4、(2)距1越远,越是强影响点其余指标绝对值越大越是强影响点 自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。容易出现:回归系数的符号与由专业知识不符变量的重要性与专业不符整个方程决定系数R2高,但各自变量对应的回归系数均不显著。多重共线性的诊断多重共线性的诊断Spss的实现与结果的实现与结果实例实例从第四个特征根看,特征根小,条件指数大,从变量的方差比例来看,SBP和DBP在其中贡献最大,可以说两者有近似共线性不过两者的共线性对方程的影响并不大容许度越近于0共线性越大,等于0,完全共线复制的BMI根本无

5、法进入方程后面讨论交互作用的时候我们还要提到共线性影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量在医学研究中最为长用,个人认为在医学研究中最为长用,个人认为对模型拟合要求较低,特别在对模型拟合要求较低,特别在控制混杂的控制模式中控制混杂的控制模式中后两种用途对模型要求严格回归系数符号反常与主要变量选不进方程回归系数符号反常与主要变量选不进方程的原因分析的原因分析线性回归的注意事项线性回归的注意事项共线性很大回归的发展回归的发展Logistic回归回归二、 Logistic回归模型26例冠心病病人和例冠心病病人和28例对照者进行例对照者进行病例

6、病例 对照研究(变量赋值表)对照研究(变量赋值表) 有统计学家持反对意见认为损失信息26例冠心病病人和例冠心病病人和28例对照者进行例对照者进行病例病例 对照研究(数据格式)对照研究(数据格式) Logistic回归方程的建立回归方程的建立建立方程就是求解b0,b1bp参数意义参数意义回归系数的意义iibbus()ibibuse参数估计参数估计似然函数计算方法最大似然法迭代法初始值迭代次数人为精度可能不收敛总体来说,解比较稳定。SPSS的实现的实现analyze-regression-binary logistic-option模型拟合优度指标,2值越小,P值越大表明模型越好迭代过程,可以监察

7、方程计算的过程参数估计的相关矩阵,每步各协变量的零级相关系数(简单相关系数)均小(,说明 Logistic方程总体有意义,借用线性的 解释来说将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有关系,P0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏:真正的模型拟合一般要把其提高到0.20或0.10而非0.05。结果结果3结果结果4参数估计的相关矩阵,每步各协变量的零级相关系数(简单相关系数)均小(0.80),提示各协变量间相互独立至此,一个最简单logistic方程建立和检验告一段落,下面涉及和自变量的筛选自变量的筛选全局择优指标全局择优指标逐步选择法三种向前

8、法,协变量引入检验均基于score统计量删除变量基于条件估计的似然比删除变量基于最大偏似然估计似然比删除变量基于Wald统计量似然比检验(likehood ratio test)iibbu =siibbus由于软件的计算相对容易,可以多种方法比较,结果多数一致,如果不一致,也均发生在临近界值的变量上,这些变量在方程中本身对应变量的影响就不大,在实际中对研究的影响也较小。寻找强影响点,记录的选择寻找强影响点,记录的选择分类自变量的哑变量编码 为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么所得的, 容易造

9、成错误的解释。 )2exp(OR西、中西、中三种疗法哑变量化西、中西、中三种疗法哑变量化其它中西其它西012011XX原资料原资料哑变量化哑变量化00100121中中西西疗法XXSpss中亚变量的设置中亚变量的设置亚变量的亚变量的SPSS处理菜单处理菜单亚变量的亚变量的SPSS处理菜单(二)处理菜单(二)亚变量设置(亚变量设置(Spss)参照分类为0,其余为1,即各分类与参照分类比较除第一类分类外,各分类与其之前平均分类效应比较亚变量设置亚变量设置(2)Sas统计软件所得的结果解释与spss相似七、条件Logistic回归i1 12 2logit P=bkkbxb xb x1 12 2logit P=bk kxbxbx个体配对资料的优缺点个体配对资料的优缺点1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论