logistic回归及其分析攻略.ppt_第1页
logistic回归及其分析攻略.ppt_第2页
logistic回归及其分析攻略.ppt_第3页
logistic回归及其分析攻略.ppt_第4页
logistic回归及其分析攻略.ppt_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic回归分析攻略 冯国双 什么是logistic回归 常见的几种回归模型 因变量为连续资料 线性回归因变量为分类资料 Logistic回归因变量为计数资料 Poisson回归因变量为生存资料 Cox回归 什么是Logistic回归 线性回归模型 Logit变换 p表示事件发生的概率 1 p为事件不发生的概率当p 1时 logit p 当p 0 5时 logit p 0 当p 0时 logit p 故logit p 的取值范围是 什么是Logistic回归 Logit变换 式中等号右边的分数 p 1 p 是流行病学常用的描述疾病发生强度的统计指标 称为优势 odds 当疾病发生的概率p与不发生的概率q相等皆为0 5时 odds 1 否则odds大于或小于1 什么是Logistic回归 Logistic回归模型 i表示自变量xi改变一个单位时 logit p 的改变量 其它形式 什么是Logistic回归 Logistic回归的主要用途 1 寻找某现象发生的影响因素 2 校正混杂因素 3 确定不同因素对疾病发生影响的相对重要性 4 预测 logistic回归参数估计 logistic回归参数估计 最大似然估计 maximumlikelihoodestimation MLE 最大似然法就是选取使总体参数落在样本观察值领域里的概率达到最大时的值作为参数的估计值 故上述问题的最大似然函数是 两边取对数 变为 logistic回归参数估计 对Q分别求关于 0和 1的一阶偏导数 并令一阶偏导数等于0 得到两个关于 0和 1的二元一次方程 解该方程组 便得到回归系数 0和 1的最大似然估计值 logistic回归参数估计 暴露人群的优势为p1 1 p1 非暴露人群的优势为p2 1 p2 二者之比 称为优势比 oddsratio OR 对OR求对数 得 logistic回归分析思路 1 分析前准备 是否可以用logistic回归 研究目的 寻找某现象的危险因素吗 预测 多因素分析 因变量类型 是分类变量吗 二分类或多分类均可 logistic回归分析思路 2 分析前准备 自变量形式审查 1 暴露因素 自变量 x是二分类变量时 直接纳入模型通常赋值为 暴露时x 1 非暴露时x 0此时logistic回归模型中的系数是1 暴露 与0 非暴露 相比的优势比的对数值 此时e 表示1 暴露 与0 非暴露 相比 事件发生的危险 即OR值 logistic回归分析思路 2 暴露因素 自变量 x是多分类变量时 常用1 2 3 k分别表示k个不同的类别 进行logistic回归分析时 将变量转换为k 1个虚拟变量或哑变量 dummyvariable 每个虚拟变量都是一个二分类变量 通常用0和1表示 每个虚拟变量各有一个回归系数 其意义表示1与0相比的优势比的对数值 logistic回归分析思路 例如 血型x为A B AB O四个值 以1 2 3 4来表示 该数字只是一个代码 并非是一个等级变量 在logistic回归分析时 需将变量x转换为3个虚拟变量 若以A型血为参照组 3个虚拟变量分别为x1 x2 x3 在分析时 将3个虚拟变量x1 x2 x3同时纳入logistic回归模型 可得3个回归系数 1 2 3 其中 1为B型血与A型血相比患白血病的优势比的对数值 2为AB型血与A型血相比患白血病的优势比的对数值 3为O型血与A型血相比患白血病的优势比的对数值 logistic回归分析思路 为什么多分类自变量要用虚拟变量的形式 logistic回归分析思路 3 暴露因素 自变量 x是连续变量时 最好将其转化为分类变量为什么 logistic回归分析思路 分析年龄与高血压发生与否的关系 age2是原始的年龄数据 age1是年龄分组数据 分为 60三个年龄组 logistic回归分析思路 直接用连续变量age分析 结果如下 提示年龄无统计学意义 logistic回归分析思路 用分类变量age1分析 结果如下 年龄50 59与 50相比 有统计学意义 logistic回归分析思路 仔细看一下二者关系 可以发现 年龄和高血压发生是二次项关系 中间高 两头低 如果直接纳入模型 作为线性关系 便无统计学意义 logistic回归分析思路 3 正式分析 单因素分析和多因素分析 必须进行单因素分析吗 并无一致结论 但一般建议可通过大致了解各自变量的作用 同时探索各自变量与因变量的关系多因素分析策略 理清多个自变量之间的关系最适合新手的简易方法 逐步回归 logistic回归分析思路 4 正式分析 参数估计和检验 利用统计软件 求出参数估计值参数估计方法最大似然法 maximumlikelihood ML 参数检验方法似然比检验 likelihoodratiotest 得分检验 scoretest Wald 2检验 logistic回归分析思路 Wald 2检验 参数估计值与标准误之比的平方似然比检验 比较两个嵌套模型的对数似然值 如模型A中含a b两个变量 模型B中含a一个变量 如果两个模型有差异 提示b可能有统计学意义 Score检验 也称拉格朗日乘数检验 求导检验 检验无效假设成立时对数似然函数的效率 logistic回归分析思路 5 建立初步模型 根据参数估计值 建立初步模型 logistic回归分析思路 6 善后工作 模型评价 1 Pearson 2 比较预测值和观测值的差别oj和ej分别为第j类交叉组合中的观测频数和预测频数若 2值很小 意味着观测频数和预测频数无 显著差别 模型很好地拟合了数据 logistic回归分析思路 2 Deviance 比较饱和模型和现有模型的差别饱和模型包含了所有的变量 其模型估计值与观测值完全相等 反映一种理想状态 Deviance值越小 现有模型与饱和模型的偏差越小 拟合效果越好 logistic回归分析思路 3 HL指标 用于模型中含有连续自变量的情形HL统计量根据预测概率值大小将所有数据排序 大致分为规模相同的10组 比较观测值与预测值的差异 2检验不显著表示拟合较好 反之表示拟合不好 logistic回归分析思路 4 AIC SC 用于多个模型之间的拟合优度比较AIC 2lnL 2 q s AIC指标通常不用于单个模型的评价 而是用于两个或多个模型拟合优度的比较 较小的AIC值表示拟合模型较好 SC SchwartzCriterion 标准是对AIC指标的一种修正 SC 2lnL 2 q s ln n SC与AIC一样 都是值越小表示模型拟合越好 均可用于嵌套或非嵌套的模型比较 logistic回归分析思路 5 广义确定系数R2 自变量对因变量的解释能力 值越大 表示自变量对因变量的解释能力越强 当自变量与因变量完全无关时 其值近于0 当拟合模型能够完美预报时 其值趋近于1 校正SAS中 R2显示为 RSquare 校正后的R2显示为 Max rescaledRSquare logistic回归分析思路 7 善后工作 模型诊断 1 多重共线性 multi collinearity 即自变量之间高度相关常用评价指标 容忍度 tolerance 小于0 1时 可能存在共线性方差扩大因子 varianceinflationfactor VIF 大于10时 可能存在共线性 logistic回归分析思路 2 异常点诊断离群点 outliers 因变量预测值与实际值差别较大 常用诊断指标为Pearson残差和Deviance残差 如果这两个指标绝对值大于2 说明相应观测可能拟合较差 常诊断为离群值 杠杆点 highleveragepoints 自变量远离其它值 常用诊断指标为杠杆值hi 若模型中有m个自变量 所有杠杆值的合计等于m 1 平均值为 m 1 n 当hi 2 m 1 n时 第个观测可看作高杠杆点 logistic回归分析思路 2 异常点诊断强影响点 influentialpoints 对模型估计影响较大 常用诊断指标为Cook距离 Cook sDistance 如果第i个观测的Cook距离远大于其他观测的Cook距离 意味着该点可能既是离群点 又是高杠杆点 因此很可能是一个强影响点 logistic回归分析思路 3 其它问题空单元 zerocellcount 自变量各水平的交叉列联表中有些单元 格子 的观测频数为0完全分离 completeseparation 若自变量存在一临界值c 当xi c时 事件发生 而xi c时 则事件不发生 过离散 overdispersion 测量方差大于期望方差 原因 重要变量未纳入 异常值 变量相关等 logistic回归分析思路 8 建立最终模型 模型解释与应用 i表示自变量xi改变一个单位时 logit p 的改变量 而系数 的实际含义取决于自变量x改变 一个单位 的专业意义 OR e 反映了暴露与非暴露相比结局发生的风险有多高 Logistic回归的SAS过程 proclogistic class自变量 model因变量 自变量 freq变量 roc 标签 变量 roccontrastreference 标签 outputout 数据集名关键词1 变量1关键词2 变量2 run Logistic回归的SAS过程 proclogistic 语句的2个关键选项 Logistic回归的SAS过程 class 语句的关键选项 Logistic回归的SAS过程 model 语句 通常写法为 modely x y为因变量 x为自变量 如果已知因变量y的赋值 如1和0 如果想分析的是对1求解 而不是0 可在y后加入event 选项 如 modely event 1 x 这种写法与 proclogistic 语句中的desc选项类似 但可以避免弄混顺序 更为方便 Logistic回归的SAS过程 model 语句的几个重要选项 1 变量筛选选项selection 指定变量选择方法 如前进法 forward 后退法 backward 逐步法 stepwise 最优子集法 scores 等 默认为noneslentry 变量选择方法为forward或stepwise时 用来指定变量入选标准 默认值为0 05slstay 变量选择方法为backward或stepwise时 用来指定变量剔除标准 默认值为0 05 Logistic回归的SAS过程 2 拟合优度选项lackfit输出Hosmer Lemeshow HL 拟合优度指标aggregate该语句与scale 语句合用 可输出Pearson 2和Deviance值scale 用于过离散 overdispersion 的校正 过离散情形主要出现于聚集现象或非独立数据 主要表现为估计方差大于名义方差 可通过scale pearson或scale deviance进行调整 rsquare输出广义R2 类似于多重线性回归中的决定系数 Logistic回归的SAS过程 3 模型诊断选项influence输出一系列的模型诊断指标 如Pearson残差 Deviance残差 帽子矩阵对角线 dfbeta和Cook距离等iplots输出各诊断指标的诊断图 以便更直观地发现异常点 4 其它选项stb输出标准化回归系数 可用于单位不同的变量之间作用大小比较 Logistic回归的SAS过程 5 诊断试验相关选项ctable采用刀切法 jackknife 输出模型判断分类表 根据pprob 选项所指定的概率标准值 对二分类因变量进行判断分类 pprob 指定一个或一系列的概率标准值 当用ctable选项时 根据预测概率的大小把自变量预测情况分为两类 如果预测概率大于标准值 则判断为病例 否则判断为非病例 通常取值为0 5outroc 指定一个数据集 包含产生ROC曲线所需的数据 结合ods命令可绘制ROC曲线 Logistic回归的SAS过程 freq 语句在变量逐列输入的时候用不上 当数据输入是列联表形式时 需要用该语句指定每一类别的频数 roc 语句 roc 标签 变量 指定用于ROC曲线分析的变量 标签部分自行指定 主要为了对变量做说明 如果不指定标签 则ROC曲线名称默认为 ROCi i 1 2 3 Logistic回归的SAS过程 roccontrast 语句 roccontrastreference 标签 用于比较不同指标的ROC曲线下面积 也可用于比较不同模型的ROC曲线下面积 reference结合后面的标签用于指定被比较的参照变量 参照变量的标签必须与roc语句中变量的标签相同 如果reference后不指定任何标签 则默认为与模型的ROC曲线比较 这里的模型在不同自变量个数的情况下有不同含义 当模型中只有一个诊断指标 则单个指标的ROC曲线等同于模型的ROC曲线 当模型中有多个诊断指标 模型的ROC曲线为多个指标联合诊断的ROC曲线 该语句主要选项 estimate 输出ROC曲线下面积比较的假设检验 Logistic回归的SAS过程 output 语句用于输出一些统计量 如预测值 残差等 其基本形式为 outputout myoutpred mypred 其中 out 后的myout是自己对输出数据集起的名字 通过procprintdata myout 可以输出该数据集 pred是固定的统计量名称 表示预测概率 mypred是对输出的预测概率起的变量名 logistic回归中的混杂因素 混杂因素的识别 1 该因素对结局有影响 可利用单因素logistic回归或 2检验来验证 2 该因素在分析因素中的分布不均衡 可用 2检验验证一下 3 从专业角度来判断 即该因素不能是分析因素与结局关系的一个中间环节 也就是说 不能是分析因素引起该因素 通过该因素再引起结局 这一点主要根据专业知识来确定 如果同时满足这三个条件 基本可以断定是混杂因素 如果有一条不满足 该因素就不是混杂因素 logistic回归中的混杂因素 例2 分析性别 吸烟对幽门螺杆菌 HP 的影响 判断吸烟是否是混杂因素 logistic回归中的混杂因素 1 判断吸烟是否对Hp有影响 单因素logistic回归提示 吸烟对Hp的发生有一定影响 吸烟发生的危险更高一些 logistic回归中的混杂因素 2 判断吸烟在不同性别中分布是否不同 卡方检验提示 吸烟在性别中分布不同 男性中比例更高 logistic回归中的混杂因素 未校正吸烟因素 性别分析结果 校正吸烟因素后 性别分析结果 logistic回归中的混杂因素 不吸烟的人之中 性别的分析结果 吸烟的人之中 性别的分析结果 交互作用与混杂因素的区别 混杂因素是指这样的因素 由于该因素在分析因素中分布不均衡 从而扭曲了分析因素与结局的关系 导致分析因素与结局出现了一种虚假的联系 交互作用则是指这样的因素 在该因素的不同水平 不同取值 分析因素与结局的关联大小有所不同 在一水平上 如取值为0 可能分析因素对结局的效应大 而在另一水平上 如取值为1 可能效应小 混杂因素所造成的是一种虚假现象 我们应尽力消除混杂以还原分析因素与结局的真正联系 而交互作用则是一种真实存在的现象 我们应尽力寻找以给出更好的解释 logistic回归中的交互作用 例3 分析幽门螺杆菌 HP Cox 2对胃癌进展的影响 并考虑二者的交互作用 logistic回归中的交互作用 交互作用有统计学意义 二者估计值为正 提示二者可能存在正向交互作用 logistic回归中的交互作用 Hp阴性人群 Hp阳性人群 logistic回归中的交互作用 所有人群 Hp阴性人群 Hp阳性人群 logistic回归中的交互作用 Cox 2阴性人群 Cox 2阳性人群 logistic回归中的交互作用 所有人群 Cox 2阴性人群 Cox 2阳性人群 logistic回归中的交互作用 Hp与Cox 2的分布情况 logistic回归案例分析 例1 某妇幼保健院采用病例对照研究探索乳腺增生的影响因素 随机抽取某年在本院就诊的200名乳腺增生患者及200名非乳腺增生患者 采用问卷调查法对各种可能的影响因素进行调查 以探索乳腺增生的危险因素 logistic回归案例分析 logistic回归案例分析 1 自变量形式考察dataaa inputyagechagerslcmr cards proclogisticplots only effect linkjoin yes plots选项输出logitp与多分类的关系 classrs param referenceref first modely event 1 rs run proclogisticplots only effect linkjoin yes classlc param referenceref first modely event 1 lc run 图1妊娠次数和流产次数与logitP的关系 logistic回归案例分析 非线性 考虑虚拟变量 线性 可直接纳入方程 logistic回归案例分析 2 单因素分析proclogisticdesc modely age proclogisticdesc modely chage proclogisticdesc classrs param referenceref first modely rs proclogisticdesc modely lc proclogisticdesc modely mr run logistic回归案例分析 2 单因素分析 logistic回归案例分析 单因素分析初步结论 由于年龄的影响在单因素分析中无统计学意义 且OR值也较为接近1 在多因素分析中不再考虑年龄因素 仅对其它4个因素进行分析 logistic回归案例分析 3 多因素分析 去掉年龄 proclogisticdesc classrs param referenceref first modely chagerslcmr run 多因素分析结果 logistic回归案例分析 多因素分析小结 为什么rs变得无统计学意义了 相关分析结果显示 妊娠次数与流产次数具有较强的相关性 r 0 55 P 0 001 logistic回归案例分析 多因素分析小结 可以设想 妊娠次数对乳腺增生可能并无影响或影响很小 单因素中的影响可能主要是通过流产次数这一因素起作用的 当多因素分析中校正了流产次数的影响后 妊娠次数的影响变得无统计学意义 将妊娠次数这一变量去掉 重新拟合方程 logistic回归案例分析 logistic回归案例分析 去掉妊娠次数后重新拟合 同时评价模型的拟合优度proclogisticdesc modely chagelcmr aggregatescale none run 模型中所有变量均有统计学意义 与含rs变量的模型相比 AIC和SC均降低 似然比差别很小 说明去掉rs后模型更优含rs模型不含rs模型 logistic回归案例分析 模型的拟合优度评价 P值小于0 05 提示拟合不充分指标值距离1较远 提示可能有过离散现象存在 意味着可能结果存在假阳性 logistic回归案例分析 模型诊断 proclogisticdesc modely chagelcmr aggregatescale noneinfluence run logistic回归案例分析 模型诊断图 部分 并无明显的异常点 logistic回归案例分析 进一步考虑是否可能存在交互效应 考虑母乳喂养与初产年龄的交互作用proclogisticdesc modely chagelcmrchage mr aggregatescale none run logistic回归案例分析 初产年龄与母乳喂养可能存在一定的交互效应为什么mr和chage变得无统计学意义 一旦模型中加入交互项 变量便不再反映主效应 而是单独效应 此时mr反映的是chage 0时的效应 同样 chage反映的是mr 0时的效应 logistic回归案例分析 交互项的进一步解释 对于母乳喂养的人 mr 0 初产年龄 25与初产年龄 25与初产年龄 25岁的人相比 其效应 参数估计值 为0 2717 1 4587 1 7304 logistic回归案例分析 如果想详细了解mr和chage两个变量组合的效应 可将这两个变量组合 即 chage 0 mr 0 chage 0 mr 1 chage 1 mr 0 chage 1 mr 1 四类 将该四分类变量做成虚拟变量 本例 初产年龄小 母乳喂养风险相对较低 将其作为参照组 产生三个虚拟变量 这三个虚拟变量分别为 chage 0 mr 1 相对 chage 0 mr 0 的风险 即非母乳喂养的风险 chage 1 mr 0 相对 chage 0 mr 0 的风险 即初产年龄 25的风险 chage 1 mr 1 相对 chage 0 mr 0 的风险 即非母乳喂养和初产年龄 25共同的风险 logistic回归案例分析 DATAexample8 6 INPUTyagechagerslcmr IFchage 1andmr 0THENcm1 1 elsecm1 0 IFchage 0andmr 1THENcm2 1 elsecm2 0 IFchage 1andmr 1THENcm3 1 elsecm3 0 cards proclogisticdesc modely lccm1cm2cm3 aggregatescale none run logistic回归案例分析 cm1反映的是chage的作用 cm2反映的是mr的作用 cm3的参数估计值1 4324则等于 0 2714 0 2977 1 4587 包括chage的效应 mr的效应及chage和mr的交互作用共三部分效应 logistic回归案例分析 此时拟合优度仍显示结果并非很理想这种情况并不少见 与很多原因有关 如变量不充分 数据收集本身的问题等但加入交互项后 与不加相比 拟合效果相对更优不加交互项的模型加入交互项的模型 logistic回归案例分析 考虑到仍可能存在过离散现象 最终可对过离散进行校正 这里采用Pearson法进行校正proclogisticdesc modely lccm1cm2cm3 aggregatescale pearson run logistic回归案例分析 校正后 参数估计值不变 但标准误变大 相应的P值变大 可以避免假阳性错误 logistic回归案例分析 本例结论 流产次数多是乳腺增生的危险因素 初产年龄和是否母乳喂养的交互作用对乳腺

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论