




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十六章logistic回归分析 logistic回归为概率型非线性回归模型 是研究分类观察结果 y 与一些影响因素 x 之间关系的一种多变量分析方法 问题提出 医学研究中常研究某因素存在条件下某结果是否发生 以及之间的关系如何 因素 X 疾病结果 Y x1 x2 x3 XK发生Y 1不发生Y 0例 暴露因素冠心病结果高血压史 x1 有或无有或无高血脂史 x2 有或无吸烟 x3 有或无 研究问题可否用多元线性回归方法 1 多元线性回归方法要求Y的取值为计量的连续性随机变量 2 多元线性回归方程要求Y与X间关系为线性关系 3 多元线性回归结果不能回答 发生与否 logistic回归方法补充多元线性回归的不足 Logistic回归方法 该法研究是当y取某值 如y 1 发生的概率 p 与某暴露因素 x 的关系 P 概率 的取值波动0 1范围 基本原理 用一组观察数据拟合Logistic模型 揭示若干个x与一个因变量取值的关系 反映y对x的依存关系 一 基本概念 1 变量的取值logistic回归要求应变量 Y 取值为分类变量 两分类或多个分类 自变量 Xi 称为危险因素或暴露因素 可为连续变量 等级变量 分类变量 可有m个自变量X1 X2 Xm 2 两值因变量的logistic回归模型方程 一个自变量与Y关系的回归模型如 y 发生 1 未发生 0 x有 1无 0 记为p y 1 x 表示某暴露因素状态下 结果y 1的概率 P 模型 或 模型描述了应变量p与x的关系 P概率 1 0 5 Z值 0 1 2 3 1 2 3 图16 1Logistic回归函数的几何图形 为正值 x越大 结果y 1发生的可能性 p 越大 几个logistic回归模型方程 logistic回归模型方程的线性表达 对logistic回归模型的概率 p 做logit变换 截距 常数 回归系数 Y 至 线性关系 方程如下 在有多个危险因素 Xi 时 多个变量的logistic回归模型方程的线性表达 或 2 模型中参数的意义 0 常数项 暴露因素Xi 0时 个体发病概率与不发病概率之比的自然对数比值 的含义 某危险因素 暴露水平变化时 即Xi 1与Xi 0相比 发生某结果 如发病 优势比的对数值 P1 y 1 x 1 的概率 P0 y 1 x 0 的概率 危险因素Yx 1x 0发病 130 a 10 b 不发病 070 c 90 d a cb d危险因素Yx 1x 0发病 1p1p0不发病 01 p11 p0 有暴露因素人群中发病的比例 反映了在其他变量固定后 X 1与x 0相比发生Y事件的对数优势比 回归系数 与ORX与Y的关联 0 OR 1 无关 0 OR 1 有关 危险因素 0 OR 1 有关 保护因子事件发生率很小 OR RR 多元回归模型的的概念 二 Logistic回归模型 Logistic回归的分类二分类多分类条件Logistic回归非条件Logistic回归 Logit变换也称对数单位转换logitP 流行病学概念 设P表示暴露因素X时个体发病的概率 则发病的概率P与未发病的概率1 P之比为优势 odds logitP就是odds的对数值 Logistic回归模型Logistic回归的logit模型Logistic回归模型 三 参数估计 最大似然估计法 Maximumlikehoodestimate 似然函数 L Pi对数似然函数 lnL lnP lnP1 lnP2 lnPn非线性迭代方法 Newton Raphson法 四 参数检验 似然比检验 likehoodratiotest 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行 其统计量为G 又称Deviance G 2 lnLp lnLk 样本量较大时 G近似服从自由度为待检验因素个数的 分布 比分检验 scoretest 以未包含某个或几个变量的模型为基础 保留模型中参数的估计值 并假设新增加的参数为零 计算似然函数的一价偏导数 又称有效比分 及信息距阵 两者相乘便得比分检验的统计量S 样本量较大时 S近似服从自由度为待检验因素个数的 分布 Wald检验 waldtest 即广义的t检验 统计量为uu服从正态分布 即为标准正态离差 Logistic回归系数的区间估计 上述三种方法中 似然比检验最可靠 比分检验一般与它相一致 但两者均要求较大的计算量 而Wald检验未考虑各因素间的综合作用 在因素间有共线性时结果不如其它两者可靠 五 回归系数的意义 单纯从数学上讲 与多元线性回归分析中回归系数的解释并无不同 亦即bi表示xi改变一个单位时 logitP的平均变化量 流行病学中的一些基本概念 相对危险度 relativerisk RR P1 P2比数Odds P 1 P 比数比OR P 1 P P 1 P 在患病率较小情况下 OR RR Logistic回归中的常数项 b0 表示 在不接触任何潜在危险 保护因素条件下 效应指标发生与不发生事件的概率之比的对数值 Logistic回归中的回归系数 bi 表示 某一因素改变一个单位时 效应指标发生与不发生事件的概率之比的对数变化值 即OR的对数值 Logistic回归系数的意义 分析因素xi为二分类变量时 存在 暴露 xi 不存在 未暴露 xi 则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值 即OR exp bi e bi 分析因素xi为多分类变量时 为方便起见 常用1 2 k分别表示k个不同的类别 进行Logistic回归分析前需将该变量转换成k 1个指示变量或哑变量 design dummyvariable 这样指示变量都是一个二分变量 每一个指示变量均有一个估计系数 即回归系数 其解释同前 分析因素xi为等级变量时 如果每个等级的作用相同 可按计量资料处理 如以最小或最大等级作参考组 并按等级顺序依次取为0 1 2 此时 e bi 表示xi增加一个等级时的优势比 e k bi 表示xi增加k个等级时的优势比 如果每个等级的作用不相同 则应按多分类资料处理 分析因素xi为连续性变量时 e bi 表示xi增加一个计量单位时的优势比 多因素Logistic回归分析时 对回归系数的解释都是指在其它所有自变量固定的情况下的优势比 存在因素间交互作用时 Logistic回归系数的解释变得更为复杂 应特别小心 根据Wald检验 可知Logistic回归系数bi服从u分布 因此其可信区间为进而 优势比e bi 的可信区间为 六 Logistic回归分析方法 基本思想同线性回归分析 从所用的方法看 有强迫法 前进法 后退法和逐步法 在这些方法中 筛选变量的过程与线性回归过程的完全一样 但其中所用的统计量不再是线性回归分析中的F统计量 而是以上介绍的参数检验方法中的三种统计量之一 为计算方便 通常向前选取变量用似然比或比分检验 而向后剔除变量常用Wald检验 七 条件Logistic回归 对配对 比调查资料 应该用条件Logistic回归分析 对于配比资料 第i个配比组可以建立一个Logistic回归 假设自变量在各配比组中对结果变量的作用是相同的 即自变量的回归系数与配比组无关 配比设计的Logistic回归模型其中不含常数项 可以看出此回归模型与非条件Logistic回归模型十分相似 只不过这里的参数估计是根据条件概率得到的 因此称为条件Logistic回归模型 条件Logistic回归的回归系数检验与分析 和非条件Logistic回归完全相同 八 logistic回归的应用 1 疾病 某结果 的危险因素分析和筛选用回归模型中的回归系数 i 和OR说明危险因素与疾病的关系 适用的资料 前瞻性研究设计 病例对照研究设计 横断面研究设计的资料 三类研究计算的logistic回归模型的 意义是一致 仅常数项不同 证明略 2 校正混杂因素 对疗效做评价在临床研究和疗效的评价 组间某些因素构成不一致干扰疗效分析 通过该法可控制非处理因素 正确评价疗效 3 预测与判别预测个体在某因素存在条件下 发生某事件 发病 的概率 为进一步治疗提供依据 输精管切除术与动脉粥样硬化疾病的研究1 问题的描述 1 输精管切除术是否与动脉粥样硬化疾病有关 2 如果存在联系 与其他已知的危险因素相比 输精管切除术的相对重要性有多大 3 哪些男性亚群在输精管切除术以后发生动脉粥样硬化疾病的可能性特别大 九 logistic回归的应用举例 研究目的 1 一般目的确定输精管切除术与其后因动脉粥样硬化疾病而住院之间是否有因果联系 如果有 则确定输精管切除术与患动脉粥样硬化性疾病的危险性是否因观察对象具有其他冠心病危险因素 如吸烟 高血压和高胆固醇等而增强 2 特殊目的A 估计输精管切除术及其男性动脉粥样硬化性疾病危险因素的相对危险度 使用单变量分析方法 B 估计输精管切除术对动脉粥样硬化性疾病独立的作用 利用条件Logistic回归模型 C 检测输精管切除术导致动脉粥样硬化性疾病的可能期限 D 检测在输精管切除术 吸烟和高血压之间可能的协同作用 研究变量 1 按照世界卫生组织标准来诊断动脉粥样硬化性疾病 2 病人特征 年龄 出生日期 宗教 教育 职业 家庭史 婚姻状况 3 生育史 存活子女的数量与性别 妻子的生育情况 4 生活方式 吸烟习惯 饮酒量 饮食习惯 食盐量 喝咖啡量 体力活动 5 医学史 有无可能导致不育的疾病或手术 高血压 糖尿病或高胆固醇血症 研究设计 抽样 以完全随机抽样方式确定样本 样本量大小的计算是基于事先确定显著性水平 把握度和打算测知的相对危险度水平 假定样本量确定为病例组500例 对照组1000例 本设计力图避免或减少在病例一对照研究中常见的偏倚与误差 回忆偏倚 选择偏倚和输精管切除术报告偏倚对研究结果的真实性是极其重要的 资料收集 病例组的选取 调查员审阅每日住院病人情况 如果诊断适合研究的范围 将病例转给心脏病主任医师作评估 由他做出病例诊断是否合格的决定 调查人员核对病人背景资料是否合格 如果病人满足诊断标椎和背景资料合格 调查人员开始询问并填写调查表 每完成5个病例和10个配对对照以后 请研究中心的工作人员对调查表进行评估 重复以上步骤 对照组的选取 调查人员评估入院单并选择符合配对标椎和入院诊断合适的对照病例 核对病人背景资料是否符合入院标准 如对照组成员合格 则进行调查 统计分析 A 计算未校正的相对危险比 OR 与95 可信限范围 以估计输精管切除术和其他危险因素的相对危险度 B 利用配对的条件Logistic回归模型计算校正相对危险比 用此比来评价输精管切除术对动脉粥样硬化的独立影响 C 利用动脉粥样硬化作为因变量 输精管切除术后间隔时间作为自变量 用条件Logistic回归模型来检验输精管切除术后时间长短对发生动脉粥样硬化的时间效应 二 Logistic回归应用的注意事项 1 模型中自变量的取值自变量 X 可为计量数据 分类数据和等级数据 计量数据常重新划为有序组段 OR的实际意义较大 例 年龄 岁 x1 十 logistic回归的注意事项 数据的几种赋值形式 1 两分类变量 赋值为 有 1 无 02 有序变量 赋值 无 0 少 1 中 2 多 3例 年龄 45 145 54 255 64 3 65 43 多分类无序变量 赋值为 哑变量 dummyvariable 形式见例 注 变量取值不同 方程的系数和符号将发生变化 冠心病可能的危险因素与赋值 年龄 X 化为哑变量的赋值 方程1 有序变量方程 含义 x每增加1个单位 10岁 发病的lnOR平均增加 1 方程2 哑变量方程 哑变量个数 分类数 1 方程系数的解释 表示40 岁 40岁相比的对数优势比表示50 岁 40岁相比的对数优势比表示60 岁 40岁相比的对数优势比 哑变量的赋值方法 例2 研究某结果与血型的关系 变量规定某个分类为对照 对照组在哑变量的赋值均为0 式中回归系数表示各对比组与对照组 A型 相比的变化值 变量X4的哑变量的赋值方法规定治疗11周 X4 1 是 1 否 0规定治疗21周 X4 2 是 1 否 0规定治疗1周为对照组 哑变量的赋值周X4 1X4 21 0011 1021 01 2 样本含量 1 病例和对照组的例数可相等或不等 2 样本例数的估计原则 自变量个数越多 例数越多 各组样本例数 对照组和病例组 至少为自变量个数的5 20倍 3 模型的评价 对所建立的回归方程做拟合优度检验 检查模型估计与实际数据的符合情况 统计量的概率值P 0 05 认为模型拟合较好 4 多分类的Logistic回归 Logistic回归可处理 1 应变量 Y 为有序的多分类资料如结果为 治愈 显
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学英语课堂中多元文化元素与体验式教学的结合
- 优化国际化人才培养机制增强跨国运营能力
- 动力电池回收体系中废旧电池收集与运输策略
- 专业课程与老年心理健康服务需求的契合度分析
- 打造互动型社交空间增强顾客粘性
- 五年级上册体育全册教案(2025-2026学年)(表格式)
- 早期教育评估与质量监控机制路径
- 地方高校教师教育课程改革中的学生学习成果导向分析
- 注册产品合作合同(标准版)
- 绿化修剪上申请报告(3篇)
- 安徽省离婚协议书格式
- 消防工程高处作业施工方案
- 外墙打胶施工方案
- 重症医学科降低抗生素使用率PDCA循环
- 融资性贸易案例分析及启示
- 电梯维保员服务用语培训
- 审计案例分析单选题100道及答案解析
- 二年级上册《生态 生命 安全》教案
- 普通高中国家助学金申请表
- 2024年辽宁省抚顺市五十中学九年级数学第一学期开学质量跟踪监视模拟试题【含答案】
- 无机及分析化学-第1章-物质的聚集状态
评论
0/150
提交评论