logistic回归分析的判别预测功能及其应用(1)_第1页
logistic回归分析的判别预测功能及其应用(1)_第2页
logistic回归分析的判别预测功能及其应用(1)_第3页
logistic回归分析的判别预测功能及其应用(1)_第4页
logistic回归分析的判别预测功能及其应用(1)_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

LogisticLogistic 回归分析的判别预测功能及其回归分析的判别预测功能及其 应用应用(1)(1) 【摘要】 目的:介绍 Logistic 回归模型在判别分 析中的应用。方法:结合实例介绍 Logistic 回归的判别功 能的思想、原理、条件和步骤及其在医学领域的应用前景。 结果:Logistic 回归应用于判别分析时,显示出了较高的 准确性和较好的预测效果。结论:Logistic 回归在定性和 半定量资料的判别和预测方面有一定的优势,结合计算机 网络技术的发展在医学领域有较好的应用前景。 【关键词】Logistic 回归;判别分析;预测;医学应 用 Logistic 回归分析在医学研究中应用广泛。目前主要 是用于流行病学研究中危险因素的筛选,但它同时具有良 好的判别和预测功能,尤其是在资料类型不能满足 Fisher 判别和 Bayes 判别的条件时,更显示出 Logistic 回归判别 的优势和效能。本研究对 Logistic 回归方程的判别分析进 行了探讨,并用一实例介绍其应用。 1 多元 Logistic 回归模型介绍 在多元线性回归模型中,因变量 y 的取值范围是(- ,) ,具体取值取决于自变量的取值范围,而在疾病的 危险度分析中,因变量是二分类变量,又称 0-1 变量,如 发病(y=1)与不发病(y=0) 。用率 P 作为因变量,则 P 的 取值范围为(0,1) ,此时要用自变量的线性组合进行变量 的筛选、作用大小的比较和自变量交互作用的研究,就必 须通过一个函数关系将因变量 P 和自变量的线性组合联系 起来,这个函数关系便是 Logit 变换,具体如下: 设 P 为暴露因素为 x 时个体发病的概率,则发病的概 率 P 与未发病的概率 1-P 之比称为优势比,LogitP 定义为 优势比的对数:LogitP=ln,此时 LogitP 的取值范围为(- ,),多元 Logistic 回归模型定义为: LogitP=1x12x2mxm(m 为自变量个数) 将 LogitP 看成因变量,Logistic 回归就与多元线性回 归的形式是一样的1,2 。 2Logistic 回归的判别预测功能及用法 在 Bayes 判别分析中,其后验概率的计算公式为: P=exp1exp 此公式和 Logistic 模型的表达式是完全相同的,其区 别在于 Bayes 判别分析是在各类内指标服从多元正态分布 的前提下用判别函数法估计参数,并且需要知道先验概率, 而 Logistic 回归估计参数却没有这一要求。它是直接根据 指标情况通过回归模型求出某一事件发生的估计概率。因 此,Logistic 回归不仅具有判别和预测功能,而且限制条 件少,资料要求相对低,适用于定性的或半定量的指标, 估计各种自变量组合条件下应变量各级别的发生概率,在 临床判别诊断和危险人群筛检中,应用前景广阔。 在 Logistic 回归中,对两类判别问题,记第一类 y=0,第二类 y=1,则根据指标可以建立 LogitP 关于自变量 x1,x2xm 的 Logistic 回归方程: LogitP=b0b1x1b2x2bmxm 得概率估计公式: =eb0b1x1b2x2bmxm1eb0b1x1b2x2bmxm 根据估计概率进行判别归类,如果估计概率小于,则 判为第一类;如果估计概率大于,则判为第二类;如果等 于,暂不归类。 对于多分类(类别 k2)判别问题,需先建立多分类结 果的 Logistic 回归方程: LogitPk=lnPP=bkbk1x1bk2x2bk3x3bkpxp=gkk=1,2,k- 1 各类结果的条件概率为:Pk=Py=k|x=egkk- 1i=0egk,k=1,2,k-1 分别计算各样品属于各类之概率,并根据概率大小判 别归类,即属于哪一类的概率最大就判别为哪一类 2,3,7 。 3Logistic 回归判别法的应用条件 应用 Logistic 回归做判别预测时,应当注意资料的分 布类型、资料的收集方法,在正确选择模型和了解模型中 参数的意义的基础上做出判别预测。 非条件 Logistic 回归适合于队列研究、病例对照研 究,同样也适合于现况调查中的病因学研究。按 3 种不同 抽样方式作 Logistic 回归,除病例对照研究资料的常数 项与另外两种不同外,回归系数的意义相同。因此,队列 研究和现况调查的非条件 Logistic 回归可直接计算预测概 率;而病例对照研究的非条件 Logistic 回归得不到 的估计值,在得到模型估计参数 后,需要对常数项进 行校正,即:=-lnn1q0n0q1 其中 n1 和 n0 分别为病例和对照的样本含量,q1 和 q0 为特定人群中发病和不发病的先验概率,可以根据经验作 出估计。然后再用调整后的 作为 Logistic 回归方程的 常数项就可以计算预测概率。 条件 Logistic 回归适用于配比资料的 Logistic 分析。 在条件 Logistic 回归模型中,常数项 i 是配比组特有的, 它的意义是该配比组的各自变量均为 0 时的基线风险,不 同的配比组 i 可以各不相同。在模型建立的过程中,i 因为同一层病例和对照的基线患病率相同被抵消了,因此 条件 Logistic 回归只估计了表示危险因素作用的 m 值, 即 LogitP=1x12x2mxm 因为没有常数项,条件 Logistic 回归不能直接作概率 预测,但可以通过估计比数比 OR 起到预测的作用。在 Logistic 回归中,回归系数 m 与衡量危险因素作用大小 的重要指标 OR 有一个对应的关系,如比较某一危险因素的 两组不同暴露水平 xm(暴露组)和 xm(对照组)的发病 情况,则该因素的比数比为 OR=expbm (9) 特殊的,如果取暴露组水平 xm=1,对照组水平 xm=0,则暴露组与对照组发病的比数比 OR=exp,多变量 联合比数比为各变量比数比的乘积。对于某一个体,可以 先确定各个危险因素的暴露等级,明确其所属暴露组,然 后求该暴露组与对照组的多变量联合比数比。根据多变量 联合比数比的大小可以估计该个体所属暴露组与对照组相 比可能的发病情况4 。 4 应用举例 在研究医院抢救急性心肌梗死(AMI)病人能否成功的 危险因素的调查中,某医院收集了 5 年中该院所有的 AMI 病人的抢救病史,共 200 例,其中 P=0 表示抢救成功,P=1 表示抢救未能成功而死亡;x1=1 表示抢救前已发生休克, x1=0 表示抢救前未发生休克;x2=1 表示抢救前发生心力衰 竭,x2=0 表示抢救前未发生心力衰竭;x3=1 表示病人从开 始 AMI 症状到抢救已超过 12 小时;x3=0 表示病人从开始 AMI 症状到抢救未超过 12 小时。本例将医院所有 AMI 病人 看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论