


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学研究中Logistic回归与其他方法的结合应用 【关键词】 Logistic回归Logistic回归(logistic regression)属于概率型非线性回归,是分析反应变量为独立分类资料的常用统计分析方法,由于对资料的正态性和方差齐性不做要求、对自变量类型也不做要求等,使得近年来Logistic回归模型在医学研究各个领域被广泛用,如流行病学、病因学的队列研究、病例对照研究,临床诊断的判别模型,治疗效果评价等。 同时与其他传统的统计学方法一样,Logistic回归也有许多的应用条件:当自变量为连续型变量时,Logitp与自变量成线性,对多元共线性敏感,以及参数估计条件等17,使Logi
2、stic回归在单独面对医学领域日益庞大和复杂多变的数据信息时,往往受到一定的限制,无法使数据信息得到充分利用,应用不当还会得出错误结论。因此随着统计学方法的不断发展和新的统计学方法的出现,Logistic回归在越来越多的医学研究的文献资料中常常不再独自出现,而是与其他方法相互结合取长补短,充分利用资料中的信息,从而得出相对正确的结论。本研究将对近几年Logistic回归在医学研究中与其他方法相互结合及比较应用作简要介绍。1 主成分Logistic回归分析 Logistic回归模型与多元线性回归一样,对自变量中存在的多元共线性很敏感。自变量之间的任何相关都表示存在多元共线性。在多元共线性程度较高
3、时, 可能导致模型参数的不精确估计, 使变量的单独影响不易分解出来, 从而把一些本应对应变量有显着影响的变量排除在模型之外。解决共线性的方法一般有:删除冗余的自变量,但在实际中往往会因为无法区别有意义的变量与冗余变量而误删,从而造成模型误设;增加样本含量,使标准误减少,抵消多重共线性的影响。但这种方法只有在多重共线性是由测量误差引起或偶然存在于原始样本而不存在于总体时才适用;用逐步Logistic回归,寻求建立一种最佳回归方程,这种方法容易损失一些信息;用主成分Logistic回归,通过主成分变换,将高度相关的几个变量的信息综合起来参与回归8,主成分分析能够用少数变量对相关变量进行综合,既能降
4、低指标的维数,又能充分反映指标的信息,从而将变量间共线性问题减弱,对结果不产生影响,这是目前我们最常用的解决共线性的方法。但总的来说,主成分Logistic回归也没有从根本上克服Logistic回归的共线性问题,仍然需要我们寻找更为有效的方法9,10。2 Logistic回归在ROC分析中的应用 ROC是受试者工作特征(Receiver Operating Characteristic)或相对工作特征(Relative Operating Characteristic)的缩写, 目前已广泛应用于临床诊断性能的评价, ROC曲线是以试验结果的每一个值作为可能的诊断界值,由此计算得到相应的灵敏度和
5、特异度,以假阳性率即特异度为横坐标,以真阳性率即灵敏度为纵坐标绘制而成的曲线即为ROC曲线,其曲线下面积的大小可作为诊断试验准确度的衡量指标,其取值范围为0.51。ROC曲线下面积估计可分为参数和非参数两种方法,在实际应用中可根据样本量大小来选择使用11。ROC曲线下面积指标因其不受患病率和诊断界值的影响,以及可对两个诊断试验的准确度进行综合比较,因而成为目前公认的最佳评价指标12。ROC 分析中结合Logistic回归模型简单有效,尤其适用于有协变量或多指标联合诊断试验的分析评价。在一项诊断试验中,由于变异的存在,必然有很多混杂因素(或协变量) 对试验的评价产生影响,它们可能对疾病的状态产生
6、影响,也可能对测量结果产生影响。其中可以识别的因素,一般在试验设计阶段应加以控制。但在实际工作中,由于病例来源问题,在设计阶段进行控制非常困难,因此在统计分析阶段,尽可能地识别、控制混杂因素(或协变量) 显得尤为重要。Logistic回归模型能够纳入诊断指标之外的影响因素,有效控制混杂因素,使ROC分析更接近于总体实际情况13。3 Logistic回归与数据挖掘技术的结合应用 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程14。数据挖掘技术是近几年兴起来的一个新的研究领域,其与传统数据分析
7、的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。目前与Logistic回归的结合使用多见于以下形式: 分类树模型:分类树模型属于决策树(decision tree)15的一种形式。在应用回归模型分析因变量与自变量之间的回归关系时,常常需要考虑各自变量之间对因变量可能存在的交互作用。当模型中的自变量数量较多,需要考虑的交互作用就会比较复杂,操作起来有一定的困难。而分类树模型作为一种人工智能分析方法,能够快速寻找并发现对因变量的主要影响因素,并在展示自变量间交互作用上有着独到的优势,但它无法分析自变量的线性叠加效应,并且往往把一些自变量之间的线性叠加效应的关系错误地用分层关系
8、进行表达,而回归模型不仅可以较方便地表达自变量之间的线性叠加效应,而且在已知树模型结果的情况下,可以对应构造相应的回归模型表达分层的情况和实现分层统计分析。将这两种模型的优势在分析层次数据时结合起来加以利用,将会大大方便研究工作16,17。 BP (Back propagation)神经网络18:BP神经网络是一种非传统的多元非线性模型,自变量可以是连续的也可以是离散的,对变量不要求满足正态性和独立性等条件,可以识别变量间复杂的非线性关系,尤其是用现有统计方法无法达到目的或效果不好时,采用此模型往往收到很好的效果。当然BP神经网络在使用过程中尚有些问题需要解决,如权重系数的假设检验,计算权重系数的可信区间,含隐含层时权重系数的医学解释,判断输入变量的判别能力,输入变量的选择等19,20。因此目前的很多文章中,都是将BP神经网络与Logistic回归比较使用,来判断其判别效果。 目前数据挖掘技术在医学领域的应用特别是与传统统计方法的结合应用还处于起步阶段,随着该方法的逐步普及,其与传统统计方法优势互补的特点将会不断显现,使用前景是十分广阔的。 综上几个方面可以看出,在医学研究中,无论是做为分析还是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汕尾2025年广东省汕尾市招聘事业单位工作人员笔试历年参考题库附带答案详解
- 工业用地开发初步设计
- 工程项目管理全景解读试题及答案
- 创新药品生产基地项目可行性研究报告(范文参考)
- 城区供热管网及设施更新改造项目规划设计方案(范文参考)
- 动漫产业链协同创新与产业链协同治理报告:2025年产业链协同治理能力提升
- 展览火灾应急预案(3篇)
- 现代管理学与技术变革试题及答案
- 掌握工程项目管理试题及答案要点
- 公共关系学的沟通效果提升策略试题及答案
- 2024届新高考数学大题训练:数列(30题)(解析版)
- 福建省能源石化集团有限责任公司招聘笔试题库2024
- 2024年安徽省高考政治+历史+地理试卷(真题+答案)
- “两弹一星”精神弘扬与传承智慧树知到期末考试答案章节答案2024年青海师范大学
- 2024年江苏省盐城市中考数学试题(原卷版)
- 中医内科学:汗证
- 房产土地税培训课件
- 电子行业研发工程师劳动合同范本
- 法律法规合规性评价记录表
- 能源英语面面观 知到智慧树网课答案
- 电脑时代需要练字辩论材料
评论
0/150
提交评论