




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连医科大学 硕士学位论文 logistic回归多重共线性诊断方法的研究 姓名:于晓牧 申请学位级别:硕士 专业:流行病与卫生统计学 指导教师:刘启贵 201006 l o g i s t i c 回! J j 多重共线性诊断方法的研究 硕士生姓名:于晓牧 指导教师:刘启贵教授 专业名称:流行病与卫生统计学 摘要 目的:研究l o g i s t i c 回归多重共线性的诊断方法,为模型的正确建立 奠定基础。并且通过各种方法的比较,找寻适合于医学研究者使用的多 重共线性诊断方法,便于医学研究者正确合理的建立l o g i s t i c 回归模型。 方法:将多重线性回归的多重共线性诊断方法推广到l o g i s t i c 回归 中。使用实例数据:某研究者进行的产后抑郁影响因素的研究,其中自 变量包括与父母关系,人格量表E P Q 的四个维度:E P Q L 、E P Q E 、E P Q P 、 E P Q N ,既往抑郁史,产妇睡眠等。计算此实例数据自变量间的二元相关 系数、方差膨胀因子、容许值、特征根系统、多重确定系数和行列式判 别值。通过所得的计算结果,结合方法的易理解程度、操作的繁琐程度 等综合判别几种方法的有效性和优缺点。 结果:1 变量间二元相关系数:E P Q E 与E P Q N ,E P Q L 与E P Q E , E P Q L 与E P Q N ,E P Q P 与E P Q N 的相关系数较大,存在共线性。2 方差 膨胀因子与容许值:E P Q E 、E P Q N 的方差膨胀因子较大,容许值较小, 此两个变量与其他变量之间存在多重共线性。3 特征根系统:四个特征 根小于0 0 5 ,两个特征根小于0 0 1 ,模型中存在2 4 个共线性关系。两 个条件指数大于3 0 。其中,条件指数为4 3 5 5 0 对应的E P Q L 、E P Q E 的 方差分解比例分别为8 8 和4 9 ;条件指数为6 0 0 2 6 对应的E P Q E 、E P Q N 的方差分解比例分别为4 8 和5 2 。E P Q L 与E P Q E ,E P Q E 与E P Q N 两 对变量之间存在共线性。4 多重确定系数:除E P Q N 其他变量都可能引 起多重共线性。5 行列式判别值:D = 6 9 2 9 6 x 10 - t 0 l , 说明X i 是个危险因子;当屈 3 0 ,则认为存在较强的共线关系【2 ”。 回归系数方差分解法( R e g r e s s i o n C o e f f i c i e n tV a r i a n c e D e c o m p o s i t i o n ,R C V D ) 的基本原理就是对单位化以后的设计矩阵X 进行 奇异值分解。 以。朋= 瓯。脚p k 肘匕。胛 其中瓯。肼是对角阵,其对角线上的元素为X X 的特征根;圪。朋为X X 特征向量组成的一正交阵;m 为由X 、D 、V 确定的另一正交阵。回 归系数的方差为 V a r ( b k ) = a 2 2 ,“2 “ 一uJ ,2 ,叫 j t | 其中是圪。朋中第( k ,j ) 个元素,“是D m 。肘中对角线上第j 个元素,盯2 为随机误差项的方差。 设吼= 嵋“; J L 哦= 佛_ 2J ,2 ,叫 j - I 则第( j ,k ) 个方差分解比定义为 H 淝= 吼q ) k o k = l 。2 。嘲 根据条件指数仇和兀庸构成下列表格,可由此进行诊断。 R C V D 法的诊断准则为:对应一个较大的条件指数,如果存在2 个 或2 个以上的回归系数的方差分解比在O 5 以上,则认为自变量间有可 能存在多重共线性 2 4 1 。这里所指的较高的条件指数一般认为大于3 0 。并 且还可以通过较高条件指数的个数来确定多重共线性关系的数目。同时 根据上面表格确定辅助回归,即对应同一较高的条件指数,以方差分解 值最大的自变量为“应变量”,对其余非“应变量”的自变量作回归,如果 回归方程显著,那么该“应变量”与其中t 检验显著的自变量构成多重共 线性关系。由此可以进一步确定引入多重共线性关系的变量。 回归系数方差分解法是至今比较完善的一种方法,它将条件指数和 方差分解比结合起来综合度量共线性,不但解决了诸多自变量中是否存 在多重共线性同题,而且解决了其它诊断方法较难解决的另外两个重要 问题即其中存在多少个多重共线性关系及各个多重共线性关系对每个 回归系数方差比的贡献,即每个多重共线性关系由哪些自变量构成【1 5 】。 6 ) 行列式判别法诊断 令H = X X ,五为H 的特征根,i = l ,2 ,m 于是令 D = d e t ( H ) 为H 的行列式 因为D = d e t ( H ) = n 乃,当X 病态时X X 的最小特征根很小,接近于0 , 这样D 就接近于0 ,于是; 若0 o ) ,I 为单位阵,构造( X X + k I ) 。1 使得I X X + k I l = 0 的 可能性比1 例o 的, - - I 能性大,从而避免了因l x 矧o 造成的夕的方差变 大,故岭回归的估计量为夕( k ) = ( XT + 七,) 1z7 ,其中k 为岭回归参 数,k O 且为常数。 岭回归参数的选取原则和方法存在主观性,没有明确的含义:它的 参数估计量始终是有偏估计;由于岭回归要保留所有变量,因此对变量 的选择要特别谨慎13 1 。 2 ) 主成分回归 W i l l i a m F M a s s v l9 6 5 年提出的主成分回归是根据多元统计分析中 的主成分分析原理,来处理多重共线性模型的一种参数估计方法【2 6 1 。它 在信息损失较少的前提下,由原变量综合成彼此独立数目较少的主成分, 以主成分代替原变量进行模型拟合。它使彼此相关的变量彼此独立。但 是,主成分方法无法确定原变量作用是否显著f 2 7 1 。王惠文对主成分回归 消除共线性的能力并不乐观【28 1 ,舒晓惠等指出完全共线性的情形不适用 主成分回归【29 1 ,而且它比岭回归的值选择随意性更大,在S P S S 中无法 用菜单直接实现。 3 ) 逐步回归分析 逐步回归分析方法视自变量对因变量的影响显著性大小,从大到小 逐个引入回归方程,同时,如果发现先前被引入的自变量在其后由于某 些自变量的引入而失去其重要性,则从方程中随时予以剔除。直到既无 不显著变量从方程中剔除,又无显著变量需要引入回归方程为止。从处 理有害共线性的角度看,逐步回归优于岭回归和主成分回归。逐步回归 面临着F 检验的显著性水平a 的选择困难,它通常得不到最优变量子集【B 】。 4 ) 一些其他的方法 蒋平等提出了聚类回归分析的方法,通过聚类分析将变量分成若干 类,从每一类中找出一个变量作为该类的代表变量组成自变量集,则最 后所选出的自变量其相似程度低,从而在一定程度上消除共线性。但是 该方法首先要在动态聚类中给定一个参数k ,因而也就主观的确定了模 1 6 型中的解释变量的个数【30 1 。 王玉梅提出了不相关法,其基本思想:当各个解释变量,如誓与屯 之间存在着多重共线性时,则薯的变化能够说明x j 的变化。不相关法在 保留薯全部信息的同时,以薯为基础,对其他的解释变量进行一定的线 形变换,使之转换为一个新变量,消除多重共线性【3 1 1 。 但对于用聚类回归分析和不相关法来解决多重共线性问题,这方面 的文献不多,并没有在实际问题中的应用。 2 4 2 小结 1 岭回归与主成分回归在解决多重共线性问题上,是以是严重共线性为 出发点,而逐步回归则偏重于解决有害共线性,但由于筛选界值的选择 问题,所以得到的不一定是最优变量子集【1 3 】。 2 多重共线性问题的解决一直是一个比较棘手的问题,特别是对于医学 数据,由于医学数据的多样性和庞杂性,多重共线性的解决就显得更为 困难。需要根据具体的数据类型,模型中变量的特征,选择适合的解决 方法。 参考文献 1 F i s h e rRA T h eL o g i co fI n d u c t i v eI n f e r e n c e J J o u r n a lo ft h eR o y a lS t a t i s t i c a l S o c i e t y ,1 9 3 5 ,9 8 ( 1 ) :3 9 8 2 2 A n d e r s o nJA S e p e r a t es a m p l el o g i s t i cd i s c r i m i n a t i o n J B i o m e t r i k a ,19 7 2 ,5 9 ( 1 ) : 1 9 3 5 3 孙尚拱L o g i s t i c l 亘l 归的近况与评述【J 】中国卫生统计,19 8 6 ,3 ( 3 ) :6 2 6 5 4 颜虹医学统计学【M 】人民卫生出版社,2 0 0 5 3 3 9 - 3 5 0 5 杨晓妍L o g i s t i c l 回归和稀有事件l o g i s t i c l 回归模型的模拟研究【D 】四川大学, 2 0 0 5 6 金丕焕医用统计方法【M 】复旦大学出版社,2 0 0 3 3 3 2 - 3 4 3 7 孙振球,徐勇勇医学统计学【M 】人民卫生出版社,2 0 0 5 3 3 3 - 3 5 0 8 方积乾医学统计学与电脑实验【M 】上海科学技术出版社,2 0 0 6 2 5 0 2 6 8 9 G a r yK ,L a n g c h eZ L o g i s t i cR e g r e s s i o ni nR a r eE v e n t sD a t a J P o l i t i c a lA n a l y s i s , 2 0 0 l ,9 ( 2 ) :1 3 7 一1 6 3 1 0 G a r yK ,L a n g c h eZ E x p l a i n i n g R a r eE v e n t si nI n t e r n a t i o n a l R e l a t i o n s J I n t e r n a t i o n a lO r g a n i z a t i o n ,2 0 0 1 ,5 5 ( 3 ) :6 9 3 - 7 1 5 1 1 韩宏确切L o g i s t i c 回归方法及其在医学遗传学领域的应用【D 】山西医科大学, 2 0 0 2 1 2 M e h t aCR ,P a t e lNR e x a c tl o g i s t i cr e g r e s s i o n :t h e o r ya n de x a m p l e s J s t a t i s t i c s i nm e d i c i n e ,1 9 9 5 ,1 4 ( 1 9 ) :2 1 4 3 2 1 6 0 1 3 陈玲燕多重共线性下的线性回归方法综述 J 】市场研究,2 0 0 8 ,( 4 ) :3 9 4 1 1 4 鲁茂几种处理多重共线性方法的比较研究 J 】统计与决策,2 0 0 7 ,( 7 ) :8 一1 0 1 5 范立新回归分析中多重共线性诊断方法【J 】国外医学卫生学分册,19 9 4 ,( 1 ) : 3 4 - 3 7 1 6 童身以,戴胜利多元共线性数据的处理【J 】中国卫生统计,l9 9 5 ,1 2 ( 1 ) : 4 0 4 1 1 7 李严洁多元回归中的多重共线性及其存在的后果【J 】中国卫生统计,1 9 9 2 , 9 ( 1 ) :2 4 - 2 7 1 8 王济川,郭志刚1 0 9 i s t i c l 亘l 归模型方法与应用【M 】高等教育出版社,2 0 0 1 1 9 0 19 4 1 9 L a r d a r oL A p p l i e dE c o n o m e t r i c s M N e wY o r k :H a r p e r c o l I i n s ,1 9 9 2 4 4 1 4 6 4 2 0 丁元林,孔丹莉,毛宗福多重线性回归分析中的常用共线性诊断方法【J 】数 理医药学杂志,2 0 0 4 ,1 7 ( 4 ) :2 9 9 3 0 0 f 1 3 2 1 陈希孺,王松桂近代回归分析【M 】安徽教育出版社,l9 8 7 2 2 B e r kKN T o l e r a n c ea n dC o n d i t i o ni nR e g r e s s i o nC o m p u t a t i o n s 【J 】J o u r n a lo f A m e r i c a nS t a t i s t i c a lA s s o c i a t i o n ,1 9 7 7 ,7 2 :8 6 3 - 8 6 6 2 3 柳丽,魏庆诤回归分析中多重共线性的诊断与处理 J 】中国卫生统计,1 9 9 4 , 1 l ( 1 ) :5 - 7 2 4 范立新,金水高多重共线性的变量分解处理法初探 J 】中国卫生统计,l9 9 7 , 1 4 ( 4 ) :4 - 7 2 5 王斌会,陈平雁一种新的共线性诊断方法及其在岭参数选择中应用 J 】中国 卫生统计,1 9 9 6 ,l3 ( 5 ) :l 一3 2 6 H o e r lA E ,K e n n a r dRW R i d g eR e g r e s s i o n :B i a s e dE s t i m a t i o nf o rN o n o r t h o g o n a l P r o b l e m s J T e c h n o m e t r i c s ,2 0 0 0 ,4 2 ( 1 ) :8 0 - 8 6 2 7 林华珍,倪宗瓒多重共线性变量的回归系数估计和检验【J 】中国公共卫生, 1 9 9 9 ,15 ( 2 ) :1 3 1 - 1 3 2 2 8 王惠文,朱韵华P L S 回归在消除多重共线性中的作用 J 】数理统计与管理, 1 9 9 6 ,1 5 ( 6 ) :4 8 - 5 2 2 9 舒晓惠,刘建平利用主成分回归法处理多重共线性的若干问题【J 】统计与决 策,2 0 0 4 ,( 1 0 ) :2 5 2 6 3 0 蒋平,邢云燕聚类回归分析在F M S 加工质量分析中的应用【J 】自动化技术与 应用,2 0 0 5 ,2 4 ( 8 ) :1 5 - 1 6 3 1 王玉梅多重共线性的消除:不相关法【J 】统计教育,2 0 0 6 ,( 7 ) :1 8 1 9 1 9 l o g i s t i c 回归多重共线性诊断方法的研究 硕士生姓名:于晓牧 指导教师:刘启贵教授 专业名称:流行病与卫生统计学 J 一 月I J吾 l o g i s t i c 回归模型主要用于研究因变量各种状态发生的概率与自变 量取值之间的关系,它不要求自变量服从协方差矩阵相等,也不要求残 差项服从正态分布,因而在医学科研与实践领域中的应用已经非常广泛, 是进行病因分析、生存分析的常用多元分析方法。但是人们在长期的应 用中发现很多情况下求出的模型系数不稳定,解释问题时会得出荒谬的 结论。种种迹象表明l o g i s t i c 回归模型同线性回归模型一样,需要考虑回 归诊断的问题。P r e g i b o n 、B e d r i c k 等学者就提出了一系列关于l o g i s t i c 回归模型的残差分析、影响诊断的方法。但是,对于共线性的问题,却 很少有人论及。是l o g i s t i c 回归拟合效果不受共线性关系的影响吗? 事实 并非如此。统计学者B e l s l e y 和Y o h a n a nW a X 等指出,在信息矩阵基础上 发现的强共线性关系小则可能会增大回归系数的方差,大则可能影响估 计系数的符号、变量的选取及方程的确立f 1 1 。所以说,在l o g i s t i c 回归分 析中,进行变量筛选与参数估计的过程中,是要求各自变量之间相互独 立的。然而事实上,在很多研究中,特别是在医学领域,各个自变量之 间并不独立,而是相互之间存在一定的线性相关关系,即多重共线性。 这种多重共线性常会增大估计的方差和标准误,从而降低模型的稳定性, 甚至导致出现与实际情况相反,难于解释的结果。这就要求我们在建立 回归模型的过程中充分考虑到多重共线性的问题,以便求得能够真正反 映事物发展变化规律的回归模型。 目前对于回归模型多重共线性的诊断问题的研究,主要集中在多重 线性回归模型上,而对l o g i s t i c 回归模型的研究则较少,没有对l o g i s t i c 回归模型的共线性诊断方法的系统研究,知识体系比较零散,如何在这 方面进行深一步的研究与评价,是一个需要重视且具有一定实用价值的 问题。本文从多重共线性的定义,产生原因等方面入手,在此基础上, 对目前一些已有的多重线性回归模型的共线性诊断方法进行推广,将其 应用到l o g i s t i c 回归模型中去。通过具体的医学实例,比较各种方法的优 缺点,得到较适用于医学研究的方法,便于医学研究者正确合理的建立 l o g i s t i c 回归模型。使回归得到的结果更真实客观,对医学结论的正确得 出发挥作用。 原理与方法 一、i o g i s i t e 回归模型 l o g i s t i c 回归模型是一概率模型,最简单的l o g i s t i c 回归模型是二分 类非条件l o g i s t i c 回归模型; 尸2机矿,户而exp丽(flo+丽fljx,再+f12再x,+丽+fln,x,) 其中而,x 2 ,为代表各影响因素的解释变量,在医学研究中常为与 某种疾病有关的生理、心理、遗传、社会和环境因素等。只,尾,成为待 估参数。Y 是表示结果发生与否的二值变量,服从二项分布。 l o g i s t i c 回归模型参数估计的方法与多重线性回归模型的参数估计 方法不同,多重线性回归模型的参数估计方法采用的是最小二乘法,而 l o g i s t i c 回归模型采用的是最大似然估计( m a x i m u ml i k e l i h o o d e s t i m a t i o n ,M E L ) ,对n 例观察样本建立似然函数L 上= n 只x ( 1 一只) 卜K i = l ,2 ,n 其中只表示第i 例观察对象在自变量的作用下阳性结果发生的概率, 如果实际出现的是阳性结果,取= l ,否则取Z = O ;根据最大似然原理: 在一次抽样中获得现有样本的概率应该最大,即似然函数L 应该达到最 大值。此时,求似然函数达到极大时的参数取值。为简化计算,通常取 似然函数的对数形式: l l l = 驰只+ O - Y , ) :n O - P , ) 形成要计算的目标函数l n L ,然后采用N e w t o n m R a p h s o n 迭代法计算 参数D 的估计值,该过程依靠统计软件完成1 2 1 。 通过拟合模型可以得到事件发生概率的大小与各影响因素之间的关 系( 3 1 。 二、多重共线性的产生与影响 1 多重共线性的定义与产生 在m 个自变量中,如果有k 个自变量满足 九l x l + k x 2 七七A k x t + 20 则它们存在多重共线性。其中2 k S m ;A ,A :,以为常数且不同时为 零;占为噪声且H f o ,) 。当s = o 时为完全多重共线性;s 专0 时多重共 线性越严重;s - - 4 , o o 时不存在多重共线性。s 专0 和占专o o 是两种极端 情况,实际数据很难遇到。但由占的取值范围可知多重共线性是普遍存 在的 4 1 。 多重共线性的来源大致可以归纳为以下几类【5 l :第一类共线性产生 于建模者对模型的变量选用不当。如果自变量之间存在着高度的相关关 系,而研究者又没有进行相应的处理,建立的模型就可能存在多重共线 性。例如在某病影响因素的研究中,自变量经济收入和卫生状况之间就 存在着高度的相关关系,如果事先不进行处理,所得的模型就有可能存 在多重共线性 6 1 ;第二类是由于异常变量值的原因。研究得到的自变量 数据中存在某些异常点,这些点可能造成自变量间的多重共线性【7 】:第 三类共线性来源于有缺陷的样本,如抽样过程中的不规范操作等原因导 致的样本数据变量之间的多重共线性。 2 多重共线性对l o g i s t i c 回归模型拟合的影响 当多重共线性不太严重时,无论是线性回归还是l o g i s t i c 回归,其系 数估计基本还是无偏有效的,所以几乎可以忽略其影响【8 】。当多重共线 性程度增加时,其后果也变得越来越严重。它会造成两个问题: 1 ) 对变量筛选的影响 在病因学分析中,l o g i s t i c 回归的建模过程中一般采用逐个筛选解释 变量的方法。这种方法得出的回归子集,一般认为是所有观察的可能的 影响因素中对某病有影响的因素构成的子集。这样的结论只有在解释变 量之间不存在多重共线性的情况下才有意义,否则将有可能导致错误的 分析结果。当解释变量之间存在多重共线性时,包含在回归子集内的解 释变量可以看成影响因素,但未包含在回归子集内的解释变量却不能说 是非影响因素。如果两个变量间存在线性关系,经过变量筛选后,一般 只会有一个因素被选取,但我们并不能说明另外一个因素是非致病因素。 2 ) 对参数估计的影响 同多重线性回归模型类似,如果自变量之间存在多重共线性的程度 较高,系数标准误的估计将产生偏差,根据H a n u s h e k 和J a c k s o n 所进行 的蒙特卡洛模拟试验,当变量之间的相关程度提高时,系数估计的标准 误将会急剧增加。最后,在多重共线性的条件下,系数估计对样本和模 型设置都非常敏感,模型设置的微小变化、在样本中删除或增加一个案 例,都会导致系数估计的较大变化,甚至符号的改变,从而导致l o g i s t i c 回归模型结果与实际矛盾,无法从医学方面给予合理的解释。比如,多 因素分析与单因素分析结果相互矛盾,在单因素分析中某因素为危险因 素,而在多因素分析中则变为保护因素等【9 1 。 3 1 0 9 i s t i c 回归多重共线性诊断的方法 p b 南) 2 a 邯l x I + - - 七8 m x m 将左侧总体看成结果变量,l o g i s t i c 回归就与多重线性回归模型的形 式是一致的,有很多共性,彼此可借鉴。所以可以尝试将诊断多重线性 回归多重共线性的方法应用到l o g i s t i c 回归中去。 3 1 计算变量间的二元相关系数r 如果自变量间的二元相关系数r 很大,则可直观的认为存在多重共 线性【10 1 。 3 2 计算方差膨胀因子V I F ( t h ev a r i a n c ei n f l a t i o nf a c t o r ) 其表达式如下: V I F = I ( 1 - 砰) 一= J ,“,叫 其中R 为以变量薯为因变量,其余x ,仃= J ,2 ,f ,i + J ,叫为自变量 作回归分析的复相关系数。V I F 表明估计系数的方差与理想状态的方差 相比的增加量。若葺与其他m 1 个自变量间无线性相关,即R i = 0 ,则 V I F = I ;反之V I F 大于l 。V I F 的值越大,说明变量间的多重共线性程度越 强。有学者建议当V I F _ 5 或V I F _ 10 时,可认为自变量间存在严重共线 性【lI 1 2 1 。 3 3 计算容许值T O L ( T o l c r a n c c ) T O L 的定义为 T O L = l R I O = 1 2 。m ) 其中R 为以变量薯为因变量,其余= ,Z ,i 一,f + ,圳为自变量 作回归分析的复相关系数。实际上容许值就是方差膨胀因子的倒数,即 T O L = I V I F ,当群很高时,容许值便很低,表明相应自变量与其他自变 量之间存在高度相关,即存在多重共线性。当群= 1 时,容许值便等于o , 说明相应自变量已经与其他自变量完全相关,于是模型便不能产生估计。 容许值小于0 2 可以认为是多重共线性存在的标志,容许值小于0 1 说明 多重共线性很严重【l 引。 3 4 使用特征根分析系统 1 ) 计算特征根 计算由自变量观测值构成的矩阵X X 的特征根,若某个特征根很小, 甚至接近于0 ,称X 阵病态,就意味着由自变量的观测值构成的矩阵X 中的列向量间存在共线关系。有多少个特征根接近于零,矩阵X 就有多 少个共线关系存在。通常认为X X 的最小特征根小于O 0 5 或O 0 1 即认为 有多重共线性1 1 4 】。 2 ) 计算条件指数 条件指数定义为 仇2 k 仇 即X X 最大特征根与其他各特征根之比的算术平方根。如果五接近 于0 ,则条件指数仇将很大。条件指数越大,共线性越强。在应用中, 如果r h 3 0 ,则认为存在较强的共线关系 1 5 1 。 3 ) 计算方差分解比 对单位化以后的矩阵X 进行奇异值分解。 以。册= 巩。研D k ,圪。一 其中。是对角阵,其对角线上的元素为X X 的特征根;啊为X X 特征向量组成的一正交阵;q 。为由X 、D 、V 确定的另一正交阵。回 归系数的方差为 V a r ( b k ) = a 2 2 甜J 2 七= J ,“,叫 ,2 I 其中是中第( k j ) 个元素,材,是中对角线上第j 个元素,仃2 为随机误差项的方差。 设= 咭砖 肘 。= 仅= _ f ,扣,圳 - l 则第( j ,k ) 个方差分解比定义为 n | k = 吼旧k 0 , k = 1 2 m ) 4 ) 根据r k 和F I 业构成诊断表格 一般认为,在理论上满足以下条件来诊断共线性:相关的条件指 数较高,一般指大于3 0 :两个或多个的估计回归系数有较大的方差分 解比,一般大于O 5 【16 1 。 3 5 计算多重确定系数 计算模型中有m 个自变量时的多重确定系数为R ;( x ,X 2 ,x 。,) 和模型 中不含其中某个自变量薯= J ,2 ,叫的多重确定系数尺? ,如果霹和其中 最大的一个群很接近,则表明该自变量在模型中对多重确定系数的影响 不大,它很有可能是其它自变量的线性组合,该自变量进入模型后就有 可能引起多重共线性问题。 3 6 使用行列式判别法【1 7 】 令H = X X ,元为H 的特征根,i = l ,2 ,m 于是令 D = d e t ( L 9 为H 的行列式 因为D = d e t ( 功= 刀孔。当X 病态时,X X 的最小特征根很小,接近于 0 ,这样D 就接近于0 ,于是: 若0 10 时,可 认为自变量间存在严重共线性;对于T O L ,小于0 2 可以认为是多重共 线性存在的标志,小于0 1 说明多重共线性很严重。 但不同的具体情况,V I F 和T O L 的临界值将有所不同。比如本文的 实例分析中,虽然E P Q E ,E P Q N 两个变量的V I F 值小于5 ,T O L 值大于 O 2 ,即都没有达到目前使用较多的V I F 和T O L 临界诊断标准,但由于 其V I F 值明显大于其他各变量的V I F 值,T O L 值明显小于其他各变量的 T O L 值,结合这两个变量与其他变量之间的二元相关系数的结果及特征 根分析系统的结果,提示这两个变量与其他变量之间也极有可能存在多 重共线性关系。另一方面,这个结果也提示我们,V I F 和T O L 这两个 多重共线性诊断指标对于l o g i s t i c 回归模型可能更加敏感,变量间V I F 或T O L 的较小的差别就能够反映出多重共线性的存在,即V I F 的临界 诊断标准在l o g i s t i c 回归模型中不一定要达到5 ;T O L 的临界诊断标准 也不一定要达到0 2 。但是对于这两个指标在l o g i s t i c 回归模型中具体的 临界诊断标准是多少,还有待于进一步的研究。 而在某些时候,即使V I F 值较低或T O L 值较高,自变量间也有可能 存在多重共线性问题,1 引,所以这两个指标一般用来作为共线性诊断的 参考指标,还是要结合其他诊断方法来综合进行判定。 3 3 特征根分析系统 此分析系统虽然包含特征根,条件指数,方差分解比例较多部分, 但是操作可以通过S P S S 软件的e o l l i n e a r i t yd i a g n o s t i c s 过程一步全部实 现,使用起来也比较简单。S P S S 没有提供l o g i s t i c 回归的共线性诊断程 序,但因为我们现在只是关心自变量之间的关系,所以运用相同的因变 量与自变量,拟合线性方程,进行相应的共线性诊断即可。 使用特征根进行多重共线性诊断,可以得到模型存在的共线性关系 的个数,有学者认为,在做一些涉及较多自变量的、自变量间的关系比较 复杂的大型回归分析时,为了排除多重共线性对回归结果的影响,可以 先通过特征根做初步的共线性诊断【l5 1 。但是,它不能度量多重共线性的 严重程度,而且X Z 的特征根近似等于零的概念比较模糊,也存在临界 值不好判断的问题。通常认为X X 的最小特征根小于0 0 5 或O O l 即认为 有多重共线性。本文的实例分析结果中,X X 的特征根小于0 0 5 的有4 个,小于0 0 1 的有2 个,所以认为模型中存在的共线性关系有2 4 个。 条件指数在实际应用中,一般都与方差分解比结合起来诊断多重共 线性。它也同样存在临界值不好判断的问题,一般认为如果条件指数 3 0 , 则认为模型的某些变量间存在较强的共线关系【1 5 】。 而将条件指数和方差分解比结合起来综合度量多重共线性的方法叫 回归系数方差分解法( R e g r e s s i o nC o e f f i c i e n tV a r i a n c eD e c o m p o s i t i o n , R C V D ) ,它是至今比较完善的一种方法,不但解决了自变量中是否存在 多重共线性的问题,而且解决了其它诊断方法较难解决的重要问题,就 是各个多重共线性关系对每个回归系数方差比的贡献,即每个多重共线 性关系由哪些自变量构成I l IJ 。 R C V D 法的诊断准则为:对应一个较大的条件指数,一般认为大于 3 0 ,如果存在2 个或2 个以上的回归系数的方差分解比在0 5 以上,则 认为自变量间有可能存在多重共线性。本文的实例分析中,条件指数大 于3 0 的有两个。其中,条件指数为4 3 5 5 0 对应的E P Q L ,E P Q E 的方差 分解比例分别为8 8 和4 9 ;而对于条件指数为6 0 0 2 6 对应的E P Q E , E P Q N 的方差分解比例分别为4 8 和5 2 ,虽然部分方差分解比例未达 到5 0 ,但也很接近5 0 ,而且由于所对应的条件指数很大,再结合之 前的相关系数、V I F 及T O L 值的诊断结果综合分析,认为E P Q L 与E P Q E , E P Q E 与E P Q N 两对变量之间存在共线性关系。由此也说明,虽然R C V D 法已经比较完善,但最好与其他诊断方法的结果结合起来综合分析,才 能得出比较全面客观的结论。 3 4 多重确定系数 l o g i s t i c 回归模型中确定系数的含义作用与线性回归中的确定系数 类似,但构造方法却完全不一样,因此,为了区别于线性回归的确定系 数R 2 ,将l o g i s t i c 回归中的确定系数叫伪确定系数。S P S S 软件提供了两 个伪确定系数C o x & S n e l lR 2 和N e g e l k e r k eR 2 ,在进行l o g i s t i c 回归的操 作过程后,这两个指标在结果当中列出。此方法也很易于理解,如果哪 个变量不在方程中时的R 2 与在方程中时相差不大,就说明该变量对因变 量的影响作用不大,它的作用极有可能被其他变量线性表示,从而说明 了共线性的存在。 在本文的实例分析中,除了E P Q N 不在模型中时的C o x & S n e l lJ 1 2 2 和 N e g e l k e r k eR 2 与在模型中时的结果有差别之外,其余变量在不在模型中 对C o x & S n e l lR 2 和N e g e l k e r k eR 2 均没有影响。这表明模型中除了E P Q N 其他所有的变量对多元确定系数的影响都不大,都很有可能是其它变量 的线性组合,引起多重共线性问题。从这个结果我们可以看出,对于此 实例数据,该方法的结论与其他方法的结论不一致,其他方法得到的结 论认为E P Q N 与其他变量存在多重共线性关系。根据其他方法的结果, 对实例分析的数据进行调整,得到合理的l o g i s t i c 回归结果。可见,该方 法的结论是不恰当的,说明或许该方法不适用于l o g i s t i c 回归模型。 3 5 行列式判别法 该方法简单方便,本文的实例数据中D = d e t ( H ) = 6 9 2 9 6 x1 0 1 0 口0 0 1 就认为模型的某些变量间存在严重的共线性问题。若是后续使用岭回归 解决共线性问题,该方法还可以应用于岭参数的选择。但是该法只能判 断模型变量间的共线性严重程度,无法提供更多的信息,所以也是多重 共线性诊断的一个辅助方法。 4 1 0 9 i s t i c 回归的多重共线性诊断方法在医学中的应用 l o g i s t i c 回归在医学研究中的应用非常广泛,而医学数据的类型都比 较复杂,自变量的个数一般较多,很多自变量的效应都是未知的,因此 自变量间存在多重共线性的可能性很大。另一方面,很多医学研究者的 统计学知识非常有限,对于回归方程存在的共线性问题认识不足,对于 统计软件的操作能力也较弱。针对这些情况,在本文讨论的几种多重共 线性诊断方法中,笔者认为,V I F 、T O L 、特征根分析系统比较适合医学 工作者在研究中使用,因为以上的指标可以通过S P SS 的c o l l i n e a r i t y d i a g n o s t i c s 过程一步完成,操作过程比较简单。V I F 和T O L 可以诊断出 某变量和其他变量间存在共线性关系,而且相对于线性回归模型而言, V I F 和T O L 对l o g i s t i c 回归模型可能更加敏感,当然这还需要进一步的 研究验证。而对于V I F 和T O L 不能得到的信息,即某变量是和具体的哪 些变量间存在多重共线性关系,特征根分析系统恰好可以弥补这方面的 缺憾,它可以诊断出是和具体的哪些变量之间存在共线性关系。通过以 上指标的综合分析,我们已经可以得到进行共线性诊断想要得到的绝大 部分信息。 结论 1 1 0 9 i s t i c 回归模型也对多重共线性敏感,在多重共线性存在时,会增加 系数估计的标准误,影响偏回归系数的符号、变量的选取及方程的确立, 因此需要对l o g i s t i c 回归模型的多重共线性问题给予重视。 2 部分线性回归的多重共线性诊断方法在l o g i s t i c 回归中也同样适用,能 够达到共线性诊断的效果,探测出主要影响方程拟合的共线性因素,为 改进方程的拟合提供依据。 3 通过比较各种诊断方法的优缺点,认为V I F 、T O L 、特征根分析系统比 较适合在医学研究中使用,既操作方便,又能够得到比较全面的结果。 3 7 参考文献 1 赵宇东,刘嵘,刘延龄,e ta 1 多元l o g i s t i c 回归的共线性分析【J 】中国卫生统计, 2 0 0 0 ,( 0 5 ) :3 5 2 颜虹医学统计学【M 】人民卫生出版社,2 0 0 5 3 3 9 - 3 5 0 3 鲁茂几种处理多重共线性方法的比较研究【J 】统计与决策,2 0 0 7 ,( 7 ) :8 - 1 0 4 王彤,何大卫线性回归中的影响点与多元共线性关系初探【J 】现代预防医学, l9 9 9 ,2 6 ( 4 ) :4 2 9 4 31 5 孟庆和多元回归分析中多重共线性的处理【J 】中国卫生统计,1 9 9 7 ,1 4 ( I ) : 4 9 5 0 6 赵良渊医用多元线性回归方程中共线影响点的诊断【D 】太原:山西医科大 学,2 0 0 2 1 1 7 王济川I ,郭志刚1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校本安全知识培训课件
- 复试介入试题及答案
- 找车队考试题及答案
- javaunittest面试题及答案
- 校园安全知识培训课件报道
- 计量法相关考试题及答案
- java中赋值运算符面试题及答案
- ERAS考试题及答案
- 城管单位面试题及答案
- 中药学士考试试题及答案
- 血液透析患者心衰护理
- 中国老年患者术后谵妄防治专家共识
- 各高校辅导员考试真题及答案
- 2025年中国IC载板行业市场调研及未来发展趋势预测报告
- 脑血管造影术病人的护理诊断
- 选矿概论-6 浮选
- 教师如何使用AI开展教学DeepSeek使用指南人工智能 课件
- 《企业竞争情报》课件
- 2025年铁路减振器行业深度研究分析报告
- 食品、生鲜、日用品、办公用品、商品等采购服务方案(技术标)
- 第五版PFMEA模板(自动计算AP值)
评论
0/150
提交评论