高统第六章logistic回归_第1页
高统第六章logistic回归_第2页
高统第六章logistic回归_第3页
高统第六章logistic回归_第4页
高统第六章logistic回归_第5页
免费预览已结束,剩余10页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归参数的估计采用极大似然估计Logit0回归参数的估计采用极大似然估计Logit0 E(Y) p 1,但没有最大似然法的基本 是先建立似然函数与对数似然函数,再当各事件独立发生时,则n个观察对象所 的似然函数L是每一L=(1) = e 1 e 1 e 回归系数的几何意pLogit函数得出的事件()型,对于无穷小或无穷大的指标Z()值,事件(Y=1)的概率 区间【0,】内变动。此外,Lgit函数总是关于拐点P(Y1)=05对称。回归参数的意(x) p X exp( o j Xj) e 1 ee(指数关系为在其他x保持不变的情况下,x1每增加一个 所导致水平的优势乘以exp(b1。流行病学病因学

2、研究中的常用指 注意OR与RR的关logistic 回归模型的结logit()ln 1概率预报模型exp(X 1exp(X1 1exp(X关于配对数据的模条件似然函匹配设计的条件logistic回多类结果变量的logistic回有序结果的累积比数logistic回logistic回归模型在医学中的应与判logistic 2logistic 族回归 例题表. 有关环保问题的观令i表示在一个问题回答上响应为,在第二个问题上响应为的概率。问题1的结果为“是”的概率为1+,问题2的结果为“是”的概率为,当两者相等时,结果为“否”的概率也 是相等的,此时称为边缘齐性,因为1例题表. 有关环保问题的观令i

3、表示在一个问题回答上响应为,在第二个问题上响应为的概率。问题1的结果为“是”的概率为1+,问题2的结果为“是”的概率为,当两者相等时,结果为“否”的概率也 是相等的,此时称为边缘齐性,因为1 1 (11 12)(11 21)12 故对检验假设H 就等价于检验假设H降低生活水平是否是227132 359 否107 678 785 334 810 样本响应变量间的匹配所导致的样本间的关联性例题表. 有关环保问题的观是否是否例如研究吸烟与肺的关系一般来说,应该选择那些基本确定的混作为匹,如胃癌与幽门杆菌关系的研究,可匹配设计的lgistic回归通常称为条件lgistic回归,而非匹配设计的lgist

4、ic回归通常称非条件lgistic回归。预备知9回归模型的假设检(1)Wald 检(2) 对数似然比检验 (3)得分检对似然函数取对数形 e ln L yln (1 yi)ln x i1 x1 1 lnL 0Newton-Raphson j的估计值bj 和bj Sb exp (X X h11exp(X X 函数 exp (X X h11exp(X X 函数形式与非条件似然函数相似,故可借助非条logistic 回归的程序拟合模型,但也有其自身的特点该配对数据的条件似然函数,即为当反应变量恒为或任意常数时lgistic回归模型非条件似然函数;其协变量的值为病例和对照相应记Pre| X , 1-P

5、re | X, 因此式(12)(1(1(1)(1将h 配伍层的logistic 模 exp X 代入式(13),结果hi 1exp X exp (1 exp q exp(X X 因此,整个模型的条件似然函数为: h11exp(X X 故对h 配伍组中病例的解释变量为X,且对照解释变量为X的 条件概率为:PrX| ePrX| e PrX|ePrX|e PrX| ePrX| 根据bayesPA|B P(B| A)PAP(B) 上式可等于P(e| X)P(X)P(e | X)P(X) P(e)P(e| X)P(X)P(e | X)P(X) P(e | X)P(X)P(e| X)P(X) P(e)P(

6、e)Pre| XPre | Pre| X Pre | X Pr e | X Pre| X (1 患病情况生吃毛蚶 (有a PrX|bPrX |生吃毛蚶 (无c PrX|d PrX|的条件下解释变量为X且观察值h为对照(e)的条件下解释变量为X的条件概率为PrX|ePrX|Pr X|ePrX| 在病例对照研究中,一个病例(Case, e)配以一个或多个对照(Control, e )。然后收集病例与对照是否暴露于某些风险 的资料,利用条件似然函数建立一个模型。用此模型由给定的解释变量 此感 的事件。这涉及到先建立给定事件有 的条件概率。然后利用Bayes理论, 求相应的关于事件的条件在研究中有f个

7、配伍对,h12,q, 为第h个配伍对中对第i个观察 为病例的概率(i=1,2).X为第h 个配伍对中第i个观察 的解释变量的向量。鉴于在配对研究中,研究者并不关心层 的作用,故也不需要估计描述层 作用的参数。条件logistic回归用考虑了层 的影响,使在最后得到的模型中消去了反映层 的参数,从而减少了模型中要估计的参数,降低了6.2.2 配对四格表logistic6.2.2 配对四格表logistic示。 配对数据频数表病病对对 E由配对四格表直接计算的的比例为P0。根据logistic回归,有(i的下标被省略):P1 1e , P0 1OR b注意实际应用中,选择的匹配 不能过多,通常是性

8、别和 。随意,如探索胆石症的 时,如果按 匹配,就无法估计 对胆石症的影响。(j0|X)1 L1再用最大似然函数法得到参数估计值 b,n 个匹配组,第i(i 1,n) 个匹配组内共1 m 个观察对象(1 个病例和m个对照),所研究共有p 个,X, X 。把第i j 个观察对象的第k 个指标记为区分病例与对照,把病例记为j 0 ,对照记为j 1,m X:为第i 组病例的第k 个观察指标X, X:为第i 组对照的第k 个观察指标。j 0(即病例的条件概率为:(j 0| X) exp(X X 1 exp( X X 条件表6.16 1:m 配比设计的资料格配比号 观察对象 组病对照0 xx对照1对照

9、对照1第二部条件logistic回(Ch 值得注意的是,包括和在内的多数同级 都没有为配对lgistic模型提供直接拟合的方法,但是,通过模型的原理,将数据格式略加变换后可以采用常用的其他方式来拟合。(1)用变量差值拟当数据为1:配对时,通常可以通过求出同一对子中病例与对照的所有协变量时的差值,然后利用该差值直接拟合不含常 数项的成组lgistic模型,所得参数值即为所需的协变量参数值。这是因为在1:配对的lgistic模型中,似然函数可被写成如下形式exp(u值得注意的是,包括和在内的多数同级 都没有为配对lgistic模型提供直接拟合的方法,但是,通过模型的原理,将数据格式略加变换后可以采

10、用常用的其他方式来拟合。(1)用变量差值拟当数据为1:配对时,通常可以通过求出同一对子中病例与对照的所有协变量时的差值,然后利用该差值直接拟合不含常 数项的成组lgistic模型,所得参数值即为所需的协变量参数值。这是因为在1:配对的lgistic模型中,似然函数可被写成如下形式exp(uLexp(u)exp(vmatch为配比变量,y为结果变量,y = 1表示病例,y = 0表示对照;x为自变量,x = 1表示接触过苯氧乙酸或氯酚,x=0表示未接触过;f 表示频表6.18看成一整配比组 病例-对照 是否接频例按配比病例对照研究中OR 的定义得OR c , ,P b 表6.17 接触未接触接触

11、未接触1a1d e 1 L 2 2 1e 1e 似然函数中与常数项i无关,两边取对数,得对数似然lnL-aln2-dln2c-(cb)ln(1e对 求一阶导数,并令其等于lnL e c (c b)1 b故,根据条件logistic回归估计的OR为: ORe b配对数据的对 eP(1 P )1 e1 eP P(1P )(1 P)P ee1e1e1e1e1P 1e 1(1P)P P(1Pe 11e 1e 1e 1配对数据的对 考虑两个人中一人患病,另一人不患病的情件概率为 :P只有一人患病|两人 1 1 = (2)同理,甲乙两人均未logistic 回归中一样,解释变量可以是任何式的第三部多类别l

12、ogistic回(Ch 条件logistic回归方程为logitPlogistic 回归中一样,解释变量可以是任何式的第三部多类别logistic回(Ch 条件logistic回归方程为logitP = 得OR =e1.3863 = 4故OR的95%CI注意是差值代入模配比病是否对是否频f1110001441000如果对上式的分子与分母同除以 exp(u v )TL i11exp(u v)T这恰恰等于以di=ui-vi为协变量,不含常数的两分类成组logistic模(2)用分层COX模型来拟由于在分层X模型中,各层的基线风险函数0(t之间完全无关;而作为半参数方法,X模型在拟合时并不估计基线风

13、险函数01(t,这和配对lgistic模型中不关心I 的大小,只求出系数 的思路恰巧一致 1:m和n:m配对的时候都可以使用。多分类模型分析的特针对多类别l多分类模型分析的特针对多类别lgi模型的会同时拟式(6.3.2)中所有方程,这样得到的模型参数的估计比二分lgistic回归分别拟合每个 方程有更小的标准误。在同时拟合下,不管哪个类别作基线,对于同一类别都会有相同的参数估。多分类模型使用背无序多分类的logistic回归模型用于分析引变量为无序下也应该使用多分类的lgistic回归分析:Test of Parallel Lines 检验 专业上认为自变量在各回归方程的效应不可见,当结果为三

14、分类时,两两间的比较有3种,而只要给出两个lgi函数,另一个就可以通过减法得到。不难想象,对有 K 类结果变量可以建立K1个lgi函数,其它的均可由减法得到。上述结果为3类,故在X 的条件下其概率和为1y0| Xy 1| Xy 2| X三类结果的条件概率分别为 y 0| X 1ee e y 1| X 1eeey 2| X1ee第一个logit 函数表示A 类与C 类比的logit,相应的1i 表示 A 类与C 类比,xi 改变一个函数表示B类与C类比的logit,相应的2i表示:B类与C类比,xi改变一个时优势之对数值而A类与B类相比的logitlogit ln(y 1| X) ln(y 1|

15、 X) (y 0| X)1/(y 2| X)(y 0| X) (y 2| X)ln(y1| X)ln(y 2| X)(y 0| X)(y 0| X) ()( g1(X) g2(X6.3 多类结果变量的logistic以响应变量y设y为结果变量,y的三类结果分别为A、B、C,三类中可任意指定一类作为参照组或基准组。不妨取y=表示A类,y=表示B类,y=表示C类,设C类为参照组。 X,X2 ,X为自变量则三类结果的lgistic回归模型可表示为:(y logit1/0 ln(y0| X g(X(63(y 2logit g (X(y 06.3 多类结果变量的logistic E(Y |x1,.,q)

16、, 其中 r Pyr 因此,多变量模型可以用下式刻画 h(Z其中,h(.)为向量值响应函数,Z为q p设计矩为p维模型参数6.3 多类结果变量的logistic回分类变量与多项分假设有k个分类的响应变量Y, 取q=k-1,采用哑变量码,可以用q维向量Y=(y1, y2,yq) T表示Y的不同分类1, 若Y的值为第r类r1,k-1 y 0,若Y的值为第k类用y (y .y )表示Y的第i个观测样本数据 y 则y服从多项分布 M m,P(y (m m ) m !m ! m ! 其中 mmm, 1, =(, ,logitP宫/对=1.62060.889755x logitP胎/对=3 28061.7

17、76555 xOR 718 OR 1 logitP宫/对=1.62060.889755x logitP胎/对=3 28061.776555 xOR 718 OR 1 272 27与胎相比的logitP宫/胎=(1-2) +(12 )x =1.66000.8868x对模型中所有自变量偏回归系数全为0验,模型中未引入自变量时-2ln(L为33.09,引入自变量后减少至19.26,二者之差等于13.824。结果表明至少有一个自变量的偏回归系数不为结果变量为y0 为对照(C类y = 1 为宫缩乏力性产后大 y = 2 为胎盘例6.6y0 为对照(Cy = 1 为宫缩乏力性产后大 y = 2 为胎盘SP

18、SS 默认为取值水平大的为参照水平。如果欲将C组设为对照组,则应该注意变量命名例6.6 产后大。在产后与有无妊高症的关系研究中,将产量400ml的作为病例,并分为上 表6.22 两类产后与有无妊高症的关分 组对照 745胎合 结果变量为y= 0 为对照(C类y = 1 为宫缩乏力性产后大 y = 2 为胎产后多分类模型分析时应注含有连续变量,需要谨慎,有时内存 而死机,6.4.1 有序累积比数logistic模型定yK个等级的有序变量,第k类 (k 12,K分别为6.4.1 有序累积比数logistic模型定yK个等级的有序变量,第k类 (k 12,K分别为, 且 1解释变量可以是任何性质的变

19、量logit P(yk) logitPln=ln x, k 1,2,,K -1P(y k)其中,和是待估参数表示解释变量0 时,在某一固k 下的两类不同的概率之比的对数值描述解释x变一 反应的是解释x对反应类别k的效应大小由上述模型可见,logit模型的构建是基于累加的概率的。 每个j的共同效应决定了这三条和向左平移。|大小决定了曲相同的顺序,P(Y16.4.1 有序累积比数logistic模型概医学科研工作中常常会遇到多分类有序反应变量的资料,这种变量的分类水平大于2个且水平之间有等级关系。假定因变量为治疗某病的疗效,分为无效、有效、显效、痊愈4类,分别为赋值为1,2,3,4,共有p个自变量

20、,这种资料的lgistic回归分析,需要拟合水平数-1个lgit 模型,即可产生3个模型: logitP ln 1 ln x , 1- logitPlnlnx1-() logitPln ln x , (6 4y 31-( ) .24 例6.7资料的三分类结果的logistic变系标准95% 区1 妊高症人流史常数2 妊高症x人流史常数相应的模型为 logitP/=3.54891.5972x10.9375x2 log-从结果来看,有人流史的产妇发生胎盘 性产后大 的 性是无人流史的2.55倍;但尚不能认为人流 宫缩乏力性产后大 有何影响。有妊高症的产妇发生宫缩乏力性产后大 及胎盘 性产后大 的

21、性分别是无妊高症者的2.58倍和4.94倍。例6.7 在例6.6中,进一步考虑有无人工的影响,结果如表 6.23。表6.23 两类产后与妊高症、人流史的关对胎合无妊高症x1 有妊高症x1 分结果变无人流有人流史 无人流史 有人流史 合xxxxe(-1.62060.889755X 1(宫) 1e(-1.62060.889755X ) e(3.28061.776555 X e(3.2806 1.776555 X2(胎) 1e(-1.6206 0.889755X) e3.2806 1.776555 X3(对) 1e(-1 62060 889755X) e(328061 776555 X上述式子中的“

22、1”表示e x ,由于是基线,所 布的稳布的稳例6.8 在探讨影响智力的 研究中,某 了857名小学一年级学生的智商(IQ与母亲的文化程度,结果见下表。试分析两者间的关系。表6.25 1=中2=中3=中4=上合智商母亲文化程小初高中或中专 大专及以合与前面提到的logic回归模型的检验方法相检验对回归系数的意义和回归模型的拟合优度进行检验。模型特多项式lgi模型是规定一个参照类别,然后其他类别与参照类别相比得出结。而累积比数lgi模型并无固定的参照类别,而是将是将个等级人为地分为两类 1, 与+ 1,K两类,lgitP表示前个类别的累计概率P(与后-个累积概率P(y的比数之对数。故该模型称为累

23、积优势模型(cumlative oddsm。对于多分类有序反应资料,如果采用一般的二分类lgilgi模型,通常只能获得50%70%的检验效能,这也说明了累积比数lgi模型用于分析有序变量资料的必要性。模型假累积比数logit模型有一个应用条件,即比例优势假l os a mion条件。这一条件是指,对于某一个自变量而言,所有的累积比数ogi都有一个相同的参数估计值。即不同累积比数发生比的回归线相有序结果的累积优势模型有(K1)p个参数,为待估参数(k =1,2,K1,j=1,2,, p)。k 1 2 根据有序结果的loglstic 回归每类结果的概率P(Y k | X) P(Y k | X)P(

24、Y k 1| X本本 logit: f(x)=ln(x/(1-Complementary log-log: f(x)=log(-log(1-用于反应变量取值水平高的水平发生概率高的资料Negative log-log: f(x)=-log(-log(1-用于反应变量取值水平低的水平发生概率高的资料如果条件不满足,有序logistic模型有一定的耐受性,p值非常小时,可能的原因有两个连接函数选确回归系数的确在随着分割点发生变化模型适用条件的检前面介绍模型时提到不管响应变量的分割点在什么置,模型中各自变量的系数 都保持不变,即回归系数注意:对模型拟合检验的统计量,Parso和偏差G计量的比较模型的

25、M拟合单元频数和观测的单元频数当几乎所有单元的频数不少于时,这两个统计量就近似服从分布。换句话,这两个统计量对自变量取值水平组合的实际观察频数为的比例十分敏,如果比例过高,统计量将有 可能从分布所计算的值不。此时,用似比检验要稳定的。表6.28 各影的分析结0.0216 0.858 -0.2152 -0.0420 0.1600 -0.793 -0.3557 0.3942 0.2317 -0.1251 0.1759 -0.477 -0.4699 0.3325 0.0472 0.3980 0.2680 表6.28 各影的分析结0.0216 0.858 -0.2152 -0.0420 0.1600

26、-0.793 -0.3557 0.3942 0.2317 -0.1251 0.1759 -0.477 -0.4699 0.3325 0.0472 0.3980 0.2680 0.4635 0.1909 根据专业知识可知,营养状况之优劣无论是对脑细胞发育还是对日后的智力均有较大影响,故在理论上,出生体重应智力水平有关系。本资料中低体重、正常体重及超重儿分别以0、1、2表示,分析发现:若以正常体重儿为参照标准,无论是低体重儿或是超重儿,其智力等级与正常体重儿童相比均相对低下;且低体重及超体重者之平均智商均低于正常体重者。因此,若直接将“出生体x2”进入模型则无统计学意义。现考虑将“出生体重”以抛物

27、线形式进入方程,即将x2 与(x2)2同时放入模型中分析,结果见表6.29变量 回归系数 标准回归系数的例.9 讨与的某市3 所中抽取8个了的智级y 为变时关方信表62y被四级=IQ0y2 90IQ10;=31I30y4:IQ10。这是份多分有序结料拟累势lgitic 分。表6.27 可能影响智力的变量名及家庭人均月收入 200元以下0,200800元1,800元以上足月儿出生体重 2500克以下0,25004000克1,4000克以上母亲孕期营荤食每周一次及以下0,每34天一次1,每12天一次婴儿期喂养方式 人工喂养混合喂养喂养三岁前营养状况 偶尔吃荤食0,每周一次1,每23天一次2,每天一

28、次牛奶或豆不喝0,经常喝(每周34次) 1,每天喝序影变量变量编第一种,1,2,3,4,得 第二种,1,2 ,3,412143, 0第三种,1,2,3,4,得336844, 0 6.4.2割点k无关。在上例中,当 四个智力等级按序分成两类时, 三种分法,每种分法均可拟合普通的二分类的logistic 回归,结果如下: 第二种,1,2,3,4,得: 12143, 0第三种,1,2,3,4,得36844, 0 常数项又称为分割系数,因为他们将t分布进行了分割以对应于不同类的概率:当x=1时01eP(y2)01e1eP(y3)01e1eP(y4)01e模型为 OR=e0.6371=1.89,即,当母

29、亲的文化程度提高一个等级时,儿童智力2与判loisti回归模型是一个概率型模型,对非条件 loisti回归,在给定的条件下可通过ogisi回归模型计算某事件发生的概率。因此可以利用它某事件发生的概率。在临也可以根据疾病与临床检查指标资料,建立ogisi回归模型,对新的对象可根据其临床检查指标,计算其患某种疾病的概率的大小,进行判别分析。logistic1、流行病分2与判loisti回归模型是一个概率型模型,对非条件 loisti回归,在给定的条件下可通过ogisi回归模型计算某事件发生的概率。因此可以利用它某事件发生的概率。在临也可以根据疾病与临床检查指标资料,建立ogisi回归模型,对新的对

30、象可根据其临床检查指标,计算其患某种疾病的概率的大小,进行判别分析。logistic1、流行病分在不同水平下的值或近似值,非常适合于流行病学 型,得到调整后的优势比分析表明,儿童智力受到其出生体重(x)、母亲孕期营养(x 正常体重儿降低26%、超重儿则降低32%;母亲孕期营养每提高一个等级,儿童智力提高一个或一个以上等级的可能性平均增加24%;同理与人工喂养(x4_1)相比,喂养的儿童其智力提高一个或一个以上等级的可能性平均增加39%,而混合喂养儿与二者均未显示出差异;儿前期营养每提高一个等级,儿童智力提高一个或一个以上等级的可能性平均增加34%;牛奶或豆浆频度每增加一个等级,儿童智提高一个或

31、一个以上等级的可能性平均增加30%。表6.30 营智力关系的分析结zP回归系数的*-x将单分析中0.2者放入回归模型进行逐步有序lgistic分析(后退法),筛选主要影响,结果见。此水准取为(而不是.05),以提高检验效能,便于初筛影响。表6.30 营智力关系的分析结-OR0/l=0.7355,OR2/l =0.6795 得回logitPj =j0.6540 x20 3468 x220.2189x30.3304x4_3 0.2893x50.2964x6 j=1,2,3 代码 回归系 标准误表6.29 出生体重对儿童智力的影0.8403 0.0741 -0.4333 0.1778 -0.015

32、-0.7818 - 由:OR0/l = e-0.4070 = 0.6656,OR2/l = e-0.4596 = 及R2l分别表示低出生体重儿、超重儿相对于正常体重儿的优势比。下同)。即与出生体重正常的儿童相比,低出生体重儿及超重儿日后智力提高一个或一个以上等级的可能性分别平均降低 、%。表结果显示:婴儿出生体重与其日后之智力水x2 与x22同时放入多分析模型中进行筛选。当然也可以考虑以哑变量的形式进入方程代回归系数 标准回归系数的logistic回归的样本含(1)在所选自变量相同时,建立loisilogistic回归的样本含(1)在所选自变量相同时,建立loisi回归所需样本含量当各组样本含量大于自变量数的20本含量较小,反之亦然。(2)另一种有用的经验方法是,对于随机抽样、普查或队列研究,不妨假设结果为阳性与,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论