logistic族回归_第1页
logistic族回归_第2页
logistic族回归_第3页
logistic族回归_第4页
logistic族回归_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1122ppYXXX的平均数1122ppPXXX的平均数1122ppPXXX的平均数1PoddsPlnlnlog( )1Poddsit PP1122log ( )ln().1ppPit PXXXP11log ( )lnln()1ppPit PoddsXXPln(x)是以是以e为底的为底的x的的对数对数。11lnlogit( ).1ppPPXXP反变换:反变换:求求11exp(.)1ppPXXP11(1)exp(.)ppPPXX1111exp(.)exp(.)ppppPXXPXX1111exp(.)exp(.)ppppPPXXXX1111(1exp(.)exp(.)ppppPXXXX1111ex

2、p(.)1exp(.)ppppXXPXX高等数学里高等数学里exp指指指数函数指数函数 例:例:expF(X)是是e的的F(X)次方次方 111111()()()12111logistic()logitppppppXXXXXXpePeeXP上式右端在数学上属于函数为截距项, 、为 偏 回归系数,表示 改变一个单位时,的改变量。预报事件发生预报事件发生(Y=1)的概率的概率 P的计算公式为:的计算公式为:预报事件不发生预报事件不发生(Y=0)的概率的概率1P的计算公的计算公式为:式为:1 11 1(1/)1ppppxxxxeP yXe1 11(0) 1(1)1p pxxP yP ye 1100/

3、(1)/(1)PPPP暴露人群的优势OR=非暴露人群的优势1100/ (1)55 1643.7089/ (1)19 12895%1111exp()2.0964 6.5616aPPadPPbcORORuabcdOR=的可信区间:素素0.2478 1.31070.2478 1.3107(1)1xxeP yejX当模型含有多个自变量时,其他自变量固定,增加一个单位后与增加前比较011log ()ln odds =jjppit PXXX0()jX 增加一个单位后,log ( ):jXit P增加一个单位后,的平均改变量为1010log ( )log ()ln()ln()(1)jjjjit Pit Po

4、ddsoddsX111log ()ln odds =(1)ppjjit PXXX1():1221j)相对应的优势比为(与的两个水平同理,与变量CCCCX101010log ()log ()ln()-ln()lnlnjititoddsoddsoddsORodds10joddsOReodds优势比当当Xj的水平增加一个单位时,的水平增加一个单位时,)(12-CCjeORjiORXlnlogit,)的改变量为(引起增加一个单位时某自变量的应用OR10jej,则与增加前相比:若1100OR1,joddseoddsoddsodds,即011010,111odds则,0,0,OR1,表明与表明与Xi相应的

5、因素为危险因素相应的因素为危险因素 (如:该因素使得患病率(如:该因素使得患病率升高)。升高)。110011001100()0OR10OR10OR1jjjjjjORoddseoddsoddseoddsoddseodds的应用自变量增加一个单位时若,则,表明该因素为危险因素若,则,表明该因素为保护因素若,则,表明该因素对结果变量不起作用。注意:与变量的编码密切相关,编码不同,含义可能相反注意:与变量的编码密切相关,编码不同,含义可能相反ii00011155X0log ()ln=ln,1.0629119128X1log ()ln=ln,1.31071164Pit Pa aPPit PaP 时,()

6、时,()log ()1.0629 1.3107it PX回归方程为0001111ln()ln=log ()log ()1()=1lnPPORit Pit PPPaaOR eOR (),可解释为优势比倒数的对数值111-1-1-155X1log ()ln=ln,119128X-1log ()ln=ln- ,11640.40750.6554Pit PaPPit PaPa时,()时,(),log ()0.4075+0.6554it PX回归方程为11111121ln()ln=log ()log ()1()()2 ,lnPPORit Pit PPPaaOReOR()可解释为优势比平方根的对数值kee表

7、示增加一个等级时的优势比;表示增加k个等级时的优势比;1(1)aaee( )横断面调查研究中,表示基线状态下,个体的患病率;2(1)aaee( )队列研究,表示基线状态下,个体的发病率;4 1:1(1)0.5aaee( ) 配比病例对照研究中,表示基线状态下,病例在研究对象中占一半。3(1)aaee( )成组病例对照研究中,表示基线状态下,病例在研究对象中所占比例;l以P1表示暴露者中病例的比例l以P0表示非暴露者中病例的比例acadacacORbdbcbdbd1aPa c0bPbd11ePe 01ePe暴露x=1非暴露x=0病例y=1 P1= P0=对照 1-P1= 1-P0=1ee 1ee

8、11 e 11el故得到似然函数故得到似然函数L Ll对L取对数InLl对对InL分别求分别求的一阶偏导的一阶偏导l令令0,0InLInL11() () () ()1111abcdeeLeeee( ),()badInIndbcadORebclog( )()baditPxInInxdbc1.96( )SE22200,()( )( )zzSESE1.96()SEe参数的可信区间是以参数的可信区间是以Wald法计算的,在法计算的,在应用可信区间时也应慎重。应用可信区间时也应慎重。log/(1),(0.5)/(1)itPPPPXn变量选不进的原因:变量选不进的原因:非线性关系非线性关系年龄分组0123

9、40510152025发生率(%)变量选不进的原因:非线性关系变量选不进的原因:非线性关系第一组发生率第一组发生率为为0,与第二,与第二组合并组合并FSBFSB与与FSAFSA系数符号相反,父亲孕前吸烟有害,孕系数符号相反,父亲孕前吸烟有害,孕后吸烟有益,显然荒唐。后吸烟有益,显然荒唐。系数绝对值相近,当孕前孕后吸烟等级相同时,系数绝对值相近,当孕前孕后吸烟等级相同时,作用抵消作用抵消原因:父亲吸烟行为改变不大,原因:父亲吸烟行为改变不大,FSAFSA与与FSBFSB高度相高度相关,等级相关系数为关,等级相关系数为0.97680.9768但同时有意义,提示父亲吸烟可能是重要变量。但同时有意义,

10、提示父亲吸烟可能是重要变量。产生两个新变量:产生两个新变量:SMK1=FSA-FSBSMK1=FSA-FSB怀孕前后父亲的吸烟行为改变怀孕前后父亲的吸烟行为改变SMK2=maxSMK2=max(FSAFSA,FSBFSB)怀孕前后父亲的吸烟最大怀孕前后父亲的吸烟最大 等级等级将将SMK1、SMK2与与Y作作logistic回归,回归,产次无意义产次无意义人工流产次数越多,低出生体重儿可能性越大(课本人工流产次数越多,低出生体重儿可能性越大(课本为负系数)为负系数)Log Likelihood = -365.50715P入入=0.10,P出出=0.122log1.28322.2070.53480

11、.54390.69901.44711itPGMAGEGMAGERGZXZLCSMK 3RZG=0(无妊高症),(无妊高症), XZLC=0 (无先兆流产)(无先兆流产)2RGZ=1,XZLC=01RZG=0,XZLC=1smk1=0(父亲吸烟无变化)1122logit ppPxxx自变量下标的含义:如自变量下标的含义:如x1011-表示配比号表示配比号0-表示组内编号,(病例为表示组内编号,(病例为0,对照为,对照为1至至m)1-表示自变量编号(危险因素)表示自变量编号(危险因素)1:1配对设计数据的一般格式假设有一个自变量为假设有一个自变量为X,每层中第每层中第1人的自变量记为人的自变量记为

12、X0,第第2人的自变量记为人的自变量记为X1,000000111:1111XXXeee每对中,第 人患病的概率和未患病的概率分别为和010101002:1111XXXeee第 个人患病的概率和未患病的概率分别为和)1 (01)1 (10)1 (01)1 (1000000101101001(1|)11111XXXXXPeeee第 个人患病 同一层中两者之一患病0111(1|)1pjjjjXXPe第 个人患病 同一层中两者之一患病自变量扩展到p个回归回归称为非条件前述非匹配资料的回归回归称为条件的左端为条件概率,相应logisticlogisticlogisticlogistic的条件概率为人未患

13、病人患病,第第人患病的条件下,恰好在只有211011logpjjjjitPXX 01exp() xi设第i个配比组,患某病的概率P正比于1 11 1ilogisticlogitippxxx则第 个配比组可建立一个回归模型P=+tt=mjj=m用 表示配比组患者序号(0,1,2,)用 表示自变量序号( 1,2,)01000itj11(1)(1|1)(1(1(0(1(011exp()imiittmmititttt tpmjijtjPLP YPP YXP YXP YXP YXxx某配比组中有1名为病例的条件下,恰好第一个观察对象为病例的条件概率是:某配比组中第 人得病某配比组中有 人得病某配比组中有

14、 人得病)10itj1111exp()npmijijtjLxx4416bcOR 2=7.2, P=0.0073。010,11eePPee1配比组中,暴露者中病例的比例为P,非暴露者中病例的比例为P考虑两人中一人患病,另一人不患病的情况:(1)两人均暴露,条件概率为1/2;(2)两人均未暴露,条件概率为1/2;101001011001(1)(1)(1)1(4)(1)1(1)(1)1PPePPPPePPPPPPe(3)一人暴露,一人为未暴露,则暴露者患病,未暴露者不患病的条件概率为一人暴露,一人为未暴露,则未暴露者患病,暴露者不患病的条件概率为111( ) ( ) () ()2211adcbeLe

15、eln()1ln0=ln,LeccbeLccORebb对 求一阶导数:令,得 的最大似然解:ln =-aln2-dln2+c -(c+b)ln(1)Le可见,与常数项无关,取对数:xP3863. 1logit43863. 1 eOR各变量的定义 方程方程B的似然函数大于方程的似然函数大于方程A的似然函数,的似然函数,B优。优。注:跟多重线性回归一样,其回归系数意义的解释都是在注:跟多重线性回归一样,其回归系数意义的解释都是在其他自变量保持不变时其他自变量保持不变时必须新建一个变量,必须新建一个变量,time,time=1表示病例,表示病例,time=2表示对照表示对照TIES=BRESLOW

16、for 1:m and TIES=DISCRETE for n:m matching.display the lower and upper confidence limits ui * ptl Crosstabulationui * ptl Crosstabulation86109671.7%8.3%80.0%1592412.5%7.5%20.0%1011912084.2%15.8%100.0%Count% of TotalCount% of TotalCount% of Total01uiTotal01ptlTotalR=0.297smoke * ptl Crosstabulationsm

17、oke * ptl Crosstabulation6657155.0%4.2%59.2%35144929.2%11.7%40.8%1011912084.2%15.8%100.0%Count% of TotalCount% of TotalCount% of Total01smokeTotal01ptlTotalR=0.290(OR95%CI(1.416,3.7.786),P=0.0058)。/(| )logitln( )(| )(| )logitln( )(| )ppppP yxPxxxg xP yxP yxPxxxg xP yx1 01111122112 02211222221020y=1表

18、示表示A类,类,y=2表示表示B类,类,y=0表示表示C类。类。设设C类为参照组。类为参照组。 )|0()|2(ln)|0()| 1(ln )|2()|0()|0()| 1(ln)|2()| 1(lnlogit2/1xxxxxxxxxxyPyPyPyPyPyPyPyPyPyPP)()( )()()()( 2121222121121121xxggxxxppp|P yxP yxP yx0121( )( )( )( )( )( )( )( )|gxgxgxgxgxgxgxgxPP yxeeePP yxeeePP yxee1211221201211101217181327142OR718 627 27

19、OR11exp(),.ln 11718 131421 620627 142718OR21exp(),.ln 22718 6273 280627 27718OR出血出血”的影响不同。的影响不同。人流史对宫缩乏力性产人流史对宫缩乏力性产后大出血无影响后大出血无影响(| )(1| )(| )P yjP yP yjxxx (| )logitlogit(| )ln1(| )1,2,1jP yj xPP yj xP yj xjk pjjiiiPP yj xx 1logitlogit(|) 11(|)1exp等价于pjiiiP yj xx 符号为负符号为负111110k(| )(| )(1| )()111

20、e1 e1,2,-+ppji iji iiipjiijixxP yjP yjP yjP axuajkaaxxx定义为,定义为,exp()(b-a)iOR 0.6373logit0.63731.890.89,意义:母亲的文化程度提高一个等级时,儿童智力提高一个或一个以上等级的可能性将增加倍jjPxORe 11(| )(-+-+)111e1ejjjjxxP yjP axuaxxP ye 1.4578 0.63731(1)0.10961P yee1.2254 0.63731.4578 0.637311(2)0.533311P yee3.5630 0.63731.2254 0.637311(3)0.3

21、06211P ye 3.5630 0.63731(4)10.05091x=1时 实际频率,当实际频率,当X=1时时Y=1的观察频率为的观察频率为91/857=0.1062433/857=0.5052280/857=0.326753/857=0.0618智力等级:智力等级:y=1:IQ90; y=2:90IQ110; y=3: 110IQ130; y=4:IQ130;入方程。入方程。计算得:OR0/1=e-0.4070=0.6656:与正常体重儿相比,低出生体重儿与正常体重儿相比,低出生体重儿日后智力提高一个或以上等级的可能性分别平均降低日后智力提高一个或以上等级的可能性分别平均降低33% OR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论