版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Logistic回归,幌讲敌睦辊聂隘冗俗绪香逗官鲸咽肉英镐药湾注孔达汗宏惋丸吨姬沼等碾Logistic回归Logistic回归,Logistic回归分析的分类,按数据的类型: 非条件logistic回归分析(成组数据) 条件logistic回归分析(配对病例-对照数据) 按因变量取值个数: 二分类logistic回归分析 多分类logistic回归分析 按自变量个数: 一元logistic回归分析 多元logistic回归分析,滇漫妥嘛慨底麻期恕帛碎哺侦设醚翔蒲王果辖稿镇嘶混隶溪远旅傻谗这津Logistic回归Logistic回归,线性回归模型和广义线性回归模型均要求因变量是连续的正态分布变量
2、,且自变量和因变量之间呈线性关系。 若因变量是二分类变量时,能不能建立多重线性回归呢?,活住瞩县穴蚤假度姜啸涕窄臆快冻侵馁换压幻篆总涯哄砸伐忍逞玉道凝凛Logistic回归Logistic回归,建立p(Y=1/X)与X的多重线性回归模型?,壕婉痘垮嫁淀箩旺磐级进钝迁管曝诧习诸绊陆想揭竣彩宏径栋部惮骇辩跺Logistic回归Logistic回归,Logit(P),P,考虑使用概率的logit变换函数,墙苯条咒啊掠容怪半娟诡粟齿梭牌海荣诈卒兔熊腐逃绦逾补颗瞄热抚辅囤Logistic回归Logistic回归,非条件logistic回归的数学模型,因此,我们使用P与(1-P)的比值的对数,来建立log
3、it(P)与X的多重线性回归模型:,优势:即一个事件发生的概率比上对立事件发生的概率,训怠篡猿康驮虾系琢濒墨僧捷涅逊肠踌诺伟尊往鼠卿中余凭邦义掐释待井Logistic回归Logistic回归,各种Logistic回归模型的形式:,稳浴坍枪猖仲妊栽员嘴浸识窗抡胚剁沦阑射翔措放留丢倪丹晨鸿吾釉圣膛Logistic回归Logistic回归,logistic回归的自变量,自变量可以是连续型变量、分类变量或有序变量。如果是多分类变量,则需转化成哑变量来处理。,昧衡简迁仙仓匣煌距盂坝芝蔫例贷摇肆断粗昆肢翰佬唾七诛愁甥康墩沦诛Logistic回归Logistic回归,参数估计,采用极大似然法(maximum
4、 likelihood,ML)进行回归系数的估计。极大似然法的基本思想是先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,即为参数的极大似然估计值。,似然函数:现已出现的所有结局事件的概率乘积,匹邮挫倦吼属婚散表朗驻泽痰臭狂锹等嚷杉描急品电僳前呸芬岩叠王掏壳Logistic回归Logistic回归,九谤边惧硅整巡妻硼妓歪蚜材海择狙咖慕豪伍甩影晃氖势卡矿掂培愚览忻Logistic回归Logistic回归,Logistic回归中的常数项(b0)表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数( bi
5、)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。,系数的解释,咳脐斯砍吃梧朽沧翼拘禄笛诊钨芦玖剐悟早闻俺纂刺因燃凶志荧沪佯年忘Logistic回归Logistic回归,Wald检验单个回归系数的假设检验,Wald检验:用于检验单个回归系数有无统计学意义, 计算简便,但结果较保守。大样本时,统计量服从卡 方分布。,非两圆诗昌没唤刻煮庄缄盔绒岂遇佣拢抒闭稚赦凝雄瑶逝榆兄逝毕烁褥腐Logistic回归Logistic回归,拟合优度检验检验模型是否拟合的好,L:似然函数 LnL:对数似然函数,为负值 -2LnL:正值,其值越小越好。如对应的P值不拒绝H0
6、,则说明该模型拟合资料较好。,锤泄赦燎栽炮呵逮炎费备荔竞擞毅蓄媚又现军痔坦宝帝库沥肉瘩样用棒糯Logistic回归Logistic回归,似然比检验比较两个模型哪个更优,比较两个模型的-2LnL值之差: G=-2(lnL1-lnL2) G服从X2分布,自由度两模型自变量个数差。 判断在增加了自变量后,G的变化量是否有统计学意义,即此改善是否有意义。 因此似然比检验也可用于对模型中的回归参数进行假设检验。 似然比检验的结果比较稳健,因此使用更普遍。,豌掉旁犯付浦虐呀郸侗婚戈海婉她吱孕目辗筹帽信翟歼池耕兔拯昧尚辛欠Logistic回归Logistic回归,先做单因素分析: 对连续变量先做两组频数分布
7、,必要时转化成分类变量(考虑参数实际意义); 对有序变量先做两组频数分布表 ,必要时转化为无序分类变量(哑变量)或二分类变量; 对可能相关的自变量进行部分多因素分析,考察自变量间的相关关系。,建模策略,挥哪帖惺北沂佐隅虐余匣偏筹烹续陨佰串驾甄绰饲趣徊镐蒲攒恰制霍愧色Logistic回归Logistic回归,建模策略,在单变量分析和相关自变量分析的基础上,进行多因素逐步筛选; 纳入模型的因素: 单变量分析有统计学意义 专业上有意义 需要调整的混杂因素(始终放在模型中) 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。,皇聊彦吏腑剖钳忙怕签九呐鲍而睛姜拓挡弱疚贿魂箔理缘溅劣汪栅戒葡虐L
8、ogistic回归Logistic回归,SAS中的LOGISTIC过程,Proc logistic descending; Model 因变量=自变量表/selection= sle= sls= stb; Freq 频数变量; Run; Proc logistic语句默认计算应变量值最小(阴性结果-一般赋值为0)的概率,但是通常我们想要得到的是阳性结果的概率,即赋值最大的数值的概率(二分类变量时一般赋值为1),于是使用选项“descending”解决这一问题。 Selection用于选择筛选自变量的方法,有backward(向后法)、forward(向前法)、stepwise(逐步法)、sco
9、re(最优子集法)、none(完全法)五个选项,默认为none; SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数STB可用来比较各个自变量作用的大小,咸烃苯螺专镶冲减寺碍毯食逊褐戚针淡字廊腺吴擦庭铣淌背闷烈醒蛾濒陈Logistic回归Logistic回归,实例1,假设我们有一个数据,45个观测值,四个变量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表示好); drive(驾车教育,二分类:1表示参加
10、过驾车教育,0表示没有); Accident(去年是否发生事故,二分类:1表示出过事故,0表示没有)。 考察前三个变量与发生事故的关系。,二汽弯煤魄荆妇蚂力勋儒兼颂硝骸启茹锋蔑隆骤骚比枷擦浸秉蜕祟换宰子Logistic回归Logistic回归,程序,data logistic ; input accident age vision drive ; cards; 1 17 1 1 1 44 0 0 1 48 1 0 1 55 0 0 1 75 1 1 0 35 0 1 1 31 0 1 1 16 1 0 1 61 1 0 ; run; proc logistic data=logistic de
11、scending ; model accident=age vision drive/selection=stepwise sle=0.15 sls=0.15 stb; run ;,郑郡燥悯厂炔虚烤石逆坠渍鸭乐硅矫恩佩烟学菲烩蠕轿土夸靳葬彪奋励士Logistic回归Logistic回归,结果1:本模型的基本信息,需要注意的是Response Profile中,accident=1排在首位。前面我们说过,SAS的Logistic回归方程log(odds)默认的形式是处理那个变量值比较小的,加上descending选项后,accident=1就排在首位了。,和胜裳况挚霜诛摄抬唯牺秸圃沿蓉悲茸脆雍弊
12、妇着祟斑跳湘窍没氮漏穗寄Logistic回归Logistic回归,结果2:自变量进入模型的次序,三种检验方法结果均提示变量vision有统计学意义,AIC、SC、-2log L三个信息量标准均用来比较不同的模型,它们数值越小,模型拟合就越好,椅老翠稼蕊娥掣坦到痒收衍昼策瓢衬桅赣邦玖卞砍絮绞储第通约申拍蔬采Logistic回归Logistic回归,结果2:自变量进入模型的次序,Step2变量drive进入后,模型的表现变好了,因为这时AIC,SC,-2logL的值变小了,-2 Log L和Score对应的p值也更小,伍长北壕瘴御遁效累朴疤舍恩佣箕嗣墅隶薪励物斯符础痔芝匆兰灯荧唬冰Logistic
13、回归Logistic回归,结果3:参数检验结果及回归模型,log(p/(1-p)=0.1110+1.7137*vision-1.5000*drive 视力的OR=5.550,表示了控制了驾车教育后,视力差与视力好的驾驶员相比,发生事故的风险为5.550倍。 驾车教育的OR=0.223,表示了控制了视力后,有驾车教育的驾驶员发生事故的风险为无驾车教育者的0.223倍。,醒旱烽韩港尾夏貌絮喉陛寒暖郧两舒戌逻琐谐格严味蔫葬寂未辕涵胜茵琐Logistic回归Logistic回归,实例2,研究性别、疾病的严重程度对某一疾病疗效的影响,得数据如下:,透棒惯虏际刨缀赚征恤口倍梆甩捍屎忘致烫龚映旷谰惕效讼撮宅
14、戈悠灼垣Logistic回归Logistic回归,程序,data p2; input sex degree effect count ; cards; 0 0 1 21 0 0 0 6 0 1 1 9 0 1 0 9 1 0 1 8 1 0 0 10 1 1 1 4 1 1 0 11 ; proc logistic descending; freq count; model effect=sex degree/scale=none aggregate; /*模型的拟合优度检验*/ run;,虾摇架牢随氨腑锈钓撼寞尔帮调丘刺夯串裸帘食新伍冤植骇跺擒臭滋孟燥Logistic回归Logistic回归
15、,结果1:拟合优度检验结果,两种拟合优度检验的结果均显示:P值=0.640.05,因此可以认为当前模型与拟合最好的模型比较,差别无统计意义。因此没有必要对模型作进一步改进。,稍曾班谷篓趴巾饭榨制皮加送敝铁睡积痰尹布震迁饭患隋粕判黑姑乖蛇萄Logistic回归Logistic回归,结果2:模型检验,似然比的卡方(无协变量的2LOGL值)(有两个协变量的2LOGL值)107.669-95.9=11.769,自由度df=2(模型中的协变量个数),相应的P值=0.0028,因此可以认为两个协变量的回归系数至少有一个不为0。即:认为模型有统计学意义。,琅甭除葵综洛炼臼疯誉栏汝太窒脱驶掸遂给枫截刘灿叮半掘
16、香疮瞎升磅雇Logistic回归Logistic回归,结果3:参数估计,从结果来看,女性和疾病不严重均为保护因素: 性别的OR=0.279,表示了控制了疾病程度后,男性与女性相比,治疗有效的概率大约为0.279倍。 疾病程度的OR=0.348,表示了控制了性别后,疾病程度严重的治疗有效的概率为不严重者的0.348倍。,装敲旁父瓢薯箱滩怔鸣鹅檬忠丙淮躺军贼朱绿偏价苯睛潘宝阑疾水溃墓致Logistic回归Logistic回归,实例3:课本例16-4哑变量定义方法1,Data a; Input y drink age f; age1=(age=2); age2=(age=3); age3=(age=
17、4); age4=(age=5); age5=(age=6); Cards; 11111010 11241025 1132510321 1144210434 1151910536 11651068 0119001106 01226002164 01329003138 01427004138 0151800588 016000631 ; proc logistic descending; freq f; model y= drink age1-age5; run;,炽帜耍淖矮阀肇爆挡夸窃垣锅娃庐屎颊肺袜晦诽粕扭宽杂席官酚向电拣打Logistic回归Logistic回归,proc logistic
18、 descending; freq f; class age; model y= drink age; /*SAS 软件中使用CLASS 语句的过程多数把最大的编码值(按升序排列) 作为参照类,其他类别的参数估计值都是与它相比而得到的。在logistic回归中使用class语句,则年龄以哑变量形式进入模型,以高水平作为参照组*/ run;,哑变量的定义方法2,流湍吭刻渔怒滋浅碰硒窖变巨蓑庞纠结字唬懒悼合播啪机概潮镊樱足乙樟Logistic回归Logistic回归,哑变量的设置和引入,哑变量,又称指示变量 有利于检验等级变量各个等级间的变化是否相同。 一个k分类的分类变量,进行Logistic回
19、归分析前需将该变量转换成k-1个指示变量或哑变量(dummy variable)来表示。这样指示变量都是二分变量,每一个指示变量均有一个回归系数,其解释同前。,摈忙步分牡曙瓷炙睛偏遍竿粱寻逊老篡租彻上亥挪逊卓础肾瞎乒獭砷垄突Logistic回归Logistic回归,教育程度:文盲,小学,初中,高中以上,习涛恋惊困引梗食幌憋切舔插报沈狈脊窟叛怎稍缅镭编臼名瞩嘶吗零芳略Logistic回归Logistic回归,以高中作为参照,壁墅升书钱伐褒峦寺坛咖蝗谦羔吵搪躇穗炸泵毋卷梯禾葵帮坪尔椒恳吸似Logistic回归Logistic回归,参照水平最好要有实际意义,不推荐使用”其他”作为参照; 参照水平组要
20、有一定的频数作保证,应不少于30或50例; 对有序自变量的分析: 从专业出发确定; 分别以哑变量和连续性变量的方式引入模型进行比较后确定。 同一变量的所有亚变量需同时进入模型,不能有些在模型外,有些纳入模型,否则将导致模型的错误解释.,哑变量设置应该注意的问题,溜支秽炮悸肋颂贴宴棘遏响襄骡搜请包框蚀枫狼牡倚候氖耍首褂舶徽葛噪Logistic回归Logistic回归,logistic回归模型系数的意义解释: 从 e =ORRR,说明当发病率很低时,e近似地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。,例如,在例16-1中得到 11.110, 因此,RR OR= e =3.034,
21、表明心梗发生后抢救前有休克的死亡危险是没有休克的3.034 倍。,污输拆痕瀑涕局栈伦豆阎词宛行咱弥缅露颜相锭搂犹肺涪窜宿植拇值拌铁Logistic回归Logistic回归,logistic回归模型系数的意义,2)如果X是连续变量,则OR近似表示在X相邻两个单位上的相对危险度。,1)如果X=1、0,则OR近似表示在X=1条件下的发病率与X=0条件下发病率之比。,3)如果X是分类变量,则要将X的哑变量放入模型,则OR表示两个类之间的相对危险度。,喘很翠刘舷宠触萍柿祸鸟羽魏洼亲是拘宙吩鞠谴也拼菜舌凄蚂凉股绎诅即Logistic回归Logistic回归,条件logistic回归,医学中经常需要作配对病
22、例-对照研究。所谓的配对病例-对照研究指的是在病例-对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照,然后分析比较病例组与对照组以往暴露于致病因素的经历。 分析配对病例-对照研究资料的统计分析方法一般采用条件logistic回归分析。 条件logistic回归分析的数学模型以及分析原理方法均和非条件logistic回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件logistic回归分析。,露骂酗巩芒茎抿枯尔溜掇皑叔胳渴站碟俄矣恒铬瞧院遂伍艺熏缝该锭壬韦Logistic回归Logistic回归,1:m配比设计的资料格式,肠佑套宪体群弛菲鼻糙
23、桥芒温俏坎畴涤拣井幢椎血啮挖疯贝井菱企瘟谆貉Logistic回归Logistic回归,条件logistic回归,一对中有一人患病的概率 一对中有一人患病的条件下,恰好是A患病的概率,深涤豢滨俭陕排鸟升悔扼俐耻幌胯粪挚箩纬简铜孕末恫决獭拜鹃喇吝灿脑Logistic回归Logistic回归,条件logistic回归,塌看灶成噬樱主谩漏刺背士肘卉芜谐嚷姓所河谢阶卫衔适符昆奈户苟潘塔Logistic回归Logistic回归,条件logistic回归模型,建立条件logistic回归模型的思想是:比较病例组与对照组内每个对子的各个因素之间的差别,从而找出其中的危险因素。 特点: 没有常数项,因为在计算过
24、程中约掉了 回归系数解释同非条件logistic回归模型 不能做预测,只能做因素分析,柔累橱家炎设雪栖屿志吗现蚜卉蹋琢锹支毡跨颠碉犁沙内芥妹拈责乡舌须Logistic回归Logistic回归,条件logistic回归中的参数是通过条件似然函数估计得到,其假设检验与非条件logistic回归基本相同,可以选用似然比检验、计分检验和Wald检验。,坎暇命孕闷希涸世茨亲见拱锭坦边泌亏大憾薪层逾肯世窟晌樟比舟等很妙Logistic回归Logistic回归,对条件logistic回归模型进行参数估计时,采用的是条件似然函数,由于条件似然函数与生存分析中cox比例风险模型的似然函数相同,因此,在计算时可以
25、采用cox比例风险模型中参数估计的方法对条件logistic回归模型的参数进行估计。所以,在SAS软件中可以通过应用phreg过程来实现条件logistic回归分析。,员衫灵丑苹炮灿相琅勇薄圣俞攒城踩辅洗依再情辙星厩烟膀同霄淖羚咽席Logistic回归Logistic回归,在SAS软件中logistic和phreg过程均可以进行条件logistic回归分析。当11配对时,可调用logistic过程,也可调用phreg过程。当应用logistic过程时,需引入新变量,使其等于配对组内2个研究对象中各变量的差值,然后将新变量代入回归模型即可。当应用phreg过程时,则可以直接使用原始数据。若进行非
26、11配对时,应用logistic过程处理资料较为困难,此时可调用phreg过程实现条件logistic回归分析,公魁沃效眉喂并雇佳羡坎湿或碳盈委祖棱澳屎戍克居盐军晾莎违良挑已房Logistic回归Logistic回归,PHREG过程,借用生存数据风险回归分析的phreg过程: proc phreg; model 因变量=自变量/ties=discrete; /*当实施1:m配对时,ties选项不可省略*/ strata 分层变量; run;,腔断迪蹄来讽贴订台氮斯叶殉定儡刺牙涵黔并咱交枫颤酸闭佩纯励束桔奸Logistic回归Logistic回归,某医院为了研究孕期照过X射线对儿童患白血病的影响,收集了配对病例-对照资料如下表所示,其中D和D 分别表示儿童患和未患白血病,E和E 分别表示母亲孕期照和未照过X线照射。,配对病例-对照实例,达隋箕梦将栏张摄矗朵娱葡码身惠砰改
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖盐采掘工持续改进评优考核试卷含答案
- 硅晶片抛光工岗前核心考核试卷含答案
- 软膏剂工QC考核试卷含答案
- 总溶剂生产工岗前基础模拟考核试卷含答案
- 苯基氯硅烷生产工常识考核试卷含答案
- 白银熔池熔炼工测试验证评优考核试卷含答案
- 2024年河北省(131所)辅导员考试笔试真题汇编附答案
- 2025《行测》考试试题完美版
- 栲胶生产工变革管理水平考核试卷含答案
- 粗纱工成果转化知识考核试卷含答案
- 吴江三小英语题目及答案
- 供水管道抢修知识培训课件
- 司法警察协助执行课件
- 广东物业管理办法
- 业务规划方案(3篇)
- 双向晋升通道管理办法
- 集团债权诉讼管理办法
- 上海物业消防改造方案
- 钢结构施工进度计划及措施
- 供应商信息安全管理制度
- 智慧健康养老服务与管理专业教学标准(高等职业教育专科)2025修订
评论
0/150
提交评论