已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i ( 1 11 1f 1 1ir tl lfl lii il 17 8 8 6 91 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意 签名:趟啉 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保 留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分 内容,可以采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵守此规定) 1 一 一 伊 摘要 摘要 对l o g i s t i c 回归模型的参数估计及其应用的研究已经有比较完善的结果本文 用分组数据进行l o g i s t i c 回归分析,得到二分类l o g i s t i c 回归模型的最小二乘估计,并 将二分类l o g i s t i c 回归模型的参数估计推广到多分类l o g i s t i c 回归模型此外,l o g i s t i c 回归模型在经济、医学、金融等各个方面的实例应用很多,但应用理论研究却很 少本文还将病例对照下l o g i s t i c 回归模型的检验方法应用于检验样本是否来自于 某一已知分布 论文内容分三部分第一部分说明l o g i s t i c 回归模型的研究背景及研究现状, 并简要介绍二分类l o g i s t i c 回归模型、多分类l o g i s d c 回归模型 第二部分介绍二分类l o g i s t i c 回归模型的极大似然估计,并用分组数据分析二 分类l o g i s t i c 回归模型,推导出自变量取整数时参数的最小二乘估计表达式本文 还将二分类l o g i s t i c 回归模型的极大似然估计推广到多分类l o g i s t i c 回归模型,利用 向量拉直的方法将多分类l o g i s t i c 回归模型转化为二分类l o g i s t i c 回归模型,得到模 型参数的最小二乘估计 第三部分将病例对照下l o g i s t i c 回归模型的拟合优度检验方法应用于检验样本 是否来自某一已知分布在讨论四种检验统计量的功效时,不仅考虑正态分布, 同时涉及到指数分布、,分布,并探讨样本量m 及样本比例对功效的影响 关键词l o g i s t i c 回归模型;极大似然估计;最小二乘估计;病例对照 a b s t r a c t a b s t r a c t p a r a m e t e re s t i m a t i o na n da p p l i c a t i o nf o rl o g i s t i cr e g r e s s i o nm o d e l sh a v eb e e nm o r ep e r - f e c t l ys t u d i e d i nt h i sp a p e r , w ea n a l y s el o g i s t i cr e g r e s s i o nm o d e lb yg r o u p e dd a t a ,g e tt h el e a s t s q u a r e se s t i m a t o ro fb i n a r yl o g i s t i cr e g r e s s i o nm o d e l ,a n de x t e n dt h ep a r a m e t e re s t i m a t i o no f b i n a r yl o g i s t i cr e g r e s s i o nm o d e lt om u l t i n o m i a ll o g i s t i cr e g r e s s i o nm o d e l i na d d i t i o n t h e r ea r e m a n ya p p l i c a t i o n sf o rl o g i s t i cr e g r e s s i o nm o d e li ne c o n o m i c s ,m e d i c i n e ,f i n a n c ea n ds oo n , b u tf e ws t u d yi nt h e o r i e so fa p p l i c a t i o n w ea p p l yt h eg o o d n e s s o f - f i tt e s tf o rl o g i s t i cr e g r e s s i o n m o d e l sb a s e do nc a s e - c o n t r o ld a t at ot e s tw h e t h e ras a m p l ei sf r o mak n o w nd i s t r i b u t i o n t h ep a p e ri n c l u d e st h r e ep a r t s t h ef i r s tp a r ti n t r o d u c e st h eb a c k g r o u n da n dt h ed e v e l o p m e n t o fl o g i s t i cr e g r e s s i o nm o d e l s w ei n t r o d u c eb i n a r yl o g i s t i cr e g r e s s i o nm o d e la n dm u l t i n o m i a l l o g i s t i cr e g r e s s i o nm o d e l i nt h es e c o n dp a r t ,w ei n t r o d u c et h ep a r a m e t e re s t i m a t i o no fb i n a r yl o g i s t i cr e g r e s s i o n m o d e l ,a n a l y s eb i n a r yl o g i s t i cr e g r e s s i o nm o d e l sb yg r o u p e dd a t a , a n dd e r i v el e a s ts q u a r e se s t i m a t o rw h e ni n d e p e n d e n tv a r i a b l e sa r ei n t e g e r w ee x t e n dt h em a x i m u ml i k e h o o de s t i m a t i o no f b i n a r yl o g i s t i cr e g r e s s i o nm o d e lt om u l t i n o m i a ll o g i s t i cr e g r e s s i o nm o d e l ,c l a s s i f ym u l t i n o m i a l l o g i s t i cr e g r e s s i o nm o d e li n t ob i n a r yl o g i s t i cr e g r e s s i o nm o d e lb yv e c t o rr e a l i g n ,g e tt h el e a s t s q u a r e se s t i m a t o ro fm o d e l s i nt h et h i r dp a r t ,w ea p p l yt h eg o o d n e s s o f - f i tt e s tf o rl o g i s t i cr e g r e s s i o nm o d e l sb a s e d o nc a s e - c o n t r o ld a t at ot e s tw h e t h e ras a m p l ei sf r o mak n o w nd i s t r i b u t i o n w h e nd i s c u s s i n g t h ep o w e ro ff o u rt e s ts t a t i s t i c s ,w en o to n l yc o n s i d e rt h es t a n d a r dn o r m a ld i s t r i b u t i o n ,b u ta l s o c o n s i d e rt h ee x p o n e n t i a ld i s t r i b u t i o na n dt h e ,d i s t r i b u t i o n ,t h e nd i s c u s st h ei n f l u e n c eo ft h e s a m p l es i z e ”a n ds a m p l er a t i oo nt h ep o w e r k e y w o r d sl o g i s t i cr e g r e s s i o nm o d e l ;m a x i m u ml i k e l i h o o de s t i m a t i o n ;l e a s ts q u a r e se s t i m a - t i o n ;c a s e c o n 仃0 1 一一 q 。 j 目录 摘要 a b s t r a c t - 第1 章绪论 1 i 引言 1 2 预备知识 。 1 3 本文内容与结构 第2 章l o g i s t i c 回归模型的参数估计 2 1 二分类l o g i s t i c 回归模型的参数估计 2 2 多分类l o g i s t i c 回归模型的参数估计 2 3 实例应用研究 2 4 本章小结 第3 章l o g i s t i c 回归模型的应用理论 3 1 基本思想 , 3 2 半参数极大似然估计 3 3 基于k u l i b a c k l e i b l e r 熵距离型统计量 3 4 两种常见统计量 3 5 模拟研究 3 6 实例分析 3 7 本章小结 本文小结 参考文献 致谢 一i 一 _ 3 5 7 7 ” 侈 挖 筋 犸 m 筋 汐 汐 舛 弘 弱 铂 舢1 j l 第1 章绪论 1 1 引言 第1 章绪论 1 1 1 研究意义 在统计研究过程中,我们经常会遇到因变量为虚拟变量的情形,例如; 在医学研究中,生存与死亡、发病与未发病、阴性与阳性等结果的产生可能 与病人的年龄、性别、生活习惯等许多因素有关这时用线性回归模型的方 法对实际问题进行研究已经不再适用,而应用l o g i s t i c 回归模型则可同时分析 包含离散变量和连续变量的多个自变量,并能有效地分析自变量之间的交 互作用,为多个自变量与因变量之间的相互关系提供一个定量描述,从而弥 补了线性模型的不足 l o g i s t i c 回归模型不仅用于医疗卫生领域的研究,还应用于社会学、经济 学等各个领域例如研究学生龋齿严重程度与刷牙、饮食习惯、年龄等可能 的影响因素之间的关系;不同的婚姻状况与收入、心理状态和孩子数量间的 关系等等近年来,随着计算机技术的发展,统计软件的日益成熟使得l o g i s t i c 回归模型作为一种有效的数据处理方法被广泛应用,尤其被应用于医学、社 会调查、生物信息处理等领域 i i 2 研究背景 自m a l t h u s 提出生物总量增长定律后,v e r h u l s t ( 1 8 3 8 ) 1 】最早提出了l o g i s t i c 模型进入二十世纪以后,随着人口问题的再度尖锐,美国统计学家p e a r l 和 r e a d ( 1 9 4 0 ) 2 】重新发现了该模型,并将其应用于研究各国人口的变化情况近 年来,关于l o g i s t i c 的研究主要集中在以下几个方面: ( 1 ) 参数估计理论的研究 1 9 8 3 年,m cc u l l a g h 和n e l d e r ( 1 9 8 3 ) 3 】提出了l o g i s t i c 回归模型的极大似然估 计;随着半l o g i s t i c 分布的出现,b a l a k r i s h n a nn ( 1 9 9 1 ) 4 】等人又考虑了基于二型 北京工业大学理学硕士学位论文 截尾数据的半l o g i s t i c 分布的参数估计问题;2 0 0 1 年,k i n g 和z e n g ( 2 0 0 1 ) 5 】探 讨了如何对稀有事件l o g i s t i c 回归模型的参数进行校正;为扩大l o g i s t i c 回归模 型的应用范围,v e v i m i 与m t e n e n h a u s ( 2 0 0 5 ) 6 】提出用偏最d x - 乘回归法来估 计l o g i s t i c 模型的参数;随着计算机技术的发展及统计软件的日益成熟,韩俊 林、陈励( 2 0 0 5 ) 7 】探讨了如何运用e m 算法对随机效应l o g i s t i c 模型进行参数估 计随后,h o w a r d ( 2 0 0 7 ) s 对病例对照下l o g i s t i c 回归模型的参数估计进行了研 究 ( 2 ) 假设检验理论的研究 1 9 8 0 年,gh o s m e rd w 和l e m e s h o ws ( 1 9 8 0 ) 9 】研究出多元l o g i s t i c 分布的拟合 优度检验;随着多分类l o g i s t i c 模型的提出,b e g g 与g r a y ( 1 9 8 4 ) 1 0 】研究出一种 新的检验方法:将多分类l o g i s t i c 回归模型分解为一系列二分类l o g i s t i c 回归模 型,从而将多分类l o g i s t i c 回归模型的显著性检验问题转化为我们所熟悉的二 分类l o g i s t i c 回归模型的拟合优度检验;为评价多分类l o g i s t i c 回归模型,l e s a f f r e 与a l b e r t ( 1 9 8 9 ) 1 l 】提出多分类l o g i s t i c 模型的回归诊断,却由于其涉及过多的计 算方法而阻碍其推广;于是,p i g e o n 与h e y s e ( 1 9 9 9 ) 1 2 j 又对原有的几种检验方 法进行了修正;高歌、何露( 2 0 0 3 ) 1 3 】等人阐述了因变量为多分类有序变量时 l o g i s t i c 回归应用条件的,检验方法;2 0 0 6 年,张标( 2 0 0 6 ) 1 4 】研究了病例对照下 l o g i s t i c 回归模型的半参数极大似然估计的渐近性;2 0 0 7 年,a k g u p t a a ( 2 0 0 7 ) ”】 等人又探讨了多分类有序l o g i s t i c 回归模型的假设检验问题;在原有的二分 类l o g i s t i c 回归模型的拟合优度检验方法上,j e l l ej g o e m a n ( 2 0 0 6 ) 1 1 6 1 、m o r t e n w f a g e r l a n d ( 2 0 0 8 ) 1 7 】等人进一步讨论了多分类l o g i s t i c 的拟合优度检验问题 ( 3 ) l o g i s t i c 回归模型的应用 l o g i s t i c 回归模型理论成果的取得极大地推动了其在应用领域的发展1 9 3 0 年,s c h u l t z ( 1 9 3 0 ) i s 】用l o g i s t i c 曲线建立生物机体增长模型;随后,b e r k s o n ( 1 9 4 4 ) 1 9 】、 p l a c k e t ( 1 9 5 9 ) 2 0 】先后将l o g i s t i c 函数应用于计量生物学和生存分析;t r u e l t 2 第1 章绪论 j , c o n n i f i e l dj 和k a n n e lw 在j o u r n a lo f c h r o n i cd i s e a s e 上发表了冠心病危险 因素的研究,较早将l o g i s t i c 回归应用于医学领域;在国内,冯丽云( 2 0 0 2 ) 2 1 1 、 高歌( 2 0 0 3 ) 2 2 1 、项永兵( 2 0 0 5 ) 2 3 】等人将l o g i s t i c 回归模型应用于社会、经济、医 疗、卫生等各个领域 此外,赵宇东,刘嵘( 2 0 0 0 ) 2 4 等人探讨了多元l o g i s t i c 回归分析中共线性 诊断的评价指标,却未能提出如何处理共线性问题;在此基础上,郑伟,高 歌( 2 0 0 5 ) 2 5 】等人利用主成分分析处理l o g i s t i c 回归中共线性问题,并将此方法 应用于医学科研领域;随着主成分分析在l o g i s t i c 回归模型中的推广,a r i a m a g u i l e r a ( 2 0 0 6 2 6 1 ,2 0 0 8 2 7 1 ) 等人又利用主成分分析处理含有高维数据的l o g i s t i c 模型;随后,王全众( 2 0 0 7 ) 2 8 】针对l o g i s t i c 回归模型中具有相关关系的分类数 据进行了统计分析 然而,目前对于l o g s i t i c 回归模型的参数估计还有待完善,尤其是多分类 l o g i s t i c 回归分析的系统研究还不成熟,其在应用领域还有很大的发展空间 另外,在过去的几十年中,虽然l o g i s t i c 回归模型已经从一种特殊工具发展成 为许多领域都在使用的工具,还被广泛应用于人口问题、生存分析、医学等 各个领域,但人们对l o g i s t i c 回归模型的应用理论却研究很少 1 2 预备知识 1 2 1 二分类l o g i s t i c 回归模型 假设变量片表示某事件发生的可能性,当y ;大于某一临界值时,事件发 生,否则事件不发生不妨设临界值为0 ,当y i 0 时,记y i = l ;否贝l j y i = o 显然y i 为二值变量y i = l 表示事件发生,y 产。表示事件不发生如果假设在因变量 y ;与p 个自变量x l ,却之间存在一种线性关系,即:若令x i = ( 1 ,x i l ,一,柳p ) , 则存在参数向量卢= 慨,卢l 一,岛) 使得: 3 北京工业大学理学硕士学位论文 其中s f 为误差项,假设s ,服从标准l o g i s t i c 分布,则在给定p 个自变量x i l ,砀 时事件发生的概率为 地f - 1 = 研和+ e i o 】- p k 一工细= 以s ,铂2 百矛1 , 记尸( v i = l l x f ) = p i ,则 窖t a 2 再1 万七e x t p 显然我们关心的足p r 的取值以及影响p f 变化的因素,但是直接研究p i 存 在困难:一是p f 的取值只在区间 o ,1 】上变化,因此很难用简单的线性模型来 衡量p ,与自变量的关系;二是当p 。的取值接近0 或1 时,用一般的方法很难描 述和处理好a 的取值变化这时,若我们不研究刃,而研究p ,的一个单调函 数q = i n ( 亡) 显然,当p i ) z o - 1 时,q 的值在区间( 一,o o ) 上变化,这一 变换完全解决了以上两点困难,同时又简化了数据计算如果q 与自变量的 关系是线性的、二次的或多项式的,用最d x - - 乘估计就可以得到参数卢的估 计,从而由p f 与q 的反函数关系式中得到p ,与自变量的关系表达式,我们称 这一变换为l o g i t ( y ) 变换。 从而得到事件发生与不发生的概率之比l :彳卢,称其为事件发生比, 记作o d d s ,介于零和之间由此,得到l o g i s t i c 回归模型: l o g i t ( y ) 皇i n ( 尚) = 珈 ( 1 - 1 ) 1 2 2 多分类l o g i s t i c 回归模型 l o g i s t i c 回归比较常用的是因变量为二分类的情况,这也是比较简单的 一种形式但在现实中,因变量的分类经常多于两类,如疗效可能是无效、 显效、痊愈三类当然我们可以把其中两类进行合并,然后仍然按照二分类 l o g i s t i c 回归进行分析,但是合并的弊端足显而易见的,它可能损失一定的信 息,而多分类l o g i s t i c 回归模型则充分利用了完整的信息,可能提供更多的结 果 4 第1 章绪论 设多分类l o g i s t i c 回归模型中,因变量y 有c 个水平:0 ,c 一1 x l ,昂 为相应的p 个自变量记y 取_ ,时的概率p = p o = ,j = 0 ,c 一1 显然 p o + p l + + m 1 = 1 假设p 个自变量之间相互独立,则以y = 0 为基准因变量, 对于多分类因变量的l o g i s t i c 回归,可拟合如下c 个两分类l o g i s t i c 回归方程: 册= 。i x ) = 再面两了厕 p ( v 叫2 五百而 a m _ ( x ) 丽 ! 地= c 一2 再面赤_ 丽 p 缸一1 ( 曲 从而得: g a x ) = i n 篆器= , a j o 嗍 + 砌却( ,= 1 c - 1 ) ,( 1 - 2 ) 其中,乃= 蛳,助) 为对应的参数向量 1 3 本文内容与结构 l o g i s t i c 回归模型及其统计推断理论在生物、农业、经济、医疗等方面获 得了广泛的应用,本文主要对l o g i s t i c 回归模型的参数估计与应用理论加以完 善 本文第一部分足绪论,介绍了l o g i s t i c 回归模型的产生背景与发展现状, 并对两分类、多分类的l o g i s t i c 回归模型做了简单介绍;第二部分首先介绍 二分类l o g i s t i c 回归模型的极大似然估计,并用分组数据进行l o g i s t i c 回归分 析,推导出自变量为整数值时参数的最j 、- 乘估计表达式随后又将二分类 l o g i s t i c 回归模型的估计方法推广到多分类l o g i s t i c 回归模型,从而得到多分类 l o g i s t i c 回归模型的极大似然估计与最j 、- - - 乘估计;第三部分重点介绍l o g i s t i c 回归模型在病例对照领域的应用理论,并通过模拟将l o g i s t i c 回归模型的拟合 5 北京工业大学理学硕士学位论文 优度检验应用于检验样本是否来自某一已知分布,在讨论检验统计量的功效 时,不仅考虑正态分布,同时还涉及到指数分布、,分布,并探讨样本量聆 及样本比例对功效的影响: 6 第2 章l o g i s t i c 回归模型的参数估计 第2 章l o g i s t i c 回归模型的参数估计 l o g i s t i c 回归模型的参数估计方法有很多,如极大似然估计 2 9 1 、最小二乘 估计 3 0 , 3 1 、稳健估计( 2 0 0 8 3 2 1 ,2 0 0 9 1 3 3 1 ) 、b a y e s 估计( 2 0 0 8 ) 3 4 1 、带惩罚项的极大 似然估计( 2 0 0 7 ) 3 5 】等等,但使用最广的还是极大似然估计与最t j 、- _ 乘估计 本文给出了l o g i s t i c 回归模型极大似然估计的具体迭代算法,并用分组数据进 行l o g i s t i c 回归分析,得到其最小二乘估计 2 1 二分类l o g i s t i c 回归模型的参数估计 设y i 是一个二分类因变量,x l ,b 为相应的p 个自变量令x i = ( 1 ,x i l ,x i p ) ,卢= 0 3 0 ,卢l ,一,风) 为对应的参数向量,i = 1 ,刀则建立如 下l o g i s t i c 模型 l o g i t 地( 尚) = 如, ( 2 _ 1 ) 其中,舻e ( y i :l l x i ) :二 2 1 1 极大似然估计 由二分类l o g i s t i c 回归模型易得:参数卢= 0 3 0 ,卢l ,一,廓) 的似然函数为 1 0 3 ) = h f f ( 1 - p i ) 1 叻, f = l 其中,y i = o 或1 因而,对数似然函数为 1 , 0 3 ) = i n l 0 3 ) = 防和- i n ( 1 + 和) 】 由o j 彩_ 2 = o 得: 吲x i ( y i - p i ) _ 0 然而,上式是关于卢的非线性方程组,为此,需要采用迭代法来求解 在l o g i s t i c 回归模型中,我们采用n e w t o n - r a p h s o n 法 7 北京工业大学理学硕士学位论文 令s ,= y i p f ,v = p f ( 1 一p i ) ,取s = ( s l ,勘) ,v = d i a g ( ( v i ) ) 从而t 其中 警= 喜x 护m 舶, 一丽。砬l b s ) = 嘉隆) )一一 = 一l ,x “v ;一刀;i l 8 8 鄞急“i 。j1 一嘉( 和 础i j = e p f ( 1 一p f ) x i 写 = xv x , x = 1 x l l x 1 p 1 x 2 1 x 2 p 1 x 1 x n p 若迭代次数为屯则参数卢的极大似然估计为 伊= 伊一【( 游) - 1 学k ( 2 - 2 ) = 舻1 “啪一s ) k 妙 特别地,若要考察删除第g 组观测值后对回归模型的影响,则可建立如 下对数似然函数z l ( f 1 ) = i n l ( f 1 ) = 防x “( 1 + 和) 】 i = l ,口 8 t - 第2 章l o g i s t i c 回归模型的参数估计 o l ( b ) 筇 x i o ,- p j ) i = 1 ,f g n 乞x i o ,一p i ) 一x q ( y q p q ) 仨1 x s x q 曲, p ,( 1 一p z ) x i x : i = 1 ,i 幸q 一 p ,( 1 一p f ) x i x :一p q o p q ) x q x :i 则删除第q 组观测值后,参数的极大似然估计伊( g ) 如下: 伊曲= 矿1 神+ 蹦一峋x q x :i ) ( x s x q 曲) k 一( 2 - 3 ) 2 1 2 最小二乘估计 定理设用= p i + e i ,i n 焉= i n 止i - p j + 其中a 为预测概率,盆f - 1 一p i ,句,研均为 误差项若e i n ( o ,0 r 2 ) ,且e l ,相互独立,则近似地有g i 一,岛) 一( o ,矿) 其中 证明 = l n 上l 1 p i 1 1 口1 ) 2 0 0 0o 1 + 舞 1 一 柚南+ i n ( 1 + 一9 o 0 。甄) 2 上 l a 争t n ( 1 一南) 北京工业大学理学硕士学位论文 又由1 1 1 ( 1 + 蠹) = 毒+ 口( 舞) ,h a ( 1 一南) = 一南+ d ( 南) 可推出: 旬2p 拿i + 南p i 讹) = p 志p i ) 州n 1 一 f l j 一 由句n ( o ,o r 2 ) 易得:v a t ( s f ) 鬲岛近似有,( 钆,岛) 帆( o ,矿) 令z f = i n - 呷a - ,z = ( z l ,砀) 根据( 2 1 ) 式及定理的证明,可得: 轳x 一而e i 一。( 日) ,扛1 ,力 写成矩阵形式:z = 郑+ s ,其中,x 为关于自变量的设计阵,s = ( s 1 ,一,锄) 于足,参数3 的最小二乘估计为; 昼:c 灭7 一1 x 1 1 j ,一l z ( 2 4 ) 为方便起见,以下计算中不妨设= 厶: 例1 当二分类l o g i s t i c 回归模型中仅含有一个自变量x 且x 仅取整数值 时,若畦表示x = k ( k = 0 ,i 1 ) 时事件的发生数,愀表示自变量为工= | i 时 的样本数则: o ( f l o + 邸1 ) p k 圭础= l i 工= p2 舌丽 用频率估计概率,得a = 荽从而,l n 岛= l n 番则建立如下l o g i s t i c 回 归模型: ,。+ 1 1 1 砑y k = t o 邶- + 魏 因此,令孙皇l n 番= t o + 够l + “则: z o 乃一1 1o 记为:z = 邶+ s 则t 豳,声1 ) = x z 一l o 第2 章l o g i s t i c 回归模型的参数估计 在回归分析中,我们的主要兴趣在自变量对应的回归系数上,为此,常 常需要把它与常数项分开表示记:x = ( f ;局,f l , = 慨,卢1 ) ,其中,丑f 表示由i 个1 组成的i 维列向量,则模型可改写为 z = f l o 丑f4 - 邓l + s 声= k 堋1 ;z 纠 = 5 二篆i 翟谁纠 5 , = 【三嚣z ,i 僦) - 1 犯j 丘= 一 丑,丑:遘= o 1 : f 一1 = ( 掣卜掣,撕叫卜掣) = 一三( f 一1 ,f 一3 ,l d , 因此,冠丘= ;a 一1 ,1 一f ) ( f i ,1 一力= 堑氆业,嘏盛) 一1 = 丽硕1 2 而从而, 参数卢o ,卢1 的最小二乘估计为: p 卜嫩) - 1 舡= 石蒜( i - l , i - 3 , , 1 - i ) z 北京工业大学理学硕士学位论文 每:一一下i - - l6 z 1 p o = 一_ p 例2 当二分类l o g i s t i c 回归模型中含有两个自变量x i ,x 2 且x i ,砣仅取整 数值( x l = 0 ,i i i ;x 2 = 0 ,i 2 1 ) 时,呓也表示自变量x i = k l , x 2 = k 2 ( k l = 0 ,i l 一1 ;k 2 = 0 ,i 2 1 ) 时事件的发生数,n k 。k 2 表示x 1 = k l ,砣= 如时的样本 量则: p k l k 2 a _ p ( y = 1 i x t = k l , 砣= 如) = 丁_ e x 夏p ( 瓦f l o 酝+ 了k t 瓦f l l 瓦+ 了k z 丽f 1 2 ) 令铂屯= l n 二n k lk 生2 - - 瑶l l k 2 ,与例l 类似,构造l 。g i 鲥c 回归模型: 从而得: z 0 0 z o ( i 2 1 ) 1 虹= 3 0 + k f l l + k 2 p 2 + 鲰l 如, 1o0 廓 卢l 仍 + s o o 6 m f 2 一1 ) 记为:z = 郑+ s 从而得最小二乘估计:汹,声l ,皮) = 。1 y z 与例1 的推导类似,记:x = ( 丑晌! 两,= 慨,卢:) ,其中,1 i 。f 2 表示由i l l 2 个i 组成的f l 恐维列向量,则模型可改写为 z = 风讹+ 酾+ e 一1 2 j t r _ 第2 章l o g i s t i c 回归模型的参数估计 将x = ( 丑袖;两代入参数的最d x - - 乘估计表达式,并利用分块矩阵求逆公 式,有 il!h他l羔iii薹2x-l1只ili2zz】 卜嚣y 等 乞鬻z 】, ( 2 6 ) 这里;= ( 孚,豆) ,丘= 。i 2 1 1 娩:1 i 2 ) j r - 为简化计算,引入以下记号:五。如表 示f l 赴阶单位方阵,x 2 = ( o ,赴一1 ) ,k i 2 伥= o ,i l 1 ) 表示元素均为k 的i 2 维 列向量 宠= 眠j 2 1 f l 如丑f 丑i ) x = 面1 1 1 1 7f 7 1 1 1 1 2 r = ! l 业l 二1 2 、 2 如 i l i 2 - 1 1 1 i l i 2 1 一11 ( f t f 2 一巡p ) f 2 ( ( 如一1 ) i 1 2 一必p ) 砬 l 2 一l 一1 1 1 1 2 一 ( i l 一1 ) 2 f 2 ( i l 一3 ) 2 f 2 ( 1 一i l ) i 2 f 2 o 吐 1 吐 : ( f l 一1 ) j 2 x 2 其中,m f 2 = ( 掣l 赴一掣,( f 2 1 ) i l 吐一! 鸣曲) ,n i 2 = ( i 2 1 ,f 2 3 ,1 一 吐) 1 3 、l_ij, z吒岩 北京工业大学理学硕士学位论文 因此, 虢= 石1h - 1 k 1 引 ( i i 一1 ) i 2 2 ( 1 一i l ) i 2 n 2 州:f 弓一l = 5 5 【。 晒嗉旧身 代入( 2 6 ) 式,可得参数风,卢l ,3 2 的最小二乘估计为: 礼硝瑚恤惹i _ 耋 ( i l - 1 _ 1 - i l ) i 2 z , 岛:三一妻铀 依此类推:当- - y r 类l o g i s t i c 回归模型中含有k 个自变量x i ,x k 且自变 量仅取整数值 1 = 0 ,i l 一1 ;x k = 0 ,i k 一1 ) 时, 肌1 m 熹册旧,x k ) = e x p ( 3 0 + x j b j ) ,= j 1 + e x p ( 3 0 + 艺x j f l j ) j = l 将札,x k 按字典顺序排列,增广成设计阵x 令毛,拓51 n 百兰瓮i 构造 l o g i s t i c 回归模型z = 邵+ s 记:石= ( 丑小嘞;两,= 怖,群) ,其中,韭小吨表示由i l i k 个1 组成的i l 珏 维列向量,则模型可改写为:z = f l o l f 。瑶+ 褊+ s 将x = ( 丑f 1 噜! 两代入参数的最小二乘估计表达式,并利用分块矩阵求逆 公式,有 1 4 、l, l 0 一 丑匕 j t 1 第2 章l o g i s t i c 回归模型的参数估计 卢 = kil-t矗丑洲丑只11-引ikz 絮“( j 陶 l c x c ) - - 1 1 乞裟z 】, 这里;= ( 孚,孚) ,丘= 似珏一点丑f 1 咄0 珏遘 用数学归纳法可证明: 移 1 c2 一= ( i i 1 ) 豇忍 ( 1 一i l ) i k 壕 瞰) 一l = 而1 2 于是,参数的最d x - - 乘估计为; f 1 班 1 2 o 碍一 0 每l = 喀显了1 爻互1 f l o = 艺一主商i :艺一艺等台j ,- l 。 2 2 多分类l o g i s t i c 回归模型的参数估计 o 一1 ( 2 7 ) ( 2 8 ) ( 2 9 ) 设少是一个c 分类因变量,x i ,却为相应的p 个自变量令x i = ( 1 ,x i l ,x i p ) , 吩= 蛳,乃l 一,助) 为相应的参数向量, 口= ( 怖,口“) ,i = 1 ,万;,= 1 5 、l_llill-, z 峨 z,”只 丑 北京工业大学理学硕士学位论文 1 ,c 一1 记p 玎圭e ( y f - j l x i ) = 再而g 笔丽,其中,彩( 工) = x :嘭则c 分类的 l o g i s t i c 回归模型可转化为如下c 一1 个二分类l o g i s t i c 回归模型t g a x ) 乩矧= 筋嗍”+ 勘却,u 乩p 1 ) ( 2 - 1 0 ) 为方便起见,若y i = 上则令y q = 1 ,否则,令y q = 0 下面我们通过极大似然 法与最小二乘法得到参数略的估计岛 2 2 1 极大似然估计 由多分类l o g i s t i c 回归模型易得:参数嘭= 蛳,岛1 ,一,助) 的似然函数为 因而,对数似然函数为: nc - l ( 嘭) = 1 1 1 ,( 嘭) = 助1 n 助 括1j = o 不妨设y i = m , 贝 j y i m = l ,助= 吣= 0 一,优一1 ,卅+ l ,c 1 ) 由号等= 。得: 然而,上式中是关于吩的非线性方程组,为此,需要采用迭代方法来求 解在l o g i s t i c 回归模型中我们采用n e w t o n r a p h s o n 法 令s m = 1 一p 砌,= p i m ( 1 一p 拥) ,w i m t = p f m p 打m ,t = 1 ,c 一1 于是 s 。:( 趴,) ,v m :施以( ,) ) ,w m f - 妣硬( w 砌,) ) z m :硅五:嗽1 从而 掣= 扣刊础m , 1 6 一 彬 兀脚 。几m i i 助 q c = 所o = 孙 一 x 。矧 第2 章l o g i s t i c 回归模型的参数估计 其中 x2 1 x l l 。x l p 1 砣l 嘞 一裟= 弘”p 州= u = 瓴 t 朋时 一器= 喜胁p 鹕x ,= - = 乙厶, 记7 z = 一糯= 乙z 胂m = 珊) + 乙,( f 埘) ,其中i ( x ) 为示性函数 若迭代次数为屯由牛顿迭代法得:口的极大似然估计为 萨一 ( 韶) 一警k 。,( 2 - 1 1 , 其中,一瓣中每一元素为z ,z ,等= ( 馏,瓣) 特别地,若要考虑删除第g 组观测样本后对回归模型的影响,则可建立 如- i v 对数似然函数: 掣= ,毫。赋- 一倒s m - - x q 跏, 一恕- z ,z z a a 口f 一一q q 其中,一z q = 佩,( f = 朋) + w 俪t q m t x q i ( t 肌) 给定初值萨一,删除第q 组观测样 本后得到的极大似然估计亩h g ) 如下: 肚炉一a z z , ( 1 口) 3 。1 訾l 咖,( 2 - 1 2 ) 1 7 一vp h v “触 。一 = 以旷 k h = n p l 北京工业大学理学硕士学位论文 其中,瓣中每一元素为z ,z z ;z q ,警= ( 等, _ o 。u e - 1 ,) ) 2 2 2 最d x - - 乘估计 在( 2 一l o ) 式中,令刁= g a x ) ,设样本量为聆,将( 2 - l o ) 式写成矩阵形式: 因此, z u z 2 j : z j 刁1z 1 2 2 1 f i z 2 lz 2 2 2 2 c i z n z 盹z n c 一1 记为z = 邶将矩阵拉直得: xo 0 ox 0 o0 石 秘 母j 、 : j p 8 1 08 2 0 卢1 18 2 i 艮p8 2 p 卢1 侥 8 c 一1 8 c 一1 0 c 一1 1 8 c 一1 。p 其中:乃= q u ,z 2 j ,铆) ,励= q 3 j o ,乃l ,) ,= l ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 26年银发鼻饲护理实操考核标准课件
- 医学26年:困有所助要点解读 查房课件
- 26年基因检测卡脖子技术突破要点
- 20XX中学教师师德演讲稿:用爱铸就希望
- 淘宝代运营职业规划指南
- 手抄报设计模板
- 产品经理就业指导计划
- 预防口腔宣教
- 煤炭销售协议2026年意向版
- 西式厨师中级试卷及答案
- 人工智能 课件 第四章 进化算法和群智能算法
- 2025年高考语文备考之常考的修辞手法分类古诗文默写题(含答案)
- GB/T 6402-2024钢锻件超声检测方法
- 贵州省遵义市播州区2023届小升初数学试卷(含解析)
- QC工程图模板范本
- 广东工业大学线性代数试卷A卷1
- 职业教育心理学题库(附参考答案)
- 一元一次不等式组 名师获奖
- 0-3岁婴幼儿发展的一般规律及养育要点
- 新版公共政策概论
- SX-22163-QR114胜任力模型评估表
评论
0/150
提交评论