




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、逻辑回归模型作者:zgw21cn来源:博客园发布时间:2008-08-2917:21阅读:8993次原文链接收藏1 .逻辑回归模型1.1 逻辑回归模型考虑具有p个独立变量的向量”=(工心,),设条件概率?(y=11©=r为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为nF="用"孤刀)二国(1.1)上式右侧形式的函数称为逻辑函数。下图给出其函数图象形式。其中以幻=4+瓶十月1/月。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有6田二用4月。*4二边&¥*修,-(1.2)定义不
2、发生事件的条件概率为(1.3)那么,事件发生与事件不发生的概率之比为(1.4)这个比值称为事件的发生比(theoddsofexperiencinganevent),0Vp<1,故odds>0。对odds取对数,即得到线性函数,简称为odds。因为依可-j;一息一伊七+2j亳Q-d:1r二(1.5)1.2极大似然函数假设有n个观测样本,观测值分别为丹6,必,设%=为给定条件下得到%=1的概率。在同样条件下得到期二0的条件概率为F3=0l)=Pio是,得到一个观测值的概率为(1.6)因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。(二立孤铲口-现哂53-1(1.7)上式
3、称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数,使上式取得最大值。对上述函数求对数H=用,苴=£卜*:讳1nF问:一au-c、M(1.8)的值。(Newton-Raphson)方法上式称为对数似然函数。为了估计能使H.图取得最大的参数对此函数求导,得到p+1个似然方程。1%肉即川WMMf£从一一.再-&小一口.IH&r(1.9)4I,为g一夕,j=1,2,.,p.上式称为似然方程。为了解上述非线性方程,应用牛顿-拉斐森进行迭代求解。1.3牛顿拉斐森迭代法对l(用求二阶偏导数,即Hessian
4、矩阵为(1.10)如果写成矩阵形式,以H表示Hessian矩阵,X表示1或口'''*1芋1羯三产U=.8«则H=¥?比。再令I?9】“似然方程的矩阵形式。得牛顿迭代法的形式为M-玛-4勺(注:前一个矩阵需转置),即(1.13)注意到上式中矩阵H为对称正定的,求解在7,即为求解线性方程HX=U中的矩阵X。对H进行cholesky分解。最大似然估计的渐近方差(asymptoticvariance)和协方差(covariance)可以由信息矩阵(informationmatrix)的逆矩阵估计出来。而信息矩阵实际上是*(均二阶导数的负L=1值,表示为吗见。
5、估计值的方差和协方差表示为女士广,也就是说,估计值4的方差为矩阵I的逆矩阵的对角线上的值,而估计值目和区的协方差为除了对角线以外的值。然而在多数情况,我们将使用估计值科的标准方差,表示为的),碗.=0,1,2,口Ji2.显著性检验卜面讨论在逻辑回归模型中自变量4'是否与反应变量显著相关的显著性检验。零假设方。:思=0(表示自变量工工对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发生可能性依赖于工工的变化。1 Waldtest对回归系数进行显著性卞验时,通常使用Wald检验,其公式为*他./瓯通开(2.1)其中,S以即为鸟的标准误差。这个单变量Wald统计量服从自由度等于1的比
6、1分布。如果需要检验假设%用=玛=凡=0,计算统计量其中,"为去掉耳所在的行和列的估计值,相应地,田颐产)为去掉鸟所在的行和列的标准误差。这里,Wald统计量服从自由度等于p的泥分布。如果将上式写成矩阵形式,有用二(。的。9欣(2.3)0162=矩阵q是第一列为零的一常数矩阵。例如,如果检验自二向二°,则L0°L。然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致Wald统计值变得很小,以致第二类错误的概率增加。也就是说,在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时,就不再用Wald统计值来检验零假设,而应该使用似
7、然比检验来代替。似然比(Likelihoodratiotest)检验在一个模型里面,含有变量不与不含变量三的对数似然值乘以-2的结果之差,服从,分布。这一检验统计量称为似然比(likelihoodratio),用式子表示为不含再似然含有4似然(2.4)计算似然值采用公式(1.8)。倘若需要检验假设“口:A=A=-=.=0,计算统计量(2.5)321#国K皿I-KT-r*Jii.itjf4啕上式中,叱表示3=0的观测值的个数,而为表示再=1的观测值的个数,那么n就表示所有观测值的个数了。实际上,上式的右端的右半部分+性底与)-题呵叨表示只含有鸟的似然值。统计量G服从自由度为p的片分布Score检
8、验在零假设%:耳=0下,设参数的估计值为为1,即对应的尾=0。计算Score统计量的公式为(2.6)上式中,"(玲)表示在e=0下的对数似然函数(1.9)的一价偏导数值,而葭%,)表示在耳=0下的对数似然函数(1.9)的二价偏导数值。Score统计量服从自由度等于1的下分布。模型拟合信息模型建立后,考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。(1)-2LogLikelihood】II-=一?乙|月-(1-Z'(2.7)Akaike信息准则(AkaikeInformationCriterion,简写为AIC)-二L(28)其中K为模型中自变量的数目,S为反应变量
9、类别总数减1,对于逻辑回归有S=2-1=1。-2LogL的值域为0至其值越小说明拟合越好。当模型中的参数数量越大时,似然值也就越大,-2LogL就变小。因此,将2(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下,较小的AIC值表示拟合模型较好。(3)Schwarz准则这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC指标的定义为;('-,':*(29)其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时,一个模型的AIC或SC值越小说明模型拟合越好。.回归系数解释发生比.%+与+”,*户
10、*¥加odds=p/(1-p)一厉,即事件发生的概率与不发生的概率之比。而发生addSiOR=-oddsj比率(oddsration),即(1)连续自变量。对于自变量,每增加一个单位,oddsration为OR=_出(3.1)(2)二分类自变量的发生比率。变量的取值只能为0或1,称为dummyvariable。当工工取值为1,对于取值为0的发生比率为,*#*!*,班.,卜0P=1产厂户产产%",洪/Ep(3.2)亦即对应系数的哥。(3)分类自变量的发生比率。如果一个分类变量包括m个类别,需要建立的dummyvariable的个数为m-1,所省略的那个类别称作参照类(refe
11、rencecategory)。设dummyvariable为丁工,其系数为息,对于参照类,其发生比率为由离。逻辑回归系数的置信区间对于置彳t度1-值,参数片的100%(1-民)的置信区间为露土2小%,3(3.3)上式中,*为与正态曲线下的临界Z值(criticalvalue),缸为系数估计取的港一7ctkS4r瓦+工a乂'富品标准误差,5和1'两值便分别是置信区间的下限和上限。当样本较大时,值=0.05水平的系数四的95%置信区间为入±1.96乂5出办(3.4).变量选择前向选择(forwardselection):在截距模型的基础上,将符合所定显著水平的自变量一次一
12、个地加入模型。具体选择程序如下(1)常数(即截距)进入模型。(2)根据公式(2.6)计算待进入模型变量的Score检验值,并得到相应的P值。(3)找出最小的p值,如果此p值小于显著T水平,则此变量进入模型。如果此变量是某个名义变量的单面化(dummy)变量,则此名义变量的其它单面化变理同时也进入模型。不然,表明没有变量可被选入模型。选择过程终止。(4)回到(2)继续下一次选择。后向选择(backwardselection):在模型包括所有候选变量的基础上,将不符合保留要求显著水平的自变量一次一个地删除。具体选择程序如下(1)所有变量进入模型。(2)根据公式(2.1)计算所有变量的Wald检验值
13、,并得到相应的p值。(3)找出其中最大的p值,如果此P值大于显著性水平%或,则此变量被剔除。对于某个名义变量的单面化变量,其最小p值大于显著性水平R旭,则此名义变量的其它单面化变量也被删除。不然,表明没有变量可被剔除,选择过程终止。(4)回到(2)进行下一轮剔除。逐步回归(stepwiseselection)(1)基本思想:逐个引入自变量。每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中既不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。(2)筛选的步骤:首先给出引入变量的显著性水平%和剔除变量的显著性水平必,然后按下
14、图筛选变量。(3)逐步筛选法的基本步骤逐步筛选变量的过程主要包括两个基本步骤:一是从不在方程中的变量考虑引入新变量的步骤;二是从回归方程中考虑剔除不显著变量的步骤。假设有p个需要考虑引入回归方程的自变量.设仅有截距项的最大似然估计值为心口。对p个自变量每个分别计算Score检验值,设有最小p值的变量为乙1,且有,对于单面化(dummy)变量,也如此。若Pm<%,则此变量进入模型,不然停止。如果此变量是名义变量单面化(dummy)的变量,则此名义变量的其它单面化变量也进入模型。其中值加为引入变量的显著性水平。为了确定当变量工”在模型中时其它p-1个变量也是否重要,将=,=色分别与x打进行拟合。对p-1个变量分别计算Score检验值,其p值设为"1。设有最小p值的变量为工口,且有心二训).若上<4,则进入下一步,不然停止。对于单面化变量,其方式如同上步。此步开始于模型中已含有变量%与飞。注意到有可能在变量%被引入后,变量%不再重要。本步包括向后删除。根据(2.1)计算变量x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 疾病演变过程
- 关于各种协议书范本4篇
- 西交机械设计基础
- 职工聘用标准合同2篇
- 儿童乐园承包合同4篇
- T/ZHCA 016-2022化妆品舒缓功效评价斑马鱼幼鱼中性粒细胞抑制率法
- 2025西安交通工程学院辅导员考试试题及答案
- 2025焦作工贸职业学院辅导员考试试题及答案
- 2025福建农业职业技术学院辅导员考试试题及答案
- 新生儿标本采集规范与实施
- 2023-2024学年人教版八年级下册数学期末复习试题
- 2024年地理中考重点综合题答题模板
- 卒中中心宣教管理制度
- 2023年高考语文试卷及答案(浙江卷)
- 2023年一般行业安全负责人和安全员考试题库
- 《水电水利工程施工监理规范》
- 汽车租赁服务投标方案(技术方案2)
- 工作场所有害因素职业接触限值-第2部分-物理因素
- 普通家庭装修预算表(全面细致)
- 畜牧业的动物福利与保护
- 售后常见问题以及处理方法分解课件
评论
0/150
提交评论