


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、逻辑回归统计量算作者:日期:逻辑回归模型作者:zgw21cn 来源:博客园发布时间:2008-08-29 17:21 阅读:8993 次原文链接收藏1.逻辑回归模型1.1逻辑回归模型考虑具有p个独立变量的向量"1 ' : ' -八,设条件概率;J - I - 匸为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为二1 |易二吧町二1十严(1.1)上式右侧形式的函数称为逻辑函数。下图给出其函数图象形式。其中-'''1' °如果含有名义变量, 则将其变为dummy 变量。一个具有k个取值的名义变量,将变为 k-1个dummy
2、变量。这样,有-> (1.2 )定义不发生事件的条件概率为(1.3 )那么,事件发生与事件不发生的概率之比为这个比值称为事件的发生比(the odds of experie ncing an event),简称为odds。因为0<p<1,故odds>0 。对odds取对数,即得到线性函数,r-(1.5 )1.2极大似然函数假设有n个观测样本,观测值分别为设八:-1 为给定条件下得到的概率。在同样条件下得到乩=°的条件概率为= °I兀)=1 -凸。于是,得到一个观测值的概率为(1.6)因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。代何
3、二口亦屮1-砥硏严(1.7 )上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数:,使上式取得最大值。对上述函数求对数 ( 1.8)的值。(Newt on-Raphso n)方法上式称为对数似然函数。为了估计能使二取得最大的参数 对此函数求导,得到 p+i个似然方程。"E'_,(1.9 )”L:讣屮-)=1,2,上式称为似然方程。为了解上述非线性方程,应用牛顿-拉斐森 进行迭代求解。1.3 牛顿-拉斐森迭代法对;-'求二阶偏导数,即 Hessian 矩阵为科一护(5)2竺包=一另&兀兀Q- %
4、)(1.10)如果写成矩阵形式,以H表示Hessian矩阵,X表示x=(1.11 )(1.12 )则。再令似然方程的矩阵形式。(注:前一个矩阵需转置),即得牛顿迭代法的形式为吧"-LU( 1.13)注意到上式中矩阵H为对称正定的,求解-即为求解线性方程HX = U中的矩阵X。对H进行cholesky 分解。最大似然估计的渐近方差(asymptotic varianee )和协方差(covarianee)可以由信息矩阵(information matrix)的逆矩阵估计出来。而信息矩阵实际上是二阶导数的负值,表示为m。估计值的方差和协方差表示为J r - 一 ',也就是说,估计
5、值'的方差为矩阵I的逆矩阵的对角线上的值,而估计值二和的协方差为除了对角线以外的值。然而在多数情况,我们将使用估计值、的标准方差,表示为for j=0,1,2.,p (1.14 )2 .显著性检验下面讨论在逻辑回归模型中自变量是否与反应变量显著相关的显著性检验。零假设,X-: ':' = 0 (表示自变量 6对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发 生可能性依赖于"的变化。2.1 Wald test对回归系数进行显著性检验时,通常使用Wald检验,其公式为用"和脸&历(2.1)其中,为- 的标准误差。这个单变量 Wald统计
6、量服从自由度等于1的 卅 分布。如果需要检验假设 兀:冷"0,计算统计量册列帥站(励(2.2)执二* 気久其中,”为去掉I所在的行和列的估计值,相应地,厂 为去掉所在的行和列的标准误差。这里, Wald统计量服从自由度等于 p的记分布。如果将上式写成矩阵形式,有殛"0却0啦(戲OT(。(2.3 )0 1 0Q =矩阵q是第一列为零的一常数矩阵。例如,如果检验A = A = °,则 也 ° L。然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致Wald统计值变得很小,以致第二类错误的概率增加。也就是说,在实际上会导致应该拒绝零假设时却未
7、能拒绝。所以当发现回归系数的绝对值很大时,就不再用 Wald统计值来检验零假设,而应该使用似然比检验来代替。2.2 似然比(Likelihood ratio test )检验在一个模型里面,含有变量'与不含变量心的对数似然值乘以-2的结果之差,服从 分布。这一检验统计量称为似然比(likelihood ratio),用式子表示为不含加似然 含有吗似然(2.4 )计算似然值采用公式(1.8 )。倘若需要检验假设'-:= 0,计算统计量- y. 'b-|jh* j-h jCh.hm杖 1(2.5 )上式中,表示= 0的观测值的个数,而表示=1的观测值的个数,那么 n就表 示
8、所有观测值的个数了。实际上,上式的右端的右半部分1 ' ' : '' ' 1 : : ; 表示只含有的似然值。统计量 G服从自由度为p的分布2.3 Score 检验在零假设一:第=0下,设参数的估计值为 八' ,即对应的二=0。计算Score统计量的公式为(2.6 )上式中, -':表示在;=0下的对数似然函数(1.9 )的一价偏导数值,而:1表示在'' =0下的对数似然函数(1.9 )的二价偏导数值。Score统计量服从自由度等于1的分布。2.4 模型拟合信息模型建立后,考虑和比较模型的拟合程度。有三个度量值可作为拟合的
9、判断根据。(1) -2LogLikelihood1TJ*(2.7) Akaike信息准则(Akaike In formation Criterio n,简写为 AIC )A1C = -2LogL + 2(K+S) (2(2。丿其中K为模型中自变量的数目,S为反应变量类别总数减1,对于逻辑回归有 S=2-仁1。-2LogL的值域为0至,其值越小说明拟合越好。当模型中的参数数量越大时,似然值也就越大,-2LogL就变小。因此,将2(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下,较小的AIC值表示拟合模型较好。(3)Schwarz 准则这一指标根据自变量数目和观测数量对-
10、2LogL值进行另外一种调整。SC指标的定义为sc = -2LogL + 巡+曲恤仪)(2.9)其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在 其它条件相同时,一个模型的AIC或SC值越小说明模型拟合越好。3.回归系数解释3.1发生比odds=p/(1-p)即事件发生的概率与不发生的概率之比。而发生比率(odds ration),odds.(1) 连续自变量。对于自变量 1,每增加一个单位,odds ration 为OR =二/(3.1) 二分类自变量的发生比率。变量的取值只能为 0或1 ,称为dummy variable 。当"飞取值为1,对于
11、取值为0的发生比率为r)i> - ET二沁(3.2)亦即对应系数的幕。(3)分类自变量的发生比率。如果一个分类变量包括 m个类别,需要建立的dummy variable 的个数为m-1,所省略的 那个类别称作参照类 (referenee category) 。设dummy variable 为工',其系数为, 对于参照类,其发生比率为 -,'1。3.2逻辑回归系数的置信区间对于置信度1-匚,参数-的100%(1 - X )的置信区间为1(3.3 )2小上式中,二为与正态曲线下的临界乙值(critical value ), 几 为系数估计,;的A _兀丈£貝丸 庇
12、+乙标准误差,j'和-'两值便分别是置信区间的下限和上限。当样jA.本较大时,二=0.05水平的系数的95%置信区间为瓦±】.96玄隅-(3.4 )4.变量选择4.1前向选择(forward selection ):在截距模型的基础上,将符合所定显著水平的自变 量一次一个地加入模型。具体选择程序如下(1 )常数(即截距)进入模型。(2 )根据公式(2.6 )计算待进入模型变量的Score检验值,并得到相应的P值。(3) 找出最小的p值,如果此p值小于显著性水平,则此变量进入模型。如果此变量 是某个名义变量的单面化 (dummy)变量,则此名义变量的其它单面化变理同时也
13、进入模型。不然,表明没有变量可被选入模型。选择过程终止。(4) 回到(2)继续下一次选择。4.2后向选择(backward selection ):在模型包括所有候选变量的基础上,将不符合保 留要求显著水平的自变量一次一个地删除。具体选择程序如下(1) 所有变量进入模型。(2) 根据公式(2.1 )计算所有变量的 Wald检验值,并得到相应的p值。(3) 找出其中最大的p值,如果此P值大于显著性水平,则此变量被剔除。对于某个名义变量的单面化变量,其最小p值大于显著性水平'上,则此名义变量的其它单面化变量也被删除。不然,表明没有变量可被剔除,选择过程终止。(4) 回到(2)进行下一轮剔除
14、。4.3 逐步回归(stepwise selection)(1) 基本思想:逐个引入自变量。每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中既不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。(2) 筛选的步骤:首先给出引入变量的显著性水平和剔除变量的显著性水平',然后按下图筛选变量。、一丰杳靈幵/A: A-I弭山左I广気/ 2审谛賀E |(3) 逐步筛选法的基本步骤逐步筛选变量的过程主要包括两个基本步骤:一是从不在方程中的变量考虑引入新变量的步骤;二是从回归方程中考虑剔除不显著变量的步骤。假设有p个需要考虑引
15、入回归方程的自变量. 设仅有截距项的最大似然估计值为。对p个自变量每个分别计算Score检验值,设有最小p值的变量为 J,且有-"'门,对于单面化(dummy) 变量,也如此。若水二" 则此变量进入模型,不然停止。如果此变量是名义变量单面化(dummy)的变量,则此名义变量的其它单面化变量也进入模型。其中上为引入变量的显著性水平。 为了确定当变量 、一在模型中时其它p-1个变量也是否重要, 将' -:'''分别与-进行拟合。对p-1个变量分别计算 Score检验值,其p值设为。设有最小p 值的变量为 ,且有二二二.若仁一 ' ' ,则进入下一步,不然停止。对于单面化变量,其方式如同上步。 此步开始于模型中已含有变量飞一与'。注意到有可能在变量 '亠被引入后,变量不再重要。本步包括向后删除。 根据(2.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省广元市朝天区五校联考2026届数学八年级第一学期期末调研模拟试题含解析
- 广东省珠海香洲区四校联考2026届数学七上期末联考试题含解析
- 低碳环保产业中的新热点:生物质能源产业的多元化发展策略
- 物流行业新员工上岗前必读培训指南
- 情绪管理零食行业趋势预测报告
- 山东省济宁兖州区七校联考2026届数学八上期末质量跟踪监视模拟试题含解析
- 中国银行十堰市房县2025秋招英文面试20问及高分答案
- 工商银行包头市青山区2025秋招英文群面案例角色分析
- 邮储银行安康市汉滨区2025秋招笔试会计学专练及答案
- 中国银行张家口市蔚县2025秋招笔试会计学专练及答案
- 2025至2030中国室内农业行业产业运行态势及投资规划深度研究报告
- ktv股东股权协议书
- 继承放弃房产协议书
- 儿童支气管哮喘诊断与防治指南(2025)解读 课件
- 2025年中级银行从业资格之中级公司信贷模拟考试试卷A卷含答案
- 2025年春初中地理七年级下册人教版教案设计 第九章第二节 第2课时
- 数据库应用技术-第三次形考作业(第10章~第11章)-国开-参考资料
- AIGC基础与应用第6章-AIGC造就绘画大师
- 【拆书阅读笔记】-《复盘》
- 媒介素养概论 课件 第0-2章 绪论、媒介素养、媒介素养教育
- 职工三级安全教育卡模版
评论
0/150
提交评论