付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章非线性回归:二元Logistic 回归教育程度X1X2X3小学:1100初中:2010高中:3001大学:4000以大学作为参照为什么使用 logistic 回归在许多实际问题中,经常遇到非数值型因变量。比如:二分类:青少年是否在学、成功或失败、健康或不健康多个有序分类:上等社会地位,中等社会地位,下等社会地位多个无序分类:单身,目前在婚,离婚,寡居线性回归模型不合适。相反,当因变量为分类变量时,必须使用其它回归分析方法可用于处理分类因变量的统计分析方法有:判别分析(Discriminant analysis)、Probit 分析、Logistic 回归分析和对数线性模型等在社会科学中,
2、应用最多的是Logistic回归分析Logistic的分类由于因变量(DV)取值的不同,logistic又可分为binary logisticordered logistic(秩序logistic)multinomial logistic (多分类logistic)当DV为虚拟变量时(即0,1分类),使用binary logistic当因变量为有序分类时(如上等社会地位,中等社会地位,下等社会地位),采用ordered logistic模型当DV为无序多分类变量时,采用multinomial 模型这里只介绍一般的二分类(Binary)logistic模型,简称Logistic 回归 Logis
3、tic回归的基本原理(I)Logistic回归分析是对因变量为定性变量的回归分析。非线性概率回归模型其基本特点是:因变量必须是二分类变量,若令因变量为y,则常用y1表示“yes”,y0表示“no”在在学与不在学的对照研究中,分别表示在学和对照组不在学自变量可以为分类变量,也可以为连续变量Logistic回归的基本原理(II)从模型角度出发,把事件发生的情况定义为Y=1,事件未发生的情况定义为Y=0,这样取值为0、1 的因变量可以写为:比如,若因变量为是否在学,则最终的可能性只有两个:要么在学(事件发生),要么不在学(事件没发生):Logistic回归的基本原理(III)可采用多种方法对取值为0
4、、1 的DV进行分析(如:%或比例)通常以p 表示事件发生的概率(事件未发生的概率为1-p),并把p 看作自变量Xi 的线性函数变量是否在学有两个取值,1=在学;0=否,则简单的回归模型为:由于y是0-1型baloni 分布,故有如下概率分布:基本概念事件发生的概率 =p =p(y=1|x)事件不发生的概率=1-p=1-p(y=1|x)=p(y=0|x)发生比(odds)=Odds:相对风险(relative risk),事件发生的概率与不发生的概率之比对数发生比(log odds)=也是事件发生概率p的一个特定函数。通过Logistic转换,该函数可以写成Logistic回归的logit模型
5、:Logit变换(对数单位转换)logit:“逻辑斯蒂概率单位”logistic probability unit 存头取尾的缩写,logit p 可以称为“p的逻辑斯蒂概率单位”或简称为“逻辑斯蒂 p”logit p一方面表达出它是事件发生概率p的转换单位;另一方面它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归中的模式Logistic回归模型(I)Logistic回归模型(II)OROdds Ratio参数估计最大似然估计法 (Maximum likelihood estimate)似然函数:L=Pi 对数似然函数: lnL=(ln P)=ln P1+ln P2+ln Pn
6、非线性迭代方法Newton-Raphson法参数检验:-2LL(I)-2对数似然值(-2 log likelihood,-2LL):数值越小越好似然(likelihood)即概率,由自变量观测值预测因变量观测值的概率与任何概率一样,似然的取值范围在0、1 之间对数似然值(log likelihood,LL)是其自然对数形式由于取值范围在0,1之间的数的对数值为负数,所以对数似然值的取值范围在0 至-之间对数似然值通过最大似然估计的迭代算法计算参数检验:-2LL(II)因为-2LL 近似服从卡方分布,且在数学上更为方便,所以-2LL 可用于检验Logistic 回归的显著性-2LL 反映了在模型
7、中包括了所有自变量后的误差,用于处理因变量无法解释的变异部分的显著性问题,又称为拟合劣度卡方统计量(Badness-of-fit Chi-square)当-2LL 的实际显著性水平大于给定的显著性水平时,因变量的变异中无法解释的部分是不显著的,意味着回归方程的拟合程度越好Logistic回归系数的意义从数学上讲,与多元线性回归分析中回归系数的解释并无不同:bi表示xi改变一个单位时, logit P的平均变化量Logistic回归中的常数项(b0)表示,在不接触任何潜在危险保护因素条件下,因变量发生与不发生事件的概率之比的对数值Logistic回归中的回归系数( bi )表示,某一因素改变一个
8、单位时,因变量发生与不发生事件的概率之比的对数变化值,即OR的对数值Logistic回归分析的基本命令. logit y x1 x2 : 二元非线性回归的基本命令参数,输出回归系数: 参与回归分析的变量,y为因变量,x1和x2为自变量. logistic y x1 x2 : 二元非线性回归的基本命令参数,输出发生比. xi: logit enroll age girl i.sibs if age12i.sibs _Isibs_0-2 (naturally coded; _Isibs_0 omitted)Iteration 0: log likelihood = -361.07032Iterat
9、ion 1: log likelihood = -315.29173Iteration 2: log likelihood = -311.064Iteration 3: log likelihood = -310.99469Iteration 4: log likelihood = -310.99464Logistic regression Number of obs = 789 LR chi2(4) = 100.15 Prob chi2 = 0.0000Log likelihood = -310.99464 Pseudo R2 = 0.1387- enroll | Coef. Std. Er
10、r. z P|z| 95% Conf. Interval-+- age | -.7678598 .0877037 -8.76 0.000 -.9397559 -.5959637 girl | .197315 .2112009 0.93 0.350 -.2166311 .6112611 _Isibs_1 | -.214453 .2296539 -0.93 0.350 -.6645664 .2356604 _Isibs_2 | -.8062853 .397851 -2.03 0.043 -1.586059 -.0265118 _cons | 13.41728 1.39888 9.59 0.000
11、10.67553 16.15903-Log likelihood即对数似然值,乘以2即为-2LL,是模型的估计方法。在进行逐步回归时,通过比较不同模型的-2LL,判断模型的适应程度取值越小,模型的适应性越好取值越大,模型的效果越差LR chi2(4)即为卡方检验统计量,Probchi2是其p值LR chi2为回归模型无效假设( 即所有协变量的发生比均为1)所对应的似然比检验量(其自由度为协变量个数的卡方) 它们与线性回归的F统计量和其p值的功能大体一致0.0000数值表明,该模型是显著的统计量Pseude R2是伪决定系数R2。虽不完全等于R2,但大致提供模型中自变量对因变量变异的解释能力Co
12、ef.是每个自变量对应的系数估计值。在logistic回归分析中,该系数为对数;Std. Err.即系数相应的标准误;OLS通过t检验来判断自变量对因变量的影响是否显著,logistic模型使用z检验来达到该目的z是单个系数检验的统计量;P|z|是系数检验的p值最后一列为系数95%的置信区间但是,由于系数为对数,不能像线性回归系数那样进行直接解释。需要将其利用上述公式转换为风险比后,系数才有更明确的意义。若否,则不能直接将系数解释为自变量对因变量的影响程度比如,年龄是数值变量。随着年龄的增长,孩子在学的概率显著降低,但我们不能将系数解释为“孩子的年龄每增加一岁,在学概率降低76.79%”事实上
13、,我们并不知道年龄对在学概率的影响程度,虽然我们知道其影响性质和显著水平。对变量girl来说,女孩的在学概率高于男孩,不知道二者的差别有多大但可以使用发生比(OR)来解释. xi: logistic enroll age girl i.sibs if age12i.sibs _Isibs_0-2 (naturally coded; _Isibs_0 omitted)Logistic regression Number of obs = 789 LR chi2(4) = 100.15 Prob chi2 = 0.0000Log likelihood = -310.99464 Pseudo R2 = 0.1387- enroll | Odds Ratio Std. Err. z P|z| 95% Conf. Interval-+- age | .4640051 .040695 -8.76 0.000 .3907232 .5510313 girl | 1.218128 .2572696 0.93 0.350 .805227 1.842754 _Isibs_1 | .8069827 .1853267 -0.93 0.350 .5144966 1.265744 _Isibs_2 | .4465136 .17
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年春季新疆塔城地区事业单位急需紧缺人才引进50人备考题库带答案详解(培优a卷)
- 2026甘肃武威古浪县海子滩镇中心卫生院招聘2人备考题库及一套答案详解
- 2026湖南益阳市市直医疗卫生单位招聘及引进紧缺(急需)专业人才39人备考题库含答案详解(考试直接用)
- 2026广西梧州市龙圩区招(补)录城镇公益性岗位人员11人备考题库含答案详解(巩固)
- 2026渤海银行武汉分行社会招聘备考题库附参考答案详解(培优b卷)
- 2026江西省江投老年医养有限公司招聘9人备考题库附参考答案详解(完整版)
- 2026青海黄南州泽库县藏医院编外医务科人员招聘1人备考题库附答案详解(基础题)
- 2026年银行招聘过关检测试卷【考点精练】附答案详解
- 2026年交通技术职称考前冲刺测试卷含完整答案详解(夺冠系列)
- 2026年国开电大环境水利学形考必刷200题附参考答案详解【达标题】
- 2026上半年安徽黄山市休宁城乡建设投资集团有限公司及权属子公司招聘18人备考题库参考答案详解
- 《原发性肝癌诊疗指南(2026年版)》解读与临床实践
- 充电电池热失控冷却降温技术应用 (课件)
- 江西省重点中学协作体2026届高三2月第一次联考地理试卷
- 小学科学新教科版二年级下册1.1.恐龙的故事 练习题(附参考答案和解析)2026春
- 华为企业员工守则(完整版)
- 粤剧脸谱课件
- 【《环介导恒温扩增技术(LAMP)发展研究国内外文献综述》5400字】
- 儿童青少年体能场馆设施要求
- DB11-T 1904-2021 剧毒、易制爆危险化学品电子追踪管理规范
- 2025集装箱式数据中心模块化部署与边缘计算节点建设规划研究报告
评论
0/150
提交评论