已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章非线性回归 二元Logistic回归 以大学作为参照 为什么使用logistic回归 在许多实际问题中 经常遇到非数值型因变量 比如 二分类 青少年是否在学 成功或失败 健康或不健康多个有序分类 上等社会地位 中等社会地位 下等社会地位多个无序分类 单身 目前在婚 离婚 寡居线性回归模型不合适 相反 当因变量为分类变量时 必须使用其它回归分析方法可用于处理分类因变量的统计分析方法有 判别分析 Discriminantanalysis Probit分析 Logistic回归分析和对数线性模型等在社会科学中 应用最多的是Logistic回归分析 Logistic的分类 由于因变量 DV 取值的不同 logistic又可分为binarylogisticorderedlogistic 秩序logistic multinomiallogistic 多分类logistic 当DV为虚拟变量时 即0 1分类 使用binarylogistic当因变量为有序分类时 如上等社会地位 中等社会地位 下等社会地位 采用orderedlogistic模型当DV为无序多分类变量时 采用multinomial模型这里只介绍一般的二分类 Binary logistic模型 简称Logistic回归 Logistic回归的基本原理 I Logistic回归分析是对因变量为定性变量的回归分析 非线性概率回归模型其基本特点是 因变量必须是二分类变量 若令因变量为y 则常用y 1表示 yes y 0表示 no 在在学与不在学的对照研究中 分别表示在学和对照组 不在学 自变量可以为分类变量 也可以为连续变量 Logistic回归的基本原理 II 从模型角度出发 把事件发生的情况定义为Y 1 事件未发生的情况定义为Y 0 这样取值为0 1的因变量可以写为 比如 若因变量为是否在学 则最终的可能性只有两个 要么在学 事件发生 要么不在学 事件没发生 Logistic回归的基本原理 III 可采用多种方法对取值为0 1的DV进行分析 如 或比例 通常以p表示事件发生的概率 事件未发生的概率为1 p 并把p看作自变量Xi的线性函数变量是否在学有两个取值 1 在学 0 否 则简单的回归模型为 由于y是0 1型baloni分布 故有如下概率分布 基本概念 事件发生的概率 p p y 1 x 事件不发生的概率 1 p 1 p y 1 x p y 0 x 发生比 odds Odds 相对风险 relativerisk 事件发生的概率与不发生的概率之比对数发生比 logodds 也是事件发生概率p的一个特定函数 通过Logistic转换 该函数可以写成Logistic回归的logit模型 Logit变换 对数单位转换 logit 逻辑斯蒂概率单位 logisticprobabilityunit存头取尾的缩写 logitp可以称为 p的逻辑斯蒂概率单位 或简称为 逻辑斯蒂p logitp一方面表达出它是事件发生概率p的转换单位 另一方面它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归中的模式 Logistic回归模型 I Logistic回归模型 II OR OddsRatio 参数估计 最大似然估计法 Maximumlikelihoodestimate 似然函数 L Pi对数似然函数 lnL lnP lnP1 lnP2 lnPn非线性迭代方法 Newton Raphson法 参数检验 2LL I 2对数似然值 2loglikelihood 2LL 数值越小越好似然 likelihood 即概率 由自变量观测值预测因变量观测值的概率与任何概率一样 似然的取值范围在0 1之间对数似然值 loglikelihood LL 是其自然对数形式由于取值范围在 0 1 之间的数的对数值为负数 所以对数似然值的取值范围在0至 之间对数似然值通过最大似然估计的迭代算法计算 参数检验 2LL II 因为 2LL近似服从卡方分布 且在数学上更为方便 所以 2LL可用于检验Logistic回归的显著性 2LL反映了在模型中包括了所有自变量后的误差 用于处理因变量无法解释的变异部分的显著性问题 又称为拟合劣度卡方统计量 Badness of fitChi square 当 2LL的实际显著性水平大于给定的显著性水平 时 因变量的变异中无法解释的部分是不显著的 意味着回归方程的拟合程度越好 Logistic回归系数的意义 从数学上讲 与多元线性回归分析中回归系数的解释并无不同 bi表示xi改变一个单位时 logitP的平均变化量Logistic回归中的常数项 b0 表示 在不接触任何潜在危险 保护因素条件下 因变量发生与不发生事件的概率之比的对数值Logistic回归中的回归系数 bi 表示 某一因素改变一个单位时 因变量发生与不发生事件的概率之比的对数变化值 即OR的对数值 Logistic回归分析的基本命令 logityx1x2 二元非线性回归的基本命令参数 输出回归系数 参与回归分析的变量 y为因变量 x1和x2为自变量 logisticyx1x2 二元非线性回归的基本命令参数 输出发生比 xi logitenrollagegirli sibsifage 12i sibs Isibs 0 2 naturallycoded Isibs 0omitted Iteration0 loglikelihood 361 07032Iteration1 loglikelihood 315 29173Iteration2 loglikelihood 311 064Iteration3 loglikelihood 310 99469Iteration4 loglikelihood 310 99464LogisticregressionNumberofobs 789LRchi2 4 100 15Prob chi2 0 0000Loglikelihood 310 99464PseudoR2 0 1387 enroll Coef Std Err zP z 95 Conf Interval age 7678598 0877037 8 760 000 9397559 5959637girl 197315 21120090 930 350 2166311 6112611 Isibs 1 214453 2296539 0 930 350 6645664 2356604 Isibs 2 8062853 397851 2 030 043 1 586059 0265118 cons 13 417281 398889 590 00010 6755316 15903 Loglikelihood即对数似然值 乘以2即为 2LL 是模型的估计方法 在进行逐步回归时 通过比较不同模型的 2LL 判断模型的适应程度取值越小 模型的适应性越好取值越大 模型的效果越差LRchi2 4 即为卡方检验统计量 Prob chi2是其p值 LRchi2为回归模型无效假设 即所有协变量的发生比均为1 所对应的似然比检验量 其自由度为协变量个数的卡方 它们与线性回归的F统计量和其p值的功能大体一致0 0000数值表明 该模型是显著的 统计量PseudeR2是伪决定系数R2 虽不完全等于R2 但大致提供模型中自变量对因变量变异的解释能力Coef 是每个自变量对应的系数估计值 在logistic回归分析中 该系数为对数 Std Err 即系数相应的标准误 OLS通过t检验来判断自变量对因变量的影响是否显著 logistic模型使用z检验来达到该目的z是单个系数检验的统计量 P z 是系数检验的p值最后一列为系数95 的置信区间 但是 由于系数为对数 不能像线性回归系数那样进行直接解释 需要将其利用上述公式转换为风险比后 系数才有更明确的意义 若否 则不能直接将系数解释为自变量对因变量的影响程度比如 年龄是数值变量 随着年龄的增长 孩子在学的概率显著降低 但我们不能将系数解释为 孩子的年龄每增加一岁 在学概率降低76 79 事实上 我们并不知道年龄对在学概率的影响程度 虽然我们知道其影响性质和显著水平 对变量girl来说 女孩的在学概率高于男孩 不知道二者的差别有多大但可以使用发生比 OR 来解释 xi logisticenrollagegirli sibsifage 12i sibs Isibs 0 2 naturallycoded Isibs 0omitted LogisticregressionNumberofobs 789LRchi2 4 100 15Prob chi2 0 0000Loglikelihood 310 99464PseudoR2 0 1387 enroll OddsRatioStd Err zP z 95 Conf Interval age 4640051 040695 8 760 000 3907232 5510313girl 1 218128 25726960 930 350 8052271 842754 Isibs 1 8069827 1853267 0 930 350 51449661 265744 Isibs 2 4465136 1776459 2 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国液体化工物流成本结构与价格形成机制研究报告
- 2025-2030中国漂洗添加剂行业数字化转型解决方案探讨
- 2025生物制药招聘题目及答案
- 2025射频工程师招聘面试题及答案
- 2025商务BD招聘试题及答案
- 2025人工智能训练师秋招题目及答案
- 2025渠道销售招聘题库及答案
- 闽侯高考数学试卷及答案
- 2025陶瓷制品买卖合同模板
- 《古诗新唱-传统文化与音乐融合课》
- 国网网络安全专业考试复习题库大全-2(多选题汇总)
- HR-1-04猎头管理办法
- WH/T 42-2011演出场所安全技术要求第2部分:临时搭建演出场所舞台、看台安全技术要求
- GB/T 3811-2008起重机设计规范
- GB/T 27734-2011压力管道用聚丙烯(PP)阀门基本尺寸公制系列
- GB/T 20346.1-2006施肥机械试验方法第1部分:全幅宽施肥机
- GB/T 20056-2015滚动轴承向心滚针和保持架组件外形尺寸和公差
- GA/T 1068-2015刑事案件命名规则
- 浙江省宁波市镇海蛟川书院2022-2023七年级上学期数学期中试卷+答案
- 论文写作讲座课件
- 双减作业设计初中数学作业设计优秀案例
评论
0/150
提交评论