




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
许多社会科学的观察都只分类而不是连续的 比如 政治学中经常研究的是否选举某候选人 经济学研究中所涉及的是否销售或购买某种商品 是否签订一个合同等等 这种选择量度通常分为两类 即 是 与 否 在社会学和人口研究中 人们的社会行为与事件的发生如犯罪 逃学 迁移 结婚 离婚 患病等等都可以按照二分类变量来测量 1 分类变量分析通常采用对数线性模型 Log linearmodel 而因变量为二分变量时 对数线性模型就变成Logistic回归模型 logistic回归是一个概率型模型 因此可以利用它预测某事件发生的概率 例如在可以根据消费者的一些特征 判断购买某项产品概率有多大 2 目的 作出以多个自变量估计因变量的logistic回归方程 属于概率型非线性回归 资料 1 因变量为反映某现象发生与不发生的二值变量 2 自变量宜全部或大部分为分类变量 可有少数数值变量 分类变量要数量化 用途 研究哪些变量影响因变量 影响程度方向 大小等 3 Logistic回归模型 一 模型的引进二 Logistic回归模型估计三 Logistic回归模型的评价四 Logistic回归系数的统计推断五 Logistic回归诊断 4 回归建模 二元Logistic回归模型 当虚拟变量作为因变量 虚拟变量有两个取值 可使用二元Logistic回归 例 在一次有关公共交通的调查中 一个调查项目为 是乘坐公交车上下班 还是骑自行车上下班 因变量有两个取值 当取值为1 乘坐公交车上下班 取值为0 骑自行车上下班 5 回归建模 二元Logistic回归模型 6 回归建模 二元Logistic回归模型 自变量 解释变量 X1 年龄 取值从18到58 X2 月收入 元 取值850 950 1000 1200 1300 1500 1800 2100 X3 性别 取值为1 表示男性 取值为0 表示女性 7 回归建模 二元Logistic回归模型 研究目的 X1 X2 X3等因素对因变量 使用什么交通方式 有无影响 建立Y与X的多元线性回归模型 取值0和1 8 回归建模 二元Logistic回归模型 建立p Y 1 X 与X的多元线性回归模型 取值范围0 1 9 线性回归模型的基本假定 1 随机误差项具有 均值 2 随机误差项具有同方差 3 随机误差项在不同样本点之间是独立的 不存在序列相关 4 随机误差项与解释变量 自变量 之间不相关 5 随机误差项服从 均值 同方差的正态分布 10 回归建模 二元Logistic回归模型 1 发生概率p的大小取值范围 0 1 p与自变量的关系难以用多元线性模型来描述 2 当p接近0或者1时 p值的微小变化用普通的方法难以发现和处理好 总 能不能找到一个p的严格单调函数Q 就会比较方便 同时要求Q对在p 0或p 1的附近的微小变化很敏感 11 回归建模 二元Logistic回归模型 12 回归建模 二元Logistic回归模型 Logit P P 13 回归建模 二元Logistic回归模型 建立logit p 与X的多元线性回归模型 取值范围 优势比 odds 机会比 odds 14 logistic回归模型 Logistic回归模型 15 Logistic回归模型估计 极大似然估计 Logistic回归模型估计的假设条件与OLS的不同 1 logistic回归的因变量是二分类变量 2 logistic回归的因变量与自变量之间的关系是非线性的 3 logistic回归中无相同分布的假设 4 logistic回归没有关于自变量 分布 的假设 离散 连续 虚拟 16 Logistic回归模型估计 极大似然估计 多元回归采用最小二乘估计 使因变量的真实值和预测值差异值的平方和最小化 Logistic变换的非线性特征使得在估计模型的时候采用极大似然估计的迭代方法 找到系数的 最可能 的估计 在计算整个模型拟合度时 采用似然值 17 Logistic回归模型估计 极大似然估计 最小二乘估计 OLS 根据线性回归模型 选择参数估计值 使得模型的估计值与真值的离差平方和最小 极大似然估计 MLE 选择使得似然函数最大的参数估计值 18 由于各项观测相互独立 其联合分布为 Logistic回归模型估计 极大似然估计 19 求似然函数的极大值 Logistic回归模型估计 极大似然估计 20 分别对参数求偏导 然后令它等于0 求得的估计值 从而得到 pi的极大似然估计 这个值是在给定xi的条件下yi 1的条件概率的估计 它代表了Logistic回归模型的拟合值 Logistic回归模型估计 极大似然估计 21 Logistic回归系数的解释 因此每个代表当保持其他变量不变时 每单位量的增加对对数发生比的影响发生比率若发生比率 1 则说明该变量增大时 则Y 1事件发生的比例也就越高 22 Logistic回归模型估计 极大似然估计 23 Logistic回归模型的评价 1拟合优度检验 Goodnessoffit 1 1皮尔逊检验1 2Hosmer Lemeshow检验2Logistic回归模型的预测准确性Cox SnellRSquare指标和NagelkerkeRSquare指标 24 拟合优度检验 Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验 如果预测的值与实际观测的值越接近 说明模型的拟合效果越好 模型的拟合优度检验方法有偏差检验 Deviance 皮尔逊 pearson 检验 统计量 Homser Lemeshow 分别计算统计量X2D X2P X2HL值 统计量值越小 对应的概率越大 原假设H0 模型的拟合效果好 模型拟合优度信息指标有 2lnL AIC SC 这3个指标越小表示模型拟合的越好 25 类R2是预测准确性的粗略近似 在自变量与因变量完全无关时 类R2值趋近于0 当和模型能够完美预测时 类R2趋近于1 2 1Logistic回归模型的预测准确性 26 2Logistic回归模型的预测准确性 Cox SnellRSquare指标其中与表示零假设模型与所设模型各自的似然值 n为样本容量 27 2 1Logistic回归模型的预测准确性 然而对于logistic回归 上面定义的R最大值却小于1Nagelkerke提出一种logistic回归的调整确定系数 28 29 Logistic回归模型的统计推断 Logistic回归方程的检验 对模型回归系数整体检验 似然比检验 likehoodratiotest 比分检验 scoretest 和Wald检验 waldtest Logistic回归系数的显著性检验 Wald检验Logistic回归参数的的置信区间Logistic回归系数的置信区间发生比率的置信区间 30 1Logistic回归方程的显著性检验 检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系 也即方程是否成立 检验的方法有似然比检验 likehoodratiotest 比分检验 scoretest 和Wald检验 waldtest 三种方法中 似然比检验最可靠 比分检验一般与它相一致 但两者均要求较大的计算量 而Wald检验未考虑各因素间的综合作用 在因素间有共线性时结果不如其它两者可靠 31 似然比检验 likehoodratiotest 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行 其统计量为G 又称Deviance G 2 lnLp lnLk 样本量较大时 G近似服从自由度为待检验因素个数的 分布 32 似然比检验 当G大于临界值时 接受H1 拒绝无效假设 认为从整体上看适合作Logistic回归分析 回归方程成立 33 Logistic回归系数的显著性检验 为了确定哪些自变量能进入方程 还需要对每个自变量的回归系数进行假设检验 判断其对模型是否有贡献 检验方法常用WaldX2检验 34 Logistic回归系数的显著性检验 Wald检验该检验是基于在大样本情况下 值服从正态分布的性质 其中为的标准误 原假设 该自变量下的回归系数 0 35 Logistic回归参数的的置信区间 Logistic回归系数的置信区间为 发生比率的置信区间 36 二分类Logistic回归 37 38 39 40 41 回归建模 二元Logistic回归模型 Logistic回归可直接预测事件发生的概率 若预测概率大于0 5 则预测发生 Y 1 若预测概率小于0 5 则不发生 Y 0 42 Logistic回归模型的诊断 多重共线性的诊断异常值的诊断 43 多重共线性的诊断 相关系数矩阵容忍度方差膨胀因子由于只关心自变量之间的关系 所以可以通过线性回归得到容忍度指标 44 异常值的诊断 一 标准化残差 Pearson残差 yj为第j个协变量组合的阳性 取值为1 观察值个数nj为第j个协变量组合的观察单位数Pj为第j个协变量组合的概率估计值一般认为残差值超过2则可能为异常点 45 异常值的诊断 二 Deviance残差其中sgn表示此式的正负号与 yj njpj 的相同一般认为残差值超过2则可能为异常点 46 例题 高中毕业生继续进入大学学习的可能性的影响因素 如果一个高中毕业生升入了大学 则y 1 如果没有升入大学 则y 0 P为高中毕业后升入大学的概率 自变量为性别Gender 1为男性 0为女性 高中类型Keysch 1为重点中学 0为普通中学 高中成绩Meangr 前两个为虚拟变量 Meangr为连续变量 Logistic回归模型为 47 数据 48 最后的回归结果为 49 分组数据的二元Logistic回归模型 例 在一次住房展销会上 与房地产商签订初步购房意向书的共有n 313名顾客 在随后的3个月的时间 只有部分顾客确实购买了房屋 购买房屋的顾客记为1 没有购买房屋的顾客记为0 以顾客的年家庭收入 万元 为自变量x 建立Logistic回归模型 50 分组数据的二元Logistic回归模型 51 分组数据的二元Logistic回归模型 分组 9个组 不同的组别 不同的年家庭收入 万元 52 分组数据的二元Logistic回归模型 变换后的模型是普通的一元线性模型 53 分组数据的二元Logistic回归模型 利用回归模型可以对购房比例进行预测 如 当收入x 8时 有即在展销会上与房地产商签订初步购房意向书的年收入8万元的家庭中 预计实际购房比例为59 54 分组数据的二元Logistic回归模型 回归模型的一个不足之处 异方差性没有解决 可以使用加
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度美甲店学徒工实习期聘用合同范本下载
- 二零二五年电视广告创意设计服务合同样本
- 2025版高校招生代理服务争议解决协议
- 二零二五年度个人汽车租赁押金合同范本
- 二零二五版写字楼租赁合同:含物业管理服务细则
- 2025版装饰装修工程节能认证合同
- 2025至2030年中国透光立体玻璃行业市场深度评估及投资策略咨询报告
- 早期肺癌的HRCT表现
- 二零二五年度教育培训分期付款协议示范文本
- 2025版专业保安公司保安劳务承包合同
- YYT 1843-2022 医用电气设备网络安全基本要求
- 深化政府采购制度改革方案
- 甲状腺围手术期的护理
- 中国电竞用户分析报告
- 中医院被服洗涤招标文件
- 于永正教育文集:于永正:我怎样教语文
- 高中英语新外研版选择性必修四Unit2知识点归纳总结(复习课件)
- XX市选调生跟班学习鉴定表
- 身为职场女性:女性事业进阶与领导力提升
- 普洱市森洁乳胶制品有限公司灭菌乳胶医用手套工厂项目环评报告书
- 著名文学著作列夫托尔斯泰《复活》教育阅读名著鉴赏课件PPT
评论
0/150
提交评论