第九讲定类或定序因变量回归分析ppt课件.ppt_第1页
第九讲定类或定序因变量回归分析ppt课件.ppt_第2页
第九讲定类或定序因变量回归分析ppt课件.ppt_第3页
第九讲定类或定序因变量回归分析ppt课件.ppt_第4页
第九讲定类或定序因变量回归分析ppt课件.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九讲定类或定序因变量回归分析 线性回归模型在定量分析中广为流行 然而当因变量是一个定类变量而不是一个连续变量时 很难应用线性回归模型 如政治学中研究是否选举某候选人 经济学研究中涉及的是否销售或购买某种商品 如在社会学和人口学研究中所涉及的如犯罪 逃学 迁移 结婚 离婚 生育 患病等等都可以按照二分类变量或多分类来测量 又如在研究态度与偏好等心理现象时也经常按几个类型进行测量的 如 强烈反对 反对 中立 支持 和 强烈支持 另外 有时对一些连续变量也要转换成类型变量 如在分析升学考试的影响因素时 将考生分为录取线以上和录取线以下 只要选定一个分界点 连续变量便可以被转换成定类变量 一 问题的提出 从统计理论上看 在进行最小二乘法的参数估计时 我们仅仅关注残差项 的分布 很少对因变量Y所服从的分布予以关注 实际上 我们拥有Y的信息要远远大于拥有残差项 的信息 因变量Y服从正态分布的推断来源于残差项服从正态分布 因为Y是残差项的线性函数 事实上 社会经济现象往往有不同于正态分布的其他分布 例如 1 二项分布 binomialdistribution 2 泊松分布 Poisson 二 线性概率模型 1 模型建立以最小二乘法为基础的线性回归方程是估测因变量的平均值 而二分变量的均值有一个特定的意义 即概率 用普通线性回归方程估测概率 就是所谓的线性概率回归 用公式表示为 P a iXi 对二项分布线性概率模型的结果解释 在其他变量不变的情形下 x每增加一个单位 事件发生概率的期望将变动 个单位 例如 林楠和谢文 1988 曾用线性概率模型估测入党 政治资本 的概率 模型为 P 0 39 0 01A 0 04E 0 03U其中 P 党员概率 A 年龄 E 受教育年限 U 单位身份 2 线性概率模型存在的问题 1 异方差性普通最小二乘法假设残差项的方差是相同的 但二项分布的方差为p 1 p 这意味着方差是中间大 两边小 所以方程中残差项的方差不可能恒定 2 非正态性在给定自变量x条件下 是y的预测值与实际值的离差 由于y仅仅有0和1两个值 误差项 要么等于 或者很明显 该误差项不是正态分布 3 无意义的解释从解释力上看 由于概率的值是有边界的 在0与1之间 但林楠方程很有可能要超过该限制 因变量的估计值可能是负数 也可能大于1 因此模型的结果是无意义的 例如 运用林楠方程 我们发现如果年龄为100岁 受教育程度超过10年 则入党的概率约等于1 4 非线性关系 三 简单对数比率回归 1 模型建立既然用线性概率回归存在以上两个方面的局限性 我们能否用比率做因变量呢 比如用男女比率作因变量 用成功与不成功之比做因变量 用比率做因变量可以建立估计方程 但存在的问题是 比率是非对称的 一个简单的解决办法就是取对数 结果就是所谓对数比率 logit 若用P代表某事件的概率 则对数比率函数的定义为g P log P 1 P 以对数比率为因变量对自变量X1 X2 X3 做回归称为对数比率回归 logisticregression 其方程式为 表1概率 比率和对数比率 该模型即为logit回归模型 logit回归模型实际上是普通多元线性回归模型的推广 但它的误差项服从二项分布而非正态分布 因此 需要采用极大似然估计方法进行参数估计 参数 称为logit回归系数 表示当其他自变量取值保持不变时 该自变量取值增加一个单位引起的发生比自然对数值的变化量 2 发生比 发生比是事件的发生频数与不发生频数之间的比 即 Odds 事件发生频数 事件不发生频数 当比值大于1时 表明事件更有可能发生 比如一个事件发生的概率为0 6 事件不发生的概率为0 4 发生比等于0 6 0 4 1 5 事件发生的可能性是不发生的1 5倍 四 极大似然估计的基本思想1 概率问题例1 假定我们要估计一样本中男性的发生概率 以s表示样本中男性的数量 N是样本规模 是总体中男性的概率 0 5 根据贝努利公式 其中k k k 1 2 110个样本中有3个男性的概率为 如果我们已知样本中s N及其概率分布的信息 需要估计总体特征 则需要借助极大似然估计法来完成 极大似然估计ML就是估计这样一个参数值 由于该参数的存在可以使得被观察的事件最有可能发生 2 似然函数当已知N和 求s发生的可能性有多大 所建立的函数 称为概率函数 而当已知N和s 求 发生的可能性有多大 所建立的函数 称为似然函数 二者的差异 第一 前者是在参数已知下的数据的函数 后者是在数据已知条件下的参数的函数 第二 参数值是由可能性最高的值决定 我们称该值为极大似然估计 L s 3 N 10 由于极大似然估计就是估计参数值 使得样本发生的可能性最大 故求最大化的前提是对上式求偏导 解得上式可以得到 的估计值为0 3 例2 运用极大似然估计法估计泊松分布中参数 概率密度函数为 似然函数为 Li yi 假定观察值是独立的 样本的似然函数就是个体似然函数的乘积 Li yi L1 L2 Ln Li LnL N yiln ln yi lnL N yi yi N 例3 运用极大似然估计法估计正态分布中的参数 设变量X为具有平均数 方差 的正态变量 这里 和 为未知参数 试由样本观察值X1 X2 Xn估计平均值 和方差 解 由最大似然法得下述似然函数 例3 估计logistic回归模型中的参数由于logistic模型是二项分布 其似然函数为 L 通过三个例子的比较 我们可以看出在线性回归中 似然函数是通过对似然方程求偏导数得到的 对于未知参数是线性的 容易求解 但是对于logistic回归 似然函数是 和 的非线性函数 求解比较困难 需要借助于计算机 通过迭代计算完成 最大似然估计与OLS估计的统计性质几乎完全相同 即具有一致性 渐进有效性和渐进正态性 一致性是指当样本规模增大时 模型参数估计逐渐向真值收敛 即估计将近似于无偏 所谓渐进有效性是指当样本规模增大时 参数估计的标准误相应缩小 所谓渐进正态性是指随着样本规模增大 最大似然估计值的分布渐进于正态分布 五 logistic回归模型及参数估计的评价 1 Logistic回归模型估计的假设条件第一 数据来自于随机样本 第二 因变量Yi被假设为K个自变量Xk k 1 2 K 的函数 第三 正如OLS回归 logistic回归也对多重共线性有所限制 自变量之间存在多重共线性会导致标准误的膨胀 Logistic回归模型还有一些与OLS回归不同的假设 第一 因变量是二分变量 第二 因变量和各自变量之间的关系是非线性的 2 拟合优度检验 模型参数估计完成以后 需要评价模型是否能够有效地描述了观测数据 如果模型的预测值能够与对应的观测值有较高的一致性 就认为这一模型能够拟合数据 否则将不能接受这一模型 而需要对模型重新设置 因此 模型的拟合优度是指预测值与观测值的匹配程度 检验拟合优度的指标有皮尔逊卡方检验 对数似然比卡方检验等 1 皮尔逊卡方检验皮尔逊卡方检验主要用于检验残差项的大小 计算公式 其中yi是观察值 0或1 pi是估算值的概率 i 1 2 n 分母是估算值的标准差 自由度为n J 1 其中J为自变量数目 2 Hosmer Lemeshow拟合优度检验该方法通常适用于自变量很多 或自变量为连续变量的情形 HL方法根据预测概率的大小将所有观察单位十等分 然后根据每一组中因变量的实际值与理论值计算Peason卡方 其统计量为 其中G代表分组数 且G 10 ng为第g组中的观测值数 yg第g组事件的观测数量 pg为第g组的预测事件概率 ngpg为事件的预测值 实际上它等于第g组的观测概率和 3 对数似然比卡方检验对数似然比是用较复杂模型的似然与基本模型的似然进行比较 因为是非常小的数 通常将似然取对数并乘以 2 即 2logL 简称对数似然 通常基本模型以独立模型表示 用L0表示独立模型的似然 L1表示非独立模型的似然 那么对数似然比定义为 遵循卡方分布 其自由度为非独立模型的自变量数目 可用于检验复杂模型中自变量对似然率的增加是否显著 越大越好 3 logit模型回归系数的假设检验 设原假设H0为 k 0 表示自变量对事件发生的可能性无影响 如果原假设被拒绝 说明自变量对事件发生的可能性有影响 Wald检验在logit模型中 对回归系数进行显著性检验 通常使用Wald检验 其计算公式为 Wald统计量实际上就是正态分布Z统计量的平方 在零假设条件下 每一个回归系数都等于0 Wald统计量服从卡方分布 其自由度为n k 1 六 模型解释 由于logit模型是非线性的 因此不能以传统回归模型中自变量与因变量之间的关系解释之 通常以发生比率来解释logit回归系数截矩项通常被作为基准发生比的对数 表明当回归模型中没有任何自变量时所产生的发生比 或者说 是在所有自变量都取0值时所产生的发生比 预测概率 将系数估计和自变量值代入logistic函数 便可得到预测概率的公式 练习 二分变量logit回归模型的实证分析 英国国会权力下放后的国民身份认同感分析 1 题目内容 本文分析的数据来自1999和2001两年分别在英格兰 威尔士和苏格兰三地的跨地区对比调查 包括5298个观测值 2000年英国国会将权力下放给新成立的威尔士议会和苏格兰国会 此研究通过对比权力下放前和下放后国民身份认同感的变化 反映权力下放带来的影响 2 变量包括 性别 年龄 权力下放前后 Year 居住国家 宗教信仰 RELIG 教育程度 社会阶级 地区认同感 Minorid 3 解题思路 我们所关心的最重要的问题是 权力下放后 人们的地区认同感是否降低 本节是以地区认同感 Minorid 作为因变量 来看其他变量对其影响 七 多项对数比率回归 我们研究的现象常是多分类的 如职业的选择等 这时需要用多项对数比率回归处理 多项对数比率回归是简单对数比率回归的扩展 由一组对数比率方程组成 常用的做法是基准类比法 即先选出基准类 然后将它的概率与其它各类的概率进行对比 假如要研究一个或一组自变量X如何影响人们对J类职业选择 用P1 P2 Pj表示各类职业的概率 那么多项对数比率回归就可表示为 需要注意的是 1 就系数解释和检验而言 多项对数比率回归和简单对数比率回归相同 2 方程组在统计上不独立 必须同时估算 不可一一求解 SPSS上的应用 1 Analyze Regression MultinomialLogistic2 Dependent 用于选入无序多分类的因变量3 Factor 用于选入分类自变量 可以是有序或无序多分类 系统会自动生成哑变量 4 Covariates 用于选入连续型的自变量 选择系统默认值 点击OK钮 运行所选命令5 结果解释数据汇总与模型的似然比检验 拟合优度检验 Pearson Deviance检验 参数估计结果 八 定序变量对数比率 当因变量是定序变量 变量值之间具有高低之分时 在设计logit模型时 就应考虑到其中所包含的信息 通常有三种处理方法 邻类比 升级比和累进比 1 邻类比邻类比是将所有相邻两类的概率两两相比 如果变量含有J个有序类别 就可得到J 1个不重复对数比率方程 假如用P1 P2 Pj表示一个定序变量由低到高各级类别的概率 设X是一个或一组自变量 那么对数邻类比回归就是 对于定序变量 常常假设升级的作用是一样的 即在方程组中 各个方程的斜率项是相同的 1 2 j 1 上式可表示为 2 升级比 用P1 P2 Pj表示一定序变量由低到高各级类别的概率 那么对数升级比回归就是 书中的例子是关于性别与高升学率的关系 将学校依等级高低分为小学 初中 高中和大学四类 初中升高中的比率不仅是初中毕业生和高中毕业生的比率 还应包括大学毕业生 因为他们也完成了初中到高中的升级过程 升级比在统计上是各自独立的 因而可以照简单对数比率回归一一估算 加总各独立升级比率回归的对数似然比和自由度 即总模型的对数似然比和自由度 对数升级比回归的编码示例 3 累进比 对数累进比率回归示例 收入等级分析 Nee1991 若假设 1 2 j 1 则对数升级方程组可简化方程如下 SPSS中的 ordinallogisticregressio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论