第十讲定类或定序因变量回归分析ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-28 格式：PPT 页数：32 大小：823.50KB 积分：25 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第十讲定类或定序因变量回归分析当因变量是一个定类变量而不是定距变量时线性回归模型受到挑战如政治学中研究是否选举某候选人经济学研究中涉及的是否销售或购买某种商品社会学和人口学研究中所涉及的如犯罪迁移婚姻生育患病等等都可以按照二分类变量或多分类来测量一问题的提出在研究态度与偏好等心理现象时也经常按类型进行测量的如强烈反对反对中立支持和强烈支持连续变量转换成类型变量的情形如在分析升学考试的影响因素时将考生分为录取线以上和录取线以下从统计理论上看最小二乘法关注正态分布然而社会经济现象往往有不同于正态分布的其他分布例如 1 二项分布 binomialdistribution 2 泊松分布 Poisson 二线性概率模型 1 模型建立以最小二乘法为基础的线性回归方程是估测因变量的平均值而二分变量的均值有一个特定的意义即概率用普通线性回归方程估测概率就是所谓的线性概率回归用公式表示为 P a iXi 对二项分布线性概率模型的结果解释在其他变量不变的情形下 x每增加一个单位事件发生概率的期望将变动个单位例如林楠和谢文 1988 曾用线性概率模型估测入党政治资本的概率模型为 P 0 39 0 01A 0 04E 0 03U其中 P 党员概率 A 年龄 E 受教育年限 U 单位身份 1 无意义的解释从解释力上看由于概率的值是有边界的在0与1之间但林楠方程很有可能要超过该限制因变量的估计值可能是负数也可能大于1 因此模型的结果是无意义的例如运用林楠方程我们发现如果年龄为100岁受教育程度超过10年则入党的概率约等于1 2 非线性关系 2 线性概率模型存在的问题三简单对数比率回归 1 模型建立既然用线性概率回归存在局限性能否用比率做因变量呢比如用男女比率作因变量用成功与不成功之比做因变量用比率做因变量存在的问题是比率是非对称的表1概率比率和对数比率一个简单的解决办法就是取对数结果就是所谓对数比率 logit 若用P代表某事件的概率则对数比率函数的定义为g P log P 1 P 以对数比率为因变量对自变量X1 X2 X3 做回归称为对数比率回归 logisticregression 其方程式为该模型即为logit回归模型 logit回归模型是普通多元线性回归模型的推广但它的误差项服从二项分布因此需要采用极大似然估计方法进行参数估计参数称为logit回归系数表示当其他自变量取值保持不变时该自变量取值增加一个单位引起的发生比自然对数值的变化量 2 发生比发生比是事件的发生频数与不发生频数之间的比即 Odds 事件发生频数事件不发生频数当比值大于1时表明事件更有可能发生比如一个事件发生的概率为0 6 事件不发生的概率为0 4 发生比等于0 6 0 4 1 5 事件发生的可能性是不发生的1 5倍四 logistic回归模型的检验与评价 1 Logistic回归模型估计的假设前提第一数据来自于随机样本第二因变量Yi被假设为K个自变量Xk k 1 2 K 的函数第三正如OLS回归 logistic回归也对多重共线性有所限制自变量之间存在多重共线性会导致标准误的膨胀 Logistic回归模型还有一些与OLS回归不同的假设前提第一因变量是二分变量第二因变量和各自变量之间的关系是非线性的 2 拟合优度检验如果模型的预测值能够与对应的观测值有较高的一致性就认为这一模型能够拟合数据否则需要对模型重新设置因此模型的拟合优度是指预测值与观测值的匹配程度检验拟合优度的指标有皮尔逊卡方检验对数似然比卡方检验等 1 皮尔逊卡方检验皮尔逊卡方检验主要用于检验残差项的大小计算公式其中yi是观察值 0或1 pi是估算值的概率 i 1 2 n 分母是估算值的标准差自由度为n J 1 其中J为自变量数目 2 Hosmer Lemeshow拟合优度检验该方法通常适用于自变量很多或自变量为连续变量的情形 HL方法根据预测概率的大小将所有观察单位十等分然后根据每一组中因变量的实际值与理论值计算Peason卡方其统计量为其中G代表分组数且G 10 ng为第g组中的观测值数 yg第g组事件的观测数量 pg为第g组的预测事件概率 ngpg为事件的预测值实际上它等于第g组的观测概率和 3 对数似然比卡方检验对数似然比是用较复杂模型与基本模型进行比较通常将似然取对数并乘以 2 即 2logL 简称对数似然基本模型以独立模型表示用L0表示独立模型的似然 L1表示非独立模型的似然那么对数似然比定义为遵循卡方分布其自由度为非独立模型的自变量数目可用于检验复杂模型中自变量对似然率的增加是否显著越大越好 3 logit模型回归系数的假设检验设原假设H0为 k 0 表示自变量对事件发生的可能性无影响如果原假设被拒绝说明自变量对事件发生的可能性有影响 Wald检验在logit模型中对回归系数进行显著性检验通常使用Wald检验其计算公式为 Wald统计量实际上就是正态分布Z统计量的平方在零假设条件下每一个回归系数都等于0 Wald统计量服从卡方分布其自由度为n k 1 五模型解释由于logit模型是非线性的因此不能以传统回归模型中自变量与因变量之间的关系解释之通常以发生比率来解释logit回归系数六多项对数比率回归我们研究的现象常是多分类的如职业的选择等这时需要用多项对数比率回归处理多项对数比率回归是简单对数比率回归的扩展由一组对数比率方程组成常用的做法是基准类比法即先选出基准类然后将它的概率与其它各类的概率进行对比假如要研究一个或一组自变量X如何影响人们对J类职业选择用P1 P2 Pj表示各类职业的概率那么多项对数比率回归就可表示为需要注意的是 1 就系数解释和检验而言多项对数比率回归和简单对数比率回归相同 2 方程组在统计上不独立必须同时估算不可一一求解 SPSS上的应用 1 Analyze Regression MultinomialLogistic2 Dependent 用于选入无序多分类的因变量3 Factor 用于选入分类自变量可以是有序或无序多分类系统会自动生成虚拟变量 4 Covariates 用于选入连续型的自变量选择系统默认值点击OK钮运行所选命令5 结果解释数据汇总与模型的似然比检验拟合优度检验 Pearson Deviance检验参数估计结果七定序变量对数比率当因变量是定序变量变量值之间具有高低之分时在设计logit模型时就应考虑到其中所包含的信息通常有三种处理方法邻类比升级比和累进比 1 邻类比邻类比是将所有相邻两类的概率两两相比如果变量含有J个有序类别就可得到J 1个不重复对数比率方程假如用P1 P2 Pj表示一个定序变量由低到高各级类别的概率设X是一个或一组自变量那么对数邻类比回归就是对于定序变量常常假设升级的作用是一样的即在方程组中各个方程的斜率项是相同的 1 2 j 1 上式可表示为 2 升级比用P1 P2 Pj表示一定序变量由低到高各级类别的概率那么对数升级比回归就是例如升学率的研究将学校依等级高低分为小学初中高中和大学四类初中升高中的比率不仅是初中毕业生和高中毕业生的比率还应包括大学毕业生因为他们也完成了初中到高中的升级过程升级比在统计上是各自独立的因而可以对照简单对数比率回归一一估算加总各独立升级比率回归的对数似然比和自由度即总模型的对数似然比和自由度对数升级比回归的编码示例 3 累进比对数累进比率回归示例收入等级分析 Nee1991 若假设 1 2 j 1 则对数升级方程组可简化方程如下 SPSS中的 ordinallogisticregression 就是截矩项都相等的累进比对数回归模型 SPSS操作程序1 选择logistic回归程序点击主菜单中的Analyze 然后点击Regression 再点击Ordinal 屏幕

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第十讲定类或定序因变量回归分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

第十讲定类或定序因变量回归分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档