R软件-医学统计分析-有序logistic回归.pdf

上传人：奇*** IP属地：河北上传时间：2020-02-02 格式：PDF 页数：22 大小：442.31KB 积分：12 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

统计学进展累积 logisitic 回归模型曾庆 1 累积 logisitic 回归模型一理论一模型定义假设结局变量 Y 有 J 个有序分类其自然结局顺序表示为 Y 1 2 J 每个分类结局的对应发生概率是 1 2 J 则其有序分类小于等于 j 的累积发生概率表示为 P Y j 1 2 j 因此可以通过指定累积概率 P Y j 的阈值将整个结局变量 Y 的 J 个有序分类从该指定阈值点截断使之成为二项结局分类另外有p个自变量记为 X x1 x2 xp 表示相应的影响因素定性定量均可由此定义累积 logit Y j 函数 Jjj j xjyP xjyP xjyP xjyP jyPit ln ln 1 ln log 21 21 该累积 logit Y j 函数是两个累积概率比的对数值它测定了结局变量 Y 小于等于分类 j 或者大于分类 j 的可能性大小因为有 J 个有序分类结局所以实际上可以写出至多 J 1 个的累积 logit 函数 J J Jj xJyP xJyP xJyP xJyP JyPit xyP xyP xyP xyP yPit J 121 2 1 ln 1 1 ln 1 1 1 ln 1 log ln 1 1 ln 1 1 1 ln 1 log 1L个将每个累积 logit 函数用线性函数的形式表示为 ppjjj pp XXJyPit XXyPit J 111 10 1 111110 1 log 1 log 1 L个该模型就是累积 logistic 回归模型 cumulative logit model 对应的概率模型形式是 exp 1 exp 110 110 pjpjj pjpjj XX XX jyP 为简化上述模型进一步假定对于所有 J 1 个累积 logit 函数各个自变量 Xi所对应的回归系数 i都是相等的即对每一个累积 logit 函数各有一个不同的截距 j0 然而对所有的累积 logit 函数自变量 Xi却有一个相同的 i 在此假设条件下不同累积 logit 的回归线相互平行只是截距 j0不同这称为成比例发生比假设或平行线假设满足平行线假设的模型简化后的是 p i iijppj XXXjyPit 1 0110 log 写成系列模型则是 ppJ pp XXJyPit XXyPit 1 log 1 log 110 1 1110 L 该简化后的模型就称为成比例比数比累积 logit 模型 proportional odds cumulative logit 统计学进展累积 logisitic 回归模型曾庆 2 model 该模型有 J 1 截距 p 个回归系数共 J p 1 个回归系数一般认为累积 logistic 回归模型就是成比例比数比累积 logit 模型对应的概率模型形式是 exp 1 1 exp 1 exp 110110 110 ppjppj ppj XXXX XX jyP 使用成比例比数比累积 logit 模型首先需要对平行线假设进行检验如果平行假设被拒绝便说明自变量 Xi对不同的 logit 有不同的 i 因而说明成比例比数比累积 logit 模型不适合需要采用其他模型来进行资料的分析二似然函数和对数似然函数对于有 n 个独立观察对象的样本第i个观察对象 Xi出现获得 Y j 分类结局的概率记作 Pj P Y j Xi 它是累积概率函数的差即 Pj P Y j Xi P Y j Xi P Y j 1 Xi 由此构造似然函数 L 为 n i J j ii n i J j y ij n i y iJ y i y i ijij iJii XjYPXjYPPPPPL 11 y 111 21 1 21 L 式中 yij表示第i个观察对象自变量探索变量取值 Xi时已观察到结局变量 Y j 等级时所对应的编码它满足 J j ij y 1 1 即只有一个 yij取值为 1 属于该类其余均为 0 相应的对数似然函数 LL 为 n i J j jiijij n i J j ijij PitPityPyLL 11 1 11 log ln log ln 二实例分析实例实例 1 现有资料如表 1 所示试使用累积 Logistic 回归模型考察工作满意度与性别收入水平之间的关系表表 1 不同性别及收入水平人群不同性别及收入水平人群的的满意度情况满意度情况满意度人 y 性别 gender 收入水平 income 非常不满稍微满意比较满意非常满意女性 25000 0 2 4 2 男性 25000 0 1 9 6 在实例 1 中结果变量工作满意度 y 是多值有序变量两个原因变量性别 gender 定性变量和收入水平 income 是有序变量传统的分析方法包含分层的列联表 2 检验高统计学进展累积 logisitic 回归模型曾庆 3 维列联 2 4 4 表的 CMH 2 检验模型分析可以采用对数线性模型累积 Logistic 回归模型多项 logistic 回归模型进行分析累积 Logistic 回归模型进行分析同时考察性别与收入水平对工作满意度的影响下面采用累积 Logistic 回归模型进行分析在进行分析计算时数据的输入形式可以采用原始数据和频数数据形式原始数据形式采用一行一例各个指标因素对应一个变量的格式输入而频数表形式在在上述格式基础上再增加一个频数变量本实例数据表是频数表形式所以输入时课采用频数表格式输入其中的满意度 y 的结果值是非常不满稍微满意比较满意非常满意 4 个等级而表内的数据值 1 3 11 2 等是各个等级对应的频数因为表 1 是复合表的形式它的 2 个因素变量 gender income 1 个结果变量 y 的结果值具有规律性适合程序生成所以决定首先输入频数 f 然后再采用程序分别完成其他各个因素的输入输入所有的频数输入完数据后必须多一个空行 f scan 1 3 11 2 2 3 17 3 0 1 8 5 0 2 4 2 1 1 2 1 0 3 5 1 0 0 7 3 0 1 9 6 数据因素变量 y rep 1 4 8 gender rep c F M c 4 4 4 4 income rep rep c 25000 each 4 2 将数据合并为数据框集的形式 od data frame y gender income f stringsAsFactors F 上述程序中采用 scan 函数进行频数输入生成向量 f 需要注意的是 scan 函数的数据行最后以空行表示数据输入完成然后采用 rep 函数生成规律的其他因素的值满意度结果值用 1 4 表示每一行顺序分别是 1 2 3 4 取值总共 8 行 gender 语句中 4 4 表示前面的数据结果值 F M 每个都是 4 列 4 行共 16 个数据值而 income 语句中 each 4 表示每个数据值 4 个外面的 rep 函数表示数据值重复了 2 次最后采用 data frame 函数将所有向量组织成数据框集形式保存形成数据整体 R 在转换为数据框的形式时会自动将字符向量转换为因子变量选项 stringsAsFactors F 则取消这个自动转换功能因为自动转换功能对 gender 和 income 都会进行转换而且 income 的转换顺序是 25000 5000 15000 15000 25000 这不符合数据的实际等级情况显示数据结构 str od 数据框 od 数据结构共 32 例 4 个变量其中变量 y 和 income 是数值型整型和实型 gender 和 income 则是字符型下面是数据框集的前 12 个数据实际输入时也可以将数据整理成下面的形式然后用 read table 或者 scan 函数来输入显示数据头 12 个统计学进展累积 logisitic 回归模型曾庆 4 下面对输入数据进行整理整理的结果保存在数据框 od2 中函数 within 则指定整理的数据框为 od 用 factor 函数将 gender 因子化用 ordered 函数将 y income 按正确的等级形式生成等级变量其中 levels 后面的向量指定了等级的由大到小的顺序函数 as integer 则将等级变量的编码值保存在数值变量 income2 中以上整理语句由于不止 1 条所以需要写在复合语句标志符号中整理数据 od2 within od gender factor gender income ordered income levels c 25000 income2 as integer income yy ordered y 整理后的数据结构整理后的数据框 od2 的结构显示共 32 例 6 个变量除了原来的变量外新增 2 个变量 yy 和 income2 其中 yy 是有序等级变量 income2 是整型数值变量显示的前 12 个数据值可见经过数据转化后变量 gender income 的屏幕可视形式没有变化 income2 中的数值是 income 变量的对应等级编码整理后的数据框集的头 12 个数据统计学进展累积 logisitic 回归模型曾庆 5 上述数据框中有频数为 0 的数据例这对分析没有意义必须删除否则影响后续的分析可以采用子集函数 subset 也可以采用数据框的下标运算来进行删除数据行操作完毕后的数据结果显示原来的数据行中频数为 0 的被删除了例如原来的 9 行是 0 现在是删除后没有编号 9 的数据行了删除频数为 0 的数据 od20 显示头 12 个数据 head od2 12 数据整理好后用 xtabs 函数进行列联表计算可以将原来的数据表正确的显示出来 xtabs f income y gender 用 ftable 则可以用复合表的形式完全显示数据表 1 统计学进展累积 logisitic 回归模型曾庆 6 显示频数表 with od2 ftable xtabs f gender income y R 有多个软件包都能进行累计 logistics 回归模型的计算这里介绍两个包分别是 VGAM 和 MASS 其中 VGAM 包能进行所有类型的 logistic 回归模型的计算而 MASS 仅能计算累计 logisitic 回归模型在使用相应的软件包在计算前必须首先用 library 或者 require 函数加载相应的软件包其中 MASS 包是默认的安装包而其他的包还需要用 install package 先进行安装 VGAM 除了能进行累计 logistic 回归模型的计算外还能进行累计 logistic 回归模型的平行性假设的检验而其他的软件包则不能 MASS 包虽然不能进行平行性检验但是它可以用 step 函数进行逐步的回归分析 VGAM包使用vglm 函数来拟合广义线性模型通过family选项指定需要拟合的logistic 回归模型的类型下面的模型语句中 y income2 指定 y 为结果变量 income2 为探索变量自变量 weights f 指定频数变量 f 如果为原始数据则频数为 1 则不需要使用 data od2 指定所用数据框为 od2 模型中 family cumulative parallel T 指定拟合累计 logistic 回归模型而且 parallel T 指定模型按平行性假定进行拟合该选项可以简写为 family propodds 但是这样写的时候结果变量 y 的函数形式刚好与 family cumulative parallel T 的形式相反所有计算结果保存在模型对象 om 中加载 VGAM 包 library VGAM 统计学进展累积 logisitic 回归模型曾庆 7 建立模型 om vglm y income2 weights f data od2 family cumulative parallel T 为了检验模型 om 满足累积 logistic 回归模型的平行性假设必须建立另外一个非平行模型的假设其模型的语句与上述形式基本相同除了选项 family cumulative parallel T 改变为 family cumulative parallel F 这里 parallel F 指定模型不满足平行性假设这是实际上是拟合多项 logistic 回归模型所有计算结果保存在模型对象 om2 中然后使用函数 lrtest 进行似然比检验检验两个模型即 om 和 om2 是否有统计学差异该检验的 H0 平行性模型与非平行性模型的拟合效果一致即满足平行性假设 H1 平行性模型与非平行性模型拟合效果不一致检验平行性假设的非平行模型 om2 vglm y income2 weights f data od2 family cumulative parallel F 似然比检验检验平行性假设 lrtest om om2 上述似然比检验中平行模型 om 的对数似然函数值 LL 为 103 71 而非平行模型 om2 的对数似然函数值为 103 02 两模型的对数似然值差为 0 6888884 卡方值为 1 3778 即 2 倍对数似然值的差 p 0 5021 结果表明满足平行性假设整体模型的似然比检验的零假设是 H0 所有的回归系数值 i 为 0 采用 lrtest 函数来进行检验下面的似然比检验结果表明卡方值为 7 3627 p 0 0067 拒绝 H0 说明并非所有的回归系数值 i 都为 0 整体模型成立 VGAM lrtest om 显示结果 summary om 统计学进展累积 logisitic 回归模型曾庆 8 用 summary 函数显示结果计算结果表明经过 4 次迭代后模型就获得了结果模型的对数似然函数值 LL 为 103 7095 自由度 df 为 74 离差 deviance 为 207 4189 自由度 df 为 74 同时结果中指定建立的线性预测函数共 3 个累积 logit 函数形式是从低等级 1 向高等级 4 累积概率模型所得的回归系数值 b 列在 Coefficients 段各个的回归系数的检验采用 wald Z 检验零假设是 H0 i 0 各个自变量的回归系数的 wald Z 检验值列在最后一列如将 wald Z 值平方则是其他软件包如 SAS SPSS 中的 wald 卡方统计量 wald Z 值大于 1 96 则 p 0 05 Z 值大于 2 58 则 p0 05 那么对应的自变量没有统计学意义上述结果中 income2 的回归系数 b 是 0 5134789 其标准误是 0 19186 wald Z检验的Z值是2 6763 相应的wald 卡方检验值为7 162582 对应p 0 01 说明income2 的回归系数不等于 0 有统计学意义即收入对结果变量满意度有影响由于只有一个自变量 income2 所以该结果和模型总的似然比检验结果 2 7 3627 p 0 0067 一致所得累计 logistic 回顾模型的 logit 线性形式如下 income2 0 5134789 2 6132914 3 log income2 0 5134789 0 3762620 2 log income2 0 5134789 2 0688262 1 log Xypit Xypit Xypit 记满意度的 4 个等级非常不满稍微满意比较满意非常满意的发生概率分别是 P1 p y 1 X P2 p y 2 X P3 p y 3 X P4 p y 4 X 则 P1 p y 1 X P1 P2 p y 2 X P1 P2 P3 p y 3 X P4 p y 4 X 1 P1 P2 P3 对应的概率模型形式如下统计学进展累积 logisitic 回归模型曾庆 9 income2 0 5134789 914exp 2 61321 1 4 income2 0 5134789 2 6132914exp 1 1 3 income2 0 5134789 0 3762620exp 1 1 3 income2 0 5134789 620exp 0 37621 1 2 income2 0 5134789 2 0688262exp 11 2 income2 0 5134789 2 0688262exp 11 income2 0 5134789 2 0688262exp 1income2 0 5134789 2 0688262exp 1 Xyp Xyp Xyp Xyp Xyp Xyp 或者或者或者由概率模型形式可以知道回归系数 i 的估计值小于 0 说明自变量 X 的取值越大结果变量低等级的发生概率越小反之回归系数 i 的估计值大于 0 自变量 X 的取值越大结果变量高等级的发生概率也越大本例中 income2 的回归系数值 0 5134789 小于 0 表示收入越多结果变量满意度的非常不满的发生概率 p y 1 X 越小而非常满意发生的概率 p y 4 X 也越大可以进一步用 coef 函数提取回归系数计算各个自变量的 OR 值及其 95 可信区间下面的计算程序使用了 wald 可信区间近似方法来计算 OR 的可信区间 OR 计算 wald 近似 95 可信区间 beta coef summary om beta Z 1 pnorm abs beta 3 2 OR exp beta 1 OR95 CIL exp beta 1 1 96 beta 2 OR95 CIU exp beta 1 1 96 beta 2 beta 相似的可以建立包含两个自变量 income2 gender 的累积 logistic 回归模型其结果如下 om6 vglm y income2 gender data od2 weights f family cumulative parallel T summary om6 统计学进展累积 logisitic 回归模型曾庆 10 从结果中可见 gender 变量的 Z 值小于 1 96 表明该变量的回归系数没有统计学意义应该从模型中删除该模型和包含单个变量的 income2 模型可以采用似然比检验进行比较用检验结果来选择更优的模型 VGAM lrtest om om6 比较结果表明两个模型没有显著性差别 2 0 017 p 0 9675 应该采用模型参数更少的模型也就是只有单个自变量 income2 的模型 om 此外选择更优模型还可以比较两个模型的信息统计量 AIC 或者 BIC 分别使用函数 AIC BIC 信息统计量小的模型更优本例中 om 模型的 AIC 是 215 4189 而 om6 模型的 AIC 是 217 4173 也说明了应该选择单变量模型 om 统计学进展累积 logisitic 回归模型曾庆 11 模型计算完毕后使用 predict 函数可以计算连接函数的值预测在给定 X 的情况下结果变量的发生概率 p 按照发生概率 p 的大小可以进一步确定在给定 X 的情况下结果变量的分级结果 VGAM 包默认输出连接函数的值即 type link 各个等级的发生概率用 type response 来计算最可能的分级用 max col 函数来确定预测概率值 pp predict om type response od3 cbind od2 pp head od3 12 上面的计算中计算了给定 X 时结果变量的可能发生概率保存在 pp 中最后 pp 与原数据框 od2 合并为新的数据框 od3 数据框 od3 的结果值中的 1 2 3 4 列表示满意度各个等级的发生概率 p 发生概率的最大等级就是估计预测的满意度的分级预测分类 od3 class max col pp head od3 12 由估计的满意度分级和实际的满意度分级可以列出双向有序表求出估计的正确频数和正确率由下面的计算结果可以看到本例的所有估计的满意度分级都是 3 级即比较满意这样得出该模型的估计正确的频数仅为 63 例正确率仅有 60 58 远没有达到好的水平这从一个方面说明了模型的拟合效果实际是不好的预测分类正确率 with od3 xtabs f y class 统计学进展累积 logisitic 回归模型曾庆 12 prop table with od3 xtabs f y class 模型的拟合效果除了可以用分级正确率来衡量外还可以用模型的拟合卡方检验计算广义决定系数来衡量本例残差离差 deviance 207 4189 自由度 df 74 p 0 001 说明模型实际拟合不理想拟合优度广义 R 2 om null vglm y 1 data od2 weights f family cumulative parallel T LLf logLik om LL0 logLik om null N sum od f McFadden pseudo R2 Cox Snell R2 Nagelkerke R2 cbind McFadden R2 1 LLf LL0 Cox Snell R2 1 exp 2 N LL0 LLf Nagelkerke R2 1 exp 2 N LL0 LLf 1 exp LL0 2 N 上面的程序计算广义 R2 广义 R2 的结果都远远的远离 1 接近 0 说明模型的实际拟合效果并不好当变量数目比较多时可以考虑采用自动逐步变量筛选在 R 中自动逐步变量筛选用 step 函数但是 VGAM 包的 vglm 函数却不能使用 step 函数来进行自变量筛选要进行自变量的筛选必须使用 MASS 包的 polr 函数才能进行下面是用 MASS 包 polr 来进行 om 模型的计算 MASS 包计算首先加载 MASS 包 library MASS om3 polr yy income2 weights f method logistic data od2 summary om3 cbind beta coef om3 t confint om3 exp cbind OR coef om3 t confint om3 统计学进展累积 logisitic 回归模型曾庆 13 上述计算结果中常数项截距的计算结果值与 vglm 函数的结果完全一致但是自变量 income2 的回归系数的值 0 5135 则刚好与 vglm 函数的 income2 的结果值 0 5135 符号相反这是因为两个函数定义的模型形式有差异所致 MASS 包的 polr 函数的累积 logistic 模型定义是etaXjypit j 0 log 采用的是减法形式而一般的累积 logistic 回归如 vglm 的函数定义形式是etaXjypit j 0 log 是加法形式所以两种定义计算出来的符号刚好相反 MASS 包 polr 函数比较方便的是建立的模型可以直接使用 confint 函数来计算其参数的可信区间进而计算出 OR 的可信区间下面建立两变量的累积 logistic 回归模型然后使用 drop1 函数进行自编量的似然比检验似然比检验显示自变量 income2 有统计学意义而 gender 变量则没有统计学意义可以考虑删除 om4 polr yy income2 gender weights f method logistic data od2 summary om4 drop1 om4 test Chisq 统计学进展累积 logisitic 回归模型曾庆 14 在 R 中使用 step 函数进行逐步回归分析采用的是信息量 AIC 选择自变量 R 的逐步法函数 step 通过使用选项 direction backward direction forward direction both 分别指定了向后逐步法向前逐步法和双向逐步法默认采用向后法如果是采用向后法必须首先建立包含所有自变量的模型即全模型如果采用向前法逐步法除了必须要建立包含所有变量的全模型作为逐步法的终点外还需建立最小变量模型作为逐步法起点一般最小模型是不包含自变量的空模型逐步法的结果输出中引入自变量用符号删除自变量用符号同时列出对应的 AIC 变化上面的分析已经建立了包含 2 个自变量的模型 om4 下面语句采用向后法筛选对模型 om4 进行自变量筛选向后逐步计算结果保存在对象 ss1 中 ss1 step om4 逐步法向后法 ss1 step om4 direction backward 统计学进展累积 logisitic 回归模型曾庆 15 逐步分析的对象 ss1 中包含了逐步法的简要过程其分量名字是 anova 可以以摘要结果的显示出来 ss1 anova 最后逐步法最后建立的模型可以用 summary 函数显示下面是指定双向逐步法的语句模型 om4 0 是不包含自变量的空模型作为逐步法的选择模型的起点而全模型 om4 则作为选择模型的终点最后显示选择摘要和最终的模型结果 om4 0 polr yy 1 weights f method logistic data od2 ss2 step om4 0 formula om4 direction both ss2 anova summary ss2 上面结果中 Start AIC 220 78 开始时模型的 AIC 此时模型形式是 yy 1 模型外的自变量是income2和gender 由于引入income2后模型的AIC减少所以首先引入income2 下一步 AIC 215 42 删除模型内的 income2 和增加模型外的 gender 都使 AIC 的值增大所以逐步过程到此结束统计学进展累积 logisitic 回归模型曾庆 16 逐步回归分析必须使用 MASS 包建立模型 library MASS om3 polr yy income2 weights f data od2 summary

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

R软件-医学统计分析-有序logistic回归.pdf

文档简介

温馨提示

最新文档

评论

R软件-医学统计分析-有序logistic回归.pdf

文档简介

温馨提示

最新文档

评论

相关文档