




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 1 非条件非条件Logistic 回归分析回归分析 复旦大学复旦大学 2 前言 ? Logistic回归模型是适用于反应变量回归模型是适用于反应变量(因变量因变量) 为分类变量的回归分析为分类变量的回归分析 ? 按设计类型:按设计类型: 条件条件Logistic回归:配对设计(回归:配对设计(proc phreg) 非条件非条件Logistic回归:未配对回归:未配对(proc logistic) ? 按变量类型:按变量类型: 两分类反应变量两分类反应变量(proc logistic) 多分类有序反应变量多分类有序反应变量(proc logistic) 多分类无序反应变量(多分类无序反应变量( proc catmod) 2 3 原理 ?多元线性回归模型:多元线性回归模型: 其中是截距, 是参数向量,其中是截距, 是参数向量,X是自变量 向量。表示 是自变量 向量。表示n个自变量个自变量x与反应变量与反应变量Y间的 关系, 间的 关系,Y为任意实数 ,属于连续变量为任意实数 ,属于连续变量 XxxxY nn +=+=. 2211 4 ?当反应变量为离散型变量时,如研究不 同治疗方法对某病治疗的效果,反应变 量疗效 当反应变量为离散型变量时,如研究不 同治疗方法对某病治疗的效果,反应变 量疗效Y的值为的值为1(治愈)和(治愈)和0(未 愈),要研究的是某种事件(如治愈) 发生的可能与自变量(治疗方法)的关 系,反应变量为事件发生的概率 (未 愈),要研究的是某种事件(如治愈) 发生的可能与自变量(治疗方法)的关 系,反应变量为事件发生的概率P (Y=1)。)。 原理 3 5 ?对概率进行转换,可建立线性回归模型对概率进行转换,可建立线性回归模型 该转换称为该转换称为logit转换。转换。P为事件发生的概率,为事件发生的概率, 1-P为事件不发生的概率为事件不发生的概率 称为比数(称为比数(odds) Xxxx P P nn +=+= . 1 ln 2211 P P 1 oddse X p p = + 1 原理 6 ? 对应的患病率对应的患病率 ? 可见,可见,Odds与与p是一一对应的。如果两个患病率相 等 是一一对应的。如果两个患病率相 等p1=p2 ,则可得两个比数相等,则可得两个比数相等Odds1=Odds2 ; ? 因此我们可以把两个患病率(因此我们可以把两个患病率(PX=1和和PX=2)大小的比 较转化为两个 )大小的比 较转化为两个Odds大小的比较。并引入比数比大小的比较。并引入比数比 (Odds Ratio,OR) 2 2 22 1 1 1 1 1 p Oddsep ORe p Oddse p + + = (1| ) 11 x x Oddse P Yx Oddse + + = + 原理 4 7 基本语句 ?Proc logistic options; ?Model 反应变量反应变量=自变量自变量/options; /*建立模型建立模型*/ ?freq 变量名;变量名; /*指定频数变量指定频数变量*/ ?run; 8 Proc logistic的选项的选项 ?Order=data|formatted 指定响应变量 水平的排列顺序。 指定响应变量 水平的排列顺序。 Data 按在数据集中出现的顺序按在数据集中出现的顺序 Formatted 格式化值的顺序格式化值的顺序 ?Descending 指定响应变量水平按降 序的顺序。如同时选择 指定响应变量水平按降 序的顺序。如同时选择order= 和和 descending,则先按,则先按order排序后再颠 倒次序 排序后再颠 倒次序 5 9 MODEL语句的选项语句的选项 ?关于变量选择: selection=stepwise|forward|backward|s core 其中其中score要求选择最优子集要求选择最优子集 best=n 当指定当指定score进行变量选择时,要 求输出得分卡方统计量最高的前 进行变量选择时,要 求输出得分卡方统计量最高的前n个模型。个模型。 details 在模型选择过程中,输出每一步的 详细结果 在模型选择过程中,输出每一步的 详细结果 sle或或sls 指定进入或剔除出模型的检验水 准 指定进入或剔除出模型的检验水 准 10 ?关于模型拟和优度 Aggregate 和和scale=n|p|d 计算偏差和计算偏差和pearson卡方拟和优度统计量卡方拟和优度统计量 n 对离差参数不进行校正对离差参数不进行校正 p 规定离差参数的估计为规定离差参数的估计为pearson卡方统 计量除以自由度 卡方统 计量除以自由度 d 规定离差参数的估计为偏差除以自由度规定离差参数的估计为偏差除以自由度 MODEL语句的选项语句的选项 6 11 ?参数估计和预测 alpha= 设置可信区间的置信度设置可信区间的置信度 cl要求估计所有参数的可信区间要求估计所有参数的可信区间 plrl对自变量估计比数比的可信区间对自变量估计比数比的可信区间 ctable 和和pprob= 以以pprob=指定的概率 值为分割点,输出根据最后模型预测的 指定的概率 值为分割点,输出根据最后模型预测的Y 的分类表(的分类表(ctable的作用),的作用),ctable选项 仅对两分类变量起作用。 选项 仅对两分类变量起作用。 MODEL语句的选项语句的选项 12 两个协变量的两个协变量的Logistic回归模型回归模型 性别 疾病严重程度 有效(effect=1)无效(effect=0) 合计 不严重(degree=0)21 6 27 女(sex=0) 严重(degree=1) 9 9 18 不严重(degree=0)8 10 18 男(sex=1) 严重(degree=1) 4 11 15 例2:研究性别、疾病的严重程度对疾病疗效的影响,得数据如下 12 ( )degLogit Psexree=+拟合回归方程 7 13 程序7-2: data a1; input sex degree effect count ; cards; 0 0 1 21 0 0 0 6 0 1 1 9 0 1 0 9 1 0 1 8 1 0 0 10 1 1 1 4 1 1 0 11 ; proc logistic descending; freq count; model effect=sex degree/scale=none aggregate; /* 模型的拟合优度检验模型的拟合优度检验*/ run; 14 输出 Deviance and Pearson Goodness-of-Fit Statistics Pr Criterion DF Value Value/DF Chi-Square Deviance 1 0.2141 0.21410.6436 Pearson 1 0.2155 0.21550.6425 两种拟合优度检验的结果均显示:两种拟合优度检验的结果均显示:P值值=0.640.05, 因此可以认为当前模型与拟合最好的模型比较,差别 无统计意义。因此没有必要对模型作进一步改进 , 因此可以认为当前模型与拟合最好的模型比较,差别 无统计意义。因此没有必要对模型作进一步改进 8 15 ?饱和模型结果:饱和模型结果: Intercept Intercept and Criterion Only Covariates AIC 109.669 103.686 SC 112.026 113.112 -2 Log L 107.669 95.686 2 Log L 的差值95.9-95.6860.214 16 输出 ? 模型检验:模型检验: H0: 1= 2=0 vs H1:1,2不全为不全为0 ? 似然比的卡方似然比的卡方(无协变量的无协变量的2LOGL值值)(有两个协变 量的 有两个协变 量的2LOGL值值)107.669-95.9=11.769,自由度,自由度 df=2(模型中的协变量个数模型中的协变量个数),相应的,相应的P值值=0.0028,因此 可以认为两个协变量的回归系数至少有一个不为 ,因此 可以认为两个协变量的回归系数至少有一个不为0。即: 认为模型有意义 。即: 认为模型有意义 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 109.669 101.900 . SC 112.026 108.970 . -2LOGL 107.669 95.900 11.769 with 2 DF(p=0.0028) Score . . 11.241 with 2 DF(p=0.0036) 9 17 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-SquareEstimate Ratio INTERCPT 1 1.1568 0.4036 8.2167 0.0042 . . SEX 1 -1.2770 0.4980 6.5750 0.0103 -0.350072 0.279 DEGREE 1 -1.0545 0.4980 4.4844 0.0342 -0.289086 0.348 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-SquareEstimate Ratio INTERCPT 1 1.1568 0.4036 8.2167 0.0042 . . SEX 1 -1.2770 0.4980 6.5750 0.0103 -0.350072 0.279 DEGREE 1 -1.0545 0.4980 4.4844 0.0342 -0.289086 0.348 回归系数检验:Wald 卡方:大样本时近似标准正态分布,小 样本时可能不如似然比检验 输出 2 2 (1) S ? 18 ?回归方程:回归方程: logitp/(1-p)= 1.1568-1.2770sex - 1.0545degree ?男性治愈与未愈的比值为男性治愈与未愈的比值为 ?女性治愈与未愈的比值为女性治愈与未愈的比值为 ?两个比值的比两个比值的比 122 deg1.277 1deg 1 sexreeree P P ee + + = 122 deg1.277 0deg 1 sexreeree P P ee + + = 279. 0 11 277. 1 = = e P P p p OR 输出 10 19 各子组的模型预测的有效概率和基于有效水平的 Odds (P/1-P) SEX DEGREE Pr(effect=1) Odds of (effect=1) 0 0 1 )1 ( ee+ )1 ( 22 + + ee e 2 + e 1 0 1 )1 ( 11 + +ee )1 ( 2121 + + ee 1 + e 21 + e 20 多分类无序自变量的多分类无序自变量的Logistic回归模型回归模型 ?n分类无序自变量在分类无序自变量在logistic回归模型中 需转变成( 回归模型中 需转变成(n-1)个哑变量进行分析)个哑变量进行分析 ?例例3:研究性别和不同疗法对某病治愈与 否影响。数据如下 :研究性别和不同疗法对某病治愈与 否影响。数据如下 性别 治疗方法(treat)有效(response=1)无效 response=0 合计 A 78 28 106 B 101 11 112 男(sex=m) C 68 46 114 A 40 5 54 B 54 5 59 女(sex=f) C 34 6 40 11 21 ? 由于治疗方式是由于治疗方式是3水平,而且是无序的,必须引入两个水平,而且是无序的,必须引入两个 2水平的哑变量水平的哑变量treata和和treatb进行处理进行处理 ? 需拟合模型需拟合模型 ? 方案方案A与方案与方案C比较比较 ? 方案方案B与方案与方案C比较比较 ? 方案方案B与方案与方案A比较比较 123 ( )Logit Psextreatatreatb=+ 哑变量 treat treata treatb A 1 0 B 0 1 C 0 0 2 2 ORe = 3 3 ORe= 32 : b a ORe = 22 程序 data b; input sex $ treat $ response $ count ; dsex=(sex=m); /*逻辑判别式,如果成立值为1,否则为0:m=1,f=0*/ treata=(treat=A); /*生成哑变量treata,将字符型变量转变成数值型:当 treat=A时,treata=1,其它treata=0 */ treatb=(treat=B); /*同上同上*/ cards; m A cured 78 m A not 28 m B cured 101 m B not 11 m C cured 68 m C not 46 f A cured 40 f A not 5 f B cured 54 f B not 5 f C cured 34 f C not 6 ; proc logistic; freq count; model response = dsex treata treatb/scale=none aggregate; run; 12 23 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-SquareEstimate Ratio INTERCPT 1 1.4184 0.2987 22.5505 0.0001 . . DSEX 1 -0.9616 0.2998 10.2885 0.0013 -0.243789 0.382 TREATA 1 0.5847 0.2641 4.9020 0.0268 0.150196 1.795 TREATB 1 1.5608 0.3160 24.4010 0.0001 0.413281 4.762 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-SquareEstimate Ratio INTERCPT 1 1.4184 0.2987 22.5505 0.0001 . . DSEX 1 -0.9616 0.2998 10.2885 0.0013 -0.243789 0.382 TREATA 1 0.5847 0.2641 4.9020 0.0268 0.150196 1.795 TREATB 1 1.5608 0.3160 24.4010 0.0001 0.413281 4.762 P/1-P=exp(1.4184-0.9616*dsex+0.5847*treata+1.5608*treatb) 输出 24 各子组的模型预测的治愈概率和基于治愈水平的 Odds(P/1-P) SEX TREATA TREATBPr(response=cured) Odds of (response=cured) 0 1 0 0 0 1 0 )1 ( 22 + +ee )1 ( 33 + + ee )1 ( ee+ 2 + e 3 + e e 1 1 0 0 0 1 0 )1 ( 2121 + +ee )1 ( 3131 + + ee )1 ( 11 + +ee 21 + e 31 + e 1 + e 13 25 ? Class 语句:语句: ? 指定分类变量名,要求系统自动生成哑变量指定分类变量名,要求系统自动生成哑变量 proc logistic; freq count; class treat; model response = dsex treat/scale=none aggregate; run; 26 ? 需拟合模型需拟合模型 ? 方案方案A与方案与方案C比较比较 ? 方案方案B与方案与方案C比较比较 ? 方案方案B与方案与方案A比较比较 123 ( )Logit Psextreatatreatb=+ 23 2* 2 ORe + = 32 2* 3 ORe + = 32 : b a ORe = 哑变量 treat treata treatb A 1 0 B 0 1 C -1 -1 14 27 proc logistic; freq count; class treat/param=ref; model response = dsex treat/scale=none aggregate; run; 使用使用param=ref,默认是以最后一个水平作参 照,输出为第一种哑变量编码方式 ,默认是以最后一个水平作参 照,输出为第一种哑变量编码方式 28 连续型自变量的连续型自变量的logistic回归回归 ? 例例4 40例病人的治愈情况例病人的治愈情况(Y=0表示未愈,表示未愈, Y=1表示治愈表示治愈),病情严重程度,病情严重程度X1(X1=0 表示 不严重, 表示 不严重,X1=1表示严重表示严重),年龄,年龄X2及治疗方 法 及治疗方 法X3(X3=0表示新疗法,表示新疗法,X3=1表示一般疗 法 表示一般疗 法),数据如下,试作,数据如下,试作logistic回归分析。回归分析。 ? 年龄年龄X2的的OR值是以值是以1岁为间隔的岁为间隔的OR,即任 意后一岁的比数( ,即任 意后一岁的比数(P/1-P)比上前)比上前1岁的比数 ( 岁的比数 (P/1-P) 15 29 多分类有序反应变量 ? 分类水平大于2个且水平之间有等级关系 ? 例:研究性别和两种治疗方法对某病疗效的影响,疗 效的评价分为三个有序等级,显效、有效和无效,试 对其进行logistic回归分析。 表7.7 性别和两种治疗方法对某病疗效的影响研究 疗效(effect) 性别 治疗方法 显效 (marked) 有效 (some) 无效 (none) 合计 女 (sex=1) 新药疗法(treat=1) 传统疗法(treat=0) 16 6 5 7 6 19 27 32 男 (sex=0) 新药疗法(treat=1) 传统疗法(treat=0) 5 1 2 0 7 10 14 11 30 多分类有序反应变量 ? 拟合累加的logit模型 ? 设有个有序变量水平,则k个模型为 i=1 to k by 1,i为反应变量的水平; 为为k个个截距参数, ) 1( 1+kk XXiYXiY i k i i i )|Pr()|Pr(ln 1 11 += + += k , 21 L 16 31 ?由上式可知由上式可知, ?若令则有若令则有 多分类有序反应变量 1)|Pr( 1 1 = + = k i XiY Pr(|) i Yi X= 1 1 1 = + = k i i 1 11 ln ik ii ii + =+ = ()1 ()(ln 2121ii +LL 32 ?对例题资料应拟合以下两个累加对例题资料应拟合以下两个累加logit模 型: 模 型: () marked112 logit()ln marked somenone sextreat + =+ marked 212 logit(+) ln() markedsome none some sextreat + =+ 多分类有序反应变量 17 33 程序7.6: data d; input sex treat effect $ count; cards; 1 1 marked 16 1 1 some 5 1 1 none 6 1 0 marked 6 1 0 some 7 1 0 none 19 0 1 marked 5 0 1 some 2 0 1 none 7 0 0 marked 1 0 0 some 0 0 0 none 10 ; proc logistic order=data; freq count; model effect=sex treat/scale=none aggregate; run; 34 ?结果结果: ?可写出两个回归方程可写出两个回归方程 marked logit() 2.6672 1.31871.7973sextreat = + marked logit(+) 1.8128 1.31871.7973 some sextreat = + 18 35 Odds表 effect Sex treat )/( nonesomemarked + nonesomemarked / )(+ 1 211 + e 212 + e 1 0 11 + e 12 + e 1 21 + e 22 + e 0 0 1 e 2 e 36 预测概率 effect Sex treat marked none 1 )1/( 211211 + +ee)1/(1 212 + +e 1 0 )1/( 1111 + + ee)1/(1 12 + + e 1 )1/( 2121 + +ee )1/(1 22 + + e 0 0 )1/( 11 ee+ )1/(1 2 e+ 1 somemarkednone = 19 37 多分类无序反应变量 ?反应变量的水平数大于两个,且水平之 间不存在等级递减或等级递增的关系, 则该反应变量称为多分类无序的反应变 量。 反应变量的水平数大于两个,且水平之 间不存在等级递减或等级递增的关系, 则该反应变量称为多分类无序的反应变 量。 ?需要拟合通用需要拟合通用Logits模型(模型(General Logits Model) ?实现实现:SAS/STAT的的CATMOD过程过程 38 ? 例:研究不同社区(communit)和不同性别(sex)的成 人获取健康知识的途径(method)的差别,得到数据 如下表,试进行Logistic回归分析 表7.10 不同社区和不同性别的成人获取健康知识的途径研究 获取健康知识的途径(method) 社区 (communit) 性别 (sex) 大众媒体 (media)网络 (network) 社区教育 (educate) 1 男性(male) 女性 (female) 20 10 35 27 26 57 2 男性(male) 女性 (female) 42 16 17 12 26 26 3 男性(male) 女性 (female) 15 11 15 12 16 20 20 39 ? 构建两个通用模型构建两个通用模型 ? i=1,2指明性别变量的水平;指明性别变量的水平; ? h=1,2,3 代表社区代表社区 ?指通过指通过media方式获取知识的概率方式获取知识的概率 1 1 3 loglog()log() mediahi hi educatehi it = 2 2 3 loglog()log() networkhi hi educatehi it = 1hi 40 ? 两个模型可统一表示为两个模型可统一表示为 ? 其中其中k=1,2代表上述两个代表上述两个logits模型模型 proc catmod ; direct 变量名表变量名表; /*列出数值变量列出数值变量,作为定量变量而不是 定性变量 作为定量变量而不是 定性变量,必须放在必须放在model前前*/ model 响应变量响应变量=自变量表自变量表; log hikkhik itx=+ 21 41 程序 data communit; input communit sex $ method $ count ; cards; 1 male media 20 1 male network 35 1 male educate 26 1 female media 10 1 female network 27 1 female educate 57 2 male media 42 2 male network 17 2 male educate 26 2 female media 16 2 female network 12 2 female educate 26 3 male media 15 3 male network 15 3 male educate 16 3 female media 11 3 female network 12 3 female educate 20 ; proc catmod order=data; /* 按照数据步中变量出现的次序拟合按照数据步中变量出现的次序拟合*/ weight count; model method=communit sex communit*sex; run; 42 ?说明说明: 未列入未列入direct语句的变量均作为分类变量语句的变量均作为分类变量, 社区主效应是多分类变量。在计算时,社区主效应是多分类变量。在计算时, SAS自动将其拆成两个哑变量。即自动将其拆成两个哑变量。即 communit1(0,1变量变量)和和commun
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 塑钢打孔施工方案(3篇)
- 施工方案自己写吗(3篇)
- 瑞安活动策划方案价格优化(3篇)
- 留守儿童踏春活动策划方案(3篇)
- 浙江电缆施工方案(3篇)
- 消防春节宣传活动方案策划(3篇)
- 影像解译考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期期中考试数学考点及答案
- 安徽省宣城市郎溪县2024-2025学年高二上学期期末考试生物考试题目及答案
- 有趣的儿歌教学课件
- 读书分享读书交流会《人生海海》
- 人工智能在检验医学中的应用
- 基于保护创始人股东有限公司章程范本
- 郑州外国语中学初一新生分班(摸底)数学模拟考试(含答案)
- 人教版数学四年级上册教材课后习题参考答案(全)
- 人力资源员工旅游活动方案
- 外贸报价单英文模板excel报价单表格模板
- 夜间专项施工专项方案
- 糖尿病足病历讨论
- GB/T 20028-2005硫化橡胶或热塑性橡胶应用阿累尼乌斯图推算寿命和最高使用温度
- GB/T 13008-2010混流泵、轴流泵技术条件
评论
0/150
提交评论