




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021-6-13医用SAS统计分析(五)1 医用SAS统计分析 第五讲 2021-6-13医用SAS统计分析(五)2 一、 多元线性回归 q 基本概念 多元线性回归简称多元回归,是研究一个应变量与多个自变 量间线性依存关系数量变化规律的一种方法。 q 多元线性回归方程 mm XbXbXbbY 22110 式中:b0为回归方程常数项,bj ( j=1,2, ,m )为偏回归系数, 即在其他自变量固定的条件下,Xj改变一个单位时应变量的改 变量。 2021-6-13医用SAS统计分析(五)3 q多元线性回归方程的应用 v 预测应变量的估计值 v 探索影响应变量y的主要因素 v当X为某一定值时,估
2、计应变量y的容许区间 v当X为某一定值时,估计其应变量 的总体均数 的 置信区间 Y Y StY , i Y Y Y StY , 2021-6-13医用SAS统计分析(五)4 q 语句格式 同单变量线性回归基本相同。 proc reg 选项; model 应变量=自变量名列/ 选项;必选语句,定义回归分析模 型 v proc reg 语句的选项 data=数据集 指明回归分析所用的数据集。 outset=数据集 指定一个输出数据集,用以存储回归分析所得的 参数估计 。 simple 输出每个变量的简单统计结果。 2021-6-13医用SAS统计分析(五)5 v model语句的选项 selec
3、tion=method 规定变量筛选方法,method可以是以下几种选项: forward(或 f)前进法,按照sle规定的P值从无到有依次选一个变 量进入模型 backward(或 b)后退法,按照sls规定的P值从含有全部变量的模 型开始,以次剔除一个变量。 stepwise 逐步法,按照sle的标准依次选入变量,同时对模型中现有 的变量按sls的标准剔除不显著的变量。 注:选项中没有selection语句时,模型中含有全部自变量的回归模型。 sle=概率值 入选标准,规定变量入选模型的显著性水平,前进法默认 为0.5,逐步法默认为0.15。 sls=概率值 剔除标准,指定变量保留在模型的
4、显著性水平,后退法默认 为0.1,逐步法默认为0.15。 2021-6-13医用SAS统计分析(五)6 stb 输出各自变量的标准偏回归系数。 cli 输出个体y值的95%容许区间上下限 clm 输出预测值均值 的95%可信区间上下限。 P 输出实际值Yi ,预测值 、残差及其标准误。 tol 输出各自变量的容许值。0tol值1,越接近于0,共线性越严重。 vif 输出各自变量的方差膨胀因子。当vif10时,可认为多元共线性严重存 在。 collin 要求详细分析自变量之间的共线性,给出信息矩阵的特征根、条件 指数和方差比,当条件指数10,方差比0.5时,可认为存在多元共线性。 collino
5、int 与选择项collin作用相同,但不包括回归常数。 R 进行预测值的残差分析(即异常值识别与强影响分析),输出学生化残 差值和Cooks距离D值。当学生化残差值2时,所对应的点可能是异常点, 当D值0.5时,可认为对应的变量值对回归函数是强影响点。 Y StY , Y Y StY , i Y 2021-6-13医用SAS统计分析(五)7 q 完全多元线性回归 例7-7 10名女中学生的体重(X1,kg),胸围(X2,cm),胸围的呼吸差 (X3,cm)及肺活量(Y,ml)的资料如下表所示。现作应变量Y对自变量X1, X2,X3的三元线性回归方程。 data mreg1; input x1
6、 x2 x3 y ; cards; 35 69 0.7 1600 40 74 2.5 2600 40 64 2.0 2100 42 74 3.0 2650 37 72 1.1 2400 45 68 1.5 2200 43 78 4.3 2750 37 66 2.0 1600 44 70 3.2 2750 42 65 3.0 2500 ; proc reg; model y=x1 x2 x3/stb; run; 2021-6-13医用SAS统计分析(五)8 Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean S
7、ource DF Squares Square F Value ProbF Model 3 1250109.0678 416703.02259 5.617 0.0355 Error 6 445140.93222 74190.15537 C Total 9 1695250 Root MSE 272.37870 R-square 0.7374 Dep Mean 2315.00000 Adj R-sq 0.6061 C.V. 11.76582 2021-6-13医用SAS统计分析(五)9 Parameter Estimates Parameter Standard T for H0: Variabl
8、e DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 -3035.536354 2168.6738473 -1.400 0.2111 X1 1 60.931823 36.29713798 1.679 0.1442 X2 1 37.808334 22.98080891 1.645 0.1510 X3 1 101.379460 121.97470310 0.831 0.4377 Standardized Variable Estimate INTERCEP 0.00000000 X1 0.46445689 X2 0.39174762 X3 0.25
9、399450 2021-6-13医用SAS统计分析(五)10 q 逐步回归 v 简介 逐步回归是筛选自变量的常用的方法之一。筛选自 变量的方法还有前进法,后退法和最优回归子集法。逐步回归 法是依据事先给定的两个显著性水平SLE和SLS,将自变量逐 个引入方程,同时每引入一个新变量后,对已选入的变量要进 行逐个检验,将不显著的变量剔除,这样保证最后所得的变量 都有显著性。 v自变量间的多重共线性(multicollinearity) 整个回归方程的统计检验P 的矛盾现象。 偏回归系数的估计值明显与实际情况不符,或者是偏回 归系数的符号与专业知识的情况相反。 2021-6-13医用SAS统计分析(
10、五)11 据专业知识,该自变量与应变量间关系密切,而偏回归系数 检验结果P 。 增加(或删除)一个变量,或者改变(或去除)一个观察值, 引起回归系数估计值发生大的变化。 多重共线性是引起上述问题的重要原因。 v解决多重共线性的办法 用主成分估计等有偏估计替代最小二乘估计。 用逐步回归等方法筛选自变量。 如上例7-7,整个回归模型P=0.0355,而b0,b1,b2,b3P值均大于 0.05。估计变量之间存在共线性问题。 2021-6-13医用SAS统计分析(五)12 程序7-13 data stepreg1; input x1 x2 x3 y ; cards; 35 69 0.7 1600 4
11、0 74 2.5 2600 40 64 2.0 2100 42 74 3.0 2650 37 72 1.1 2400 45 68 1.5 2200 43 78 4.3 2750 37 66 2.0 1600 44 70 3.2 2750 42 65 3.0 2500 ; proc reg; model y=x1-x3/stb tol vif collin collinoint R; model y=x1-x3/selection=stepwise sle=0.25 sls=0.25 stb; run; 2021-6-13医用SAS统计分析(五)13 例(医学统计学王洁贞主编,例15.1) 某科
12、研协作组调查某煤矿期高血压病患者40例,X1为工作面污染程度 等级,X2为井下工龄(年),X3为体重(kg),X4为吸烟年限(年),X5为饮 酒年限(年),Y为收缩压(kPa),试作多元线性回归分析。 data stepreg2; infile d:sassas5wang15_1.txt; input id x1 x2 x3 x4 x5 y ; proc reg; model y=x1-x5/stb tol vif collin collinoint r; model y=x1-x5/selection=stepwise sle=0.05 sls=0.05 stb; run; 2021-6-1
13、3医用SAS统计分析(五)14 二、多元线性相关 研究多个变量间线性关系的一种统计分析方法。变量间 相关系数有以下三类: v 简单相关系数 它是说明两个变量相关程度和方向(不考 虑其他变量的影响)的统计指标(ri, j)。 v 偏相关系数 它是当其他变量固定时,说明某两个变量间 相关程度和方向的统计指标(如r12,3)。 v 复相关系数R 亦称为全相关系数。说明应变量与各自变 量的线性关系的密切程度。 v 决定系数 R2 复相关系数的平方。它说明应变量的变异 中由各自变量的改变而引起的占多少。如R2=0.8,则说明应 变量的变异中有80%由自变量的改变而引起的。 2021-6-13医用SAS统
14、计分析(五)15 程序7-12 data mcorr1; infile d:sassas5mcorr1.txt; input x1 x2 x3 y ; proc corr nosimple; /* 禁止一些简单统计量的输出*/ var x1 x2 x3 y; /* 包括了所有变量,实际可以省略*/ proc corr nosimple; var x1 x2; partial x3 ; /* partial语句的作用是固定x3 */ proc corr nosimple; var x1 x2; partial x3 y; /* partial语句的作用是固定x3和y */ run; 2021-6
15、-13医用SAS统计分析(五)16 三、Logistic回归分析 q 简介 Logistic回归模型是适用于应变量(因变量)为分类变量的回归分析。当 应变量为分类变量时,如应变量结果为二分类变量的发病、不发病,生存、死 亡等,是不能用多元线性回归模型(Y=0+i xi)来分析各种危险因素与应变 量之间的关系的。因为应变量Y只能取值为1和0。不符合线性回归模型中应变 量Y应具有正态分布和方差齐性的要求,同时线性回归模型得到的Y值会出现大 于1或小于0的不合理结果,显然不能用线性回归建立预测模型。 以发病为例,发病的概率为P,不发病的概率为1-P,0P1。 iiX Y P P 0 1 ln 公式等
16、号左边简称为logit(P),即 logit(P)= 0+i xi 可证明,无论Y得何值,均0P1。上式可推导为: 2021-6-13医用SAS统计分析(五)17 ii ii X X e e P 0 0 1 iiX e P 0 1 1 1 q Logistic回归的应用 logistic回归在流行病学和临床流行病学等方面应用广泛,既 可用于前瞻性的队列研究,又可用于回顾性的病例对照研究。 常用于: 病因学分析; 预后分析; 鉴别诊断; 评价治疗措施; 毒物的半数效量和联合作用 2021-6-13医用SAS统计分析(五)18 qLogistic回归的分类 按应变量的类型分类为: v 两分类的Lo
17、gistic回归 非条件logistic回归 即研究对象未经过配对。(在SAS 中调用logistic模块进行统计)。 条件logistic回归 即在配对病例对照研究中的1:1和1:M 及N:M配对。(在SAS中调用Phreg模块进行统计)。 v 多分类有序反应变量的Logistic回归 (在SAS中调用 logistic模块进行统计)。 v 多分类无序反应变量的Logistic回归 (在SAS中调用 Catmod模块进行统计)。 本讲主要介绍两分类Logistic回归 2021-6-13医用SAS统计分析(五)19 q 两分类非条件Logistic回归 语法格式 Proc logistic
18、data=数据集 选项 ; model 应变量名=自变量名列 / 选项 ; freq ;可选项,指明频数变量。 output ; output语句创建一个新的SAS数据集,其含有每个个体的 原始数据, pred|p=变量名为在out=数据集中含有每个个 体预测概率。 【Procroc语句的语句的 选项选项 】 order=data 规定按照数据集中反应变量水平出现的先 后顺序进行运算。 descending(或des) 规定按照反应变量降序水平进行运 算。 2021-6-13医用SAS统计分析(五)20 注意:以上两个选项非常重要,如死亡为1,存活为0, 为了得到死亡对存活的概率(或者说是死亡
19、的危险),应选 择此两个选项之一,否则得到的是存活对死亡的概率,因为 logistic回归模型是自动按反应变量值为小的来拟合方程的。 反之,如果死亡为0,存活为1,可不选此两项之一, 【 model语句的语句的 选项选项 】 selection=forward(或f)| backward(或b) | stepwise (或s) | score 规定变量的筛选方法,分别为向前、向后、逐步和 最优子集法。缺省时为none,拟合全回归模型。 sle=概率值 指定变量进人模型的显著水平,缺省为0.05。 sls=概率值 指定变量剔除模型的显著水平,缺省为0.05。 CL 计算输出所有回归参数的可信区间
20、。 2021-6-13医用SAS统计分析(五)21 clodds=pl 计算输出OR的可信区间。 scale=none aggregate 要求对模型进行拟合优度检验。 例9-4 40例病人的治愈情况Y(Y=0表示未愈,Y=1表示治愈,病情严重程度 X1(X1=0 表示不严重,X1=1表示严重),年龄X2为连续变量,治疗方法X3(X3=0 表示新方法,X3=1表示一般疗法),数据如表9.6,试作logistic回归分析。 程序9-4 data c; infile d:sassas5cx9_4.txt; input y x1-x3; proc logistic des; /*按降序水平进行运算*
21、/ model y=x1-x3/scale=none aggregate;/*对模型进行拟合优度检验*/ Output out=b p=pr; /*在数据集b中含有每个个体的预测概率值*/ run; 2021-6-13医用SAS统计分析(五)22 The LOGISTIC Procedure Data Set: WORK.C 数据集名 Response Variable: Y 反应变量Y Response Levels: 2 反应变量水平数2 Number of Observations: 40 观察值40 Link Function: Logit 联系函数logit Response Pro
22、file 反应变量的描述 Ordered 顺序值 Value Y Count 计数值 1 1 17 2 0 23 2021-6-13医用SAS统计分析(五)23 Deviance and Pearson Goodness-of-Fit Statistics 模型的拟合优度检验 Pr Criterion DF Value Value/DF Chi-Square Deviance 31 36.3231 1.1717 0.2344 Pearson 31 29.5583 0.9535 0.5402 Model Fitting Information and Testing Global Null Hy
23、pothesis BETA=0 模型拟合信息和整体偏回归系数为0 的假设检验 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates 判断的准则 仅有截距 所有变量 协变量的卡方 AIC 56.548 55.413 . SC 58.237 62.169 . -2 LOG L 54.548 47.413 7.135 with 3 DF (p=0.0677) Score . . 6.630 with 3 DF (p=0.0847) 2021-6-13医用SAS统计分析(五)24 Analysis of
24、Maximum Likelihood Estimates 最大似然法估计值分析 Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 3.7025 2.1442 2.9817 0.0842 . . X1 1 -0.6157 0.7135 0.7446 0.3882 -0.171877 0.540 X2 1 -0.0939 0.0636 2.1812 0.1397 -0.309336 0.910 X3 1 -1.
25、5236 0.7396 4.2430 0.0394 -0.424813 0.218 Association of Predicted Probabilities and Observed Responses 模型回代判别分析 Concordant = 71.9% (一致率) Somers D = 0.448 Discordant = 27.1% (非一致率) Gamma = 0.452 Tied = 1.0% (结点率) Tau-a = 0.224 (391 pairs) c = 0.724 2021-6-13医用SAS统计分析(五)25 321 321 5236. 10939. 06157.
26、 07025. 3 5236. 10939. 06157. 07025. 3 1 XXX XXX e e P 治愈的概率模型为: 例2 为了探讨冠心病发生的有关危险因素,对26例冠心病 病人和28例对照者进行病例对照研究,各因素的说明见下表。 试用logistic逐步回归分析方法筛选危险因素。 2021-6-13医用SAS统计分析(五)26 表 冠心病8个可能的危险因素与赋值 因素 变量名 赋值说明 年龄(岁) X1 45=1, 4554=2, 5564=3, 65=4 高血压史 X2 无=0, 有=1 高血压家族史 X3 无=0, 有=1 吸烟 X4 不吸=0, 吸=1 高血脂史 X5 无=
27、0, 有=1 动物脂肪摄入 X6 低=0, 高=1 体重指数(BMI) X7 24=1, 2426=2, 26=3 A型性格 X8 否=0, 是=1 冠心病 Y 对照=0,病例=1 2021-6-13医用SAS统计分析(五)27 程序 data ex16_2; infile d:sassas5log2.txt; input x1-x8 y; proc logistic des; model y=x1-x8/selection=stepwise sle=0.1 sls=0.1 clodds=pl ; run; 2021-6-13医用SAS统计分析(五)28 q条件Logistic 回归 条件Lo
28、gistic回归分析是用phreg(proportional hazard regression ,比例风险回归)模块完成的。 Phreg模块主要用 于Cox回归的计算) 语法格式 在data步先建立一个时间哑变量,一般为time=1-case; (如病例case=1,对照case=0,则病例哑变量time=0,对照 哑变量time=1,要求病例的time要小,对照的time要大)。如 果病例case=0,对照case=1,时间哑变量为time=case。 Proc phreg 选项 ; model =/选项; 2021-6-13医用SAS统计分析(五)29 Strata ; Freq ; 【
29、Proc phreg 选项 】; nosummary 不打印输出事件和截尾数值。 simple 输出模型中变量的简单统计描述 【 model 过程过程 选项选项 】 ties=discrete 用离散的logistic模型替代比例风险模型。此 句必选! selection=forward(或f)| backward(或b) | stepwise(或s) | score 规定变量的筛选方法,分别为向前、向后、逐步和最优子集法。 缺省时为none,拟合全回归模型。 2021-6-13医用SAS统计分析(五)30 sle=概率值 指定变量进人模型的显著水平,缺省为0.05。 sls=概率值 指定变量
30、剔除模型的显著水平,缺省为0.05。 risklimits 计算输出RR的可信区间。 alpha=概率值 指定RR的(1-)可信区间,缺省时为0.05。 q 1:1配对条件Logistic回归 例9-8 为研究胃癌的危险因素,某医学院用103对1:1 配对资料,这里选用其中10对三个因素,即X1(蛋白质摄入量 0,1,2,3),X2(不良饮食习惯0,1,2,3)及X3(精神因 素0,1,2)。数据如表9.11。试作条件Logistic回归分析。 2021-6-13医用SAS统计分析(五)31 表9.11 10对胃癌的1:1配对数据 对号 病例对照 X1X2X3X1X2X3 1 2 3 4 5
31、6 7 8 9 10 1 0 0 1 1 0 1 1 3 2 3 3 1 2 1 2 1 1 3 2 0 1 2 0 1 2 1 2 2 2 1 1 0 1 1 2 0 0 2 0 0 3 2 0 2 0 0 0 2 0 1 0 0 0 1 0 0 0 0 0 2021-6-13医用SAS统计分析(五)32 程序 data log1_2; do id=1 to 10; do case=0 to 1; input x1-x3 ; time=case; output; end; end; cards; 1 3 0 1 0 1 0 3 2 1 3 0 0 1 2 0 2 0 1 2 0 1 0 0
32、1 1 1 1 2 1 0 2 2 2 0 0 1 1 1 0 0 0 1 1 2 0 0 0 3 3 2 2 2 0 2 2 2 0 0 0 ; proc phreg; model time*case(1)=x1-x3/ ties=discrete selection=stepwise sle=0.25 sls=0.25; strata id; run; 2021-6-13医用SAS统计分析(五)33 The PHREG Procedure Data Set: WORK.LOG1_2 Dependent Variable: TIME 反应变量time Censoring Variable:
33、CASE 截尾变量case Censoring Value(s): 1 截尾值为1 Ties Handling: DISCRETE 结点处理方法为 discrete Summary of the Number of Event and Censored Values Percent Stratum ID Total Event Censored Censored 1 1 2 1 1 50.00 2 2 2 1 1 50.00 10 10 2 1 1 50.00 - - Total 20 10 10 50.00 2021-6-13医用SAS统计分析(五)34 Step 1: Variable X
34、3 is entered. The model contains the following explanatory variables. X3 Testing Global Null Hypothesis: BETA=0 Without With Criterion Covariates Covariates Model Chi-Square -2 LOG L 13.863 7.158 6.705 with 1 DF (p=0.0096) Score . . 5.538 with 1 DF (p=0.0186) Wald . . 3.139 with 1 DF (p=0.0764) 2021
35、-6-13医用SAS统计分析(五)35 Step 2: Variable X2 is entered. The model contains the following explanatory variables. X2 X3 Testing Global Null Hypothesis: BETA=0 Without With Criterion Covariates Covariates Model Chi-Square -2 LOG L 13.863 3.724 10.139 with 2 DF (p=0.0063) Score . . 7.229 with 2 DF (p=0.0269
36、) Walt . . 2.467 with 2 DF (p=0.2913) NOTE: No (additional) variables met the 0.25 level for entry into the model. 2021-6-13医用SAS统计分析(五)36 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Risk Variable DF Estimate Error Chi-Square Chi-Square Ratio 变量 自由度 参数估计值 标准误 wald卡方值 P值 RR值 X
37、2 1 1.165351 0.81080 2.06579 0.1506 3.207 X3 1 2.067157 1.63944 1.58985 0.2073 7.902 Summary of Stepwise Procedure Variable Number Score Wald Pr Step Entered Removed In Chi-Square Chi-Square Chi-Square 1 X3 1 5.5385 . 0.0186 2 X2 2 3.4594 . 0.0629 32 32 067157. 2165351. 1 067157. 2165351. 1 1 XX XX
38、e e P 胃癌患病的概率模型为: 2021-6-13医用SAS统计分析(五)37 q 1:M或N:M的条件Logistic回归 1:M配比是一个病例配M个对照,N:M配比是N个病例配M个对 照。使用的SAS语句和1:1配对基本是一致的。 例题 某北方城市研究喉癌发病的危险因素,用1:2配对的病 例-对照研究方法进行了调查。先选取了6个可能的危险因素并节 录25对数据,各因素的赋值说明见下表1,资料列于表2。试作条 件Logistic逐步回归。 2021-6-13医用SAS统计分析(五)38 表1 喉癌的危险因素与赋值说明 因素 变量名 赋值说明 咽炎 X1 无=1,偶尔=2,经常=3 吸烟量
39、(支/日) X2 0=1,14=2,59=3, 1020=4,20=5 声嘶史 X3 无=1,偶尔=2,经常=3 摄食新鲜蔬菜 X4 少=1,经常=2,每天=3 摄食水果 X5 很少=1,少量=2,经常=3 癌症家族史 X6 无=0,有=1 是否患喉癌 Y 病例=1,对照=0 2021-6-13医用SAS统计分析(五)39 表2 喉癌1:2配对病例-对照调查资料整理表 配比组号 i Y X1 X2 X3 X4 X5 X6 j 1 1 3 5 1 1 1 0 0 1 1 1 3 3 0 0 1 1 1 3 3 0 2 1 1 3 1 1 3 0 0 1 1 1 3 2 0 0 1 2 1 3 2
40、 0 i 25 1 1 4 1 1 1 1 0 1 1 1 3 2 0 0 1 1 1 3 3 0 2021-6-13医用SAS统计分析(五)40 程序 data log1_4; infile d:sassas5log1_4.txt; do i=1 to 25; do j=1 to 3; input y x1-x6; time=1-y; output; end; end; proc phreg nosummary; model time*y(0)=x1-x6/ties=discrete selection=stepwise sle=0.1 sls=0.1 risklimits; strata
41、i; run; 2021-6-13医用SAS统计分析(五)41 四、 生存分析 q 简介 v 概念 生存分析是将事件的结果和出现此结果所经历的时间结 合起来分析的统计分析方法。 v 生存分析的数据 完全数据 即掌握研究事件的起点,又掌握终点的生存时间 资料为完全数据,一般用t来表示。 不完全数据 因迁移原因失去联系;死于其他原因; 在总结分析时仍然生存。生存分析中称这种不完全数据为截尾 数据、删失数据、终检数据(censored data)。 v 生存率(survival rate) 又称累积生存概率,即个体活过时点t的 概率,用S(t)表示。 )()(tTPtS 2021-6-13医用SAS
42、统计分析(五)42 v 生存分析的三种变量 1.目标变量 即生存时间,常记为t。 2.协变量 可以是研究因素,也可以是排除其影响的因素,常 记为x1,x2,xp。 3.截尾变量 常记为censor或d等。 v 生存分析的任务 估计生存率;比较生存率;寻找影响因素。 v 生存分析的方法 参数法 已知生存时间T 服从某特定的分布类型,对分布的参 数作统计描述与推断。常见的有:Weibull分布,指数分布,正 态分布等。相应的SAS过程为lifereg。 非参数法 不知生存时间T的分布类型或不符合特定的分布类 型,对整个分布或某个特征作统计描述与推断。常用乘积极限 2021-6-13医用SAS统计分
43、析(五)43 法(product limit method)和寿命表法(life table method)估计生存 率和中位生存时间等;用时序检验(log-rank test),Wilcoxon检验 和似然比检验等作分组比较。相应的SAS过程为:lifetest 半参数法 不知生存时间分布确切类型,用模型的方法对模型 的部分参数作统计描述与推断。常用的是Cox模型。相应的SAS 过程为:phreg。 注:半参数法与参数法可用来研究多个因素对生存时间的影 响,非参数法难以实施多因素生存分析。 q 非参数法的lifetest过程 v 语法格式: PROC LIFETEST 选项; TIME ;
44、2021-6-13医用SAS统计分析(五)44 STRATA;(指定比较的分组变量,按分组变量名列 分别进行分析和比较。) TEST; (指定协变量名列,检验生存时间与该变量是 否有关) Freq ; (指定频数变量名) v PROC过程选项 1.method=方法 指定估计生存率所用的方法: PL 要求用乘积极限法(即Kaplan-Meier 法)估计生存率并计算中 位生存时间等,为缺省方法。 LT 要求用寿命表法估计生存率等。 2.intervals=(初值 to 终值 by 步长) 或 width=数值 只能在指定方法为寿命表法时使用。用寿命表法分析时,程序会自动 2021-6-13医用
45、SAS统计分析(五)45 给定生存时间的区间。如果人为规定生存时间的分组区间,则需用该选 项指定。 3. Plots=绘图类型 要求输出生存分析图。可供输出的图形有: S 对生存函数S(t)作图。横、纵坐标分别为t,S(t)。 H 对风险函数作图。横、纵坐标分别为t,H(t)。 v 小样本资料的乘积极限法 (Kaplan-Meier法 ) 例15-1 25例某种癌症的患者在不同的日期随机分配至两治疗 组,分别以A、B两种治疗方法进行治疗。治疗后继续对这些病 人进行随访至到2003年5月31日结束。资料如表15.1所示,数 字后又+号者为删失值。试进行生存率分析。 2021-6-13医用SAS统
46、计分析(五)46 data life1; do group=1 to 2; input n; do i=1 to n; input t ; if t Test Chi-Square DF Chi-Square Log-Rank 时序检验 0.6640 1 0.4152 Wilcoxon 秩和检验 0.3272 1 0.5673 -2Log(LR) 似然比检验 1.0362 1 0.3087 2021-6-13医用SAS统计分析(五)53 例 王洁贞主编医学统计学例14.1 P202 手术疗法组: 52 78 92 96 105 123 145 136* 157* 182* 209* 224*
47、手术+化疗组:79 95 117 175 203 102* 157* 199* 216* 246* 269 2021-6-13医用SAS统计分析(五)54 data life2; do group=1 to 2; input n; do i=1 to n; input t ; if t Test Chi-Square DF Chi-Square Log-Rank 28.6179 1 0.0001 Wilcoxon 24.6082 1 0.0001 -2Log(LR) 24.7436 1 0.0001 寿命表资料程序编制的循环语句如下: 2021-6-13医用SAS统计分析(五)61 data
48、life4; do g=1 to 2; /* g=1为甲疗法,g=2为乙疗法*/ input n; /* 输入两疗法的组段数*/ do censor=0 to 1; /* censor=0为死亡数,censor=1为截尾数据*/ do i=1 to n; input t f ; /* 输入每个组段的下限时间和人数 */ output; end; end; end; cards; 4 0 8 7 5 13 4 19 2 0 0 7 1 13 0 19 0 6 7 4 13 2 19 2 25 3 31 1 37 0 7 4 13 2 19 3 25 2 31 4 37 1 ; proc life
49、test method=lt width=6 plots=(s) formchar(1,2,7)=|-+; time t*censor(1); strata g; freq f; run; 2021-6-13医用SAS统计分析(五)62 五、Cox回归分析 q 简介 Cox回归亦称Cox比例风险回归(Coxs proportional hazard regression),Cox回归是生存分析中最重要的分析 方法之一,其优点是使用条件很宽和便于作多因素分析。 Cox回归是将生存时间和各种影响因素(协变量)关系用回 归方程式来表示,主要解决多因素(如年龄、职业、吸烟、 病情、治疗等)对生存期的影
50、响。由于生存数据不仅包含生 存时间T,同时还有截尾数据,这就造成了用回归方法来研究 生存时间的困难,因此Cox将协变量对生存期的影响表现为 它对危险函数的关系上,以危险度h(t,x)作为反应变量(时 间变量),解决了截尾数据的困难,是多因素生存分析成为 可能。 2021-6-13医用SAS统计分析(五)63 q Cox模型的基本公式 h(t , x)=h0(t)exp(1X1+ 2X2+ pXp) 式中 h(t , x) 为风险率函数,即在协变量(X)影响下的生存时 间已达到t的观察对象在时刻t的瞬时死亡率; h0(t)是所有危险 因素为0时的基础风险率,它是未知的; 是Cox模型的回归系 数
51、,是需要估计的参数。j0,则Xj取值越大时, h(t , x)的 值越大,表示病人死亡的风险越大; j=0,则Xj取值对h(t , x) 没有影响; j0,则Xj取值越大时, h(t , x)的值越小,表示 病人死亡的风险越小; RR(或OR)= h(t , x)/ h0(t)=exp(1X1+ 2X2+ pXp) 2021-6-13医用SAS统计分析(五)64 qCox回归模型的应用 Cox模型属半参数模型,对资料没有特殊的要求,主要用于 肿瘤和其他慢性病的预后分析,还用于慢性病复发期、治愈期 及药物的生效时间等资料。 q语法格式 Proc phreg 选项 ; model =/选项; St
52、rata ; Freq ; 2021-6-13医用SAS统计分析(五)65 output ; output语句创建一个新的SAS数据集,其含有每个个体的原 始数据,包括自变量Xj,生存时间,截尾指示变量。Xbeta=PI 为在out=数据集中含有每个个体的预后指数(PI=jXj),PI 指数越大,病人死亡的危险性越大,PI指数越小,病人死亡的危 险性越小。 【 proc过程过程 选项选项 】 nosummary 不打印输出事件和截尾数值。 simple 输出模型中变量的简单统计描述。 【 model 过程过程 选项选项 】 2021-6-13医用SAS统计分析(五)66 ties=breslo
53、w 是用近似似然估计,为默认的选项。 ties=discrete 用离散的logistic 模型替代比例风险模型。 selection=forward(或f)| backward(或b) | stepwise(或s) | score 规定变量的筛选方法,分别为向前、向后、逐步和最优子集法。 缺省时为none,拟合全回归模型。 sle=概率值 指定变量进人模型的显著水平,缺省为0.05。 sls=概率值 指定变量剔除模型的显著水平,缺省为0.05。 risklimits 计算输出RR的可信区间。 alpha=概率值 指定RR的(1-)可信区间,缺省时为0.05。 2021-6-13医用SAS统计
54、分析(五)67 例 王洁贞主编医学统计学 P263 表18-2 某恶性肿瘤的影响因素及量化值 变量 含 义 量化值 X1 X2 X3 X4 X5 X6 T Y 病人的年龄 性别 组织学类型 治疗方式 淋巴结是否转移 肿瘤的浸润程度 病人的生存时间 病人的结局 岁 女 0 , 男1 低分化 0 ,高分化 1 新治疗方式 0 ,传统治疗方式 1 否 0 ,是 1 未突破浆膜层 0 ,突破浆膜层 1 月 死亡 0 , 截尾 1 2021-6-13医用SAS统计分析(五)68 程序 data cox; infile d:sassas5cox.txt; input id x1-x6 t y; proc
55、phreg data=cox; model t*y(1)=x1-x6/selection=stepwise risklimits; output out=cox1 xbeta=PI; run; 2021-6-13医用SAS统计分析(五)69 The PHREG Procedure Data Set: WORK.COX 分析的数据集名 Dependent Variable: T 时间变量 Censoring Variable: Y 截尾变量 Censoring Value(s): 1 截尾值 Ties Handling: BRESLOW 似然函数形式 Summary of the Number
56、of Event and Censored Values 时间和结尾数据的摘要 Percent Total Event Censored Censored 63 26 37 58.73 2021-6-13医用SAS统计分析(五)70 Step 1: Variable X4 is entered. The model contains the following explanatory variables. X4 Testing Global Null Hypothesis: BETA=0 偏回归系数为0 的假设检验 Without With Criterion Covariates Covariates Model Chi-Sq
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国4色抱心小熊数据监测报告
- 2025年中国1178门锁数据监测报告
- 2025至2030年中国镀镍灯钩市场分析及竞争策略研究报告
- 2025至2030年中国金卤灯电感镇流器市场分析及竞争策略研究报告
- 2025至2030年中国西咪替丁胶囊市场分析及竞争策略研究报告
- 2025至2030年中国肉制品加工设备市场分析及竞争策略研究报告
- 2025至2030年中国电视遥控器架市场分析及竞争策略研究报告
- 2025至2030年中国燃油热水铸铁锅炉市场分析及竞争策略研究报告
- 2025至2030年中国活化去角质霜市场分析及竞争策略研究报告
- 2025至2030年中国楊贵妃工艺品市场分析及竞争策略研究报告
- 秩序安保维护服务 投标方案(技术方案)
- 中小学校长招聘考试试题
- 2023年陕西邮电职业技术学院教师招聘考试笔试题库及答案
- 化工企业适用-法律法规文件清单
- 工业催化原理及应用
- 国开2023春《语言学概论》形考任务1-3+大作业参考答案
- 公安院校及专业招生政审表
- 青少年体能训练计划方案
- 2023年公需课 大数据概述及基本概念考题
- 广东深圳红岭中学物理自主招生试卷
- 世界卫生组织生存质量测定简表(WHOQOL-BREF)
评论
0/150
提交评论