版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、随机效应模型简介,Introduction to random effect models,提纲(outline),线性模型简介 广义线性模型简介 从几个简单例子介绍随机效应模型 重复测量资料的随机效应模型 GEE 多水平模型 其他非独立数据的随机效应模型 随机效应模型拟合中的一些问题,3. 从几个简单例子介绍随机效应模型,例3.1(配伍组设计) 四种抗癌药物抑瘤效果的配伍组方差分析,测量值越大提示效果越好。,区组方差分析结果,例3.1资料的处理效应和区组效应(近似值),根据处理效应、区组效应计算的理论值,各观察值的残差,固定效应模型,随机效应模型,Two-way ANOVA (fixed m
2、odel) Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr F Model 7 0.52317000 0.07473857 4.11 0.0157 Error 12 0.21811000 0.01817583 Corrected Total 19 0.74128000 R-Square Coeff Var Root MSE y Mean 0.705766 35.85579 0.134818 0.376000 Source DF Anova SS Mean Square F Value Pr F a 3
3、0.41084000 0.13694667 7.53 0.0043 b 4 0.11233000 0.02808250 1.55 0.2514,The Mixed Procedure Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr |t| intercept 0.2480 0.06427 4 3.86 0.0182 a 1 0.3700 0.08527 12 4.34 0.0010 a 2 0.05200 0.08527 12 0.61 0.5533 a 3 0.09000 0.08527 12 1
4、.06 0.3120 a 4 0 . . . . Type 3 Tests of Fixed Effects Num Den Effect DF DF F Value Pr F a 3 12 7.53 0.0043 Cov Parm Estimate b 0.002477 Residual 0.01818,固定效应模型,随机效应模型,The ANOVA Procedure (不考虑区组因素) Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr F Model 3 0.41084000 0.13694667
5、6.63 0.0040 Error 16 0.33044000 0.02065250 Total 19 0.74128000 R-Square Coeff Var Root MSE y Mean 0.554231 38.22069 0.143710 0.376000 Source DF Anova SS Mean Square F Value Pr F a 3 0.41084000 0.13694667 6.63 0.0040,这个例子告诉我们: 不同来源的变异,可以用固定效应表示,也可以用随机效应表示; 当不关心固定效应大小时,宜用随机效应; 当因素的取值是随机时,最好用随机效应。,例3.2
6、 Hall和Northfield调查了26名病人的胃液的pH值及尿中亚硝酸盐的浓度,如下表。试描述两者之间的关系。,26名病人的胃液的pH值及尿中亚硝酸盐浓度的散点图,平均数随自变量的增加而增加,方差也随自变量而增加,26名病人的胃液的pH值及尿中亚硝酸盐浓度的散点图(方差随自变量的增加而增加),Y是正态分布、等方差示意图,Y是正态分布、不等方差示意图,随机系数模型的估计结果,*随机系数模型 proc mixed; class id ; model y = x /s; random x / subject = id; run;,随机系数模型的估计结果,*随机系数模型 proc nlmixed
7、data=ex_1 method=FIRO; parms beta0=-12 beta1=10.2 s2=200 s2z2=20; c2 = beta1 * x + z2 * sqrt(x); yhat = beta0 + c2; model y normal(yhat, s2); random z2 normal(0, s2z2) subject=ID; run;,这个例子告诉我们:,当变异随某因素变化时,可以对变异进行回归分析;,23,Weight(g),Time(day),0,4,7,14,21,35,49,70,100,0.0,100.0,200.0,300.0,例3.3 100只雌性
8、大鼠从出生到第100天的体重(g)变化趋势,生长曲线的固定和随机效应模型,例3.4 药代动力学模型,proc nlmixed data=theoph; parms beta1=-3.22 beta2=0.47 beta3=-2.45 s2b1=0.03 cb12=0 s2b2=0.4 s2=0.5; cl = exp(beta1 + b1); ka = exp(beta2 + b2); ke = exp(beta3); pred = dose*ke*ka*(exp(-ke*time)-exp(-ka*time)/cl/(ka-ke); model conc normal(pred,s2); r
9、andom b1 b2 normal(0,0,s2b1,cb12,s2b2) subject=subject; run;,这两个例子告诉我们:,在回归模型中,当个体的趋势不尽相同时,回归模型的系数可以表示为随机的。,忽略随机效应的后果:一个虚拟的例子(Extreme Example ),Subject specific effects of X on Pr(Death), OR = 20 per 1 unit increase in X,Population average effect of X on Pr(Death), OR = 2.7 per 1 unit increase in X,
10、随机效应模型的不同名称,随机效应模型(random effect model) 混合效应模型(mixed model) 随机成分模型(random components model) 随机系数模型(random coefficients model),4 重复测量资料的随机效应模型,重复测量设计资料的特点 Repeated Measurement Data 数据的相关结构 GEE 多水平,32,4.1 重复测量设计,重复测量设计(repeated measurement design) 受试者内设计(within-subject design) 是指同一观察对象的某观察指标在相继的不同时间点上
11、进行的多次观察。 Longitudinal data, in growth study Repeated measures data, in experimental study Panel data, in social research,33,4.1重复测量资料的特点,在相继的不同时间点上进行的多次观察不是随机确定的; 重复测量值之间是非独立的。,34,两种设计,3个处理组:A、B、C 4个不同观察时间:1,2,3,4,12个试验单元 T1T2T3T4 AXXXX BXXXX CXXXX,35,两种设计,3个处理组:A、B、C 4个不同观察时间:1,2,3,4,完全随机区组设计 112个动
12、物随机分配到12个试验单元 T1T2T3T4 A81311 B2479 C126105,重复测量 13个动物随机分配到3个组 T1T2T3T4 A1111 B2222 C3333,36,4.1 重复测量的数据结构,个体:2水平 重复测量值:1水平,37,4.1 多中心临床试验中重复测量,中心(医院):3水平 个体:2水平 重复测量值:1水平,38,4.1 重复测量的数据结构(固定重复时间),t1t2t3t4t5t6 ID1 ID2 ID3 ID4 ,39,4.1 重复测量的数据结构(不固定重复时间),ID1 t11 t12 t13 t14 t15 t16 ID2 t21 t22 t23 t24
13、 ID3 t31 t32 ID4 t41 t42 t43 t44 t45 t46,4.2 重复测量值间的相关,等相关(exchangeable, compound symmetry),4.2 重复测量值间的相关,相邻相关(non-stationary 1-dependence),4.2 重复测量值间的相关,1 阶平稳相关( stationary 1-dependence),4.2 重复测量值间的相关,自相关(autocorrelation)。,4.2 重复测量值间的相关,时依相关(time-dependent correlation)。,4.2 重复测量值间的相关,非确定相关(unstruct
14、ured, general structure),4.2 重复测量值间的相关,特定的相关结构,47,线性模型时方差协方差矩阵的表示,48,重复测量资料的方差协方差矩阵的表示,重复测量资料的方差协方差矩阵的表示,50,重复测量概念的推广,重复测量的概念不仅仅是时间上(temporal)的,也可以推广到空间(spatial)。 例如: 同一母鼠所生的仔鼠; 同一家庭的不同成员; 同一患者的两个不同膝关节; 同一肿瘤患者的不同肿块; 同一条河流的不同采样点; ,51,传统方法分析重复测量资料及其弊端,重复测量资料不符合独立性假设。 对平衡的重复测量资料,分别在各时间点上进行分析。孤立地看待各时点数据
15、,增加I型误差。 将各个体的几次不同观察值相加,得到该个体的一个综合值,再进行比较分析(aggregated analysis)。人为地减少误差,它忽略了对不同来源的变异的分析;未考虑观察值在时间上的变化规律,也未考虑其他协变量与时间的交互作用对结果的影响。损失了很多信息。 将n个患者的几次不同观察均作为因变量,时间以及其他变量作为自变量,样本含量为 ,拟合线性或广义线性模型。将非独立数据当做独立数据看待,虚增了power,同时增加假阳性。,4.3 广义估计方程,在广义线性模型中,y的协方差结构矩阵: 这里,A i 为对角矩阵, 其对角线上的元素为: 表示y 的均数与方差间的函数关系, 按Li
16、ang input ID group x ; cards; 1 0 65 1 1 34 2 0 73 2 1 36 3 0 73 3 1 37 4 0 30 4 1 26 5 0 73 5 1 43 6 0 56 6 1 37 7 0 73 7 1 50 ; run;,proc mixed data=ex_5_1 ; class id; model x = group /s; random intercept / subject = ID; run; proc genmod data=ex_5_1 ; class id; model x = group ; repeated subject =
17、 ID / type=CS CORRW V6CORR; run;,The Mixed Procedure Covariance Parameter Estimates Cov Parm Subject Estimate Intercept ID 89.3095 Residual 66.9524 Solution for Fixed Effects Effect Estimate SE DF t Value Pr |t| Intercept 63.2857 4.7247 6 13.39 .0001 group -25.7143 4.3737 6 -5.88 0.0011,GEE Working
18、Correlation Matrix Col1 Col2 Row1 1.0000 0.5715 Row2 0.5715 1.0000 Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr |Z| Intercept 63.2857 5.6087 52.2928 74.2786 11.28 .0001 group -25.7143 4.0493 -33.6507 -17.7779 -6.3
19、5 .0001,组内相关和Pearson相关的区别,在配对研究中,基于广义估计方程导出的组内相关系数, 不等于两变量间的Pearson 相关系数。 治疗前后两组数据的Pearson 相关系数为 0.7471。 其方差与协方差分别为: var (x0) = 256. 9048, var(x1)= 55. 6190, cov ( x0, x1) = 89. 3095。,例3.6(重复测量,线性回归) 观察某溶栓药治疗急性脑梗塞患者的疗效,采用双盲、随机、三剂量对照。三组剂量分别为高、中、低。观察指标为神经系统体症总分。,表 30名急性脑梗塞患者治疗不同时期神经系统体症总分,该资料有什么特点?,指定
20、模型,固定效应、随机效应模型估计结果比较(固定效应部分),Standard Parameter Estimate Error t Value P Intercept 103.7222222 1.07197500 96.76 |t| beta0 103.77 2.1260 48.81 .0001 beta1 1.2825 0.1239 10.36 .0001 beta2 -4.0796 3.0066 -1.36 0.1853 beta3 1.4493 3.0067 0.48 0.6334 beta4 2.7579 0.1752 15.74 .0001 beta5 3.0490 0.1752 17
21、.41 .0001,固定效应、随机效应模型估计结果比较(随机效应部分),Sum of Source DF Squares Mean Square F Value Pr F Model 5 61080.93370 12216.18674 200.80 |t| s2 18.4086 1.1538 15.95 .0001 s2z1 41.7216 11.0251 3.78 0.0007,proc mixed; class id group; model y = time group time*group ; random intercept / subject = id; run;,71,例3.7
22、交叉设计(Poisson 分布),比较国产和进口盐酸托烷司琼注射液 缓解化疗所致的恶心和呕吐 采用22交叉设计 110名受试者经随机化,分为AB顺序组和BA顺序组。 AB:国产进口 BA:进口国产 两个化疗周期间隔4周,以便洗脱(wash out)前一个周期用药的影响。 每个周期观察6天,共12天。故每个人共12个重复观察值。,72,数据结构,3水平:医院 2水平:个体 1水平:重复测量,4水平:医院 3水平:个体 2水平:时期 1水平:重复测量,73,盐酸托烷司琼临床试验数据库变量编码,74,例3.7资料的单水平模型(交叉设计),75,例3.7资料的2水平模型(交叉设计),76,例3.7资料
23、的3水平模型(交叉设计),77,2水平方差的估计,78,例3.7资料的3水平模型(交叉设计),79,交叉设计多水平Poisson模型拟合结果比较,80,4水平模型:医院个体时期重复测量,81,4水平模型:医院个体时期重复测量,多元重复测量资料的多水平模型,新药临床试验资料数据库变量编码,新药临床试验原始资料格式,新药临床试验重复测量资料数据格式,3水平模型,新药临床试验资料的多水平模型,内部相关系数,对ESS: 个体内相关系数 医院内相关系数 对ADL: 个体内相关系数 医院内相关系数,多元重复测量资料数据格式,多元多水平模型分析数据格式,4水平模型,4水平模型,多元多水平模型,内部相关系数,
24、对ESS: 个体内相关系数 医院内相关系数 对ADL: 个体内相关系数 医院内相关系数,ESS和ADL的相关系数,医院水平上 个体水平上 重复测量值上,考察性别对2水平的方差是否有影响,固定部分系数的比较,这个例子告诉我们:,采用多元分析比一元分析可提供更丰富的信息。 比如在扣除固定效应的同时,估计不同水平上结果变量间的协方差和相关系数; 可以在标准化的基础上,比较解释变量(自变量)对不同结果变量的影响是否相同。,这个例子告诉我们:,对重复测量资料来说,多水平模型的一个显著特点是可以有效地处理个体重复次数不等的情况。 多个因变量的情形,可以有效地处理具有缺失数据的情形。且估计是有效的、无偏的。
25、,5. 其他非独立数据的随机效应模型,家庭聚集性资料的分析,GEE实例:整群抽样(二分类资料),某单位抽样调查了30 户居民, 询问家庭中每个成员在过去的一年中是否找过医生看过病。结果如下(分母为户人数, 分子为看过医生的人数) : 5/5, 0/5, 2/3, 3/3, 0/2, 0/3 , 0/3, 0/3, 0/4, 0/4, 0/3, 0/2, 0/7, 4/4, 1/3, 2/5, 0/4, 0/4, 1/3 , 3/3, 2/4, 0/3, 0/3, 0/1, 2/2, 2/4, 0/3, 2/4, 0/2, 1/4 研究目的有两个:其一是估计事件率,其二是估计家庭中成员卫生行为的
26、同趋性。,若按二项分布, 得事件率为: p = 30/103= 0.2913, 其95%CI: 0.2094 0.3834 (正态近似法) 0.2059 0.3890 (二项分布法)。,GEE实例:整群抽样(二分类资料),现建立随机效应模型, 假设户内相关结构为等相关。用广义估计方程解得: 得 p (95%CI) = 0. 2869 (0.17240.4373)。 比按二项分布计算的区间要宽 家庭内成员的相关性为: 0.5371。 事实上, 该资料的实际方差(0.3824)远大于纯二项分布之方差(0.2064) “过去一年内找过医生看过病”这一事件具有家庭聚集性。,广义估计方程的估计,proc
27、 genmod; class a b ; model y = a ; repeated subject =b / type=CS CORRW ; run;,随机效应模型与广义估计方程的比较,The Mixed Procedure Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr |t| intercept 0.2480 0.06427 4 3.86 0.0182 a 1 0.3700 0.08527 12 4.34 0.0010 a 2 0.05200 0.08527 12 0.61 0.5533 a
28、 3 0.09000 0.08527 12 1.06 0.3120 a 4 0 . . . . Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr |Z| Intercept 0.2480 0.0336 0.1821 0.3139 7.37 .0001 a 1 0.3700 0.0891 0.1954 0.5446 4.15 .0001 a 2 0.0520 0.0366 -0.0197 0.1237 1.42 0.1553 a 3 0.0900 0.0502 -0.0084 0.1884 1.79 0.0730 a 4 0.0000 0.0000 0.0000 0.0000 . .,6 随机效应模型应用中的常见问题,6.1 方差的估计为负值 中心数太少 各中心样本量太少 随机变量本身变异小于随机误差,6 随机效应模型应用中的常见问题,6.2 参数估计不稳定,或变异太大,或有偏 模型指定错误 样本量太小(高水平单位数、各高水平单位的样本量) 随机效应的自由度小于5 随机变量本身变异小于随机误差 各高水平单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年从奶茶到波士顿龙虾:长江无人机外卖运营模式深度解析
- 2026年健全社保关系转移接续政策跨省通办指南
- 2026年养老社区CCRC模式八大风险识别与防控预案
- 2026年10分钟完成体检家门口便捷检查设备操作语音提示适老化
- 2026年国家空域基础分类方法详解:A B C D E G类空域划分标准与应用
- 2026年2℃ 1.5℃温控情景在气候韧性评估中的应用方法
- 2026年光固化打印机操作与保养指南
- 2026年CCRC养老社区分类与评价标准体系解读
- 2026年电子能量损失谱测量纳米材料带隙技术
- 2026浙江台州市温岭市滨海镇招聘编外工作人员1人备考题库附参考答案详解【模拟题】
- 会计毕业实习报告1000字(30篇)
- 北师大版六年级下册《正比例》课件市公开课一等奖省赛课获奖课件
- 颌面部骨折围手术期的护理
- 地铁行业沟通技巧分析
- 2023年六年级小升初自荐信简历
- 清明时节 奠说巴人获奖科研报告
- 主蒸汽管道更换施工方案
- 如何给领导拍照
- 初中校本课程-【校本课程】春节教学课件设计
- 注塑模具相关零件加工工艺过程卡片
- 急性上消化道出血中心建设PPT文档
评论
0/150
提交评论