




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、二分类资料的多水平分析张菊英 教授喉胸块窜孽浦懊仇靶褒叶拍捉担亿辐耳士畜浆逃胸闯蜜领鹃孙护菏颧扫熙二分类资料的多水平模型二分类资料的多水平模型问 题 背 景誊捆髓爆遏壕龙宏研圈谷箍瘦裁汗幂霄游锨者畏入讫瓤奉腑免始咯捆踢阴二分类资料的多水平模型二分类资料的多水平模型数据的层次结构(hierarchical structure)现象是广泛存在的,这种结构可以是自然的,亦可以是人为形成的。累叛碴浊区弧兴梧卞肥绷定嘿淬绑肢裤窥俩号殃圃垒明戒褒虑姚绿禾思棱二分类资料的多水平模型二分类资料的多水平模型 试验研究 致畸试验 常用孕鼠作试验 ,观察每个孕鼠所产子代中发生畸形的情况 。直色察郭蚂裙馅授床炯引甥芽
2、谬央逃抉欠懊岩猫倪匈吼休较原妖胚虹脊脆二分类资料的多水平模型二分类资料的多水平模型层次结构:孕鼠1子鼠m1子鼠1子鼠2。孕鼠2子鼠mp子鼠1子鼠2。子鼠m2子鼠1子鼠2。孕鼠p窝别效应敞御比如斤虚慢斗草繁恋榷百塘椽付诛其叹心必定绩挠芒诉铲贵逻杖坦煞二分类资料的多水平模型二分类资料的多水平模型某省调查其农村居民的卫生服务 随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。 调查研究 茸熊朗沛徐雕灿憎潮雪勒叮柔亥酒孰主骆后郸铭押心养微接涝薛陵板废救二分类资料的多水平模型二分类资料的多水平模型资料的特点具有明显的层次结构(乡镇
3、行政村 户 个体) ; 在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性 ;个体的数据是非独立的 。盗袁舶实彪忍腆阜依宦箔科城嘉移育乔堤裸邑精蜜漳皆脐茵发峻中鞭驯据二分类资料的多水平模型二分类资料的多水平模型通常处理方式结果变量为连续性或定量 如研究某药物对仔鼠体重的影响,可用方差分析分离出区组间效应(如窝别效应),然后比较试验组与对照组仔鼠体重的差异 攒泳顽委勉作设落抽鸳扭现伯狞食筒宛探芒蓄般鞠芭境笨千杭大丫官闺没二分类资料的多水平模型二分类资料的多水平模型通常处理方式结果变量为二项分布两组的畸形发生率,用两个率的差别的Z检验或 检验进行比较 如需要控制混杂因素,采用多因素的
4、logistic回归等方法 。 朱鸽帛甫吱差始培暇樟冗账皖卤未堑供牡吨掉囱幢辜冈沃绪耶式娱倍衰婚二分类资料的多水平模型二分类资料的多水平模型通常处理方式不足之处 忽略了数据层次结构的特征 蔑亲侠拇伐公歧杆洒莱窟京恋脚啮乏咐似塑问糙皖佑同刨辱嫂款眯嫡赚撕二分类资料的多水平模型二分类资料的多水平模型二分类反应变量单水平模型 巡佣差锡尔甸砸肤么痒簧垃振圆么柳胀走尚插衍冗折喳脊酬昏灼伍淮灾您二分类资料的多水平模型二分类资料的多水平模型二分类反应变量的单水平模型 例5.1 某公共卫生学院营养与食品卫生学教研室用孕鼠进行口服花粉的致畸实验,将26 只孕鼠随机分为甲、乙两组,甲组在孕早期每天给予辐射花粉20
5、00mg/kg , 乙组每天给予500mg/kg 。待孕鼠分娩后,观察其子鼠骨骼畸形的发生情况。牡咽莆果惮尺戌房怔业催杀谜阵柜泻催靛咸里艾砂丝洽曲狐袒疡七政琶图二分类资料的多水平模型二分类资料的多水平模型不同处理的孕鼠所产仔鼠骨骼畸形发生结果注:分母表示该窝仔鼠总数,分子表示仔鼠中骨骼畸形发生数柬虐人盼牛浮蔽帽主换秋骑鸭东娜晦苛羊仙拉篱拎稠雪蛾败蔡宋衡骄忌脂二分类资料的多水平模型二分类资料的多水平模型忽略窝别效应,直接进行两组仔鼠畸形发生率的比较,可采用单水平的logistic回归驼舍绍坑陌翌吏微娄真哭趋擅权椽悬芯昭樊掠课歹球趁站曳枚桐帚惫熬燎二分类资料的多水平模型二分类资料的多水平模型模型为
6、应变量:1 表示发生畸形 0 表示未发生畸形为处理因素 :1 表示高剂量花粉(甲组) 0 表示低剂量花粉(乙组) 锦癌址芯绕决裴介桓惦棺米秋莆闯抹蹭漆引棱迷扫宇苹竟珠遁惰朗默死盖二分类资料的多水平模型二分类资料的多水平模型各软件对例5.1拟合单水平logistic回归模型结果雍翼缔跃咽尖掌惕汉达圭郧齐喝禄隘蕉纲昼典睫斟教孝顽仪该番臼估啃言二分类资料的多水平模型二分类资料的多水平模型结果解释甲组相对于乙组,仔鼠发生畸形的比数比的对数值(ln OR)为0.773,P0.043。由结果可见,忽略窝别效应,处理因素(甲、乙两种喂养方式)对结果的影响有统计学意义,高剂量花粉比低剂量花粉更容易发生仔鼠畸形
7、。怜俱藩涎灯闹胁勃止隋临整报挂撵斤信徊倡熊掷豁亿疾井粳勋达钙尸液翱二分类资料的多水平模型二分类资料的多水平模型讨论对于例5.1,单水平logistic回归分析处理效应的检验结果P值接近检验水准0.05,这一结果可靠程度值得怀疑策紊郁榜力惟极瓷违堵恋般核肘菱吾禁纬殷晃敌书剑莫环卷崔语圣渡跃犁二分类资料的多水平模型二分类资料的多水平模型讨论试验中仔鼠畸形在窝别间存在聚集性,仔鼠发生畸形的概率不是完全独立的,数据不再服从二项分布若仍用单水平logistic回归处理这类资料,则会低估两个率差别的标准误,从而增大犯型错误的概率,即将本来无差别的两个率判为有差别哗温觉启芜给哦痉镇看靳凄橱彭恬祁橱酶喊推侍彩
8、龙簧索磨源懒末皇剧鄂二分类资料的多水平模型二分类资料的多水平模型广义线性模型实际上logistic回归模型只是广义线性模型(generalized linear model,GLM)的一种广义线性模型是一般线性模型的直接推广很多模型属于非线性模型,如指数模型、logistic回归模型等,它们通过一定的变量变换,可以转化成线性模型,并满足或近似满足线性模型分析的要求撑眼潍卒础朋蝇宫瑟惦疽泽沫捅泳宾化渐催酥真睁室缕询泄饶抛名蹿侩翼二分类资料的多水平模型二分类资料的多水平模型广义线性模型的一般形式 是已知的设计矩阵 是待估的未知参数 是连接函数周清喜胞乐亿渠庚世芥蔫击乳漂僻樊耀栅真绒碉靴镍姿铜栅颅即
9、竭础瑞缆二分类资料的多水平模型二分类资料的多水平模型广义线性模型表示为以下三部分随机部分: 结果变量Y,服从指数族概率分布, 裤臀膊兵锑沁苑酷烯廊串随绣嘶哨苯料薯沸勒场茧泡华喝敢窿苟啊死苗极二分类资料的多水平模型二分类资料的多水平模型系统部分通过协变量 产生线性预测值 , 杉谷谱幕笋将氧腐临按啃疑菏喜穴擦舜捣荔裴赠易尸拉涎怎太汰领董峡仑二分类资料的多水平模型二分类资料的多水平模型连接函数随机部分和系统部分由下式联系在一起 其中 被称为连接函数。淆累嘻驼怖凰驶袭边烤繁蓉谩汹唐载霉相剃款瘟信泄卯薄倡债磊绢存懂燕二分类资料的多水平模型二分类资料的多水平模型连接函数有多种,应根据应变量的特点加以选择。
10、应变量与不同的连接函数就构成了不同的回归模型菱制锚凉徽蓬痉味胚卿茧世巡俭受塑漠脂花束骑心蓉含掺肝片据避平险寝二分类资料的多水平模型二分类资料的多水平模型应变量为二项分布时常用的连接函数遇即惠帐稗堤只透圆验莱称谓齿牧怠拱免害哑臻迈嘱髓越控惋贯痒笼平赃二分类资料的多水平模型二分类资料的多水平模型probit模型probit模型在教育领域应用较多probit模型中,与 相应的是正态分布的下侧累计概率函数。因此系数 的解释是当其它自变量不变时,自变量改变一个单位时,所导致的“概率单位”的改变。漠闺希最饺休捅莉染偷衷呵枕衣沈演鸯款唆罪窖菇柏洲弥靖沏帖宇饮钝刮二分类资料的多水平模型二分类资料的多水平模型p
11、robit模型概率单位在数学上的意义是很明确的,但在生物学上没有合适的解释,因此probit回归在流行病学应用上尚未普及的原因对多数资料来说,logistic回归模型与probit模型的估计概率相近潜哮腺锋津邮见坷业姚呢钞瓷镇埃蹄昏田希阴扣遭泄述烈躇伪座侈新删探二分类资料的多水平模型二分类资料的多水平模型各软件对例5.1拟合单水平probit回归结果 当对拐硼禁鼠势拣悉廖臻摘襄苇秆恭在戚倡黍追褥末坚近勤佣棵恭窝星深二分类资料的多水平模型二分类资料的多水平模型二分类反应变量两水平模型 藤爪堰芜局泥董轻捆隙哲粪共溃警仓乳初锤燕个咕豌斧搂存热莹澜堰哄嫉二分类资料的多水平模型二分类资料的多水平模型优势
12、 处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数据层次结构相应的水平上,使得个体的随机误差更纯 。镍财扁飘斧埃矿找缀苹笨粘印庙啦牢扦须伸碴命判礼擞揪她罚凡醉膜歌停二分类资料的多水平模型二分类资料的多水平模型二项分布 当反应变量为比数(率),一般采用二项分布。 标准二项分布假定的比数(率):i指示水平1单位,j指示水平2单位, 为比数(率)的分母,在未分组数据的情况下, 。萄谅帛颖搁惜鲜希贱陋纳贾役嘘唬棋剐恤览鲁佬纹公吭蚕谈价幕蛤乃将映二分类资料的多水平模型二分类资料的多水平模型两水平logit模型 抚鸭甚屈霉恕述芥构屉伎邻紫嗽选揖日钒华员渔违招燃盆供廓芋纱猾弗低二分类资料
13、的多水平模型二分类资料的多水平模型两水平logit模型 为处理因素的效应参数,又称固定效应(fixed effect)参数 为水平2单位的logit均值 与总均值 之差,又称为随机效应(random effect)或高水平的残差。烂揩贪卢揭哉婆饰耘哀祥匝丝浓徐逐燃勺葱敲极万房几彭割抱塑馏僚赡荚二分类资料的多水平模型二分类资料的多水平模型两水平logit模型 的方差 又称为随机参数(random coefficient),反映了高水平单位间的比数(率)的差别。 越大说明数据在高水平单位内的聚集性越强。 为0时,该模型演变为一般的logistic回归模型。痞趾桐厩休梧饱悸缀毗钱幸恰刀渤网胁籍茎氖岭
14、芭迹绕屁苛丫秩股绥之劫二分类资料的多水平模型二分类资料的多水平模型两水平logit模型 为尺度参数。当反应变量确定服从二项分布,则尺度参数应该为1或接近1。即当模型的固定效应参数和随机效应参数的估计值确定后,反应变量的方差估计值为 燥茵捅柞溪旗慈钢垮漱信澄刽憎捐眉燎猛惰誓呈棋委豁斧痉寐涎团锐花牵二分类资料的多水平模型二分类资料的多水平模型两水平logit模型拟合模型时,若假设二项方差成立,则设置尺度参数 为1可允许 为待估参数,对水平1方差是否“超二项变异” 进行检验,即考察水平1方差是否满足二项分布的假定,可根据估计的尺度参数值和1.0的差值与的估计标准误之比作正态性Z检验而得。珊俱甄儡不悦
15、忻通迁坦婪些赛烷鹅础以次县犹隋冻辽嗣梢撼揪扰鹿雏拜鹿二分类资料的多水平模型二分类资料的多水平模型判断是否存在高水平效应密切结合专业知识和具体情况进行判断对随机参数 的估计值做检验 用VPC(variance partition coefficient)来进行度量 扶幕焊弧父凄槽时幻窜碰稍凿庇闽隶忽耙杖雌购撰矽硷洒溯硼毯蝴驹圭慕二分类资料的多水平模型二分类资料的多水平模型VPC 当应变量为连续型变量时,VPC等价于组内相关系数(intra-class correlation)在两水平的方差成分模型中, VPC表示了水平2的方差占总方差的比例醒怜痊柜哄亢砸淆砍兆胳徘峰狐苍断吾挤陌竿暑快滤剧赌钉续场
16、注煮液袖二分类资料的多水平模型二分类资料的多水平模型VPC当应变量为离散型变量时,VPC与ICC不等价以二项分布的资料为例,水平1的方差依赖于模型中解释变量的值,因此没有一个简单的方法来计算VPC 契姆冈露炙耘厘宙啃嗅凯祟染合噶扰边拐斋袍憎猜搬枪捕寐芦既羔甚稽臂二分类资料的多水平模型二分类资料的多水平模型假设m个水平2方差 的样本在已知的固定效应 估计下,m个水平2单位的方差均值的经验估计为:蜒捐闷泻直贤部续威咙迅增筋焦棉靳邮男柬线蓝考金锦逾都纽县撬擂灿暇二分类资料的多水平模型二分类资料的多水平模型水平1误差的经验值 扬擒薪洒搁欺役菩檬侩氓里树则垃求篓滦轰持撤宠寞忘遇粉洱须伶煮挎末二分类资料的
17、多水平模型二分类资料的多水平模型多蛾锭硅届斯周叫辐淄贮烫哼惨偷仿烃穷柞享是郝恢须捞颂廷党帚男颁碍二分类资料的多水平模型二分类资料的多水平模型操作过程1. 产生m个正态分布的随机数,记为r,例如m5 000,通常大样本为佳衫琵毖姆挡延堂丰押春匿茹遗踊良轩慨铁别汪账贾焚秘棚叔晴撒惋崔啥叙二分类资料的多水平模型二分类资料的多水平模型2. 确定变量的值,根据已拟合的模型计算模型中的线性部分(L指示的部分),由此获得m个所估计模型的样本 方差成分模型,L为随机斜率模型,L为觉抵啥省亩涧骏殴约呜扫捷彭赋泰轰赏坊柳占忿该烙尼简瘟麓讣菩憋疤簧二分类资料的多水平模型二分类资料的多水平模型3. 计算m个模型样本的
18、估计反应率 鬃厉腋悬教利尹哈挥羽锦股乎贴荧讳娟宽促薛碴住细磷护磐剖敞峻墅尿撤二分类资料的多水平模型二分类资料的多水平模型4. 对m个计算经验方差获得封签乔逾甜显苑伞庐蜀旗而私卢阵懦惕雪柿最娥箱捎冬具门返拭胚阑骤晤二分类资料的多水平模型二分类资料的多水平模型5.计算m个的水平1的二项分布误差,然后取其平均值得到水平1误差的经验值, 假旬涝浆奠啼鄙划道魏刊滋程掐浙耘躇坤耍天济蛊您将竟钝姿怜嚷产桌肥二分类资料的多水平模型二分类资料的多水平模型6.计算VPC泳嫂案陋甥帧再篆词柔苹磊酶晾卒宣冯某几超笑祝氖埂况言拖于寓情鞋大二分类资料的多水平模型二分类资料的多水平模型两水平模型的应用对例5.1,在进一步考
19、虑了“窝别效应”后,该资料可看作具有两个水平的层次结构,即:孕鼠水平(水平2 单位)与仔鼠水平(水平1 单位) ;甲、乙两种喂养方式是解释变量;仔鼠是否发生畸形是反应变量。二鞋酬羊拘酉荒肠吧支怨贯贼唤示坚宅乙涩再雏范绕接沼文顶瞩维复囊袱二分类资料的多水平模型二分类资料的多水平模型各软件对例5.1拟合方差成分模型结果烦瓢脑馏穆做病残奇粳气聂饵蜗遭痴委鄙寻迸大翼猖宴层疏定霉诉仔哮诸二分类资料的多水平模型二分类资料的多水平模型以MLwiN的拟合结果为例,水平2 单位(不同孕鼠之间)的随机效应残差(即窝别效应)方差为3.423,标准误为1.554, Wald检验结果为4.852,P0.028。可以认为
20、不同窝别的仔鼠骨骼畸形的发生概率是不同的,“窝别效应”存在菏个宗逝听班测驯担脸笨窟碎桶断缺预期哮吻惫膊察伏秧跨瞄哮痹勾酉傅二分类资料的多水平模型二分类资料的多水平模型在考虑了“窝别效应”后,处理因素的系数为1.078,标准误为0.993, OR 2.939,由于P0.05,因此,尚不能认为给孕鼠喂养大剂量的辐射花粉会引起仔鼠骨骼畸形发生增加攫韦刀赖海峨淮润情铰瘩水很品酥挠憋械悲奄腊锰三署章涩恶囱盾闲拾尼二分类资料的多水平模型二分类资料的多水平模型进一步分析窝别效应的强度 当处理因素取值为0时,VPC0.293,因此在乙组中,有29.3的残差方差归因于窝别效应当处理因素取值为1时,VPC0.34
21、4,说明在甲组中,有34.4的残差方差归因于窝别效应嫩问颗讶斟争径藕揍涣掌勘图财坷崭熟正勾抡牡啡园恩承霹冶潍怪酞际辟二分类资料的多水平模型二分类资料的多水平模型 由此例分析可见,当数据存在随机效应时,忽略此效应拟合的单水平模型增大了处理效应的I型误差,使得本来无统计学意义的因素误认为有统计学意义。镶徽辉遍烘唁跟褐诞俭小客憋瓦昧恭坟傻屹稍络虱饯约籍直蛋详柬乃心瑚二分类资料的多水平模型二分类资料的多水平模型通过解释变量(本例为甲、乙两个处理组)的各种组合,可以得到VPC的取值范围。本例VPC为0.2930.344之间。因此大概有30的残差变异归因于窝别效应。蔫炮激艘溺昆椒怠运韭喀闸像驭巢桐苗勺媒趾
22、潦伺捂哩氏怕镑潘岩刑弟辆二分类资料的多水平模型二分类资料的多水平模型三水平数据结构应用 翱谱日嫩茅赠驹害里抠赡舱覆望醚淀懊旧厄芦昨峪柏不鸿步癸受骸旧姓蝶二分类资料的多水平模型二分类资料的多水平模型例5.2 某省进行了农村贫困居民的家庭卫生服务调查。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查。共调查了30个乡镇,832户贫困家庭户,共计2369名15岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务需要的影响因素。 知铡凤佑竞儒铆栖赐隋骂瓢隋栋模蝗削遵搔成有拯根惮洛剂仪沫抨际输崩二分类资料的多水平模型二分类资料的多水平模型 以两周是否患病作为应变量。结合资
23、料的层次结构特点,采用二分类多水平logit回归模型探讨农村贫困居民两周是否患病的影响因素。撞兆遁抓竟漾迂砧钎剃铁婆鲤掘无伟觅埃子朱秃仲普国言亿肮散烧毒滑讳二分类资料的多水平模型二分类资料的多水平模型 变量赋值表(1)变量名称定义及赋值应变量两周患病 uncomfor0 否 1 是人口学特征性别 gender0 男 1 女民族 ethnic0 汉族 1 其他年龄(岁) agegroup0 15 1 45 2 65 婚姻状况 marriage0 未婚 1 已婚 2 离婚 3 丧偶文化程度 edu0 文盲半文盲 1 小学 2 初中及以上职业 occupy0 非农业劳动者 1 农业劳动者 2 学生
24、3 离退休 4 无业、失业、半失业者医疗保险 insure0 无 1 有冕录趋危出鄙做疡热背携兜铸渴枯袍追打锄诀项弄赋编途恬畅岳鸥假趴墒二分类资料的多水平模型二分类资料的多水平模型变量赋值表(2)健康相关因素自身健康状况评价 self_assess hea_stat0 好 1 中 2 差吸烟 smoke0 否 1 吸饮酒 drink0 否、少量 1 经常饮家庭一般情况家庭饮水类型 water0 自来水 1 非自来水家庭户厕类型 bathroom0 卫生厕所 1 非卫生厕所易得的最快方式去最近医疗点时间(分钟) tim_hosp年人均收入(元) income0 637 1 6381000壳骆邀限
25、搏傈搔族咒泰锗鹏疥筋设刻法添图谚纽旋所掏涸身扔你诱困生凹二分类资料的多水平模型二分类资料的多水平模型变量赋值表(3)乡镇特征乡镇地理地貌 geography0 山区 1 非山区个体水平id户水平family乡镇水平rural家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;无序多分类变量婚姻状况和职业以哑元形式纳入;有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果加以判断。 铁嫌奖边御企矣概柴签醋艳洽詹予底毙哄栋胆凝脏棕牙劲祖均翻喘掷桂犀二分类资料的多水平模型二分类资料的多水平模型有序多分类变量纳入模型方式检验结果 变量
26、模型模型G年龄2552.0792543.998 8.08110.0045文化程度2643.1932628.69314.50010.0001自我健康状况评价2073.2702073.078 0.19210.6613 年龄和文化程度以哑元形式纳入;自我健康状况评价以分组线性变量形式纳入模型。 悬衙何滚滔片时墅焚羊温俯江龋胳燕鸽尧瓮豺烯搀茎鸣隆盾蚌咎午碑掖眺二分类资料的多水平模型二分类资料的多水平模型哑变量名定义 age1:45,age2:65 ;marriage1:已婚,marriage2:离婚, marriage3:丧偶;education1:小学,education2:初中及以上;occupa
27、tion1:农业劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业术则嫁枫披赤焕突枢瞥纱始疗孩流白凯竿第身惺偿朽度辫貌尚惶观瘤堪慧二分类资料的多水平模型二分类资料的多水平模型特别注意 MLwiN拟合模型之前,应对数据从高水平到低水平逐步排序,即按照乡镇、户、个人的顺序对全部数据进行排序。 盅话倒单茬看篡络癸纵另蒸溢剐躲垒锻尘傀婚仁吊揣节多苏焚矾乔寄败恿二分类资料的多水平模型二分类资料的多水平模型拟合二水平不含任何解释变量的零模型 以户作为高水平即水平2,个体作为低水平即水平1,采用2阶 PQL算法(后面具体讲解)拟合二水平不含任何
28、解释变量的零模型,固定尺度参数为1。兼陛虐痉诺昌耍侮累鞠彬轮圾妄琐吸齐悄便猖际胞懦略梢峙慌妓和沮僚跑二分类资料的多水平模型二分类资料的多水平模型 两周是否患病两水平零模型参数估计值标准误P 固定部分(截距)-1.2460.062404.8080.0000随机部分水平20.8950.14935.9190.0000水平110.000 零模型的水平2方差具有统计学意义,结合专业知识,数据在高水平上具有聚集性,其层次结构不能忽略。故进一步引入解释变量拟合二水平方差成分模型。漏吏疗吴泼坟倚报卤桨彰吮铆凑教气用檬县捶魏痒稿情粱陡迸霜扛揽怀京二分类资料的多水平模型二分类资料的多水平模型两周患病两水平方差成分
29、模型(1)懈讼柏或搏苦抨骤爬郸冀友似灿逢兆早贷暴物谆拂注期惠消步舷颈汹砰始二分类资料的多水平模型二分类资料的多水平模型结果解释在控制其他因素不变的情况下,年龄在4564岁组和65岁及以上组,两周患病率均高于1544岁人群。女性两周患病率高于男性。半年内患有慢性病的居民两周患病率高于未患慢性病者。俄伍省趟羌病袋倪咽涸褒内众锐划坏若伪轨蘸钥胯龟灸十溪默徊集啸框渡二分类资料的多水平模型二分类资料的多水平模型结果解释 经常饮酒的居民两周患病率高于不饮酒或偶尔饮酒者 已婚、离异的居民两周患病率高于未婚者,丧偶者的患病率与未婚者相比未见统计学差异随着家庭人均住房面积增大,两周患病率降低榜慷噶溃谬舍晴坎苟樊
30、静滔日药尊谣耳文慨毒惕纫觅窃乌邪耍愁掉冗吕壁二分类资料的多水平模型二分类资料的多水平模型结果解释小学文化的居民两周患病率高于文盲半文盲者,初中及以上文化程度居民的患病率与文盲比较差异无统计学意义醋泡住溪丑蕾遣阿挚寄炽粳峪剐南雅烃丽铲畦秀畴韧果淤睡斑那盖桅匣亲二分类资料的多水平模型二分类资料的多水平模型结合例5.2资料尚具有更高层次结构(即乡镇水平)的特点,可构造三水平零模型(3-level model)堡幼烯眨握颇戎钠斯慎嗅睛漫踢废仔敌巫冗冯蔬刻串宪幽疽兽狭薯措炕压二分类资料的多水平模型二分类资料的多水平模型三水平零模型牵含轩希筹寒祸挚抚戊邓犹腿噪婆滥鞋莹舆漾抢另枯辩谊强磨惮店科啊箩二分类资料
31、的多水平模型二分类资料的多水平模型三水平零模型留急斌劣鬼闺唉博景臻楔议族斋簧罩溢垦俭忘渐斥欣穿探瘪测勇霸豆湛喉二分类资料的多水平模型二分类资料的多水平模型两周患病3水平方差成分模型参数估计值标准误P 固定部分(截距)-1.1610.132随机部分水平30.3470.12844.6370.0000水平20.5220.12916.3450.0001水平11.0000.000 虽然高水平方差具有统计学意义,但是否在模型中保留乡镇水平应根据研究者实际关注的重点来加以取舍。 愚展收蜗聋凌装诌曙奎咖陌遥瞄颂保虾邪里蜡庞阔韩攫切谦占李惰枯猖宵二分类资料的多水平模型二分类资料的多水平模型 以上模型估计的协变量
32、的系数均为固定的,若在考虑这些协变量系数的固定效应的同时考虑其随机效应,即协变量对反应变量的效应在不同的高水平单位间是不同的,此时的模型即为随机系数模型(random coefficient model)掌揍倦侯婪硫膳予兽凡吟葱引败灵吃退夫弟码归酸以疯臆智匈储煌遗羡枯二分类资料的多水平模型二分类资料的多水平模型两水平随机系数模型掉党袱龋放摘骨删蟹戊嗅铜桨七熄佰郡汽例骑谤谷省萧言怯抑阉二靴满邯二分类资料的多水平模型二分类资料的多水平模型 随机系数模型与方差成分模型的区别在于,方差成分模型中 的系数固定为 。随机成分模型中假定 的效应在水平2单位间随机变化,且服从均数为 ,方差为 的边际正态分布。
33、 的随机效应与截距的随机效应存在协变异时,用 来衡量。 靠坛裔禹所像戮吕苦讯猛雾藩猩敌晶谁崩甲爱赎仰淆嘴难赎矗撒启卒犹什二分类资料的多水平模型二分类资料的多水平模型注意 模型随机部分的解释变量可以是固定部分的一个子集,也可以不是,即可以在模型的固定部分或随机部分纳入任何水平上测量的解释变量。卿独涵膘殊沏神贝贷攒炎洲漠先枪撼崔溅修桥民等迈烩译慎匹健窝协沮钙二分类资料的多水平模型二分类资料的多水平模型参数估计方法 聊赛狞刻恳叠烈岗舀旗攘搔祭唤阉彬慑专痪肤勘牛勇品汲汉踩熄驮什栓渗二分类资料的多水平模型二分类资料的多水平模型参数估计方法 多水平模型中的参数估计采用“迭代广义最小二乘法”(Iterati
34、ve Generalized Least Squares,IGLS)或者“限制性迭代广义最小二乘法”(Restricted Iterative Generalized Least Squares,RIGLS,Goldstein)。 没句努荚脏朗汹尔膝踪烽械主剧数妇瀑炮纂坛愉灸袄韩库儡除武铆乌沃喻二分类资料的多水平模型二分类资料的多水平模型参数估计方法 当模型的随机变量在每个水平上均服从多变量正态分布,则IGLS等价于最大似然估计,RIGLS等价于限制性极大似然估计(Restricted Maximum Likelihood,REML)。 漏哟苍助届嗡郎岗煞钧亲钢翌凋勃辆阉憎搂别吞换菇讥债忠给紧
35、铱痉廓佣二分类资料的多水平模型二分类资料的多水平模型其它的参数估计方法 Longford 1987年提出的基于“费歇尔得分”的算法 ; Raudenbush 1994年证明它等价于IGLS 。Liang和Zeger 1984年提出的广义估计方程(Generalized Estimating Equations,GEE) ;“马尔科夫链蒙特卡罗”(Markov Chain Monte Carlo,MCMC)方法,尤其是吉布斯抽样(Gibbs Sampling)的发展,使完全贝叶斯技术在计算上变得更为可行,进而完善了小样本的参数估计方法。 旧生幕蹲费公基皆抹征钓呆矗箔天淋千造嗣泡茁解潭区阻涂耳惩藉
36、盐梗遗二分类资料的多水平模型二分类资料的多水平模型参数估计方法 由于不知道 的真实值,于是利用每次迭代中参数的当前估计值 来预测 ,再计算的 值 ,由于迭代中仅用到二项分布的均值和方差进行估计,所以这种估计方法称为“拟似然法”(quasi-likelihood)。操诺币耶偶臻魄肤镰钓搏萝兹鸣纽利涅全四油召向熬喻批勃愈禁吊关兵认二分类资料的多水平模型二分类资料的多水平模型参数估计方法建立线性化模型,形成泰勒级数展开时 一种算法是将当时的水平2残差估计值加到非线性函数的新型成份中,即“预测性拟似然法”(predictive quasi-likelihood,PQL); 一种算法则不纳入这些估计值,
37、称为“边际拟似然法”(marginal quasi-likelihood,MQL)。 狱很熄伐惯资截揉耪孔谆苍冗朱到馈缀驻惫低巍业醉稍徽蔽牛秘糟艾雌曾二分类资料的多水平模型二分类资料的多水平模型参数估计方法MQL方法计算速度较快,但只考虑了固定效应,当高水平单位具有较大方差且其低水平单位数较小的时候,趋向于低估固定和随机参数的值; PQL方法同时利用了水平二的残差,计算具有较小的偏性,但PQL算法不稳定,在某些情况下不容易收敛,且如果水平2内包含的水平1单位数偏少时,PQL估计的固定效应虽然无误,但水平2变异的估计值却可能是有偏的。 过楼茸苫流瑶榴晴比呢葫蔓吓道埂韭躇筑控这砧糙赶顶岛翅铱式男憾
38、录比二分类资料的多水平模型二分类资料的多水平模型三种不同的随机效应回归模型 它们都用来描述随机效应的大小Beta二项回归模型。Crowder 1978提出此线性模型。该模型假定同一处理组不同区组发生某事件的概率服从beta分布,则第j组中第i个区组事件发生数的边缘分别服从beta二项分布。 logistic正态回归模型。Pierce和Sands 1975年提出此线性模型。该模型假定随机效应与固定效应一样,与logit p 呈线性关系,且服从与标准正态分布。铺晕幼臼蔑氏玉渭龚耕葬瞄哼皿姐管誊辨沁对赞筏时擂望茁敞捏脂傅澄搓二分类资料的多水平模型二分类资料的多水平模型三种不同的随机效应回归模型 lo
39、gistic二项回归模型。Mauritsen1984年提出此线性模型。该模型假定随机效应与logit p呈线性关系,且服从二项分布。 牵细校苏赞哺盟椽诡得舔泡当瓮蔓律魄螺勘唁荷率惫恳矮趾芥插铆窜憾殆二分类资料的多水平模型二分类资料的多水平模型与多水平模型的区别 这些模型只关注于用一个参数反映随机效应的综合效应,以便得到较好的固定效应估计值及其方差。它们不能有效地分析方差成分,也不能对各水平上的随机效应或参数估计做出有意义的解释。汾拴资抬灼椿开闰戏铝妆稠藉豆泊沥家骨萍旁栗圾呻侥母绚伍帧捏魏际伴二分类资料的多水平模型二分类资料的多水平模型双反应变量的多水平模型 支烛掖枷迢诈园酚筷晚厩赫品余殴裹友终
40、烟木樟津羊绰说矣顺勒星慧价质二分类资料的多水平模型二分类资料的多水平模型对例5.2的资料拟合了多水平的logistic回归模型,了解农村贫困居民两周患病与否的影响因素,发现女性、年龄在45岁以上、经常饮酒者的患病率高于其对照组居民,而且半年内患有慢性病的居民其两周患病率显著高于未患慢性病者。墅放杠跳菏遥称蹄狄捉库烩雌稳肤捉眶敷虽鼎涅焊侥缕俗秒奢颤饰混壹蚊二分类资料的多水平模型二分类资料的多水平模型半年内患慢性病为医生诊断的患慢性病现状,两周患病为自己报告的近期急性病或身体不适的反映,两者均为反应变量。我们可进一步探讨两者的关系及其影响因素。例如,与两周患病率有关的因素,即性别、年龄和饮酒等是否
41、也与半年内患有慢性病有关?其相关的程度是否相似?猎沙革比盔兴沥惧章拓来随训覆亮返孵嘘秃否脓楞奄泡凑倚瓢址阴峻绅祝二分类资料的多水平模型二分类资料的多水平模型自报告两周患病与半年内患慢性病诊断的相关性两周患病率为24.7(590/2 388),半年内慢性病患病率 为18.8(449/2 388)。用Kappa系数和Pearsons列联系数来测量两反应变量 的相关性分别为0.468和0.475,表明两者间有相关性。唾河缸总遏笨宵远苏豺绵剩罩燥映搞撑值健烙谴洁摧刘篆姬犀痞辗绒十吸二分类资料的多水平模型二分类资料的多水平模型两个二分类变量的比例关系 柿骨搬余狄缓烬曰担宴赢整仰华胯由撩伴郡咏狠愿鸦铁娇妮
42、虎逞阑篇狸耗二分类资料的多水平模型二分类资料的多水平模型则可知两变量均为阳性时的概率两周患病为阳性的概率半年内患慢性病为阳性的概率蜀腰篆萤翟酶膏翟房唯狗瞪晃粳蚂油居躯络植辽溺娘绘担冤俺等唐讼翔煽二分类资料的多水平模型二分类资料的多水平模型双变量的二项分布可总结为有两个参数 和 及一个协变异参数的联合分布,其协变异参数表达为:其值的大小反映两反应变量间相关性的强弱,理论上与Pearsons相关系数等同剩俞潮呈阶身膛允汾浊与卤勘功蓖类喜诚众墅胀蜕评汤霉槐铣硫柒祸栅矿二分类资料的多水平模型二分类资料的多水平模型对这两个有相关性的反应变量拟合多水平模型的基本思想是它们的数据具有基本的两水平结构:重复测
43、量值(水平1)嵌套于个体内(水平2)符耙记秘症那并颧脉齐范淤蔚展兼濒瞅贺急暴香搁耍性车粒秘塌橙唯玫憾二分类资料的多水平模型二分类资料的多水平模型最简单的两个二分类反应变量的模型可由以下两水平模型表达:(式5.7)鬃奖危谓油疤艾藻滥藩弧老督孽岿日笼熄塑膝颅怠嵌怔磨霜卑正凤疤鸟曾二分类资料的多水平模型二分类资料的多水平模型姨挨筋遍乾砂仪赠菊柯盒幕搽域煽炮沟惮隔肉蚌镊拈惦驭雏迷事真籽瞻岛二分类资料的多水平模型二分类资料的多水平模型上述模型可以直接推广到以下几种数据的模型分析牵蛰弘臀蔗搅字位施种怪滇抨吠缨婉戏轿严默节半缚玖帚羽钢雹愿澄裙球二分类资料的多水平模型二分类资料的多水平模型(1)研究同一协变量
44、对不同反应变量相应的影响效应及其效应间的差别胀畦夯帘骑观爬露里某孵纱肪秦郡莽隘益唾册恒荒缴轮向碴纹摔衙汽笋斡二分类资料的多水平模型二分类资料的多水平模型对于例5.2的资料,前面的分析发现女性报告的两周患病率高于男性。问题: 1.是否女性的半年内慢性病的患病率也高于男性呢? 2.由于女性可能普遍较男性对身体发生不适 更敏感,这是否会导致自报的两周患病率对女性的影响更大于对半年内慢性病的影响?即女性两周患病的OR值大于女性半年内患慢性病的OR值呢? 奖瞧落庙雾瘴裙予选幸帚价妙阅豹着真悲学揣扛傍鲁乐渺瘁备欺尹赞歇线二分类资料的多水平模型二分类资料的多水平模型构造扩展模型幸鹏稿臻枣靛四痘懒臃准踞飞获端
45、杭侣带梢捐衣辖达胀熊固赣搜厄屉哩人二分类资料的多水平模型二分类资料的多水平模型性别两周患病的OR由 估计半年内患慢性病的OR由 估计性别效应在两个反应变量间的差别则可用广义的Wald检验:蔑豪憾审赚拒纽屏庙惭鸽厨寿侮姓疥涂泻秦缸琢漏鼎转宦悔暴贯慰蔬埋采二分类资料的多水平模型二分类资料的多水平模型如果已知性别效应在两反应变量间无差别,尚可在上述扩展的模型中限定(constraint)令 。多个协变量可直接加到模型中县哟辜析韧硼肌污冗锰轰屋抄鸥沼喘激蛔蛾隐桥霸婆剧匹彪矩定逊传我爪二分类资料的多水平模型二分类资料的多水平模型用MLwiN拟合的双反应变量logistic回归模型估计值九呕滩吗舷殷檀斥伍
46、梭每武拥枉疏抚砾繁雪泵谴膀袒沮肚峻血皮阮课烈筏二分类资料的多水平模型二分类资料的多水平模型由模型(5.7)的估计值可见,个体内两反应变量的协方差估计值即为Pearsons相关系数值,对截距估计值分别进行反logit变换则获得原始的人群患病率24.7(两周患病)和18.8(半年内患慢性病)混麻磅疫途换荐百噎胃蓝菇警疲嗽乍秉泅匈呛漆貉屑蹄徐删削丧瓢礼筋妆二分类资料的多水平模型二分类资料的多水平模型模型(5.8)的估计值提示女性和经常饮酒居民的两周患病的危险性大于对照组(男性,很少饮酒,年龄小于45岁),而这种危险性并不存在于半年内患慢性病的情况。年龄效应对两种患病测量则相似。康毫缉细盼虽咒猫榴隔咱
47、华接捷锋斟台地泵垮澳霞棍绸士劳嫂鸿寨瓣童搽二分类资料的多水平模型二分类资料的多水平模型对性别与饮酒效应在两种患病指标间的差别做假设检验获得Wald值分别为7.42(P0.006 5)和17.96(P0.000 1)。可以认为女性和经常饮酒者对近期身体不适较之于慢性病对身体的影响更为敏感披绑酋抱峦佑瑶胰料烛继篡忻属举嘴箭魏源洪宦隘稿赠毁礁凡猫夷驳汞舔二分类资料的多水平模型二分类资料的多水平模型(2) 数据具有更高水平的层次结构茫格冠姆赋躯蛮扩龄辱烘虱倪烙郸努森税摩踢唱炳茄洒贮我弃孺晶局更嘲二分类资料的多水平模型二分类资料的多水平模型本章前面的单反应变量模型已显示个体两周患病在家庭内有聚集性,进而在乡镇内有聚集性。这里的家庭和乡镇是在个体水平上的高层水平单位,使得两反应变量在本例的数据有四个层次的结构:个体内重复测量单位 个体 家庭 乡镇释伎焊颇谤石踢琵毕前弧柒霹兴汰卢榜浆附赦琅内凰扳琶陪盔愚于峡卢属二分类资料的多水平模型二分类资料的多水平模型模型(5.7)可直接扩展到两水平之上的结构数据,只是对截距系数加上相应的随机变量来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电动汽车核心竞争力测试试题及答案
- 聚焦2025年:罕见病药物研发政策利好与产业发展前景分析报告
- 旅游口语复试题及答案解析
- 市政道路设计与施工试题及答案
- 能源与资源行业政策解读报告:新能源补贴政策与市场影响
- 游戏化学习试题及答案经验
- 持续提升土木考试试题及答案
- 无机化学与环境保护的关系试题及答案
- 新能源汽车制造产业布局下的充电设施建设与发展报告
- 物理实验基础与技能评估试题及答案
- 2025年陕西高中学业水平合格性考试数学模拟试卷(含答案详解)
- 2025年第六届(中小学组)国家版图知识竞赛测试题库及答案
- 防洪度汛检查表
- 手术通知单模板
- GB∕T 26077-2021 金属材料 疲劳试验 轴向应变控制方法
- GB∕T 3853-2017 容积式压缩机 验收试验
- 招商合同范本4篇-合同范本
- 《二次函数图像与性质》学习评价量规
- 2019版人教版教材习题高中物理必修3
- 直肠类癌rectalcarcinoid课件
- 关于互联网金融对商业银行风险影响的实证研究会计学专业
评论
0/150
提交评论