版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多水平模型简介四川大学华西公共卫生学院卫生统计学教研室李晓松概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用概述80年代中后期,英美等国教育统计学家开始探讨分析层次结构数据(hierarchicallystructureddata)的统计方法,并相继提出不同的模型理论和算法。多水平模型(multilevelmodels)最先应用于教育学领域,后用于心理学、社会学、经济学、组织行为与管理科学等领域,逐步应用到医学及公共卫生等领域。HarveyGoldstein,UK,UniversityofLondon,InstituteofEducation《MultilevelModelsinEducationalandSocialResearch》1987AnthonyBryk,UniversityofChicagoStephenRaudenbush,MichiganStateUniversity,DepartmentofEducationalPsychology《HierarchicalLinearModels:ApplicationsandDataAnalysisMethods》1992NicholasLongford,PrincetonUniversity,EducationTestingService《RandomCoefficientModels》1993多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型
ML3(1994)/MLN(1996)/MLwiN(1999)HLM(HierarchicalLinearModel)SAS(Mixed)SPSS(HLM)STATA(MLwiN)两水平层次结构数据水平2
水平1
层次结构数据的普遍性“水平”(level):指数据层次结构中的某一层次。例如,子女为低水平即水平1,家庭为高水平即水平2。“单位”(unit):指数据层次结构中某水平上的一个实体。例如,每个子女是一个水平1单位,每个家庭是一个水平2单位。临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查
遗传学家系调查资料
meta分析资料
层次结构数据为一种非独立数据,即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立,其大小常用组内相关(intra-classcorrelation,ICC)度量。例如,来自同一家庭的子女,其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似,即子女特征在家庭中具有相似性或聚集性(clustering),数据是非独立的(nonindependent)。
非独立数据不满足经典方法的独立性条件,采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。但非独立数据的组内相关结构各异,理论上,不同的结构应采用相应的统计方法。如纵向观测数据常用广义估计方程(GEE),但有两个局限性:一是对误差方差的分解仅局限于2水平的情形,二是没有考虑解释变量对误差方差的影响。当应变量的协差阵为分块对角阵时,一般采用多水平模型。经典方法框架下的分析策略
经典的线性模型只对某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析。但有时某个现象既受到水平1变量的影响,又受到水平2变量的影响,还受到两个水平变量的交互影响(cross-levelinteraction)。
个体的某事件既受到其自身特征的影响,也受到其生活环境的影响,即既有个体效应,也有环境或背景效应(contexteffect)。
例如,个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层(如饮食文化和口腔卫生习惯)、环境因素(如饮水中氟浓度)等有关。分解(disaggregation)聚合(aggregation)组内-组间分析(within-betweenanalysis)
分解:不满足模型独立常方差的基本假定,回归系数及其标准误的估计无效,且未能区分个体效应与背景效应。一种分析策略是用哑变量拟合高水平单位的固定效应。聚合:损失大量水平1单位的信息,更严重的是可能导致“生态学谬误”(ecologicalfallacy)。
组内-组间分析:每个水平2单位内进行分析,计算组内相关(组内效应);通过平均或整合得到每个水平2单位的数据,计算组间相关(组间效应);忽略水平2的存在,在水平1上进行分析,计算水平1单位间的相关(总效应)。组内相关系数(intra-classcorrelation,ICC)被当作是总结多层次数据内部相关的最终统计量,但并没有对误差方差进行解释。
多水平分析的概念为人们提供了这样一个框架,即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析,从而实现研究的事物与其所在背景的统一。经典模型的基本假定是单一水平和单一的随机误差项,并假定随机误差项独立、服从方差为常量的正态分布,代表不能用模型解释的残留的随机成份。基本的多水平模型
当数据存在层次结构时,随机误差项则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的反应变量的残差成份,也包含了高水平单位自身对反应变量的效应成份。
多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上,具有多个随机误差项并估计相应的残差方差及协方差。构建与数据层次结构相适应的复杂误差结构,这是多水平模型区别于经典模型的最主要特征。
多水平模型由固定与随机两部分构成,与一般的混合效应模型的不同之处在于,其随机部分可以包含解释变量,故又称为随机系数模型(randomcoefficientmodel),其组内相关也可为解释变量的函数。换言之,多水平模型可对不同水平上的误差方差进行深入和精细的分析。1.方差成份模型
(VarianceComponentModel)
假定一个两水平的层次结构数据,医院为水平2单位,患者为水平1单位,医院为相应总体的随机样本,模型中仅有一个解释变量x。
和分别为第j个医院中第i个患者的反应变量观测值和解释变量观测值,和为参数估计,为通常的随机误差项。示水平2单位示水平1单位与经典模型的区别在于。经典模型中的估计为,仅一个估计值,表示固定的截距,而在方差成份模型中为随机变量,可估计j个截距值。表示当x取0时,第j个医院在基线水平时y的平均估计值。为平均截距,反映与的平均关系,即当x取0时,所有y的总平均估计值。亦为随机变量,表示第j个医院y之平均估计值与总均数的离差值,反映了第j个医院对y的随机效应。表示协变量x的固定效应估计值。即y与协变量x的关系在各医院间是相同的,每个医院间y的变异与协变量x的变化无关。方差成份模型拟合j条平行的回归线,截距不同(),斜率相同()。它将医院的参数估计作为随机变量,并估计其随机效应,提供了这些医院所代表的医院总体特征的信息。对医院水平残差的假定对患者水平残差的假定与传统模型一致
水平1上的残差与水平2上的残差相互独立,,
反应变量可表达为固定部分与随机部分之和。模型具有两个残差项,这是多水平模型区别于经典模型的关键部分。即水平2残差,随机效应、又称潜变量(latentvariable)此模型需估计4个参数,除两个固定系数和,还需估计两个随机参数和。其中即为医院水平的方差成份,为患者水平的方差成份。组内相关的度量方差成份模型中,反应变量方差为
此即水平2和水平1方差之和,同一医院中两个患者(用i1,i2表示)间的协方差为:组内相关(intra-classcorrelation,ICC)测量了医院间方差占总方差的比例,实际上它反映了医院内个体间相关,即水平1单位(患者)在水平2单位(医院)中的聚集性或相似性。由于模型不止一个残差项,就产生了非零的单位内相关。若为0,表明数据不具层次结构,可忽略医院的存在,即简化为传统的单水平模型;反之,若存在非零的,则不能忽略医院的存在。水平2单位中的水平1单位间存在相关,通常的“普通最小二乘法”(OrdinaryLeastSquaresOLS)进行参数估计是不适宜的。进一步,如数据具三个水平的层次结构,如医院、医生和患者三个水平,则将有两个这样的相关系数,即反映医院之间方差比例的医院内相关,反映医生之间方差比例的医生内相关。随机系数模型是指协变量的系数估计不是固定的而是随机的,即协变量对反应变量的效应在不同的水平2单位间是不同的。仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设。随机系数模型
(RandomCoefficientModel)与方差成份模型的区别在于。方差成份模型中协变量的系数估计为固定的,示协变量对反应变量的效应是固定不变的。在随机系数模型中协变量的系数估计为,示每个医院都有其自身的斜率估计,表明协变量对反应变量的效应在各个医院间是不同的。的假定及其含义与方差成份模型一致。现为随机变量,假定:表示第j个医院的y随x变化的斜率;表示全部医院的y随x变化的斜率的平均值(平均斜率)。是指各医院的y随x变化的斜率的方差。示第j个医院的斜率与平均斜率的离差值,指上述截距与斜率离差值的协方差,反映了它们之间的相关关系。即表达为固定部分与随机部分之和。其中,固定效应用均数描述,它决定了全部医院的平均回归线,这条直线的截距即平均截距,直线的斜率即平均斜率。为随机系数。将模型改记为:
随机效应用方差描述,它反映了各医院之间y的变异与协变量x的关系。模型随机部分具多个残差项,需估计4个随机参数,即方差、和以及协方差。模型的反应变量方差为:表明各医院间y的变异与协变量x有关,即每条回归线不仅截距不同,且斜率也不同。当x取0时每个医院y的平均估计值不同,且每个医院y随x变化的斜率不同。组内相关与解释变量有关为使模型中每个系数都有一个相应的解释变量,可对截距及其残差定义一个解释变量,取值为1,为简化模型,常省略该解释变量。下面是包括随机系数的一般形式的两水平模型,即将模型扩展为纳入其它固定部分解释变量的形式:这里,对模型随机部分采用了新的解释变量,实际上,,。值得指出,模型随机部分的解释变量常为其固定部分的一个子集,但亦可以不是,即可以在任何水平上测量固定部分或随机部分的解释变量。反应变量向量的协方差结构从最基本的两水平数据结构来考察反应变量向量的协方差结构,即只包括随机参数和。对应于方差成份模型,反应变量方差为水平1和水平2方差之和:同一个医院所诊疗的两个患者(用,表示)间的协方差为:以下矩阵表示同一个医院所诊疗的三名患者的协差阵对两个医院而言,若一个医院诊疗了三名患者,另一个医院诊疗了两个患者,则具有2个水平2单位的反应变量向量Y总的协差阵可表达为:
矩阵的这种分块对角结构表达了不同医院所诊疗的患者间的协方差为0,它可进一步扩展到任意多的医院数。将上述矩阵表达为另一种更简略的形式:
为维的1矩阵,为维的单位阵,的下标2表明为两水平模型,的维数即水平2单位数,主对角线块的维数即水平1单位数,它们均为方阵。在传统OLS估计中,为0,则该协差阵退化为标准形式的,即残差方差。考察包括随机系数的一般形式的两水平模型或简记为对于具有随机截距与斜率的两水平模型,其反应变量协差阵具有以下典型的分块结构:矩阵为水平2的随机截距与斜率的协差阵,即随机系数协差阵,矩阵为水平1的随机系数协差阵。这里,水平1只有一个单一的方差项,可进一步采用表示这些协差阵集。将上述矩阵展开得到:这是具有分块结构的一个具有2个水平1单位的水平2单位的反应变量协差阵。此即构造反应变量协差阵的一般模式,它同时也概括了拟合水平1复杂变异的可能性。固定与随机参数估计固定和随机参数的估计方法一般采用“迭代广义最小二乘算法”(IterativeGeneralizedLeastSquares,IGLS)(Goldstein,1986)或“限制性迭代广义最小二乘法”(RestrictedIterativeGeneralizedLeastSquares,RIGLS)(Goldstein,1989)。现以最基本的两水平方差成份模型来阐明固定与随机参数估计的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年河北女子职业技术学院单招综合素质考试参考题库带答案解析
- 2026年黑龙江农业工程职业学院单招职业技能笔试参考题库带答案解析
- 投资协议合同协议(2025年风险投资)
- 投资合作协议2025年项目
- 2026年德阳科贸职业学院单招职业技能笔试备考试题带答案解析
- 2026年福州外语外贸学院单招综合素质考试参考题库带答案解析
- 2026年湖南工业职业技术学院高职单招职业适应性测试参考题库有答案解析
- 2026年安徽工贸职业技术学院单招综合素质笔试参考题库带答案解析
- 2026年崇左幼儿师范高等专科学校单招综合素质笔试参考题库带答案解析
- 2026年安阳职业技术学院单招综合素质笔试参考题库带答案解析
- 2024中国高考志愿填报行业用户需求及市场潜力预判报告
- GB/T 10810.1-2025眼镜镜片第1部分:单焦和多焦
- 高中家长会 高一选科指导家长会课件
- 法院管辖权异议申请书
- 医院主要领导综合能力素质自我评价
- DZ∕T 0399-2022 矿山资源储量管理规范(正式版)
- 2022资源环境承载能力和国土空间开发适宜性评价技术指南
- 2022年内蒙古交通运输厅所属事业单位考试真题及答案
- 海水淡化PX能量回收装置维护说明书
- 妇产科学(第9版)第二章女性生殖系统解剖
- 中医经络之-特定穴课件
评论
0/150
提交评论