《多水平统计模型》PPT课件_第1页
《多水平统计模型》PPT课件_第2页
《多水平统计模型》PPT课件_第3页
《多水平统计模型》PPT课件_第4页
《多水平统计模型》PPT课件_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多水平统计模型简介ABriefIntroductiontoMultilevelStatisticalModels 概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用 概述 80年代中后期 英 美等国教育统计学家开始探讨分析层次结构数据 hierarchicallystructureddata 的统计方法 并相继提出不同的模型理论和算法 多水平模型 multilevelmodels 最先应用于教育学领域 后用于心理学 社会学 经济学 组织行为与管理科学等领域 逐步应用到医学及公共卫生等领域 HarveyGoldstein UK UniversityofLondon InstituteofEducation MultilevelModelsinEducationalandSocialResearch 1987 AnthonyBryk UniversityofChicagoStephenRaudenbush MichiganStateUniversity DepartmentofEducationalPsychology HierarchicalLinearModels ApplicationsandDataAnalysisMethods 1992 NicholasLongford PrincetonUniversity EducationTestingService RandomCoefficientModels 1993 多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型 ML3 1994 MLN 1996 MLwiN 1999 HLM HierarchicalLinearModel SAS Mixed SPSSSTATA 两水平层次结构数据 水平2 水平1 层次结构数据的普遍性 水平 level 指数据层次结构中的某一层次 例如 子女为低水平即水平1 家庭为高水平即水平2 单位 unit 指数据层次结构中某水平上的一个实体 例如 每个子女是一个水平1单位 每个家庭是一个水平2单位 临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查遗传学家系调查资料meta分析资料 层次结构数据为一种非独立数据 即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立 其大小常用组内相关 intra classcorrelation ICC 度量 例如 来自同一家庭的子女 其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似 即子女特征在家庭中具有相似性或聚集性 clustering 数据是非独立的 nonindependent 非独立数据不满足经典方法的独立性条件 采用经典方法可能失去参数估计的有效性并导致不合理的推断结论 但非独立数据的组内相关结构各异 理论上 不同的结构应采用相应的统计方法 如纵向观测数据常用广义估计方程 GEE 但有两个局限性 一是对误差方差的分解仅局限于2水平的情形 二是没有考虑解释变量对误差方差的影响 当应变量的协差阵为分块对角阵时 一般采用多水平模型 经典方法框架下的分析策略经典的线性模型只对某一层数据的问题进行分析 而不能将涉及两层或多层数据的问题进行综合分析 但有时某个现象既受到水平1变量的影响 又受到水平2变量的影响 还受到两个水平变量的交互影响 cross levelinteraction 个体的某事件既受到其自身特征的影响 也受到其生活环境的影响 即既有个体效应 也有环境或背景效应 contexteffect 例如 个体发生某种牙病的危险可能与个体的遗传倾向 个体所属的社会阶层 如饮食文化和口腔卫生习惯 环境因素 如饮水中氟浓度 等有关 分解 disaggregation 聚合 aggregation 分解 不满足模型独立性假定 回归系数及其标准误的估计无效 且未能有效区分个体效应与背景效应 另一种分析策略是用哑变量拟合高水平单位的固定效应 聚合 损失大量水平1单位的信息 更严重的是可能导致 生态学谬误 ecologicalfallacy 多水平分析的概念为人们提供了这样一个框架 即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析 从而实现研究的事物与其所在背景的统一 经典模型的基本假定是单一水平和单一的随机误差项 并假定随机误差项独立 服从方差为常量的正态分布 代表不能用模型解释的残留的随机成份 基本的多水平模型 当数据存在层次结构时 随机误差项则不满足独立常方差的假定 模型的误差项不仅包含了模型不能解释的应变量的残差成份 也包含了高水平单位自身对应变量的效应成份 多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上 具有多个随机误差项并估计相应的残差方差及协方差 构建与数据层次结构相适应的复杂误差结构 这是多水平模型区别于经典模型的根本特征 多水平模型由固定与随机两部分构成 与一般的混合效应模型的不同之处在于 其随机部分可以包含解释变量 故又称为随机系数模型 randomcoefficientmodel 其组内相关也可为解释变量的函数 换言之 多水平模型可对不同水平上的误差方差进行深入和精细的分析 1 方差成份模型 VarianceComponentModel 假定一个两水平的层次结构数据 医院为水平2单位 患者为水平1单位 医院为相应总体的随机样本 模型中仅有一个解释变量x 和分别为第j个医院中第i个患者应变量观测值和解释变量观测值 和为参数估计 为通常的随机误差项 示水平2单位 示水平1单位 与经典模型的区别在于 经典模型中的估计为 仅一个估计值 表示固定的截距 而在方差成份模型中表示j个截距值 即当x取0时 第j个医院在基线水平时y的平均估计值 为平均截距 反映与的平均关系 即当x取0时 所有y的总平均估计值 为随机变量 表示第j个医院y之平均估计值与总均数的离差值 反映了第j个医院对y的随机效应 表示协变量x的固定效应估计值 即y与协变量x的关系在各医院间是相同的 换言之 医院间y的变异与协变量x的变化无关 方差成份模型拟合j条平行的回归线 截距不同 斜率相同 对医院水平残差的假定 对患者水平残差的假定与传统模型一致 水平1上的残差与水平2上的残差相互独立 反应变量可表达为固定部分与随机部分之和 模型具有两个残差项 这是多水平模型区别于经典模型的关键部分 即水平2残差 随机效应 又称潜变量 latentvariable 此模型需估计4个参数 除两个固定系数和 还需估计两个随机参数和 其中即为医院水平的方差成份 为患者水平的方差成份 组内相关的度量 方差成份模型中 应变量方差为 此即水平2和水平1方差之和 同一医院中两个患者 用i1 i2表示 间的协方差为 组内相关 intra classcorrelation ICC 测量了医院间方差占总方差的比例 实际上它反映了医院内个体间相关 即水平1单位 患者 在水平2单位 医院 中的聚集性或相似性 由于模型不止一个残差项 就产生了非零的组内相关 若为0 表明数据不具层次结构 可忽略医院的存在 即简化为传统的单水平模型 反之 若存在非零的 则不能忽略医院的存在 水平2单位中的水平1单位间存在相关 通常的 普通最小二乘法 OrdinaryLeastSquaresOLS 进行参数估计是不适宜的 进一步 如数据具有三个水平的层次结构 如医院 医生和患者三个水平 则将有两个这样的相关系数 即医院内相关和医生内相关 随机系数模型是指协变量的系数估计不是固定的而是随机的 即协变量对反应变量的效应在不同的水平2单位间是不同的 仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设 随机系数模型 RandomCoefficientModel 与方差成份模型的区别在于 方差成份模型中协变量的系数估计为固定的 示协变量对反应变量的效应是固定不变的 在随机系数模型中协变量的系数估计为 示每个医院都有其自身的斜率估计 表明协变量对反应变量的效应在各个医院间是不同的 的假定及其含义与方差成份模型一致 现为随机变量 假定 表示第j个医院的y随x变化的斜率 表示全部医院的y随x变化的斜率的平均值 平均斜率 是指各医院的y随x变化的斜率的方差 示第j个医院的斜率与平均斜率的离差值 指上述截距离差值与斜率离差值的协方差 反映了它们之间的相关关系 即表达为固定部分与随机部分之和 其中 固定效应用均数描述 它决定了全部医院的平均回归线 这条直线的截距即平均截距 直线的斜率即平均斜率 为随机系数 将模型改记为 随机效应用方差描述 它反映了各医院之间y的变异与协变量x的关系 模型随机部分具多个残差项 需估计4个随机参数 即方差 和以及协方差 模型的反应变量方差为 表明各医院间y的变异与协变量x有关 即每条回归线不仅截距不同 且斜率也不同 当x取0时每个医院y的平均估计值不同 且每个医院y随x变化的斜率不同 组内相关与解释变量有关 值得指出 模型随机部分的解释变量常为其固定部分的一个子集 但亦可以不是 换言之 可以在模型的固定部分或随机部分纳入任何水平上测量的解释变量 反应变量向量的协方差结构 从最基本的两水平数据结构来考察反应变量向量的协方差结构 即只包括随机参数和 对应于方差成份模型 反应变量方差为水平1和水平2方差之和 同一个医院所诊疗的两个患者 用 表示 间的协方差为 因此 同一医院所诊疗的三名患者的协差阵为 对两个医院而言 若一个医院诊疗了三名患者 另一个医院诊疗了两个患者 则具有2个水平2单位的反应变量向量Y总的协差阵可表达为 矩阵的这种分块对角结构表达了不同医院所诊疗的患者间的协方差为0 它可进一步扩展到任意多的医院数 将上述矩阵表达为另一种更简略的形式 为维的1矩阵 为维的单位阵 的下标2表明为两水平模型 的维数即水平2单位数 主对角线块的维数即水平1单位数 它们均为方阵 在传统OLS估计中 为0 则该协差阵退化为标准形式的 即残差方差 考察包括随机系数的一般形式的两水平模型 或简记为 对于具有随机截距与斜率的两水平模型 其反应变量协差阵具有以下典型的分块结构 矩阵为水平2的随机截距与斜率的协差阵 即随机系数协差阵 矩阵为水平1的随机系数协差阵 这里 水平1只有一个单一的方差项 可进一步采用表示这些协差阵集 将上述矩阵展开得到 这是具有分块结构的一个具有2个水平1单位的水平2单位的反应变量协差阵 此即构造反应变量协差阵的一般模式 它同时也概括了拟合水平1复杂变异的可能性 固定与随机参数估计 固定和随机参数的估计方法一般采用 迭代广义最小二乘算法 IterativeGeneralizedLeastSquares IGLS Goldstein 1986 或 限制性迭代广义最小二乘法 RestrictedIterativeGeneralizedLeastSquares RIGLS Goldstein 1989 现以最基本的两水平方差成份模型来阐明固定与随机参数估计的基本思想和步骤 假定已知方差的值 则可直接构造分块对角阵 简记为 直接采用通常的广义最小二乘法 GeneralizedLeastSquaresGLS 可获得固定系数的估计 在初始阶段 假定为0 即假定数据不具有系统结构 则给出固定系数通常的OLS估计 得到粗残差 将粗残差向量记为 将粗残差向量形成交叉乘积矩阵 然后再形成交叉乘积矩阵的向量化算子 记为 相应的 也可以形成反应变量协方差阵向量化算子 记为 对应于2个医院 一个诊疗3名患者 另一个诊疗2名患者 则和均具有32 22 13个元素 因为的期望为 可将这些向量间关系表达为以下线性模型 R R 这里 为一个残差向量 将粗残差作为模型的反应变量向量 模型右边包含两个已知的解释变量 其系数即待估计的随机参数和 通过GLS方法获得和的估计 回到初始模型则获得固定系数新的估计 在随机与固定参数估计间反复迭代直至收敛 此即IGLS算法的基础 1 重复测量数据的多水平模型当同一研究对象被重复测量多次时 测量点即为水平1单位 测量点又嵌套 nested 进作为水平2单位的个体 这种数据结构具有典型的层次结构特征 多水平模型的应用 在临床试验和动物实验中 常需对患者或动物的某些指标进行重复测量 以了解不同时间观测指标的变化以及处理因素与观测指标的关系随时间的变化 在生长发育研究中 也需对个体生长或发育指标作多时点的重复测量 常规使用的重复测量数据统计方法 一般要求资料是平衡的 即每一个体有相同次数的重复测量值 这对于实验研究是可行的 但在生长发育研究中 测量常常是不规则的 这就出现了个体测量时点多少不一 时间间隔不等以及观测值缺失等问题 它增加了传统统计方法拟合个体生长曲线的难度 并引起估计结果不同程度的偏差 多水平模型技术可有效和方便地处理此类测量模式的数据 提供统计上有效的参数估计 并具有如下几个特点 1 考虑了分布于不同层次的测量误差 并给出相应的误差估计值 2 拟合个体生长曲线时不要求相等的时间间隔 在拟合个体生长曲线的同时也估计全部样本的平均曲线 3 不要求每个个体都有同样多的测量点 即缺失测量点并不增加拟合生长曲线的难度 4 便于在生长曲线中引入其它解释变量 如性别 营养状况等 分析其对生长过程的影响 2 Meta分析是指对具有相同研究假设的多项独立研究结果所进行的合并分析 在合并不同来源的研究资料时可能引入异杂方差 heterogeneousvariance 因此 其数据可看成具有两个水平的层次结构 即研究水平与个体水平 Meta分析的主要目的是为了得到比单一研究更精确的结果估计 进一步的目的则是分析影响研究结果间差异的因素 目前 Meta分析主要根据 效应尺度 的同质性检验结果 而决定采用固定效应模型或随机效应模型来合并每项研究的 效应尺度 采用多水平模型可较为方便地分析影响研究结果间差异的因素如研究水平上的有关协变量包括样本含量 设计类型等 3 离散数据的多水平模型在流行病学现场调查研究中 常对发病率 患病率或死亡率以及它们在地区之间的变异感兴趣 这里的两水平结构是 个体为水平1 地区为水平2 此类研究常常拥有若干地区某时期的死亡记录和死者个人特征以及地区特征如人口构成或社会经济特征等 研究者可以分析这些解释变量是否能够解释死亡率在地区之间的变异 也可以分析死亡率的差别 比如男性和女性之间 是否在地区之间不同等 4 多变量多水平模型 在医学研究中 研究者常对个体作几种测量 即测量几个指标 如收缩压 舒张压和心率 如果将它们作为反应变量一起进行分析 就可以设置多变量模型 分析解释变量诸如年龄 性别 是否锻炼 是否吸烟等与这三个反应变量的关系 此时 是将其作为一个两水平模型 每一个体作为一个水平2单位 3种测量组成水平1单位 5 混合反应变量多水平模型例如 测定人们的吸烟行为 可以测量某人是否吸烟以及吸烟程度如何 我们可将其考虑为一个混合双变量模型 将有关吸烟的影响因素作为模型中的解释变量进行分析 多水平分析的主要优点 1 获得回归系数及其标准误的有效估计 2 可在模型固定或随机部分引入任何水平上所测量的协变量 能够探讨各水平单位的特征对反应变量的影响 以及对反应变量在高水平单位甚至是低水平单位之间变异的影响 即这些特征是否可以解释这些变异 3 在调整了低水平单位甚至高水平单位的各种特征后 可对高水平单位的残差估计进行排序和比较 用于识别极端的高水平单位 例如 比较若干医院某病治愈率的高低 在调整了患者 医护人员的各种特征之后 通过对医院水平残差估计的考察 可以发现某些极端的医院 若将其选出作进一步深入的个案调查 则形成定量的多水平分析和定性调查相结合的研究 有助于探讨更详细的因果机制 这是多水平分析的另一个重要特点 应用前景 自然界与人类社会广泛存在着层次结构现象 生物系统具有自然的等级或组群结构 人类社会被组织成高度复杂的系统结构 医学和公共卫生领域研究的一个重要方面是探索疾病发生 发展及其变化的规律性 疾病总是在某种特定的环境中产生和发展的 即个体的结局是由个体和所在环境的特征联合决定的 无论是观察性研究还是实验性研究 从时空两个维度均可形成数据的层次结构 多水平模型复杂的误差结构适应并反映了数据相应的层次结构 这是多水平分析区别于经典统计模型的最重要特征 1 运行空模型 空模型的结果可以说明总结局测量变异中多大程度是由组内变异引起 多大程度是由组间变异引起 微观和宏观来源的结局测量变异可以用来计算组内相关系数 ICC 建立多水平模型的步骤 计算组内相关系数 Intra classcorrelationcoefficient ICC 测量了医院间方差占总方差的比例 实际上它反映了医院内个体间相关 即水平1单位 患者 在水平2单位 医院 中的聚集性或相似性 由于模型不止一个残差项 就产生了非零的组内相关 若为0 表明数据不具层次结构 可忽略医院的存在 即简化为传统的单水平模型 反之 若存在非零的 则不能忽略医院的存在 2 将水平2解释变量纳入空模型此时 模型称为带宏观解释变量主效应的随机截距模型 与空模型比较 该模型具有相同的随机成分 但固定效应不同 3 将水平1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论