多层统计分析模型_第1页
多层统计分析模型_第2页
多层统计分析模型_第3页
多层统计分析模型_第4页
多层统计分析模型_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、。多层统计分析模型,陶庄,疾病预防控制中心卫生统计研究室,中国。简介,青蛙池塘理论,个别青蛙学生;池塘学校环境;学生的成绩不仅受个人自身的影响,还受学校环境的影响!嘿。多层数据,下级单位(个人)的数据嵌套在上级单位(集团)中。结果变量、个体解释变量、情境变量和组内观察依赖性。与不同群体中的个体相比,同一群体中的个体在思想和行为等许多方面更接近或相似。即使它不是故意分组的。组内同质性和组间异质性,小的相关性将导致大的一级误差。嘿。多层数据的共同来源,复杂采样;多中心临床试验;纵向研究和重复测量;“高低匹配”;元分析;多层次统计模型的研究内容,哪些个体解释变量会影响结果变量;哪些场景变量会影响结果

2、变量;个体解释变量对结果变量的影响是否会受到场景变量的影响。在多层统计模型出现之前对多层数据分析的探索(1)分别在个人层面和群体层面进行估计和分析;本文试图从单个个体水平模型的分析结果中推导出另一个水平的统计结果。探索(2)传统回归,利用传统固定效应回归模型中的一般交互项来理解多层数据中的跨层次交互。嘿。探索(3)两阶段模型,第一步模型,用同一回归模型估计各组,并获得一系列系数;测试这些系数的恒定性;如果不是常数,则进行第二步模型,组变量是因变量,系数是回归的自变量。探索(3)两步模型的问题,无论哪一步使用OLS,它都是不适用的;当团体太多的时候,是很麻烦的;当某些组的样本量很小时,回归是不稳

3、定的;每一组都被认为是不相关的,忽略了它是从一个大样本中提取的这一事实。有许多学者研究多层统计模型的出现;有两个主要系统;研究理论没有根本的区别;双方研究成果的发布时间基本相同(20世纪80年代末和90年代初);具有各自分析的成熟软件;目前,我们基本上接受两组人独立开发相同模型的结果。该模型被称为:分层线性模型;软件是HLM。这种模型被称为多级模型;软件:MLwiN (ML3,早期版本的MLn)。多层统计模型的名称。多层次模型层次线性模型随机效应模型随机系数模型可变成分模型混合效应模型帝国贝叶斯模型。多层次统计模型的优势,同时分析群体效应和个体效应;没有必要假定独立;它对于稀疏数据尤其有效,即

4、每组中样本很少的数据;特别适用于发展模型的分析。多层统计模型的局限性(1),模型复杂,不够简单;需要大样本来确保稳定性;群体数量少,就会有偏见;高层单位没有严格抽样;一些场景变量通常是每个群体中个体的聚集度量,而不是整个群体中个体的聚集度量;多层统计模型的局限性(2),研究对象一般都是移动的,也就是说,他们都不同程度地受到群体的影响,虽然他们可以通过访问时间来控制,但这种信息一般是未知的;独立变量仍存在测量误差的问题,因此有必要采用结构方程模型。完全嵌套假设,即每个低级单元都是嵌套的,只有一个高级单元是嵌套的。嘿。多层统计模型软件,专业软件:HLM;MLwiNSuperMIXaML。EGRET

5、LISREL通用统计软件;SPSSstataS-plus/R等。嘿。线性多层次统计模型,基础知识,类内相关系数(ICC),组间方差占总方差的比例。它可以通过拟合“空模型”得到;数值范围在0和1之间,越接近1,相关性越明显。ICC测试是选择多层模型的基础。两级模型的公式表达式、空模型(也称为截距模型)、两个一级自变量、一个二级自变量、通用模型、SAS中的公式表达式、模型假设、模型假设、SAS的表达式、固定和随机回归系数、模型估计方法等。估计的残差基础不同,后者的残差包括所有随机变量;REML是SAS的混合过程,也是HLM的默认算法。REML通常用于具有少量组的模型;最大似然法可用于模型比较,但最

6、小似然法不能。最大似然估计更好,而最大似然估计更快。最小二乘,包括迭代广义最小二乘和限制迭代广义最小二乘,都是以普通最小二乘估计(OLS)为初值进行迭代的。地位和相对关系大致相当于最大似然和最大似然;是MLwiN使用的算法。嘿。经验贝叶斯方法,“收缩估计”用可靠性权重确定最终估计值;对于一些样本量较小的组,总样本的更多信息用于评估模型拟合,例如“借用强度”。空模型的可靠性权重。SAS给出:-2LL,AIC,AICC,BIC等统计数据,数值越小越好;但是它只在比较模型时有用。模型的收敛速度可以解释拟合的质量。嘿。假设检验,全局检验:f检验;局部检验:方差-协方差估计采用沃尔德兹检验;系数采用t检

7、验;对于单一测试,P值需要除以2;其他人可以使用LR等。嘿。模型比较,对于嵌套模型,使用LR检验;对于非嵌套模型,使用AIC、AICC和BIC测试;在任何情况下,都应该使用最大似然估计。嘿。变异的解释程度。变异的解释程度(SB)。示例和SAS实现。例1:医生满意度调查,病人:病人人数;物理:医生号码;年龄:患者年龄;Sat:满意度得分;练习:练习时间;嘿。空模型,空模型,2步迭代完成;所有随机系数的测试都高于测试水平;ICC=0.00292/(0.00292 1.291)=0.23%。没有必要进一步拟合多级模型。示例2: SNA角度测量值,id:观察对象编号;奥卡:每次观测的次数;年龄:患者年

8、龄;国民账户体系:角度;Agg:场景变量;嘿。空模型,完成3次迭代;所有随机系数的测试部分低于测试水平;ICC=0.4296/(0.42960.5629)=43.28%应进一步拟合多水平模型。空模型添加了场景变量,空模型加入场景变量,完成三次迭代,随机截距有意义;所有随机系数的测试部分低于测试水平;模型-2LL=345.8,空模型-2LL=352.2,然后LR2=6.4,p=0.0114RB=1-0.3330/0.4296=0.2248;嘿。添加1级变量(固定效果),增加一级变量(固定效果),三次迭代完成,随机截距有意义;所有随机系数的测试部分低于测试水平;模型-2LL=199.1,前一个模型

9、-2LL=345.8,然后LR2=146.7,p=0.000嘿。测试1级的随机性,测试1级的随机性,4次迭代都完成了,而且两个随机系数都有意义;所有随机系数的测试部分低于测试水平;模型-2LL=185.6,前一个模型-2LL=199.1,然后LR2=3.5,p=0.1738嘿。跨层交互评估。跨层交互评估,完成5次迭代,随机截取是有意义的,但交互项是无意义的;-2LL等。增加了以前的型号;跨层交互并不重要。嘿。建模的一般步骤,运行空模型得到ICC,判断是否进行多层模型拟合;添加二级解释变量;添加一级解释变量;测试1级的随机斜率;检查跨级别交互(完整模型)。、开发模型、传统纵向数据分析方法的局限性

10、、重复测量的方差分析;假设每个时间点的残差方差相等;或者,假设任意时间点之间的残差方差之差相等(即所谓的“球形”假设或“圆形”假设);要求数据完整、平衡,即时间间隔相等且无遗漏。开发模型的优点是可以处理缺失和不完整的数据;能处理时间距离不等的问题;它不要求对象内部的独立性,即其他限制性假设;依赖于时间的参数很容易添加。嘿。开发模式与一般多层模式的区别,SAS程序,proc混合协检验IC;类别id时间c;型号y=trt |时间/s ddfm=KR note ST;随机整数时间/主题=整数类型=无;重复时间c /主题=id R类型=AR(1);快跑。离散结果变量的多层次统计模型,广义线性模型,随机

11、成分:指分布,一般是指数族分布;系统成分:传统回归模型的形式;链接函数、广义线性混合效应模型、广义线性模型和多层统计模型的组合和扩展。嘿。广义线性混合效应模型的估计方法,线性化方法,数值积分逼近方法等。采用线性化方法、泰勒展开等技术逼近积分似然函数;不使用原始数据,但是由原始数据生成的伪数据用于估计。SAS中的GLMMIX过程。线性化方法的优点和局限性,模型的联合分布难以确定,可以胜任;可以适应更多的随机效果;允许不同结构的r矩阵;可以使用远程内存等;由于使用伪数据进行拟合,左后不能用于模型比较。SAS提供的随机效应标准误差是有偏差的,不能用于假设检验。嘿。数值积分近似法,利用原始数据估计边际积分似然函数的近似值;默认为自适应高斯求积法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论