多层线性模型_第1页
多层线性模型_第2页
多层线性模型_第3页
多层线性模型_第4页
多层线性模型_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多层线性模型简介,hierarchical linear model (hlm),主要内容,一、多层线性模型简介 二、多层线性模型基本原理 三、多层线性模型hlm软件的应用,多层线性模型简介,1、多层数据结构的普遍性 多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。 (1)教育研究领域 eg:学生镶嵌于班级,班级镶嵌于学校,或者学生简单地镶嵌于学校,这时学生代表了数据结构的第一层,而班级或学校代表的是数据结构的第二层;如果数据是学生镶嵌于班级,而班级又是镶嵌于学校,那么就是三层数据结构。,多层线性模型简介,(2)组织心理学研究领域 eg:雇员镶嵌于不同的组织、工厂 (3)发展心理学领域

2、 eg:纵向研究、重复研究 在一段时间内对儿童进行多次观察,那么不同时间的观测数据形成了数据结构的第一层,而儿童之间的个体差异则形成了数据结构的第二层。这样,就可以探索个体在其发展趋势或发展曲线上的差异。,两水平层次结构数据,水平2,水平1,层次结构数据的普遍性,层次结构数据为一种非独立数据,即某观察值在观察单位间(或同一观察单位的各次观察间)不独立或不完全独立,其大小常用组内相关(intra-class correlation,icc)度量。 例如,来自同一家庭的子女,其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似,即子女特征在家庭中具有相似性,数据是非独立的。,违背了传统回归(

3、ols)中关于残差相互独立的假设 采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。,经典方法框架下的分析策略 经典的线性模型只对某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析。 但有时某个现象既受到水平1变量的影响,又受到水平2变量的影响,还受到两个水平变量的交互影响(cross-level interaction)。,个体的某事件既受到其自身特征的影响,也受到其生活环境的影响,即既有个体效应,也有环境或背景效应(context effect)。 例如,学生(个体)的学习成绩与学生的勤奋程度有关,还与学校的师资配备有关。 企业的创新能力与企业自身的创新投入、

4、学习能力有关,还与企业所属产业的r&d强度有关。,多层线性模型简介,2、多层数据的传统分析方法 个体的行为既受个体自身特征的影响,也受到其所处环境的影响,所以研究者一直试图将个体效应与组效应(背景效应或环境效应)区分开来。 个体效应:由个体自身特征所造成的变异。 组效应:由个体所处环境所造成的变异。,多层线性模型简介,(1)只关注个体效应,而忽视组效应 只在个体这一层数据上考虑变量间的关系,那么导致所观测到的效应既包含个体效应,又包含组效应,从而增大了犯一类错误的概率,夸大了变量间的关系。 (2)在组水平上进行分析 把数据集中起来,使其仅在第二层的组间发挥作用,从而丢失了重要的个体信息。,多层

5、线性模型简介,(3)组内分析组间分析 对相同的数据进行三次计算: 一是在组内的个体层上进行的分析,称为组内效应 二是通过平均或整合第一层中的个体数据,得到第二层的组间数据,称为组间效应 三是忽视组的特性而对所有的数据进行分析,称为总效应。 在此基础上,计算组内效应和组间效应在总效应的比例,从而确定变异来自于组间还是组内。 组内分析组间分析的方法较前两种方法更多地考虑到了第一层数据及第二层数据对变异产生的影响,但无法对组内效应和组间效应做出具体的解释,也就无法解释为什么在不同的组变量间的关系存在差异。,hlm数学模型,例如:对73个学校1905名学生进行调查,目的是考虑其刚上高中时的入学成绩与三

6、年后高考成绩之间的关系。 考虑方法: (1)如果用传统的线性回归分析,直接在学生水平上进行分析,得出入学学业成绩对高考成绩之间的一条回归直线,如下图1所示,从图1的结果可以看出,传统回归分析没有区分不同的学校之间的差异。,图1:不考虑学校之间差异的回归直线,hlm数学模型,(2)如果将数据进行简单合并,用每个学校学生的平均成绩代替这个学校的成绩,直接在学校水平上估计入学成绩对高考成绩的影响,得到一条回归直线,如图2所示,这种方法忽略了不同学生(个体)之间的差异;,图2:只考虑学校差异忽略学生差异回归直线,hlm数学模型,(3)如果假设不同学校入学成绩对高考成绩的回归直线截距不同,斜率相同(平均

7、学习成绩之间存在差异),得到如图3的结果,从图中结果可以看出,不同学校学生平均高考成绩之间存在差异。,图3:考虑不同学校平均成绩差异的回归直线,hlm数学模型,(4)对73所学校分别做回归分析,得到如图4的结果,如图4所示,从图中结果可以看出,不同学校回归直线的截距和斜率均不同,即:不同学校学生平均高考成绩之间存在差异,入学学业成绩对高考成绩的影响强度不同。,图4:考虑不同学校平均成绩差异 和入学对毕业成绩影响程度差异的回归直线,在许多研究中,取样往往来自不同层级和单位,这种数据带来了很多跨级(多层)的研究问题,解决这些问题的一种新的数据分析方法多层模型分析技术。 这一方法的开创及发展的主要贡

8、献者之一是英国伦敦大学的harvey goldstein教授及研究者把这种方法称作“多层分析”。另一主要开拓者美国密歇根大学的stephen w.raudenbush教授和同行把它称为“分层线性模型结构”。在此,我们按照张雷等人的叫法称其为“多层线性模型”或“多层模型”。,多层线性模型简介,3、多层线性模型分析方法 回归的回归方法 eg:学生成绩(x) 学习动机(y) 班级教师教学水平(w) (1)求各个班级学生成绩对学习动机的回归,多层线性模型简介,(2)求教师教学水平对0j和 1j 的回归方程,多层线性模型简介,4、多层线性模型的优点 (1)使用收缩估计的参数估计方法,使得估计结果更为稳定

9、、精确 收缩估计:使用两个估计的加权综合作为最后的估计。其一是来自第一层数据的ols估计,另一个是来自第二层数据的加权最小二乘法估计,最后的估计是对以上两个估计的加权。 (2)可以处理样本不等的数据 eg:当某些第二层单位在第一层的取样甚少时,可以借助于其他二层单位和二层预测变量,对取样较少的一层单位进行回归分析。第一层单位3个及以上。,多层线性模型简介,5、多层线性模型的应用范围 (1)组织和管理研究 (2)对个体进行追踪、多次观测的发展研究 (3)教育研究 (4)元分析研究,多层线性模型基本原理,1、多层线性模型的基本形式 水平1(如:学生) 水平2(如:学校),yij-第j个学校的第i个

10、学生,指固定成分,随机成分,多层线性模型基本原理,为固定成分,指第二层单位间0j 和1j 的平均值 为随机成分,指第二层单位0j 和1j 的变异,多层线性模型基本原理,把第一层和第二层方程整合如下: 误差项间是相关的:同一第二层单位的个体有相同的 误差项间方差不等:相同第二层单位内的个体间相似性比不同单位内个体相似性高 误差项与自变量有关:残差项包含,残差项,多层线性模型基本原理,因此,多层数据并不满足传统ols回归分析关于残差项的诸多假设。而多层线性模型将残差项进行了分解,更符合实际情况,所以对于多层数据使用多层线性模型进行分析更为合理。,多层线性模型基本模型,2、多层线性模型的基本模型 零

11、模型(the null model) 第一层和第二层均没有预测变量,只是将方程分解为由个体差异造成的部分及由组差异造成的部分,这种方法为方差成分分析。,多层线性模型零模型,第一层: 第二层: 合并模型:,多层线性模型零模型,指第j个二层单位y的平均值 指第j个二层单位y的变异 指所有二层单位的y的总体平均数 指第二层方程的残差(随机项) 跨级相关:指y的总体变异中有多大比例是由第二层的变异引起的。,多层线性模型完整模型,完整模型(the full model) 既包含了第一层的预测变量,又包含了第二层的预测变量,可通过理论建构来说明解释y的总体变异是怎样受第一层和第二层因素的影响。 第一层:,

12、多层线性模型完整模型,第二层:,多层线性模型完整模型,在第一层方程中,0代表截距,1代表斜率 在第二层方程中,第一个下标代表第一层参数的类型;第二个下标代表第二层参数的类型。 0j和1j的预测变量可以相同,也可以不同。,多层线性模型协方差模型,在零模型与完整模型之间,可通过向各层方程中增加不同的变量,设定不同的随机成分与固定成分来建构各种分析模型。 协方差模型(ancova model) 第一层: 第二层:,多层线性模型协方差模型,第一层方程中,预测变量采用总体平均数为参照的离差,与传统协方差分析的区别是0j被进一步分解为 和 1j没有随机项,反映了协方差分析的一个重要前提,协变量对因变量的回

13、归系数的组间一致性。检验这种假设的方法是把 纳入到方程中,并检验 是否成立。,多层线性模型随机效应回归模型,随机效应回归模型(radom eeffect regression model) 第一层: 第二层:,多层线性模型随机效应回归模型,此模型与完整模型的区别在于第二层没有预测变量;与传统ols回归区别在于第一层的0j和1j是随机的而非固定的,其目的是寻找第一层的截距、斜率在第二层单位上的变异。,多层线性模型发展模型,发展模型 发展模型是把多次观测结果作为时间的某种数学函数来建构模型。它多用于发展研究、纵向研究或者追踪研究。 在这种模型中,第一层数据为不同时间的观察结果,第二层数据为个体的特

14、征。,多层线性模型发展模型,第一层:线性发展模型 time:一般用编码的形式来反映增量 eg: 0、1、2、3、4、5 5、4、3、2、1、0 线性发展模型的第一层方程并不一定为线性方程,也可以为非线性方程。 eg:,多层线性模型发展模型,“确定发展变异”的第二层:,时间变量编码为0时y的总体平均数,线性发展斜率的总体平均值,指个体j与平均发展斜率的离差,指个体j与平均截距的离差,多层线性模型发展模型,“预测发展变异”的第二层:,考虑第二层的预测变量w后第一层的截距和第一层的斜率在第二层单位间的残差方差,代表第二层的变量w对第一层截距的效应,多层线性模型三层模型,三层模型是二层模型的直接扩展,

15、我们也可以根据需要选择零模型与完整模型之间的任何模型。 模型1:零模型 第一层: 第二层: 第三层:,多层线性模型三层模型,第一个下标表示第一层方程中的参数;第二个下标表示第二层方程中的参数;第三个下标表示第三层方程中的参数。 表示第二层单位之间的变异, 表示第三层单位之间的变异 跨级相关: 第一层的方差和总方差之比: 第二层的方差和总方差之比: 第三层的方差和总方差之比:,多层线性模型三层模型,模型2:完整模型 第一层: 第二层:,多层线性模型三层模型,第三层:,hlm应用举例,hsb1.sav和hsb2.sav 在水平一的数据文件hsb1.sav中,有7185个观测样本和四个第一水平的变量

16、(不包含第二水平指标变量:学校编号id),这四个变量所表示的含义如下: minority,学生的种族(1=少数民族,0=其他) female:学生性别(1=女,0=男) ses:学生的社经地位,由学生父母受教育程度、职业和收入合成,变量已被标准化 mathach:学生的数学学业成绩,hlm应用举例,数据文件hsb2.sav中包含有160个学校,每个学校测量了六个学校水平的变量(不包含学校指标变量id)。 size:学校招生人数 sector:学校类型(1=天主教教会学校,0=公立学校) pracad:从事学术研究的学生的比例 disclim:学校纪律环境,由量表测量得到 himnty:学校招生

17、少数民族学生比例描述(1=超过40%少数民族学生,0=其他) meanses:包含在水平1数据中,每个学校学生的平均社经地位,层1数据,层2数据,hlm应用举例,目的:分析影响学生数学成绩的学生水平变量和学校水平变量,指定层1变量,指定层2变量,保存mdm模板 生成mdm文件 查看mdm的统计量,mdm的描述统计量,选择层1的结果变量,无条件模型,无条件模型参数估计结果,final estimation of variance components: - random effect standard variance df chi-square p-value deviation compon

18、ent - intrcpt1, 2.93501 8.61431 159 1660.23259 0.000 level-1, r 6.25686 39.14831 -,填加层1解释变量,含有第一水平预测变量的hlm模型(随机系数模型),随机系数模型参数估计结果,final estimation of fixed effects (with robust standard errors) - standard approx. fixed effect coefficient error t-ratio d.f. p-value - for intrcpt1, b0 intrcpt2, g00 12

19、.664935 0.189251 66.921 159 0.000 for ses slope, b1 intrcpt2, g10 2.393878 0.117697 20.339 159 0.000 -,final estimation of variance components: - random effect standard variance df chi-square p-value deviation component - intrcpt1, u0 2.19768 4.82978 159 905.26472 0.000 ses slope, u1 0.64675 0.41828

20、 159 216.21178 0.002 level-1, r 6.06864 36.82835 -,含有第二水平预测变量的模型,the outcome variable is mathach final estimation of fixed effects (with robust standard errors) - standard approx. fixed effect coefficient error t-ratio d.f. p-value - for intrcpt1, b0 intrcpt2, g00 12.658410 0.173263 73.059 158 0.000

21、 disclim, g01 -1.128519 0.160735 -7.021 158 0.000 for ses slope, b1 intrcpt2, g10 2.409288 0.112194 21.474 158 0.000 disclim, g11 0.570615 0.123906 4.605 158 0.000 -,final estimation of variance components: - random effect standard variance df chi-square p-value deviation component - intrcpt1, u0 1.

22、93467 3.74295 158 730.83940 0.000 ses slope, u1 0.45491 0.20694 158 189.39572 0.045 level-1, r 6.06501 36.78432 -,in the level-2 model, both the intercept and ses slope are to be modeled as dependent on the schools mean social class (meanses) and school sector (sector).,填加层2的解释变量,混合模型,using level su

23、bscripts,指定层1系数为随机的或非随机的,结果分析,个体水平模型,yij = 0j + 1jx1ij + 2jx2ij + + kjxkij + rij,第 j 组第 i 个个体因变量的观测值,第 j个组的截距,第j 组 x1 对应的斜率,第j 组 x2 对应的斜率,第j 组 xk 对应的斜率,背景(contextual)模型,yij = 0j + 1jx1ij + 2jx2ij + + kjxkij + rij 0j = 00 1j = 10 2j = 20 kj = k0,在传统回归(ols)模型中,截距和斜率都是固定的,即对不同的第二水平单元均相同,背景(contextual)影响问题,第二水平不同单元(如不同学校),截距是否相同? 能否用第二水平的协变量预测截距之间的差异? 斜率是否存在第二水平的变异? 能否用第二水平的预测变量解释斜率之间的差异?,截距是否存在第二水平的变异?,yij = 0j + 1jx1ij + 2jx2ij + + kjxkij + rij 0j = 00 + u0j 1j = 10 2j = 20 kj = k0,in the random effects model, the intercept varies around some grand mea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论