多层线性模型简介两水平模型_第1页
多层线性模型简介两水平模型_第2页
多层线性模型简介两水平模型_第3页
多层线性模型简介两水平模型_第4页
多层线性模型简介两水平模型_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于多层线性模型简介两水平模型主要内容为什么要用多层线性模型?回归分析模型回顾多层(多水平)数据特点什么是多层线性模型?HLM发展HLM数学模型HLM常见简化模型两水平模型应用举例应该注意的问题第2页,共76页,2024年2月25日,星期天回归分析模型第3页,共76页,2024年2月25日,星期天回归分析模型的假设线性(Linearity)误差正态分布(normallydistributed)误差方差齐性(homoskedastic)误差或观测个体之间相互独立(independent)第4页,共76页,2024年2月25日,星期天什么是多层(多水平)数据?多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。如学生嵌套于班级,班级嵌套于学校等。同一单位内的观测,具有更大的相似性。同一个班级的学生由于受相同的班级环境等因素的影响有更大的相似性。第5页,共76页,2024年2月25日,星期天嵌套于背景(contextual)特征

的多层数据举例学生水平特征的观测,嵌套于班级或学校兄弟姊妹特征的观测,嵌套于家庭个体之间的观测嵌套于社区个体不同时间点的重复测量嵌套于个体病人嵌套于医院参数的估计嵌套于不同的研究(元分析,meta-analysis)第6页,共76页,2024年2月25日,星期天对多层数据,我们了解什么...随机选取两个观测,同一组内的观测之间的相似性要比不同组观测之间的相似性大;如果回归模型不能解释所有的组间的差异(事实上传统回归不可能做到这一点),那么同一组内的观测之间的误差可能相关;这就违背了传统回归(OLS)中关于残差相互独立的假设;至少,传统回归分析得到的标准误的估计不正确(太小)。

第7页,共76页,2024年2月25日,星期天HLM数据特点对于嵌套数据,传统回归模型的做法:(1)个体(如学生)水平上分析问题:同一班级的学生间相互独立的假设是不合理的,同样对不同班级的学生和相同班级的学生作同一假设也是不合理的。(2)组(如学校)水平上分析问题:丢失了班级内学生个体间的差异的信息。第8页,共76页,2024年2月25日,星期天HLM数据特点对于嵌套数据,传统回归分析的假设往往无法满足。传统的线性回归模型假设变量间存在直线关系,因变量总体上服从正态分布,方差齐性,个体间相互独立。前两个假设较易保证,但方差齐性,尤其是个体间相互独立的假设却很难满足。第9页,共76页,2024年2月25日,星期天独立性不满足带来的问题传统回归系数估计的标准误依赖于相互独立的假设;如果独立性的假设不满足,得到的标准误的估计往往偏小,因此所犯第一类错误的概率往往偏大。第10页,共76页,2024年2月25日,星期天表1当组内相关存在时,第一类错误限定为0.05时,实际所犯第一类错误的概率第11页,共76页,2024年2月25日,星期天HLM数学模型例如:对73个学校1905名学生进行调查,目的是考虑其刚上高中时的入学成绩与三年后高考成绩之间的关系。考虑方法:(1)如果用传统的线性回归分析,直接在学生水平上进行分析,得出入学学业成绩对高考成绩之间的一条回归直线,如下图1所示,从图1的结果可以看出,传统回归分析没有区分不同的学校之间的差异。第12页,共76页,2024年2月25日,星期天图1:不考虑学校之间差异的回归直线

第13页,共76页,2024年2月25日,星期天HLM数学模型(2)如果将数据进行简单合并,用每个学校学生的平均成绩代替这个学校的成绩,直接在学校水平上估计入学成绩对高考成绩的影响,得到一条回归直线,如图2所示,这种方法忽略了不同学生之间的差异;第14页,共76页,2024年2月25日,星期天图2:只考虑学校差异忽略学生差异回归直线

第15页,共76页,2024年2月25日,星期天HLM数学模型(3)如果假设不同学校入学成绩对高考成绩的回归直线截距不同,斜率相同(平均学习成绩之间存在差异),得到如图3的结果,从图中结果可以看出,不同学校学生平均高考成绩之间存在差异。第16页,共76页,2024年2月25日,星期天图3:考虑不同学校平均成绩差异的回归直线第17页,共76页,2024年2月25日,星期天HLM数学模型(4)对73所学校分别做回归分析,得到如图4的结果,如图4所示,从图中结果可以看出,不同学校回归直线的截距和斜率均不同,即:不同学校学生平均高考成绩之间存在差异,入学学业成绩对高考成绩的影响强度不同。第18页,共76页,2024年2月25日,星期天图4:考虑不同学校平均成绩差异和入学对毕业成绩影响程度差异的回归直线第19页,共76页,2024年2月25日,星期天回归模型中,如何解决残差相关的问题?希望定义一个模型,可以明确地允许因变量水平在组内和组间存在差异例如,允许学生的学业成绩存在学校之间的差异第20页,共76页,2024年2月25日,星期天告别OLS:一个简单的多层线性模型将重写为:第21页,共76页,2024年2月25日,星期天一个简单的多层线性模型第22页,共76页,2024年2月25日,星期天一个简单的多层线性模型Outcomeforobservationiinunitj第23页,共76页,2024年2月25日,星期天一个简单的多层线性模型OutcomeforobservationiinunitjIntercept第24页,共76页,2024年2月25日,星期天一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitj

第25页,共76页,2024年2月25日,星期天一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitj

Residualtermspecifictounitj

第26页,共76页,2024年2月25日,星期天一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitj

Residualtermspecifictounitj

Residualtermspecifictoobservationiinunitj第27页,共76页,2024年2月25日,星期天一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitj

Residualtermspecifictounitj

Residualtermspecifictoobservationiinunitj第28页,共76页,2024年2月25日,星期天

uj表示什么?残差项定义第

j组(第二水平)对于第

j组的所有观测都相同只有下标

j,没有下标

i解释:总截距和第

j组的截距之间的差异第29页,共76页,2024年2月25日,星期天

rij表示什么?残差项定义第j组第i个观测

均值为0第30页,共76页,2024年2月25日,星期天模型的特征注意到:

ij=uj+rij我们有:Var(

ij) =Var(uj+rij) =Var(uj)

+Var(rij)+2*Cov(uj,rij) =Var(uj)

+Var(rij)第31页,共76页,2024年2月25日,星期天模型的特征

Yij

的值可能存在第二水平(组间)的差异对于

uj和rij没有定义其分布.

X

Y

之间的关系不依赖于

j(

1

不依赖于

j)第32页,共76页,2024年2月25日,星期天模型的另一种表达这里第33页,共76页,2024年2月25日,星期天多层线性模型水平1(如:学生)

水平2(如:学校)

jju0000+=gbYij---第j个学校的第i个学生jju1101+=gb第34页,共76页,2024年2月25日,星期天何谓多层线性模型?多层线性模型又称为:

多水平分析(MultilevelAnalysis)混合模型(MixedModels)随机系数模型(RandomCoefficientModels)第35页,共76页,2024年2月25日,星期天HLM的发展快速发展与应用

HLM(Bryk,Randenbush,Seltzer&Congdon,1988);Mlwin(Rabash,Prosser&Goldstein,1989);VARCL(Longford,1988);MPLUS(Muthen,1992);SAS,SPSS第36页,共76页,2024年2月25日,星期天多层线性模型回归模型的一种常用来回答背景变量(如班级环境等)与个体变量(如学生特征)之间的关系常用来估计组内(如班级内)和组间(如班级间)变量间的关系

以及跨水平的交互作用。例如,学校组织气氛对学生学业成绩的影响;学校组织气氛与学生社会经济地位的交互作用。

第37页,共76页,2024年2月25日,星期天多层线性模型简介多层线性模型--一种处理嵌套数据的统计方法。通过定义不同水平(层)的模型,将随机变异分解为两个部分,其一是第一水平个体间差异带来的误差,另一个是第二水平班级的差异带来的误差。可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。多水平分析法同时考虑到不同水平的变异。第38页,共76页,2024年2月25日,星期天多层线性模型多层分析方法提供了解决嵌套数据关系的合理的正确的统计方法。下面结合上面提到的例子,介绍两水平模型的一般数学表示:第39页,共76页,2024年2月25日,星期天多层线性模型水平1(如:学生)

水平2(如:学校)

jjjuW001000++=ggbYij---第j个学校的第i个学生第40页,共76页,2024年2月25日,星期天多层线性模型合并模型:其中:yij表示因变量(如三年后的高考成绩),xij表示第一水平(学生)的预测变量,Wj表示第二水平(学校)的预测变量。

第41页,共76页,2024年2月25日,星期天多层线性模型模型的假设条件为:

第42页,共76页,2024年2月25日,星期天多层线性模型截距与斜率之间的相关系数:截距与斜率之间的相关系数大小表示了不同学校平均高考成绩与入学成绩对高考成绩影响强度之间的关系,如果相关系数大于零,表示平均成绩越高,入学成绩对期末成绩的影响越大。

第43页,共76页,2024年2月25日,星期天HLM常用模型类型随机效应一元方差分析模型(one-wayAnovawithRandomEffect)

第一水平:第二水平:合并模型:ijojijeuY++=00g第44页,共76页,2024年2月25日,星期天HLM常用模型类型无条件模型:模型中没任何预测变量的多层分析模型;模型表示与随机效应的方差分析模型相同。在无条件模型中:

上式的相关系数描述了水平2单位内个体之间的相关(intralevel2-unitcorrelation),它测量了学校之间方差占总方差的比例,或者说在总的变异中由水平二解释的方差的比例。

第45页,共76页,2024年2月25日,星期天HLM常用模型类型随机效应单因素协方差分析(One-wayANCOVAwithRandomEffects)

水平1:水平2:

第46页,共76页,2024年2月25日,星期天HLM常用模型类型一般的线性回归模型

第一水平:第二水平:第47页,共76页,2024年2月25日,星期天HLM常用模型类型随机系数回归模型(Random-CoefficientsRegressionModel)

第一水平:第二水平:第48页,共76页,2024年2月25日,星期天HLM应用举例hsb1.sav和hsb2.sav在水平一的数据文件hsb1.sav中,有7185个观测样本和四个第一水平的变量(不包含第二水平指标变量:学校编号ID),这四个变量所表示的含义如下:minority,学生的种族(1=少数民族,0=其他)female:学生性别(1=女,0=男)ses:学生的社经地位,由学生父母受教育程度、职业和收入合成,变量已被标准化mathach:学生的数学学业成绩第49页,共76页,2024年2月25日,星期天HLM应用举例数据文件hsb2.sav中包含有160个学校,每个学校测量了六个学校水平的变量(不包含学校指标变量ID)。·size:学校招生人数·sector:学校类型(1=天主教教会学校,0=公立学校)·pracad:从事学术研究的学生的比例·disclim:学校纪律环境,由量表测量得到·himnty:学校招生少数民族学生比例描述(1=超过40%少数民族学生,0=其他)·meanses:包含在水平1数据中,每个学校学生的平均社经地位

第50页,共76页,2024年2月25日,星期天HLM应用举例目的:分析影响学生数学成绩的学生水平变量和学校水平变量第51页,共76页,2024年2月25日,星期天个体水平模型Yij=

0j+

1jX1ij+

2jX2ij+…+

KjXKij+rij第j组第

I个个体因变量的观测值第j个组的截距第j组

X1

对应的斜率第j组

X2

对应的斜率第j组

XK

对应的斜率第52页,共76页,2024年2月25日,星期天背景(Contextual)模型

Yij=

0j+

1jX1ij+

2jX2ij+…+

KjXKij+rij

0j=

00

1j=

10

2j=

20

Kj=

K0在传统回归(OLS)模型中,截距和斜率都是固定的,即对不同的第二水平单元均相同第53页,共76页,2024年2月25日,星期天背景(Contextual)影响问题第二水平不同单元(如不同学校),截距是否相同?能否用第二水平的协变量预测截距之间的差异?斜率是否存在第二水平的变异?能否用第二水平的预测变量解释斜率之间的差异?第54页,共76页,2024年2月25日,星期天截距是否存在第二水平的变异?

Yij=

0j+

1jX1ij+

2jX2ij+…+

KjXKij+rij

0j=

00

+u0j

1j=

10

2j=

20

Kj=

K0Intherandomeffectsmodel,theinterceptvariesaroundsomegrandmeanintercept(

00),andtheslopesarefixed–theyarethesameinallunitsTestH0:Var(u0j)=0第55页,共76页,2024年2月25日,星期天可否用第二水平的预测变量解释截距之间的差异?Yij=

0j+

1jX1ij+

2jX2ij+…+

KjXKij+rij

0j=

00

+

01Z1+

02Z2+…+

0MZM+u0j

1j=

10

2j=

20

Kj=

K0Here,theZm’spredicttheintercept.TestH0:

0m=0第56页,共76页,2024年2月25日,星期天斜率是否存在第二水平的变异?Yij=

0j+

1jX1ij+

2jX2ij+…+

KjXKij+rij

0j=

00+u0j

1j=

10

+u1j

2j=

20

+u2j…

Kj=

K0+uKjTheinterceptandeachoftheslopesvariesaroundtheirgrandmeans(the

k0’s)TestH0:Var(ukj)=0第57页,共76页,2024年2月25日,星期天能否用第二水平的预测变量解释斜率间的差异?Yij=

0j+

1jX1ij+

2jX2ij+…+

KjXKij+rij

0j=

00+

01Z1+

02Z2+…+

0MZM+u0j

1j=

10

+

11Z1+

12Z2+…+

1MZM+u1j

2j=

20

+

21Z1+

22Z2+…+

2MZM+u2j…

Kj=

K0

+

K1Z1+

K2Z2+…+

KMZM+uKjHere,theZm’spredicttheslopes.TestH0:

km=0第58页,共76页,2024年2月25日,星期天无条件模型第59页,共76页,2024年2月25日,星期天无条件模型参数估计结果Finalestimationofvariancecomponents:-----------------------------------------------------------------------------RandomEffectStandardVariancedfChi-squareP-valueDeviationComponent-----------------------------------------------------------------------------INTRCPT1,2.935018.614311591660.232590.000level-1,R6.2568639.14831-----------------------------------------------------------------------------第60页,共76页,2024年2月25日,星期天含有第一水平预测变量的HLM模型(随机系数模型)第61页,共76页,2024年2月25日,星期天随机系数模型参数估计结果Finalestimationoffixedeffects(withrobuststandarderrors)----------------------------------------------------------------------------StandardApprox.FixedEffectCoefficientErrorT-ratiod.f.P-value----------------------------------------------------------------------------ForINTRCPT1,B0INTRCPT2,G0012.6649350.18925166.9211590.000ForSESslope,B1INTRCPT2,G102.3938780.11769720.3391590.000----------------------------------------------------------------------------第62页,共76页,2024年2月25日,星期天Finalestimationofvariancecomponents:-----------------------------------------------------------------------------RandomEffectStandardVariancedfChi-squareP-valueDeviationComponent-----------------------------------------------------------------------------INTRCPT1,U02.197684.82978159905.264720.000SESslope,U10.646750.41828159216.211780.002level-1,R6.0686436.82835-----------------------------------------------------------------------------第63页,共76页,2024年2月25日,星期天含有第二水平预测变量的模型第64页,共76页,2024年2月25日,星期天TheoutcomevariableisMATHACHFinalestimationoffixedeffects(withrobuststandarderrors)----------------------------------------------------------------------------StandardApprox.FixedEffectCoefficientErrorT-ratiod.f.P-value----------------------------------------------------------------------------ForINTRCPT1,B0INTRCPT2,G0012.6584100.17326373.0591580.000DISCLIM,G01-1.1285190.160735-7.0211580.000ForSESslope,B1INTRCPT2,G102.4092880.11219421.4741580.000DISCLIM,G110.5706150.1239064.6051580.000----------------------------------------------------------------------------第65页,共76页,2024年2月25日,星期天Finalestimationofvariancecomponents:-----------------------------------------------

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论