管理研究方法:理论、前沿与操作(第2版)课件 第9、10章 多层线性模型分析法、内生性及其解决办法_第1页
管理研究方法:理论、前沿与操作(第2版)课件 第9、10章 多层线性模型分析法、内生性及其解决办法_第2页
管理研究方法:理论、前沿与操作(第2版)课件 第9、10章 多层线性模型分析法、内生性及其解决办法_第3页
管理研究方法:理论、前沿与操作(第2版)课件 第9、10章 多层线性模型分析法、内生性及其解决办法_第4页
管理研究方法:理论、前沿与操作(第2版)课件 第9、10章 多层线性模型分析法、内生性及其解决办法_第5页
已阅读5页,还剩185页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章:多层线性模型分析法讲课人:目录CONTENTS1234多层线性模型分析法概述多层线性模型分析法主要步骤多层线性模型实际操作和软件示例多层线性模型分析法在高质量研究中的应用5人工智能背景下多层线性模型分析法的前沿拓展多层线性模型分析法概述01一、多层次理论模型的基本类型在管理研究中,多层次理论研究模型通常包括两个层次:总体(宏观)层次和个体(微观)层次。此模型通常有三种类型:①个体层次模型、②总体层次模型以及③跨层次模型。总体层次预测变量X’个体层次预测变量X总体层次结果变量Y’个体层次结果变量Y个体层次总体层次(向上聚合)(向上聚合)总体层次模式(路径2)个体层次模式(路径1)跨层次模式(路径3)二、多元线性回归模型分析嵌套数据的局限性多元线性回归模型的重要统计假设条件之一是数据中的观测值相互独立。但由于多层次研究中的数据结构具有嵌套性,观测值之间会存在相互依赖的现象,致使多元线性回归模型产生估计偏差。造成观测值相互依赖的原因主要有三个:非随机选择:团队成员之间具有相似性;共同环境影响:不同企业共同受到所处行业的影响个体间相互影响:团队成员之间情绪相互传染二、多元线性回归模型分析嵌套数据的局限性根据图1a,研究者可能会得出工作过载与工作满意度之间存在负向相关关系的推论。但事实上,这种分析方式可能会让研究者忽略了样本子群体内部的观测值相互依赖。根据图1b,对于身处个人主义文化下的员工(点虚线,三角形代表观测值),工作过载与工作满意度之间确实存在负向相关关系,而对于身处集体主义文化下的员工,工作过载与工作满意度之间并不存在相关关系(虚线,圆形代表观测值)。工作满意度987654321工作过载工作满意度987654321工作过载图1a图1b三、多层线性模型分析法的基本原理多层线性模型(HLM)在处理嵌套数据时,先以低层次变量建立回归方程,再把该方程中的截距和斜率作为结果变量,将数据中的高层次变量作为预测变量,建立新的方程。通过建立多层次回归方程,研究者可以明确区分变量所在的层次,探索不同层次变量对结果变量的影响,以及不同层次变量之间的跨层次交互作用。例如:

三、多层线性模型分析法的基本原理

四、多层线性模型分析法的优势与局限性HLM的主要优势在于:HLM能够有效分析嵌套数据,在估计不同层次的预测变量对低层次结果变量影响的同时,将预测变量保持在适当的分析层次上;HLM能够产生实证贝氏估计数改善对低层次效果的估计;HLM使用广义最小二乘法估计高层次固定效果,提供更为准确的估计。HLM提供了稳健标准误差估计数,即使HLM的假设被轻度违反,此标准误差估计数仍是一致的;HLM利用不平衡数据(每个子群体人数不同)的交互式计算技术,提供了方差协方差成分的有效估计数。四、多层线性模型分析法的优势与局限性HLM局限性主要体现在:在HLM分析中,研究者每次仅能分析单一的结果变量。如果理论模型包含多个结果变量,则需要使用多层次结构方程模型进行分析。在HLM设定中,结果变量只能存在于最低层次,即第一层次。因此,HLM分析法无法用来分析低层次变量对高层次变量的影响效果。和多元线性回归模型一样,HLM分析法无法考虑变量测量误差的影响,而只能通过多层次结构方程模型加以解决。HLM软件无法直接对中介效应分析中的间接效应进行蒙特卡洛参数拔靴法分析,研究者需要搭配R语言软件计算间接效应的置信区间。五、多层线性模型分析法发展简史与新趋势多层线性模型分析法最初是由林德利和史密斯(1972)提出;登普斯特等(1977)提出了期望最大化演算法;一般化最小平方法的共变量成分估计法以及Fisher得分算法;用于HLM分析的统计软件:HLM、Mixor、MIwiN、ProMixed。五、多层线性模型分析法发展简史与新趋势HLM方法的新趋势:从单一变量扩展到多个变量的多变量模型:应用在于纵向追踪数据与重复测量数据的分析;多层线性模型分析法与潜变量模型的结合:同时解决数据的嵌套结构和潜变量的估计问题;引入贝叶斯估计法,弥补极大似然法的缺陷,使得估计更加精确并且有弹性。多层线性模型分析法主要步骤02多层线性模型分析法主要步骤1、整理数据:数据配对划分层次2、信效度检验:信度与效度分别检验3、变量聚合:低层次观测值聚合成高层次变量4、模型假设检验:利用多层线性模型检验假设一、数据整理研究者需要完成:①样本量检查、②数据匹配、③数据清理等工作。①样本量检查:克拉夫特(1996)建议两层次设计采用30/30准则,即第二层次样本量不少于30组,第一层次样本量不少于每组30个观测值;②数据匹配:研究者首先需要划定数据结构,并根据数据结构对数据进行匹配处理。团队ID:用于将个体数据与团队数据进行匹配个人ID:“1-1”代表第1个团队的第1个员工一、数据整理③数据清理:异常值检查:在线问卷填答时间过长或过短的数据;完全相同或具有明显规律性的数据;未能通过注意力检验的数据;缺失值处理:均值替代法、回归替代法、多重替代法、热卡填充法、全息极大似然估计法二、信效度检验信度检验:Cronbach’sα系数校正条目相关系数组合信度效度检验:AVE比较法多层次验证性因子分析(MCFA)B_XB_YB_ZW_XW_Yx1x2x3y1y2y3z1z2z3BetweenLevelWithinLevelMCFA将变量的方差拆分中组间与组内两个部分,从而提供更为准确的估计。三、变量聚合高层次变量(单位层次变量)有四种形式分别是:共通单位、共享单位、共构单位、共塑单位类型测量形式聚合需求聚合方式示例共通单位客观/直接测量不需要/企业销售额、团队规模共享单位抽象/非直接测量需要加总平均团队氛围、团队效能感共构单位抽象/非直接测量需要数学运算性别比例、教育背景多样性共塑单位客观直接测量/抽象非直接测量不需要/领导特质、领导自评变量三、变量聚合

Rwg的中位数或平均值若大于0.70,则表明群组内评分具有可接受的一致性程度。三、变量聚合ICC1被定义为群组之间的真实方差与观察到的方差之比。ICC1值越大,代表同一群组内不同评价者的评分越一致。

1、利用HLM零模型计算公式:2、利用方差分析计算公式:

ICC1数值大于0.05并且显著,同时Rwg也达标,则认为将低层次评分(观测值)聚合到高层次是可接受的。三、变量聚合ICC2是指当低层次评分(观测值)聚合到高层次时,群组平均数的信度。

通常ICC2需要达到0.70以上。但是ICC2与群组内人数是相关的。在固定ICC1的前提下,群组内人数越多,ICC2数值越高。然而在小群体研究中,群组内通常缺乏足够多的人数,从而导致ICC2低于0.70。Chen和Bliese(2002)提出,即使ICC2数值较低,如果有充分的理论依据,并且有较高的Rwg以及显著的ICC1,聚合也是能够接受的。四、模型检验零模型是最简单的多层线性模型,在这一模型中第一层次(组内)和第二层次(组间)不包含预测变量。具体公式如下:

四、模型检验多层次主效应模型在第一层次(组内)和第二层次(组间)均可包含预测变量。具体公式如下:

四、模型检验多层次2×(1→1)调节模型中,预测变量(X)和结果变量(Y)都在第一层次,而调节变量(W)在第二层次。

四、模型检验多层次1×(1→1)调节模型中,预测变量(X)、调节变量(W)和结果变量(Y)都在第一层次。

四、模型检验多层次1×(2→1)调节模型中,预测变量(X)在第二层次,调节变量(W)和结果变量(Y)在第一层次。

四、模型检验多层次2×(2→1)调节模型中,预测变量(X)和调节变量(W)在第二层次,结果变量(Y)在第一层次。

四、模型检验在多层次2→1→1中介模型中,预测变量(X)在第二层次,而中介变量(M)和结果变量(Y)在第一层次,检验过程包括三个步骤:

四、模型检验

四、模型检验在多层次2→2→1中介模型,预测变量(X)和中介变量(M)在第二层次,结果变量(Y)在第一层次,检验过程包括三个步骤:

四、模型检验

四、模型检验在多层次1→1→1中介模型,预测变量(X)、中介变量(M)和结果变量(Y)全部在第一层次,检验过程包括三个步骤:

四、模型检验

多层线性模型实际操作和软件示例03一、多层次验证性因子分析示例在本示例中,数据结构包含领导与下属两个层次,其中领导的人数为100人,对应的下属人数为490人。在测量方面,领导自评了4个条目的自恋特质量表,下属自评了5个条目的团队工作自主性量表、7个条目的领导-成员交换关系(LMX)量表、以及4个条目的创造力量表。一、多层次验证性因子分析示例在同一团队内(相同TID),领导评价的数据是一致的,而下属的数据是不同的。根据这样的数据结构,在多层次验证性因子分析中,研究者需要将领导评价的4个条目(领导自恋特质)设定在组间层次,将下属评价的16个条目(团队工作自主性、LMX、创造力)同时设定在组内层次与组间层次。一、多层次验证性因子分析示例TITLE:MCFADATA:fileismcfa.txt;VARIABLE:namesareTIDx1-x20;!TID为团队编号CLUSTER=TID;BETWEEN=x1-x4;ANALYSIS:TYPE=TWOLEVEL;MODEL:%between%!组间层次设定bf1byx1-x4;!组间层次领导自恋特质bf2byx5-x9;!组间层次团队工作自主性bf3byx10-x16;!组间层次LMXbf4byx17-x20;!组间层次创造力%within%!组内层次设定wf2byx5-x9;!组内层次团队工作自主性wf3byx10-x16;!组内层次LMXwf4byx17-x20;!组内层次创造力OUTPUT:STDYX;!输出标准化系数输出结果:二、变量聚合指标计算示例使用R软件中Bliese(2015)开发的扩展包进行计算,能够一次性获得Rwg/ICC1/ICC2这三类指标的输出结果。具体代码如下:library(multilevel)#加载程序包a1<-read.csv("C:\\Users\\Lenovo\\Desktop\\ICC.csv")#导入数据job1<-aov(JOB~as.factor(TID),a1)summary(job1)#输出方差分析结果,观察ICC1是否显著ICC1(job1)#输出ICC1指标ICC2(job1)#输出ICC2指标RWGOUT<-rwg(a1$JOB,a1$TID)summary(RWGOUT)#输出RWG指标二、变量聚合指标计算示例三、多层次理论模型检验示例在示例中,研究者首先需要建立两个SPSS文件,分别为“LEVEL1”和“LEVEL2”,其中“LEVEL1”文件存放下属层次的变量:LMX和创造力;“LEVEL2”文件存放领导/团队层次的变量:领导自恋特质和工作自主性。其中TID为团队码,能够将两个文件建立关联联系。具体数据形式如下图所示:LEVEL1文件LEVEL2文件三、多层次理论模型检验示例HLM软件的主界面如下图所示。在打开HLM软件之后,研究者需要先建立新的分析文件,操作顺序为:“File”→“MakenewMDMfile”→“Statpackageinput”。三、多层次理论模型检验示例选择相应的模型之后,HLM软件需要研究者建立数据分析文件,并导入相应的数据文件,也就是在最开始建立的两份SPSS文件。三、多层次理论模型检验示例选择变量完毕之后,HLM软件会自动对数据进行检查,检查通过之后会生成一份数据描述文档,如下图所示。完成该步骤之后,研究者即可建立模型进行统计分析。三、多层次理论模型检验示例1、零模型:在零模型的设定中,本示例将下属创造力(变量名称CRE)设定为第一层次结果变量,并且不加入任何层次的预测变量,模型和输出结果如下所示:

三、多层次理论模型检验示例2、多层次主效应模型:本示例将领导自恋设定为第二层次预测变量(NAR),将LMX设定为第一层次预测变量(LMX),下属创造力为第一层次结果变量(CRE)。

三、多层次理论模型检验示例3、多层次调节效应模型:本示例以常见的2×(1→1)调节模型为例进行演示。其中第一层次预测变量为LMX(LMX),第一层次结果变量为下属创造力(CRE),第二层次调节变量为团队工作自主性(JOB)。

三、多层次理论模型检验示例由于跨层次交互项显著,研究者需要进一步开展简单斜率分析:首先,研究者在HLM软件中需要在“OtherSettings”菜单下,选择“outputsettings”,并且勾选“Printvariance-covariancematrices”。该选项能够让输出结果自动显示回归系数的方差-协方差矩阵:三、多层次理论模型检验示例之后,系统会自动输出“GAMVCR.DAT”文件,该文件中包含了具有稳健性标准误(Robuststandarderrors)回归系数的方差-协方差矩阵:三、多层次理论模型检验示例研究者需要在Preacher等(2006)开发的在线工具中依次输入回归系数、回归系数的方差、回归系数之间的协方差、自由度、以及预测变量与调节变量的取值:三、多层次理论模型检验示例输入上述数据之后,研究者点击“Calculate”选项之后,在线工具会自动输出简单斜率结果和绘图结果:三、多层次理论模型检验示例4、多层次中介效应模型:本示例以常见的2→1→1中介模型为例进行演示。其中第二层次预测变量为领导自恋(NAR),第一层次中介变量为LMX(LMX),第一层次结果变量为下属创造力(CRE)。2→1→1中介模型的检验需要构建三个HLM模型(a、b、c):HLM模型a:HLM模型b:HLM模型c:三、多层次理论模型检验示例HLM模型a输出结果:

三、多层次理论模型检验示例HLM模型b输出结果:

三、多层次理论模型检验示例HLM模型c输出结果:

三、多层次理论模型检验示例为了进一步检验多层次中介效应是否成立,本示例遵循Preacher和Selig(2012)采用蒙特卡洛参数拔靴法对间接效应(a×b)进行检验。该方法主要通过R软件实现:require(MASS)a=-0.16#系数ab=0.58#系数brep=20000conf=95pest=c(a,b)acov<-matrix(c(0.001,0,0,0.032),2,2)#该矩阵输入了系数a和系数b的方差以及协方差mcmc<-mvrnorm(rep,pest,acov,empirical=FALSE)ab<-mcmc[,1]*mcmc[,2]low=(1-conf/100)/2upp=((1-conf/100)/2)+(conf/100)LL=quantile(ab,low)UL=quantile(ab,upp)LL4=format(LL,digits=4)UL4=format(UL,digits=4)hist(ab,breaks='FD',col='skyblue',xlab=paste(conf,'%ConfidenceInterval','LL',LL4,'UL',UL4),main='DistributionofIndirectEffect')#输出乘积系数a×b的置信区间在本示例中领导自恋通过LMX对下属创造力的间接效应(a×b)为-0.09,95%置信区间为[-0.17,-0.03]不包含0,显著(p<0.05)。多层线性模型分析法在高质量研究中的应用04一、多层线性模型分析方法与涓滴效应在领导力研究中,涓滴效应通常是指领导者的特征、态度和行为通过自上而下的影响作用,进而引发下属表现出相同的特征、态度和行为的现象。涓滴效应有以下三个明显特点:自上而下性。涓滴效应由高层次的领导者(如CEO)所发起,对下一级层次的领导者(如中层管理者)、团队、或员工(如基层员工)产生影响。传递变量的一致性。即高层领导的情绪、认知、态度、行为在效应传递过程中会引发下一层次领导、团队、下属的相同反应。跨层次属性。在涓滴效应的传递过程中至少需要跨越两个层次及以上,如领导层次到下属层次,或高层领导到中层领导再到基层员工。一、多层线性模型分析方法与涓滴效应示例:研究者想要研究CEO伦理领导行为通过中层管理者伦理领导行为对基层员工伦理行为的涓滴效应。研究者需要先建立一个二层次HLM模型用于检验CEO伦理领导行为对中层管理者伦理领导行为的影响,再构建一个三层次的HLM模型,用于检验控制CEO伦理领导行为之后,中层管理者伦理领导行为对基层员工伦理行为的影响。二层次HLM模型:三层次HLM模型:二、多层线性模型分析方法与蛙池效应蛙池模型是多层次理论模型的一种形式,用于描述低层次个体在高层次中的相对位置对于低层次结果变量的影响。在分析方法上,蛙池效应可以应用多层次主效应模型进行检验,但是预测变量需要进行组均值中心化处理,消除预测变量的组间方差,得到纯粹的组内回归系数。示例:研究者想要分析员工在团队内的相对薪酬对其工作投入的影响效应。研究者需要建立一个二层次HLM模型,团队成员的个人工作投入(ENGAGEME)作为第一层次结果变量,团队成员的薪酬均值(SMEAN)作为第二层次控制变量,团队成员的相对薪酬(团队成员个人薪酬减去团队薪酬均值,SALARY)作为第一层次预测变量。三、多层线性模型分析方法与非线性效应多层线性模型分析方法还可以与非线性效应相结合,探讨变量之间的非线性关系。与传统线性HLM模型的不同之处在于,非线性HLM模型在数据分析过程中需要加入预测变量的二次项。示例:研究者提出自恋型领导与下属主动行为之间可能存在倒U型曲线关系。在HLM模型设定上,研究者需要将自恋领导的一次项(NAR)、二次项(NSQUARE)设定在第二层次作为预测变量;将下属主动行为(PROACTIV)设定在第一层次作为结果变量。四、多层线性模型分析方法与重复测量HLM除了能够分析横截面嵌套数据之外,还可以分析重复测量数据或纵向追踪数据。对于重复测量数据,如果只分析特定时间段内变量之间的关系,二层次HLM模型就可以进行统计分析,即将个体内作为第一层次,将个体间作为第二层次。示例:研究者提出员工早上的积极情绪会影响其在当日的助人行为,员工宜人性人格会增强员工早上积极情绪对当日助人行为的影响。在HLM模型设定上,研究者需要将宜人性(AGREEABL)设定为第二层次的调节变量;将员工早上的积极情绪(AFFECT)设定为第一层次预测变量;将员工当日的助人行为(HELPING)设定为第一层次结果变量。人工智能背景下多层线性模型分析法的前沿拓展05一、人工智能主题研究中的多层线性模型应用随着人工智能在组织中的广泛应用,学者逐渐从多层次视角系统探讨其对员工态度、行为与绩效的影响。不同于传统技术,人工智能以算法系统、智能工具或智能机器等形式深度嵌入组织运行,其作用不仅取决于个体使用方式,还受到团队互动、组织制度和具体情境等多层次因素的共同影响。因此,人工智能研究天然具有多层次特征,研究者需要同时处理个体层次与更高层次变量之间的复杂关系。在这一背景下,多层线性模型成为组织行为与人力资源领域的重要分析工具,有助于检验人工智能相关因素对员工结果变量的跨层次作用,并揭示不同层次因素之间的交互机制。一、人工智能主题研究中的多层线性模型应用唐等(Tangetal.,2023)以“员工对人工智能的依赖”为研究主题,探讨了人工智能依赖在工作情境中对员工任务绩效的双重影响机制。基于自我调节理论,论文提出,员工依赖人工智能一方面能够促进工作目标进展,从而提升任务绩效;另一方面也可能引发自尊威胁,进而削弱任务绩效。论文进一步提出,员工的核心自我评价会调节上述作用机制。

一、人工智能主题研究中的多层线性模型应用在经验抽样研究中,作者以印度一家大型跨国汽车制造企业为研究情境,将在生产线上与智能系统进行日常协作的一线工程师作为研究对象。作者先进行一次性基线问卷调研,测量员工的核心自我评价;之后开展连续10个工作日的日常数据收集,每日上班前测量员工的积极与消极情绪(作为控制变量),中午测量员工当日对智能机器的依赖程度、工作目标进展以及自尊威胁,下班前测量员工的当日任务绩效。最终有118名员工完成了研究,在连续10个工作日内提供了915个个体内层面的有效观测值。论文采用多层次路径分析方法,同时区分个体内变异与个体间变异,从而准确估计不同层次变量的影响。在具体建模过程中,论文将个体间变量与个体内变量进行区分。其中,员工每天对人工智能的依赖程度、工作目标进展、自尊威胁、任务绩效被设定为第一层次(个体内层次)变量,而员工的核心自我评价则被设定为第二层次(个体间层次)变量。论文使用了随机斜率来检验跨层次调节效应,并通过蒙特卡洛参数拔靴法检验中介效应和被调节的中介效应。

一、人工智能主题研究中的多层线性模型应用Yam等(Yametal.,2023)以“实体机器人在工作场所中对员工的潜在威胁”为研究主题,探讨员工接触机器人后为何会产生更强的工作不安全感,以及这种不安全感如何进一步导致倦怠与职场不文明行为。论文以压力认知评价理论为核心理论基础,提出员工与机器人接触会引发威胁性刺激感知,从而形成工作不安全感,并引发后续的消极应对行为。

ExposuretorobotsJobinsecurityburnoutincivilitySelf-affirmation一、人工智能主题研究中的多层线性模型应用作者以印度一家大型跨国汽车制造企业为研究情境,将在生产线上与机器人进行日常协作的一线工程师作为研究对象。作者在连续10个工作日内对这些工程师进行重复测量,并在每天设置三个固定测量时点收集数据。具体而言,每天工作开始前测量工程师的积极与消极情绪作为控制变量;工作日中段测量工程师当日的机器人使用情况以及工作不安全感;工作结束时测量工程师当日的倦怠水平与不文明行为。最终有118名员工完成了研究,在连续10个工作日内提供了915个个体内层面的有效观测值。论文采用多层次路径分析方法,将每日机器人接触、工作不安全感、倦怠、不文明行为、积极与消极情绪均设定为第一层次(个体内层次)变量,并使用蒙特卡洛参数拔靴法检验中介效应。一、人工智能主题研究中的多层线性模型应用Liu等(Liuetal.,2025)以“增强型人工智能在工作场所中的使用效果”为研究主题,探究增强型人工智能在员工日常工作中的学习效应及其潜在认知代价。基于AI增强视角与认知负荷理论,论文提出一个双路径理论模型。一方面,员工在工作日中更频繁地使用增强型AI,会通过促进知识获得提高当日的任务绩效;另一方面,使用增强型AI也会引发信息过载,从而削弱员工的当日绩效,并进一步加剧其下班后的心理脱离困难。论文进一步引入两个关键边界条件:一是个体层面的开放性人格,二是情境层面的当日积极情绪

。一、人工智能主题研究中的多层线性模型应用论文以韩国某大型银行呼叫中心为研究情境,选取长期使用增强型人工智能的一线客服员工作为研究对象。作者先进行一次性基线问卷调研,测量员工的开放性人格,之后在连续9个工作日中每天上午测量员工的积极情绪及前一晚的心理脱离状况,每天下午测量当日增强型人工智能使用频率、知识获得与信息过载,并由其直接主管对员工当日任务绩效进行评价。最终有104名员工完成了研究,在连续9个工作日内提供了878个个体内层面的有效观测值。论文采用多层次路径分析方法,将增强型人工智能使用、积极情绪、知识获得、信息过载、任务绩效均设定为第一层次(个体内层次)变量,将开放性人格设定为第二层次(个体间层次)变量。在模型检验上,论文使用了随机斜率来检验跨层次调节效应,并通过蒙特卡洛参数拔靴法检验中介效应和被调节的中介效应。二、人工智能技术辅助的多层线性模型分析随着大语言模型等人工智能技术的快速发展,学界开始探讨其是否能够辅助甚至部分替代研究者完成统计分析。不同于依赖命令输入的传统统计软件,人工智能基于自然语言交互,在数据处理、模型设定与结果解释等方面展现出新的潜力。然而,其是否能够严格遵循统计规范、在复杂模型中提供可靠结果仍需检验,尤其是在涉及层次划分、中心化处理及中介调节检验等环节的多层线性模型分析中。因此,仅能生成代码并不足以证明人工智能具备完整分析能力。本节将以既有分析流程为参照,对同一数据进行复现,系统评估人工智能在多层线性模型中的能力与局限。二、人工智能技术辅助的多层线性模型分析变量聚合:向人工智能提供原始数据,并通过提示明确说明数据的嵌套结构(员工嵌套于团队)、变量测量层次以及需要计算的统计指标类型,从而要求人工智能在既定方法框架下完成相应计算。二、人工智能技术辅助的多层线性模型分析在人工智能辅助分析过程中,人工智能能够根据研究者提供的数据结构信息,正确识别个体层次与团队层次变量,并依次计算团队工作自主性的Rwg、ICC1和ICC2指标。

二、人工智能技术辅助的多层线性模型分析主效应分析:向人工智能明确说明变量的理论层次与模型设定要求:将领导自恋(NAR)设定为第二层次预测变量,将领导—成员交换关系(LMX)设定为第一层次预测变量,并将下属创造力(CRE)设定为第一层次结果变量。在模型形式上,要求人工智能构建随机斜率模型,以刻画不同团队中第一层次关系可能存在的异质性;模型中未对变量进行中心化处理。

二、人工智能技术辅助的多层线性模型分析人工智能根据既定的数据结构与模型设定,完成了多层线性模型主效应的参数估计。

二、人工智能技术辅助的多层线性模型分析跨层次调节效应分析:要求人工智能构建随机斜率模型,将领导—成员交换关系(LMX)设定为第一层次预测变量,将下属创造力(CRE)设定为第一层次结果变量,并将团队工作自主性(JOB)设定为第二层次调节变量,用以检验团队层面情境因素对第一层次关系的跨层次调节作用。此外,在模型设定过程中,进一步明确要求人工智能按照多层线性模型分析的标准规范对变量进行中心化处理:对第一层次预测变量LMX采用组均值中心化,对第二层次调节变量团队工作自主性采用总均值中心化。二、人工智能技术辅助的多层线性模型分析人工智能在既定模型框架下完成了跨层次调节效应的参数估计。二、人工智能技术辅助的多层线性模型分析跨层次中介效应分析:要求人工智能采用随机截距模型,并按照2→1→1跨层次中介效应分析的规范流程依次估计三个模型。在模型1中,将第二层次预测变量领导自恋(NAR)对第一层次结果变量下属创造力(CRE)进行回归,模型中预测变量不进行中心化处理;在模型2中,将第二层次预测变量领导自恋(NAR)对第一层次中介变量LMX进行回归,预测变量同样不进行中心化处理;在模型3中,同时引入第二层次预测变量领导自恋(NAR)、第一层次中介变量LMX以及第二层次中介变量的组均值LMXM对第一层次结果变量下属创造力(CRE)进行回归,其中对第一层次中介变量LMX采用组均值中心处理,其余预测变量均不进行中心化。与此同时,要求人工智能记录模型2中领导自恋(NAR)对LMX的回归系数(a)及其系数方差,以及模型3中LMXM对下属创造力(CRE)的回归系数(b)及其系数方差。在此基础上,进一步要求人工智能采用蒙特卡洛参数拔靴法对跨层次间接效应进行估计,并计算其95%置信区间。二、人工智能技术辅助的多层线性模型分析人工智能在既定模型框架下完成了模型1的参数估计。人工智能在既定模型框架下完成了模型2的参数估计。二、人工智能技术辅助的多层线性模型分析人工智能在既定模型框架下完成了模型3的参数估计。二、人工智能技术辅助的多层线性模型分析人工智能在既定模型框架下完成了间接效应置信区间的估计。二、人工智能技术辅助的多层线性模型分析人工智能在多层线性模型分析中的应用潜力正在显现。本节通过对分析流程的复现表明:在研究者已明确数据结构、变量层次与模型设定的前提下,人工智能能够在变量聚合、主效应、跨层次调节与中介分析等环节,较为稳定地复现传统统计软件的结果。然而,其优势主要体现在计算与操作层面,而非方法论决策层面。诸如模型层次建构、变量聚合、中心化方式与随机效应结构等关键判断仍需要研究者基于理论与情境作出专业决策。因此,更合理的定位是将人工智能视为统计分析的智能助手,而非替代者。随着人工智能技术发展,其在辅助研究与教学方面仍具广阔前景。讨论题/思考题1.开展多层线性模型分析的理论原因和统计原因是什么?2.哪些指标用于判断低层次观测值是否可以聚合到更高层次?如何计算?3.多层次验证性因子分析与单层次验证性因子分析的主要区别是什么?4.如何判断多层次中介效应成立?5.如何判断多层次调节效应成立?谢谢第十章:内生性及其解决办法讲课人:

目录CONTENTS1234理解内生性内生性问题的来源内生性修正方法之工具变量法56内生性修正方法之倾向得分匹配7内生性修正方法之断点回归内生性修正方法之双重差分法利用人工智能与机器学习修正内生性学习目标LEARNING

OBJECTIVES学习内生性的概念理解内生性产生的原因掌握有关内生性的解决办法熟悉检验内生性和解决内生性的软件操作理解内生性01

介绍内生性的定义之前,我们先回顾一下OLS回归假设——外生性假定:小样本OLS估计

要求严格的外生性,即误差项与任何一期的所有解释变量都不相关,解释变量不受内部因素的影响大样本OLS估计

放宽了严格外生性的假设,称为弱外生性,即要求误差项仅与同期所有解释变量不相关

然而在实际问题中,弱外生性的条件往往也很难满足,内生性问题总是不可避免。一、外生性假定问题

下面是一个经典的回归模型:

再以一个随机对照实验来说明内生性造成的结果:

基于该方法的前提假设:

每个个体只能经历一种事实(即只能在实验组或者控制组),个体的潜在结果互相独立,二者统称为theStableUnitTreatmentValueAssumption(SUTVA)。

然而与随机实验不同,在观察性数据下实验中的样本不能随机分配,实验组和控制组在整体上不可能相似。此外,对于观察性数据,处理方法与结果并不独立。因此分配到实验组还是控制组是内生的。

理想的随机实验是估计平均因果作用的重要方法,不依赖对事物间关系的完善的知识而进行因果推论。以上个实验为例:总体实验组(合同治理)控制组(关系治理)

抽取随机样本观察到的平均结果来估计总体在策略中的平均结果使用差值来估计两种策略下的不同的结果

内生性的存在会显著改变回归分析中自变量的系数显著性,导致我们对自变量与因变量之间的关系得出错误结论。

通常情况下,实证研究的目标是确定自变量(X)对感兴趣的因变量(Y)的影响,这种模型需要处理内生性,进而校准投入(自变量)和产出(因变量)之间的关系。

例如,我们研究个体受教育程度对收入的影响。理论上,我们希望个体的受教育程度是外生的,即完全随机。然而实际上个体的受教育程度与自身某些不可观察或测量的因素(如努力程度、智商等)相关,而这些因素也对个体的收入有着重要的影响。

因此,在构建回归方程时,我们很难测量个体的努力程度或智商这类变量,这些没有被控制的变量通常构成了误差项,导致我们要研究的解释变量(受教育程度)和误差项相关(即内生性问题)。

从统计角度看,内生性会导致研究的回归结果中解释变量的估计产生偏误;从实践角度看,内生性会导致研究结论出现错误。二、内生性造成的后果内生性问题的来源02内生性问题个主要来源:遗漏变量(omittedvariables)、双向因果(simultaneous)、测量误差(measurementerror)、选择性偏差(selectionbias)。一、遗漏变量内生性最直观的原因可能是遗漏变量偏差:遗漏变量偏差

在设定模型设定时遗漏了某个或某些可能与因变量和自变量都存在相关关系的变量所导致遗漏变量问题

可能是由于数据不可获得或选择性偏差,其中某些同时与因变量和自变量相关的遗漏因素会导致样本观测以非随机的方式被分配到了实验组

考虑下面两个回归模型:1)假定真实的模型:2)实际估计的模型:二、双向因果

双向因果被认为是导致内生性的第二大来源。互为因果是指解释变量与被解释变量互为因果,这样会使解释变量与误差项相关,造成内生性问题。考虑以下两个线性模型:在以上两个回归方程中,Yi与Xi互为因果,联立两个方程我们可以得到:

在研究中双向因果的实例较多。例如,在家族企业高管团队研究中,分析家族成员与非家族成员之间权力平衡对企业绩效的影响时,解释变量和被解释变量之间可能存在双向因果关系。具体来说,企业可能会根据企业绩效来调整高管团队中家族成员与非家族成员之间的权力平衡程度,也就是说企业绩效也可能会反过来影响高管团队中家族成员与非家族成员之间的权力平衡程度。三、测量误差测量误差是指对变量的测量不准确所导致的误差假设真实的回归模型为:

由于:

整理可得:四、选择性偏差选择性偏差包括自选择偏差(self-selectionbias)与样本选择偏差(sample-selectionbias)以陈云松(2012)的研究为例,该研究反驳了社会网络对农民工的收入没有影响的结论。在过往分析中,样本都只包含外出打工的农民,忽视了农民是否外出打工也是一个自我的选择性行为。具有城市劳动力市场优势(男性、年轻和能力强等)的农民会更倾向于外出打工。因此,在设定模型时,必须要考虑面对的样本本身(即农民工群体)是一个经过双向筛选后的群体。当样本选择导致的偏差被消减,农民工收入的网络效应从0.125上升到0.263,且在0.01的水平上显著。因此,忽视了自选择效应会低估“同村打工社会网络”对农民工收入的影响。自选择偏差:解释变量不是随机的,而是经过选择的例如,在研究健身水平对脱发程度的影响中,我们在健身房门口发放调查问卷收集数据。分析收集的数据后发现,健身多的人脱发程度高。然而,我们调查的样本不是随机选择的,我们只关注健身水平较高的群体,意味着在研究中以一个不具有代表性的群体验证了一个广泛的假设,结论没有说服力。样本选择偏差:样本不是随机的,而是经过选择的在实证研究中,我们只能观测到一种状态下的潜在结果,观测结果与潜在结果之间的关系可以用下面的公式表示:

由此可得:

五、对内生性来源的总结内生性问题中的误差项是不可观察,加之大部分所谓的外生变量也可能并不完全外生。因此,当前几乎没有可以完全解决内生性问题的办法。在这种情况下,我们在面对内生性问题的时候,并不追求完全解决内生性问题,而是选择最恰当的内生性处理办法来解决可能的内生性问题。研究人员针对不同类型的内生性来源,提出了各种相对应的解决办法,包括面板数据模型、Heckman两阶段模型、工具变量法(IV)、双重差分法(DID)、断点回归(RD)、倾向得分匹配(PSM)、实验以及准实验等。任何专注于探讨变量之间的因果效应的实证研究,必要的第一步是从理论上(如广泛地回顾文献、提供全面的研究设计有助于使用适当的统计工具)识别内生性问题及其对推断的影响,然后基于此收集数据和设计模型,在研究设计之初就解决一些内生性问题。工具变量法031.1解决思路工具变量法

工具变量示意图基本步骤找到一个工具变量Z通过工具变量Z识别出解释变量Xi中与残差不相关的一部分X利用解释变量中的外生部分X来估算解释变量结果变量Y的影响1.2理论推导修正内生性的理论推导

2.1常见选择宏观数据同伴效应:个人受到集体影响同一个行业或者地区的整体数据但容易引入噪音(不能确保完全外生)自然现象外生性:河流、地震、降雨、自然灾害等自然现象随机外生相关性:能够影响一些社会过程生理现象出生日期、季度和性别、死亡率等既具有随机性又往往和特定的经济社会过程相关社会空间具象性的城市、乡村和非具象性的市场在特定分析层面上具有独立性、随机性和人类的行为与社会结果有相关性自然实验给关心的解释变量带来冲击置身于模型之外社会实验(政策干预)与模拟实验工具变量的选择3.1STATA执行--理论判断数据类型横截面数据or面板数据横截面数据——内生性问题修正困难遗漏变量未考虑到的变量无法观测到的变量测量误差共同方法偏差双向因果自变量影响因变量,因变量影响因变量如:正式合同与成本削减3.2基于两阶段最小二乘法

3.2基于两阶段最小二乘法

回归结果图结果分析OLS回归自变量educ对因变量lwage存在显著的正向影响(β=0.107,p<0.01)2SLS回归自变量educ对因变量lwage存在显著的正向影响(β=0.061,p<0.05)问题:并不知道哪个系数估计值更接近真实的教育回报办法:对工具变量的效果进行检验3.3工具变量法的事后检验事后检验内生性检验Hausman检验(同方差)hausmanIV_2SLSOLS,constantsigmamore2.Durbin和Wu-Hausman检验(异方差)estatendogenous*Durbin基于卡方检验,Wu-Hausman基于F检验Hausman检验结果示意Durbin和Wu-Hausman检验结果示意3.3工具变量法的事后检验事后检验弱工具变量检验ivreg2lwage$control(educ=motheducfatheduc)*F统计量>10则可以证明非弱工具变量过度识别检验(工具变量个数>内生解释变量个数)estatoverid*如果Sargan检验和Basmann检验的结果显著,则至少一个工具变量是无效的,回归模型没有得到正确的设定和估计——不显著即可弱工具变量检验结果示意过度识别检验结果示意3.3工具变量法的事后检验总结:基于工具变量估计的有效性检验3.4一些细节

3.5报告结果基本步骤1.描述内生性的可能来源(或者为什么不需注意内生性问题)2.在理论上论证工具变量的相关性和外生性3.弱工具变量检验和过度识别检验4.提供详细的解释和评估特别注意:需要根据数据结构特征和核心变量性质来论证工具变量估计的回归方法选择的合理性双重差分模型法04经济学家在评估某项政策的处理效应时,常常使用反事实框架,将受到处理(处理组)的数据(实际可观测到)与假如未受到处理的数据(反事实)之间的差异称为“处理效应”。由于未受到处理的数据是反事实的,并不能被实际观测到,因此经常寻找各个方面都与处理组相似但未受到处理的控制组,作为处理组的反事实的替代,处理组前后变化与控制组前后变化之差为“处理效应”。为估计处理效应,比较处理后与处理前的差异,将处理组的前后变化减去控制组的前后变化,就得到处理效应,故名“双重差分”。合成控制法SCM处理组仅有一个被处理对象双重差分法DID处理组有多个被处理对象多期DID被处理时间是不同时间点

一、理解双重差分法引入:政策评估的一般思路比较事前和事后比较受影响的组与不受影响的组DID思想在时刻t1和t2个体所展现出来的Y值时有明显的降低。虽然我们有理由推测这是政策产生的影响,但Y值随着时间变化的可能性会更大。将研究样本分为处理组(受到政策冲击)和控制组(未受到政策冲击),比较两组的差异(不包含事前的数据)。在时刻t*政策实施之后,我们观测到处理组与控制组有明显的差异。DID适用于面板数据。在这面板数据中,个体可分为两类,即受到政策冲击的“处理组”(treatmentgroup)与未受到政策冲击的“控制组”(controlgroup)。然而,处理组的个体也只有到了处理期才会受到政策冲击(之前未受到冲击),故引入处理期虚拟变量Postt

一、理解双重差分法反映净效应双重差分的基本逻辑:双重差分的核心思想示意:假设控制组的平均变化和处理组在没有政策冲击的情况下有相同的发展趋势(即两者之间的差分在没有政策冲击时是既定的,在图中表现为处理组和控制组之间的直线平行)那么处理组平均结果状态(Y*t2)和控制组平均结果状态(Yc2)之间的差分在事前和事后应该是固定的(Yc2

-Y*t2=Yc1

–Yt1)。如果上述假设成立,用受到政策冲击的处理组与未受到政策冲击的控制组事后差分(ΔY2=Yt2-Yc2),减去事前差分(ΔY1=Yt1-Yc1),就能得到真实的影响。很显然,真实的影响可以看作两次差分的结果,一次差分在时间维度(事前vs.事后),一次差分在个体维度(处理组vs.控制组)二、双重差分法的识别假设(一)共同趋势假设(二)单位处理变量值稳定假设含义:控制组的平均变化和处理组在没有政策冲击之前有相同的发展趋势。方法: 1)画时间趋势图法 2)事件研究法含义:不同个体受到政策冲击是否是相互独立的,即某一个体受到政策冲击的情况不影响其他任何个体。方法: 1)安慰剂检验 2)可以利用不同的控制组进行回归,看研究结论是否依然一致 3)选取一个完全不受政策影响的因素作为被解释变量进行回归(一)共同趋势假设控制组的平均变化和处理组在没有政策冲击之前有相同的发展趋势,这一假设也称为“共同趋势假设”(commontrendshypothesis),即E(Δεit|Treati=0)=E(Δεit|Treati=1)。如果不满足这一条件,那么两次差分得出的政策效应β就不完全是真实的政策效应,其中有一部分是由处理组和控制组的差异所造成的。画时间趋势图法优点:简单直观缺点:粗糙,不能在统计意义上准确地判断处理组和控制组是否存在显著差异。事件研究法优点:更准确、更科学具体做法:生成年份虚拟变量Yearj与处理组虚拟变量Treatt的交互项,加入模型中进行回归,那么交互项Treatt×Yearj的系数δj衡量的就是第j期处理组和控制组之间的差异。检验方法:(二)单位处理变量值稳定假设单位处理变量值稳定指的是不同个体受到政策冲击是否是相互独立的,即某一个体受到政策冲击的情况不影响其他任何个体。这一问题可以概括为处理变量对产出变量作用机制的排他性,对此,DID分析需要进一步的稳健性检验来论证估计结果的可靠性。1)安慰剂检验。即通过虚构处理组进行回归,具体可以: ①选取政策实施之前的年份进行处理,比如政策发生在2008年,研究区间为2007—2009年,这时可以将研究区间前移至2005—2007年,并假定政策实施年份为2006年,然后进行回归。

②选取已知的并不受政策实施影响的群组作为处理组进行回归。如果不同虚构方式下回归结果依然显著,说明原来的估计结果很有可能出现了偏误。2)利用不同的控制组进行回归,看研究结论是否依然一致。3)选取一个完全不受政策影响的因素作为被解释变量进行回归,如果回归结果依然显著,说明原来的估计结果很有可能出现了偏误,等等。检验方法:三、双重差分法的基本类型经典DID双向固定效应估计方法:OLS多期DID每个个体处理期不完全一致使用随时间和个体变化的处理变量队列DID使用横截面数据(缺少时间维度)用个体的出生队列(年份)代替三重差分DDD控制组与处理组时间趋势不同三重差分示意:四、双重差分法的Stata操作实例经典DID数据生成交互项回归Diff命令平行趋势检验安慰剂检验多期DID数据回归平行趋势检验队列DID数据回归安慰剂检验平行趋势检验实证参考:卡德和克鲁格(Card&Krueger,1994)的自然实验研究方向:关注最低工资对就业的影响实证问题:由于工资与雇佣人数由劳动力市场的供求均衡所决定,故如果使用OLS估计劳动力需求函数,将导致联立方程偏差或内生变量偏差。解决办法:考虑自然实验,在1992年,美国新泽西州通过法律将最低工资从每小时4.25美元提高到每小时5.05美元,但在相邻的宾夕法尼亚州最低工资却保持不变。在这种情况下,这两个州的雇主仿佛被随机地分配到实验组(新泽西州)与控制组(宾夕法尼亚州)。收集两个州的快餐店在实施新法前后的雇佣人数数据,并使用双重差分法进行估计。研究结果:提高最低工资对低技能工人的就业几乎没有影响。也就是说,快餐店对低技能工人的需求是没有弹性的,并不会因工资的上升而显著地减少雇佣人数。(一)经典DID——数据首先读入所需数据;生成政策实施前后以及控制组虚拟变量;将它们相乘产生交互项,再进行回归。(一)经典DID——生成交互项回归提高最低工资并不会显著改变快餐店的雇佣人数,也就意味着最低工资的变动对低技能工人的就业几乎没有影响。>0.05,不显著(一)经典DID——使用第三方命令diffDID分析的核心结果从上述结果可以看出,DID值为2.935且p值0.045小于0.05,意味着政策实施后(最低工资提升后)雇佣人数增加了2.935人政策实施前控制组和处理组的雇佣人数(fte)均值以及组间差异,结果还给出了这些估计量的标准误差、t统计量和p值政策实施后控制组和处理组的雇佣人数(fte)均值以及组间差异(一)经典DID——平行趋势检验除雇佣人数之外,其他变量在处理组和控制组之间都不存在显著差异,意味着在政策实施前处理组和控制组不存在显著差异。在命令中加入test,进行平行趋势检验实证参考2:普林斯顿大学奥斯卡·托雷斯-雷纳(OscarTorres-Reyna)教授构建的DID虚拟数据集数据陈述:该数据集假设1994年在E、F、G三个国家实施了一项政策,并以相似的A、B、C、D四个国家为控制组。数据集一共包含country、year、y、x1、x2、x3、opinion7个变量,其中y为被解释变量,x1~x3为连续型自变量,opinion为分类型自变量。(一)经典DID——平行趋势检验(事件研究法)pre_4~pre_2的系数均不显著,表示实验组和控制组在政策实施前并无显著差异;政策实施后,仅有time_1的系数显著,表明政策效果仅出现在政策实施后一年,1996年及以后实验组和控制组未受到政策的影响。(一)经典DID——平行趋势检验(事件研究法)随后,采用coefplot命令绘图,观察1994年前回归系数是否均在0附近波动、1994年后回归系数是否显著为负。使用coefplot命令可较便捷和快速地生成多期动态效应图,更多使用方法详见helpcoefplot。结果见图。系数在政策实施前的确在0附近波动,而政策实施后一年系数显著为负,但很快又回到0附近。这说明实验组和控制组的确是可以进行比较的,而政策效果可能出现在实施后一年,随后又很快消失。(一)经典DID——安慰剂检验通过DID估计出的政策效应是否受其他政策或因素的影响是未知的,因此需要进行安慰剂检验。安慰剂检验最常用的方法就是将研究样本缩小至政策实施前,并随机设定一个政策实施年份,采用政策实施前的数据。将政策实施前除第一年之外的所有年份“人为地”设定为实验组的政策实施年份,然后根据DID模型逐年回归。当所有回归中的交互项系数都不显著时,说明通过了安慰剂检验,表明之前识别的政策平均效应是可靠的,否则就是不可靠的。如果政策实施前有n年数据,就要做n-1次上述回归。结果:did_new的系数为负,但是不显著,表明可以排除其他潜在的不可观测因素的影响,即估计出的政策效应是稳健的。其他方法,包括随机选择实验组、替换样本安慰剂检验、替换变量安慰剂检验等(二)多期DID——数据实证参考:贝克等(Becketal.,2010)研究方向:银行分支机构管制政策与收入分配差距之间的关系研究背景:在20世纪70年代到90年代,美国大多数州放松了对州内银行分支机构的管制,这一政策加剧了银行竞争,降低了费用,扩大了低收入群体获得银行信贷的渠道,从而缩小了收入分配差距。研究样本:样本包括美国的49个州31年(1976—2006年)的平衡面板数据,共1519个观测值722。研究选取包括基尼系数在内的四类指标作为收入分配不平等(因变量)的代理变量。此处选取基尼系数这一变量演示政策实施时点不一致的多期DID的处理效应。基尼系数取值在0到1之间:值越大,表示收入分配越不平等;值越小,表示收入分配越平等。处理期虚拟变量(Dst)在s州放松对银行分支机构的管制后取值为1,意味着此后该州处于处理组。研究模型:美国银行分支机构的放松管制政策在不同州推出的时间不一致,因此在进行DID分析时就需要选择多期DID模型。(二)多期DIDBankderegulation对因变量的影响均显著为负,意味着多期DID分析结果表明放松对银行分支机构的管制会加剧收入分配的不平等性。(二)多期DID——平行趋势检验变量pre2~pre10的系数的p值都大于0.05,意味着在政策实施前处理组和控制组并没有显著差异。因此,平行趋势假设成立。从图中可以看出,在放松银行分支机构管制之前估计的系数在0附近波动(95%置信区间包含0),而放松银行分支机构管制当年以及之后几年系数显著为负。这表明,处理组和控制组在实施放松银行分支机构管制政策之前差异不明显,是可以进行比较的,也就是满足平行趋势假设。放松银行分支机构管制政策对收入分配差距的负效应在放松管制后的8年左右持续增长,然后趋于平稳。总的来说,放松银行分支机构管制使得基尼系数下降了约4%。(三)队列DID——数据实证参考:陈等(Chenetal.,2020)研究方向:知识青年的上山下乡经历对不同地区孩子教育水平的影响研究背景:大规模的上山下乡运动始于1968年,1956年出生的人是第一批受到影响的人,因为他们应该在1968年上小学的最后一年,1969年出生的人是最后一批受到影响的人,因为他们在1976年才开始上小学,而从1976年开始下乡知青开始返城。因此,作者将1956年至1969年出生的个体作为处理组,将1946年至1955年出生的个体作为控制组。研究方法:使用了基于出生队列(年份)和地区两个维度变异的队列DID。识别策略:1)在知识青年上山下乡运动中,各县接收了不同数量的下乡知青,受到下乡知青的影响程度不同。 2)在同一个县内,不同出生队列的儿童受到下乡知青的影响不同。研究模型:(三)队列DID——回归列(1)针对农村地区的孩子,列(2)针对城镇地区的孩子。在列(1)中,c.sdy_density#c.treat的系数显著为正(β1=3.237,p<0.001)表明知青上山下乡确实增加了农村孩子的受教育年限。由于所在县的下乡知青平均密度为2.22%(2.22名知青/100人),因此知青上山下乡使得每个农村孩子的平均受教育年限增加了0.072年(3.237×2.22%)。列(2)中估计结果尽管也为正,但是并不显著,说明知青上山下乡对城镇孩子的受教育年限没有影响。(三)队列DID——安慰剂检验在两种检验中,交互项c.sdy_density#c.treat的系数β1其估计值都不显著,表明安慰剂检验通过。(三)队列DID——平行趋势检验。根据I1946~I1969的系数与p值可以看出,上山下乡的知青密度对出生在1957年前(在1968年知青上山下乡运动开始时已经过了上小学的年龄)的农村孩子的受教育年限并没有显著影响,1957年开始上山下乡对农村孩子的受教育年限就产生了明显的影响。(三)队列DID——平行趋势检验对于1956年之前的出生队列,β1,γ的估计值基本接近0,并且无法拒绝其等于0的原假设。这说明在知青上山下乡运动开始之前,不同出生队列个体的受教育年限并没有出现异质的趋势,平行趋势检验通过。对于1956年之后的出生队列,β1,γ的估计值不断增大且较为显著。这说明知青上山下乡运动开始之后,其对农村孩子受教育年限的促进作用不断增强。图中没有展示的是,对于1970年之后的出生队列,β1,γ的估计值有所下降但仍然显著,说明知青上山下乡运动结束之后,其影响虽然有所减弱但依然存在。调整置信区间的样式倾向得分匹配051.1解决思路倾向得分匹配【Rubin因果模型】“一个人无法同时踏入两条河流“选择偏差:选择群体中固有的差异导致残差项不干净——如何解决?【解决思路】建立一个反事实框架,找到现实情况下不可能观察到的的潜在结果【具体办法】通过衡量处理组和控制组样本之间的差异,将两组中某几个变量(尤其是影响政策效应的变量)值最相似的个体进行匹配,匹配后将得到一个与处理组有相同或相似随机分布的控制组——倾向得分匹配(PSM)因此,以考察上大学对个人收入的影响为例,对PSM进行理论推导1.2理论推导修正内生性的理论推导

前提假设【条件独立假定】匹配过后的处理组和控制组无显著差异,即匹配过后的处理组和控制组的选择偏差在5%以下【共同支撑条件】控制组与处理组的样本特征分布有一定的重合2.1基本步骤模型:Logit或Probit两种模型获得匹配得分变量选择:和多元回归模型的变量选择应相似固定效应:可以适当加入个体或时间固定效应1、估计倾向得分的模型设置协变量平衡性检验关注实验组和控制组均值或中位数差异3、评估配对样本:检验平行假设配对:放回配对或不放回配对卡尺距离:限制成功匹配样本中得分之间的最大距离匹配度:1:1还是1:n,常用1:12、构建配对样本进行T检验或多元回归来估计平均处理效应4、估计处理效应3.1STATA基本语法psmatch2的语法结构psmatch2depvar[indepvars][ifexp][inrange][,outcome(varlist)pscore(varname)neighbor(integer)radiuscaliper(real)mahalanobis(varlist)ai(integer)populationaltvariancekernelllrkerneltype(type)bwidth(real)splinenknots(integer)commontrim(real)noreplacementdescendingoddsindexlogittiesquietlyw(matrix)ate]本章节案例:检验母亲在小孩出生后1年内(即1岁前)是否参加工作(Treat)对小孩数学成绩的影响变量标签Treat小孩1岁前,母亲是否参加工作:1=参加工作,0=全职在家Piatm56小孩5~6岁时的PIAT数学测试成绩Piatm78小孩7~8岁时的PIAT数学测试成绩3.2PSM实例分析基本代码描述性统计T检验ttestpiatm56,by(treat)//描述性分析,独立样本T检验执行PSM——

1:1近邻匹配neighbor(1)

psmatch2treat$x,out(piatm56)neighbor(1)tiescommon匹配后检验命令pstest,both//平行趋势检验psgraph //图示匹配结果PSM匹配后结果匹配前后存在差异平行趋势检验共同取值范围3.2PSM实例分析基本代码PSM匹配样本的回归regresspiatm56treat$xeststoreolsregresspiatm56treat$x[pw=_weight]eststorepsm_olslocalm"olspsm_ols"esttab`m',mtitle(`m')compressnogapar2结论:PSM的回归结果更具可靠性回归结果对比断点回归06断点回归(theRegressionDiscontinuitydesign,RDD)是一种基于自然实验的思路来解决内生性问题的重要方法。基本思想:存在一个连续变量,该变量能决定个体在某一临界点两侧接受政策干预的概率,由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的,即不存在人为操控使得个体落入某一侧的概率更大,则在临界值附近构成了一个准自然实验。

一、断点回归原理简介

一、断点回归原理简介

一、断点回归原理简介

一、断点回归原理简介断点回归解决选择性偏差的思路:断点回归是一种局部(准)随机实验,其思路在分数线60(能否获得奖学金)附近对学生进行随机分组。样本随机分组:学生无差异假设:假定60分附近的学生,如假定成绩为57、58、59、60、61、62的学生的知识基础、学习能力、勤奋程度、智力水平、应试能力等决定考试成绩的各个可观测和不可观测的因素上都没有显著差异。处理组:考试成绩为60、61、62的学生样本控制组:考试成绩为57、58、59的学生样本

一、断点回归原理简介是否获得奖学金对未来成绩的因果效应估计:若处理组和控制组的未来成绩的均值之间存在差异,就可以认定这种差异就应是获得奖学金所引发的变化造成的。由于断点60分附近的局部样本是随机分组的,所以60分附近的局部平均处理效应(Localaveragetreatmenteffect,LATE)应该等于平均处理效应(ATT),得到一致估计。回归模型设定:

一、断点回归原理简介断点回归示意图由于上述回归模型存在一个断点(cutoff=60),故称为“断点回归”或称“断点回归设计”。由于在断点附近仿佛存在随机分组,故一般认为断点回归是内部有效性比较强的一种准实验。

一、断点回归原理简介断点回归分类:清晰断点回归(sharpRD):在断点X=c处,个体接受政策干预的概率从0跳跃到1。例如,上述例子中,60分是获得奖学金的门槛,个体得到处理(获得奖学金)的概率在60分出发生了从0到1的跳跃。模糊断点回归(fuzzyRD):在断点X=c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论