倾向值匹配模型-PSM模型课件_第1页
倾向值匹配模型-PSM模型课件_第2页
倾向值匹配模型-PSM模型课件_第3页
倾向值匹配模型-PSM模型课件_第4页
倾向值匹配模型-PSM模型课件_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

倾向值匹配模型PSM模型倾向值匹配模型PSM模型1Q:为什么要使用PSM?A:解决样本选择偏误带来的内生性问题例:上北大有助于提高收入吗?样本选择偏误:考上北大的孩子本身就很出色〔聪明、有毅力、能力强…〕解决方法:样本配对Q:为什么要使用PSM?A:解决样本选择偏误带来的内生性问题2配对方法同行业〔一维配对〕同行业、规模相当〔二维配对〕同行业、规模相当、股权构造相当、……〔多维配对〕???PSM:把多个维度的信息浓缩成一个〔降维:多维到一维〕配对方法同行业〔一维配对〕3配对过程中的两个核心问题〔1〕Q1:哪个样本更好一些?A1:Sample2较好:比较容易满足共同支撑假设〔commonsupportassumption〕配对过程中的两个核心问题〔1〕Q1:哪个样本更好一些?A1:4配对过程中的两个核心问题〔2〕Q2:stuc1,c2,c3三人中,谁是stuPK的最正确配对对象?A2:stuc3是最正确配对对象,比较容易满足平行假设〔balancingassumption〕配对过程中的两个核心问题〔2〕Q2:stuc1,c2,c35ATT〔AverageTreatmentEffectontheTreated〕

平均处理效应的衡量运用得分进展样本匹配并比较,估计出ATT值。ATT=E[Y(1)-Y(0)|T=1]Y(1):StuPK上北大后的年薪Y(0):StuPK假设不上北大的年薪可观测数据不可观测数据,采用配对者的收入来代替ATT=12W-9W=3WATT〔AverageTreatmentEffecto6实例介绍实例介绍7实例介绍研究问题:培训对工资的效应根本思想:分析承受培训行为与不承受培训行为在工资表现上的差异。但是,现实可以观测到的是处理组承受培训的事实,而如果处理组没有承受培训会怎么样是不可观测的,这种状态称为反事实。匹配法就是为了解决这种不可观测的事实的方法。实例介绍研究问题:培训对工资的效应8实例介绍分组:在倾向值匹配法中,根据处理指示变量将样本分为两个组。处理组,在本例中就是在NSW〔国家支持工作示范工程〕实施后承受培训的组;控制组,在本例中就是在NSW实施后不承受培训的组。研究目的:通过对处理组和对照组的匹配,在其他条件完全一样的情况下,通过承受培训的组〔处理组〕与不承受培训的组〔控制组〕在工资表现上的差异来判断承受培训的行为与工资之间的因果关系。实例介绍分组:在倾向值匹配法中,根据处理指示变量将样本分为两9变量定义变量定义treat接受培训(处理组)表示1,没有接受培训(控制组)表示0age年龄educ受教育年数black种族虚拟变量,黑人时,black=1hsip民族虚拟变量,西班牙人时,hsip=1marr婚姻状况虚拟变量,已婚,marr=1re741974年实际工资re751975年实际工资变量定义变量定义treat接受培训(处理组)表示1,没有接受10变量定义re781978年实际工资u74当在1974年失业,u74=1agesqage*ageeducsqeduc*educre74sqre74*re74re75sqre75*re75u74blcaku74*blcak变量定义re781978年实际工资u74当在1974年失业,11倾向打分倾向打分12OLS回归结果工资的变化到底是来自个体的异质性性还是培训?OLS回归结果工资的变化到底是来自个体的异质性13倾向打分1.设定宏变量(1)设定宏变量breps表示重复抽样200次命令:globalbreps200(2)设定宏变量x,表示ageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black命令:globalxageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black倾向打分1.设定宏变量14倾向打分命令:pscoretreat$x,pscore(mypscore)blockid(myblock)comsupnumblo(5)level(0.05)logit注:$表示引用宏变量倾向打分15pscore结果pscore结果16倾向值分布倾向值分布17倾向值分布倾向值分布18block中样本的分布block中样本的分布19block中的描述性统计block中的描述性统计20运用得分进展样本匹配并比较运用得分进展样本匹配并比较21方法一:最邻近方法

〔nearestneighbormatching〕含义:最邻近匹配法是最常用的一种匹配方法,它把控制组中找到的与处理组个体倾向得分差异最小的个体,作为自己的比较对象。优点:按处理个体找控制个体,所有处理个体都会配对成功,处理组的信息得以充分使用。缺点:由于不舍弃任何一个处理组,很可能有些配对组的倾向得分差距很大,也将其配对,导致配对质量不高,而处理效应ATT的结果中也会包含这一差距,使得ATT准确度下降。方法一:最邻近方法

〔nearestneighborma22方法一:最邻近方法

〔nearestneighbormatching〕命令setseed10101〔产生随机数种子〕attndre78treat$x,comsupbootreps($breps)dotslogit方法一:最邻近方法

〔nearestneighborma23方法一:最邻近方法

〔nearestneighbormatching〕方法一:最邻近方法

〔nearestneighborma24方法二:半径匹配法

〔radiusmatching〕半径匹配法是事先设定半径,找到所有设定半径范围内的单位圆中的控制样本,半径取值为正。随着半径的降低,匹配的要求越来越严。方法二:半径匹配法

〔radiusmatching〕半径匹25方法二:半径匹配法

〔radiusmatching〕命令

setseed10101attrre78treat$x,comsupbootreps($breps)dotslogitradius(0.001)方法二:半径匹配法

〔radiusmatching〕命令26方法二:半径匹配法

〔radiusmatching〕方法二:半径匹配法

〔radiusmatching〕27方法三:分层匹配法

〔stratificationmatching〕内容:分层匹配法是根据估计的倾向得分将全部样本分块,使得每块的平均倾向得分在处理组和控制组中相等。优点:Cochrane,Chambers〔1965〕指出五个区就可以消除95%的与协变量相关的偏差。这个方法考虑到了样本的分层问题或聚类问题。就是假定:每一层内的个体样本具有相关性,而各层之间的样本不具有相关性。缺点:如果在每个区内找不到对照个体,那么这类个体的信息,会丢弃不用。总体配对的数量减少。方法三:分层匹配法

〔stratificationmatc28方法三:分层匹配法

〔stratificationmatching〕命令setseed10101attsre78treat,pscore(mypscore)blockid(myblock)comsupbootreps($breps)dots方法三:分层匹配法

〔stratificationmatc29方法三:分层匹配法

〔stratificationmatching〕方法三:分层匹配法

〔stratificationmatc30方法四:核匹配法

〔kernelmatching〕核匹配是构造一个虚拟对象来匹配处理组,构造的原那么是对现有的控制变量做权重平均,权重的取值与处理组、控制组PS值差距呈反向相关关系。方法四:核匹配法

〔kernelmatching〕核匹配是31方法四:核匹配法

〔kernelmatching〕命令setseed10101attkre78treat$x,comsupbootreps($breps)dotslogit方法四:核匹配法

〔kernelmatching〕命令32方法四:核匹配法

〔kernelmatching〕方法四:核匹配法

〔kernelmatching〕33psmatch2psmatch234匹配变量的筛选1.设定宏变量设定宏变量x,表示ageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black命令:globalxageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black匹配变量的筛选1.设定宏变量35匹配变量的筛选2.初步设定logittreat$x匹配变量的筛选2.初步设定36匹配变量的筛选3.逐步回归stepwise,pr(0.1):logittreat$x匹配变量的筛选3.逐步回归37ps值的计算psmatch2treat$x,out(re78)倾向得分的含义是,在给定X的情况下,样本处理的概率值。利用logit模型估计样本处理的概率值。概率表示如下:P(x)=Pr[D=1|X]=E[D|X]ps值的计算psmatch2treat$x,out(r38匹配处理组最近邻匹配命令:psmatch2treat$x〔ifsoe==1〕,out(re78)neighbor(2)ate半径匹配命令:psmatch2treat$x,out(re78)ateradiuscaliper(0.01)核匹配命令:psmatch2treat$x,out(re78)atekernel匹配处理组最近邻匹配39匹配处理组满足两个假设:A共同支撑假设B平行假设匹配处理组满足两个假设:A共同支撑假设B平行假设40ATT〔平均处理效应的衡量〕以半径匹配为例:psmatch2treat$x,out(re78)ateradiuscaliper(0.01)1231、处理组平均效应〔ATT〕2、控制组平均效应〔ATU〕3、总体平均效应〔ATE〕ATT〔平均处理效应的衡量〕以半径匹配为例:psmatch241ATT〔平均处理效应的衡量〕匹配前后变量的差异比照命令:pstestre78$x〔pstestre78$x,bothgraph〕ATT〔平均处理效应的衡量〕匹配前后变量的差异比照42匹配前后密度函数图twoway(kdensity_psif_treat==1,legend(label(1"Treat")))(kdensity_psif(_wei!=1&_wei!=.),legend(label(2"Control"))),xtitle("Pscore")title("AfterMatching")twoway(kdensity_psif_treat==1,legend(label(1"Treat")))(kdensity_psif_treat==0,legend(label(2"Control"))),xtitle(Pscore)title("BeforeMatching")匹配前后密度函数图twoway(kdensity_ps43运用bootstrap获得ATT标准误命令:bootstrap,reps(#):psmatch2treat$x,out(re78)在统计分析中,样本较少,采用bootstrap,可以减少小样本偏误。步骤:首先,从原始样本中可重复地随机抽取n个观察值,得到经历样本;然后采用PSM计算改经历样本的平均处理效果ATT;将第一步和第二步重复进展#次,得出#个ATT值;计算#个ATT值的标准差。运用bootstrap获得ATT标准误命令:bootstra44核匹配的Bootstrap检验核匹配的Bootstrap检验45汇报结束谢谢大家!请各位批评指正汇报结束谢谢大家!请各位批评指正46倾向值匹配模型PSM模型倾向值匹配模型PSM模型47Q:为什么要使用PSM?A:解决样本选择偏误带来的内生性问题例:上北大有助于提高收入吗?样本选择偏误:考上北大的孩子本身就很出色〔聪明、有毅力、能力强…〕解决方法:样本配对Q:为什么要使用PSM?A:解决样本选择偏误带来的内生性问题48配对方法同行业〔一维配对〕同行业、规模相当〔二维配对〕同行业、规模相当、股权构造相当、……〔多维配对〕???PSM:把多个维度的信息浓缩成一个〔降维:多维到一维〕配对方法同行业〔一维配对〕49配对过程中的两个核心问题〔1〕Q1:哪个样本更好一些?A1:Sample2较好:比较容易满足共同支撑假设〔commonsupportassumption〕配对过程中的两个核心问题〔1〕Q1:哪个样本更好一些?A1:50配对过程中的两个核心问题〔2〕Q2:stuc1,c2,c3三人中,谁是stuPK的最正确配对对象?A2:stuc3是最正确配对对象,比较容易满足平行假设〔balancingassumption〕配对过程中的两个核心问题〔2〕Q2:stuc1,c2,c351ATT〔AverageTreatmentEffectontheTreated〕

平均处理效应的衡量运用得分进展样本匹配并比较,估计出ATT值。ATT=E[Y(1)-Y(0)|T=1]Y(1):StuPK上北大后的年薪Y(0):StuPK假设不上北大的年薪可观测数据不可观测数据,采用配对者的收入来代替ATT=12W-9W=3WATT〔AverageTreatmentEffecto52实例介绍实例介绍53实例介绍研究问题:培训对工资的效应根本思想:分析承受培训行为与不承受培训行为在工资表现上的差异。但是,现实可以观测到的是处理组承受培训的事实,而如果处理组没有承受培训会怎么样是不可观测的,这种状态称为反事实。匹配法就是为了解决这种不可观测的事实的方法。实例介绍研究问题:培训对工资的效应54实例介绍分组:在倾向值匹配法中,根据处理指示变量将样本分为两个组。处理组,在本例中就是在NSW〔国家支持工作示范工程〕实施后承受培训的组;控制组,在本例中就是在NSW实施后不承受培训的组。研究目的:通过对处理组和对照组的匹配,在其他条件完全一样的情况下,通过承受培训的组〔处理组〕与不承受培训的组〔控制组〕在工资表现上的差异来判断承受培训的行为与工资之间的因果关系。实例介绍分组:在倾向值匹配法中,根据处理指示变量将样本分为两55变量定义变量定义treat接受培训(处理组)表示1,没有接受培训(控制组)表示0age年龄educ受教育年数black种族虚拟变量,黑人时,black=1hsip民族虚拟变量,西班牙人时,hsip=1marr婚姻状况虚拟变量,已婚,marr=1re741974年实际工资re751975年实际工资变量定义变量定义treat接受培训(处理组)表示1,没有接受56变量定义re781978年实际工资u74当在1974年失业,u74=1agesqage*ageeducsqeduc*educre74sqre74*re74re75sqre75*re75u74blcaku74*blcak变量定义re781978年实际工资u74当在1974年失业,57倾向打分倾向打分58OLS回归结果工资的变化到底是来自个体的异质性性还是培训?OLS回归结果工资的变化到底是来自个体的异质性59倾向打分1.设定宏变量(1)设定宏变量breps表示重复抽样200次命令:globalbreps200(2)设定宏变量x,表示ageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black命令:globalxageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black倾向打分1.设定宏变量60倾向打分命令:pscoretreat$x,pscore(mypscore)blockid(myblock)comsupnumblo(5)level(0.05)logit注:$表示引用宏变量倾向打分61pscore结果pscore结果62倾向值分布倾向值分布63倾向值分布倾向值分布64block中样本的分布block中样本的分布65block中的描述性统计block中的描述性统计66运用得分进展样本匹配并比较运用得分进展样本匹配并比较67方法一:最邻近方法

〔nearestneighbormatching〕含义:最邻近匹配法是最常用的一种匹配方法,它把控制组中找到的与处理组个体倾向得分差异最小的个体,作为自己的比较对象。优点:按处理个体找控制个体,所有处理个体都会配对成功,处理组的信息得以充分使用。缺点:由于不舍弃任何一个处理组,很可能有些配对组的倾向得分差距很大,也将其配对,导致配对质量不高,而处理效应ATT的结果中也会包含这一差距,使得ATT准确度下降。方法一:最邻近方法

〔nearestneighborma68方法一:最邻近方法

〔nearestneighbormatching〕命令setseed10101〔产生随机数种子〕attndre78treat$x,comsupbootreps($breps)dotslogit方法一:最邻近方法

〔nearestneighborma69方法一:最邻近方法

〔nearestneighbormatching〕方法一:最邻近方法

〔nearestneighborma70方法二:半径匹配法

〔radiusmatching〕半径匹配法是事先设定半径,找到所有设定半径范围内的单位圆中的控制样本,半径取值为正。随着半径的降低,匹配的要求越来越严。方法二:半径匹配法

〔radiusmatching〕半径匹71方法二:半径匹配法

〔radiusmatching〕命令

setseed10101attrre78treat$x,comsupbootreps($breps)dotslogitradius(0.001)方法二:半径匹配法

〔radiusmatching〕命令72方法二:半径匹配法

〔radiusmatching〕方法二:半径匹配法

〔radiusmatching〕73方法三:分层匹配法

〔stratificationmatching〕内容:分层匹配法是根据估计的倾向得分将全部样本分块,使得每块的平均倾向得分在处理组和控制组中相等。优点:Cochrane,Chambers〔1965〕指出五个区就可以消除95%的与协变量相关的偏差。这个方法考虑到了样本的分层问题或聚类问题。就是假定:每一层内的个体样本具有相关性,而各层之间的样本不具有相关性。缺点:如果在每个区内找不到对照个体,那么这类个体的信息,会丢弃不用。总体配对的数量减少。方法三:分层匹配法

〔stratificationmatc74方法三:分层匹配法

〔stratificationmatching〕命令setseed10101attsre78treat,pscore(mypscore)blockid(myblock)comsupbootreps($breps)dots方法三:分层匹配法

〔stratificationmatc75方法三:分层匹配法

〔stratificationmatching〕方法三:分层匹配法

〔stratificationmatc76方法四:核匹配法

〔kernelmatching〕核匹配是构造一个虚拟对象来匹配处理组,构造的原那么是对现有的控制变量做权重平均,权重的取值与处理组、控制组PS值差距呈反向相关关系。方法四:核匹配法

〔kernelmatching〕核匹配是77方法四:核匹配法

〔kernelmatching〕命令setseed10101attkre78treat$x,comsupbootreps($breps)dotslogit方法四:核匹配法

〔kernelmatching〕命令78方法四:核匹配法

〔kernelmatching〕方法四:核匹配法

〔kernelmatching〕79psmatch2psmatch280匹配变量的筛选1.设定宏变量设定宏变量x,表示ageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black命令:globalxageagesqeduceducsqmarriedblackhispre74re75re74sqre75squ74black匹配变量的筛选1.设定宏变量81匹配变量的筛选2.初步设定logittreat$x匹配变量的筛选2.初步设定82匹配变量的筛选3.逐步回归stepwise,pr(0.1):logittreat$x匹配变量的筛选3.逐步回归83ps值的计算psmatch2treat$x,out(re78)倾向得分的含义是,在给定X的情况下,样本处理的概率值。利用logit模型估计样本处理的概率值。概率表示如下:P(x)=Pr[D=1|X]=E[D|X]ps值的计算psmatch2treat$x,out(r84匹配处理组最近邻匹配命令:psmatch2treat$x〔ifsoe==1〕,out(re78)neighbor(2)ate半径匹配命令:psmatch2treat$x,out(re78)ateradiuscal

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论