倾向值匹配ppt课件_第1页
倾向值匹配ppt课件_第2页
倾向值匹配ppt课件_第3页
倾向值匹配ppt课件_第4页
倾向值匹配ppt课件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

倾向值匹配研究(PropensityMatchedStudy),1,对于个体i,其未来收入yi可能有两种状态,取决于是否参加此项目,即:,yi,=,y1i,y0i,若Di=1,若Di=0,其中,y0i表示个体i未参加项目的未来收入,而y1i表示个体i参加项目的未来收入,(y1i-y0i)即个体i参加该项目的因果效应,由于无法同时观测到y0i和y1i,产生了一种“数据缺失”的问题,2,处理效应:在经济学中,我们常常希望评估某项目或政策实施后的效应,如政策推出的各种项目,此类研究被称之为项目效应评估,也被称之为处理效应,项目参与者的全体构成控制组或对照组,而未参加项目者则构成控制组或对照组。即y1i-y0i,选择难题:由于个体通常会根据其参加项目的预期收益E(y1i-y0i)而自我选择是否参加项目,导致对平均处理效应的估计带来困难,3,平均处理效应(ATE)E(y1i-y0i):表示从总体中随机抽取某个体的期望处理效应,无论该个体是否参与项目,参与者平均处理效应(ATT)E(y1i-y0i|Di=1),非参与者平均处理效应(ATU)E(y1i-y0i|Di=0),E(y1i|Di=1)-E(y0i|Di=0),E(y1i|Di=1)-E(y0i|Di=1),+E(y0i|Di=1)-E(y0i|Di=0),参与者与未参与者的平均差异,ATT,选择偏差,=,4,依可测变量选择:如果个体i对Di的选择完全取决于可观测的xi,两大假定:可忽略性:给定xi,则(y0i,y1i)独立于Di均值可忽略性:在给定xi的情况下,y0i和y1i都均值独立于Di,5,匹配估计量的基本思路:找到属于控制组的某个体j使得其与属于处理组的个体i的可测变量取值尽可能相似,即xixj,基于可忽略性假设,则个体i与个体j进入处理组的概率相近,具有可比性,故可将yj作为y0i的估计量,6,倾向值是在1983年由学者Rubin和Rosenbaum首次给出了明确的定义:指在一系列可观察到的协变量条件下,任意一个研究对象被分配到试验组或者对照组的概率。,在一般的实证研究中,由于存在很多其他变量混淆自变量和因变量之间的关系,研究者很难直接探索二者之间的净效果(neteffects)。这些混淆变量的影响通常被称为选择性误差(selectionbias),而通过倾向值匹配的方式来控制和消除选择性误差,定义:,目标:,7,马氏距离:考虑xi与xj之间的相似度或距离(均为k维向量),其中二次型矩阵为x的样本协方差矩阵的逆矩阵,它的作用相当于权重矩阵,使用马氏距离进行匹配被称之为马氏匹配。,倾向得分(p-score):个体i的倾向得分为,在给定的情况下,个体i进入处理组的条件概率,即p(xi)P(Di=1|x=xi),或者间记p(x)使用倾向得分作为距离函数进行匹配被称之为倾向得分匹配。,马氏匹配的缺点在于个体i与j的马氏距离最近,但绝对距离可能依然很远使用倾向得分来度量个体之间的距离好处在于,它不仅是一维变量,而且取值介于0,1之间,即使两者距离很远仍有可能使p(xi)=p(xj),8,理论依据:如果可忽略性假定成立,则只需给定p(x)的情况下,(y0i,y1i)独立于Di,(由于D为虚拟变量,故只需证明PD=1|y0,y1,p(x)与y0,y1无关即可),倾向得分定理,重叠假定:对于x的任何可能取值,都有0p(x)1,9,倾向值匹配(PropensityMatching)步骤,10,(1)首先要对数据进行数据质量核查,鉴别数据类型,考察数据的完整性和逻辑性,然后根据数据类型和样本量大小来选择相应的倾向得分的分析方法。,(2)选择纳入模型的协变量。针对试验目的,根据研究者的临床经验筛选混杂因素,并结合倾向得分变量选择的要求,选择合适合理的混杂因素。然后以处理因素为应变量,混杂因素为自变量来构建模型。根据模型获得倾向得分的估计值。估计倾向得分可选的模型包括logistic回归、Probit回归、判别分析等,其中最常用的是logistic回归模型。,11,(3)根据数据结构类型和选定的模型来计算每一个试验对象的倾向得分,倾向得分在01之间,表示试验对象被分配到试验组或者对照组的概率。,12,(4)选择合适的倾向得分应用方法。PS分层法、PS匹配法和PS协变量校正法等。以倾向得分匹配法为例,在估计出试验对象倾向得分之后,需要选择合适的算法计算出组间倾向得分之间的距离,也就是近似程度。,(5)根据每个试验对象的倾向得分值,通过选择好的匹配算法进行组间匹配,匹配结束后得出匹配数据集。,13,6)在匹配前后,进行组间均衡性检验。组间基线的均衡性优劣是评价倾向得分方法在实际应用中控制选择性偏倚及混杂效应的较好的指标。传统上常用的均衡性检验方法是假设检验,但假设检验法存在先天不足,针对此问题1986年由Flury和Reidwyl提出了标准化差异法,给出了明确的定义和计算方法。,匹配后的处理组均值与控制组均值较接近,这个过程称之为数据均衡,但这两者的差距与计量单位有关,故一般针对x的每一个分量x考虑如下标准距离或者说是标准偏差:,一般要求次标准化差距不超过10%,如果超过则应回到第二步和第三步重新估计倾向得分,或者改变具体的匹配方法。,14,(7)对匹配后的数据集,选择合适的统计学分析方法来估计处理效应。由于匹配后试验组和对照组之间的协变量均已均衡,数据可以看作是近似随机化的,如果选择了合适的统计学方法则可以得出真实可信的处理效应。经过匹配,每一个试验组个体都能在对照组找到一个或多个与之匹配的对照个体,所以我们在统计学处理时,也可以考虑类似配对设计的统计方法来进行分析。,一般来说有六种方法:k近邻匹配限制倾向得分的绝对距离|pi-pj|,一般建议0.25卡尺内最近邻匹配核匹配局部线性回归匹配样条匹配,近邻匹配法,整体匹配法,也叫卡尺匹配或者半径匹配,(贪婪匹配),15,K近邻匹配即寻找倾向得分最近的k个不同组个体,说明:,卡尺内最近邻匹配即给定卡尺范围内寻找最近匹配,核匹配下其权重为,其中h为指定带宽,K(.)为核函数,16,近邻匹配法匹配的结果为最近的部分个体,然后进行简单算术平均,两者的区别:,整体匹配法下每位个体的匹配结果为不同组的全部个体(通常是去电共同取值范围之外的个体),只是根据个体距离不同给予不同的权重(近者大,远者小,超出一定范围权重为0),17,(8)对数据进行敏感性分析。在一次试验中,好的匹配方法产生不完整的匹配集是不可避免的,哪怕采用最大化匹配也不能消除匹配的不精确。因此,如何在匹配的精度和完整度之间进行选择,值得探讨。由于匹配数据的不完整导致严重的偏倚要远远高于由于精度不够导致的偏倚。所以选择一种合适的匹配算法是十分重要的,因为它影响到处理效应的估计。比较数据集在匹配前后的精确度和完整度,以此来评价不同的匹配算法的优劣是至关重要的。,18,PSM的局限性:PSM通常要求比较大的样本容量以得到高质量的匹配PSM要求处理组与控制组的倾向得分有较大的共同取值范围;否则,将丢失较多观测值,导致剩下的样本不具有代表性PSM只控制了可测变量的影响,如果存在依不可测变量选择,仍会带来隐性偏差,19,倾向得分匹配举例培训对工资的效应,政策背景:国家支持工作示范项目(NationalSupportedWork,NSW)研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响基本思想:分析接受培训组(处理组,treatmentgroup)接受培训行为与不接受培训行为在工资表现上的差异。但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实,20,倾向得分匹配举例培训对工资的效应,在倾向得分匹配方法(PropensityScoreMatching)中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW实施后接受培训的组;二是对照组(comparisongroup),在本例中就是在NSW实施后不接受培训的组。在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。,21,倾向得分匹配举例培训对工资的效应,本例选自Cameron&Trivedi微观计量经济学:方法与应用(中译本,上海财经大学出版社,2010)pp794-800所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html)。,见附件nswpsid.dta,22,倾向得分匹配举例培训对工资的效应,其中倾向得分匹配法的stata实现过程如下:总的讲来分为两大部分:一是为倾向打分,二是运用得分进行样本匹配并比较。,一、倾向打分,第一步:设定宏变量breps表示重复抽样200次.globalbreps200第二步,设定宏变量XDW02,表示变量AGEAGESQEDUCEDUCSQMARRNODEGREEBLACKHISPRE74RE75RE74SQU74U75U74HISP.globalXDW02AGEAGESQEDUCEDUCSQMARRNODEGREEBLACKHISPRE74RE75RE74SQU74U75U74HISP第三步,通过logit模型进行倾向打分.pscoreTREAT$XDW02,pscore(myscore)comsupblockid(myblock)numblo(5)level(0.005)logit【注释】$表示引用宏变量。【注意】一定要把处理指示变量放在最前面,23,倾向得分匹配举例培训对工资的效应,二、运用得分进行样本匹配比较,方法一:Nearestneighbormatching(randomversion)最邻近方法首先,产生随机数种子.setseed10101然后.attndRE78TREAT$XDW02,comsupbootreps($breps)dotslogit,通过stata结果窗口可看到有三张表格:第一张表格,*ATT(ATET)表示已处理的平均处理效应(averagetreatmenteffectonthetreated)*Analyticalstandarderrors,【说明】注意变量排列次序,RE78正是我们所关心的变量,放在最前面;其次是处理指示变量,最后是其他变量。,24,倾向得分匹配举例培训对工资的效应,第三张表格,第一张表与第三张表的差别在于标准差的估计,第一张表使用的是解析标准差,第三张表使用自助法得到标准差。当然t统计量也随之发生变化。,25,倾向得分匹配举例培训对工资的效应,方法二:Radiusmatching(半径匹配法),setseed10101attrRE78TREAT$XDW02,comsupbootreps($breps)dotslogitradius(0.001),【说明】选项radius(),括号内填写半径值,例如0.1,0.5,0.00001等,本例的半径值为0.001。同样也需要注意变量排列次序问题,RE78正是我们所关心的变量,放在最前面;其次是处理指示变量,最后是其他变量。,通过stata结果窗口可看到有三张表格,表格结构与最邻近方法类似。,26,倾向得分匹配举例培训对工资的效应,方法三:StratificationMatching(分成匹配法),.setseed10101.attsRE78TREAT,pscore(myscore)blockid(myblock)comsupbootreps($breps)dots,方法四:KernelMatching(核匹配方法).setseed10101.attkRE78TREAT$XDW02,comsupbootreps($breps)dotslogit,27,偏差校正匹配估计量(bias-correctedmatchingestimator),28,由于在倾向得分匹配第一阶段估计倾向得分时存在不确定性,AbadieandImbens(2002,2004,2006,2011)又重新回到更简单的马氏距离,进行有放回且允许并列(ties)的k近邻匹配,针对非精确匹配一般存在偏差,提出了偏差校正的方法,通过回归的方法估计偏差,然后得到偏差校正匹配估计量。,偏差校正匹配估计量在stata中的命令基本句式为NnmatchyDx1x2x3,metric(maha)tc(att)m(k)robust(#)biasadj(bias|varlist)pop,其中metric(maha)表示使用马氏距离,选择项tc(att)表示估计ATT,选择项tc(atc)表示估计ATU,默认值为tc(ate),即估计ATE,选择项robust表示计算异方差稳健的标准误,其中#须为正整数,一般可让#=k,选择项biasadj(bias)表示根据原来的协变量进行偏差校正,也可用biasadj(varlist)来指定用于偏差校正的变量名单,选择项pop表示估计“总体平均处理效应”。,具体例子可见ldw_exper.dta,29,双重差分倾向得分匹配,30,前面几种匹配估计量均依赖可忽略假定,即可测变量选择,对于观测数据,如果怀疑存在依不可测变量选择,大致有以下几种处理办法:尽量使用更多的相关可测变量,以满足可忽略假定若处理变量的不可观测变量不随时间而变,而且有面板数据,则可使用双重差分倾向得分匹配估计量使用断点回归法,特别是模糊断点回归使用工具变量法(但最大的局限在于很难找到有效的工具变量)根据依可测变量选择的影响来估计依不可测变量选择的影响。,31,双重差分PSM由Heckman等(1997,1998)提出假设有两期面板数据,记实验前的时期为t,实验后的时期为t,在时期t,实验还未发生,故所有个体的潜在结果均可记为y0t。在时期t,实验已经发生,故可能有两种潜在结果,分别记为y1t(如果参与实验)和y0t(如果未参与实验)。,双重差分PSM成立的前提为以下均值可忽略假定:E(y0t-y0t|x,D=1)=E(y0t-y0t|x,D=0)如果假定成立,则可一致地估计ATT:,其中:SP为共同取值范围的集合,I1=i:Di=1(处理组的集合),I0=i:Di=0(控制组的集合),N1为集合I1SP所包含的的处理组个体数,w(i,j)对应于配对(i,j)的权重。,32,双重差分PSM法的步骤如下:根据处理变量Di与协变量xi估计倾向得分。对于处理组的每个个体i,确定与其匹配的全部控制组个体(即确定集合Sp)对于处理组的每个个体i,计算其结果变量的前后变化(y1ti-y0ti)对于处理组的每个个体i,计算与其匹配的全部控制组个体的前后变化(y0tj-y0tj)针对(y1ti-y0ti)和(y0tj-y0tj),进行倾向得分核匹配或局部线性回归匹配,即得到一致估计的ATT,说明:双重差分PSM法的优点在于它可以控制不可观测但不随时间变化的组间差异,比如处理组与控制组分别来自两个不同的区域,或处理组与控制组使用了不同的调查问卷。,33,双重差分PSM在stata中的基本句式为diffoutcome_var,treat(varname)period(varname)id(varname)kenelktype(kernel)cov(varlist)reportlogitsupporttest,其中outcome_var为结果变量,必选项treat(varname)用来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论