版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一讲线性回归扩展第一节引进虚拟变量的一、什么是虚拟变经过这种处理,“”变量就变成了一个虚拟变量,表示被访者是否为。1-1话语种类1.101.10SpeakCantonese(粤语2.10Speak10SpeakMandarin(国语Speaknoneofthe
Whetherspeakork(k-1)个虚拟变量,(k-1)个虚拟变量都01(2-11二、为什么要在回归分析中引入虚据(pooleddata)中的系数的影响就被低估了。e eee例如,女性在工资方面是否存在?于;或女性收入低于是因为她们更倾向集中于低回报的工作中(occupational就该案例而言,当用虚拟变量的回归系数进量时,我们期望这种组间差异在控制其它变量的条件下会;若期望的组间差异的回归系数并不为0,则意味着即使在控制其它变量的条件下,依然存在着工资上的差异。因此,我们可以说劳工市场中存在羞对女性的。三、案例分案例1:、教育与收入(Gender,Education, 数据***先看一下变\chip2005.dta",.ofhouseholdmember +male female +Total ***再看一下的或编. ,of|householdmember +0 1 +Total .recode (1=0"female")(0=1"male"),gen(new )label(gender)(20421differencesbetween andnew .tab ,RECODEof|(of|household|member|) +0 1 +Total .tabnewRECODEof(of|member) +female male +Total .reglogearneducSource Numberofobs F(2,20418)=Model| 2 Prob> =Residual|5368.9338420418 = AdjR-squared=Total|5750.3911620420 Root =logearn|| ..| ..|
Std.
[95%
虚拟变量的系数表示在控制了和女性在loggedearn上的平均数的差。由于女性编码
( lninc=7.322+0.032educ女性 lninc=7.153+0.032educ.predictyhat1 .predictyhat2 .graphyhat1yhat2educ,c(ll)s(iO)FittedFitted
Fitted Fitted 四、交互作不含交互项的模型我们称作加叠模型(additivemodelsassuminggroupdifferenceinthemeanofthedependentvariable(intercept))。如:X2是虚拟变量。若以图形来看,则组与组的差距可以用两根平行线来表示(斜率一样,差的影响上(equationsfordistinctgroupsdiffernotonlyinintercepts,butinslopesaswell)。Y=α+β1X1+β2X2+β3X2*X1β3X2*X1即交互作用项。若交互作用的两个变量都是定类变量,等于是对样本进行进一步第二节、因变量与自变量间违背基本假设条件一、违背线性假(一)变量转变量分布型态为斜分布(skewed),通过变量转换可使其趋于正态分例如:与收入年GSS中与收入的曲线示意 (1)主张生产力随增长到某一点到下降;社会学家有时也持类似的观点,但又各种制度性因素(如较大的工人失业后再找工作更大的)也会导致同样(2)根据截面数据观察到的模式可能只是收入的队列递进效应所造成的一种假象:后面队列的收入在任何都比他们的前辈高,而在工作生涯中所有工人的收入都将持续增高。0。解决此类问X→X’两种常见的变量转化方式对数转换:Y’=log(Y),因而线性回归方程变为增加平方项:如人力资本模型。
log(Y)=^^=α+βX+βX^ 1 2对数转我们要研究不同国家GDPpercapita(PcGDP95)InfantMortalityRate(IMR)的关系。.scatterIMRPcGDP95,度相关。为了减低其共线性,分析者往往在平方项系数前减去一个常数。这个常数bX2XX2变成X
X与X
b
0000045independentvariable.gen.scatterlIMRlPcGDP95,23452345461461.regIMRSource Numberofobs F( 192) Model| 1 Prob> =Residual=+AdjR-=TotalRoot=IMR Std. [95%Conf.+PcGDP95|- _cons 为0.265,是指人均GDP这个变量解释了婴儿率总变异中的26.5%。.reglIMRSource Numberofobs F( 192)=Model| 1 Prob> =Residual| 192 = AdjR-squared=Total| 193 Root =lIMRlIMRt[95%lPcGDP95 _cons lIMR'=7.089-loggedPcGDP的增加,loggedIMR0.498个单位(Hence,oneunitincreaseinlPcGDP95(loggedGDP)willbringadecreaseinlIMR(loggedIMR)by0.498.),R2=0.678,比原来大的多。.predict(optionxbassumed;fittedvalues)(19missingvaluesgenerated).graphfitIMRlIMRlPcGDP95,c(l)
.genfit2IMR=exp(fitIMR)(*convertthepredictedlogarithmback)(19missingvaluesgenerated).sort.graphfit2IMRIMRPcGDP95,c(l)s(.o)f 4 UnitedNationspercapita增加平方加入自变量的平方拟合。即^1Y=α+β1X1+β2X1yz yz-- x
-- xmayberelocatedtopositionwithlessresponsibility,thusearnless)。在经济学的人力资本模型中,通常会加入一个平方描述这种关系^ )=α+β1EXP+β2EXP2+ββ1>0,β2<0(seetherightplot案例:工作经验和收入、工资的关系(样本)*建立一个新的变量:工作经验(年数),可用减去18岁(假设18岁开始工作).genexp=age-*建立一个工作经验的平方项,试图想观察与收入之间的曲线关.gen.graphearn,bin(50)norm0 yearly*此时,我们开始对其进行log变换(logtransformation).gen.graphlnearn,bin(50)norm0 现在我们对工作经验的平方项进行回首先假设在logearn与工作经验之间存性关系.reglnearnSource Numberofobs F(1,20419)=Model| 1 Prob> =Residual|10860.307620419 = AdjR-squared=Total|11863.859320420 Root lnearn Std. [95%Conf.expexp ._cons 工作效应变量是显著的。现在我们加入其平方项进行回.reglnearnexpSource Numberofobs F(2,20418)=Model| 2 Prob> =Residual|10690.928720418 = AdjR-squared=Total|11863.859320420 Root lnearn Std. [95%Conf.++exp . .| | 我们也可以工作经验及其平方项的联合效应 effect)有无显著统计学意义.testexpexp2,accum(1)exp=0(2)exp2=F(2,20418)=1120.06Prob>F= *因P<005,两者的联合效应存在显著统计学差异。我们可以得出结论,工作经验与收入(od)(rlirreaiosp22年左右后开始下如在50左。*在回归后,我们可以用图形来观察这种曲线关系*y.predict.graphhatexp,c(s).graphhatexp,c(s)s(.)xlabel(0,4,8,10,14,18,22,26,30,34,42,46,50)FittedFitted 8 (二)非线性关系的解决方XYg(Y)=f(β,X,:gf1f2YX各自的函数,有可能是非线性的。但只要能写成上述形式的X与Y的关系就被称为―可转化的线性关系(transformablyr)‖,―真线性(intrinsicallylinear)‖或―实质的线性(essentiallylinear)‖g(Y)=α+f(β,X,gfXY的关系也被称为―non-transformablylinar,―intrinsclynonlinear‖或―lynon-linear‖形式,如取其log或取其平方等,进而使用转换后的变量参与回归分析;1:Y可以写XX平方的函数(多项式函数,curvilinear)
x例2:近似指数函数Y=e(α+βX)➔log(Y)=
- x例3:乘数关系(MultiplicativeRelationship)(人口流动的重力模型YPPY D Dlog(Yij)=log(α)+βlog(Pi)+γlog(Pj)-Yij*=α*βPi*+γPj*-例4:蒂回归(Logistic量Y呈现状态1的概率可以写成如下的蒂函数的形式:eeP(Yi1|X)1e(Xipp- x例5:多因多果模型(MultipleIndicatorMultipleCauseModel,MIMIC则这一模型可以写成如下的―因子模型 Model)‖的模式ζζFY1i=λ1γ1X1i+λ1γ2X2i+λ1δi+ε1iY2i=λ2γ1X1i+λ2γ2X2i+λ2δi+ε3iY3i=λ3γ1X1i+λ3γ2X2i+λ3δi们只做X对于Y的回归分析,则其结果中的参数估计要受到非线性约束的影响。对于非线性模型,通常使用最大似然估计法(MLE)而非最小二乘法进行参数分析软件。目前,SPSS、STATA、SAS、R等多数软件包中都有非线性分析的功能。可用F检验来判断相对于模型(1)来说,模型(2)的拟合能力是否有显著的增强;也非线性的全局检验(Globaly=β0+δ2d2+δ3d3+…+δk-1dk-y=β0+β(c1d1+c2d2+c2d2+c3d3+…+ck-1dk-案例:使用F检验判断模型拟合能力的提升是否显著。.setmemCurrentmemory①该数据使用1996年生命史数据,学员可自行
memoryusage(1M=setmaxvar5000max.variablesallowed setmemory100Mmax.dataspace setmatsize400max.RHSvarsinmodels.use sand 07.DTA",.genlnwage=ln( e)*dependentvariable(4021missingvaluesgenerated).keepifsample==1 *restrict ysisforurbansample(3386observationsdeleted)*Regular.reglnwageSource Numberofobs F(1,2014)=Model| 1 Prob> =Residual|619.0686612014 = AdjR-squared=Total|664.2510522015 Root =lnwage Std. [95%Cc_hiyeduc_hiy ._cons *Nowwewanttotestwhetherthelineareffectspecificationiscopythe.genrecodethenewvariableinto4.recodeeduc0/6=17/9=210/12=313/20=4(educ:3079changesmade)*convertthe4-categoryvariableinto4dummyvariables(inregression,weonly*3of.gen.gen.gen.gentocheckifanythingis.tab1ed1-->tabulationofed1 +0 1 +Total ->tabulationofed2 +0 1 +Total ->tabulationofed3 +0 1 +Total ->tabulationofed4 +0 1 +Total .tabeduc +1 2 3 4 +Total *everythinglooksDummyvariableregression(Model.xi:reglnwage (naturallycoded;_Ieduc_1SourceNumberof=+F(3,=Model3Prob>=Residual2012 =+AdjR-=Total2015 Root=lnwage Std. [95%Conf. . . ._Ieduc_2_Ieduc_3_Ieduc_4_cons Nowwewouldliketotesttheeffectsforeacheducationallevelonwagelinear.Theeasiestwayistojusttreateducasacontinuousvariablevaluesrangingfrom1to.xi:reglnwageSource Numberofobs F(1,2014)=Model| 1 Prob> =Residual|621.7632012014 = AdjR-squared=Total|664.2510522015 Root =lnwageeduceduc ._cons
Std.
[95%
TheaboveisequivalenttotheequationofModel2,*WecanconductanFtesttoseeincrementtoR2F2,2012=.genx=[(0.0695-0.064)/2]/[(1-.dis yx. yfprob(2,2014,.Sincepisfarlessthan.05,werejectthenullhypothesisandacceptthealternative:addinglinearconstraintsignificantlydecreasesthemodel’sgoodness-of-fit.Wecanalsorecodeeducintoacontinuousvariablewith*differentvalueassignmentassignedtoeachcategory..gen.xi:reglnwageSource Numberofobs F(1,2014)=Model| 1 Prob> =Residual|621.7632012014 = AdjR-squared=Total|664.2510522015 Root =lnwageeduc2educ2 ._cons
Std. [95%Conf.*Again,thiscanalsobedonein“recode”in.gen.recodeeduc_hiy31=32=73=114=15(educ_hiy3:3083changesmade).xi:reglnwageSource Numberofobs F(1,2014)=Model| 1 Prob> =Residual|621.7632012014 = AdjR-squared=Total|664.2510522015 Root =lnwage Std. [95%Cc_hiy3educ_hiy3 ._cons Note,nomatterhowyourecodethevariable,theR2,residualsumofsquareremainsthesame(namely,youwillendupwiththesameFvaluewiththesamedegreeofdom,althoughtheestimatecoefficientswillbeAnextremeversionofatestfornon-linearitymightbeanapproachtocreatingdummiesforeachyearofeducation(15categoriesthus14dummiesareneeded.)Asimplerwayistocategorizeeducationintoseverallevels-theconventionallevels:primaryschoolorless;juniorhighschool;seniorhighschool;andcollegeoraboveWhentherelationshipbetweenadependentandacontinuousindependentvariableisnon-linearinsuchafashionthattransformationcannotlinearizeit,thenitmayalsobeappropriatetocategorizetheindependentvariable.Inthiscaseitisturnedintoanissueofdummyregression.Forexample,wecanusethegeneratecommandtocreateseveraldummyvariablesforeducationallevel.Thecutoffpointsdependonhowquicklyyouthinkthedependentvariableischangingasafunctionoftheindependentvariable.Ifyouthink,collegeeducationcouldhaveamuchgreaterimpactonoccupationalstatus,thencodecollegelevelsepara .gen.recodeeduc0/6=17/10=211/12=313/18=4*=.(educ:6080changesmade).xi:regrisei_c (naturallycoded;_Ieduc_1SourceNumberofobs+F(3,6082)Model3Prob> Residual AdjR-squared=0.2109Total .136085 Root =risei_c Std. [95%Conf.+_Ieduc_2 _Ieduc_3. _Ieduc_4 _cons. Thereferencecategoryisprimaryschooleducationorbelow.Inthismodel,weobservethatpeoplewithjuniorhighschooleducationenjoy10.5pointshigherinoccupationalstatusthandopeoplewithprimaryschooleducation;Peoplewithseniorhighschooleducationenjoy19.9pointshigherinoccupationalstatusthandopeoplewithprimaryschooleducation.Forcollegeoraboveeducation,theadvantageisevenmoreevident.Comparedwiththeadditionofaquadraticterm,therearetwoadvantagestothedummy-variablemethodforrepresentnon-linearityinaregressionequation:Themethoddoesnotimposeanyparticularpatternontherelationshipbetweenindependentvariable;ThenumericalcanbesomewhatsimplertoThedisadvantage:thedivisionofintervalissomewhatarbitrary;theprecisionofestimateisaffected.二、其它经常遇(一)异方差性/方差不齐1、什么是异方差性2、为什么要关心异方差性问OLStF统计量进若一估计量ˆxixuii i
xx1Var(ˆ)1
xx2 xSSTxSSTxx2
xx2对于这一方差的有效估计,在i时可以写为:Vˆarˆ1 ixuˆiOLSBLUEijijjVarˆˆj
rˆuˆ2SSE2j 是以X为因变量对所有其它自变量做回归时得到的第i个残差,而SSE则j 案例.reglnearnSourceNumberofobs +F(1,20419)=Model1Prob> =Residual. = AdjR-squared=Total|11863.859320420 Root =lnearn Std. [95%Conf. .. educ_cons..predictmu, *generateerror.egen*createaconstantmeanofeduc_hiy,call.gen*renameeduc_hiyas.gena=(x-.genb=(x-.egen*sumuptogetthe.egen*.gen. y .reglnearneduc,Linearregression Numberofobs=20421F(1,20419)=1277.13Prob>F=R-squared=RootMSE= lnearn Std. [95%Conf.+educ _cons 算出的t统计量并不严格服从t分布,而由此得到的推断也不一定正确。.rreglnearnRobustregression Numberofobs=20421F(1,20419)=1166.93Prob>F=lnearn Std. [95%Cceduc .._cons 【稳健回归】稳健回归(robustregression)是统计学稳健估计中的法。其主要思路是回归方法有:最小中位平方(leastmediansquare;)法、M估计法等。3、如何识别异方差 kH:Var(u|xxx2HEu2|xxxE kj若假定u2和x之间存性关系,我们可以使用线性约束进行检验,即:假ju2x...xv,这也就是说,我们的原假设可以写为:H:... 0 1 k 这样,我们就可以利用 s.reglnearnSource Numberofobs F(1,20419)=Model| 1 Prob> =Residual|10860.307620419 = AdjR-squared=Total|11863.859320420 Root lnearn Std. [95%Conf.expexp ._cons .Breusch-Pagan/Cook-WeisbergtestforheteroskedasticityHo:ConstantvarianceVariables:fittedvaluesof Prob>chi2 此处,P>0.05,意味着我们没有能H0,因此认为该残差不存在异方差性也可对各自变量进行异方差性检验,命令如.estathettestp值小于0.05,则说明异方差性存4、解决异方差性常用方(1)稳健标准误加(S(S1SS1 n 此方法适用于大样本数据,Stata所使用令为.regyx1x2…..,.rregyx1(2)最小二乘法(WeightedLeast以运用最小二乘法(WLS),以得到比普通OLS更有效的估计量。假设异方差的形式可以写为Var(u|x)2h(x),那么需要知道的是如何建构h(x)hi。事 .reglogearnSource Numberofobs F(1,20419)=Model| 1 Prob> =Residual|5512.2465420419 = AdjR-squared=Total|5750.3911620420 Root =logearn Std. [95%Cceduc ._cons .vwlslogearnVariance-weightedleast-squaresregression Numberofobs = Model =Prob> = Prob> =logearn Std. [95%Cceduc .._cons 若我们事先知道Var(uj|xj)的形式,WLS是一个不错的方法。但更一般的情况是,我们并不能事先知道异方差性的形式。这时,我们就需要去经验地估计h(xi)或采用Huber-从而产生了GEE模型(generalizedestimatingequation)。内相关(intra-classcorrelation)、因变量的相关性问题等。它原采用Akaike’sinformationcriterion(AIC)的模型选择准则,目前采用准似然独立准则(quasi-likelihoodundertheindependencemodelcriterionQIC)选择GEE分析中的最佳结构和最佳模型。该模型理解略难,故讲解时只略提及并录其面板数据中的Stata命令如下:.xtgeedepvarvarlist,family(family)link(link)corr(corr)i(idvar)t(timevar)**Family:binomial,gaussian, ,igaussian,nbinomial,**Link:identity,cloglog,log,logit,nbinomial,opwer,power,probit,**Correlation:independent,exchangeable,ar#,stationary#,nonstationary#,unstructured,fixed**Alsooptionstochangethescaleparameter,useweightedequations,specify.webuseunion,.xtsetidFitalogit.xtgeeunionagegradenot_smsasouth,family(binomial)link(logit)FitaprobitmodelwithAR(1)correlation.xtgeeunionagegradenot_smsasouth,family(binomial)link(probit).xtsetpanelvariable:id.setmatsizeCurrentmemory
memoryusage(1M=max.variablesmax.datamax.RHSvarsin.xtgeelogearnedu,family(gaussian) tion1:tolerance=. tion2:tolerance= tion3:tolerance=2.251e-Numberof=GroupNumberof=Obspergroup:===Wald=Scale.Prob=logearn Std. [95%Cedu _cons Generalizedestimatingequations:anannotatedbibliography(Ziegler,KastnerandBlettner,BiometricalJournal,1998).ReviewofsoftwaretofitGeneralizedEstimatingEquationregressionmodels(HortonandLipsitz,TheAmericanStatistician,1999,articleonlineat)(二)模型的不当设定:忽略变量偏倚(OmittedVariablexx2xx求导数,哪一个更好解释? 1②违背剃刀定律(Ockham’srazor),即简约原则(LawofParsimony)。根据奥这是因为学生的学习成绩与紧密相关,而鞋子尺寸与也有关,所以如果用数学成F忽略了关键的自变量。假设真实的回归模型为yi01xi12xi23xi3 例如,我们想研究20至30岁之间的年轻人的教育程度和党员对收入的影响。如果忽略了变量,那么估计出来的教育程度和党员这两个变量对收入的影响就可能是有重要的影响因素。这种因缺失重要变量所引起的偏倚,称为忽略变量偏倚(omitted更是。后者就是忽略变量偏倚。yy0
yˆˆˆxˆ 1 2 1 2ˆ0(x2部分的效果)x1和x22y01x12x2 但是我们少纳入了一个本该属于模型的变量x2y01x1,̃ ∑∑
yi01xi12xi2 (xi1x1)(01xi12xi2ui)1(xi1x1)22(xi1x1)xi2(xi1 2 x)2 x)2(xi1x 2 x)2 x)2 E()(xi1x1)xi x)2 1xx20(注:Δδ读音:deltadelt ((xx)2 所以,E(1)1 那么,什么情况下,这种偏倚为0呢?2=0,也就是x2x2和x1 如何检查忽略变量的存在前处理协变量(pre-treatmentcovariate)和后处理协变量(post-treatmentcovariate)。协变量的自变量。例如在研究X对Y的影响时,自变量M对Y也存在影响,则称自变量M为协变量。此时要注意辨别在社会现象产生的实际过程中协变量M是为前处理协变量还是后处理协变量,即M是在自变量X(treatment)之前出现还是在X之后出现。如果协变量M是前处理变量,则它可以作为X和Y的一个共同解释原因或一个调节变量(moderator如、收入水。如果是后处理变量,则M就可以作为介入变量(intervening即必须发生在自变量X之前的协变量,但我们的数学推导结果实际上也适用于后处理协假设 ,xi(p2),xi(p1)为自变量,yi为因变量,真实的回归模型yi01xi1(p2)xi(p2)(p1)xi(p1) 假如在我们的研究中,我们的关注的是k(k(1,...p2)),Xk自变量对因变量Y的影响。在不失一般性的情况下,假定xp1被忽略了,则实际得到的回归模型为yi01xi1(p2)xi(p2) 此时,我们可以通过k和k是否相等来看忽略的变量是否产生偏差。如果k和k不相等则产生忽略变量偏差;如果k和k相等则不产生忽略变量偏差,此时模型中加入变量xp1对回归系数k没有影响。xip1)xip1)把其他自变量 ,xi(p2)作为自变量进行回归,xi(p1)01xi1 (p2)xi(p2)
yi01xi1(p2)xi(p2)(p1)(01xi1(p2)xi(p2)i)0(p1)0(1(p1)1)xi1((p2)(p1)(p2))xi(p2)(p1)ikkp1其中p1k
对忽略自变量的效应(k)的乘积。从式(6)中还可以看出产生忽略变量偏差需要两个条件(1)有关条件(RelevanceCondition):忽略变量影响因变量,即p1)0相关条件(CorrelationCondition):忽略变量与关键自变量相关,即k0p1)、k中只要有一个为零则不当条件①或②有一个不成立时,忽略变量X2不会影响自变量X1对因变量Y的效应,即不1来判断忽略变量偏差的方向。如果忽略变量对因变量Y的效应(p1)Xk对忽略自变量的效应(k)作用方向相同,即p1、k同时为正或同时为负,那么实际得到的方程的系数(k)将被高估,即k大于真实值k;如果作用方向相反,则k将检查忽略变量方法之二:Link检验或Ramsey判别忽略变量是否存在,其一是Link检验,二是Ramsey检验。Link方法检验.usec:\data\wage1.dta,.regyx1x2x3linktestlink检验的结果图,下面案例使用数据为Chip1988:.use"D:\教学篇\中财教学\备课\课件\练习数据\chip1988.dta",.reglogearneduexpSource Numberofobs F(4,15857)==AdjR-squared=Model|=AdjR-squared=Residual|2273.10919 +Total|2950.5211615861 Root =logearn Std. [95%Conf.|| .| ..| ..| | .Source Numberofobs F(2,15859)=Model| 2 Prob> =Residual 2234.836115859 = AdjR-squared=Total|2950.5211615861 Root =logearn Std. [95%Conf.+_hat _hatsq._cons22.96%,不算高,可能是因为忽略了某些重要的自变量所导则hatsq系数为0的原假设,即说明因变量的拟合值的平方项具有解释能力,所以可.gen.gen.regyx1x2x3x4x12法hatsq系数为零的假设,也就说明因变量的拟合值的平方项不再具有解释能力,因使用Ramsey.estatovtest[,.usec:\data\wage1.dta,.regyx1x2x3.estatRamseyLink检验中的方法,.gen.gen.regyx1x2x3x4x12.estat.regeduexpSourceNumberof=+F(4,=Model4Prob>=Residual =+AdjR-=Total15861 Root=logearn Std. [95%Conf.+edu exp ..cpc ..|- _cons .estatRamseyRESETtestusingpowersofthefittedvaluesoflogearnHo:modelhasnoomittedvariablesF(3,15854) Prob>F 上表解读:拟合优度不高(22.96%),意味着可能忽略重要自变量。Ramsey检验的原假设在原回归方程中,可加入一些其它自变量原方程中自变量的平方项,再进行回归。在调整后检验结果中,若拟合优度有了明显提高,且Ramsey检验的P大于0.05,则说明当利用辅助回归(auxiliaryregression)判别出模型中存在忽略变量偏倚时,有两种思路可工具变量(IV)或变量法x*xv,(其中标*的变量是我们没有测量到的变量,称之为潜变量) 3 33y0301x12x233x3u3v33ux1,x2x*v3x1,x2和x3x1和x23x*xxxv 1 2 3 y030131x1232x233x3u3v3用这个方法(比如说y是的价格或是一个城市中率等等)。实验法利用实验设计让条件②中k0,即使用随机分组的办法使得干预组和未干预组除了干预在Xie&Hannum的―中国时期收入不的地区差异‖一文中,如果要研究教育对收应用举以Xie&Hannum(1996)在―中国时期收入不的地区差异‖文中使用的数据(CHIP数据)为例来讨论辅助回归及偏回归图。研究20至30岁之间的年轻人的教育程度、党员对收入的影响。考虑到原始数据中没有的变量,我们利用文中提到的工作经历的算法推算出变量①。因为我们只研究20-30岁之间的年轻人,所以只保留在20-30之间的个案,一共4065个。所使用数据为CHIP1988.dta。y=收入(logearn)x2=党员(cpc)x3=(age)我们下面将通过辅助回归的方法来检验是否需要把这个变量加入到模型中。下面包括辅助回归和一步回归的四个模型,模型一是用收入对教育程度、党员回归的模型(三步计算法的第一步),模型二是用对教育程度、党员回归的模型(三步计算法的模型四是收入对于教育程度、党员和回归的模型(一步计算法)。yi01xi12xi2 xi301xi12xi2 y*x* yi01xi12xi23xi3 从STATA的分析结果(模型二和模型三)①当教育程度为小学及以下时,age=exp+14;当初中时,age=exp+16;当高中时,age=exp+19;中专从30可以看出,对收入有影响,即较大的人收入较高,满足―有关条件‖。1,20可以看出与教育程度、党员都有关系,即在这个段,较大的人更可能受过的教育,党员很可能比非党员要大,满足―相关条件可以看出,如果忽略了,那么估计出来的教育程度和党员这两个变量对收入的影响就可能是有偏的。我们可以利用模型一和模型三(表2)来检验―控制教程度党员件下,对收入无影响这一假设,即F(SSE1SSE3)/(df1df3)(827.413756.150)/1 在模型中引入这个变量。若忽略了变量将会产生忽略变量偏差。模 描 y对1、x1、模 描 y对1、x1、x2回归,取 x3对1、x1、x2回归,取 y*对x*回 y对1、x1、x2、x3回 33DF3=DF4=4061,而不是STATA分析结果中显示的MSE3=SSE3/DF3,不是STATA分析结果中显示的0.1861根据式(6)和10,20,30(4),我们可以得出p1k0(k12) 两个变量的回归系数k要比忽略了 的模型中的系数k要小。因此,模型一将高估教育程度和党员对收入的影响,即实际上教育程度和党员对收入的影响没那么大,其中一部分是造成的。读者还可以根据STATA的分析结果验证kkp1024.26361,1 ,206.926389,1 ,205.897779,1 ,2 ,30305.897779 24.263616.926389131 1,即kk3k(k0,1,232 图4对收入、教育程度和党员模型的影下面我们根据模型三来画的偏回归图,如图5所示。偏回归图中回归直线的斜率不为零,表明在已有教育程度和党员的回归模型中有必要加入变量的线性组合。从图型中加入变量将进一步减少离差平方和SSE。这与前面的结论一致,即不能忽略年龄变量。图5中通过原点的回归直线的斜率是b3(3的估计值),即 为 (模型三)024024--05---05--附录(例题中使用STATA命令和分析结果.use"E:\chip1988.dta",.gen.receage=exp+14if.receage=exp+16if.receage=exp+19if.receage=exp+20if.receage=exp+22if.receage=exp+24if.dropifreglogearneducpc(模型一Source Numberofobs F(2,4062) Model| 2 Prob> =Residual|827.4127114062 R- = AdjR-squared=Total|843.5815634064 Root =logearn Std. [95%Conf.+edu ..cpc .._cons .predictyresid,regageeducpc(模型二Source Numberofobs F(2,4062) Model| 2 Prob> =Residual|39652.44494062 R- = AdjR-squared=Total 40739.144064 Root =age Std. [95%Conf.+edu cpc _cons .predictx3resid,regyresidx3resid(模型三Source Numberofobs F(1,4063)=Model| 1 Prob> =Residual|756.1501914063 R- = AdjR-squared=Total|827.4127094064 Root yresid |-2.99e- - -
Std.
[95%
reglogearneducpcage(模型四Source Numberofobs F(3,4061)=Model Prob> =Residual|756.1501934061 R- = AdjR-squared=Total|843.5815634064 Root =logearn Std. [95%Conf.+edu .cpc .age ._cons .twoway(scatteryresidx3resid)(lfityresid(三 内生性问题与工具变量1、内生变量与对联立方程组模型(SimultaneousModel)而言,如模型(Keynesian ctYti Ytct Ytt的收入t为随机误差,其均值为0与况。在这里,我们的目标是估计与,并对这些参数进行统计分析。该模型包括两个变量,即ct与Yt。它们相互依赖:消费影响收入,同时收入影响消费内生变量(endogenousvariables)和外生变量(exogenousvariables)两大类。受模型内部因素影响的变量被称为内生变量,即ct与Yt被称为内生变量。所谓内生变量是具有某种概率分布的随量,它的参数是联立方程系统估计的元素。一般情况下,内生变量会与随机项相关,由此产生的问题称为内生性问题(有偏且不一致)在上述模型中,受模型外部因素影响的变量被称为外生变量。投资It)是该模型中唯一的)性问题(endogeneity),了OLS回归中自变量与误差项独立的假定,从而导致OLS例:P=a+bQ,表示价格与数量的关系。在此式中,a、b是总体参数,可算作外生变量;除此之外,譬如相关商品的价格、人们的收入等其他于模型有关的变量,也算作外生变量。而P、Q是模型要决定的变量,所以称为内生变量。先利用Hausman检验(HausmanSpecificationtest)寻求工具变量(InstrumentalVariables)或倾向值分析(PropensityScoreysis)等方法来2、内生性问题的检检验方法判断自变量x是否存在内生性问题。判断方法一:两步最小二乘估计(2SLS)或辅助变量回归法(Stata命令为ivreg)第1步:以x为因变量对所有其它的外生变量做回归(包括我们要引入的那些工具变来检验该残差对应的回归系数是不是显著的不为0(如果不为0,则说明x有内生性问判断方法二:HausmanHausman检验来判断这两种估计的结果是不是存在显著差异,即看p是否小于0.05。若若位于方程式右边的变量是外生的,则通过比较,两种估计方法(OLS回归与两步最小二乘估计2SLS)所得的估计应该都是一致的。即原假设为:2SLS回归所提供的估计值与OLS提供的估计值是相同的。若位于方程右边的变量是内生的,则两种估计方法中只有以证明内生性是个严重问题(canaskthedifferencebetweenthetwoestimatorsislargeenoughtosuggestthatendogeneityisasevereproblem)。①位于方程式右边的变量是估计内外 ①SeetoHausman,J.A.(1978).Specificationtestsineconometrics,Econometrics,46(6):1251-假设,即p<0.05。我们就可以依此下结论说:方程式右边的变量存在着内生性问题。Hausman检验,我们可以对一个多元回归模型进行回归:该模型的自变量是内.ivregrisei_c (outputomitted).hausman,***hausmanisaspecificationtest(storingestimationresultsas_HAUSMAN).regressrisei_ceduc_hiy(outputomitted).hausman,constant----Coefficients---||+educ_hiy.|...._consb=consistentunderHoandHa;obtainedfromB=inconsistentunderHa,efficientunderHo;obtainedfromregressTest:Ho:differenceincoefficientsnotsystematic Prob>chi2 致,不存在内生性问题。若p<0.05,则原假设,认为存在内生性问题。IV回归时,是从理论上确定内生性的存在,从而寻找工具变量并纳入回归方程。(1)检在Stata中令语句为.hausmanname-consistent[name-efficient]hausman语句表示检验,其中语句中name-consistent是指一致估计量变量名,计量的估计在下面中会详细介绍。options内容如下表所示:.regyx1.estimatesstore***这两个命令在对模型进行回归之后, .ivregress2slsyx1(x2=z1.estimatesstore此命令2SLS估计的的结果为估计的一致估计量.hausmaniv常用检验语句是hausmanivols,constantsigmamore.regrisei_c.estimatesstore.ivregress .estimatesstore.hausmanivols,constant表明模型以p=0的概率原假设,说明解释变量educ为内生解释变量。3、工具变量 Variables)是不一致的。为了改进估计量特性,因而采用工具变量Zt。Xt高度相关又与ut不相关,才可用Zt在估计模型参数时,称Zt为工具变量,称此种估计方法为工具变量法(IV法)忽略变量引起的偏倚问题,此外,IV还可以用来估计联立方程模型(simultaneousequationmodels)。若想用变量z作为自变量xIV,z需要同时满足如下要求:我们需要根据或是理论来判断假定Cov(z,u)=0能否成立。同时,可以检验假定条件Cov(z,x0xπ0+π1zv中的原假设H0π10,并称此回归方程称为第一步回归(first-stageregression)。对于一个简单的例子:yβ0β1xuzIVCov(z,y)=β1Cov(zx)Cov(z,,IVβ1进行的估计是:ˆzizyiy zzxx E(μ2|z)=ζ2=Var(μ)öö
Var1Var1n2TSSTSS2xx,seOLS的结果由于R2<1,IV估计中的标准误总是要比普通最小二乘估计中的标准误要大。x和z之间的相关越强,IV估计的标准误就越小。然而,在Cov(x,u)≠0成立的前提下,IV估计是一Corrzu)/Corr(z,x)<Corr(x,u,我们仍然希望使IVIV:plimöCorr(z,u) Corr(z,
Corr(x,u) 方法与思想也可以推广到多元回归及将来要学的各种回归模型中如果―对未来的期望‖(ambition)以及其工具变量都不存在,则IQ和母亲的教育水平,有着相关关系。然后进行如下的两步最小二乘(2StageLeast1步x对z^x01z^y01xu现以―生命史,1996(Urban’sLifeHistorySurvey1996)‖数据为假设我们希望用职业地位对和教育水平做回归分析,但是我们怀疑教育水平可能与对未来的期望相关,不过,我们对于―对未来的期望没有任何的直接测量或是工具变量。.use .keepif(3386observations.recoderisei_c-4/0=.(risei_c:959changesmade).recodeeduc_hiy-4/-1=.(educ_hiy:4changesmade). 1=1 :1552changes.recodemeduc_y-4/-1=.(meduc_y:19changesmade).keepifrisei_c!=.&educ_hiy~=.&meduc_y~=.(967observationsdeleted).sumrisei_ceduc_hiyVariable+Std.risei_c①该数据请学员至有 educ_hiy 0meduc_y 0| 01根据前面讲到的原因,若坚持使用 risei_c=β0+β1educ_hiy+β2male+.regrisei_cSource Numberofobs F(2,2117)=Model| 2 Prob> =Residual|410033.5612117 = AdjR-squared=Total|513918.4892119 Root =risei_c
Std.
[95%
+educ_hiy | _cons 差项无关的工具变量。那么,母亲的教育水平能否成为较好的IV呢?直观上说,我们需要对个人的教育程度这一变量进行纯化.ivregrisei_c Instrumentalvariables(2SLS)regressionSource Numberofobs F(2,2117) Model| 2 Prob> =Residual|411520.1192117 = AdjR-squared=Total|513918.4892119 Root =risei_c Std. [95%Conf.+educ_hiy | _cons
meduc_y.reg Source Numberofobs F(2,2117)=Model| 2 Prob> =Residual|22412.54552117 = AdjR-squared=0.0927Total|24725.04482119 Root =educ_hiy Std. [95%Conf.+| meduc_y _cons .predict(optionxbassumed;fitted.regrisei_cSource Numberofobs F(2,2117) Model| 2 Prob> =Residual 505228.132117 = AdjR-squared=Total|513918.4892119 Root =risei_cp1p1 |
Std.
[95%
_cons ^y01xu^u^根据我们的模型设定,正确的误差应当是u,但二步回归法的误差项却多了^u^ ^2 (y
12 122wn(y .regrisei_c Source Numberofobs F(3,2116)=Model| 3 Prob> =Residual|409888.5952116 = AdjR-squared=Total|513918.4892119 Root =risei_ceduc_hiyeduc_hiy | meduc_y ._cons
Std. [95%Conf.另一工具变量法案例:数据为“grilic.dta”(见课程操作数据.use"D:\教学篇\中财教学\备课\回归分析在社会科学中的应用\课件\第一讲_线性回归\线性回归Stata操作\第一讲b线性回归扩展篇\lecture1bendogenousproblem\grilic.dta",clear教育年限),kww(在“knowledgeoftheworldofwork”测试中的成绩),.reglw80s80expr80SourceNumberofobs+F( 754)Model|3Prob> Residual+Total754 AdjR-757 Root===lw80+t[95% expr80 tenure80 _cons .estimatesstore.ivregress2slslw80expr80tenure80(s80iq=medkwwmrt***此处,三个工具变量(medkwwmrtage)对两个变量(s80iq)Numberof=WaldNumberof=Wald=Prob>==Root=lw80 Std. [95%Conf.s80s80 .iq ..expr80 .tenure80 ._cons Instrumented:s80 expr80tenure80medkwwmrt.estimatesstore.hausmanivols,constantNote:therankofthedifferencedvariancematrix(2)doesnotequalthenumberofcoefficientsbeingtested(4);besurethisiswhatyouexpect,ortheremaybeproblemscomputingthetest.Examinetheoutputofyourestimatorsforanythingunexpectedandpossiblyconsiderscalingyourvariablessothatthecoefficientsareona----Coefficients--- +
s80 expr80|....tenure80| _cons b=consistentunderHoandHa;obtainedfromivregressB=inconsistentunderHa,efficientunderHo;obtainedfromTest:Ho:differenceincoefficientsnotsystematicchi2(2)=(b-B)'[(V_b-V_B)^(-1)](b-B) Prob>chi2 (V_b-V_Bisnotpositive明模型以p=0的概率原假设,说明解释变量s80及iq为内生解释变量。***解决内生性问题lw801s802expr803tenure80.use"D:\教学篇\中财教学\备课\回归分析在社会科学中的应用\课件\第一讲_线性回归\线性回归Stata操作\第一讲b线性回归扩展篇\lecture1bendogenousproblem\grilic.dta",clear.reglw80s80expr80SourceNumberofobs+F( 754)Model|3Prob> Residual|754 =+AdjR-=Total|757 Root=lw80 Std. [95%Conf.s80 s80 expr80 tenure80 _cons lw80=5.514+0.075s80+0.0202expr80+0.007tenure80(估计量均显著通过t检验当然iq作为能力的变量是存在误差的,可能与扰动项有关,即我们认为可能iq可能内生性处理方法中2SLS,GMM和迭代GMM方法,在Stata.ivregressestimatory[varlist1](varlist2=varlist_iv)[if][in][weight][,ivregress表示对模型进行内生性处理语句,其中estimator代指2sls或者gmm两种方法,varlist1表示模型不存在内生性的解释变量,varlist2=varlist_iv表示模型中存在内生性的变量和解释其的工具变量,if表示回归的条件,in表示回归的范围,weight表示回归中加入放入权重,options的内容如下表所示:(1)2SLS .ivregress2slsy[varlist1](varlist2=instlist)[if][in][weight][,2sls2sls方法,varlist1仍然表示不存在内生性的回归的条件,in表示回归的范围,weight表示回归中加入放入权重,options内容与前表中的选项是一致的(除了GMM项)。具体来说最常用的两个2SLS令语句.ivregress2slsyx1(x2=z1.ivregress2slsyx1(x2=z1z2),r对模型进行估计时在Stata命令窗口中输入如下命令可以得到估计结果:.ivregress2slslw80expr80tenure80(iqs80=medkwwmrtage),rFirst-stageNumberof 751) Prob> AdjR- Root |iq +
[95%Conf.expr80|- tenure80 .med .kww |..|Number|..|Numberof= =Prob>==AdjR-=Root=||Std.t[95%|- . .. |- . . +Instrumentalvariables(2SLS) Numberofobs Prob>chi2RootMSE
==== lw80 Std. [95%Conf.||... . .. . Instrumented:iq expr80tenure80medkwwmrt.ivregress2slslw80expr80tenure80(iqs80=medkwwmrt此命令表示使用2SLS法对模型进行估计,使用med,kww,mrt,ageiqs80的工具变量Numberof=WaldNumberof=Wald=Prob>==Root=lw80 Std. [95%Conf.iqiq ..s80 .expr80 .tenure80 ._cons Instrumented:iq expr80tenure80medkwwmrt在第二节段的结果中列示了instrumented(被使用工具变量解释的原解释变量)和tenure10%的置信度下未动方法计算时使用的残差序列是错的,所以此方法只能通过Stata来完成。GMM.ivregressgmmy[varlist1](varlist2=instlist)[if][in][weight][,gmmgmm方法,varlist1仍然表示不存在内生表示回归的条件,in表示回归的范围,weight表示回归中加入的权重,options内容与前.ivregressgmmlw80expr80tenure80(iqs80=medkwwmrtFirst-stageNumberof 751)Prob> AdjR- Root |iqStd.t[95%|| . . ..|- . Numberof= =Prob>==AdjR-=Root=||t[95%|- . .. |- . . +Instrumentalvariables(2SLS) Numberofobs Prob>chi2RootMSE
====
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息技术(信创版)(微课版)课件 徐丽 项目1-3 计算机基础 - 文字文稿软件的应用
- 2026年剧本杀运营公司正版剧本授权管理制度
- 2026年剧本杀运营公司突发事件法务应对管理制度
- 海南省东方市2025-2026年九年级上学期期末考试道德与法治试卷(含答案)
- 农村生活污水处理及回用项目2025年环境效益评估报告
- 2025年光子技术在通信行业创新应用报告
- 2025年生态养殖智能化技术应用与可行性研究报告
- 信访室上墙制度
- 企业薪资结算制度
- 中国周末双休制度
- 吉林省梅河口市五中2025-2026学年高二上学期期末语文试卷及答案
- 2026年共青团中央所属单位高校毕业生公开招聘66人备考题库及参考答案详解
- 2026年辽宁轨道交通职业学院单招综合素质笔试备考题库带答案解析
- 2026年6级英语模拟真题及答案
- 2025内蒙古鄂尔多斯市委政法委所属事业单位引进高层次人才3人考试题库含答案解析(夺冠)
- 2025年全国单独招生考试综合试卷(附答案) 完整版2025
- 2025-2026学年外研版八年级上册英语期末模拟考试题(含答案)
- 连锁超市总部部门岗位职责说明书
- 2024年包头轻工职业技术学院单招职业技能测试题库附答案解析
- 特许权使用费课件
- “五个带头”方面对照发言材料二
评论
0/150
提交评论