版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
伍德里奇《计量经济学导论》复习笔记和课后习题详解-含有定性信息的多元回归分析:二值变量第7章含有定性信息的多元回归分析:二值(或虚拟)变量7.1复习笔记考点一:带有虚拟自变量的回归★★★★★1.对定性信息的描述定性信息是指通常以二值信息(0-1)的形式出现的信息,如性别、是否结婚等。在计量经济学中,二值变量又称为虚拟变量。2.只有一个虚拟自变量(1)只有一个虚拟自变量的简单模型考虑决定小时工资的简单模型:wage=β0+δ0female+β1educ+u。根据多元回归的解释方式,δ0表示控制educ不变时,female变化1单位给wage带来的变化。假定零条件均值假定E(u|female,educ)=0成立,那么:δ0=E(wage|female=1,educ)-E(wage|female=0,educ),其中female=1表示女性,female=0表示男性。可以发现,在任意教育水平下,男性与女性的工资差异是固定的,女性工资比男性工资多δ0。除了β0之外,模型中只需要引入一个虚拟变量。因为female+male=1,所以引入两个虚拟变量会导致完全多重共线性,即虚拟变量陷阱。(2)当因变量为log(y)时,对虚拟解释变量系数的解释当变量中有一个或多个虚拟变量,且因变量以对数的形式存在时,虚拟变量的系数可以理解为百分比的变化。将虚拟变量的系数乘以100,表示的是在保持所有其他因素不变时y的百分数差异,精确的百分数差异为:100·[exp(∧β1)-1]。其中∧β1是一个虚拟变量的系数。3.使用多类别虚拟变量(1)在方程中包括虚拟变量的一般原则如果回归模型具有g组或g类不同截距,一种方法是在模型中包含g-1个虚拟变量和一个截距。基组的截距是模型的总截距,某一组的虚拟变量系数表示该组与基组在截距上的估计差异。如果在模型中引入g个虚拟变量和一个截距,将会导致虚拟变量陷阱。另一种方法是只包括g个虚拟变量,而没有总截距。这种方法存在两个实际的缺陷:①对于相对基组差别的检验变得更繁琐;②在模型不包含总截距时,回归软件通常都会改变R2的计算方法。具体而言,就是公式R2=1-SSR/SST中的总平方和SST,被一个没有将yi减去其均值的总平方和SST0取代,由此得到的R02=1-SSR/SST0称为未中心化的R2,从而有可能使得拟合优度指标失效。SST0的计算公式为:201SSTniiy==∑(2)通过虚拟变量来包含序数信息假设要估计城市信用等级对市政债券利率(MBR)的影响。城市信用等级是一个序数变量,范围是0~4,称这个变量为CR。可以对CR的每个值都定义一个虚拟变量。由于有5个类别,所以可包括4个虚拟变量,将零信用等级定为基组并省略。若CR=1,则CR1=1,否则CR1=0;若CR=2,则CR2=1,否则CR2=0,以此类推。因此,可以转化为估计模型:MBR=β0+δ1CR1+δ2CR2+δ3CR3+δ4CR4+其他因素。以δ1为例,系数的解释为:δ1为信用等级为1级的城市和信用等级为0级的城市之间在MBR上的差异(保持其他因素不变)。考点二:涉及虚拟变量的交互作用★★★★1.虚拟变量之间的交互作用具有定量意义的变量在回归模型中可以具有交互作用,类似的,虚拟变量也能产生交互作用。虚拟变量的交互作用就是在模型中引入虚拟变量的乘积形式。2.容许出现不同的斜率(1)不含交互项的模型在多元回归模型中存在任意几个组之间的截距不同的情况。在有些情况下,虚拟变量也可与非虚拟的解释变量有交互作用,从而出现不同的斜率。考虑模型:log(wage)=(β0+δ0female)+(β1+δ1female)educ+u。当female=0时,模型可以写成:log(wage)=β0+β1educ+u;当female=1时,模型变为:log(wage)=β0+δ0+(β1+δ1)educ+u。δ0度量的是男性和女性在截距上的差异,而δ1度量男性和女性在斜率(即受教育回报)上的差异。(2)含有交互项的模型考虑模型:log(wage)=β0+δ0female+β1educ+δ1female·educ+u。一个重要的假设是,男性和女性受教育的回报是相同的,这可以表述成H0:δ1=0。这意味着log(wage)对educ的斜率对男性和女性而言无差异。在这个虚拟假设之下,允许在不同教育水平下,男性和女性的工资存在差异,但性别工资差异在各种相同教育水平上必须相同。若对受教育程度相同的男性和女性的平均工资相同这个假设感兴趣,则δ0和δ1都必须同时为零。必须使用F检验来检验虚拟假设H0:δ0=0,δ1=0。3.检验不同组之间回归函数上的差别在含有k个解释变量和1个截距项的一般模型中,假设有两组g=1和g=2。对g=1和g=2将模型写成:y=βg,0+βg,1x1+βg,2x2+…+βg,kxk+u。检验这两组的截距和所有斜率都相同,就意味着产生了k+1个约束。可以认为无约束模型除了截距和变量本身外,还有一组虚拟变量和交互项,那么其自由度为n-2(k+1)。无约束模型的残差平方和可通过两个分离的回归得到,这两个不同回归分别对应着两个不同的组,令SSR1(SSR2)表示针对第一组(第二组)估计式所得到的残差平方和,它涉及n1(n2)个观测。而约束模型的残差平方和就是将两组混合在一起并估计同一个方程时所得到的SSRp。在此基础上,就可以计算F统计量:F={[SSRp-(SSR1+SSR2)]/(SSR1+SSR2)}·{[n-2(k-1)]/(k+1)}。其中,n为总观测次数。在计量经济学中,这也被称为邹至庄统计量。邹至庄检验的一个重要局限是原假设要求各组之间不存在任何差异。但在更多情况下,允许组间的截距不同,然后再来检验斜率的差别会更有意义。邹至庄检验的步骤包括:(1)分别对两组数据进行回归估计得到残差平方和SSR1和SSR2,两者之和即为无约束模型的残差平方和。(2)将两组数据混合进行估计得到残差平方和SSRp,这就是为受约束回归残差平方和。(3)构造F统计量,并与给定显著水平下F的临界值进行比较。若F值大于临界值,则拒绝原假设,即说明两个回归函数存在差异。考点三:二值因变量:线性概率模型★★★★1.线性概率模型考虑模型:y=β0+β1x1+β2x2+…+βkxk+u。在零条件均值假定MLR.4成立时,E(y|x)=β0+β1x1+β2x2+…+βkxk。当y是一个取值为0和1的二值变量时,P(y=1|x)=E(y|x)总是成立的。因此有:P(y=1|x)=β0+β1x1+β2x2+…+βkxk。这意味着成功的概率p(x)=P(y=1|x)是所有x变量的一个线性函数。方程P(y=1|x)=β0+β1x1+β2x2+…+βkxk是二值响应模型的一个例子,P(y=1|x)被称为响应概率。因为响应概率是所有参数β的线性函数,所以这类模型又被称为线性概率模型(LPM)。在LPM中,在保持其他因素不变时,βj度量因xj的变化导致成功概率的变化(j=1,2,…,k):?P(y=1|x)=βj?xj。2.线性概率预测以二值变量为因变量进行预测时,预测的概率可能不会落在0~1区间内。令∧yi表示拟合值,定义预测值iy在∧yi≥0.5时取值为1,并在∧yi<0.5时取值为0。现在,便得到一组预测值iy,这些预测值和yi一样,取值不是0便是1。利用yi和iy的数据,就可以得到正确预测yi=1和yi=0的频率以及全部正确预测的比例。若用百分比表示全部正确预测的比例,便是二值因变量拟合优度的一个广泛使用的指标。3.线性概率模型可能存在异方差性当y是二值变量时,以x为条件的方差为:Var(y|x)=p(x)[1-p(x)]。其中,p(x)=β0+β1x1+…+βkxk。这意味着,除非概率与任何一个自变量都不相关,否则,线性概率模型中就一定存在着异方差性。因此,由于y的二值特性,线性概率模型违背了一个高斯-马尔可夫假定。4.离散因变量的回归结果解释一般地,在假设MLR.1和MLR.4下:E(y|x1,x2,…,xk)=β0+β1x1+β2x2+…+βkxk。βj是指在其他条件不变时,xj的增加对y的期望值的影响。给定一组xj值,拟合值∧β0+∧β1x1+∧β2x2+…+∧βkxk就是E(y|x1,x2,…,xk)的一个估计。因此∧βj是当?xj=1时,对y的平均变动的估计(保持其他因素不变)。7.2课后习题详解一、习题1.利用SLEEP75中的数据(也可参见第3章习题3),我们得到如下估计方程:变量sleep是每周晚上睡眠的总分钟数,totwrk是每周花在工作上的总分钟数,educ和age则以年为单位,而male是一个性别虚拟变量。(i)所有其他因素不变,有没有男性比女性睡眠更多的证据?这个证据有多强?(ii)工作与睡眠之间有统计显著的取舍关系吗?所估计的取舍关系是什么样的?(iii)为了检验年龄在其他因素不变的情况下对睡眠没有影响这个原假设,你还需要另外做什么回归?答:(i)变量male的回归系数是87.75,根据估计结果可知,男性每周的睡眠时间要比女性每周的睡眠时间多近一个半小时。又因为tmale=87.75/34.33≈2.56其值接近于99%的置信水平下的双侧检验的临界值(大约为2.58),因此男性比女性睡眠更多的证据是相当强的。(ii)变量totwrk的t统计量的值为:ttotwrk=-0.163/0.018≈-9.06这是非常显著的。这个系数表明每周平均多工作一个小时(60分钟),对应的平均每周晚上睡眠将减少0.163×60≈9.8(分钟)。(iii)需要对不含变量age和age2的模型进行回归,以便得到Rr2,即受约束模型的R2。当模型中含有变量age和age2时,当且仅当两个变量age和age2前的系数均为0时,才表明年龄在其他因素不变的情况下对睡眠没有影响这个原假设成立。2.利用BWGHT中的数据,可估计出如下方程:和变量定义和例4.9中一样,但我们增加了两个虚拟变量:一个虚拟变量表明孩子是不是男孩,另一个虚拟变量则表明这个孩子是不是白人。(i)在第一个方程中,解释变量cigs的系数。具体而言,每天多抽10根烟对出生体重有何影响?(ii)在第一个方程中,保持其他因素不变,预计一个白人孩子的出生体重比一个非白人孩子重多少?这个差异是统计显著的吗?(iii)评价motheduc的估计影响和统计显著性。(iv)从这些给定信息中,为什么不能计算出检验motheduc和fatheduc联合显著性的F统计量?为了计算这个统计量,还需要做些什么?答:(i)如果变量cigs每增加10根,即每天多抽10根烟,则:即婴儿出生体重将减少大约4.4%。(ii)在第一个方程中,保持其他因素不变,预计一个白人孩子比一个非白人孩子的出生体重多5.5%。另外,twhite≈4.23,在一般常用的显著性水平下都是显著的。因此,一个白人孩子与一个非白人孩子的出生体重在统计上是有显著差异的。(iii)如果母亲的教育年限每增加1年,孩子的出生体重将增加0.3%,这个影响是很小的,其tmotheduc=1,因此母亲的受教育年限对孩子的出生体重的影响是不显著的。(iv)这两个回归模型用了不同的观测数据,因为对于第二个回归方程而言,一些观测数据中母亲的受教育年限或者是父亲的受教育年限的数据是缺失的。因此可以用估计第二个回归模型的数据重新估计第一个方程,以便得到新的拟合优度R2。3.利用GPA2中的数据,可估计出如下方程:变量sat是SAT的综合分数,hsize是以百人计的学生所在高中毕业年级的学生规模,female是一个性别虚拟变量,而black是一个种族虚拟变量(黑人取值1,其他人则取值0)。(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论