伍计量经济学导论笔记和课后习题详解_第1页
伍计量经济学导论笔记和课后习题详解_第2页
伍计量经济学导论笔记和课后习题详解_第3页
伍计量经济学导论笔记和课后习题详解_第4页
伍计量经济学导论笔记和课后习题详解_第5页
已阅读5页,还剩427页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

:伍德里奇《计量经济学导论》【精讲+经典考题串讲】讲义与课程【40小时】本书是伍德里奇《计量经济学导论》的配套e书,主要包括以下内容:整理名校笔记,浓缩内容精华。每章的复习笔记以伍德里奇所著的《计量经济学导论(4版为主, )提供各高校经济类专业考研考博辅导班【同门师兄师姐一对一辅导(网授、网授精讲班等】、多e书、多题库(免费,免费升级、资料(及答案、笔记讲义等、经济类国内外经典名师讲堂、考研等。本书特别适用于参加入学考试e书带给你超真的3D学习体验,720度立体场景,任意角度旋转,模拟纸质书真实翻页效果,让你品种齐全:包括全部资格考试、考研考博e书、经典ee书主要包括:资格e书、考研考博e书、经典e书,共2万余种,每天新上线约30种e书,每天约1万次。 23:00, 23:00) /( /(|经济类目第1章计量经济学的性质与经济数 第1篇横截面数据的回归分 第2章简单回归模 第3章多元回归分析:估 第4章多元回归分析:推 第5章多元回归分析:OLS的渐近 第6章多元回归分析:深入专 第7章含有定性信息的多元回归分析:二值(或虚拟)变 第8章异方差 第9章模型设定和数据问题的深入探 第2篇时间序列数据的回归分 第10章时间序列数据的基本回归分 第11章OLS用于时间序列数据的其他问 第12章时间序列回归中的序列相关和异方 第3篇高深专题讨 第13章跨时横截面的混合:简单面板数据方 第14章高深的面板数据方 第15章工具变量估计与两阶段最小二乘 第16章联立方程模 第17章限值因变量模型和样本选择纠 第18章时间序列高深专 第19章一个经验项目的实 1章计量经济学的性质与经济数据时被称为观测数据或回顾数据,以强调研究者只是的数据搜集者这一事实。横截面数据集,就是在给定时点对个人、家庭、企业、城市、州、国家或一系列其他单位的样本,假设你所在的大学要求你“找出每周学时数(study)和每周工作小时数(work)之间的关系”。把这个问题说成“推断study是否„导致‟workwork是否„导致‟study”的问题是否讲得通?请解释。答:(i)假定能够随机的分配学生们去不同规模的班级,也就是说,在不考虑学生诸如能力和家庭背景等特工作培训项目的理由之一是能提高工人的生产力。假设要求你评估的工作培训是否使工人更有生产你若发现trainingoutput职业培训外,其他条件与厂商B都是相同的,由此可以得出厂商A的产出与厂商B的产出的不同。(CPI利用第(iii)部分中的CPI值,求以2003年度量的平均小时工资。现在,平均小时工资看起来(iii)1976年的CPI56.92003CPI184(iv)将1976年转换成2003年,应该使用CPI的比率,即184/56.93.23。此以2003年度量的平均小时工资为:5.93.2319.6(。这是比较合理的工资水平。烟的事实。在怀孕期间不吸烟的女人作为“典型”妇女的度量指标将更有意义,此时吸烟的平均数量为0。附录A中的A.4)Lalonde

186变量re78是1978年得到的工资,以1982年的千度量。针对得到工作培训的样本和未得到工作培训的样本,分别计算re78的平均值。二者在经济上的差别大吗?答:(i)得到工作培训的比例为:185/44541.6%。针对得到工作培训的样本,re78的平均值为6350;针对未得到工作培训的样本,re78入比未接受工作培训的多40%。1篇横截面数据的回归分析第2章简单回归模型y01x Eu|xEu1xEu|x0,便得到:Ey|x01x。方程表明,总体回归函数(PRF)Ey|xx的一个线性函数,线性意味着x变化一个单位,y1xyEy|x1就是斜率参数。②给定零条件均值假定Eu|x0,把方程中的y看成两个部分是比较有用的。一部分是表Ey|x„yi01xi

Eu0和covx,uEx,uEy01x1n1nˆˆiyˆˆi

xni和

11nˆˆxyx1nˆˆn ni

1 11

xyyˆxˆx

i1i 1ixyyˆnxxx

i

i xxxxx xiyiyxixyi

inxx2in

ixxx2ii00yˆiˆˆx,第iy 1 uˆyiyˆiyiˆˆuˆ2y00 1 ˆxi

i

1一旦确定了OLS截距和斜率估计值,就能够建立OLS回归线: SRF假定从给定数据样本中得到截距和斜率的估计ˆˆ。给ˆˆ,能够获得每次观测的拟合yˆ。

与第iOLS残差uˆiyi与其拟合值之差。若uˆiyi;若uˆi为负,则回yi。第i次观测最理想的情况是uˆi0,但在大部分情形中,并非每个残差都等于零。换言之,实际上没有一个数据点必须在OLS线上。ni回归元和OLSnxiuˆ点x,y OLS回归线上

i(SST SSTyiiiiniSSRii度量了ui的样本变异。y的总变异总能表示成解释了的变异和未解释的变异SSR之和。因此,SSTSSER2SSE/SSTR2的值总介于0和1之间。改变度量单位对OLS当因变量的度量单位改变时,很容易计算出截距和斜率估计值的变化。若因变量乘以一个常数c(意味着样本中的每个数据都乘以cOLS截距和斜率的估计值都扩大为原来的c倍。logx11y特别地,若u0

%x1001logx01logy y01xSLR.2(随机抽样)„SLR.3(解释变量的样本有变异)给定解释变量的任何值,误差的期望值都为零,Eu|x0ˆ nnxixˆixxx2i

in 1dun in xi 利用假定SLR.1~SLR.4,对0和1的任何值,都 Eˆ,Eˆ 证明OLS 1 1E11E diui1 Ediui SSTxi1ndEu1nd0SST 1SST xi xiiiEˆEˆxEuEˆx Eˆ,这就意味Eˆ0

1给定解释变量的任何值,误差都具有相同的方差,Varu|x21 Varˆ 1 ixx iin Varˆ2n1 i 00ixxi

i1xi为条件,所以SSTxdixixui在i上(根据随机1 12 Varˆ Vardu d2Varu1 ii iSSTx i ii i 1 d2 SSTx

i

i 12 1 2 d22 SST

i

xi x yi01xiui,其中ui是第iyi用其拟合值和 1 0

1

uˆiyi01xi01xiuiˆˆ 1ii01iii01i

ˆ2

1ˆ2在假定SLR.1~SLR.5下,有

ninEˆ2

n1证明:如果把方程uˆiuiˆ00ˆ1xi对所有i进行平均,并利用OLS残差均值为零的1到0uˆˆx 1uˆiuiuˆ1xix1uˆ2uu2ˆ2xx22uuˆxx

nn2ˆ2n2ˆnuuunn2ˆ2n2ˆn

xx

uxx i i

i

i等式右边第一项的期望值是n12。第二项的期望值是2,第三项的期望是22,则 2 Euin12ni R1ˆ的标准误1 1/21ise 1ii yy1 yi1xii从而1

xiyi1xininnxinn1ini证明:在方程右边加上0Euy001xu令新的误差项为eu0Ee0。新的截距项为00,斜率不变为1。12345678 答:()GPA3.2125ACT25.875。 1根据2.19可得:ˆ5.8125/56.8750.102210根据2.17可知:ˆ3.21250.102225.8750.56810^2-i^12345678^ ACT20,则GPA0.56810.1022202.61ii

R21SSR/SST10.4377/1.0288

kids01educ答:(Ⅰ)收入、和家庭背景(如兄弟姐妹的数量)都可能包含在误差项中。它们可能是与受教育程度Eueduc0,经典假定被,因此简单回归分析不能解释教育对率在其他条件不变下的假设你对估计花在SAT备考课程上的小时数(hours)对SAT总分(sat)的影响感。hours的样本。将总体模型写作如下形式:sat01hours其中,与通常带截距的模型一样,我们可Eu0。列举出至少两个u中包含的因素。这些因素与在(Ⅱ)的方程中,如果备考课程有效,那么1的符号应该是什么在(Ⅱ)的方程中,0如果备考课程有效,1的符号应该为正,在其他因素相同的情况下,备考时间越多,satEU00表示备考时间为0时学生获得的平均sat总分

sav01incu,uince其中,e是一个 量,且有Ee0和Vare2,假设e独立于ince证明:若Eu|inc0,则满足零条件均值的关键假设(假定SLR.4。[提示:若e独立于incEu|incEee证明:若Varu|inc2incSLR.5sav的方差随着inc而增加。[提示:若e和inc独立,则Vare|incVare。]eⅠ inc的方差为Varu|incVarinceincinc2Vareincinc2e ˆˆwuwdSST和dixix ii

成 0(IV)利用(Ⅱ)和(Ⅲ)Varˆ2/n2x2/SST0x()()中的表达式能简化成方程(2.58)吗?[SST/nn1xn2x2。 (Ⅱ)因为covˆ,uEˆu 右边等于0。从(Ⅰ)可知 EˆuEnwunwEuuEuu0ih i1i i1 i i1 iEuuEu2n2n。因此nwEuunw2n2 i1 i 为:ˆ

0yˆxy01xu,ˆxuˆxuˆx 11 xVarˆVaruVarˆx22/n2/SSTx22/n2x2/ x根据SSTnn1nx2x2 Varˆ2SST/nx2/ 2n1nx2x2x2/SST2n1nx2/ i1 i1 利用KielandMcClain(1995)有关1988年马萨诸塞州安德沃市的数据,如下方程给出了房屋价格(price)和距离一个新修焚化炉的距离(dist)之间的关系:^logprice9.400.312logdist^n135,R2解释logdist的系数。它的符号是你所预期的吗price对dist在其他条件不变下弹性的无偏估计量吗?(考虑一个城市决定放弹性是0.312,即距离远1%,价格上升0.312%。如果城市决定将焚化炉放置在远离较贵的居民区的地方,则logdist 与房价是正相关的。这将违背8.(Ⅰ)ˆˆyx进行回归的截距和斜率(有n次观测)c和c为常数且c0;为c 12 1位变换后的x和y以及正确的斜率。(II)现在令01得自(c1yi)对(c2xi)的回归(对c1和c2不加任何限制ˆˆˆˆccˆ 2

令和ˆ为logyi对x回归的OLS估计值,其中须假定对所有i,都有y0。对c0,ˆ ˆ为logcyxˆˆˆlogcˆ 1 现在假定对所有i,都有x001yi对logc2xi回归的截距和斜率。11yi对logxi答:()c1yc1yc2xcxx,当为c1yi对c2xi进行回归时,可以通过方程2.19得到方程的斜率 c2xic2xc1yic1y c1c2xixyiy ˆ1i i cxcx c2xxin

i xixyiy 1=1i 1 xix iˆcyˆcxcyc/cˆcxcyˆxcˆ 1 1 使用与(Ⅰ)相同的方法,可得c1yc1yc2xc2x。因c1yic1yc1yic1yyiyc2xic2xxix。在(c1yi)对(c2xi)的回归中c和c被完全排除在斜率以外,以及ˆˆ ˆcyˆcxcyˆcxyˆxccˆˆccˆ 2 2因为logc1yilogc1logyi,令c1代替logc1yi代替logyi,且c20,然后采用与(Ⅱ)00 cons cns/ ^cons124.840.853incn100,R20.692以inc为横轴,画出估计的MPC和APC 与 (Ⅱ)将30000代入方程:预计消费 25465(2-在高斯-马尔可夫假定SLR.1~SLR.5y01xu。通常的OLS估计ˆˆ的估计量(2.6节。 有没有其他的情况使得1也是无偏的?n证明VarˆVarˆ。[提示:对任何数据样本,x2xx2,除非x0n nini不等。 nxy 212

ii xiyi01xiui代入可

i

i x xu 2x

1 i nii

xx2x i

1i

iinˆn

nx

xi

2n1 0i2n1

ii对于所有的i而言Eui0

i i

i i

nx2 0 ii

i i

0、x0

i

2 n 2 Var1xi Varxiuixi2xi2Varuii i i i 2 x22x22 i i i (III)2.57,Var 2/nxx2,对任何数据样本,nx2 VarˆVarˆ

i i

in(IV)对于给定的样本而言,当x增加,1的有偏程度增加。但是当x增加时,1的变化与Varˆ1是相关n

i

数据集BWGHT.RAW包含了妇育方面的数据。我们关心的两个变量是因变量[婴儿出生体重^当cigs0时,预计婴儿的出生体重为多少?当cigs20(每天一包)预测出生体重过119.77盎司。因为模型仅仅使用吸烟量来解释出生体重,因此仅有一个结果:即cigs0时的出生体重。cigs01.401K.RAW中的数据是帕普克(Papke,1995)401(k)养老金计划的参与率和该计划的程度之间的关系。变量prate是有资格参与该计划的员工中拥有活动账户的百分比,也是我们要解释的变量。程度指标是计划的匹配率mrate。这个变量给出了员工每向这个账户存1美元,公司为该员工匹配的平均数量。例如,若mrate0.50,则员工每投入1,公司就匹配50美分。 解释你的方程中的截距。解释 的系数prate的变异中,有多少是由mrate解释的?你认为,这是一个足够大的量吗?答:()87.63%,平均匹配率是0.732。^prate83.05n1534,R2截距表示即使mrate0,预测的参与率是83.05%。mrate的系数表明匹配率每增加1,则有资格参与该计划的员工中拥有活动账户的百分比(prate)5.86%prate的变动是可能的。如果prate已经达到98%,那么截距就是无意义的。^ 率不超过已担任公司CEO的年数。估计简单回归模型logsalary01ceotenu,用通常的形式报告你的结果。多担任一年CEO,^logsalary6.510.0097ceotenn177,R20.013^BiddleandHamermesh(1990)中的SLEEP75.RAW数据,研究在每周用于睡眠的时间和用于有酬sleep01totwrk答:()^sleep3586.4n706,R2(Ⅱ)当totwrk120,则sleep0.15112018.12(分钟。这并不是一个很大的效应。如果工作日的工作时间均增加一小时,睡眠总减少时间约为45分钟,平摊在每晚只有约6分钟。高15个单位时,工资的预期变化。IQ能够解释大多数工资变异吗?^wage116.99n935,R2有9.6%是由IQ解释的。^logwage5.890.0088IQn935,R20.099^^,其中logrd01logsales^n32,R2与每个学生的平均支出(expend)之间的关系。利用有人担心这个回归分析可能得到math10的拟合值会超过100。为什么在这个数据集中不必担心这个答:(Ⅰ)多花一对通过率的影响而言,这种影响越来越小更合适。在支出较小的学校,多花钱可以用(Ⅱ)math101logexpend1100%expend,如果%expend10,则math10110^^无影响的,因为10%的支出增加从绝对数量上看是很小的。gift01mailsyear1盾,那么慈善机构预期能够从寄出的每一封邮件中获得净^gift2.01n4268,R21.65盾,然而这只是从平均角度而言的,并不意味着慈善机构从每封邮件中都最小慈善捐款为2。因此gift等于0。3章y01x12x2在含有两个自变量的模型中,ux1x2如何相关的关键含有ky01x12x23x3kxk(intercept和一个截距项,所以方程包含了k1个(未知的)总体参数。把这种不同于截距的参数称为斜率参数。该假定表示不可观测的误差项中的所有因素都与解释变量无关。任何一个导致u与某个自变量相关的问题,形式上,被估计的OLS方程为: 1 2ˆˆ2ˆˆ2nˆynˆ

xxii

1 2i含有kyˆˆˆxˆxˆ 1 2 k00 ˆˆxˆxyi 1 kinyˆˆxˆxii

1 knxyˆˆxˆxi

1 knxyˆˆxˆxi

i

1 knxyˆˆxˆxi

1 k对OLS

1 2 1

yˆˆˆxˆxˆ 1 2 k

1 k 2 21 k 2 2x1x1yˆ yˆiˆˆxˆxˆ 1 2i k个观测的预测误差都没做说明。第i个观测的残差只时像在简单回归中那样,被定义为:uˆiyi每次观测都有一个残差。若uˆi0yˆiyiyi被预测得过低。若uˆi0yˆiyiyi②OLS拟合值和OLS③点x1,x2,,xk,y总位OLS回归线上yˆˆx1ˆx2ˆxk 考虑k2 1 211nn i 1i1i i 2其中,ˆxxxyˆxx i 2①样本x2y的偏效应为零2

0x1x2不相关,即10x2xk所有的OLSiiiii

SSTR2SSE/SST1SSR/ yiyyˆiR2ni

2

2yiy

ii i i③有关R2的一个重要事1,,kyx1,x2,,xk0LS估计值。R2R21SSRSST,而SSR现在是nyxx2R2实际上可能为负。这ii

1 k 00LS估计量将有0确实是零时,估计带截距项方程的代价是,OLS斜率估计基本假定与OLS假定MLR.1(线性于参数)y01x12x23x3kxk0,1,,k是未知参数(常数,而u则是无法观测的随机误差或随机干扰。模型的一个重要特点是,它是参数0,1,,k的线性函数。写出一次特定观测iyi01xi12xi2kxiky01x12x23x3kxkuyx1,x2,,xk的回归中得到的OLS估计量 假定MLR.3(不存在完全共线性能由0LS来估计。假定MLR.3允许自变量之间存在相关关系,只是不能完全相关。假定MLR.4(条件均值为零MLR.4x仍与uxj就被称为内生MLR.4则限制了u中无法观测因素与解释变量之间的关系,是一个关键假定。但无法确切地知道,无Eˆj j01,无偏性。包含无关变量对OLS估计量的方差具有不利影响。

11

EE+E+EBias1E+E+E1有10。由此可得:若样本中的x1x21就是无偏估计。Ex2x1Ex2,那1的无偏性无须以xi2为条件;于是在估计1时,只要调整x2放在x1x2相关时,1x1x2x1x2正相关,则10x1x2负相关,则10。 遗漏变量时1的偏误汇总在模型漏掉一个变量的背E111有向上的偏E11时1有向下的偏误。向零的偏误是指E1比1更接近零的情况。因此,若1为正,则1向下的偏误就是向零的偏误一个解释变量与误差之间存在相关性,一般会导致所有OLS估计量都产生偏误。y01x12x23x3yy01x12x1x2无关,则:nEi

x1 3nxx1i同方差性与OLS假定MLR.5(同方差性2„2kMLR.5意味着,以解释变量为条件,不管解释变量出现何种组合,误差项u的方差都是一样的。如果jVarjj其中,SSTxx

SSTj1R2 i 误差方差2越大意味着OLS估计量的方差就越大。方程中的“噪音”越多(2越大,使得估计任何一个自变量y的偏效应都 ,这将通过OLS斜率估计量的较大方差反映出来。由于2是总体的一个特征,所以它与并不违背假定 j自变量之间的线性关系,Rj„ k2的情形y01x11x1u Varˆ2SST1R2,其R2xx(含截距)进行简单回归所R2R2度量了拟合优 R2x总变异中可由方程中其他给定的2和SST Varˆ在R20时得到,当且仅当x与其他每个自变量的样本相关系数都等于零时,才会 ④还有一种更重要的情形是R2

接近”于1的情况。这会导致Varˆ

j很大的R2可能导致很大的Varˆj,很小的SSTj也能导致很大的Varˆj,因此,小样本容量也能导致很大的抽样方差。对样本中自变量间出现高度相关的担心,实际上无异于对小样本容量的担心:二者都会提高Varˆj 。jy01x12x2 Varˆ2/ x1x2不相关,可以得(1)201是有ˆ是无偏的,而且Var1Varˆ (2)201ˆ

是无偏的,而且Var1Varˆ120时,模型中应该包括x2的原因: 1 中的偏误不会随着样本容量的扩大而缩减;实际上,偏误不一定服从,偏误对任何样本容量 1随着x逐渐变大,Var1和Varˆ都逐渐缩小至零,这意味着,随着样本容量逐渐变大,因增加x所导致的多重共线性就会变得没有那么重要。在大样本情况下,将更偏好ˆ 1 比式Varˆ2SST中的方差 1 1 i ki2i nk

nknk1是含有n个观测和k个自变量的一般OLS在高斯-马尔可夫假定MLR.1~MLR.5E22加另一个自变量时,sdˆ/SST1R21/j

j j如果误差表现出异方差性,标准 就不是sdˆj的一个可靠估计量,从而使标准误无效nnjwiji„ 成立会导致OLS产生偏误,异方差性(假定MLR.5不成立)虽不致使OLS有偏,但它性无偏估计量中不^educ10.360.094sibs0.131meduc0.210n722,R2但其父母都接受了16年的教育。预计B和A所接受教育的年数差别为多少?测的受教育程度减少一年,需要增加sibs1/0.9410.6。此母亲受教育年数增加4年,儿子受教育年数增加约半年(0.524。因为兄弟姐妹的个数是相同的,但是meducfeducBA0.1310.21041.364(年^colgpa1.3920.0135hspercn4137,R2上前5%之列sat是在学生能力测验中数学和语言的综合成绩。当hsperc20sat1050时,大学GPA将hsperc20sat1050colgpa1.3920.013520 预计中A的成绩比B的成绩高出 当colgpa0.5sat0.50.00148338SAT2.5个标准差,才能预测colgpa相差0.50。logsalary01LSAT2GPA3loglibvol4logcost5rank书馆的藏书量,cost是进入法学院每年的费用,而rank是法学院的(rank1的法学院是最好的。^logsalary8.340.0047LSAT0.248GPA0.095loglibvol0.038logcost0.0033rankn136,R20.842^解释变量loglibvol的系数你是否认为,应该进入一个更高的法学院?从预计的起薪来看,相差20位的价值有多大?预计10,20,因为LSAT和GPA都衡量了待毕业班级的质量,好学生进入学院使得预计的平均工资更高。3,40,法学院 20位的价值为:1000.0033206.6%下面这个模型是BiddleandHamermesh(1990)所用多元回归模型的一个简化版本,原模型研究睡眠时sleep01totwrk2educ3age^sleep3638.250.148totwrk11.13educn706,R2间?它们与totwrk可能相关吗?少,此时20。睡眠与之间的关系比模型描述的更为复杂,不能很好的判断这件事情。受教育年限educ越多暗示着预计睡眠时间越少,但是这种影响是很小的。假设在其他条件不变的情况下,大学和高中的区别是四大学学生每周睡眠时间少休息45分钟。y01x12x23x3 答:(i)EˆEˆˆEˆEˆ。 11在一项大学GPA与在各种活动中折耗费时间之关系的研究中,你对几个学生分发了问卷。学生所以对每个学生来说,这四个活动的小时数之和都是168。GPA0从(i)studystudy168sleepworkleisure。这种关系对于每一个观测值都成立,因此违背了MLR.3。GPA01study2sleep3work一小时,leisure时间必须减少一小时。其他参数解释与此类似。力(avgabil)两个因素:avgprod01avgtrain2avgabil相关,那么,将avgprod对avgtrain进行简单回归所得到的可能出现什么样的偏误?答:利3-2。因20,且Corrx1,x20。因此1存在一个向下的偏误,即1:E1。简单回归估计低估了培训时间的影响。即使10E也可能是负的。并不影响OLS估计量的无偏性,仅影响估计量的方差。样本解释变量之间共线性的程度并不影响高斯-马尔科夫假定。只有当自变量之间完全共线时,才会违背MLR.3。)ˆyxˆyxxx xxxxxyˆ xxxxxˆ

x

x

x3se1和不同。由方程3.46以及对遗漏一个变量的讨论可知,系数不相同是的结论。xxxxx1ˆxxx se1x2x3大幅度增加了x1se1seˆ1seˆ更小。在模型中加入xx将会减少残差,而不导致多重共线性,因此可得seseˆ。 x3的相关关系并不影响seˆ1其中rˆ是x1对x2回归所得到的0LS残差。[提示:1的来自方程(3.22。将yi01xi12xi23xi3代入这个方程。经过一些计算之后,将xi3rˆi1视为非随机量而取期望。nn 答: 3.22可得:ˆ ninrˆi10+1xi12xi23xi3ui i i 因为rˆ0rˆx0rˆxrˆ2rˆxxrˆx

i i

r1i

i

i1i1

i i

rˆ2rˆxrˆ r1 r1i i i i i

i

iE

nni i下面这个方程把一个社区住房的中间价格表示成污染水平(用nox表示氧化亚氮)和社区中每套住房平均房间数量(rooms)之间的关系:为什么nox[或更准确地说,是lognox]rooms可能负相关?如果是这样,将logprice对lognox进行简单回归得到1的偏误估计量是偏高还是偏低?^logpricen506,R2^logprice9.230.718lognox0.306roomsn506,R20.514^则房屋价格下降1%。向下的偏误。当10,意味着在同样的回归中,平均污染水平的作用1被高估了。上述简单回归结果和多元回归结果之间的关系与预期一致。简单回归估计的结果-1.043小于多元回归样本,则-0.718更接近真实的1。)12( )

01xu,对某个gzgxgxlog1x2zgx定义一个斜率估计量 zzy/nzzx i

ii

iVar11在高斯-马尔可夫假定下,直接证明Varˆ1Var1,其中ˆOLS估计量。[提示:附录8中的1n2n2

n2nn2

nzz

n2xn2

ninnziz1i

ziz01xiui 0ziz1szxziz zizi i i i11n

11因为ziz0szxzixi和预计期望值的函数。对于所有的i,都Eui0。因此ini EzizEi s s Var zizui zizVarui ziz i i 2i (iii)已知Var1/xix,将x从样本协方差中去掉,消去 2 2i

2 2ziz/szx1/xixi两边乘以2,可得Varˆ1Var1

i growth01sharep2shareI2shareS1980年货币度量。sharepsharep1%growth1%。卫生(和其他人)所关心的一个问题是,孕妇在怀孕期间抽烟对婴儿健康的影响。对婴儿健康的度bwght01cigs2faminc现在利用BWGHT.RAWfaminc的方程。以方程的形式报告结论,包括样本容量和R2。讨论你的结论,主要看增加faminc是否会显著改变cigs对bwght的估计影响.n1.388,R2及bwght116.970.463cigs0.93famincn1388,R20.030price01sqrft2bdrms样本中第一套住房的实际是300000(price300。求出这套住房的残差。它是否表明price19.320.128sqrftn88,R2其价格会提高price15.20bdrms15.2,即15200 实际为300000,预计价格为353544,残差为实际观察值与回归估计值的差,即-53544。者为这套住房支付了过低的价格。当然,还存在一些其他的因素影响房屋的价格,模型并未将在第(ii)部分的模型中增加ceoten。保持其他条件不变,延长一年CE0,估计的百分比回报是

logsalary4.620.162logsales0.107mktvaln177,R2logsalsry4.690.161logsales0.0981logmktval0.000036n177,R2加入变量ceoten后的模型logsalary4.560.162logsales0.102logmktval0.000029profits0.012ceotenn177,R20.318变量logmktvalprofits0.78OLS估计量的无偏性估计模型atndrte01pricGPA2ACTu,并以方程的形式写出结论。对截距做出解释。它是否存priGPA3.65ACT20atndrte是多少?你对这个结论做何解释?样本中有没有一些学3-n680,R20.291预计atndrte75.7017.2673.651.7220104.3100%。当用回归方法对因变量的上界和下界进行预测时可能出现这样的情况,实际上样本中学生的真实出勤率为87.5%。(v)AB在出勤率上的预期差异是:17.263.12.12126=25.86要求将educ对exper和tenure进行回归,并保留残差 然后将logwage对 的系数与在logwage对educ、exper和tenure的回归中educ的系数相比较。educ对exper和tenure进行回归的模型为:n526,R20.101保留残差r1然后将logwage对r1logwage1.62n526,R2在第二个回归模型中,系数r1与3.19中educ的系数相等。以上回归的判定系数小于3.19的R2logwager1的回归解释了educ中与exper和tenure无关的部分。exper和tenure1IQ对educ进行简单回归,并得到斜率系数ˆ1 1111112(iv)ˆˆ10.03912+3.533830.005860.05983,这与ˆ0.05984 记住log10。]求出lexpendlogexpend与lnchprg之间的相关系数。你认答:(i)math1020.366.23logexpendn408,R2截距是指其他解释变量为0时,被解释变量的估计值。当贫困率很低的时候,设定lnchprg0是有意义的。设定logexpend为0是无意义的,因为这意味着expend为1,而且支出是以

math1069.3411.16logexpendn408,R2logexpend与lnchprg之间的相关系数为-0.19,这意味着,在平均水平上,较穷的高中在每个学生身上的支出更少。这是有意义的,尤其是在1993年的密歇根,学校基金是由当地的收入决定的。22

11 psoda01prpblck e解释prpblck的系数。你认为它在经济上算大吗?logpsoda01prpblck e 求出log e和prppov的相关系数。大致符合你的预期吗评价如下说法:“由于log e和prppov如此高度相关,所以它们不该进入同一个回归。 psoda0.9560.115prpblck n401,R20.064 logpsoda0.7940.122prpblck0.077log n401,R20.068 e和prppov的相关系数为-0.84 gift01mailsyear2giftlast3propresp现在,在这个方程中增加变量avggif。这将对mailsyearn4268,R20.0834n4268,R20.20054章总体误差u独立于解释变x,x„x,而且服从均值为零和方差为2的正态分布:u~Normal0,2

MLR.1~MLR.6这六个假定被称为经典线性模型假定。将这六个假定下的模型称为经典线性模型(CLM。„ 估计量是最小方差无偏估计,即在所有的无偏估计中,0LS具有最小的方差。总结CLM总体假定的一种简洁方法是:y|x~Normal01x12x2„kxk,2u中的众多因素可能各有极为不同的总体分布,但中心极限定理(CLT)在这些情形下仍成立,这种更严重的问题是,它假定所有不可观测因素都以独立而又可加的方式影响着Y。如果u是不可观测因素的一个复杂函数,那么CLT论证并不真正适用。误差项的正态性导致OLS估计量的正态抽样分布定理4.1:正态抽样分布j 因此ˆsdˆ~Normal0,

j

yo1x1kxk假定它满足CLM假定,0LSj4.2:标准化估计量的ttCLMMLK.1~MLK.6下,ˆjjsdˆj~tnk1,其中,k1是总体模型y01x1kxk式中的t分布源于seˆ中的常数已经被 量ˆ所取代,而且可得nk1ˆ2/2~ j

H0:jnk显著性水平:即当H0实施上正确时它的概率。在%的显著性水平上“足够大”的定义是,在含有nk个自由度的t分布中,处在百分位中第100在tc,H0在%的显著性水平上被并支持H1。 临界值等于tdf。随着显著性水平下降,临界值会提高,以致 H0就需要越来越大的

H0:jH1:jH0:j0tˆ

,就说“xj在显著性水平为5%时是统计上不显著的”。H0:jj。相应的t tˆa/se t估计值 若tc,虚拟假设而支持对立假设,表示在适当的显著性水平上, 计算tpp值的解释:在虚拟假设正确时,所观察到的t统计量至少和所得到的t统计量一样大的概率。这意味着,小p值是 虚拟假设的,而大p值不能提供H0的。00 H0:j0时的ttˆjseˆj。之所以t能标志统计显著性,要么是因为ˆj“很大”,要么是因为seˆj很小”。在实践中,区分导致t统计量统计显著的原因很重③在处理大样本时,除了看t统计量外,对系数的大小加以解释也特别重要。对于大样本容量,参数可以估大到0.20。CI ˆcseˆˆc

H0:12;H1:1

H0:120;H1:121t 1

se12变量对y没有任何影响。对多重约束进行的检验被称为多重假设检验或联合假设检验。y01x1kxk假设有q个排除性约束要检验:即虚拟假设表示,有q个变量的系数为零。假定这q个变量是自变量中的最qXkq1,Xk。y01X1kqXkqFSSRrSSRur/SSRur/nk所以F统计量总是非负的(而且几乎总是严格为正。q分子自由度dfkdfuk,表明q是受约束模型与不受约束模型的自由度之差。(df=观测次数-被估计参数的个数。)由于受约束模型参数较少,而每个模型都使用同样的n次观测,所以dfk总是大于dfuk。nk1分母自由度dfF的分母恰好就是不受约束模型中2VaruFk 如果Fc,就在所选定的显著性水平上H0而支持H1。如果H0,就说,x „,x在适当的显著性k F统计量和t①因为①因为nk

②由于t统计量可用来检验单侧对立假设,所以它对于检验单个参数假设就更灵活。还因为tF统计量更容易获得,所以实在没有理由使用F统计量对单个参数假设进行检验。两(或多)个各自具有不显著t统计量的变量,合起来可能十分显著。还有一种可能,在一组解释变量中,一个变量具有显著的tF统计量用于一组系数是否异于零,但它绝不是判断单个系数是否异于零的最佳检验。t检验最适合检验单个假设。R2F F R2R2/ 1R2/nk

R2R2/ 1R2/

值或一两个临界值,对虚拟假设之的强弱很难有直观感觉。在F检验的背景下,p值被定义pPfFH0x2„x都无助于解释H0:12„k在式中有k

y0FR2/1R2/nk R2yx,xx 为复杂,仍可以直接使用F统计量进行检验。所估计的OLS考虑一个用企业年销售额、股本回报率(roe,以百分数表示)和企业的回报(ros,以百分数表示)来解释CE0薪水的如下方程:logsalaryo1logsales2roe3rossalesroe后,rosCE0的薪水没有影响。再给出对立假设的参数表述:市场更好的业绩会提高CE0的薪水。^logsalary4.320.280logsales0.0174roe^0.32 n209,R2你最后会在一个用企业业绩表示CEO的模型中包括ros吗?给出你的解释。答:(i)H0:30H1:30。如果ros提高50个百分点,预计salary会提高 0.01212%。ros对salary不具有实际上0.44,小于临界值,因此在10%的显著水平上不能虚拟假设,即ros对salary没有影响了假定MLR.3。4.7中,我们利用非工会制造企业的数据估计了废品率与其他企业特征之间的关系。我们现在来更logscrapo1hrsemp2logsales3logemploy^logscrap11.730.042hrsemp0.951logsales0.992logemploy^4.57 ^logscrap11.740.042hrsemp0.951logsales/employ0.041logemploy^ 临界值为-1.684t统计量小于临界值,左侧检验下系数显著地小于零。如果在方程的右边加上2logsales,可2logemploy3logemploy企业越大,其废品率在统计上的显著性不一定越大。logemploy系数的t0.2(iv(ii)而comten则是其在这个公司任职的总年数。解释ceoten和comten定的情况下,边际利润对CEO的薪水无影响。据表中(3)可知,logmktval的t统计量为2.05,在5%的显著性水平上的临界值为1.96,因此情况下,就任公司CEO的年份增加一年,薪水增长1.71%。在公司任职(非CEO)增加一年,薪水减少0.92%。第二个结论看起来令人惊讶,但它正是反映了“”效应:企业从公司外部聘用CEO都倾向于一小群被高度评价的候选人,因此这些人的工资被哄抬起来,而非CEO职员的聘用不大可能像CEO一样。4.5price和assess的一个price01assess1100^price14.4716.27为了检验联合假设0011,我们需要约束模型的SSR。这就要求在n88nn

price01assess2lotsize3sqrft4bdrmsuH0:203040。利用同样88个住房数据估计这个模型的R20.829。0.89,因此不能虚拟假设。H0:11的t统计量为0.9761/0.0490.49,同样是统计不显著的,因此无(ii)因为SSRr209448.99SSRur165644.51FF209448.99165644.5186 F0.8290.82831 在10%的显著性水平上,临界值为2.15,因此不能原假设。此时p值为0.23MLR.5FFF统计量与临界值相比较,或从F分布得到p值都是没有意义的。回归分析还可以用来检验市场是否在评价时有效地使用了市场信息。为简单起见,令return为持有1990年知道的信息存在系统相关性。如果在期初知道的企业特征有助于预测回报,那我们在选择时就则表示CE0的总。^ n142,R2^^ 答:(i)n142k4F统计量为:F0.03951371 拟假设,即解释变量在5%的显著性水平上联合不显著。(ii)F统计量为:F 1 (iii)log不能定义dkh或eps为零的企业,因此采用log形式,将可能在回归中丢失部分企业的数据是不显著的。的变异中,只有3.3%的部分能被解释变量解释。^0.33 n141,R2 相对于双侧对立假设,你能在5%的显著性水平上 假设H0:hsGPA1吗?答:(i)hsGPA在置信水平为95%时的置信区间为:^ n706,R2从方程中去掉educ和age^sleep3586.38 n706,R2量为:11.13/5.881.89,因此无法虚拟假设educ0。同样,age的t统计量为1.52,小于临界值,因此F0.1130.1037021 5%的显著水平上,临3,小于F统计educ和age在原方程中是联合显著的。实际上p值为0.019,因此变量在2%的显著性水平上联合显著。tF检验成立的假设之一是同方差性。如果方程存在异方差性,那么第(i)和(ii)部分的检logrento1logpop2logavginc3pctstu^logrent0.0430.066logpop0.507logavginc0.0056^0.844 n64,R21%的显著性水平上检验第(i)部分陈述的假设。房的需求增加,推高了房地产的成本,包含率。因此1和2都是正的。logpop的系数表示的是弹性,正确的说法应该是:总人口增加 将提高0.66%绝虚拟假设,3统计显著地不等于0。y01X12X23X3ˆˆOLSˆˆ的方差及其协方差求出Varˆ3ˆˆ3ˆ

H0:1321的t定义3和ˆˆ3ˆ,的回归方程,使你能直接得到ˆ 答:(i)Varˆ3ˆVarˆ9Varˆ6Covˆ,ˆ 2 2 eˆ3ˆ y0132X12X23X301X13X1X223X3,的回归方程,ˆX 变量rdintens是研发支出(R&D)占销售额的百分比。销售额以百万度量。变量profmarg是利润占 ^^^设。但是在10%的显著性水平上,临界值为1.311,小于t统计量,虚拟假设,即R&D的强度随着销售额的创新能力的需要,研发支出都会越高,因此profmarg的系数是正的,符合一般规律。voteA01logexpendA2logexpendB3prtystrA如何解1voteA1logexpendA=1/100100logexpendA1/不变。因此虚拟假设可写为:H0:210。^^3.93 logexpendA的系数是非常显著的,因为其t统计量为15.92,logexpendB的系数也是显著的。估计方程表 假设logexpendA的系数与logexpendB的系数大小相等,符号相反,那么将不存在seˆˆ,但在假设检^^ 使用与第3章习题4一样的模型,表述并检验虚拟假设:在其他条件不变的情况下,法学院对起(注意解释clsizefaculty的缺失数据。答:(i)logsalary01LSAT2GPA3loglibvol4logcost5rank^logsalary8.340.0047LSAT0.248GPA0.095loglibvol^0.53 0.038logcostn

R2

p值为0.39和GPA是学生质量的好的控制因素。和种族的差异也是影响薪水的因素。然而,并不确定这些因素与logprice01sqrft2bdrms小数形式表示就是115012。使用HPRICE1.RAW中的数据去估计1。^答:(i)^logprice11.670.000379sqrft n288,R211logprice01sqrft11501bdrms01sqrft150bdrms1bdrms (iii(ii中的模型进行回归,可得seˆ0.0268,且已知ˆ0.0858,则95%的置信区间为0.03260.1390 据得出的R2(0.0348)时,可以得到F统计量:F0.03870.0348/10.03871185/2是例4.9中使用的1.42,p值为0.242,此时虚拟假设。在第(ii)部分的模型中,检验bavgfldpercsbasesyr的联合显著性。答:(i)rbisyr,则估计模型变为:^logsalary11.020.0677years^0.27 n353,R2^logsalary10.410.0700years 0.00053bavg 0.0174runsyr0.0010fldperc n353,R2runsyr是统计显著的,t0.01740.00513.41,表明在其他因素固定的情况下,垒得分增加一年,预期薪水将大幅度增长1.74%。每年盗垒数的t值是负的,而防备率的t值仅为0.5。职业棒球大的成员们大多数是优秀的守场员,实际上,最小的每年防备率是800。防备率相对较小的变异,使得它的影响难以估计。p值为0.56,因此,变量是联合不表述虚拟假设:多一年工作经历与在现在的岗位上多工作一年对 具有相同影响(ii)令223logwage01educ2exper3expertenure0.0112内,因此不能原假设,即在5%的显著性水平上,不能23。高10个百分位点,能导致工资增加多少?数据集包含了一个被称为id的变量。你若在方程(4.17)或(4.26)id,预计它在统计上不会显著,解释为什么?双侧检验的p值是多少?^^ n6.763,Rphsrank的t统计量为1.25,小于临界值,是统计不显著的。如果 提高10个百分位点,logwage预期将增加0.003,这意味着薪水将会增长0.3%。在方程中增加变量phsrank使得jc的t1.33,但是其系数等于方程4.26phsrank24年制大学教育回报的结论。大专学校的回报被估变量id只是工人的号码,是被随机排列的。因此,在回归方程中,id与任何其他变量都是不相关的。因此若在方程中增加id,它在统计上不会显著。实际上,其p值约等于0.54。数据集401KSUBS.RAW包含了净金融(nettfa、被者(age、家庭年收入(inc、家庭规模(fsize)方面的信息,以及参与个人的特定计划方面的信息。和收入变量都以千为单位记录。对于这里的问题,只使用单身者数据(fsize1nettfa01inc2age H0吗^nettfa43.040.799inc n2017,R2下,增长一岁,则净金融增加843。斜率估计值符合常理。logpsoda01prpblck2 e3prppov11 在第(iii)部分的回归中,log e和prppov的个别统计显著性有何变化?这些变量联合显著吗(计算一个p值。)你如何解释你的答案logpsoda1.460.073prpblck0.137 e0.3800.29 0.027 双侧检验的p值为0.018,在5%的置信水平上虚拟假设,但在1%的水平上无法虚拟假设log 计显著的,ˆlog e的t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论