




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三讲假设检验一、经典线性模型假定对于模型 yi = b0 + b1xi +ei ,利用 OLS 有:b1 = b1+ å(xi - x)eiå(xi - x)2在高斯-马尔科夫假定下,OLS 估计量的抽样分布完全取决于误差项的分布。在高斯-马尔科夫假定中,我们要求误差项是序列无关与同方差的,现在,我们施加更强的假定,即误差项服从正态分布,即ei :N (0,d 2)。应该注意到,当误差项服从正态分布时, 序列无关与独立性是等价的。因此,我们可以把上述分布假设写为: i.i.d 2ei : N (0,d ) ,即误差项服从独立同正态分布。为什么要施加更强的假定呢?这是为了进
2、行小样本下的假设检验。ei : N (0,d 2) 与高斯-马尔科夫假定一起,被称为经典线性模型假定。在经典线性模型假定下,可以证明,OLS 估计量是方差最小的无偏估计量(注意!此时不需要把比较范围限制在线性估计量之中)。笔记:1、假设误差项服从正态分布的合理性在于,误差项是由很多因素构成的,当这些因素是独立同分布时,依照中心极限定理,那么这些因素之和应该近似服从正态分布。当然,这并不意味着用正态分布来近似误差项的分布总是恰当的,例如,各因素或许并不同分布。另外,如果 y 是价格这样的变量,那么假设误差项服从正态分布是不合理的,因为价格不可能是负数,不过我们可以进行变量变换,例如对价格取自然对
3、数或者考察价格的变化率,那么经过变量变换之后,或许再假设误差项服从正态分布就变得合理了。2、如果能够对误差项是否服从正态分布进行检验,那最好不过了。一种常用的检验方法是 Jarqe-Bera 检验,这可以参见相关的教科书。问题是,尽管我们能观察到解释变量、被解释变量的取值,然而,由于对参数的真实取值无法确定,因此误差是观测不到的,我们或许不得不利用残差来代替误差以进行相关的检验。当然,一个前提是残差确实是对误差的良好近似,这进而要求,我们对参数的估计是合理的。3、根据公式:b = b+ å(xi - x)ei = b+ 1 · å(xi - x)ei11å
4、;(xi - x)211 å(x- x)2NN i考虑 x 非随机这种简单情况,显然,当样本容量很大时,只要误差项是独立同分布的(并不1需要要假定误差项服从正态分布),那么根据中心极限定理, b应该近似服从正态分布。当然,为了保证误差项的独立性,抽样的随机性十分关键。二、利用标准正态分布作假设检验假定 yi = b0 + b1xi +ei 是真实模型,当然我们并不知道各参数的真实值是多少。但某一经济经济理论预言 b1 = w 。如果你手中掌握一样本,一个问题是,你所掌握的样本支持这个预言吗?在 经 典 线 性 模 型 假 定 下 ,b N (b ,d 2 )或 者111bb,12d
5、2(b - b ) / sd(b) N (0,1), 其 中d= å- x)111(xi 2d 2b11sd(b ) =。0练习:确定 b的分布。现在,假设经济理论的预言是正确的,那么针对特定的样本你将得到标准正态分布图横坐标上的一个点: (b -w)/ sd(b ) 。11现在来考察标准正态分布。在该分布上,存在对称的两点: z0.025 与-z0.025 ,其中:Pr(Z³ z0.025 ) = Pr(Z£ -z0.025 ) = 0.025如果把概率为 5%的事件称为小概率事件,那么,当(b -w)/ sd(b ) 的取值大于11z0.025 或者小于-z0
6、.025 时,我们认为小概率事件发生了!小概率事件一般是不容易发生定义z =(b - b ) / sd(b ),则 z 就是所谓的 z 统计量。估计量是111用来估计真实参数的,而统计量是用来做统计推断(或者假设检验)的;统计量是随机的,其分布也被称为抽样分布,针对特定样本,我们得到统计量值,它是非随机的。1在这里,该式是非随机的,而特别应该注意的是,分子中的b 是估1计值,而分母中的b是估计量。估计值的标准差是零!。的,现在居然发生了,因此,我们应该怀疑上述经济理论所作出的预言。笔记:1另外一种直觉性的解释:当 b1 = w 这个假设为真时,粗略看来,即使估计值 b 与1完全相等不太可能,但
7、估计值 b应该接近于。然而我们也要注意到,对 b1的估1计还存在精确性问题,这通过 b统计量的标准差体现出来。也就是说,在原假设为真时,即使估计值 b 与有一定的差异,然而如果 sd(b )较大,那么出现 b与的较大111差异也许是正常的。不过总的来看,当原假设为真时,z 统计量值是应该接近于 0 的,这要么是因为 z =(b -w)/ sd(b ) 中的分子确实接近于 0,要么是因为尽管 b 与1111有一定的差异,但主要是由 sd(b )较大所引起的。当 z 统计量值与 0 具有较大差异时,那么 b1 = w 这个假设的真实性是值得怀疑的!假设检验的正式步骤是:(1)建立原假设与备择假设:
8、笔记:H 0 : b1 = wH1 : b1 ¹ w原假设与备择假设互斥;假设体系应该是完备的,即原假设与备择假设两者之一必为真,但两者不能同时为真。(2)确定小概率标准 a。经常我们把 1%、5%或者 10%作为小概率标准。对 a 更加正式的称呼是“显著水平”。(3)考察统计量值(b -w)/ sd(b ) 是否落在拒绝域:11(-¥, -za /2 Èza /2 , +¥) 之内。如果落在上述区间之内,那么在 a 显著水平上,我们拒绝原假设,接受备择假设;反之,我们不拒绝原假设,拒绝备择假设。笔记:1、为什么当统计量值落在拒绝域(-¥, -
9、za /2 Èza / 2 , +¥) 之外时我们说“不拒绝原假设”而不是说“接受原假设”?其解释是:我们可以作出很多的原假设,例如b1 = w1或者 b1 = w2 而我们所计算 出来的一 些统计量 值恰好都 落在 (-¥, -za /2 Èza / 2 , +¥)之外 ,难道我 们既接受 b1 = w1也接 受b1 = w2 ?显然更恰当的表达方式是,即不拒绝 b1 = w1 也不拒绝 b1 = w2 。2、“接受原假设”没有留有余地,而“不拒绝原假设”表明我们的结论是留有余地的,即,在另外的原假设下也可能不拒绝 b1 = w2 。“接受备
10、择假设”留有余地吗?应该注意到,备择假设是 H1 : b1 ¹ w ,因此,即使说“接受备择假设”,这也是留有余地的。3、设定 1%、5%或者 10%为显著水平显得有点随意,为何不设 2%、6%、7%等为显著水平呢?是否可以依据一个更一般的标准来进行假设检验?答案是肯定的,我们可以依据一个更一 般 的 标 准 来 进 行 假 设 检 验 ! 既 然 我 们 已 经 计 算 出 统 计 量 值z =(b -w)/ sd (b ),如果 z 为正,那么根据正态分布表,我们就能够确定11Pr(Z³ z È Z£ -z)的值(如果 z 值为负,那么我们能够确定
11、Pr(Z³ -z È Z£ z) 的值),我们通常把这个概率值称为伴随概率,简写为 P 或者Prob.这个概率值很有用处!例如,假定 P 值是 0.062,那么,显然,以任何小于 6.2%的概率为小概率标准,我们并不拒绝原假设;以任何大于 6.2%的概率为小概率标准,我们拒绝原假设。4、一个总结:在进行双尾检验时,当 P 小于给定的显著水平时,那么在给定的显著水平下应该拒绝原假设;反之,则不拒绝原假设。上述检验都属于双尾检验,即(-¥, -za /2 Èza /2 , +¥) 是拒绝域。如果假设体系是:H0 : b1 = wH1 :
12、b1 > w那么在显著水平 a 下,拒绝域应该是za , +¥),我们进行的是单侧(尾)检验。为了理解单侧检验,我们回答如下两个问题:问题一:为什么拒绝域是za , +¥)?答案:当原假设为真时,那么 Z =(b -w)/ sd (b ) 应该在 0 左右不远处;当备111择假设为真时, b在真实参数 b1 左右不远处。因此,只要真实参数远大于,则Z =(b -w)/ sd (b ) 远大于 0 是非常可能的,而在这种情况下 Z 远小于 0 则不11太可能的。因此,我们把拒绝域设定为za , +¥)。当实际计算出的 Z 值落在该区间内时,我们拒绝原假设,接受
13、被择假设。问题二:为什么-¥, -za /2 ) 并不是拒绝域?答案:如果实际计算出的 Z 值落在该区间内时我们拒绝了原假设,那么我们更应该拒绝被择假设。因为当备择为真时,实际计算出的 Z 值落在该区间内的概率更小。基于假设体系的完备性,故我们不把-¥, -za /2 ) 设定为拒绝域。问题三:为何要设置这样的假设体系?答案:这依赖于先验的理论与判断。例如,假定 b1 是某正常商品的消费收入弹性,那么 b1不可能为负。我们可以通过建立如下的假设体系:H0 : b1 = 0H1 : b1 > 0并基于样本来判断 b1 = 0 是否为真。思考题:在假设体系:H0 : b1
14、 = wH1 : b1 ¹ w下,计量软件包计算出为正的统计量值 z,而且 P 值为 0.120【注:计量软件包默认的 P 值是双尾的概率,当 z 为正时,它计算的是Pr(Z³ z È Z£ -z) 】。问:在假设体系H 0 : b1 = wH1 : b1 > w下,以 10%为显著水平,我们是否拒绝原假设?三、t 检验虽然在经典线性模型假定下:(b - b ) / sd(b ) N (0,1)然而,在11d 2b1d 2å(xi - x)21sd(b ) =1之中,d 2经常是未知的,需要我们估 计 。 在 第 二 讲 时 , 我 们
15、已 知 道 , 在 高 斯 马 尔 可 夫 假 定 下 ,d2= RSS =åe2是 对 d 2的 一 个 无 偏 估 计 。 我 们 记iN - k -1N - k -1d2 / å(xi - x)21se(b ) =,(注:the standard error,se;the standard deviation,sd)。可以证明, (b - b1)/ se(b ) 服从 t(N-2)分布。11证明:在经典线性模型假定下有:11111(b - b ) / sd (b ) = (b - b ) /üd 2å(xi - x)2Þ N (0,1)&
16、#239;ýåd 2 (x - x )2iå ie2/ d2N - 2iåe2 / d 2 : c(2N - 2)ïþ(b- b ) /: (t N- 2)11化简可得: (b1 - b1) / se(b1) : (t N笔记:- 2)1、关于随机变量概率分布的知识点见本讲附录 1;2、在经典线性模型假定下可证明iåe2/ d 2 :c(2N - k -1)具体可参见一些较为高级的教科书。另外,根据附录 1 的知识点,一个服从卡方分布的随i机变量其期望值等于自由度,故 E(åe2 / d 2 ) = N - k -
17、1。实际上在第二讲i我们已经表明 Eåe2 / (N - k -1) = d 2 ,这验证了该知识点。接下来,检验步骤和应该注意的细节就和第二小节没有差异了,除了所利用的是 t 分布而不是标准正态分布。笔记:随着自由度趋于无穷大,t 分布渐进于与标准正态分布,见附录 1 知识点 4。事实上,当自由度趋于无穷大时, se(b ) 在概率上收敛于 sd(b )【前者是对后者的一致估11计】,因此,随着自由度趋于无穷大, (b - b ) / se(b )渐进服从于标准正态分布。111前面我们讨论的是简单线性回归模型。事实上相关结论与检验完全可以被推广到多元线性回归模型:y = b0 +
18、b1x1 +. + b jxj +. + bk xk +e在该模型下, (bj - b j ) / se(bj ) tN -k-1思考题:一样本其容量为 30,建立回归模型:yi = b0 + b1x1i + b2x2i + b3x3i +eibt 等于-4,请判断在显著水平 1%、5%与 10%下是否拒绝原假设。0笔记:通过观察 t 分布表可知,给定显著水平,随着自由度的增加,右侧临界值递减。当自由度为 10 时,有:a = 10% = 2 Prt ³ t0.05 (10) = 2 Prt ³ 1.812;a = 5% = 2 Prt ³ t0.025 (10)
19、 = 2 Prt ³ 2.228;a = 1% = 2 Prt ³ t0.005 (10) = 2 Prt ³ 3.169.进行回归分析时自由度一般都大于 10。如果情况确实如此,那么当你得到一具体的 t 值时,你应该能够粗略地判断在多大的显著水平下是否拒绝原假设。在实践中,我们经常对 b1是否为零的假设感兴趣,显然在假设体系:H0 : b1 = 0H1 : b1 ¹ 0下,此时的 t 统计量是 b / se(b )。针对特定样本,计量软件一般会自动计算出对应111于上述假设体系的 t 值。如果原假设被拒绝,那么我们就说在某某显著水平上 x 是统计上显著
20、的;如果不能被拒绝,则就说 x 在某某显著水平上是统计上不显著的。应该注意:即使 b的绝对值很小很小(即所谓的变量 x 无经济显著性或者实际显著性( economic significance/practical significance),但在统计上,它可能显著地与 0 不同。四、 置信区间在模型 yi = b0 + b1xi +ei 下,如果有:b - b / se(b ) t(n- k -1)则有:111Prb -tse(b ) £ b£ b+ tse(b ) =1- a1a/2111a/2 1(b - tse(b ), b + tse(b ) 被称为 b 的区间估计
21、量,而 1-a 是置信水1a / 211a / 21 1平。应该注意,当样本并未指定时,(b - tse(b ), b + tse(b) 是一个1a / 211a / 2 11随机区间!我们可以说,该随机区间包含真实参数的概率为 1-a。然而,当样本给定后,b及其 se(b ) 通过计算已经被获得,那么(b - tse(b ), b + tse(b )11a / 211a / 2 1就不再是随机区间了,该区间要么包含 b 的真实值要么不包含,故我们不能说,该确定性区间包含真实参数的概率为 1-a。然而,在重复抽样的情景下,我们可以获得无限多的确定性区间,在这些区间中,有百分之 100(1-a)
22、的区间将包含 b1 的真实值。当原假设 H0 : b1 = w 为真时,如果根据某一样本所得到的置信区间并未包含,那么小概率事件发生了,因此,我们将拒绝 H0 : b1 = w 这个原假设。反之,则不拒绝原假设。如此看来,利用置信区间作假设检验本质上是与 t 检验等价的。与区间估计量有联系的一个概念是所谓的区间预测,见附录 2。思考题:对 于 模 型yi = b0 + b1xi +ei, 根 据 一 样 本 , 我 们 得 到 :(b - tse(b ), b + tse(b ) = (-0.23.0.89)10.05110.051(1)试判断变量 x 在 10%显著水平下是否统计显著。(2)
23、在假设体系:H0 : b1 = 4及H1 : b1 ¹ 4其 10%显著水平下,我们是否拒绝原假设?五、F 检验现在我们把简单线性回归模型扩展为多元线性模型,例如模型是:yi = b0 + b1x1i + b2x2i + b3x3i +ei如果我们对原假设 H0 :b1 = w1;b2 = w2 是否成立感兴趣,我们该怎么办?。第一步:估计受约束模型:yi = b0 + w1x1i + w2x2i + b3x3i +ei ,或者yi - w1x1i - w2x2i = b0 + b3x3i +ei估计上述模型得到残差平方和 RSSr;第二步:估计不受约束模型:yi = b0 + b1
24、x1i + b2x2i + b3x3i +ei得到残差平方和 RSSur;第三步:定义 F 统计量:F = (RSSr - RSSur )/(dfr -dfur )RSSur / dfur在经典线性模型假定假定下及其原假设下,该统计量服从 F(dfr - dfur ,dfur ) 分布。在这里,dfr 是估计受约束模型时所得到的残差的自由度;dfur 是估计不受约束模型时(RSSr - RSSur ) / 2所得到的残差的自由度。在我们的例子中, F =笔记:RSSur/ N - 4。OLS 要求残差平方和最小,现在我们得到了两个残差平方和,即 RSSr 与 RSSur,显然 RSSr
25、79; RSSur,于是,上述对 F 的定义满足 F ³ 0。回忆 F 分布的图形,它是在第一象限被定义的。如果原假设为真,即我们所施加的约束是正确的,那么,尽管 RSSr ³ RSSur,但 RSSr与 RSSur 应该相差不多,因此,如果相差很大,那么我们就应该怀疑原假设了!由于 RSSr与 RSSur 与被解释变量的测度单位有关,因此,我们把两者的差距除以 RSSur,以使其“无单位化”。笔记:为什么除以 RSSur 而不是 RSSr?如果除以 RSSr,那么计算所得的 F 值会更小,从而更容Q RSSr / d 2 c 2 (N - 2); RSSur / d 2
26、c 2 (N - 4);(RSSr - RSSur ) / d 2 c 2 (2)(RSSr - RSSur ) / 2 / RSSur /( N - 4) F (2, N - 4)易不拒绝原假设,即犯第二类错误(取误)的概率增加,因此,为提高检验的势(降低犯第二类错误的概率),在此除以 RSSur 而不是 RSSr, 除以 RSSur 相当于“提供一个放大镜,以使我们对原假设更加苛刻,不会轻易相信原假设所告诉的故事,这不正好体现了科学的怀疑精神吗?”【注:犯第一类错误(弃真)的概率就是显著水平,因此,显著水平越小,则犯第一类错误的概率就越低】总而言之,一个直觉是当 F 值远大于零时我们应该拒
27、绝原假设。多远才算远?设定临界值 Fa(dfr - dfur,dfur), 当 我 们 依 据 样 本 所 得 到 的 F值 落 在(Fa(dfr - dfur ,dfur ),+¥) 时,我们说“在 a 显著水平下拒绝原假设”。笔记:在经典线性模型假定及其原假设下,(RSSr - RSSur ) / d 2 与 RSSur / d 2 独立吗?只有两者是独立的,我们才能利用附录 1 知识点 5。事实上,当原假设为真时,(RSSr - RSSur )趋于 0,这并不依赖于 RSSur 的取值,因此,直观看来,(RSSr - RSSur ) / d 2 与 RSSur / d 2应该是
28、独立的。Fsample同样, 当我们依据样本得到值时, 我们也能够依据 F 分布表计算Pr(F笔记:³ F sample ) ,计量软件包在 F 值后所给出的 P 值正是这个概率。利用 R2 指标,F 统计量还被可以改写为另外一种形式,即所谓的 R-平方型。R2 =1- RSSr ; R2=1- RSSur ;TSS= TSS,因此有:rTSSrurTSSurrurF = (RSSr - RSSur ) / (dfr - dfur )RSSur / dfur= (RSSr /TSS - RSSur / TSS)/ (dfr - dfur ) (RSSur / TSS)/ dfur(R
29、2 - R2)/(df- df)=urr(12rur- Rur) / dfur应该注意到 R2 ³ R2 ,一个直观的理解是,不受约束的样本回归模型由于更具弹性因此urr应该拟合得更好。在实践中,我们也许对原假设 H0 :b1 = b2 = b3 = 0最感兴趣。如果这个假设被拒绝,那么我们就说 x1、x2、x3 在统计上是联合显著的;如果不能被拒绝,则就说 x1、x2、x3 在统计上是联合不显著的。针对特定样本,计量软件一般会自动计算出对应于上述假设的F 值。练习:1、估计模型 yi = b0 + b1x1i +.+ bk xki +ei 并获得 R2,针对原假设H0 :b1 =
30、. = bk = 0R2 / k(1- R2)/(N - k -1) 。, 请 推 导 出 R- 平 方 型 的 F统 计 量 :2、如果利用 F 统计量检验原假设 H0 :b1 = b2 =.= bk = 0,证明有关系:- +R2 =1- N -1Nk1kF笔记:根据在原假设 H0 :b1 = . = bk = 0 下的 R-平方型 F 统计量表达式可知,此时的 F 检验实际上也是检验 R2 是否显著不为 0。六、t 检验与 F 检验的联系与区别(一)联系对于模型:y = b0 + b1x1 +. + b jxj +. + bk xk +e现在我们对假设 b j = 0进行检验,首选检验方
31、法是 t 检验,不过 F 检验也是可行的。可以证明,此时t2bj= F 。为简单计,考虑简单模型 yi = b0 + b1xi +ei ,我们对 b1 是否为 0 感兴趣。一方面可以进行 t 检验:RSSN - 2ur/(x - x)åi21t= b /b1另一方面也可以进行 F 检验:F = (RSSr - RSSur ) /(dfr - dfur ) = (TSS - RSSur ) /1 =ESSur0笔记:RSSur / dfurRSSur / N - 2RSSur / N - 2此时受约束模型是: yi= b0+ei,根据第一讲相关知识点, b= y 。因此,rii iRS
32、S= å( y- y )2= å( y- y )2= TSSb接 下 来我们 阐 述证明 t2 = F1的 思路。 我 们实际 上 需要证 明 的是: b 2å(x - x)2 = ESSur 是否成立。由于 R2= ESSur,故需证明 1iurTSSb 2å(xi - x)2 = ESSur= R21TSSTSSur 是否成立。注意到:b 2å(x- x)2 =å(xi - x)( yi - y)2å(x- x)21iå(xi - x)2 i=å(xi - x)( yi - y)2å(xi
33、- x)2b 2å(xi - x)2 =å(xi - x)( yi - y)2因此,1,而TSSå(x - x)2å(y - y)2i ii iå(xi - x)( yi - y)2å(x- x)2å(y- y)2 是 x 与 y 的样本相关系数的平方,按照第二讲关于urR2 的相关结论,它与 R2相等。我们所证明的关系t2bj= F 是一个代数关系,问题是t2bj服从 F 分布吗?根据附录 1 知识点 4 与 5,一个服从 t(m)分布的随机变量其平方一定服从 F(1,m)分布,进而有:bPrt 2³ ta/2
34、(m) È t b2£ ta/2 (m) = a = Prt2b2³ Fa (1, m)因此 F 检验与 t 检验将得到完全相同的检验结论。笔记:上述结论的一个应用。对于模型 yi = b0 + b1x1i +.+ bk xki +ei ,通过前面的 练习,我 们知道 R2 N -1=1-N - k -1+ kF。 现在考虑 简单模型: yi = b0 + b1x1i +ei ,则根据前面的结论有: R2 =1- N N -1,显然,如2i果 t> 1,则 R2 > 0 。注意到对模型: y1= b0+ei- 2 + t b1,其调整的判定系数等于 0
35、(作b为一个练习请证明)。yi = b0 + b1x1i +ei 与 yi = b0 +ei 相比较,前者增加了一b个解释变量,因此,其判定系数将大于等于后者的判定系数。然而,只有当 t 1> 1时,前者的调整的判定系数才会大于后者的调整的判定系数。这个结论可以推广:在初始的线性模型上增加解释变量,只有所增加变量所对应的 t 值其绝对值大于 1 时(在计算该 t 值时所对应的原假设是真实系数为 0),调整的判定系数才会增加(应该注意到,t 值的绝对值大于 1并不意味着变量一定是显著的)。(二)区别t 检验关注的单个参数的取值问题,如果需要同时关注多个参数的取值问题,那么此时我们应该利用
36、F 检验。对于模型:yi = b0 + b1x1i + b2x2i + b3x3i +ei在实践中,我们一方面可能对 b j = 0是否成立感兴趣,即关注单个解释变量的显著性,此时用到的是 t 检验;另一方面,我们也可能对 b1 = b2 = b3 = 0是否成立感兴趣,即关注所有解释变量的联合显著性,此时用到的是 F 检验。应该注意到,根据此时的 R-平方型 F 统计量表达式可知,我们实际上是在检验 R2 是否显著不为 0,因此,关注所有解释变量的联合显著性即关注整个模型的拟合程度。特别要注意的是,单个变量显著并不意味着变量联合显著,反之亦然。笔记:与生活中的一种现象进行类比:一种药品包含两
37、种成份,其中任何一种成份单独看来其药性都很强,但联合时使用时可能并无药效;另外一种情况是,其中任何一种成份单独看来其药性都很弱,但联合时使用时药品的药效可能很大。七、补充知识点:相关系数的假设检验(一)简单相关系数的假设检验我们想判断随机变量 x 与 y 的简单相关系数 r 是否为零。按照 Fisher,在假设体系:H 0 : r = 0n - 2H1 : r ¹ 01 - r 2sample下,当原假设为真时, t =rsample: t(n - 2)【注: rsample 是样本相关1系数】,现在我们考虑另外一种思路。建立回归模型: y = b0 + b1x + e ,再考察 b
38、是否与 0 有显著差异。bQ t21= F =R2n-2(1- R2)/(n-2)R2(1- R2)/(n-2)t=±=b1rsample1-r2sample上面最后一个等式之所以成立,首先是因为在简单线性回归模型中, R2等于 y 与 x 的样1本简单相关系数的平方,其次是因为当rsample 小于零时, b是负数,因此 t 值为正数;1当rsample 大于零时, b是正数,因此 t 值为正数。总的来看,Fisher 的方法与回归检验方法等价。换句话说,如果你试图依据样本判断随机变量 x 与y 的简单相关系数 r 是否为零,你可以建立简单线性回归模型然后对斜率系数进1行 t 检验
39、,如果 b与 0 有显著差异,则可以拒绝 r 为 0 的原假设。(二)偏相关系数的假设检验x1 与x2 的简单相关可能是由于两变量分别与 x3 相关造成的。在控制了 x3 之后,x1 与x21 2 3还具有相关性吗?在控制了 x3 之后,x1 与 x2 的相关关系被称为偏相关,记为rx x .x 。如x1x2.x3何计算样本偏相关系数rsample ?步骤:第一步:把 x1对 x3 进行回归有:x1i = b+ bx i + vi(1)02 3第二步:把 x2 对 x3 进行回归,即有:x2i =j0 +j2x3i + wi(2)å(wi - w)2å(vi - v)2=第
40、 三 步 : 计 算 v与 w 的 样 本 简 单 相 关 系 数 , 有 :rsample = rsample =åwi2åvi2å(wi - w)(vi - v)åwivix1x2.x3w v 当然我们还可以利用变量间的样本简单相关系数来计样本偏相关系数,这是因为存在关系:rsample- rsamplersample(1-rsample 2x1x3 )(1-rsample2x2x3)x1x2.x3rsample = x1x2x1x3x2x3 ,其证明见附录 3。我们还能检验rsample 是否与0 有显著差异。方法是对回归模型:v=hw +ex1x
41、2.x3iii(注:不含截距,当然你可以包含截距,但你会发现,截距的估计结果肯定为 0,这是因为 w 与v其均值都为零,而基于简单线性回归截距估计量的公式,这意味着截距估计量为 0),在原假设h =0下进行 t 检验。值得注意的是,此时自由度应该是(N-2)-1=N-3 而不是 N-1!这是因为 w 与v的自由度是 N-2。利用上述检验方法来检验 x1 与 x2 的偏相关关系显得太复杂了,事实上基于回归模型: x1i = a +b1x2i +b2x3i +ei ,在原假设 H0 :b1 = 0 下进行 t 检验即可检验 x1与 x2 的偏相关关系。为什么呢?因为 b1 就是控制了 x3 后 x
42、2 对 x1 的影响(在第六讲,我们1将证明h =b )。(二)复相关系数的假设检验x1 与(x2,x3)的相关关系被称为复相关,记为 R。如何计算样本复相关系数 Rsample ?基于回归模型:x1i = a +b1x2i +b2x3i +ei ,计算 x1与 x1的样本简单相关系数,并取绝对值,则得到 x1 与(x2,x3)的样本复相关系数。根据第一讲, x1与 x1的样本简单相关系数的平方就是上述回归的判定系数 R2。基于回归模型: x1i = a +b1x2i +b2x3i +ei 在原假设 H0 :b1 =b2 = 0下进行 F 检验,则等价于检验原假设:复相关系数 R=0 。回忆一
43、下,在原假设H :b = b= 0 下,F =R2 /2 R2=0012F=0。笔记:(1- R2)/(N -2-1) ,当判定系数时,对于回归模型: x1i = a +b1x2i +b2x3i +ei ,在原假设 H0 :b1 = b2 = 0下进行 F 检验实际上是检验 x1 与(x2,x3)的复相关关系;在原假设 H0 :b1 = 0下进行 t检验实际上是检验 x1 与 x2 的偏相关关系(控制了 x3)。附录 1:正态分布、卡方分布、t 分布与 F 分布1. X 是期望值为u ,标准差为d 的随机变量,则 X 所服从分布的偏度与峰度分别被定义为E( X - u)3S =d 3; K =
44、E( X - u)4d 42. 如果 X N (u,d 2 ) ,则 S = 0, K = 3 。另外,当 j 是奇数时, E( X - u) j = 0i.i.dn3. z N (0,1) Þ å z2 c 2 (n) ,则i inni=1E(c 2 (n) = E(å z2 ) = å E(z2 ) = nVar(z ) = nii ii=1i=1nnniii iVar(c 2 (n) = Var(å z2 ) = åVar(z2 ) =å Ez2 - E(z2 )2i=1i=1i=1nniiiii i= å
45、Ez4 + E2 (z2 ) - 2z2E(z2 ) =å E(z4 +1- 2z2 i=1nni=1i i= å E(z4 ) + n - 2å E(z2 ) = 3n + n - 2n = 2nz y nz N (0,1)üi=1i=1þ4. y c 2 (n) ý Þ t = tnyy2n2yyQ E( ) = 1,Var( ) =, limVar( ) = 0, p lim= 1,当n ® ¥时t渐进分布于N (0,1)。12nnn2n n®¥nn5. y c 2 , y c
46、2, 且两者独立,则 F =y1 / n1 F (n , n )1n12n2y2 / n212z2z2 /1 2t = ()y / n= y / n F (1, n) 。另外,当 n2 ®¥ 时, n1F 渐进分布于 cn 。附录 2: 区间预测假定真实模型是: y = b0 + b1x + e,模型满足经典线性模型假定。以 y f = b+ b x 作为对 yf 的预测。此时预测误差是:e1 =01f0y f - y f = (b0 - b) + (b1 - b)xf+ e f1 1(x - x f )2显然,E(e )=0,Var(e ) = +1d 2 (参见第二讲补充11Nå(x - x)2i知识点 2),e1 服从正态分布。即e1 - E(e1 ) =e1= y f - y f N (0,1)Sd (e1)Sd (e1)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民营剧团现代化管理体系的创新探索
- 宁夏回族自治区城市运行管理服务平台建设实施方案
- 广播影视行业媒体融合2025年:新媒体平台用户行为分析报告
- 2025年数字孪生在城市公园规划中的园林景观规划与设计报告
- 供应链金融在2025年中小企业融资中的信用评估体系构建报告
- 2025年智慧交通系统交通流量预测技术智能交通管理报告
- 康复医疗器械行业报告:2025年市场需求预测与产品创新路径
- 2025年文化场馆建设与社区和谐稳定关系分析报告
- 高温环境特种空调设备行业跨境出海项目商业计划书
- 高速频率计与信号源行业跨境出海项目商业计划书
- 红绿简约小清新实拍一间自由生长的教室读书分享
- 铅冶炼行业清洁生产评价指标体系 替代 HJ 512-2009 HJ 513-2009
- 2025年成都初三历史试题及答案
- 2025年公园管理岗面试题及答案
- 学校食堂 2025 年 2 月食品安全月调度会议记录
- 实习工作目标工作计划
- 2025混合交通流环境下的自动驾驶编队仿真测试评价技术规范
- 《银屑病的诊疗进展》课件
- 2025年官方兽医题库及答案
- 文旅项目策划案例分析报告
- 《糖尿病视网膜病变》课件
评论
0/150
提交评论