




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江工商大学金融学院姚耀军讲义系列第三讲 假设检验一、 经典线性模型假定对于模型,利用OLS有:在高斯-马尔科夫假定下,OLS估计量的抽样分布完全取决于误差项的分布。在高斯-马尔科夫假定中,我们要求误差项是序列无关与同方差的,现在,我们施加更强的假定,即误差项服从正态分布,即。应该注意到,当误差项服从正态分布时,序列无关与独立性是等价的。因此,我们可以把上述分布假设写为:,即误差项服从独立同正态分布。为什么要施加更强的假定呢?这是为了进行小样本下的假设检验。与高斯-马尔科夫假定一起,被称为经典线性模型假定。在经典线性模型假定下,可以证明,OLS估计量是方差最小的无偏估计量(注意!此时不需要把比较范围限制在线性估计量之中)。笔记: 1、假设误差项服从正态分布的合理性在于,误差项是由很多因素构成的,当这些因素是独立同分布时,依照中心极限定理,那么这些因素之和应该近似服从正态分布。当然,这并不意味着用正态分布来近似误差项的分布总是恰当的,例如,各因素或许并不同分布。另外,如果y是价格这样的变量,那么假设误差项服从正态分布是不合理的,因为价格不可能是负数,不过我们可以进行变量变换,例如对价格取自然对数或者考察价格的变化率,那么经过变量变换之后,或许再假设误差项服从正态分布就变得合理了。2、如果能够对误差项是否服从正态分布进行检验,那最好不过了。一种常用的检验方法是Jarqe-Bera检验,这可以参见相关的教科书。问题是,尽管我们能观察到解释变量、被解释变量的取值,然而,由于对参数的真实取值无法确定,因此误差是观测不到的,我们或许不得不利用残差来代替误差以进行相关的检验。当然,一个前提是残差确实是对误差的良好近似,这进而要求,我们对参数的估计是合理的。3、根据公式:考虑x非随机这种简单情况,显然,当样本容量很大时,只要误差项是独立同分布的(并不需要要假定误差项服从正态分布),那么根据中心极限定理,应该近似服从正态分布。当然,为了保证误差项的独立性,抽样的随机性十分关键。二、 利用标准正态分布作假设检验假定是真实模型,当然我们并不知道各参数的真实值是多少。但某一经济经济理论预言。如果你手中掌握一样本,一个问题是,你所掌握的样本支持这个预言吗?在经典线性模型假定下,或者定义,则z就是所谓的z统计量。估计量是用来估计真实参数的,而统计量是用来做统计推断(或者假设检验)的;统计量是随机的,其分布也被称为抽样分布,针对特定样本,我们得到统计量值,它是非随机的。,其中, 。练习:确定的分布。现在,假设经济理论的预言是正确的,那么针对特定的样本你将得到标准正态分布图横坐标上的一个点:在这里,该式是非随机的,而特别应该注意的是,分子中的是估计值,而分母中的是估计量。估计值的标准差是零!。现在来考察标准正态分布。在该分布上,存在对称的两点:与,其中:如果把概率为5%的事件称为小概率事件,那么,当的取值大于或者小于时,我们认为小概率事件发生了!小概率事件一般是不容易发生的,现在居然发生了,因此,我们应该怀疑上述经济理论所作出的预言。笔记:另外一种直觉性的解释:当这个假设为真时,粗略看来,即使估计值 与完全相等不太可能,但估计值 应该接近于。然而我们也要注意到,对的估计还存在精确性问题,这通过统计量的标准差体现出来。也就是说,在原假设为真时,即使估计值与有一定的差异,然而如果较大,那么出现与的较大差异也许是正常的。不过总的来看,当原假设为真时,z统计量值是应该接近于0的,这要么是因为中的分子确实接近于0,要么是因为尽管与有一定的差异,但主要是由较大所引起的。当z统计量值与0具有较大差异时,那么这个假设的真实性是值得怀疑的! 假设检验的正式步骤是:(1)建立原假设与备择假设:笔记:原假设与备择假设互斥;假设体系应该是完备的,即原假设与备择假设两者之一必为真,但两者不能同时为真。(2)确定小概率标准a。经常我们把1%、5%或者10%作为小概率标准。对a更加正式的称呼是“显著水平”。(3)考察统计量值是否落在拒绝域:之内。如果落在上述区间之内,那么在a显著水平上,我们拒绝原假设,接受备择假设;反之,我们不拒绝原假设,拒绝备择假设。笔记: 1、为什么当统计量值落在拒绝域之外时我们说“不拒绝原假设”而不是说“接受原假设”?其解释是:我们可以作出很多的原假设,例如或者而我们所计算出来的一些统计量值恰好都落在之外,难道我们既接受也接受?显然更恰当的表达方式是,即不拒绝也不拒绝。2、“接受原假设”没有留有余地,而“不拒绝原假设”表明我们的结论是留有余地的,即,在另外的原假设下也可能不拒绝。“接受备择假设”留有余地吗?应该注意到,备择假设是,因此,即使说“接受备择假设”,这也是留有余地的。3、设定1%、5%或者10%为显著水平显得有点随意,为何不设2%、6%、7%等为显著水平呢?是否可以依据一个更一般的标准来进行假设检验?答案是肯定的,我们可以依据一个更一般的标准来进行假设检验!既然我们已经计算出统计量值,如果z为正,那么根据正态分布表,我们就能够确定的值(如果z值为负,那么我们能够确定的值),我们通常把这个概率值称为伴随概率,简写为P或者Prob.这个概率值很有用处!例如,假定P值是0.062,那么,显然,以任何小于6.2%的概率为小概率标准,我们并不拒绝原假设;以任何大于6.2%的概率为小概率标准,我们拒绝原假设。 4、一个总结:在进行双尾检验时,当P小于给定的显著水平时,那么在给定的显著水平下应该拒绝原假设;反之,则不拒绝原假设。上述检验都属于双尾检验,即是拒绝域。如果假设体系是:那么在显著水平a下,拒绝域应该是,我们进行的是单侧(尾)检验。为了理解单侧检验,我们回答如下两个问题:问题一:为什么拒绝域是?答案:当原假设为真时,那么应该在0左右不远处;当备择假设为真时,在真实参数左右不远处。因此,只要真实参数远大于,则远大于0是非常可能的,而在这种情况下Z远小于0则不太可能的。因此,我们把拒绝域设定为。当实际计算出的Z值落在该区间内时,我们拒绝原假设,接受被择假设。问题二:为什么并不是拒绝域?答案:如果实际计算出的Z值落在该区间内时我们拒绝了原假设,那么我们更应该拒绝被择假设。因为当备择为真时,实际计算出的Z值落在该区间内的概率更小。基于假设体系的完备性,故我们不把设定为拒绝域。问题三:为何要设置这样的假设体系?答案:这依赖于先验的理论与判断。例如,假定是某正常商品的消费收入弹性,那么不可能为负。我们可以通过建立如下的假设体系:并基于样本来判断是否为真。思考题:在假设体系:下,计量软件包计算出为正的统计量值z,而且P值为0.120【注:计量软件包默认的P值是双尾的概率,当z为正时,它计算的是】。问:在假设体系下,以10%为显著水平,我们是否拒绝原假设?三、 t检验虽然在经典线性模型假定下:然而,在之中,经常是未知的,需要我们估计。在第二讲时,我们已知道,在高斯马尔可夫假定下,是对的一个无偏估计。我们记,(注:the standard error,se;the standard deviation,sd)。可以证明,服从t(N-2)分布。证明:在经典线性模型假定下有:化简可得:笔记:1、关于随机变量概率分布的知识点见本讲附录1; 2、在经典线性模型假定下可证明具体可参见一些较为高级的教科书。另外,根据附录1的知识点,一个服从卡方分布的随机变量其期望值等于自由度,故。实际上在第二讲我们已经表明,这验证了该知识点。接下来,检验步骤和应该注意的细节就和第二小节没有差异了,除了所利用的是t分布而不是标准正态分布。笔记:随着自由度趋于无穷大,t分布渐进于与标准正态分布,见附录1知识点4。事实上,当自由度趋于无穷大时,在概率上收敛于【前者是对后者的一致估计】,因此,随着自由度趋于无穷大,渐进服从于标准正态分布。前面我们讨论的是简单线性回归模型。事实上相关结论与检验完全可以被推广到多元线性回归模型:在该模型下, 思考题:一样本其容量为30,建立回归模型:等于-4,请判断在显著水平1%、5%与10%下是否拒绝原假设。笔记:通过观察t分布表可知,给定显著水平,随着自由度的增加,右侧临界值递减。当自由度为10时,有:进行回归分析时自由度一般都大于10。如果情况确实如此,那么当你得到一具体的t值时,你应该能够粗略地判断在多大的显著水平下是否拒绝原假设。在实践中,我们经常对是否为零的假设感兴趣,显然在假设体系:下,此时的t统计量是。针对特定样本,计量软件一般会自动计算出对应于上述假设体系的t值。如果原假设被拒绝,那么我们就说在某某显著水平上x是统计上显著的;如果不能被拒绝,则就说x在某某显著水平上是统计上不显著的。应该注意:即使的绝对值很小很小(即所谓的变量x无经济显著性或者实际显著性(economic significance/practical significance),但在统计上,它可能显著地与0不同。四、 置信区间在模型下,如果有:则有: 被称为的区间估计量,而1-a是置信水平。应该注意,当样本并未指定时,是一个随机区间!我们可以说,该随机区间包含真实参数的概率为1-a。然而,当样本给定后,及其通过计算已经被获得,那么就不再是随机区间了,该区间要么包含的真实值要么不包含,故我们不能说,该确定性区间包含真实参数的概率为1-a。然而,在重复抽样的情景下,我们可以获得无限多的确定性区间,在这些区间中,有百分之100(1-a)的区间将包含的真实值。当原假设为真时,如果根据某一样本所得到的置信区间并未包含,那么小概率事件发生了,因此,我们将拒绝这个原假设。反之,则不拒绝原假设。如此看来,利用置信区间作假设检验本质上是与t检验等价的。与区间估计量有联系的一个概念是所谓的区间预测,见附录2。思考题:对于模型,根据一样本,我们得到:(1)试判断变量x在10%显著水平下是否统计显著。(2)在假设体系:及其10%显著水平下,我们是否拒绝原假设?五、 F检验现在我们把简单线性回归模型扩展为多元线性模型,例如模型是:如果我们对原假设是否成立感兴趣,我们该怎么办?。第一步:估计受约束模型:,或者估计上述模型得到残差平方和RSSr;第二步:估计不受约束模型:得到残差平方和RSSur;第三步:定义F统计量:在经典线性模型假定假定下及其原假设下,该统计量服从分布。在这里,dfr是估计受约束模型时所得到的残差的自由度;dfur是估计不受约束模型时所得到的残差的自由度。在我们的例子中, 。笔记:OLS要求残差平方和最小,现在我们得到了两个残差平方和,即RSSr与RSSur,显然RSSr RSSur,于是,上述对F的定义满足F0。回忆F分布的图形,它是在第一象限被定义的。如果原假设为真,即我们所施加的约束是正确的,那么,尽管RSSr RSSur,但RSSr与RSSur应该相差不多,因此,如果相差很大,那么我们就应该怀疑原假设了!由于RSSr与RSSur与被解释变量的测度单位有关,因此,我们把两者的差距除以RSSur,以使其“无单位化”。笔记:为什么除以RSSur而不是RSSr?如果除以RSSr,那么计算所得的F值会更小,从而更容易不拒绝原假设,即犯第二类错误(取误)的概率增加,因此,为提高检验的势(降低犯第二类错误的概率),在此除以RSSur而不是RSSr, 除以RSSur相当于“提供一个放大镜,以使我们对原假设更加苛刻,不会轻易相信原假设所告诉的故事,这不正好体现了科学的怀疑精神吗?”【注:犯第一类错误(弃真)的概率就是显著水平,因此,显著水平越小,则犯第一类错误的概率就越低】总而言之,一个直觉是当F值远大于零时我们应该拒绝原假设。多远才算远?设定临界值,当我们依据样本所得到的F值落在时,我们说“在a显著水平下拒绝原假设”。笔记:在经典线性模型假定及其原假设下,与独立吗?只有两者是独立的,我们才能利用附录1知识点5。事实上,当原假设为真时,趋于0,这并不依赖于RSSur的取值,因此,直观看来,与应该是独立的。 同样,当我们依据样本得到值时,我们也能够依据F分布表计算,计量软件包在F值后所给出的P值正是这个概率。笔记:利用R2指标,F统计量还被可以改写为另外一种形式,即所谓的R-平方型。,因此有:应该注意到,一个直观的理解是,不受约束的样本回归模型由于更具弹性因此应该拟合得更好。在实践中,我们也许对原假设最感兴趣。如果这个假设被拒绝,那么我们就说x1、x2、x3在统计上是联合显著的;如果不能被拒绝,则就说x1、x2、x3在统计上是联合不显著的。针对特定样本,计量软件一般会自动计算出对应于上述假设的F值。练习:1、估计模型并获得R2,针对原假设,请推导出R-平方型的F统计量:。2、如果利用F统计量检验原假设,证明有关系:笔记:根据在原假设下的R-平方型F统计量表达式可知,此时的F检验实际上也是检验R2是否显著不为0。六、 t检验与F检验的联系与区别(一) 联系 对于模型:现在我们对假设进行检验,首选检验方法是t检验,不过F检验也是可行的。可以证明,此时。为简单计,考虑简单模型,我们对是否为0感兴趣。一方面可以进行t检验:另一方面也可以进行F检验:笔记:此时受约束模型是:,根据第一讲相关知识点,。因此,接下来我们阐述证明的思路。我们实际上需要证明的是:是否成立。由于,故需证明是否成立。注意到:因此,而是x与y的样本相关系数的平方,按照第二讲关于R2的相关结论,它与相等。我们所证明的关系是一个代数关系,问题是服从F分布吗?根据附录1知识点4与5,一个服从t(m)分布的随机变量其平方一定服从F(1,m)分布,进而有:因此F检验与t检验将得到完全相同的检验结论。笔记:上述结论的一个应用。对于模型,通过前面的练习,我们知道。现在考虑简单模型:,则根据前面的结论有:,显然,如果,则。注意到对模型:,其调整的判定系数等于0(作为一个练习请证明)。与相比较,前者增加了一个解释变量,因此,其判定系数将大于等于后者的判定系数。然而,只有当时,前者的调整的判定系数才会大于后者的调整的判定系数。这个结论可以推广:在初始的线性模型上增加解释变量,只有所增加变量所对应的t值其绝对值大于1时(在计算该t值时所对应的原假设是真实系数为0),调整的判定系数才会增加(应该注意到,t值的绝对值大于1并不意味着变量一定是显著的)。(二) 区别t检验关注的单个参数的取值问题,如果需要同时关注多个参数的取值问题,那么此时我们应该利用F检验。对于模型:在实践中,我们一方面可能对是否成立感兴趣,即关注单个解释变量的显著性,此时用到的是t检验;另一方面,我们也可能对是否成立感兴趣,即关注所有解释变量的联合显著性,此时用到的是F检验。应该注意到,根据此时的R-平方型F统计量表达式可知,我们实际上是在检验R2是否显著不为0,因此,关注所有解释变量的联合显著性即关注整个模型的拟合程度。特别要注意的是,单个变量显著并不意味着变量联合显著,反之亦然。笔记:与生活中的一种现象进行类比:一种药品包含两种成份,其中任何一种成份单独看来其药性都很强,但联合时使用时可能并无药效;另外一种情况是,其中任何一种成份单独看来其药性都很弱,但联合时使用时药品的药效可能很大。七、补充知识点:相关系数的假设检验(一)简单相关系数的假设检验我们想判断随机变量x与y的简单相关系数r是否为零。按照Fisher,在假设体系:下,当原假设为真时,【注:是样本相关系数】,现在我们考虑另外一种思路。建立回归模型:,再考察是否与0有显著差异。上面最后一个等式之所以成立,首先是因为在简单线性回归模型中,等于y与x的样本简单相关系数的平方,其次是因为当小于零时,是负数,因此t值为正数;当大于零时,是正数,因此t值为正数。总的来看,Fisher的方法与回归检验方法等价。换句话说,如果你试图依据样本判断随机变量x与y的简单相关系数r是否为零,你可以建立简单线性回归模型然后对斜率系数进行t检验,如果与0有显著差异,则可以拒绝r为0的原假设。(二)偏相关系数的假设检验x1与x2的简单相关可能是由于两变量分别与x3相关造成的。在控制了x3之后,x1与x2还具有相关性吗?在控制了x3之后,x1与x2的相关关系被称为偏相关,记为。如何计算样本偏相关系数?步骤:第一步:把对进行回归有: (1)第二步:把对进行回归,即有: (2)第三步:计算与的样本简单相关系数,有:当然我们还可以利用变量间的样本简单相关系数来计样本偏相关系数,这是因为存在关系:,其证明见附录3。我们还能检验是否与0有显著差异。方法是对回归模型:(注:不含截距,当然你可以包含截距,但你会发现,截距的估计结果肯定为0,这是因为与其均值都为零,而基于简单线性回归截距估计量的公式,这意味着截距估计量为0),在原假设下进行t检验。值得注意的是,此时自由度应该是(N-2)-1=N-3而不是N-1!这是因为与的自由度是N-2。利用上述检验方法来检验x1与x2的偏相关关系显得太复杂了,事实上基于回归模型:,在原假设下进行t检验即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 诺如病毒相关知识培训课件
- 2025年度(参考)房地产合作开发投资合同签订框架协议
- 语言文字规范化培训知识课件
- 红酒护肤知识培训班课程课件
- 2025某单位门卫聘用合同
- 语文教学知识培训心得课件
- 合同审批管理标准操作模板
- 技术文档撰写规范及提交模板
- 农产品跨境销售贸易合同条款
- 红楼梦第59回课件
- “临床营养科建设与管理指南”实施细则-I级标准化临床营养科建设示范基地
- 咖啡合作合同协议书
- 排水管网工程运营管理与维护方案
- 《税收基础知识》课件
- 《答谢中书书》对比阅读-2024-2025中考语文文言文阅读专项训练(含答案)
- 人力制动机制动RAILWAY课件
- 测试方案模板
- 《2024中国运动健身行业数据报告》发布
- T-CSCP 0018-2024 输电线路杆塔及其相关设施防腐涂装维护技术规范
- 课件围术期下肢深静脉血栓的预防与护理
- 《MATLAB基础及应用》全套教学课件
评论
0/150
提交评论