计量技术经济基础学 6_第1页
计量技术经济基础学 6_第2页
计量技术经济基础学 6_第3页
计量技术经济基础学 6_第4页
计量技术经济基础学 6_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章计量经济分析的统计学基础

第一节概率和概率分布第二节统计推断第三节参数估计第四节假设检验第一节概率和概率分布一、描述性统计量1.均值

测量一个变量典型取值的统计量称为集中趋势测度,最常用的集中趋势测度是均值(mean)。变量X的均值为

2.方差和标准差

测量一个变量所有数据值的离散程度的统计量称为离散测度,最常用的离散测度是方差

(variance)及其正平方根,称为标准差

(standarddeviation),它们的定义为

二、概率的概念1.随机试验和事件

随机试验是导致至少两种可能结果的过程,并且在此过程中将出现何种结果是不确定的。

一个随机试验的所有可能结果的集合称为样本空间或总体,样本空间的每个成员称为一个样本点。

事件是样本空间的子集。如果两个事件中一个事件的发生排除了另一个事件的发生,则称它们是互不相容事件或互斥事件。如果若干个事件包罗了一个试验的所有可能的结果,则这些事件称为完备事件。2.总体和样本

给定的一组观测值通常被视为从某个更大的总体中抽取的一个样本。

总体可以是有限的,也可以是无限的。有限总体可能很大,如全国14亿人口;也可能很小,如一个班学生的综合测评成绩。为了计算的方便,大总体有时可假定为无限总体。

样本是总体的一部分。之所以需要抽取样本,是因为在有些情况下,当分析某个变量的特征时,涉及的总体容量太大,甚至是无限总体,以至不可能对整个总体进行检查,或者这样做耗费太大,从而只能使用观测样本。2.总体和样本

通常假定样本能够反映要研究的总体特征,因此可以依据样本来推断总体。由于在某种程度上样本是总体的代表,因此这种推断有一定的合理性。

例如,为研究所有北京人的平均收入,很显然需要全体北京人(总体)的数据。可是,要收集每个人的收入数据是一件很困难的事。在实践中,我们可以抽取一个由5000人组成的随机样本,然后计算这5000人的平均收入,将其作为北京人的真实平均收入的估计值。

4.概率的性质(1)0≤P(A)≤1对所有A成立。

P(A)=0表明事件A不会发生;

P(A)=1表明事件A必定发生。一般情况下,概率值在0

1之间。(2)若A,B,C,…是完备事件集,则

P(A+B+C+…)=1其中A+B+C的含义是A或B或C,等等。(3)若A,B,C,…是互不相容事件,则

P(A+B+C+…)=P(A)+P(B)+P(C)+…三、随机变量和概率分布1.随机变量

可以在一个特定数集中按一定概率取值的变量称为随机变量。只能取某些离数值的称为离散随机变量,如掷骰子所得点数(1,2,3,4,5,6)。可以取一个有限(或无限)区间所有值的称为连续随机变量,如零件的直径。

随机变量通常用大写字母X,Y,Z来表示,它们所取的值用小写字母x,y,z等表示。2.随机变量的概率分布和概率密度函数

一个随机变量取给定值或属于一给定值集的概率所确定的函数称为该随机变量的概率分布。

概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布即完全被确定。(1)离散随机变量的概率分布

设X为取相异值x1,x2,…,xn,…的离散随机变量,则函数

四、概率分布的特征最常用的两个概率分布的概括性测度是期望值和方差。

2.期望的性质(1)若b为常数,则E(b)=b

(2)设X1,X2,…,Xn为随机变量,a1,a2,…an和b为常数,则

E(a1X1+a2X2+…+anXn+b)=a1E(X1)+a2E(X2)+…+anE(Xn)+b

(3)若X和Y为独立随机变量,则

E(XY)=E(X)E(Y)

4.方差的性质(1)Var(X)=E[(X-μ)2]=E(X2)-μ2;(2)

常数的方差为0;(3)若a和b为常数,则 Var(aX+b)=a2Var(X)

(4)

若X和Y为独立随机变量,则 Var(X+Y)=Var(X)+Var(Y)5.

协方差若X和Y为两随机变量,均值分别为μx和μy,则两变量的协方差定义为 Cov(X,Y)=E[(X-μx)(Y-μy)]若X和Y为独立随机变量,则Cov(X,Y)=0。

7.相关变量的方差设X和Y是两个随机变量,则Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)8.样本均值、方差、协方差和相关系数

与上述总体特征(参数)相对应的是样本统计量,如样本均值,样本方差,样本协方差和样本相关系数。它们均可由样本数据(样本观测值)计算得出,计算方法在本节第一段中已做介绍,这里不再重复。五、

几个重要的理论概率分布

1.正态分布图2-1正态分布正态分布有以下性质:(1)关于其均值的对称性,如图2.1所示。(2)正态曲线下大约68%的面积位于μ±

之间,大约95%的面积位于μ±2

之间,大约99.7%的面积位于μ±3

之间,如图2.1所示。1.正态分布(3)正态分布完全被它的两个参数μ和

2所描述,也就是说,一旦这两个参数被给定,则我们就可以用正态分布的PDF求出X位于某一区间之内的概率。

事实上,我们用不着实际去算,因为这些概率值可以从专门编制的正态分布表中查到。任何统计学或计量经济学教科书后面都附有正态分布表以及我们下面要介绍的t分布表、F分布表。1.正态分布

图2-2

χ2分布

图2-3

t分布t分布的性质;(1)t分布与正态分布一样,是对称的,但比正态分布要平一些。如图2.3所示。df值充分大时,t分布近似于正态分布。df值趋向无穷大时,t分布就是标准正态分布。(2)t分布的均值为0,其方差为k/(k-2)。

图2.4F分布第二节统计推断一、

统计推断的一般问题

具体说来,我们希望在以下两个方面运用样本信息。(1)检验关于总体参数的假设;(2)作出这些参数可能值的推断。

这两方面的应用,是统计推断一般问题的两个分支,即假设检验和参数估计。

随机样本是统计推断的基础。也就是说,进行假设检验和参数估计所使用的样本必须是随机样本。因此,下文中所提到的样本均指随机样本。

统计推断的基本问题:一是判断手中的样本是否可能取自具有确定参数的某类总体,即从样本信息来检验关于总体的假设,这是假设检验的问题。另一方面,给定样本,总体诸参数的可能值是什么?也就是如何从样本值估计总体参数,这是参数估计的问题。二、

抽样分布

抽样误差

由于样本是总体的一部分,在大多数情况下,仅仅是从总体中抽取的极小部分,因而不能指望它是总体的一个精确的复制品。若某样本均值恰好等于对应的总体均值,那也纯粹是一种巧合。

随机样本的样本值(统计量)与总体值(参数)之间的差异称为抽样误差。抽样误差是在样本的选取中偶然因素作用的结果。

三、

均值的抽样分布

定理

中心极限定理

第三节参数估计

参数估计要解决的问题是由样本值来估计总体参数。例如,我们可能希望知道北京市某日西瓜的平均零售价格,对所有的西瓜销售点进行全面统计即便行得通,费用也太大。可行的方法是随机选取若干个销售点进行调查,得到有关西瓜价格的一个样本,然后计算样本的平均价格,作为全市西瓜平均零售价格总体参数的估计值。

这种利用样本数据来估计未知的总体参数的方法称为参数估计。估计问题可分为两类:点估计和区间估计。一、

点估计

2.点估计量的统计性质

估计量和估计值相比,估计量更重要,这是因为好的估计量通常会产生比较接近总体参数真值的估计值,而与具体的样本无关。估计量的统计性质可分成两类:小样本性质和大样本性质(渐近性质)。

我们不能保证无偏估计量产生的每一个估计值都优于有偏估计量产生的估计值,但无偏性仍是一个很有用的性质,因为从无偏分布中抽取的一个估计值比起从那些不以总体真值为中心的分布中抽取的估计值有更大可能靠近总体真值。

图2-6有效性

(2)大样本性质

在小样本的情况下,一个估计量不满足某些小样本性质,但随着样本容量无限增大,该估计量就具有一些令人满意的统计性质,这些性质称为大样本性质或渐近性质。

一、

区间估计

点估计量的主要缺点是,它们仅为我们提供一个单值作为未知总体参数的估计值。由于这个估计值依赖于抽样分布的样本容量N,因而它未必接近总体真值。因此,在某些实际估计问题中,建立一个我们可以预期未知参数将按某种置信度位于其中的区间似乎更有意义,这种方法称为区间估计。

第四节假设检验一、

假设检验的逻辑核心思想:小概率事件原理在假设成立的前提下,计算当前样本结果出现的概率。如果该概率非常小(小概率事件),则怀疑原假设的正确性,从而拒绝它。二、

假设检验的步骤和方法例2.1即轴的直径问题。某厂批量生产一种直径为100毫米的轴,随机抽取一个16根轴的样本,计算出平均直径(样本均值)为110毫米,方差为100,要检验的是生产线是否出了问题。换句话说,我们要检验总体均值是不是100毫米。1.建立关于总体的原假设和备择假设

假设检验的第一步是建立要检验的假设。

假设检验涉及到在两个相互矛盾的假设之间进行选择,一个是原假设(nullhypohesis)用H0表示;另一人是备择假设(alternativehypostasis),用Ha或H1表示。

下面是关于车轴总体均值的原假设和备择假设:

原假设H0:μ=100

备择假设Ha:μ≠100

以上述形式给出的这种类型的检验称为双侧检验。若备择假设的形式变为μ>100或μ<100,则称为单侧检验。

3.检验原假设,得出关于原假设是否合理的结论

计算出检验统计量在原假设成立情况下的值,下一步就是根据是否出现小概率事件的原则进行判别。

在进行判别之前,需要确定一个标准,什么情况下拒绝原假设,什么情况下接受原假设。本节开头我们曾提到的5%的临界水平,或称为5%的显著性水平,就是一个这样的标准。其含义是如果我们上一步计算的t统计量的值出现的概率小于5%,则拒绝原假设,否则接受原假设。3.检验原假设,得出关于原假设是否合理的结论

显著性水平用

表示。显著性水平

=5%定下来以后,我们可以通过附录中的t表查出临界的t值tc,然后将上一步计算出的t值与临界的t值相比较,若|t|>tc,则拒绝原假设Ho,如下图所示。图2-7

接受域和拒绝域3.检验原假设,得出关于原假设是否合理的结论

在例子中,从t值表中可查出,对于α=0.05和自由度为16-1=15的t临界值tc=2.13,我们有

|t|=4>tc=2.13

因此,拒绝原假设H0,样本数据不支持总体均值为100的假设,可能是生产线出了问题。三、

统计假设的单侧检验

三、

统计假设的单侧检验

图2-8

单侧检验三、

统计假设的单侧检验在我们的例子中,如果采用单侧检验:

H0:μ=100

H1:μ>100则根据α=0.05,df=15查t值表,得临界值为tc=1.75,由于t=4>tc=1.75,结论仍是拒绝原假设H0,而接受备择假设μ>100。四、

两种类型的错误

四、

两种类型的错误

如果情况果真如此,则拒绝原假设,就是拒绝了正确的原假设,这类的错误称为第Ⅰ类错误。与此类似,若原假设是错误的,但被接受了,这种错误称为第Ⅱ类错误。

在设计统计检验时,重要的是要确定这两类错误产生的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论