版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章计量经济学的统计学基础——复习数理统计学问题的提出首先,假定现在开始选学《计量经济学》课程的同学们都已经学习过《数理统计学》了。即便通过了《数理统计》的学分考试,也意识到数理统计学在大学的数学基础课教学中,属于比较困难的一部分。况且,同学们对《数理统计》的掌握可能不是很完备的。其次,大多数人对数学公式、数学符号的健忘,也提醒我们在进一步讨论计量经济学内容之前,必须对数理统计学的基本内容进行一些温习与回顾。解决问题的思路恳请同学们将数理统计学的书籍拿出来进行复习。在老师讲授的内容的同时,加强回顾,多思考,多提问。
3.同学们可以到图书馆借阅计量经济学的参考书。计量经济学的分类号是“F224”,计量经济学理论基础——统计学的分类号是“O212”。4.熟悉网上资源的使用,逐步养成通过网络了解课程知识的应用。一个很好的经济学网站,人大经济论坛:主要内容第一节总体、样本和随机函数第二节对总体的描述——随机变量的数字特征
第三节对样本的描述——样本分布的数字特征
第四节随机变量的分布——总体和样本的连接点第五节通过样本,估计总体(一)——估计量的特征第六节通过样本,估计总体(二)——估计方法第七节通过样本,估计总体(三)——假设检验为什么要复习数理统计学有部分同学没有学过数理统计,即便学过的同学也知道,数理统计在大学数学中,属于比较难的部分,而且是研修高级课程必不可少的准备。而且许多同学或许对于大部分同学,他们对于数学公式与数学符号的健忘,也提醒我们有必要在展开计量经济学讨论之前,对本课程中经常使用到的数理统计学基本内容事先进行一些温习和回顾。数理统计学在计量经济学中的地位事实上不懂得数理统计学就不可能学习和研究计量经济学。数理统计学是计量经济学的基础,它为计量经济学提供了唯一而有效的方法。此外,从某种意义上来说,计量经济学就是使数理统计学在建立经济模型中得以应用的一门科学。复习数理统计学必须注意建议同学们将已经学过的《西方经济学》、《数理统计学》、《线性代数》进行一次认真地复习。复习时,注重西方经济学的宏观部分,注重数理统计
学科体系的逻辑结构分析、注重数理统计方法的阐述、注重数理统计公式、定义和定理的内在涵义及其相互
关系,注重线性代数的求逆和相似形部分。在今后的学习中,注意经济学基本理论及其应用,注意数理统计学基础与计量经济学的联系与活用,注意线性代数与统计量的计量与检验。第一节总体、样本和随机函数四个基本定义与数理统计学的逻辑结构一、随机变量的分布二、二元随机变量三、独立性四、随机变量函数和分布四个基本定义与数理统计学的逻辑结构总体和个体样本和样本容量随机变量统计量数理统计学的逻辑结构总体(集合)和个体(构成集合的元素)研究对象的全体称为总体或母体,组成总体的每个基本单位称为个体。注意:按组成总体个体的多寡分为:有限总体和无限总体;总体具有同质性:每个个体具有共同的观察特征,而与其它总体相区别;度量同一对象得到的数据也构成总体,数据之间的差异是绝对的,因为存在不可消除的随机测量误差;个体表现为某个数值是随机的,但是,它们取得某个数值的机会是不同的,即它们按一定的规律取值,即它们的取值与确定的概率相对应。样本和样本容量总体中抽出若干个个体组成的集体称为样本。样本中包含的个体的个数称为样本的容量,又称为样本的大小。注意:抽样是按随机原则选取的,即总
体中每个个体有同样的机会被选入样本。随机变量根据概率不同而取不同数值的变量称为随机变量(RandomVariable)。注意:一个随机变量具有下列特性:RV可以取许多不同的数值,取这些数值的概率为p,p满足:0<=p<=1。随机变量以一定的概率取到各种可能值,按其取值情况随机变量可分为两类:离散型随机变量和连续型随机变量。离散型随机变量的取值最多可列多个;连续型随机变量的取值充满整个数轴或者某个区间。离散型随机变量与连续型随机变量10
20
30
40
50离散型随机变量1.0概率概率xx1.0连续型随机变量总体与随机变量的关系表示总体状况的数量特征,在总体中是参差不齐的,
往往以一定的概率取不同的数值,显然对于这样的数
值我们采用一般的变量是无法加以描述的。但是。可
以采用一种特殊的变量来表示它们。这个特殊变量就
是随机变量。因为,根据随机变量的定义,随机变量
以一定的概率取许多不同的值,而且概率p满足:
0<=p<=1。例如,一批灯泡的寿命可以取许多不同的数值,每个灯泡的取值不一定完全相同,但它们是按一
定概率进行分布的,但它们却是以一定的概率取某个
寿命值。由此看来,随机变量并不是一个随便变的量。由于我们主要研究总体的数量特征,可以直接用随机变量来表示所研究的总体。总体、随机变量、样本间的联系总体就是一个随机变量所有可能的取值,所谓样本就是n个(样本容量n)相互独
立且与总体有相同分布的随机变量
x1,……,xn。每一次具体抽样所得的数据,就是n元随机变量的一个观察值,记为(X1,……,Xn)。通过总体的分布可以把总体和样本连接起来。从两个角度来描述总体(随机变量)中个体的取值动态——概率——随机地选取一个个体取某个具体数值的可能性;静态——分布——个体取某个数值,从全局来看这个具体的数值(可能不只一个个体取这同一个数值)出现的次数占全体个体个数的比例,形象地说就是这个具体的数值在数轴的这个位置上分布了多少。分布也好、概率也好它们在度量上是一致的。这只是就离散型随机变量的通俗示意。总体分布是总体和样本的连接点所谓分布,它是从全局而言的。通俗地说,分布就是某个对象在什么地方,堆积了多少。任何一个随机变量都有自己的分布,这个什么地方就是在数轴上取什么值,堆积多少就是在那里占有的比例是多少或者概率有多大。总体可以表示为随机变量,并具有自身的分布。样本则是相互独立与总体具有相同分布的n元随机变量。因此,总体分布是总体和样本的连接点。从而,可以
通过对样本特征的研究达到对总体进行研究的目的。
因为它们具有相同的分布。须知,如果对于一个随机变量完全掌握了它的分布规律,就完全明白无误了。为什么样本是与所来自的总体具有相同的分布的随机变量因为样本具有二重性:一是指某一次具体的抽样的具体的数值(X1,……,Xn);二是指一次抽样的可能结果,它的每一次观察都是随机地从总体中(每一个个体有同样的机会被选入)抽取一个,所以它是一组随机变量(x1,x2,……,xn)而且,每一次抽样都来自同一总体(分布),也就是每一次抽样都带来了与总体一样的分布信息。所以,样本与所来自的总体分布相同。由于总体分布完整的描述了总体的信息,有时我们也直呼总体为分布,不加区别地使用总体或分布。统计量设(x1,x2,……,xn)为一组样本观察值,函数f(
x1,x2,……,xn
)若不含有未知参数,则称为统计量。统计量一般是连续函数。由于样本是随机变量,因而
它的函数也是随机变量,所以,统计量也是随机变量。统计量一般用它来提取或压榨由样本带来的总体信息。就是统计量。样本方差s2
=n
-1ni=12i(
-x)x样本与总体之间的关系样本是总体的一部分,是对
总体随机抽样后得到的集合。对观察者而言,总体是不了解的,了解的只是样本
的具体情况。我们所要做
的就是通过对这些具体样
本的情况的研究,来推知整个总体的情况。……Xn+1Xn…X1样本总体数理统计学的逻辑结构总体和样本引入一个随机变量来描述总体对总体的描述:随机变量的数字特征(3)对样本的描述:样本分布的数字特征总体与样本的连接点:随机变量的分布如何用样本的数字特征估计总体的数字特征及数据生成过程中的各种参数–––a估计量的优良性b
估计方法c对估计量的检验——假设检验x=
Var(x)s2xm
=E(x)
方差数学期望样本平均数X,描述样本的一般水平样本方差s2,描述样本的离散程度a
估计量的优良性1、无偏性2、有效性3、均方误最小4、一致性b
估计方法矩法最大似然法
最小二乘法
最小卡平方法总体分布未知正态总体一般总体(大样)已知方差方差未知一般总体(大样)正态总体估计期望单个总体两个总体估计方差(常用小样本下,正态总体估计其它参数)点估计区间估计c
对估计量的检验——假设检验1.对总体分布特征的假设检验一个正态总体的假设检验a
检验均值:已知方差和未知方差b
检验方差:未知均值(双尾和单尾)两个正态总体的假设检验a
检验均值:未知方差但可假设其相等b
检验方差:未知均值(双尾和单尾)总体分布的假设检验a
总体为离散型分布b
总体为连续型分布2.对各种系数、参数估计值的假设检验一、随机变量的分布(一)离散型随机变量的分布定义:如果随机变量x只取有限个或可列多个可能值,而且x以确定的概率取这些值,则称x为离散型随机变量。通常用分布列表示离散型随机变量:x的概率分布也可用一系列等式表示:P(
x
=xi)=pi
(i=1,2,……)称为x的概率函数。注意这里xi只出现一次。显然满足概率的定义:离散型随机变量的分布就是指它的分布列或概率函数。¥
i=1ii
p
=10
£
p
£1Xx1x2……..xi……..pp1p2……..pi……..离散型随机变量举例1例1一批产品的废品率为5%,从中任取一个进行检验,以随机变量来描述这一试验并写出的分布。以X=0表示“产品为合格产品”,X=1表示
“产品为废品”,那么分布列如下:其概率函数p(X=0)=0.95,p(X=1)=0.05,或p(X=i)=(0.05)i(0.95)1-i
(
i
=
0,
1)X0(合格品)1(废品)P0.950.05离散型随机变量举例2用随机变量X描述掷一颗骰子的试验。分布的概率函数为:P(X=i)=
1/6(i=1,2,3,4,5,6)X123456P1/61/61/61/61/61/6(二)随机变量的分布函数定义:若X是一个随机变量(可以是离散的,也可以是非离散的),对任何实数x,令F(x)=P(X<=x),称F(x)为随机变量X的分布函数。F(x),即事件“X<=x”的概率,是一个实函数。对任意实数x1<x2,有P(x1<X<x2)=P(X<=x2)-
P(X<=x1)=F(x2)-
F(x1)由此可知,若已知X的分布函数,就知道X在任何区间上取值的概率。所以,分布函数完整的描述了随机变量的变化情况。x2x2F(x)
f(x)Xx1x1分布函数F(x)的性质ixfi
-¥分布函数与概率函数满足关系:F
(x)=
pxi
£xF
(+
¥
)=
lim
F
(x)=1xfi
+¥(4)F
(x)至多有可列多个间断点。且在间断点上右连续。(1)对一切x
˛
(-
¥,+¥
)
,0
£
F
(x)£1(2)F
(x)为不减函数(3)F
(-
¥
)=
lim
F
(x)=
0分布函数举例例4求例2中的分布函数)
1
0F
(x)=
P(X
£
x
0.95x
<
00
£
x
<1x
‡14
/
61/
60x
<1
1
£
x
<
22
/
6 2
£
x
<
33
£
x
<
4
4
£
x
<
55
/
6
5
£
x
<
6
1
x
‡
6F
(x)=
P(X
£
x)=
3
/
60
1F(x)例3求例1中的分布函数xiF
(x)=
pxi<x(三)连续型随机变量的分布有F
¢(x)=j
(x)。dx
的连续点上,bax),并且在j
(x)显然P(a
<
X
£
b)=
j
(-¥(2)
j
(x)dx
=1定义:对于任何实数x,如果随机变量X的分布函数F(x)可以写成xF
(x)=
j
(t
)dt-¥其中j
(x)‡0,则称X为连续型随机变量,称j
(x)为X的概率分布密度函数,也常写成X
~
j
(x)。概率分布密度函数的性质:(1)j
(x)‡
0+¥为什么j(x)称为概率分布密度函数
F
x)=
j
x)\
j
(x)=
lim
F
(x
+
Dx)-
F
(x)表明j
(x)不是X取x值的概率,而是X在x点概率分布的密集程度。但是j
(x)能够反映X在x附近取值的概率大小。DxDx=
lim
P(x
<
X
<
x
+
Dx)Dxfi
0Dxfi
0连续型随机变量分布函数举例ldx
=l(b
-
a)=1又因为F
(x)=j
(t
)dtb
-
ax
<
a\
F
(x)=
x
-
a
a
£
x
<
bx
‡
b
1b
-
a
0\
l
=
1
lj
(x)=
0则称X服从区间[a,b]上的均匀分布。试求F
(x)。a
£
x
£
b其它-¥+¥-¥+¥-¥j
(x)dx
=例5
若X有密度函数x解
a
x
ba
x
blF(x)j(x)(四)分布函数、概率函数、密度函数三者的关系分布函数既适用于离散型也适用于连续型,是描述各种类型随机变量最一般的共同形式。但是,它不够直观。概率函数对于离散型的描述很直观。概率密度函数的大小能够反映X在x附近取值的概率的大小,从而比分布函数更直观。所以,在实际应用中我们分别用概率函数和密度函数对离散型和连续型随机变量进行描述。二、二元随机变量n元随机变量的定义:每次试验同时处理n个随机变量(X1,X2,……,Xn),它们的取值随试验的进行而变化。如果对任何一组实数(x1,x2,……,xn),事件“X1£x1,X2£x2,……,Xn£xn”有着确定的概率,则称n个随机变量(X1,X2,……,Xn)总体为一个n元随机变量。n元随机变量分布函数的定义:n元函数F(
x1,x2,……,xn
)=
P(X1£x1,X2£x2,……,
Xn£xn)(x1,x2,……,xn)属Rn,为n元随机变量分布函数。离散二元随机变量的定义:如果二元随机变量(X,Y)所有可能取值为有限或可列多个,并且以确定的概率取各个不同数值,则称(X,Y)为二元随机变量。(X,Y)的联合分布表和联合分布函数(X,Y)为离散型的二元随机变量,通常用联合分布函数与联合分布表表示。(X,Y)的概率分布表X
Yy1y2……yj……X的边际分布x1p11p12……p1j……p1.x2p21p22……p2j……p2.……………………………………xipi1pi2pijpi.……………………………………Y的边际分布p.1p.2……p.j……1称p(X=xi,Y=yj)=pij(i,j=1,2,…..)为(X,Y)的概率分布上式也称为(X,Y)的联合分布。离散二元分布函数的示例例6同一品种的5个产品中,有2个正品,3个次品,每次从中抽取一个进行质量检查,不放回的抽取,连续两次。令“Xi=0”表示第i次抽取到正品,而“Xi=1”表示第i次抽取到次品,写出(X1,X2)的分布。解p(X1=0,X2=0)=
p(X1=0)P(X2=0)=(2/5)(1/4)=1/10p(X1=0,X2=1)=p(X1=0)P(X2=1)=(2/5)(3/4)=3/10p(X1=1,X2=0)=p(X1=1)P(X2=0)=(3/5)(2/4)=3/10p(X1=1,X2=1)=p(X1=1)P(X2=1)=(3/5)(2/4)=3/10(X1,X2)的概率分布表X1
X201X1边际分布01/103/102/513/103/103/5X2边际分布2/53/51连续二元随机变量的定义如果存在一个非负函数j
(x,y),使得二元变量(X
,Y
)的分布函数F
(x,y),对于任意实数x,y都有:p(a
<
X
£
b,
c
<
Y
£
d
)=
显然,对于任意实数a
<b,c
<d
,有+¥
+¥-¥
-¥(2)
j
(s,
t
)dsdt
=1-¥
-¥b
da
cx
yF
(x,
y)=
j
(s,
t
)dsdt则称(X
,Y
)是二元连续型随机变量。j
(x,y)称为X与Y的联合密度函数。j
(x,y)的性质:(1)对于一切实数x,y,j
(x,y)‡0dxdyj
(x,
y)三、独立性(一)事件的独立性(二)随机变量的独立性(一)事件的独立性定义1.12事件的独立性的定义如果事件A发生的可能性不受事件B发生与否的的影响,即P(A/B)=P(A),则称事件A对于事件B独立。显然,若事件A对于事件B独立,事件B对于事件A也一定独立,我们称事件A与事件B相互独立。A与B独立的充分必要条件是:
P(AB)=P(A)P(B)(二)随机变量的独立性定义1.13随机变量相互独立的定义对于任何实数x,y,如果二元随机变量(X,Y)的联合分布函数F(x,y)等于X和Y的边际分布的乘积,即F(x,y)
=
FX(x)
.
FY(y)则称X与Y相互独立。
定义1.14边际分布的定义离散型二元随机变量(X,Y)中,分量X(或Y)的概率分布称为(X,Y)的关于X(或Y)的边际分布,边际分布又称边缘分布。四、随机变量函数的概念和分布定义1.15
随机变量函数的定义设f(x)是定义在随机变量X的一切可能取值集合上的函数。如果对于X的每一个可能值x,都有另一个随机变量Y的取值y=f(x)与之相对应,则称Y为X的函数,记作Y=f(X)。我们常常遇到一些随机变量,它们的分布往往难于直接得到(例如滚珠体积的测量值等),但与它们有关系的另一个随机变量的分布却是容易知道的(如滚珠直径的测量值)。因此,就要研究两个随机变量之间的关系,然后通过它们之间的关系,由已知随机变量的分布求出与之有关的其它随机变量的分布。其间的关系通常用函数关系表示。第二节对总体的描述——随机变量的数字特征一、数学期望二、方差三、数学期望与方差的图示一、数学期望研究数字特征的必要性两个最重要的数字特征数学期望方差研究数字特征的必要性总体就是一个随机变量。对总体的描述就是对随机变量的描述。随机变量的分布就是对随机变量最完整的描述。但是,求出总体的分布往往不是一件容易的事情;而且,在很多情况下,我们并不需要全面考察随机变量的变化情况,只需要了解总体的一些综合指标。一般说来,常常需要了解总体的一般水平和它的离散程度;如果了解总体的一般水平和离散程度,就已经对总体有了粗略的了解了;在很多情况下,了解这两个数字特征还是深入求出总体分布的基础和关键。由此看来,研究随机变量的数字特征是十分必要的。数学期望的定义实际上,E(X
)是随机变量X的所有可能取值的加权平均数。数学期望描述的是随机变量(总体)的一般水平。定义2.2连续型随机变量数学期望的定义若连续型随机变量X有分布密度函数j
(x),若积分定义2.1离散型随机变量数学期望的定义假定有一个离散型随机变量X有n个不同的可能取值
x1,x2,……,xn,而p1,p2,……,pn是X取这些值相应的概率,则这个随机变量X的数学期望定义如下:n+¥-¥+¥-¥xj
(x)dx绝对收敛,则E(x)=
xj
(x)dx称为X的数学期望。iixpx
x
xp
p
pE(x)=i=12
n11
2
n+
++
=女儿期待父亲钓多少鱼回家?数学期望是最容易发生的,因而是可以期待的。它反映数据集中的趋势。父亲钓鱼的试验数量概率10.10.120.10.230.41.240.20.850.21数学期望3.3数学期望的性质如果a、b为常数,则E(aX+b)=aE(X)+b如果X、Y为两个随机变量,则E(X+Y)=E(X)+E(Y)如果g(x)和f(x)分别为X的两个函数,则E[g(X)+f(X)]=E[g(X)]+E[f(X)]如果X、Y是两个独立的随机变量,则E(X.Y)=E(X).E(Y)求离散型随机变量数学期望举例例1
甲、乙两射手在一次射击中的得分(分别用X、Y表示)的分布率如下:试比较两射手的射击技术水平,并计算如果二人各发一弹,他们得分和的估计值。解EX=1·
0.4+2
·
0.1+3
·
0.5=2.1EY=1
·
0.1+2
·
0.6+3
·
0.3=2.2E(X+Y)=2.1+2.2=4.3EX<EY
乙射手射击水平比较高二人各发一弹,得分总和最可能在4.3分左右(即4分或5分)X123P0.40.10.5Y123P0.10.60.3二、方差定义2.5随机变量离均差平方的数学期望,叫随机变量的方差,记作Var(x),或D(x)。方差的算术平方根叫标准差。V
(X
)=f(x)dx(x-E(x
)+¥-¥2定义2.4
离均差的定义如果随机变量X的数学期望E(X)存在,称[X-E(X)]为随机变量X的离均差。显然,随机变量离均差的数学期望是0,即E
[
X-E(X)
]
=
0定义2.3
连续型随机变量的方差若X为连续型随机变量,则X的方差以下式给出:msx(x-
)[x-E(x)]=
Ex
=
Var
x
=
E=
V
(
)
(
)222x方差的意义离均差和方差都是用来描述离散程度的,即描述X对于它的期望的偏离程度,这种偏差越大,表明变量的取值越分散。一般情况下,我们采用方差来描述离散程度。因为离均差的和为0,无法体现随机变量的总离散程度。事实上正偏差大亦或负偏差大,同样是离散程度大。方差中由于有平方,从而消除了正负号的影响,并易于加总,也易于强调大的偏离程度的突出作用。方差的性质Var(c
)=0Var(c+x)=Var(x
)Var(cx)=c2Var(x)x,y为相互独立的随机变量,则Var(x+y)=Var(x
)+Var(y
)=Var(x-y)Var(a+bx)=b2Var(x)a,b为常数,x,y为两个相互独立的随机变量,则(ax+by)=a2Var(x)+b2Var(y)Var(x)=E(x2)-(E(x))2例2
计算本节例1中甲射手的方差例1
甲、乙两射手在一次射击中的得分(分别用X、Y表示)的分布率如下:E(X)=2.1Var(X)=(-
1.1)
2
·
0.4+(-0.1)2
·0.1+0.92
·
0.5=
0.89X123P0.40.10.5Y123P0.10.60.3三、数学期望与方差的图示数学期望描述随机变量的集中程度,方差描述随机变量的分散程度。1方差同、期望变大
2期望同、方差变小51055第三节对样本的描述——样本分布的数字特征一、样本分布函数二、样本平均数
三、样本方差一、样本分布函数设x1
,x2
,,xn
)为总体ξ的一组观察值,把它们按大小,令排列为x
<xx
xx
xxxx
x这里Fn
(x)等于样本的n个观察值中不超过x的个数除以样本容量n,称它们为样本分布函数。nk£
x
<£
x
<n
k
n
n
Fn
(x)=
**k
+1*2*1**1*211
x
‡
10*
*£
£
£样本分布函数举例随机观察总体X10个数据如下及其排序X*X3.22.5-42.5023.22.542X*-40222.52.52.53.23.24求样本分布函数。19
/108
/107
/101/100x
<
-4
-
4
£
x
<
0
2
/10 0
£
x
<
22
£
x
<
2.52.5
£
x
<
33
£
x
<
3.23.2
£
x
<
4x
‡
44
/10(x)=F10二、样本平均数总体的数字特征——是一个固定不变的数,称为参数;样本的数字特征——是随抽样而变化的数,是一个随机变量,称为统计量。定义3.1样本平均数的定义对于样本x1
,x2
,
xn
),称样本平均数用来描述样本的平均水平(一般Common)水平。n为样本平均数。i=1nx
=
1
ix三、样本方差和标准差定义3.2
样本方差和标准差的定义对于样本x1
,x2
,
xn
,称(
-x)(n
-1=\=(
-x)以及s
=n
-1=-x)x
x-
nsx
x-
nxxxsiiin
i=11
n2
2
ii=12
2ini=1ni=1ni=12
2
2n
-1
2211样本方差和标准差是用来描述样本离散程度的。分别为样本方差和标准差。第四节随机变量的分布——总体和样本的连接点一、几种重要的分布二、各种分布之间的联系三、分布是总体和样本之间的连接点学习的重点应放在确定X服从什么分布,和各种分布的联系上。一、几种重要的分布如果一个随机变量的分布已经确定,那么这个随机变量的一切性质对于我们便都是已知的。因为随机变量的分布是对随机变量最完整的描述。例如X是广西十万大山中树木的高度,它的分布函数
为F(x)=P(X<=x)。此时,你对任意给定的高度x,都确知不超过这个高度的树木在整个十万大山中所占的比例,你还会说整个十万大山树木高度的情况不清楚吗?再如,已知X服从数学期望和方差已知的正态分布,那么你便了解这个X自身的一切性质。可以通过查正态分布表确定研究中所需的一切数据。分布的数学形式和图形属“技术问题”,精力应集中于X究竟属于何种分布上。1.G分布(1)
G分布的定义如果连续型随机变量x具有密度函数(2)定理4.1
G分布的数学期望和方差00
lr+¥-¥dxG(r
)=G(r
)x
ex
er
-1
-xr
-1
-λx当r
>
0,
G(r
)这个积分收敛,且有
j
(x)dx
=1。则称x服从G分布,记作G(l,r
)。这里¥x
>
0,
(r
>
0,
l
>
0)x
£
0j
(x)=
2lEx
=
r
Varx
=lr2.
指数分布(1)指数分布的定义在定义4.1中如果r=1,此时的G分布称为指数分布指数分布的密度函数为:
0x
‡
0x
<
0-λxelj
(x)=
(2)定理4.2
指数分布的数学期望和方差Ex
=
1
Varx
=
12l
l3.
C
2
分布(2)定理4.3G分布的和仍然服从G分布j
(x)=x
£
0x
>
0
G
0212
22
2的c
分布,记作c
(n)。密度函数为(1)定义4.3
C
2
分布的定义r
=n
(n为正整数),l
=1
的G分布称为具有n个自由度222e
n
x2-
xn
-1
p则它们的和x1
+x2
++xn
服从参数为(λ,r1
++rn
)的G分布。(i
=1,2,n),若x1
,,xn
相互独立,且xi
~
G
λ,ri定理4.3推论:C
2
分布的和仍然服从C
2
分布若X1,X2,……,Xn相互独立,且Xi服从具有ni(i=1,2,……,n)个自由度的C
2分布,则它们的和X1+X2+……+Xn
服从具有S
ni
个自由度的C
2
分布。4.
正态分布定义4.4正态分布的定义若连续型随机变量x的概率密度为2ps22s(σ、μ为常数,σ>0)(x-m)2j
(x)=
1
e-j
(x)=x21
e-
22p则称x服从正态分布,简记为x
~
N
(μ,s
2
)。定理4.4
正态分布的数学期望和方差2正态分布的数学期望Ex
=m,,方差Varx
=s定义4.5
标准正态分布2当m
=0,s
=1的正态分布,称为标准正态分布,记作x
~
N
(0,1)。密度函数为正态分布的标准化h
~
N
(0,1)。根据以上定理,可以将任何一个正态分布,化为标准正态分布,即将其标准化。s定理4.5
正态分布标准化如果x
~
N
(m,s
2
),且h
=x
-m
,那么5.
t分布定义4.6
t分布的定义若连续型随机变量x的分布密度函数j
(x)由下式给出,则称x服从具有n个自由度的t分布,记作t(n)。
G2
2
2x2
-
n+1G
n
n
+1np
j
(x)=
1+26.
F分布x
£
0x
>
0GG
+
G
0-1n221222n-1nnnn
n
n2
2n1+n2n121+
x121n12j
(x)=21的F分布,简记为F
(n1
,n2)。定义4.7
F分布的定义若连续型随机变量ξ的分布密度函数由下式给出,则称ξ服从第一自由度为n
,第二自由度为nxC
2
分布的图象N=7N=11概率xN为自由度t分布和正态分布概率密度x标准正态分布t-分布0F分布的图象x概率密度二、各种分布之间的联系一般正态分布与标准正态分布的关系定理4.6
如果X~N(m,s2),则(X-m)/s~N(0,1)标准正态分布与X2分布之间的关系定理4.7如果X~N(0,1),则X2~X2
(1),即服从具有1个自由度的分布。标准正态分布与t分布之间的关系2设两个随机变量x和h相互独立,且x
~
N
(0,1),h
~
c
(n则T
=
x
服从具有n个自由度的t分布,即T
~
t(n)。其密度函h数/n见定义4.6。定理4.8二、各种分布之间的联系4.
卡方分布与F分布之间的关系~
(
),和
相互独立,且~
(
)定理4.9设两个随机变量1
2
1
2/222121
2
111n第一自由度为n1
,第二自由度为n2的F分布,其密度函数见定义4.7。5.关于正态分布的和~
F
(n
,n
)。其中F
(n
,n
)表示nx
/n22nxx
c,则有F
=x
cx
x。,定理4.10设sm2
2i2i1
n
i,n
ni=1i=1Var(h)=布,且Eh
=ai
miia
sni=1则它们的线性函数h
=
ai
xi(ai
不全为0),也服从正态分ix
x
x,,
相互独立,服从正态分布N二、各种分布之间的联系6.关于X2分布(参阅定理4.3推论)定理4.11设x1
,
xn
相互独立,都服从标准正态分布,,记作
(n)。相互独立,且与它们的离均差平方和则它们的平均数x
=则1n2
2
22
2c
c2服从具有n个自由度的2c=ni=1定理4.12设x1
,
xn
相互独立,都服从标准正态分布,i(
-x)ini=1(
-x)ni=1ni=1iix~
c
(n
-1)。xxx怎样记忆上述7个定理2定理4.7
X
2
~
cXX定理4.11
X
2定理4.9
~
F(注意第一自由度和第二自由度)X
2定理4.10
X
~
N(这里是X的线性组合,注意数学期望和方差)22X
2定理4.8
~
t(注意
X
还要除以自由度,也是t的自由度)定理4.12
(X
-X
)2
~
c2
(n
-1)且与X相互独立。2~
c
(注意总体的自由度为n,样本的自由度为n
-1)s定理4.6
Y
~
N
(m,s
2
),
X
=Y
-m
X
~
N(0,1)三、分布是总体和样本之间的连接点~
N
(0,1)(n
-1)1222(1)=(n)-222
2
2221
22i=122)的样本,则有:1(
-x)22)的样本,则有:1
=
-==\
n
ni=1
s
/
n
x
-m
xi
-m
-
=
xi
-x
i(
-x)i(
-x)xixx
xxx
xn
1
x
xni=1
ni=1
ni=1n证明
,,ni=1x与n~
c
(n
-1)2s定理4.14设
,,n定理4.13设
,,c
c
css
s
xi
-m
x
-m
sssN
(m,
)sss
/
nx
-
mx
~
N
m,是取自正态总体N
(m,s是取自正态总体N
m,,且相互独立取自正态总体相互独立。;三、分布是总体和样本之间的连接点s
/
n~
N
(0,1)x、s分别是样本的平均数和标准差,则T
=
x
-m
~
t(n
-1)。T
=
x
~t(n
-1)h
/(n
-1)x
-
m
x
-
ms
/
n\
x
-
m
~
t(n
-1)s
/
n2根据定理4.8根据定理4.14证明根据定理4.52i=12(
-x)21
n2-xn-1n
xi
i=1x
-msn
(xi-x
)i=1
n-1而T
=
s
/
n
=
1/
n
=
1/
n
=
x
-
mxinh
=
1
x
=
x
-
ms
/
n~
c
(n
-1)2sx
x定理4.15设
,,ss是取自正态总体N
m,的样本,~
t(n1
+
n2
-
2)分别为两个样本各自的平均数和方差。、和s
s其中x、y、n
s
n
s的正态总体N
(
)
N
(
)T
=22212222
211
1n1
n2,
的样本,则,
+
1
1
2
2n1
+
n2
-
2(
-1)
+
(
-1)x
-
y
-
(m
-
m
)1
2s
sm
m三、分布是总体和样本之间的连接点这是两个相互独立总体的样本平均数差数与总体数学期望差数之间的联系的定理。定理4.16设x1
,,xn
和y1
,,yn
分别是来自两个相互独立(
)分别为两个样本各自的方差。、其中的样本,则和的正态总体N
(
)N
(
)s
s222121~
F
n
-1,
n
-12222222211/,,F
=
1
1s
ss2
/s
2smsm三、分布是总体和样本之间的连接点相互独立两个总体样本方差与总体方差间联系的定理。定理4.17设x1
,,xn
和y1
,,yn
分别是来自两个相互独立相互独立两个总体样本方差与总体方差间联系的定理的证明/(
)////~/~/根据定理4.14
定理4.16证明21-1,
n
-1)~
F
(n222222
1
1222222222
21212212212-1,
-1)-12(
-1)2222(y
-y)21(
-1)2212121/(
-1)/(
-1)(
-y)11\==(
-x)s
ss
/sy(
-x)n
nn~
F
(x
/(n
-1)nnnin
xii=1=
i=1
=
1
1s
ss
/ss
ns
n而Fni=1in
xii=1x根据定理4.9
F
=csxcsx总体与样本间的联系在于具有相同的分布总体就是一个随机变量,所谓样本就是n个相互独立的与总体具有相同分布的随机变量x1,……,xn,即n元随机变量。以上的定理就是将总体与样本间的这种联系具体化,从而为达到通过样本的特征估计和代替总体的特征铺平道路。例如,已知一个研究对象x的数量特征服从N(m,s2),那么依据定理4.6,首先将其标准化,然后查标准正态分布表,就可以获得所需的信息。如果,对研究对象了解的信息并不完备,只知其属于正态分布均值为m
,但未知方差,则可利用定理4.15通过s2代替s2
,用t分布来估计未知总体的数字特征。在区间估计和假设检验中将会广泛地利用这些定理,通过样本估计总体和检验对总体的假设。第五节通过样本,估计总体(一)——估计量的特征对总体的数量特征可以提出若干估计量。所谓
估计量的特性指的是衡量一个统计量用以估计
总体参数的好坏标准。我们构造一个统计量时,它们就应当具有这些优良性,否则就不采用他
来估计总体参数。估计量的优良性可从四个方
面进行衡量:一、无偏性二、有效性三、均方误最小性四、一致性一、无偏性无偏性的直观意义:根据样本推得的估计值和真值可能不同,然而如果有一系列抽样依据同一估计方法就可以得到一系列估计值,很自然会要求这些估计的期望值与未知参数的真值相等。这就是无偏性的概念,无偏性的直观意义是:样本估计量的数值在真值周围摆动,即无系统误差。定义5.1
无偏性的定义定义5.1如果Eθˆ
=θ成立,我们称θˆ
为参数θ的无偏估计,亦称θˆ
具有无偏性。如果Eθˆ
„θ,我们称θˆ
为θ的有偏估计,其偏差Bias
=Eθˆ
-θ。θˆ
的概率
θˆ
的概率q的真值q的真值有偏无偏qˆ的概率θ
的真值qˆ的概率θ
的真值有偏估计无偏估计例1E
s2
=s
2Ex
=
m2nVar(x
)=
s[(
m)
(
m)]=s2ss2ssn
m
=
m试证Ex
=m,E2222222222221n
-1
nn
-11n
-1n
-1n
-11
11n-2
n=(x
-m)-2(
-m)=2(
-m)
(
m)
(
m)1
+
n-
2n=(x
-m)
1
2=
2
1
1
=
EE(
)s
==s
s(
-m)
1
1nnEniEix
-x
-En
-11
iE=n
-1in
-1E
1
i- -
x
-
nn
s
=nVar(x
)=
V
En证明Exxxxi=1x(
-x)xnnxxxn
i=1n
i=1n
i=1ni=1n-
2
(xi
-
m)(x
-
m)+ni=1ni=1ni=1x
=
2
Var(xi
)=n
i=1ini=1in=
E
=
i=1
in),Ex
=
m,Vx
=中取一样本从总体x(x,,两个相互独立样本的合并均值与合并方差分别是总体均值和方差的无偏估计如果从总体中抽取两个相互独立的样本,一个的容量
n1,另一个容量为n2,可以证明合并均值与合并方差是总体均值与方差的无偏估计。(
)(i
=1,2)1-1
1
2(
-
)22221
2122
21
11
2(
-1)
+(
-1)==+n1
+
n2
-
2合并样本均值x
=ij
inij
=1niiis
=i
j
=1
ix
xnn
xijxn
s
n
ssn
x n
xn
+
n其中合并样本方差无偏性是估计量最重要的优良性,且参数的无偏估计量不只一个无偏性是对估计量最重要的要求之一,它只能保证估计量的期望等于真值。而且,对于总体某个待定参数,其无偏估计量不只一个。例如,可以验证
都是总体数学期望的无偏估计量。必须指出根据计算总体方差的公式计算的样本方差不是总体方差的无偏估计量。=
mm===nnini
inn
ii
ini
i=1a
„
0nin
n
aai
xi
xia
ai
aia
x
aia
x
E(
)x¢E(
)=
E
i=1
i=1
i=1
i=1
n
i=1
1
ni=1x¢=
i=1
x
=
i=1
和二、有效性总体某个参数q的无偏估计量往往不只一个,而且无偏性仅仅表明q^的所有可能的取值按概率平均等于q,它的可能取值可能大部分与q相差很大。为保证q^的取值能集中于q附近,必须要求q^的方差越小越好。所以,提出有效性标准。有效性的定义定义5.2设θˆ
和θˆ¢都是θ的无偏估计量,若对任意的样本容量
n,总有θˆ
的方差小于θˆ¢的方差,则称θˆ是比θˆ¢有效的估计量。如果在θ的一切无偏估计量中,θˆ
的方差达到最小,则θˆ
称为
θ的有效估计量,亦称θˆ
具有有效性。b的真值b的真值b^的概率b^的概率比较总体均值两个无偏估计的有效性Ex
=
m
V
(x
)=
nsV
(x¢)=V
(x¢)‡=
V
(x
)nninni
jnj
i
jiini=1inininin
naaa2ia
a
aa
aaaa=
naV
(x)=aai
xi
xii=1比较x
=
i=1
和x¢=
i=1 =i=12ini=12i2
1
2n
s
s++
(
)£+=
i=1a
„0的有效性。
n
n
ai
nEx¢=
n
ai
E
xi
=
mi=12j2i
i=1
i<
j2i
n
ai
i=1
i<
j2i2
s
i=1
a2i=1i=1i=1
n2
2利用不等式a
+a
‡2
a
a
,222i=1
i=1
21
2211(证明了无偏性)无偏有效估计量的意义一个无偏有效估计量的取值在可能范围内最密集于q附近。换言之,它以最大的概率保证估计量的取值在真值q附近摆动。可以证明,样本均值是总体数学期望的有效估计量。三、均方误(Mean
Square
Error)最小性在很多情况下,我们被迫在偏差的大小与方差的大小(即无偏与有效性)之间作出抉择。有时,一个方差极小的有偏估计比一个方差极大的无偏估计可能更为我们所追求。此时,估计量的均方误为我们在两者之间的权衡提供了一个有效的尺度。均方误和均方误最小性的定义[
]
[
]ˆθ-
E(
E(θ)
-θˆ
ˆˆˆθ) E(θ)-θθ-E(ˆ
ˆˆˆ
ˆθ
θ-E((θ-
)
[(
)
(
)]ˆ2222θ)
+
E(θ)-θ+
2E[
θ)][
]+
E=
E=
E=
E=Var(θˆ
)+[Bias(θˆ)]2
+0
=精确度+准确度
2E[θˆ
-
E(θˆ
)][E(θˆ
)
-θ]=
2E[θˆ
-
E(θˆ
)]E[E(θˆ
)
-θ]=
0MSE(θ)定义5.3若参数θ的估计量为θˆ
,E
(θˆ
-θ)2
称为估计量θ的均方误,记作MSE(θˆ
)。在θ的一切估计量中,使其均方误最小的估计量,称为θ的最小均方误估计量,即θ具有最小均方误性。估计量θˆ
的均方误可作如下分解:MSE(θˆ
)=
Var(θˆ
)+[Bias(θˆ
)]2均方误最小的意义MSE(——误差)分解为精确度与准确度之和。MSE最小就是使估计量方差与估计量偏误之和最小,给出了进行权衡的方法(见下图)如果估计量为无偏估计量Bias=0,那么MSE(q^)=Var(q^)即误差由精确度确定。此时,一个具有最小MSE的估计量一定具有无偏性和有效性,即MinMSE(q^)=MinVar(q^)。运用MSE权衡偏差与方差q最小均方误(有偏,方差极小)无偏,方差极大q^q^的概率准而不精又精又准一次射击就是一次抽样。试问:哪些是无偏估计?哪些是有偏估计?哪些是有效估计?精而不准不精不准重庆长安厂4支比赛用枪的抽样结果哪些是无偏有效估计?四、一致性“依概率收敛”的定义一致性一致性的意义(1)“依概率收敛”的定义列{}依概率收敛于a。P(
)有nnxxlim-a
<e
=1,则称随机变量序定义5.4若存在常数a,使对于任何e
>0,nfi
¥(2)一致性定义5.5
若当n
fi
¥时,θˆ
依概率收敛于θ,即任意给定e
>0,若lim
P{θˆ
-θ<e}=1,则称θˆ
为参数θ的一致估计量,nfi
¥θˆ
具有一致性。一致性既是从概率又是从极限性质来定义的,因此只有样本容量较大时才起作用。一致性作为评价估计量好坏的一个标准,计量经济学家在无偏性和一致性之间更偏重选择一致性。虽然一个一致估计量可能在平均意义上与真值不同,但是当样本容量加大时,它会变得与真值十分接近,即有偏的一致估计量具有大样本下的无偏性。同时,根据大数定律,当n增大时,方差会变得很小,所以一致估计量具有大样本下的“无偏性”和“有效性”。(3)一致性的意义显然,一个一致估计量比一个方差很大的无偏估计量优越得多。由于MSE(b^)=Var(b^)+Bias(b^)2,所以估计量的一致性,实际上等价于当n=>¥
时,
MSE(b^)=>0,亦即Var(b^)=>0和Bias(b^)2
=>0,也就是随着样本加大,b^的方差变小;b^的偏差接近于0,这就是一致性描述的情况。事实上一致性和MSE(b^)=>0(当n=>¥)这两条标准在计量经济学中往往是通用的。N小N大N极大小qq的概率第六节通过样本,估计总体(二)——估计方法一、点估计矩法最大似然法最小二乘法二、区间估计(一)对总体期望值的估计(二)对总体方差的估计(三)关于区间估计的几点说明一、点估计所谓点估计就是给出被估计参数的一个特定的估计值。常用的点估计方法有四种:矩法、最大似然法、最小二乘法和X2法。这四种方法分别建立在不同的原则上。对同一样本根据四种方法估计同一参数,所获得的估计结果可能互不相同。然而由于各种建立原则的合理性,所以四种方法在研究中都经常使用。(1)矩法矩法是求估计量最古老的方法。具体作法是:一样本矩作为相应总体矩的估计量;以样本矩的函数作为相应的总体矩同样函数的估计量。这种方法最常见的应用是用样本平均数估计总体数学期望。矩法比较直观,求估计量时有时也比较
直接,但它求出的估计量往往不够理想。矩法点估计的例题例1某灯泡厂某天生产了一大批灯泡,从中抽取了10个进行寿命试验,获得数据如下(单位:小时),问该天生产的灯泡的平均寿命是多少?抽样序号12345678910寿命(小时)1050110010801120120012501040113013001200计算得样本算术平均数=1147,作为总体数学期望的估计值,qˆ
=
2x又在矩法下mˆ
=xxdx
=0
<
x
<q其它x例2若样本x1
,
xn
取自均匀分布2\
q
=
x11120=¥q
0x dx
=q-¥xj
(x,q
)dx
=j
(x,q
)=
q
0+¥
m
=¥q1
1
2
0
2问在矩法下q是多少?(2)最大似然法(Maximum Likelihood
Estimation)1、一个重要的事实2、最大似然法的概念3、似然法函数4、最大似然法的定义5、最大似然法的三个示例1、请注意如下事实不同的总体会产生不同的样本,对于某一特定的样本,在我等不了解产生它的母体究竟为何物的观察者眼中,它来自一些母体的可能性要比来自另一些母体的可能性大,即一些母体更容易产生出我们所观察到的样本。举例说,假定我们抽取到(x1,x2,……,x8)我们知道它来自正态总体,且总体的方差是了解的,但是总体的均值未知。如下图所示。分布B分布A概率xx6 x2
x3
x4
x5
x6
x7x8假定样本不是来自B就是来自A。如果样本来自B,观察到它的可能性非常
小;真正的母体若是A,得到样本的可能性很大。显然我们宁愿承认样本
来自A。是样本“替”我们“选择”了A。2、最大似然法的概念上述事实诱导我们宁愿作出这样的抉择:将样本最容易来自的总体当作产生样本的总体。现在要根据从总体x中抽取得到的样本(x1,……,xn)对总体中的未知数q进行估计。最大似然法是选择这样的估计量q^作为q的估计值,以便使观察结果(x1,……,xn)出现的可能性(概率)最大。对于离散型变量,就是要选择q^使p(x1)p(x2)…p(xn)最大。(连乘——表示一次独立地抽取各个样本观察值)对于连续型变量,就是要选择q^使j(x1)j(x2)...j(xn)最大。注意j(xi)是随机变量在xi附近取值的概率,相当于离散
型的p(xi)。3、似然法函数设x为连续型随机变量,它的分布函数是F
(x;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年企业中层管理者管理效能提升实战训练营
- 2026年化验室药品验收与储存管理制度
- 2026年高校学生宿舍传染病隔离观察区管理制度
- 2026年国际工程分包合同常见法律风险
- 工用锅炉水处理化验员考试试题及答案
- 2026年人力资源部岗位设置与工作职责
- 2024年云南二级建造师考试真题卷及答案《建筑工程》
- 门窗抗风压现场检测记录
- 初中心理教育2025年说课稿学习适应
- 小学心理教育2025自我认知说课稿
- 水厂配套引水管道工程环评环境影响报告书
- 【能力提升】高中选择性必修下册第二单元测试卷(含解析)
- 加油站会议管理制度
- HG∕T 4104-2019 水性氟树脂涂料
- 2023年烟草辽宁公司招聘考试真题及答案
- 第1单元水复习(课件)科教版科学三年级上册
- 《项目物资管理》课件
- iso14000环境管理体系
- CATIA各模块功能全面讲解经典收藏(基础)
- 临沂市兰山区2022-2023学年小升初数学重难点模拟卷含答案
- 脚手架外挂架
评论
0/150
提交评论