数理统计知识小结_第1页
数理统计知识小结_第2页
数理统计知识小结_第3页
数理统计知识小结_第4页
数理统计知识小结_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计知识小结

第五章统计量及其分布

§5.1总体与样本

一、总体与样本

在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于

实际问题,总体中的个体是一些实在的人或物。这样,抛开实际背景,总体就是一堆数,这

堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总

体是合适的,从这个意义上说:

总体就是一个分布,而其数量指标就是服从这个分布的随机变量。

例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以。记合格品,以

1记不格品,若以〃表示不合格品率,则各总体可用一个二点分布表示:

X01

P1-PP

不同的〃反映了总体间的差异。

在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机

向量及其联合分布来描述总体,这种总体称为多维总体..

若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。实际中总体中

的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。

二、样本与简单随机样本

1、样本

为了了解总体的分布,从总体中随机地抽取〃个个体,记其指标值为司,々,

则西,々,…,乙称为总体的一个样本,n称为样本容量或简称为样本量,样本中的个体称为

样品。当〃230时,称…,乙为大样本,否则为小样本。

首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前

无法预知它们的数值,因比样本是随机变量,用大写字母表示;另一方面,

样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母

再,马,…,与表示。简单起见,无论是样本还是其观测值,本书中均用M,工2,…,居表示,

从上下文我们能加以区别3

每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有

具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相

比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人

们更好地认识总体。

2、简单随机样本

从总体中抽取样本可有不同的抽法,为了能由样本店总体作出较可靠的推断就希望样本

能很好地代表总体。这就需要对抽样方法提出一弊要求,最常用的有如下两个要求:

I)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品

匕与总体X有相同的分布。

2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着

Xi,/,…,X〃相互独立。

若样本用,々,…,匕是n个相互独立的具有同一分布的随机变量,则称该样本为简单随

机样本,简称为样本。

注(1)若总体X的分布函数为P(x),则其样本的联合分布函数为百尸(七)

/=1

(2)若总体X的密度函数为p(x),则其样本的联合密度为8〃(工)

j=l

(3)若总体X的分布列为〃(王),则其样本的联合分布列为首〃(七)

f=l

(4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为〃,当n«N

n

(―<0.1)时,不放回抽样得到的样本可认为是简单随机样本。

N

例5・1.5设有一批产品共N个,需进行抽样检验以了解其不合格品率p,现从中抽出〃

个逐一检有它们是否是不合格品,记合格品为0,不合格品为I。则总体为一个一点分布:

P(X=l)=p,P(X=0)=l-po没用,...,与为该总体的一个样本,采用不放回抽样得到。这时,

第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品:

P("M=1)=得

尸(占二I|A-,=o)=罟

但当N很大时,上述两个概率近似都等于p,所以当N很大,而〃不大时,不放回抽样得

到的样本可近似看成简单遁机样本。

§5.2样本数据的整理与显示

一、经验分布函数

1、定义设王,尤2,…,乙是取自总体分布函数为F(x)的样本,若将样本观测值从小到

大进行排列为不⑴,玉2),…,X(”),则X⑴«玉2)W…%)为有序样本,如下函数

0,当X<X(D

k

=17当心)=12…"T

1,当%>%)

称为经验分布函数。

2、经验分布函数的性质

1°对每一个固定的x,工(x)是事件“XWx”发生的频率,当〃固定时,户是样

本的函数,是一个随机变量,且乙(幻一^一/(1)。

2°(格里纹科定理)定理5.2.1:设m,々,…,%是取自总体分布函数为尸*)的样本,

E.(x)是经验分布函数,有

P(limsup\Fn(x)-F(x)|=0)=lo

n—立—ocxx<-wo

注此定理表明,当〃相当大时,经验分布函数是总体分布函数的一个良好的近似。

二、频数频率分布表

样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或

频率分布表,其基本步骤是:

1、对样本进行分组:首先确定组数A,作为一般性原则,组数通常在5-2()个。对容量

较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量在200

左右的样本可分9~13组,容量为300左右级以上的样本可分12到2()组。

2、确定每组组距:每组组距可以相同也可以不同。但实际中常选用长度相同的区间,

以d表示组距。

3、确定每组组限。

4、统计样本数据落入每个区间的个数一一频数,并列M其频数频率分布表。

具体例子略。

三、样本数据的图形显示:

常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略。

§5.3统计量及其分布

一、统计量与抽样分布

样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用。为

将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方

法是构造样本的函数,为此:

定义531设网,々,…,Z为取自某总体的样本,若样本函数7二丁(e,…,Z)中不含有

任何未知参数,则称T为统计量。统计量的分布为抽样分布。

按上述定义:设阳,人,…,£为样本,则£毛,£可2都是统计量,当〃,/未知时,

i=\/=1

X,=min{Xj},X(,)=max{Xj}分别称为样本的最小、最大次序统计量。

注样本项,/,…,匕独立同总体分布,但x⑴,X⑵,…,x(“)既不独立又不同分布。

三、统计量又与V的性质

〃_

定理5.3.1Z(Xj-x)=O。

1=1

定理5.3.2数据观察值与均值的偏差平方和最小,即在形如£(巧-c)2的函数中,

<=|

£(凡-42最小,其中。为任意给定常数。

1=1

定理5.3.3设玉,七,…,x〃是来自某个总体的样本,嚏为样本均值。

1)若总体分布为N(〃Q2),则x的精确分布为Ng-/)。

n

2)若总体分布未知或不是正态分布,但EX=。2,则〃较大时的渐近分布为

1_.1

阳〃,一。2),记为工~N(〃,-cr2)。

nn

定理5.3.4设总体X具有二阶矩,即£%=〃,点水=。2<+8,用,9,…,匕为从该

总体中得到的样本,最和S?分别是样本均值与样本方差,则

EX=EX=方=-VarX=-(y2,ES2=VarX=/。

nn

§5.4三大抽样分布

一、二分布(卡方分布)

1、定义541设X-X2,…,X”独立同标准正态分布M0』),则%?=£x:的分布称

/=!

为自由度为〃的分布,记为7?〜I?。?).

1n_)_L

力2(〃)的密度函数为:p(x)=---------x2e,,t>0o

22吗)

1、性质

2

1°可加性若乂~/5),丫~/(,〃)且X与y独立,贝|J。X\Y-Z(/HIn)

证明略。

2;,若X~/(〃),则EX=n,VarX=2no

30分布的分位数

定义若/2~力2(〃),对给定的a,0<«<1,称满足

P(/«/L5))=1-a

的zL(〃)是自由度为〃的72分布的1一。分位数。

注r要会查N?分位数。

T/一分布、尸一分布仍有相应的分位数定义。

二、斤一分布

1、定义设x~72[〃?),丫〜力2(〃),且x与丫独立,则称尸=汉竺的分布为自由

Y/n

度为(m,〃)的Z7分布,记为尸~尸(.〃,〃),"7、〃分别为分子、分母的自由度。

F(加,〃)的密度函数可由商的分布来推导,此处略。

2、性质

(1)若尸〜则----F(n,m)

Fo

⑵耳“切=示而

三、(一分布

1、定义

V

定义5.4.3设随机变量X服从N(O,1),丫〜/(〃),且*与y独立,则称t=的分布

为自由度为n的t分布,记为j(〃)。

/(〃)分布的密度可由商的分布公式来推导,此处略,但必须注意:

注(1)〃〃)分布的密度函数为偶函数,从而〃>1时,b=0,

(2)”〃)分布当n充分大时(〃230),可用M0J)分布近似。

2、性质

(1)若"*〃),则产~尸(1,〃);

(2)J(〃)=Tl-a(〃).

四、Fisher定理及其推论

1、Fisher定理

定理5.4.1设…,Z是来自正态总体N(〃,/)的样本,和一分别是样本均值与

样本方差,则

—1

⑴尸N(〃,一b);

n

bi=\b

(3)Q与Y独立。

注(1)在证明Th541的过程中有一重要结论即:独立同MOJ)分布的随机变量经过正交

变换后得到的仍是独立同M0』)分布的随机变量。

(2)证明思路:2,电,…,怎如"->必,)’2,…,)'〃—"名化->Z|,Z2,…,Z”,而后研究经

过两步变换得到的随机变晟之间的关系。

2、三个推论

推论5.4.1设为,々「、匕是来自正态总体汽(〃,。2)的样本3,52为样本均值、样本方

差,则"册C"叽

S

分析按L分布定义来证。

推论5.4.2设修,工2,…,/是来自N(〃|,b;)的样本,必,力,…是来自N(〃2。;)

的样本,且两样本相互独立,记

nn

—工=一1£七,s:=—I"-x—)2,—y=-\fy,c=-\-S(y,-J—)2.

1

tn,=|m-/=1n,=1n-\/=l

S;

b?c2

则有尸=一~尸(用一1,〃一1)。特别当时,/=一~尸(〃?一i,〃一i).

sy5;

分析据尸一分布的定义结合Th5.4.1°

推论5.4.3在推论5.4.2的记号下,设b:=<y\=b?,则有

T—(…2)----------e+〃一2)。

(小二1)51+5-吠h1

V〃2+〃-2Vmn

第六章参数估计

§6.1点估计的几种方法

一、参数估计问题

这里所指的参数是指如下三类未知参数:

1、类型已知的分布中所含的未知参数0。如二点分布b(l,P)中的概率P;正态分布

NW,。?)中的〃和;

2、分布中所含的未知参数。的函数:如正态分布的变量X不超过给定值。

的概率P(X<a)=①(伫幺)是未知参数的函数;

a

3、分布的各种特征数也都是未知参数,如均值EX,方差3水,分布中位数等笔。

一般场合,常用。表示参数,参数。所有可能取值的集合称为参数空间,记为®。参数

估计问题就是根据样本对上述各种参数做出估计。

二、概率函数

总体x的概率函数p(x,e)是指:当x为离散型总体时,p(,%e)就是总体的分布列;当

X为连续性总体时,p(x,。)就是总体的密度函数。

二、参数估计形式

分为点估计与区间估计。

设王,占,£是来自总体的样本,我们用一个统计量。/(囚,…的取值作为。的

估计值,3称为。的点估计量,简称估计。若给出参数。的估计是一个随机区间(g3),使

这个区间(么"包含参数真值的概率大到一定程度,此时称(&不)为参数。的区间估计。

四、矩法估计

1、替换原理及矩法估计

用样本矩去替换总体矩(矩可以是原点矩也可以是中心矩),用样本矩的函数去替换总

体矩的函数,这就是替换原理。

用替换原理得到的未知参数的估计量称为矩法估计。

注矩法估计适用于总体分布形式未知场合,因此只要知道总体相应的矩即可,而不必

知道其具体分布。

2、概率函数p(x,。)已知时未知参数的矩法估计

设总体的概率函数〃(依仇,…,4).(仇,…是未知参数,用,工2,…””是

总体X的样本,若EXk存在,则力存在。设

%=EX,=Vj(q,…=…,k,

如果4,…,4也能够表示成从,…,4的函数%=%(必,…,4),/=1,2,…,3则可给出

a八1£.

%的矩估计量为0…,4),/=1,2,…,h其中勺二-2町,/=12…,A

ni=i

设〃=g(a,…是a,…,%的函数,则利用替换原理可得到〃的矩估计量

/=g(A,…G),其中4是2的矩估计,,/=12…水。

例6.1.2设总体为指数分布,其密度函数为〃(尤;团=2"小/>0,网,々,…,匕为样

本,/1>0为未知参数,求4的矩估计。

11Al

解TX〜,.•.4=—,==为4的矩估计。

AEXx

注丁X~Exp{A},.\VcirX=—7»A=——/.A=^—7=—也为4的短估

计。因此矩估计不唯一,此时,尽量采用低阶矩给出未知参数的估计.

例6.1.3设总体X~U[4〃],内,々,…,%为样本,求。力的矩估计。

解•••X〜U[a,hl:.EX="士VknX="一。)

212

EX—"+'1-----------

a2/日"EX->j3VarX

由《小、2'得{I------,

VarX=(b-a)[b=EX+>j3VarX

~12

a=x-Gs

所以。的的矩估计为《AL

b=X+y/3s

3、矩估计的步骤

⑴计算总体的各阶矩EX',j=L2,…,k,令

勺=EXJ=匕©,a),./=12…次:

(2)解出切,即%=%(从,…,4),/=1,2,…人

令,=&(《,…,%),/=1,2,…,3其中勺=2£X/,/=1,2,…,Z

(3)

n;=|

(4)若〃=g(q,…,4),贝iJ4=gM,,:Q)为?的矩估计量。

五、最大似然估计

1、最大似然原理

一个试验有若干个可能的结果A,B,C,...»若在一次试验中结果A出现,则一般认

为试验条件对结果A出现有利,也即A出现的概率最大。

例6.1.5产品分为合格品和不合格品两类,用随机变量X表示某个产品是否合格,

X=()表示合格品,X=1表示不合格品,从而X〜"1,〃),其中〃未知是不合格品率,

现抽取〃个产品看是否合格,得到样本占,当,…,X",这批观测值发生的概率为:

£(P)=P(Xi=X,X?=%,…,X”=工“)=p[Xj=凡)

i=l

iin

J.>户1"-Z%

=np*a_p)f=〃;=,(i-p),=,

Z=1

当芭,修,…,x〃已知时,L(p)仅是〃的函数,既然一次抽样观测到芭,与,…,X”,此时应认

为试验条件对该组样本的出现有利,即该组样本出现的概率最大,从而可求出当p=?时

L(p)达到最大,此时把求出的p二?做为参数p的估计就得到〃的最大似然估计,问题转

化为求Up)的最大值点。

如果总体为连续型的,求未知参数的最大似然估计仍可转化为求L(p)的最大值点问

题。为此给出似然函数与最大似然估计的定义。

2、似然函数与最大似然估计

定义6.1.1设总体X的概率函数为〃(苍。)招£。是一个未知参数或几个未知参数组

成的参数向量,内,占,…,X”为来自总体X的样本,称样本的联合概率函数为似然函数,用

〃仇七,…,居)表示,简记为〃夕),即

L(e)=L(e;%),---,x/r)=pjp(勺,。)

/=1

如果统计量0=O(X[,电,X”)满足

L3)=maxL(0)

则称a=。(不,/,…,匕)是。的最大似然估计,简记为MLE。

由于Inx是上的单调增函数,因此对数似然函数In〃夕)达到最大与似然函数L(9)达

到最大是等价的。

3、求最大似然估计的两种方法

(1)似然方程法

当〃。)是可微函数时,的极大值点一定是驻点,从而求最大似然估计往往借助于

求下列似然方程(组)

ainL(e)

--------=Un

dO

的解得到,而后利用最大值点的条件验证求出的是最大值点。

(2)定义法

虽然求导函数是求最大似然估计量最常用的方法,但并不是所有场合求导都是有效的。

4、最大似然估计的不变性

性质如果。是。的最大似然估计,则对任一函数晨夕),g(J)是g(e)的最大似然估计。

注上述性质称为最大似然估计的不变性,从而使求复杂结构的参数的最大似然估计变

得容易,具体应用略。

§6.2点估计的评价标准

在评价某一个估计好坏时,首先要说明是在哪一个标准下,否则所论好坏则亳无意义。

有一个基本标准是所有的估计都应该满足的,它是衡量估计是否可行的必要条件,这就是估

计的相合性。

一、相合性

1、定义

定义621设,为未知参数,。=。,(%X")是。的一个估计量,〃是样本

容量,若对任一£>0有

lim夕(0-4>£)=0

即。=。(2,林…,X”)依概率收敛于。,则称瓦=女(内,々,…,X”)为。的相合估计。

相合性被认为是对估计的一个最基本要求,如果一人估计量在样本量不断增大时,它都

不能把被仙参数估计到任意指定的精度,那么这个估计是很值得怀疑的,通常,不满足相合

性要求的估计一般不予考虑。

注证明估计的相合性一般可应用大数定律或直接用定义来证,有时借助于依概率收敛

的性质。

2、相合性的判别定理

定理6.2.1设a=。(x,冗2,…,X”)是。的一个估计量,若

limE,=aiimVar@n=O

n->oon—>oo

则。=a(X],&,)是。的相合估计。

定理6.2.2若。一/2,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论