数理统计课件2015_第1页
数理统计课件2015_第2页
数理统计课件2015_第3页
数理统计课件2015_第4页
数理统计课件2015_第5页
已阅读5页,还剩260页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学的作用惊人的预测惊人的预测惊人的预测惊人的预测第一章:数理统计学的基本概念

对随机现象进行观测、试验,以取得有代表性的观测值

对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性数理统计的分类描述统计学推断统计学第一节基本概念一、总体和个体二、样本简单随机样本一、总体和个体

一个统计问题总有它明确的研究对象.…研究某批灯泡的质量研究对象的全体称为总体(母体),组成总体的每个元素称为个体.总体

然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.这时,每个个体具有的数量指标的全体就是总体.某批灯泡的寿命该批灯泡寿命的全体就是总体国产轿车每公里的耗油量国产轿车每公里耗油量的全体就是总体

所研究的对象的某个(或某些)数量指标的全体称为总体,它是一个随机变量(或多维随机变量),记为X

.X

的分布函数和数字特征称为总体分布函数和总体数字特征.总体:

例如:研究某批灯泡的寿命时,总体X是这批灯泡的寿命,而其中每个灯泡的寿命就是个体。每个灯泡的寿命个体总体国产轿车每公里的耗油量国产轿车每公里耗油量的全体就是总体

又如:研究某批国产轿车每公里的耗油量时,总体X是这批轿车每公里的耗油量,而其中每辆轿车的耗油量就是个体。

类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)来表示,而每个学生的身高和体重就是个体.

为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量.二、样本简单随机样本1)抽样和样本

样本的抽取是随机的,每个个体是一个随机变量.容量为n的样本可以看作n维随机变量,用X1,X2,…,Xn表示.

而一旦取定一组样本,得到的是n个具体的数(x1,x2,…,xn),称其为样本的一个观察值,简称样本值

.2.X1,X2,…,Xn相互独立.

由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.最常用的一种抽样方法叫作“简单随机抽样”,它要求抽取的样本满足下面两点:1.样本X1,X2,…,Xn中每一个Xi与所考察的总体X有相同的分布.2)简单随机样本

由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布的n个相互独立的随机变量X1,X2,…,Xn表示.

简单随机样本是应用中最常见的情形,今后,当说到“X1,X2,…,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本.

设X1,X2,…,Xn

是总体X的一个简单随机样本,1)若X为离散型总体,其分布律是p(x),则X1,X2,…,Xn的联合分布律为p(x1)p

(x2)…

p

(xn)2)若X为连续型总体,其概率密度是f(x),则X1,X2,…,Xn的联合分布律为f(x1)f

(x2)…

f(xn)

事实上我们抽样后得到的资料都是具体的、确定的值.如我们从某班大学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不是样本.我们只能观察到随机变量取的值而见不到随机变量.3)总体、样本、样本值的关系

统计是从手中已有的资料—

样本值,去推断总体的情况

总体分布F(x)的性质.

总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.样本是联系二者的桥梁4)经验分布函数

设X1,X2,…,Xn为取自总体X的样本,x1,x2,…,xn为其观察值.对于每个固定的x,设事件{X≤x}在n次观察中出现的次数为vn(x),于是事件{X≤x}发生的频率为:显然Fn(x)为不减右连续函数,且称Fn(x)为样本分布函数或经验分布函数.定理(格列文科)当n→∞时,经验分布函数Fn(x)依概率1关于x一致收敛与总体分布函数,即定理表明:当样本容量n充分大时,经验分布函数Fn(x)几乎一定会充分趋近总体分布函数F(x),这是用样本来推断总体的理论依据.第二节统计量与抽样分布一、统计量二、统计学中三个常用分布和上α分位点三、抽样分布定理一、统计量

由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)信息集中起来.定义中不含有任何的未知参数,则称函数g(X1,X2,…,Xn)如果样本X1,X2,…,Xn的函数g(X1,X2,…,Xn)为统计量.g(x1,x2,…,xn)为统计量g(X1,X2,…,Xn)的一个若x1,x2,…,xn是相应的样本值,则称函数值观察值.若,2

已知,则是统计量,而例如:是X的一个样本,则不是统计量.也是统计量.是未知参数,

几个常用的统计量样本均值样本方差它反映了总体均值的信息它反映了总体方差的信息样本k阶原点矩样本k阶中心矩

k=1,2,…它反映了总体k

阶矩的信息它反映了总体k

阶中心矩的信息它们的观察值分别为:由大数定律可知:依概率收敛于例1.

从一批相同的电子元件中随机地抽出8个,测得使用寿命(单位:小时)分别为:2300,2430,2580,2400,2280,1960,2460,2000,试计算样本均值、样本方差及样本二阶矩.解:抽样分布

统计量是样本的函数,而样本是随机变量,故统计量也是随机变量,因而就有一定的分布,它的分布称为“抽样分布”

.

二、统计学中三个常用分布和上α分位点下面介绍三个来自正态总体的抽样分布.分布1、定义:

设相互独立,都服从标准正态分布N(0,1),

则称随机变量:

所服从的分布为自由度为

n

的分布,记为分布的概率密度为在其中是函数处的值.n=1n=4n=10f(y)01357911131517x0.50.40.30.20.1有所改变.分布的概率密度图形如下:显然分布的概率密度图形随自由度的不同而性质1.

设则证明:设相互独立,则分布的性质:这个性质称为分布的可加性.性质2.

设且与相互独立,则t的概率密度为:

定义:

设X~N(0,1),Y~所服从的分布为自由度为n的t

分布.记为t~t(n).2、t分布,且X与Y相互独立,则称变量n=4n=10n=1t(x;n)t分布的概率密度函数关于t=0对称,且当n充分大时(n≥30),其图形与标准正态分布的概率密度函数的图形非常接近.但对于较小的n,t分布与N(0,1)分布相差很大.由定义可见,3、F分布则称统计量服从自由度为n1及n2的F分布,n1称为第一自由度,~F(n2,n1)定义:

设X与Y相互独立,n2称为第二自由度,记作F~F(n1,n2).若X~F(n1,n2),则X的概率密度为注意:统计的三大分布的定义、基本性质在后面的学习中经常用到,要牢记!!4、上α分位点定义:设随机变量X的概率密度为f(x),对于任意给定的α(0<α<1),若存在实数xα,使得:则称点xα为该概率分布的上α分位点正态分布的上α分位点

对标准正态分布变量Z~N(0,1)和给定的,上分位数是由:P{Z≥z}=即P{Z<z}=1-(z)=1-确定点z.如图:例如,=0.05,而P{Z≥1.645}=0.05所以,

z0.05=1.645.φ(x)xzαo说明:

1)除标准正态分布外,分布、t分布、F分布的上分位点都有表可查.

2)对于分布,当n充分大时(n>45),其中Zα是标准正态分布的上α分位点3)对于t分布a)由其对称性,有:

b)当n充分大时(n>45),

4)对于F分布,有:例2.

查表求下列值:

解:,例3.设总体X和Y相互独立,同服从分布,而X1,X2,…,X9和Y1,Y2,…,Y9的分布.分别是来自X和Y的简单随机样本,求统计量解:X1,X2,…,X15是来自X的简单随机样本,求例4.设总体X服从分布,而的分布.统计量解:例5

设总体为总体

X

的样本,

试确定常数c,使解:故因此分布.cY服从

当总体为正态分布时,教材上给出了几个重要的抽样分布定理.这里我们不加证明地叙述.三、抽样分布定理定理1

设X1,X2,…,Xn是取自正态总体的样本,则有(1)样本均值(2)样本均值与样本方差相互独立。(3)随机变量定理2

设X1,X2,…,Xn是取自正态总体的样本,分别为样本均值和样本方差,则有

定理3

(两个总体样本均值差的分布)且X与Y独立,分别是这两个样本的样本均值,自Y的样本,分别是这两个样本的样本方差,则有是取自X的样本,X1,X2,…,Y1,Y2,…,是取

定理4(两个总体样本方差比的分布)且X与Y独立,分别是这两个样本的样本均值,Y的样本,分别是这两个样本的样本方差,则有X1,X2,…,是取自X的样本,Y1,Y2,…,是取自上述4个抽样分布定理很重要,要牢固掌握.的概率不小于90%,则样本容量至少取多少?例6.设,为使样本均值大于70的概率解:设样本容量为n,则令得即所以至少取例7.

从正态总体中,抽取了n=20的样本解:

(1)即故(2)

故第二章:参数估计第一节参数估计的意义和种类一、参数估计问题二、未知参数的估计量和估计值三、参数估计的种类

数理统计的基本问题是根据样本提供的信息,对总体的分布以及分布的某些数字特征作出推断。这个问题中的一类是总体分布的类型为已知,而它的某些参数为未知,根据所得样本对这些参数作出推断,这类问题称为参数估计。如:一、参数估计问题

已知显象管的使用寿命服从指数分布,但参数θ未知,现抽样得样本X1,X2,…,Xn,依据某理论(后述)用样本来估计参数θ.这就是参数估计问题.二、未知参数的估计量和估计值样本X1,X2,…,Xn

,样本值x1,x2,…,xn

.设有一个总体X,其分布函数为F(x,θ),其中θ为未知参数(θ也可以是未知向量).现从该总体抽样,得g(X1,X2,…Xn)为θ的估计量,将样本值x1,x2,…,xn若构造出适当的统计量g(X1,X2,…Xn)来估计θ,则称代入,则称g(x1,x2,…xn)为θ的估计值.估计未知参数的值估计未知参数的取值范围,并使此范围包含未知参数真值的概率为给定的值.参数估计的种类点估计:区间估计三、参数估计的种类设这5个数是:1.651.671.681.781.69若估计μ为1.68,这是点估计.这是区间估计.若估计μ在区间(1.57,1.84)内,

现从该总体选取容量为5的样本,我们的任务是要例如:我们要估计某队男生的平均身高.且假定身高服从正态分布根据选出的样本值(5个数)求出总体均值μ的估计值.而全部信息就由这5个数组成.一、矩估计法第二节点估计的求法

二、极大似然估计法一.矩估计法理论依据:记总体k阶矩为样本k阶矩为(辛钦大数定律及其推论)则样本k

阶矩依概率收敛于总体k

阶矩.

方法:出待估参数.用样本k

阶矩估计总体k

阶矩建立含有待估参数的方程,从而解样本

X1,X2,…,Xn的前k

阶矩记为步骤:设总体的分布函数的形式已知,待估参数为总体的前k

阶矩存在.(1)求出总体的前k

阶矩,一般是这k个参数的函函数,记为:7-12(3)解此方程组,得

k

个统计量:

称为未知参数

1,,k

的矩估计量这是含未知参数

1,2,,k

的k个方程构成的方程组,(2)令7-12代入样本值,得

k个数:称为未知参数

1,,k

的矩估计值例1.设总体X~B(m,p),

其中p未知,X1,X2,…,Xn为总体的样本,求p的矩估计量.解:令7-13得总体矩样本矩例2.设总体X的概率密度为解:X1,…,Xn为样本,求参数的矩估计.令得总体矩样本矩

例3.设X1,X2,…Xn是取自总体X的一个样本其中θ>0,求θ,μ的矩估计.解:令解得用样本矩估计总体矩由课文本节例1知:不论总体为何分布,总体均值的矩估计量总是总体方差的矩估计量总是例4.设从某灯泡厂某天生产的灯泡中随机抽取10只灯泡,测得其寿命为(单位:小时)1050,1100,1080,1120,1200,1250,1040,1130,1300,1200,试用矩法估计该厂这天生产的灯泡的平均寿命及寿命分布的方差.解:7-14

二、极大似然估计法

即:在一次试验中,概率最大的事件最有可能发生.引例:

有两个外形相同的箱子,各装100个球,一箱中取得的球是白球.问:所取的球来自哪一箱?答:

第一箱.中有99个白球1个红球,一箱中有1个白球99个红球。现从两箱中任取一箱,并从箱中任取一球,结果所

一般说,若事件A发生的概率与参数有关,取值不同,P(A)也不同。则应记事件A发生的概率为P(A|).若一次试验,事件A发生了,可认为此时的值应是在中使P(A|)达到最大的那一个。这就是极大似然原理.(极大似然原理)极大似然估计法的理论依据:X1,X2,…Xn是取自总体X的样本,x1,x2,…

xn是样本值.则样本的联合分布律为:似然函数:其中为未知待估参数,1.X是离散型总体,其分布律为:记2.X是连续型总体,其概率密度为为其样本的似然函数.则称称为样本的似然函数.似然函数的值的大小实质上反映的是该样本值出现的可能性大小.极大似然估计的方法:对于给定的样本值x1,x2,…,xn,选取使得其似然函数达到最大值。即求使得7-22称为未知参数1,,k

的极大似然估计值这样得到的估计值对应的统计量称为未知参数1,,k

的极大似然估计量(1)由总体分布和所给样本,求得似然函数步骤:(2)求似然函数的对数函数函数(化积商为和差,而和同时取得最大值)(3)解方程组LLLLLLL7-12(4)得未知参数1,,k的极大似然估计值及其对应的极大似然估计量7-12若待估参数只有一个,则似然函数是一元函数L(θ),此时,只须将上述步骤中求偏导改为求导即可。说明:例5.

设总体X服从参数为的泊松分布,求参数λ的极大似然估计量解:的样本,样本观察值为由X服从泊松分布,得X的分布律为为从总体X中随机抽取设似然函数为两边取对数,得=0得对λ求导,并令其为0,所以参数λ的极大似然估计量为:,其中λ>0总体X的样本值,求参数λ的极大似然估计值.例6.

设总体X的概率密度为为待估参数,a>0是已知常数,是取自解:两边取对数,得对λ求导,并令其为0,得这就是λ的极大似然估计值.其中θ是未知参数,3,1,3,0,3,1,2,3,是来自总体X的样本观察值,求参数θ的极大似然估计值.例7.

设总体X的分布律解:两边取对数,得对θ求导,并令其为0,=0得和因为不合题意,所以θ的极大似然估计值为1.可证明极大似然估计具有下述性质:设θ的函数g=g(θ)是上的实值函数,且有唯一反函数.如果是θ的极大似然估计,则g()也是g(θ)的极大似然估计.关于极大似然估计的两点说明:此性质称为极大似然估计的不变性例8.

设X1X2,…,Xn为取自参数为θ的指数分布总体的样本,a>0为一给定实数。求p=P{X<a}的极大似然估计解:概率密度和分布函数分别为由总体X服从参数为θ的指数分布知,X的两边取对数,得对θ求导,并令其为0,得θ的极大似然估计值为因为所以,p=P{X<a}的极大似然估计值为2、当似然函数不是可微函数时,须用极大似然原理来求待估参数的极大似然估计.例9.

设X~U(a,b),x1,x2,…,xn是

X

的一个样本值,求

a,b的极大似然估计值与极大似然估计量.解:由X~U(a,b)知,X的密度函数为似然函数为似然函数只有当a<xi<b,i=1,2,…,n时才能获得最大值,且a越大,b越小,L(a,b)越大.令xmin=min{x1,x2,…,xn}xmax=max{x1,x2,…,xn}取则对满足的一切a<b,都有故是a,b的极大似然估计值.分别是a,b的极大似然估计量.,其中为待估参数,是取自总体X

的样本值,例10.

设总体X的概率密度为的矩估计值和极大似然估计值.

求参数解:令得θ的矩估计值:(1)矩估计两边取对数,得(2)极大似然估计得θ的极大似然估计值:对θ求导,并令其为0,

通过例10可见,对同一个待估参数,用不同的方法进行点估计,可能得到不同的估计量.这样就有必要判断哪一个估计量更好,这就是下一节要讲的内容:评价估计量优良性的标准一、无偏性二、有效性三、一致性第三节估计量的评选标准一、无偏性随机变量,每次抽样后得到的θ的估计值不一定与提出了无偏性的衡量标准。由于未知参数θ的估计量是真值θ相吻合,其误差为我们自然希望平均误差为零,即也就是说这就定义:设是未知参数的估计量,若则称是

的无偏估计量.

总体X服从什么分布,样本的k阶矩例1.设总体X的k阶矩存在,是总体X的一个样本,试证明:不论是总体k阶矩的无偏估计.证明:由于X1,X2,…,Xn和总体X同分布,因而所以样本的k阶矩是总体k阶矩的无偏估计例2.设总体X的期望与方差存在,X的样本为(1)不是D(X)的无偏估量;(2)是D(X)的无偏估计量.证明:先证明(n>1).证明所以因而所以

不是D(X)的无偏估计量;所以是D(X)的无偏估计量.例3.已知泊松总体,验证样本方差是λ的无偏估计,并对于任一值α也是λ的无偏估计.由总体为知:证明:由上例可知:所以样本方差是λ的无偏估计又则所以也是λ的无偏估计.

由上例我们可知,一个未知参数有时会有多个无偏估计,这就又产生了一个问题:哪一个无偏估计量更优呢?设和都是θ的无偏估计量,即两个估计量小的那一个,这就有了有效性的衡量标准.

和都围绕着θ波动,我们自然选择波动幅度都是总体参数

的无偏估计量,且则称比更有效.

设二、有效性定义(2)试判断g1和g2哪一个更有效?例4.已知总体的数学期望和方差都存在,X1,X2,X3是总体的样本.设(1)证明g1和g2都是的无偏估计解:(1)所以,g1和g2都是的无偏估计(2)因为所以g1较g2更有效.(2)求常数k1和k2,使得它在所有形如的无偏估计量中方差最小.(1)常数k1和k2为何值时,也是θ的无偏估计量.例5.设和是参数θ的两个相互独立的无偏估计量,且的方差为的方差的两倍.解:由题意知:(1)令得(2)罗—克拉美(Rao–Cramer)不等式若是参数

的无偏估计量,则其中p(x,)是总体X的分布律或概率密度,称计量,此时称为最有效的估计量,简称有效估计量.为方差的下界.当时,称为的达到方差下界的无偏估例6.设(0-1)总体中参数p为未知,证明是参数p的无偏、有效估计量.证明:

因为总体X是(0-1)分布,即:

而所以是参数p的无偏估计量且又所以是参数p的有效估计量

参数的估计量是样本的函数,与样本容量n有关,我们当然希望,样本容量n越大,估计量与参数的真值的偏差越小.这就有了一致性的衡量标准.三、一致性设是总体参数的估计量.则称是总体参数的一致(或相合)估计量.若对于任意的,当n时,依概率收敛于,定义即对于任意正数ε,有一致性是对一个估计量的基本要求,若估计量不具有一致性,那么不论将样本容量n取得多么大,都不能将θ估计得足够准确,这样的估计量是不可取的.证明:例7.设总体X服从参数为的指数分布,证明是的无偏、有效、一致估计量.由总体X服从参数为的指数分布可知:而故是的有效无偏估计量.又由辛钦大数定律可知:所以是的无偏、有效、一致估计量.关于一致性的两个常用结论1.样本k阶矩是总体k

阶矩的一致估计量.由大数定律证明用契比雪夫不等式证明一般,矩估计法得到的估计量为一致估计量.2.设是的无偏估计量且则是

的一致估计量.

我们已讲了参数的点估计以及评价估计量优良性的标准,参数的点估计是用一个确定的值去估计未知的参数.但是,估计值与参数真值的误差有多大?估计值的可靠性有多大?这些问题在点估计中是无法回答的。这就需要引入区间估计.也就是下一节要讲的内容.第三章:假设检验一、假设检验问题的提出二、显著性检验的推理方法和基本步骤三、两类错误第一节假设检验的基本概念

假设检验是统计推断中另一类重要内容。它是在总体分布未知或虽知其分布类型但含有未知参数的时候,提出有关总体分布或分布中某些未知参数的假设。然后根据样本所提供的信息,推断假设是否合理,并作出接受或拒绝所提出假设的决定。

为了具体了解假设检验解决哪些类型的问题,下面看几个例子:一、假设检验问题的提出产记录中随机地抽取n=25的样本,算得平均含硅例1.

某炼铁厂生产的生铁含硅量X服从正态分布N(0.005,0.032)。现改变原料,并从改变原料后的生后生铁含硅量的均值有无显著变化?量,均方差σ没有改变,问改变原料

此实例的问题是:根据抽样的结果推断假设“

”是否为真。

此实例的问题是:根据抽样的结果来推断假设“总体服从泊松分布”是否为真。实例2.某电话交换台在一分钟内得到的呼唤次数统计的记录如下:试检验电话呼唤次数X

是否服从泊松分布?呼唤次数0123456≥7频数81617106210总体分布已知,对未知参数提出的假设进行检验.总体分布未知,对总体分布形式或类型的假设进行检验.假设检验的种类参数假设检验:非参数假设检验:假设检验的种类

在假设检验问题中,把要检验的假设称为原假设(零假设或基本假设),记为H0,把原假设的对立面称为备择假设或对立假设,记为H1

。原假设H0和备择假设H1两者中必有且仅有一个为真。二、显著性检验的推理方法和基本步骤实例.某厂生产的螺钉,按标准,平均强度应为68mm,实际生产的强度X服从N(,3.62),现从整批螺钉中取容量为n=36的样本,其均值为,问这批螺钉是否符合要求?若=68,则认为这批螺钉符合要求,否则认为不符合要求.为此提出如下假设:原假设备择假设若原假设H0正确,则因而应是小概率事件.应较集中在零的周围.即取较大值标准化后,

偏离68不应该太远,乎不发生的.根据小概率原理,小概率事件在一次试验中是几那么,概率小到什么程度才能算作“小概率事件”呢?此小概率记为α,一般取为0.1,0.05,0.01等.为此,可以确定一个常数c使得然后,计算若即一次试验小概率事件就发生了,可以认为原假设不合理,拒绝原假设H0而接受备择假设H1.否则,接受原假设H0而拒绝备择假设H1.此时,称区间为的H0的拒绝域.现取,原假设为真时,

因为小概率事件没发生,无理由认为原假设不合理,所以,接受原假设H0,认为这批螺钉是符合要求的.所以(称U为检验统计量)由此例可见:1.假设检验的理论依据:实际推断原理(小概率原理)小概率事件在一次试验中几乎是不可能发生的2.假设检验是概率意义下的反证法.即:首先假定原假设H0成立,依照事先给定的概率α(称为显著性水平),构造一个小概率事件。然后根据抽样的结果,观察此小概率事件是否发生。若此小概率事件发生了,则认为原假设是不真的,从而作出拒绝H0的判断。否则,就接受H0。由此可见:

拒绝原假设是有说服力的,而接受原假设是没有说服力的.3.不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度.因此应把希望否定的假设作为原假设.假设检验的一般步骤:(1)根据实际问题的要求,充分考虑和利用已知的背景知识,提出原假设H0及备择假设H1

;(2)给定显著性水平α,选取检验统计量,并确定其分布;(3)由P{拒绝H0|H0为真}=α确定H0的拒绝域的形式;(4)由样本值求得检验统计量的观察值,若观察值在拒绝域内,则拒绝原假设H0,否则接受原假设H0.假设检验的两类错误第一类错误(弃真错误):第二类错误(取伪错误):三、两类错误原假设H0为真,但拒绝了原假设H0.原假设H0不真,但接受了原假设H0.P{拒绝H0|H0为真}=α,P{接受H0|H0不真}=β.显然,显著性水平α为犯第一类错误的概率.记处理原则:

任何检验方法都不能完全排除犯错误的可能性.理想的检验方法应使犯两类错误的概率都很小,但在样本容量固定时,一类错误概率的减少必会导致另一类错误概率的增加.

控制犯第一类错误的概率,然后,若有必要,通过增大样本容量的方法来减少犯第二类错误的概率

.关于原假设与备择假设的选取H0与H1地位应平等,但在控制犯第一类错误的概率的原则下,使得采取拒绝H0的决策变得较慎重,即H0得到特别的保护.因而通常把有把握的、有经验的结论作为原假设,或者尽可能使后果严重的错误成为第一类错误.注:一、单一正态总体均值μ的假设检验二、单一正态总体方差σ2的假设检验三、两个正态总体均值的假设检验四、两个正态总体方差的假设检验第二节正态总体的假设检验一、单一正态总体均值μ的假设检验1.已知时,总体均值μ

的假设检验(1)μ的双边检验:设总体X~N(,

2).X1,X2,…,Xn是取自X的样本,样本均值样本方差S2原假设备择假设取检验统计量:则拒绝域为:~N(0,1)当H0为真时,此时,因为是μ0的无偏估计量,不应太大.P{拒绝H0|H0为真}所以即:由此知,拒绝域为:推导:(2)μ的单边检验:原假设备择假设检验统计量:拒绝域为:统计中把拒绝域在某个区间的两侧的检验称为双边检验(这里是区间的两侧)(a)(证明略)原假设备择假设检验统计量:拒绝域为:统计中把拒绝域在某个区间的某一侧的检验称为单边检验(这里是区间的某一侧)(b)

这里由于使用的是服从正态分布的U

统计量来进行检验,也称为U

检验法(或正态检验法)。0000

<

0

>

0U检验法(02已知)原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验0000

<

0

>

0T检验法(2未知)原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验2.未知时,总体均值μ

的假设检验例1.设某次考试的考生的成绩服从正态分布,从中随机地抽取36位考生的成绩,算得平均成绩为66.5分,标准差为15分,问在显著性水平0.05下,是否可以认为在这次考试中全体考生的平均成绩为70分?解:原假设备择假设检验统计量:拒绝域:n=36,α=0.05,所以接受H0,在显著性水平0.05下,可以认为在这次考试中全体考生的平均成绩为70分。因为解:原假设备择假设由σ2=0.022知,检验统计量为拒绝域:

例2.一台机床加工轴的椭圆度X服从正态分布N(0.095,0.022)(单位:mm)。机床经调整后随机取20根测量其椭圆度,算得mm。已知总体方差不变,问调整后机床加工轴的椭圆度的均值有无显著降低?n=20,α=0.05,所以接受H0,

在显著性水平0.05下,认为调整后机床加工轴的椭圆度的均值无显著降低.因为

例3.某种电子元件,要求使用寿命不得低于1000小时。现从一批这种元件中随机抽取25件,测其寿命,算得其平均寿命950小时,设该元件的寿命X~N(μ,1002),在显著性水平0.05下,确定这批元件是否合格?解:原假设备择假设由σ2=1002知,检验统计量为拒绝域:n=25,α=0.05,所以拒绝H0,在显著性水平0.05下,认为这批元件不合格.因为χ2

检验法原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验1.已知时,总体方差σ2的假设检验二、单一正态总体方差σ2的假设检验当H0为真时,P{拒绝H0|H0为真}所以拒绝域为:推导(双边检验情形):此时,因为是σ2的无偏估计量,拒绝域应表现为偏小或偏大,χ2

检验法原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验2.μ未知时,总体方差σ2的假设检验例4.

在生产线上随机地取10只电阻测得电阻值(单位:欧姆)如下:114.2,91.9,107.5,89.1,87.2,87.6,95.8,98.4,94.6,85.4设电阻的电阻值总体服从正态分布,问在显著性水平α=0.1下方差与60是否有显著差异?解:原假设备择假设检验统计量:拒绝域:n=10,α=0.1,所以接受H0,因为即在显著性水平α=0.1下,认为方差与60无显著差异.例5.

某种导线,要求其电阻的标准差不得超过0.005欧姆,今在生产的一批导线中取样本9根,测得s=0.007欧姆.设总体服从正态分布,参数均未知,问在显著性水平α=0.05下,能否认为这批导线的标准差显著地偏大?解:原假设备择假设检验统计量:拒绝域:n=9,α=0.05,所以拒绝H0,因为即在显著性水平α=0.05下,认为这批导线的标准差显著地偏大.三、两个正态总体均值的假设检验为取自总体

N(112)的样本,为取自总体N(2

22)

的样本,分别表示两样本的样本均值与样本方差且两总体相互独立。121

2121

21

<

21

>

2U检验法原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验1.已知时,总体均值的假设检验121

2121

21

<

21

>

2原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验2.未知,但时,总体均值的假设检验T检验法例6.测得两批小学生的身高(单位:厘米)为:第一批:140,138,143,142,144,137,141第二批:135,140,142,136,138,140.设这两个相互独立的总体都服从正态分布,且方差相同,试判断这两批学生的平均身高是否相等(α=0.10

)。解:原假设检验统计量:拒绝域:备择假设α=0.10所以接受H0,因为认为这两批学生的平均身高是相等的.例7.某校从经常参加体育锻炼的男生中随机地选出50名,测得平均身高174.34cm,从不经常参加体育锻炼的男生中随机地选出50名,测得平均身高172.42cm,统计资料表明两种男生的身高都服从正态分布,其标准差分别为5.35cm和6.11cm,问该校经常参加体育锻炼的男生是否比不经常参加体育锻炼的男生平均身高要高些?(α=0.05

)解:原假设检验统计量:拒绝域:备择假设所以拒绝H0,因为认为该校经常参加体育锻炼的男生比不经常参加体育锻炼的男生平均身高要高些.F

检验法原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验1.已知时,总体方差的假设检验四、两个正态总体方差的假设检验F

检验法原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验2.未知时,总体方差的假设检验例8.设两家银行储户的年存款余额均服从正态分布,经市场调查,分别抽取容量为21和16的样本,得样本均值分别为650元和800元,样本方差分别为802和702,能否认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额。(α=0.10

)解:检验统计量:拒绝域:(1)先检验两家银行储户的年存款余额的方差有无显著性差异。原假设备择假设α=0.10所以接受H0,因为认为两家银行储户的年存款余额的方差无显著性差异.原假设检验统计量:拒绝域:备择假设(2)再检验第二家银行储户的平均年存款余额是否显著高于第一家银行储户的平均年存款余额。α=0.10所以拒绝H0,因为

认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额第三节(0-1)总体参数p的大样本检验

在实际问题中,经常会遇到要对(0-1)总体中参数p进行检验的问题。这时,一般是抽取大容量(n>30)的样本,利用中心极限定理,对参数p进行假设检验.

下面先用此方法对双边检验进行假设检验,然后推广到单边检验。已知总体X服从(0-1)分布,其分布律为现抽取容量为n(n>30)的样本X1,X2,…,Xn,样本均值为则对参数p

的双边检验:极限定理可知:当原假设为真时,由独立同分布中心原假设备择假设得:因为是p的达到方差界的无偏估计,所以U的为|U|偏大。即拒绝域应形如:设显著性水平为α,由值应较集中在零附近,而的拒绝域应体现pp0pp0pp0pp0p<

p0p

>

p0U检验法原假设

H0备择假设

H1检验统计量拒绝域类型双边检验单边检验例1.

某药厂在广告上声称该药品对某种疾病的治愈率为80%,一家医院对这种药品临床使用120例,治愈85人,问该药品的广告是否真实(α=0.02)?解:由于n=120为大样本,设随机变量X为则X~(0-1)分布.原假设备择假设检验统计量为拒绝域:α=0.02,所以拒绝H0,因为认为该药品的广告不真实.例2.

若在猜硬币正反面的游戏中,某人在100次试猜中共猜中60次,是否可以认为此人有诀窍?(α=0.05)解:由于n=100为大样本,设随机变量X为则X~(0-1)分布.原假设备择假设检验统计量为拒绝域:α=0.05,若有诀窍,则猜中的概率p应大于1/2.所以拒绝H0,因为可以认为此人猜硬币有某种诀窍。第四节分布函数的拟合优度检验

前面几节中讨论了总体分布形式已知时关于总体参数的假设检验。但在许多实际问题中并不能预先知道总体分布的形式。这时,就需要根据样本提供的信息,对总体的分布作出假设,并对此假设进行检验。本节我们将介绍由英国统计学家卡尔·皮尔逊提出的拟合优度检验法。拟合优度检验法的基本原理和步骤:1.提出原假设H0:总体X

的分布函数为F(x)备择假设H1:总体X

的分布函不是F(x)(1)备择假设可以不必写出.(2)若X是离散型总体,原假设相当于:H0:总体X

的分布律为:P{X=xi}=pi,i=1,2,…

…若X是连续型总体,原假设相当于:H0:总体X

的概率密度为f(x).说明:(3)若在原假设H0下,总体分布的形式已知,但有r个参数未知,这时需要用极大似然估计法先估计这r个参数.2.将x轴分成K个互不重迭的小区间:3.计算样本的n个观察值落入以上每个区间的个数,记为fi(i=1,2,……,K),称其为实际频数.所有实际频数之和f1+f2+…+fk等于样本容量n.4.在原假设H0为真时,计算总体落入每个区间的概率Pi=F(bi)-

F(bi-1)(i=1,2,……,K),于是npi就是落入第i个区间的样本值的理论频数.反映了实际频数与理论频数的差异.

当原假设H0为真,样本容量又充分大时,两者并证明了如下定理:的差异应不会太大,皮尔逊由此引进统计量:定理(皮尔逊)若n充分大,H0为真时,不论H0中的分布属于什么类型,统计量总是近似服从自由度为K-r-1的分布,即其中r是分布中被估计的参数的个数.由此得5.检验统计量:拒绝域:要适当合并区间以满足这个要求。拟合优度检验法是在n充分大的条件下得到的,所以在使用时必须注意n要足够大及npi不能太小,根据实际经验,要求n

≥50,理论频数npi

≥4

,否则注:例1.某个城市在某一时期内共发生交通事故600次,按不同颜色小汽车分类如下汽车颜色红棕黄白灰蓝事故次数751257080135115

如果交通事故的发生与汽车的颜色无关,则每种颜色的小汽车发生交通事故的可能性是一样的.问:交通事故是否与汽车的颜色有关?分析:解:原假设检验统计量:拒绝域:列表计算汽车颜色fiPinPifi-nPi红棕黄白灰蓝n=600-252530-2035157512570801351151/61/61/61/61/61/61001001001001001006.256.259412.252.2540∑所以拒绝H0,认为交通事故与汽车的颜色有关.因为例2.某电话交换台,在100分钟内记录了每分钟被呼唤的次数X,设fi为出现该X值的频数,结果如下:X0123456789fi071218172013634

问总体X(电话交换台每分钟呼唤次数)服从泊松分布吗?解:按题意,原假设

由于λ未知,首先须用极大似然估计法,求得λ的估计值(看七章二节例5):检验统计量:拒绝域:列表计算:XfiPinPifi-nPi≤1234567≥8n=10071218172013671.3099∑-0.02-0.340.18

-2.293.300.95

-1.46-0.320.00006

0.0094

0.00180.27190.65210.0749

0.28570.0140

7.0212.3417.8219.2916.7012.057.467.320.07020.12340.17820.19290.16700.12050.07460.0732因为所以接受H0,认为电话交换台每分钟呼唤次数X服从泊松分布.说明:将n=0和n=1合并,n=8与n≥9合并是为了保证理论频数npi

≥4.例3.为了研究患某种疾病的21~59岁男子的血压(收缩压,单位:mm-Hg)这一总体X,抽查了100个男子,得,,样本值分组如下:序号分组fi序号分组fi12345(-∞,99.5)[99.5,109.5)[109.5,119.5)[119.5,129.5)[129.5,139.5)582227176789[139.5,149.5)[149.5,159.5)[159.5,169.5)[169.5,+∞)9552取α=0.10,检验21~59岁男子的血压(收缩压)总体X是否服从正态分布。解:按题意,原假设

由于μ,σ2未知,首先须用极大似然估计法,求得其估计值(看教科书七章二节例2):检验统计量:拒绝域:列表计算:H0为真时,列表计算:12345678n=10058222717957∑XfiPinPifi-nPi分组(-∞,99.5)[99.5,109.5)[109.5,119.5)[119.5,129.5)[129.5,139.5)[139.5,149.5)[149.5,159.5)[159.5,+∞)0.06550.10560.17720.22310.19890.13290.06610.03076.5510.5617.7222.3119.8913.296.613.07-1.55-2.564.284.69-2.89-4.292.320.36680.62061.03380.98590.41991.38480.55605.3678因为所以接受H0,即21~59岁男子的血压(收缩压)总体X服从正态分布。第五节方差分析

在前面,我们讨论了两个方差相等的正态总体对均值比较的假设检验问题,而在实际应用中还经常需要对有相同方差的多个正态总体均值进行比较的假设检验问题.方差分析就是解决这类问题的有效方法,在实际中有着广泛的应用。一、基本概念二、单因素方差分析的数学模型四、部分总体均值μj和方差σ2的估计三、单因素方差分析的假设检验一、基本概念

我们将要考察的对象的某种特征称为指标,影响指标的各种因素称为因子,一般将因子控制在几个不同的状态上,每一个状态称为因子的一个水平.

若一项试验中只有一个因子在改变,而其它的因子保持不变,称这样的试验为单因素试验.多于一个因子在改变的的试验为多因素试验.这里,我们只讨论单因素试验.实例1.对某种型号的电池进行抽查,随机抽取了来自A,B,C三个工厂的产品,测得其寿命(h)见下表,设各工厂所生产的电池的寿命服从有相同方差的正态分布,问这三个工厂所生产的电池的平均寿命有无显著差异?电池的寿命(h)A1A2A3374740606095869867926910098

试验的目的是为了考察不同厂家生产的电池平均寿命是否有显著差异。如果有显著差异,表明生产工厂这一因子对电池寿命的影响是显著的.在此实例中,指标:电池的寿命;因子:生产电池的工厂;水平:工厂A1、A2、A3

在此试验中,除生产电池的工厂这一因子外,其它因子不变,这是一个单因素试验。实例2.为了比较各个工作日进入某一商场的顾客人数,测得各工作日下午4时~5时进入商场的顾客人数如下表,问各个工作日对顾客人数有无显著影响?工作日顾客人数周一周二周三周四周五869678661007710254986991867482788478779084727484889410296

试验的目的是为了考察不同工作日顾客的人数是否有显著差异。如果有显著差异,表明工作日这一因子对顾客人数的影响是显著的.在此实例中,指标:顾客人数;因子:工作日;水平:周一、周二、周一、周四、周五

在此试验中,除工作日这一因子外,其它因子不变,这是一个单因素试验。二、单因素方差分析的数学模型

设在单因素试验中,影响指标的因子A有s个水平A1,

A2

,…,As

,将每个水平Aj下要考察的指标作为一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论