版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一节抽样分布第二节参数点估计第三节区间估计主要内容第五章抽样分布与参数估计第一节抽样分布总体与个体:试验全部可能的观测值叫总体;试验的每一个观测值叫个体。样本容量与样本个数:样本中包含的单位数叫样本容量;从一个总体中可能抽取多少个样本叫样本个数。总体容量:总体中所包含的个体数。有限总体和无限总体:总体容量可数的称有限总体,不可数的称无限总体。
重置抽样(重复抽样)和无重置抽样(不重复抽样)一、随机样本对一个总体而言,个体的取值是按一定规律分布的。一个总体就是一个具有确定概率分布的随机变量X。一般来说,总体的分布是未知的,或分布形式中含有未知参数。在统计学中,人们总是通过从总体中抽取一部分个体,根据获得的样本数据对总体分布进行推断,而被抽出的部分个体叫做总体的一个样本。从总体中抽取有限个个体对总体进行观察的过程叫做抽样。第一节抽样分布一、随机样本设X为具有分布函数F
的随机变量,若
为具有同一分布函数F的相互独立的随机变量,则称
为来自分布函数F(或总体X
、或总体F)的容量为n的简单随机样本,简称样本,它们的观测值
称为X的n个独立的观测值,也称样本值。对于有限总体采用重置抽样可得到简单随机样本,无限总体不重置抽样得到的也是简单随机样本。第一节抽样分布第一节
抽样分布
二、统计量设
为总体X
的一个随机样本,
是
的一个连续函数,如果g中不包含任何未知参数,则称为一个统计量。如果
是样本
的观测值,则是统计量
的一个观测值。
不含有任何未知参数的样本的函数,称为统计量。显然,统计量为随机变量。
设总体X∽N(μ,ο2),其中,μ未知,ο2已知,设X1,
X2,…,
Xn为来自X的一个样本,则:以下那个是统计量?(1)X1-X2第一节
抽样分布
几个常用统计量:样本矩(样本均值;样本方差;原点矩,中心矩等)第一节
抽样分布
最常用的统计量是所谓的样本矩。设nXXX,,,21L是来自总体X的一个样本,nxxx,,,21L是这一样本的观测值,称统计量
å==niiXnX11
为样本均值;称统计量
å=--=niiXXnS122)(11
为样本方差,称统计量å=--==niiXXnSS122)(11为样本标准差;统计量
称为样本的k阶原点矩;统计量称为样本的k阶中心矩。
这些统计量的观测值分别为å==niixnx11,å=--=niixxns122)(11,å=--=niixxns12)(11,
å==nikikxna11(L,2,1=k),å=-=nikikxxnb1)(1(L,3,2=k)。第一节
抽样分布
三、几个常用的抽样分布
抽样分布的定义:统计量的分布称为抽样分布。第一节
抽样分布
设是来自总体的样本,则称统计量
为服从自由度为的分布,记为
分布的概率密度函数为:(一)分布
第一节
抽样分布
的图形如下图所示:分布的概率密度曲线0yn=15n=1n=5f(y)第一节
抽样分布
例:查表找当n充分大时(n>30),近似有:第一节
抽样分布
23.209,3.94,12.591,4.865(二)t分布
设,,且设与独立,则称统计量
t(n)分布的概率密度函数为第一节
抽样分布
可以证明,当n
充分大时,t
分布趋向于标准正态分布。为服从自由度为n的t分布,记为t(x;n)n=4n=10n=1t(n)分布的密度函数曲线第一节
抽样分布
t分布的性质:1、t—分布的与标准正态分布相似,是以t=0对称的钟形分布。t—分布的方差大于1,比标准正态分布的方差大,所以从分布曲线看,t—分布的曲线较标准正态分布平缓。
t1-α(n)=-tα(n)2、n→∞
时,t—分布成为正态分布。3、对于给定的任意正数α,且0<α<1,称满足条件:
P{t>tα(n)}=
的数tα(n)为t(n)分布的上α分为点。例:查表求:t0.05(8),t0.95(8)第一节
抽样分布
(三)F分布
设,且设独立,则称随机变量
由F
分布的定义及推论有第一节
抽样分布
为服从自由度为的分布,记F(n1,n2)分布的概率密度函数为分布图为:第二节
抽样分布
由F
分布的定义有对于给定的数α,且0<α<1,称满足等式:
P{F>tα(n1,n2)}=例:F0.05(5,10)=F0.95(5,10)=第一节
抽样分布
(四)正态总体样本均值与方差的分布
1、一个正态总体样本均值与方差的分布设来自正态总体的样本,分别为样本的均值和方差。则第一节
抽样分布
样本均值分布样本方差分布例1:设X~N(1,4)总体,求P{0≤X≤2}与P{0≤
≤2},其中为样本为16的样本均值。例2:设从一个均值μ=10,标准差σ=0.6的总体中随机选取容量为n=36的样本。假定该总体不是很偏的,要求:(1)计算样本均值小于9.9的近似概率;(2)计算样本均值大于9.9的近似概率;
(3)计算样本均值在总体μ=10附近0.1范围内的近似概率。第一节
抽样分布
第一节
抽样分布
例3:某半导体厂生产的某种零件质量X~N(μ,σ2),为保证质量,规定σ≤0.6mm时,认为生产过程处于良好控制状态。为此,每隔一定时间抽取20个零件作为一个样本,并计算样本方差S2。若P{S2≥c}≤0.01(此时σ=0.6mm),则认为生产过程失去控制,必须停产检查,问:(1)C为何值时,S2≥c的概率才小于或等于0.01?(2)若取得的一个样本的标准差S=0.84,生产过程是否处于良好控制状态?2、两个正态总体样本均值差与方差比的分布注意:如两样本来自于同一总体,有:均值差的分布第一节
抽样分布
方差比的分布:第一节
抽样分布
第一节
抽样分布
例1:求总体N(20,3)的容量分别为10、15的两独立样本均值差的绝对值大于0.3的概率?例2:设两相互独立的总体
,
其中
和
未知,
和
分别是来自X
和
Y的样本,求两样本方差比落在区间[0.66,2.87]之间的概率。
3、样本比例的抽样分布
基本概念:
总体比例:也叫总体成数,是总体中具有某种特征的单位在总体中所占的比例,记作P。
由0-1分布可知,总体比例服从(0-1)分布,故:
E(X)=P,D(X)=P(1-P)
样本比例:也叫样本成数,是样本中具有某种特征的单位在样本中所占的比例,记作p。
当样本容量足够大(np≥5,n(1-p)≥5),样本的比例近似服从正态分布。第一节
抽样分布
可以证明,重复抽样情况下,样本比例分布的数学期望和方差为:1、重置复抽样下样本比例的抽样分布第一节
抽样分布
2、无重置抽样下样本比例的抽样分布
可以证明,不重复抽样情况下,样本比例分布的数学期望和方差为:第一节
抽样分布
第一节
抽样分布
例:假定某统计人员在其填写的报表中有2%至少会有一处错误,如果我们检查了一个由600份报表组成的随机样本,其中至少有一处错误的报表所占的比例在0.025~0.07之间的概率有多大?例:一项抽样调查表明甲城市的消费者中有15%的人喝过某商标的矿泉水,而乙城市的消费者中只有8%的人喝过该种矿泉水。如果这些数据是真实的,那么当我们分别从甲城市抽取120人,乙城市抽取140人组成两个独立随机样本时,样本比例差P1-P2的不低于0.08的概率有多大?
第二节参数点估计一、参数估计基本原理参数估计是推断统计的重要内容之一。它是在抽样分布的基础上,根据样本统计量推断所研究总体未知参数的统计推断方法。在实际问题中,人们如果能够掌握总体的全部数据,就可以对数据作统计描述来实现对总体特征的系统研究,如总体均值、方差
、比例P等。但是实际上很复杂,有些现象的范围很广,不能一一测定。或者有些总体的单位数很多,不可能或没必要进行一一测定。这就需要从总体中抽取部分单位进行调查,进而利用样本提供的信息来推断总体的数量特征。参数估计的方法有两种,点估计和区间估计。
设总体X的分布函数为,其中为总体的待估参数,是从总体X中随机抽取的一个样本,若由样本构造统计量作为参数的估计,则称为的点估计量,简称点估计。设是样本的一个观察值,代入统计量中,得到一个确定的值称为参数点估计值。第二节参数点估计二、参数点估计
两种常用的点估计方法:矩估计法和最大似然估计法。假若总体的未知参数有r个,即这时需要构造r个不同的统计量,分别作为的点估计量,即第二节参数点估计
用样本矩估计总体矩,用样本矩的连续函数估计总体矩的连续函数第二节参数点估计(一)矩估计法设X为连续型机变量,其概率密度为或X为离散型随机量,其分布率为假如X的k阶原点矩存在,有是来自X的一个样本。(X为连续型机变量)(X为离散型机变量)或已知总体的原点矩如第二节参数点估计而样本的l阶原点矩为设则解得:,可以得到用分别替上式中的分别称为的矩估计量,矩估计量的观测值称为矩估计值。例1:为总体的一个样本,总体均值方差未知,求其矩估计量。解:假设总体矩存在,分别是一阶矩二阶矩第二节参数点估计由上两式得:不论总体X服从什么分布,其数学期望和方差的矩估计量分别为样本均值和二阶样本矩即:第二节参数点估计例2:设总体X在上服从均匀分布,其密度函数为其中,求及的矩估计量。由均匀分布的性质知:由矩估计法得方程组解第二节参数点估计解方程组得:
注意:通过矩估计量的求解过程直接得到的是参数的矩估计量而非参数矩估计值,要求参数的矩估计量中的样本用其观测值代替即可。第二节参数点估计第二节参数点估计(二)最大似然估计法
是在总体类型已知条件下使用的一种参数估计方法。
先看一个简单例子:
某位同学与一位猎人一起外出打猎,一只野兔从前方窜过,只听一声枪响,野兔应声倒下。
如果要你推测,是谁打中的呢?你就会想,只发一枪便打中,猎人命中的概率一般大于这位同学命中的概率.看来这一枪是猎人射中的。这个例子所作的推断已经体现了极大似然法的基本思想。
再例如:有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?
想很多人立马有答案:70%。这个答案是正确的。可是为什么呢?第二节参数点估计第二节参数点估计
假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。这里把一次抽出来球的颜色称为一次抽样。题目中在10次抽样中,7次是白球的概率是P(N|M),这里N是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为,第二抽样的结果记为
,…。
那么N=()。这样,P(N|M)==第二节参数点估计那么p在取什么值的时候,P(N|M)的值最大呢?将对p求导,并其等于零。
解方程可以得到p=0.7。
在边界点p=0,1,P(N|M)=0。所以当p=0.7时,P(N|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。第二节参数点估计设总体X的概率密度的形式已知,其中,只含一个未知参数(若X
是离散型,表示概率)。总体X的样本的联合概率密度为(若X
是离散型,表示概率。显然,对于样本的观测值是的函数,记为上式称为似然函数。第二节参数点估计最大似然估计法就是用使达到最大值的去估计,即称为的最大似然估计量;为的最大似然估计值。上述可知,计算总体参数的最大似然估计值的问题就是计算似然函数的最大值问题。要使取最大值,必须满足解得的最大似然估计值由于与在同一处取到极值,所以,也可通过求得,比前式更方便,此式称为对数似然方程。第二节参数点估计求最大似然估计的一般步骤归纳如下:第二节参数点估计解:设(x1,x2,…,xn)是样本(X1,X2,…,Xn)的一组观测值。泊松分布的似然函数:
例:设其中λ>0是一未知参数,计算λ的最大似然估计量。来自于泊松分布的一个随机样本。则对数似然函数得:令解得λ的最大似然估计值即λ的最大似然估计量例:设,其中μ,σ2是未知参数,(X1,X2,…,Xn)是来自正态总体N(μ,σ2)的一个样本,求μ与σ2的极大似然估计量。解:X的密度函数为:对似然函数两边取对数得:第二节参数点估计第二节参数点估计令解得:
所以μ,
2的极大似然估计量为与矩估计量相同(一)无偏性定义:是的一个估计量,如果成立,则称是的一个无偏估计量。的估计量是样本的函数,对于不同的观察值,求得的值不同,因此,的取值不一定等于所要估计的参数但从平均意义上讲,应该等于所估计的参数未知参数第二节参数点估计三、估计量的评选标准例1:设是来自总体X的样本,总体的数学期望未知,试问样本均值是否为
的无偏估计量。因为所以,是总体数学期望的无偏估计量。解:第二节参数点估计设总体的数学期望为,则例2:设是来自总体X的样本,总体的方差未知,用样本的二阶作为总体方差的估计,中心矩是否为无偏估计。解:第二节参数点估计所以,样本的二阶中心矩不是总体方差的无偏估计。第二节参数点估计例总体数学期望的无偏估计中,哪一个估计量最有效?解
定义:设都是未知参数的无偏估计若,则称估计量较有效。(二)有效性第二节参数点估计比较上述估计量的方差,可见最小,所以最有效。第二节参数点估计(三)一致性定义设为未知参数的估计量,若对任意的正数例:证明样本均值是总体均值的一致估计证明设由大数定理可知:第二节参数点估计
总结:从统计方法要求来看,我们自然要求一个估计量具有一致性,然而,用一致性来评价估计量好坏时,要求样本容量充分地大,但这一点在实际中往往办不到。无偏性直观、简便,但它不能体现与真值的偏离程度。有效性无论在直观上或理论上都比较合理。所以在使用上,这是用得比较多的一个评价标准。所以,样本均值是总体均值的一致估计。第二节参数点估计第三节区间估计人们在测量或计算时,常不以得到近似值为目的,还需要估计误差,即要求更确切地知道近似值的精确程度。因此对于未知参数,除了求出点估计一、区间估计的基本原理人们在测量或计算时,常不以得到近似值为目的,还需要估计误差,即要求更确切地知道近似值的精确程度。因此对于未知参数,除了求出点估计外,还希望估计出一个范围,并希望知道这个范围包含参数真值的可靠程度。这种包含参数真值的范围且具有一定可靠程度的估计称为区间估计,估计区间包括单侧置信区间和双侧置信区间。第三节区间估计(一)双侧置信区间第三节区间估计第三节区间估计确定未知参数θ置信区间的一般步骤(1)构造一个样本(X1,X2,…,Xn)的函数W=W(X1,X2,…,Xn
;θ)它包含待估未知参数θ
,而不含其它未知参数,并且W的分布已知且不依赖于任何未知参数;(2)对于给定的置信度,定出两个常数a,b,使得
(3)若能从得到等价的不等式,其中都是统计量,那么就是θ的一个置信度为的置信区间。
第三节区间估计第三节区间估计(二)单侧置信区间对于某些问题,例如设备、元件的寿命来说,人们一般只关心它们的平均寿命的“下限”;而对于产品的废品率来说,人们只关心它的“上限”。这就是单侧置信区间的问题。对于给定的值,若由样本确定的统计量满足则称随机区间是的置信度为的单侧置信区间,
是置信度为单侧置信下限同理可得到单侧置信区间上限的概念。第三节区间估计若统计量满足则称随机区间是的置信度为的单侧置信区间,
是置信度为单侧置信上限。例对某型号飞机的最大飞行速度进行了15次试验,测得样本的平均最大飞行速度样本方差根据长期经验可以认为最大飞行速度服从正态分布,试求在95%的把握下,飞机的平均最大飞行速度不低于多少?解:依题意有:即:在95%的把握下,飞机的最大平均飞行速度不低于421.1米/秒。二、一个正态总体参数的区间估计
(一)总体均值的区间估计
1.
已知时,总体均值μ的区间估计设(X1,X2,…,Xn)为总体的一个样本,分别是样本均值和方差,设给定的置信度为。第三节区间估计已知时,则:总体均值μ的置信度的置信区间为为了计算方便,这个置信区间也常写成第三节区间估计注意:(1)如果总体不是正态分布,当样本容量充分大时,根据中心极限定理,
渐近服从正态分布。因此,在大样本情况下,仍可用上式对
进行较准确的区间估计。(2)总体方差
未知时,如果样本容量充分大(
),可以用S代替上式中的
,对
进行近似的区间估计。
例某厂生产滚珠,从某天生产的产品中随机抽取6个,测得直径为(单位:):
14.6,15.1,14.9,14.8,15.2,15.1并知道滚珠的直径,求平均直径的置信区间。由正态分布表查得使得解:
这是一个正态总体,已知方差,由前面结论即可求出置信区间由样本观察值得置信下限:置信上限:因此,的置信度为0.95的置信区间是
(14.75,15.15)。2.未知时,总体均值的区间估计第三节区间估计总体均值的置信度为的置信区间为
例假设初生婴儿的体重服从正态分布,随机抽取12名初生男婴,测得其体重为(单位:g):未知时,则一般地,这个置信区间也常写成25203000300030003160356033202880260034002540试以95%的置信度求初生男婴的平均体重的区间估计。由样本观察值得查分布表得因为解:因而得到初生男婴平均体重的95%置信区间为(2820,3300)
样本方差是总体方差的无偏估计量,由公式(二)总体方差的置信区间第三节区间估计可以得到因此,的置信度的置信区间为进一步得到的置信区间为第三节区间估计
例为确定某种溶液中甲醛浓度,取样得4个独立测定值的平均值,样本标准差,并设被测总体近似服从正态分布,求总体方差的置信区间,及总体标准差的置信区间。因为由分布表查得所以从而得的95%置信区间为(0.00029,0.0125)的置信区间为解:又已知(三)总体比率的区间估计由样本比率的抽样分布可以知,当样本容量n
足够大时(一般指不小于30,且都大于5),样本比率P的抽样分布近似正态分布。设总体比率为P
,则有对于置信度,P的置信区间为第三节区间估计例:设从一大批产品中抽取100个样品,得一级品60个,求这批产品一级品率P的置信度为0.95的置信区间。解:依题意:有p=60/100=0.6。因为可以认为这是一个大样本。P的置信度为0.95的置信区间即产品一级品率P的置信度为0.95的置信区间为0.504~0.696。若我们关心的是一级品率的应不低于多少?则:求P的置信度为95%的置信下限即有95%的把握认为一级品率不低于51.9%。第三节区间估计均值和方差,下面求的置信区间。1.方差已知时,有三、两个正态总体参数的区间估计和是分别从总体X和总体Y
设有两个正态总体X和Y,且及中抽取的两个独立样本。
和分别为两个样本的第三节区间估计(一)两个正态总体均值差的区间估计第三节区间估计因此,的置信度置信区间为或2.若未知时,有由此的置信区间为第三节区间估计其中:或例:为提高某一化学生产过程的得率,拟采用一种新的催化剂。为此,先进行试验。设采用原来的催化剂进行了n1=8次试验,得到得率的平均值和方差分别;又采用新的催化剂进行了n2=8次试验,得到得率的均值和样本方差分别为。假设两总体都服从正态分布,方差相等,两样本独立。试求两总体均值差的置信度为0.95的置信区间。
解:由题意,可得,则置信度为0.95的置信区间为即(-4.15,0.11)
注:由于所得置信区间包含零,在实际中可以认为采用这两种催化剂所得率的均值没有显著差别。第三节区间估计第三节区间估计(二)两个正态总体方差比的置信区间只讨论实际应用中常见的总体均值未知的情况,由于所以的置信区间为所以的置信区间为第三节区间估计例:为研究男女学生在生活费支出(单位:元)上的差异,在某大学抽取25名男学生和25名女学生,得到下面的结果:试以90%的置信水平估计男女学生生活费支出方差比的置信区间。(三)两个总体比例差的区间估计两个样本比例之差的抽样分布近似服从正态分布,因此:当两个总体比例未知时,用样本比例代替总体比例P1和P2,因此,P1-P2在置信度为1-α的置信区间为:第三节区间估计或四、抽样组织方式
概率抽样非概率抽样简单随机抽样偶遇抽样等距抽样判断抽样分层抽样定额抽样整群抽样雪球抽样多阶段抽样第三节区间估计
(一)非概率抽样1.偶遇抽样:又称为便利抽样,是指研究者根据实际情况,为方便开展工作,选择偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。例如在广场选择对来往行人进行调查。2.判断抽样:又称“立意抽样”,是指根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法。3.定额抽样:又称配额抽样,是按市场调查对象总体单位的某种特征,将总体分为若干类,按一定比例在各类中分配样本单位数额,并按各类数额任意或主观抽样。其抽样时并不遵循随机的原则。4.雪球抽样:又称滚雪球抽样,是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。第三节区间估计
(二)概率抽样
1.简单随机抽样从总体中抽取n个单位作为样本,并使得每个总体单位都有相同的机会被抽中,这种抽样方式称为简单随机抽样,又称纯随机抽样。简单随机抽样是其他抽样方式的基础,是抽样调查中应用较多的方式之一。
2、种类:(1)直接抽选法(2)抽签法(3)随机数字表法
3、特点:简单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生活护理课件资源体系
- (编制说明)《智慧农业设施作物数据采集规范》(征求意见稿)
- 家国情怀与统一多民族国家的演进说课稿-2025-2026学年高中历史必修 中外历史纲要(上)统编版(部编版)
- 2026年假日野花开测试题及答案
- 2026年逆商情商测试题及答案
- 2026年招聘专员的测试题及答案
- 2026年宝鸡英创入学测试题及答案
- 2026年ct检验测试题及答案
- 2026年加减速算测试题及答案
- 2026年好词连句测试题及答案
- 2025年中职学前教育笔试题目及答案
- 2025年医疗机构临床路径管理实施指南
- 2026年比亚迪研发工程师岗位面试题库及解析
- 2025年毛概章节的题库及答案
- 2025年新疆职业大学辅导员考试笔试真题汇编附答案
- 肿瘤细胞溶解综合征
- 退工登记情况表
- 学校国家义务教育质量监测应急预案
- FSSC22000 V6食品安全管理体系管理手册及程序文件
- 工艺规程设计
- 王安石待客的课件
评论
0/150
提交评论