版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《统计学》课件作者:云南财经大学统计与数学学院杨文雪PowerPoint统计学第3章参数估计3.1参数估计的基本原理3.2一个总体参数的区间估计3.3两个总体参数的区间估计3.4样本容量的确定3.1参数估计的基本原理3.1.1抽样估计的含义及其种类3.1.2
估计量与估计值3.1.3参数估计的方法
3.1.4评价估计量的标准3.1.1抽样估计的含义及其种类一、抽样估计的含义二、抽样估计的种类一、抽样估计的含义抽样估计:是指用样本提供的信息对总体的某些特征所进行的估计或推断。通常:(1)用来估计总体特征的样本指标,也称之为样本统计量或样本估计量。包括:样本均值、样本方差或样本标准差、样本比例等。(2)待估计的总体指标,称为总体参数。包括:总体均值、总体方差或总体标准差、总体比例等。二、抽样估计的种类从数理统计的理论来看,抽样估计包括:抽样估计参数估计非参数估计(一)参数估计参数估计是指已知总体分布类型而对总体的数字特征(总体参数)进行的估计。亦即:用样本统计量对总体参数进行的估计。例如:用样本均值()估计总体均值();用样本比率()估计总体比率();用样本方差()估计总体方差()等。参数估计包括:点估计和区间估计。(二)非参数估计非参数估计是指对总体的分布形式一无所知、要对“总体的分布类型”和总体参数作出估计。显然,非参数估计比参数估计要复杂得多。本章仅仅介绍参数估计的基本理论和方法。3.1.2估计量与估计值一、引言二、估计量的含义三、估计值的含义附:总体参数、样本估计量与样本估计值三者关系举例一、引言如果掌握了所研究的总体的全部数据,那么只需做一些简单的统计描述,就可以得到有关总体的数量特征,如总体均值、方差、比率等。但现实情况则比较复杂,有的现象范围比较广,不可能对总体中的每一个单位都进行测定。或者有些总体的单位数很多,不可能也没有必要进行一一测定。这就需要从总体中抽取一部分单位进行调查,进而利用样本提供的信息来推断总体的数量特征。二、估计量的含义估计量(estimator):又称为样本统计量或样本指标。它是根据样本资料计算的、用以估计和推断相应总体参数的综合指标。或者说,它是用来估计总体参数的统计量的名称。通过试验和观察取得的样本的具体数值本身只是一些杂乱无章的数据,不能直接用样本值去推断未知总体参数,此时只能利用它们整理计算出来的一些“量”来进行推断。统计学中,将由样本构造出的量,称为估计量。估计量是样本的函数。样本估计量是总体参数的估计式,它指的是样本中随机变量(x1、x2、….、xn)的函数表达式,在抽样之前就定义好。常见的有:样本均值、样本成数、样本方差、样本标准差、样本协方差等。三、样本估计值的含义样本估计值是用来估计总体参数时计算出来的样本统计量的具体数值。它是样本估计量的某一具体取值,只能在抽样之后由样本中的随机变量的值x1、x2、…xn来决定。样本估计量不含未知参数,它是随样本不同而不同的随机变量。故:抽取的样本不同,得到的样本估计量的具体数值也不同。附:总体参数、样本估计量与样本估计值三者关系举例总体参数
样本估计量样本估计值全部灯泡的平均使用寿命随机样本的平均使用寿命随机样本计算出来的平均使用寿命为1800小时全班统计学考试成绩的平均分随机样本的平均分随机样本计算出来的平均分为78分云南财经大学在校学生的月平均生活费用随机样本的月平均生活费用随机样本计算出来的月平均生活费用为450元3.1.3参数估计的方法矩估计法最小二乘法最大似然法顺序统计量法估计方法点估计区间估计一、点估计(一)点估计的含义(二)常用的点估计方法(一)点估计的含义点估计:又称为“定值估计”,就是指直接用“一个样本统计量(指标)”来估计“总体参数(指标)”的“一个数值点”。当已知一个样本的“观察值”则便可得到“总体参数”的“一个估计值”。简言之,点估计就是指将“样本估计量的一个取值”直接作为“总体参数的一个估计值”。例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计(二)常用的点估计方法点估计矩估计法极大似然估计法提示性讲解两种点估计方法二、区间估计(intervalestimation)(一)区间估计的含义(二)区间估计的数学定义(三)区间估计的统计直观意义(四)区间估计中的若干经验数据(五)区间估计示意图(六)常用的置信水平(置信度)(七)对置信区间的理解必须注意的问题(一)区间估计的含义区间估计(intervalestimation):顾名思义,就是用一个区间去估计未知总体参数,把未知总体参数值界定在两个数值之间范围。亦即:根据样本估计量,以一定的可靠程度(置信度)估计和推断总体参数的区间范围。(也可以定义为:区间估计是在点估计的基础上给出总体参数估计的一个范围。)总体参数的估计区间,通常是由样本统计量加减抽样极限误差而得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,我们能够得到对样本统计量与总体参数的接近程度给出一个概率度量。置信区间置信下限置信上限样本统计量
(点估计)比如:某班级平均分数在75~85之间,置信水平是95%(二)区间估计的数学定义设总体X的分布密度函数F(x,θ)中含有一个未知参数θ,x1、x2、…、xn是来自X的一个样本,对于给定的α(0<α<1),若能找到“两个统计量”:θ1(x1、x2、…xn)
和θ2(x1、x2、…、xn),使得:P{θ1≤θ≤θ2}=1-α
则称区间[θ1,θ2]为θ的置信度为1-α的“置信区间”。这里:α为显著性水平;1-α为区间估计的置信度或置信水平或置信系数(是指构造置信区间的步骤重复多次,在置信区间中包含总体参数真值的次数所占的比率。)(三)区间估计的统计直观意义如果我们作多次同样的抽样,将会得到多个置信区间,那么其中:有的置信区间包含了总体参数的真值;而有的置信区间却未包含总体参数的真值。例如:置信度1-α=95%表明如果我们抽取100个随机样本来估计总体的均值,那么由100个样本所构造的100个置信区间中,有95个置信区间包含了“总体参数的真值”,而另外5个置信区间则不包含“总体参数的真值”。(四)区间估计中的若干经验数据由样本均值的抽样分布可知:在重复抽样或总体无限的情况下,样本均值的数学期望等于总体均值;样本均值的标准差(或抽样标准差或抽样平均误差)为:,由此可以知道:样本均值落在范围内的概率为68.27%。样本均值落在范围内的概率为95.45%%。样本均值落在范围内的概率为99.73%%。样本均值落在范围内的概率为90%。样本均值落在范围内的概率为95%。样本均值落在范围内的概率为99%。90%的样本95%的样本99%的样本(五)常用的置信水平(置信度)
1.6451.962.58
0.050.0250.005
0.100.050.01
90%95%99%显著性水平置信水平在构造置信区间时,我们可以用所希望的值作为置信水平。比较常用的置信水平及正态分布曲线下右侧面积为
时的值如下表:(六)有关置信区间的概念用下图表示置信下限点估计值置信上限置信区间当时,其余以此类推,但要特别注意:查P284-285标准正态分布表时,由于
,故不直接查而是查,从表中先找到与最接近的数值,该数值对应的的值,就是的值。从上面的表和图可以看出:当样本容量(n)确定时,置信区间的宽度随着置信水平(1-α)的增大而增大。从直觉上说,置信区间比较宽时,才会使这一区间有更大的可能性包含总体参数的真值。当置信水平(1-α)固定时,置信区间的宽度随着样本容量(n)的增大而变窄。亦即:置信水平不变时,样本容量(n)越大,抽样误差越小,估计的精度越高,则
置信区间就越窄。对置信区间的理解必须注意的问题1、若用某种方法构造的所有区间中,有95%的区间包含总体参数的真值,有5%的区间不包含总体参数的真值,则用该方法构造的区间就称之为“置信水平为95%的置信区间”。其他置信水平的区间也可以用类似的方式表述。之所以如此表述置信区间,其理由是:总体参数的真值是固定的、未知的,而用样本构造的区间则是不固定的、随机的。随着抽取的样本不同,用同样的方法构造出的区间也必然不同。从这个意义上说,置信区间是一个“随机区间”,它会因样本的不同而不同,且不是所有的区间都包含总体参数的真值。2、置信水平(1-α
)这个概率,不能用来描述某个特定的区间包含总体参数真值的可能性大小。一个特定的区间总是包含或绝对不包含总体参数的真值,不存在可能包含或可能不包含的问题。但是,利用1-α这个概率,可以知道在多次抽样得到的区间中大概有多少个区间包含了总体参数的真值。例如:我们用99%的置信水平得到云南财经大学全体在校学生月平均生活费用在100元至500元之间。我们不能说:100—500这个区间以99%的概率包含云南财经大学全体在校学生的月平均生活费用的真值。我们只是知道:在多次抽样中有99%的样本得到的区间包含云南财经大学全体在校学生的月平均生活费用的真值,而有1%的样本得到的区间不包含该真值。置信区间与置信水平均值的抽样分布(1-a)%区间包含了
a%的区间未包含
1-aa/2a/2影响区间宽度的因素1.总体数据的离散程度,用来测度2.样本容量3.置信水平(),影响
z的大小3.1.4评价估计量优劣的标准一、引言二、评价估计量优劣的标准一、引言前面介绍了参数估计的两种常见的估计方法——矩估计法和极大似然估计法。对于同一个总体参数,采用不同的方法估计,可能会得到不同的估计量。究竟其中哪一个估计量是总体参数的最优估计量呢?这就需要有一定的评价标准。二、评价估计量优劣的标准评价估计量优劣的标准,常常采用以下三条:(一)无偏性(二)有效性(三)一致性(一)无偏性(unbiasedness)无偏性:是指“样本估计量
”的“均值(数学期望)”等于“被估总体参数的真实值θ”。即:
则:称为θ的无偏估计量。无偏性实际上是指:不同的样本,会有不同的估计值()。虽然从“某一个具体样本”来看,估计值()有时会“大于θ”,有时会“小于θ”,有“误差”。但从所有可能样本的角度来看:估计值的平均水平=总体参数θ的真实值,即:平均说来,估计是无偏的。样本均值()是总体均值(
)的无偏估计量证:因为x1、x2、…、xn是n次观察结果的n个独立的随机变量,且它们来自同一总体,有相同的分布律,故它们有相同的期望值和标准差。即:E(x1)=E(x2)=…=E(xn)=μ,D(x1)=D(x2)=…=D(xn)=σ2于是:样本修正方差(
)是总体方差(
)的无偏估计量其他条件同上,证明过程如下(中间有省略)样本方差()不是总体方差()的无偏估计量其他条件同上,证明过程如下(中间有省略)样本比率()是总体比率()的无偏估计量证明:重复抽样的条件下,当从总体中抽取一个样本容量为n的样本时,具有某种属性的单位数()服从二项分布,记为:
,且有:,于是有:(二)有效性(efficiency)
——最小方差性无偏性仅仅考虑了样本估计值的平均结果是否等于总体参数的真实值,而没有考虑每一个样本估计值
与待估总体参数真实值θ之间偏差的大小和离散程度。实际解决问题时,不仅希望估计是无偏的,更希望样本估计值的偏差尽可能地小。有效性:又称为最小方差性,是指在若干个无偏点估计量中,方差最小的那一个无偏估计量,就是有效的估计量。可见,一个有效的估计量,首先必须是无偏的。(三)一致性(相合性)设:
(x1、x2、…、xn)是待估参数θ的估计量,当n→∞时,对于任意小的正整数ε,有:一致性,它说明当样本容量(n)趋近于无穷大∞时,样本估计量依概率收敛于总体参数的真实值θ。亦即:随着样本容量的增大,点估计量的值越来越接近被估计总体参数的真值。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数的真值。几个重要的结论(小结)1.样本均值()和样本比例(p),分别是总体均值µ和总体比例P的无偏、有效和一致的优良估计量。2.样本修正方差(Sn-12)是总体方差(σ2)的无偏估计量。3.样本方差(Sn2)不是总体方差(σ2)的无偏估计量,(不过,它虽不具有无偏性,但它是“渐进无偏的”。)它比总体方差多了一个(n-1)/n。正因为如此,本教材直接把样本修正方差
Sn-12
直接定义为样本方差。3.2一个总体参数的区间估计3.2.1总体均值的区间估计3.2.2总体比率的区间估计3.2.3总体方差的区间估计3.2.1总体均值的区间估计一、正态总体且总体方差已知时的估计方法(定理1)二、总体分布未知或非正态总体且大样本时的估计方法(定理2)三、正态总体、总体方差未知且小样本时的估计方法(定理3)一、正态总体且总体方差已知时的估计方法(以重复抽样为例)当总体X→N(µ,σ2),则抽自其中的简单随机样本的均值也服从正态分布。即:正态总体且总体方差σ2已知时,不论是大样本还是小样本,建立置信区间所用的统计量都是——标准正态统计量(Z)。即:对于给定的置信水平(1-α),可查标准正态分布表P350得出临界值Zα/2使得:上式表明:在给定的显著性水平α下,总体均值µ在1–α的置信水平下的置信区间为:抽样平均误差(样本均值的标准差或样本均值抽样分布的标准差)的计算公式为:抽样极限误差(允许误差
)
=临界值×抽样平均误差于是,置信区间可以简写成:同理,不重复抽样的情况下抽样平均误差的计算公式为抽样极限误差的计算公式为置信区间的计算公式仍然为区间估计例1:(正态总体-方差已知)某种零件的长度服从正态分布,现从该产品中随机抽取9件,测得其平均长度为21.4厘米。根据以往的经验,该批产品的总体标准差σ=0.15厘米。要求以95%的置信度估计该种零件平均长度的置信区间。解:依题意得:零件长度X→N(µ,0.152)
n=9,,σ=0.15,1-α=0.95,α=0.05,查P350的标准正态分布表得出临界值为:Zα/2=Z0.05/2=Z0.025=Z1-α/2=Z1-0.025=Z0.975=1.96抽样平均误差:抽样极限误差:计算结果表明:在95%的置信水平下该种零件的平均长度在21.302厘米至21.498厘米之间。所以在95%的置信水平下该种零件的平均长度的置信区间为:二、总体分布未知或非正态总体且大样本时的估计方法(以重复抽样为例)当样本容量(n)足够大(n≥30)时,即使总体分布形式未知或者总体为非正态分布,根据中心极限定理可知:样本均值()近似服从正态分布,因此,估计总体均值(µ)的方法和公式与正态总体且总体方差已知的情形相同,置信区间仍然是:在大样本的情况下,当总体方差(σ2)未知而用样本方差(Sn-12)代替时,由于t分布可用正态分布近似,其他方法同前,只是此时的置信区间公式为:想一想,不重复抽样的置信区间公式如何写?区间估计例2:(总体分布未知或非正态总体且大样本、总体方差已知)某财经大学从该校学生中随机抽取100人,调查得到他们平均每天参加体育锻炼的时间为26分钟。又知总体方差为36(分钟)2,试以95%的置信水平估计该财经大学全体学生每天平均参加体育锻炼时间的置信区间。解:由于总体的分布形式未知,且总体方差σ2=36(分钟)2已知,且样本容量n=100>30为“大样本”,故可以近似地认为:样本均值服从N(µ,σ2/n),依题意知道:查表得到:,于是:抽样平均误差:抽样极限误差:所以,在95%的置信水平下全校学生平均每天参加体育锻炼时间µ的置信区间为:计算结果表明:在95%的置信水平下该财经大学全校学生平均每天参加体育锻炼的时间在24.824分钟至27.176分钟之间。区间估计例3:(总体分布未知或非正态总体且大样本、总体方差未知)在大兴安岭林区,随机抽取了120块面积为1公顷的样地,根据调查测量求得每公顷林地平均出材量为88(m3),标准差为10(m3),试在99%的置信水平下估计大兴安岭林区每公顷地平均出材量的置信区间。解:总体分布形式和总体方差σ2均未知,但由于n=120>30,属于大样本,故可近似地采用正态分布处理,并用样本方差代替总体方差。依题意又知:
,查标准正态分布表得:
于是:抽样平均误差:抽样极限误(允许误差)所以,在99%的置信水平下大兴安岭林区每公顷地平均出材量的置信区间为:计算结果表明:在99%的置信水平下大兴安岭林区每公顷地平均出材量在85.645m3至90.355m3之间。区间估计例4:若例3中:1-α=0.95,其他条件不变此时,Zα/2=Z0.05/2=1.96
前题已计算出:抽样平均误差
σ(x¯)=0.9129
于是:抽样极限误差E=Zα/2·σ(x¯)=1.96×0.9129=1.789则置信区间为:88-1.789≤µ≤88+1.789即:
86.211≤µ≤89.789显然,95%下的置信区间比99%下的置信区间缩小了。由此可见:置信度(1-α)越大,抽样极限误差(E)越大,置信区间就越大。反之置信度(1-α)越小,抽样极限误差(E)越小,置信区间就越小。三、正态总体、总体方差未知且小样本时的估计方法(以重复抽样为例)根据小样本分布定理可知,在小样本条件下,如果总体是正态分布、总体方差未知,而需用样本方差代替,那么随机变量:此时则需要采用t分布来建立总体均值的置信区间。t分布
t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大,t分布也逐渐趋于正态分布Xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)对于给定的置信度(1-α),可用P352的t分布表,查出临界值tα/2(n-1),使得:上式表明:在给定的显著性水平α下,总体均值µ在1-α的置信度下的置信区间为:置信区间中的抽样平均误差和抽样极限误差公式抽样平均误差:(重复抽样)抽样极限误差:同理,不重复抽样的情况下抽样平均误差的计算公式为抽样极限误差的计算公式为置信区间的计算公式仍然为区间估计例5
(正态总体、总体方差未知且小样本)设某上市公司的股票价格服从正态分布,为了掌握该上市公司股票的平均价格情况,现随机抽取了26天的交易价格进行调查,测得平均价格为35元,方差为4(元2),试以98%的置信度估计该上市公司股票平均交易价格的置信区间。解:因为总体服从正态分布,但n=26<30属于小样本,总体方差σ2未知,此时可以用样本方差S2近似代替。1-α=0.98α=0.02查t分布表得出:又知:于是:抽样平均误差抽样极限误差所以在98%的置信水平下该公司股票交易价格µ的置信区间为:计算结果表明:在98%的置信度下该上市公司股票交易的平均价格在34.04元至35.96元之间。总体均值的区间估计小结
小样本未知大样本已知总体分布未知或非正态总体
大样本未知小样本大样本已知
正态总体
不重复抽样重复抽样3.2.2总体比率的区间估计
(以重复抽样为例)根据上面的样本比例的抽样分布定理可知:在大样本和条件下,样本比率服从正态分布。将样本比率标准化后,它服从标准正态分布。右下。总体比率区间估计的抽样平均误差和抽样极限误差对于给定的置信度(1-α),查标准正态分布表的Zα/2,于是:抽样平均误差:抽样极限误差:总体比率的置信区间公式总体比率P在1-α的置信水平下的置信区间为:同理,若已知“总体容量N”,则“总体中某一部分单位总数NP”的置信区间为:同理,不重复抽样的情况下抽样平均误差的计算公式为抽样极限误差的计算公式为置信区间的计算公式仍然为区间估计例5
(总体比率的区间估计)某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。例6解:依题意:
n=100,p=65%,1-=95%,Z/2=1.96
样本比率的抽样平均误差:样本比率的抽样极限误差例6解(续前)所以在95%置信度下该城市下岗职工中女性比例P的置信区间为:计算结果表明:在95的置信度下该城市下岗职工中女性比例的大致在为55.65%~74.35%之间。需要说明的问题(教材P141)虽然,样本比率p随着样本容量n的增大而近似服从“正态分布”,但究竟样本容量n应该多大才能使样本比率p近似服从正态分布呢?这与“样本比率p的大小”有关。当样本比率p接近于0.5时,用较小的样本就可以使p的分布趋于正态分布。但当样本比率p接近于0和1时,就需要用很大的样本才能使p的分布趋于正态分布。统计学家W.G.Kochran(柯克兰)为此提出了一个标准可供参考。(续前)柯克兰标准样本比率p近似正态分布要求的样本容量n
0.50.4—0.60.3—0.70.2—0.80.1—0.93050802006003.2.3总体方差的区间估计在研究生产过程和产品质量的稳定性、仪器和测量的精度等实际问题时,往往要求进行总体方差的区间估计。在非正态总体或者总体分布形式未知的情况下,要进行总体方差的区间估计,这是一件比较麻烦的事情。而在正态总体条件下进行,则相对容易一些。下面我们仅讨论正态总体的情形。设:x1、x2、…、xn来自N(µ,σ2)的正态总体,其中µ、σ2未知,则:σ2的估计量为s2且构造统计量:从而对于给定的置信度1-α,查分布表
确定两个临界点:
:表示自由度(n-1)的
的
分位数;:表示自由度(n-1)的的分位数;(续前)(总体方差置信区间示意图)0总体方差在的置信区(续前)于是对于给定的显著性水平,使得:(续前)上式表明对于给定的置信度1-α总体方差的置信区间为:总体标准差的置信区间为:区间估计例8(总体方差区间估计)某自动车床加工的某种零件长度X,X→N(µ,σ2),现随机抽查16个零件,测得其方差为0.00244(mm)2,试以95%的置信度估计该种零件方差的置信区间。解:S2=0.002441-α=0.95,α=0.05,α/2=0.025查“χ2分布表”得:
χ20.025(16-1)=χ20.025(15)=27.488χ21-0.025(16-1)=χ20.975(15)=6.262例8解(续前):在95%的置信度下总体方差的置信区间为:计算结果表明:该自动车床加工的零件长度方差在0.00133毫米至0.00584毫米之间。3.3两个总体参数的区间估计3.3.1两个总体均值之差的区间估计3.3.2两个总体比率之差的区间估计3.3.3两个总体方差比的区间估计3.3.1两个总体均值之差的区间估计一、引言二、两个总体均值之差的估计:独立样本三、两个总体均值之差的估计:匹配样本一、引
言设两个总体的均值分别为、,从两个总体中分别抽去样本容量为和的两个随机样本,其样本均值分别为和。估计两个总体之差()的样本估计量显然是两个随机样本的均值之差()。对于两个总体均值之差的估计,必须考虑两个样本是独立样本还是匹配样本,以及两个随机样本均值之差的抽样分布。二、两个总体均值之差的估计:
——独立样本(一)两个正态总体、两个总体方差均已知的情形(定理1)(二)两个总体分布未知或为非正态分布且大样本的情形(定理2)(三)两个正态总体、两个总体方差均未知且两个样本均为小样本的情形(定理3)(一)两个正态总体、两个总体方差均已知的情形(定理1)若两个独立随机样本(x11、x12、…、x1n1)和(x21、x22、…、x2n2)抽自于两个正态总体和,且两个正态总体的方差和已知,则不论两个样本的样本容量和的大小如何,两个样本均值之差服从正态分布。即:∽(续前)而两个样本均值之差经标准化后则服从标准正态分布。即:此时,两个总体均值之差()在1-α置信水平下的置信区间为:例题(略)(二)两个总体分布未知或为非正态分布且大样本的情形(定理2)若两个独立随机样本(x11、x12、…、x1n1)和(x21、x22、…、x2n2)抽自于两个总体分布未知或为非正态分布,且样本容量和,则两个样本均值之差近似服从正态分布。即:∽(续前)而两个样本均值之差经标准化后则服从标准正态分布。即:1、当两个总体方差和都已知时,两个总体均值之差()在1-α置信水平下的置信区间为:(续前)2、当两个总体方差和都未知时,可用两个样本方差和来代替,两个总体均值之差()在1-α置信水平下的置信区间为:区间估计例9
(两个总体均值之差的区间估计)某乡为了估计两个村小麦平均亩产之差,在这两个村种植小麦的地块中独立地抽取两个随机样本,得到有关数据如下:甲村的样本容量为40,平均亩产为520千克,标准差25千克;乙村样本容量为45,平均亩产为460千克,标准差为28千克。
试以95%的置信水平估计两个村平均亩产之差的置信区间。例9解:依题意可知:,属于大样本,且,,属于大样本,且,查表得:,于是在95%的置信水平下两个村小麦平均亩产量的置信区间为:即:(54.25,65.75),表明在95%的置信水平下两个村小麦平均亩产之差在54.25千克至65.75千克之间。若两个独立随机样本(x11、x12、…、x1n1)和(x21、x22、…、x2n2)抽自于两个正态总体和,且两个正态总体的方差和未知,且样本容量n1<30和n2<30,两个样本均值之差服从t分布.分两种情况:1、若两个总体方差相等(方差具有齐性),即,此时,则需要用两个样本方差和来估计,必须将两个样本的数据组合在一起,以给出总体方差的共同样本方差
,计算公式为:(三)两个正态总体、两个总体方差均未知且两个样本均为小样本的情形(定理3)(续前)这时,两个样本均值之差经过标准化以后服从自由度为的t分布,即:此时,两个总体均值之差()在1-α置信水平下的置信区间为:2、当两个总体的方差不相等(即方差不具有齐性)即、而且两个样本的容量也不相等(即)时,两个样本均值之差经标准化后不再服从自由度为的t分布,而是近似服从自由度为v的t分布,自由度v的计算公式为:此时,两个总体均值之差在1-α置信水平下的置信区间为:例从甲乙两种机床加工的零件中随机抽取容量分别为8件和7件的样本测得直径数据如下:20.519.819.720.420.120.019.019.920.719.819.520.820.419.620.2甲乙要求:在95%的置信度下估计两种零件平均直径之差的置信区间。(手工计算不要求,关键是能看懂SPSS输出结果)。SPSS输出结果如下:样本容量样本均值样本标准差样本均值的抽样分布的标准差样本均值之差样本均值之差的抽样分布标准差方差齐性检验总体均值之差的在95%置信度下的置信区间解因为F统计量的P值sig,=0.444>α=0.05,所以不拒绝的原假设,因此两个总体均值之差在95%的置信度下的置信区间为【-0.7684,0.3327】。若方差不等则选择【-0.7768,0.3411】方差相等方差不相等三、两个总体均值之差的估计
——匹配样本匹配样本(matchedsample)是指一个样本中的数据与另一个样本中的数据相对应。例如:为了考察用两种方法组装产品所需要的时间,我们先随机安排12个工人用第一种方法组装产品考察其所需时间,然后再安排这12个工人用第二种方法组装产品考察其所需时间,这样得到的两组组装产品所需时间的数据,就是“匹配数据”。匹配样本,可以消除由于样本安排的不公平造成的两种方法在组装时间上的差异。1、在匹配样本且大样本的条件下,两个总体均值之差在(1-α)的置信水平下的置信区间为:设:()和()为一对匹配数据,其对应数据的差值分别为则各差值的均值各差值的标准差当总体差值的标准差σd未知时,可用样本差值的标准差sd来代替。2、在匹配样本且大样本的条件下,两个总体均值之差在(1-α)的置信水平下的置信区间为:总体样本例从新旧两款饮料中随机抽取容量8家商店的样本测得销售量数据如下(百瓶)新款要求:在95%的置信度下估计新旧两款饮料平均销售量之差的置信区间。(手工计算不要求,关键是能看懂SPSS输出结果)。
5.0 6.04.0 6.07.0 7.03.0 4.05.0 3.08.0 9.05.0 7.06.0 6.0旧款3.3.2两个总体比率之差的区间估计根据抽样分布的原理可知:从两个二项分布总体中抽出两个独立的样本,在大样本的情况下,则两个样本比率之差的抽样分布近似服从正态分布。同样,将两个样本比率之差经过标准化后则服从标准正态分布。即:(续前)由于两个总体比率和通常是未知的,可用样本比率和来代替。因此,根据正态分布建立的两个总体比率之差()在1-α得置信水平下的置信区间为:例题(略)。3.3.3两个总体方差比的区间估计由于两个样本方差比的抽样分布服从
分布,因此我们用F分布来构造两个总体方差比的置信区间。用F分布构造的两个总体的置信区间如下图所示:0F总体方差比在(1-α)的置信区间(续前)建立两个总体方差比的置信区间,就是要找到F值,使其满足。根据抽样分布知识,可以得到两个总体方差比在(1-α)置信水平下的置信区间为:例题(略)。3.4样本容量的确定3.4.1确定样本容量的必要性3.4.2确定抽样容量的关键问题3.4.3估计总体均值时样本容量的确定3.4.4估计总体比率时样本容量的确定3.4.1确定样本容量的必要性样本容量(n),它是指一个样本中所包含的总体单位个数。一般地,抽取的数目n≥30,称为大样本;抽取的数目n<30,称为小样本。对社会经济现象的抽样调查,一般采用大样本。前面的讨论是假设样本容量(n)是已知的,但在实际问题中,需要自己设计抽样调查方案,此时,如何确定样本容量(n),就大有学问。如果n确定得太大,虽然调查误差很小,但调查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年西安市浐灞丝路学校招聘总务处干事备考题库及答案详解一套
- 2026年沈阳大学和沈阳开放大学面向社会公开招聘急需紧缺事业单位工作人员21人备考题库完整答案详解
- 养老院安全防范与应急处理制度
- 第四章电磁振荡与电磁波 单元练习(含答案)
- 2026年通化县供销联社公开招聘备考题库及参考答案详解
- 2026年葫芦岛市总工会面向社会公开招聘工会社会工作者5人备考题库及参考答案详解一套
- 2026年病人服务中心陪检员招聘备考题库及参考答案详解1套
- 2026年绍兴市文化市场执法指导中心招聘编制外工作人员备考题库及答案详解参考
- 2026年某物业国企单位招聘外包制人员备考题库有答案详解
- 2026年通号工程局集团有限公司天津分公司招聘备考题库含答案详解
- 2026年广东粤海水务股份有限公司招聘备考题库及一套答案详解
- 诊所医生营销培训课件
- 一节课说课模板课件
- 河道清洁员安全培训课件
- 2026年钟山职业技术学院高职单招职业适应性测试备考试题带答案解析
- 上海市普陀区2025-2026学年八年级上学期期中语文试题(含答案)
- 工业互联网标准体系(版本3.0)
- 培养小学生的实验操作能力
- 气动回路图与气动元件课件
- 《念奴娇 赤壁怀古》《永遇乐 京口北固亭怀古》《声声慢》默写练习 统编版高中语文必修上册
- 妇产科病史采集临床思维
评论
0/150
提交评论