抽样推断课件_第1页
抽样推断课件_第2页
抽样推断课件_第3页
抽样推断课件_第4页
抽样推断课件_第5页
已阅读5页,还剩211页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

参数估计假设检验统计方法描述统计推断统计统计估计非参数估计参数估计假设检验统计方法描述统计推断统计统计估计非参数估计*第5章抽样推断5.1抽样推断的一般问题5.2抽样误差5.3参数估计5.4样本容量的确定*第5章抽样推断5.1抽样推断的一般问题*抽样推断的过程总体样本随机取样计算出样本的均值、样本比例、样本方差调查总体均值、总体比例、总体方差等推断*抽样推断的过程总体样本随机取样计算出样本的均值、样本比例、*5.1抽样推断的一般问题

5.1.1抽样推断的概念和特点

5.1.2抽样推断的基本范畴

5.1.3抽样分布*5.1抽样推断的一般问题*1、概念抽样推断是在抽样调查的基础上,根据样本的情况来推断总体特征的一种统计分析方法。2、抽样推断的特点按照随机原则抽取样本单位(样品);根据对样本的调查对总体做出推断;抽样误差可以事先计算并加以控制。3、抽样推断的适用场合无法进行全面调查时;进行全面调查有困难或不必要时;5.1.1抽样推断的概念和特点*1、概念5.1.1抽样推断的概念和特点*1.抽样框和抽样单位(1)总体和样本

总体也称母体,是所要研究的全部单位组成的整体。一般用N表示总体包括的总体单位数。样本又称子样,它是从总体中随机抽取出来的一部分单位组成的整体。一般用n表示样本包括的总体单位数。作为推断对象的总体是确定的,而且是唯一的;作为观察对象的样本不是确定的,也不是唯一的。5.1.2抽样推断的基本范畴*1.抽样框和抽样单位5.1.2抽样推断的基本范畴*(2)抽样框:抽样框是包括全部总体单位的框架,以此代表总体,用来从中抽取样本单位,具体表现形式有总体单位(或其集合)的名单或目录、地图、时间等。(3)抽样单位:抽样单位是构成抽样框的基本要素,它可以是总体单位也可以是总体单位的集合。*(2)抽样框:*2.重复抽样和不重复抽样重复抽样,也叫回置抽样/放回抽样,是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。不重复抽样,也叫不回置抽样/不放回抽样,是指抽中单位不再放回总体中,下一个样本单位只能从余下的抽样单位中抽取。*2.重复抽样和不重复抽样*3.样本容量和样本可能数目样本容量:一个样本所包含的总体单位数,用n表示,当样本容量大于等于30时称为大样本,小于30时称为小样本。样本可能数目:指按一定抽样方法和一定样本容量从总体中抽取样本时,所有可能的样本个数,一般用M表示。

*3.样本容量和样本可能数目*考虑顺序的重复抽样的样本可能数目:考虑顺序的不重复抽样的样本可能数目:样本可能数目的计算*考虑顺序的重复抽样的样本可能数目:样本可能数目的计算*不考虑顺序的重复抽样的可能样本数目:不考虑顺序的不重复抽样的可能样本数目:客观现象中常见的*不考虑顺序的重复抽样的可能样本数目:不考虑顺序的不重复抽样*4.参数和统计量参数:根据总体中各单位的变量值计算的、反映总体数量特征的特征值。主要有总体均值、成数或比例、方差。统计量:根据样本中各单位的变量值计算的、反映样本数量特征的特征值。主要有样本均值、成数或比例、方差。总体是确定的、唯一的,所以总体参数也是确定的、唯一的;样本是随机的,所以样本统计量是随机变量。*4.参数和统计量*

总体参数样本统计量*总体参数*样本统计量的概率分布;随机变量是样本统计量:样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本;提供了样本统计量的分布特征,是进行推断的理论基础,也是抽样推断科学性的重要依据。 5.1.3抽样分布

(samplingdistribution)*样本统计量的概率分布;5.1.3抽样分布

(sampl*抽样分布的形成

(samplingdistribution)总体计算样本统计量:样本均值、比例、方差样本*抽样分布的形成

(samplingdistributi*1.形成过程从单位数为N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下,共有Nn个可能的样本,在不重复抽样条件下,共有PNn个可能样本;对于每一个样本,我们都可以计算出样本的均值;将所有可能样本的样本均值根据其取值形成概率分布,即可得到样本均值的抽样分布,它是推断总体均值的理论基础。(一)样本均值的抽样分布*1.形成过程(一)样本均值的抽样分布*【例】设一个总体,总体单位数N=4。4个单位某一标志值的取值分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下:

总体分布14230.1.2.3均值和方差*【例】设一个总体,总体单位数N=4。4个单位某一标志值的*现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有16个样本。所有样本的结果为:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)*现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有*计算出各样本的均值,并给出样本均值的抽样分布:3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5*计算出各样本的均值,并给出样本均值的抽样分布:3.53.0*2.样本均值的数字特征*2.样本均值的数字特征*证明:*证明:*X=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5XxP(x)结论:1.样本均值的均值(数学期望)等于总体均值;

2.样本均值的方差等于总体方差的1/n。*X=2.5总体分布14230.1.2.3抽样分布P*样本均值的数学期望:样本均值的方差:不重复抽样条件下:*不重复抽样条件下:*样本均值的抽样分布=50

=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,且其数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)*样本均值的抽样分布=50=10X总体分布n=*中心极限定理

(centrallimittheorem)当样本容量足够大时(n>30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。一个任意分布的总体X*中心极限定理

(centrallimittheorem*的分布趋于正态分布的过程*的分布趋于正态分布的过程*总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布样本均值的抽样分布样本均值的抽样分布与总体分布的关系*总体分布正态分布非正态分布大样本小样本正态分布正态分布非正*总体(或样本)中具有某种属性的单位与全部单位总数之比:不同性别的人数与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例表示为

样本比例表示为

(二)样本成数(比例)的抽样分布*总体(或样本)中具有某种属性的单位与全部单位总数样本比例*样本比例的抽样分布容量相同的所有可能样本的样本比例的概率分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似。样本比例的数学期望:样本比例的方差重复抽样:不重复抽样: *样本比例的抽样分布容量相同的所有可能样本的样本比例的概率分***5.2抽样误差

5.2.1抽样误差

5.2.2抽样平均误差

*5.2抽样误差*1、概念抽样误差是指由于随机抽样的偶然因素使样本单位不足以代表总体单位,而引起的样本统计量和总体参数之间的绝对离差。()2、影响因素总体单位标志值的离散程度;样本容量的大小(n);抽样方法(重复抽样/不重复抽样);抽样调查的组织方式(简单随机抽样/分层抽样/等距抽样/整群抽样)。5.2.1抽样误差*1、概念5.2.1抽样误差*1、所有可能样本统计量与总体参数的平均离差。2、理论计算公式为:上式可以变换为:5.2.2抽样平均误差(标准误)由此,样本均值的抽样平均误差就是样本均值的标准差。*1、所有可能样本统计量与总体参数的平均离差。上式可以变换为*3、抽样平均误差的计算公式:(1)重复抽样条件下(2)不重复抽样条件下*3、抽样平均误差的计算公式:*

在总体单位数很大的情况下,可近似表示为:*在总体单位数很大的情况下,可近似表示为:*抽样推断的标准误差

(standarderror)样本统计量的标准差,称为统计量的标准误,也称为标准误差;衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度;当总体标准差未知时,可用样本标准差s代替,在重复抽样条件下,样本均值的标准误差为*抽样推断的标准误差

(standarderror)样本*可以通过调整样本单位数n来控制抽样平均误差。例如,将样本容量增加3倍,则平均误差就缩小一半;而抽样平均误差减少20%,则样本容量就需要原来的1.56倍。*可以通过调整样本单位数n来控制抽样平均误差。例如,将样本容*5.3参数估计

5.3.1抽样推断的内容

5.3.2点估计

5.3.3区间估计*5.3参数估计*1、参数估计依据所获得的样本数据,对总体的数量特征进行估计的推断方法称为参数估计,即根据样本统计量来估计总体参数。参数估计包括的内容:如确定估计值,确定估计的优良标准;确定估计值和被估计参数之间的误差范围以及在一定误差范围内所作推断的可靠性程度等。2、假设检验先对总体的数量特征作某种假设,再根据样本数据对所作假设进行检验。假设检验包括的内容:确定原假设与备择假设;选择检验统计量;确定显著性水平;做出决策。5.3.1抽样推断的内容*1、参数估计5.3.1抽样推断的内容*5.3.2点估计

(pointestimate)1、定义:用样本统计量的值直接作为总体参数的估计值,称为总体参数的点估计2、优点:简便、易行3、缺点:没有考虑抽样误差的大小;没有给出估计值接近总体参数的程度;没有考虑估计的概率保证程度。*5.3.2点估计

(pointestima*

估计量与估计值

(estimator&estimatedvalue)估计量:用于估计总体参数的样本统计量的名称;如样本均值、样本比例(成数)、样本方差等参数用表示,估计量用表示估计值:根据样本资料得出的估计量的具体取值如果样本均值x=80,则80就是估计值*估计量与估计值

(estimator&estima*评价估计量的优良标准无偏性:估计量的数学期望等于被估计的总体参数

P(

)BA无偏有偏总体参数*评价估计量的优良标准无偏性:估计量的数学期望等于被估计的总*有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。AB

的抽样分布

的抽样分布P(

)

比更有效*有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计*一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。大数定律已经证明了:样本平均数和样本成数都满足一致性:*一致性:随着样本容量的增大,估计量的值越来越接近被估计的总*1、定义:在点估计的基础上,指出总体参数的上限和下限,即指出总体参数可能存在的区间范围,并指出总体参数落在这一区间的置信水平。区间估计的三个要素:点估计值总体参数与点估计值的抽样误差范围(抽样极限误差)置信水平/概率保证程度(1-α)5.3.3区间估计*1、定义:在点估计的基础上,指出总体参数的上限和下限,即指*2、区间估计的一对矛盾:准确性(精度):在点估计的基础上,给出总体参数估计的一个区间范围,称为置信区间,该区间由样本统计量加减一个误差范围而得到:

样本统计量值

(点估计)置信区间置信下限置信上限*2、区间估计的一对矛盾:样本统计量值

(点估计)置信区间*抽样极限误差抽样极限误差是根据统计研究任务要求确定的可允许的最大抽样误差范围,它等于总体参数可允许变动的上限或下限与样本统计量的绝对离差。

我们总是希望估计的准确性越高越好,即估计精度尽可能的高,也就是希望置信区间越窄越好,或者抽样极限误差越小越好。*抽样极限误差抽样极限误差是根据统计研究任务要求确定的可允许*(2)可靠性(置信水平/概率保证程度):总体参数落在置信区间内的概率,即样本统计量与总体参数的误差不超过抽样极限误差的概率。样本统计量的抽样分布能够根据样本统计量与总体参数的接近程度给出相应的概率度量:两者越接近概率越小,差异越大概率越大。*(2)可靠性(置信水平/概率保证程度):总体参数落*表示为(1-

)%为总体参数落在区间内的概率常用的置信水平为99%,95%,90%相应的为0.01,0.05,0.10置信水平的表示

(confidencelevel)

*表示为(1-)%置信水平的表示

(con*抽样推断时,我们总是希望估计的误差范围尽可能的小,即抽样精度尽可能的高,并且估计的置信水平也尽可能的大,但事实上这两者是矛盾的:在其他条件不变的情况下,提高估计的置信水平,就会增大抽样极限误差(降低估计的精度);提高估计的精度,就会减小置信水平。所以在区间估计中,我们只能对准确性和可靠性中的一个提出要求,来推求另一要素的情况,事实上抽样极限误差与置信水平之间存在一一对应的关系,知道其中一个可以求另外一个。准确性与可靠性的关系*抽样推断时,我们总是希望估计的误差范围尽可能的小准确性与可*标准正态分布

(standardizenormaldistribution)

标准正态分布的概率密度函数:随机变量具有均值为0,标准差为1的正态分布;任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布;

标准正态分布的分布函数;*标准正态分布

(standardizenormaldi*标准正态分布概率图示90%的x99.73%的x95%的xx*标准正态分布概率图示90%的x99.73%的x95%的一般正态分布的密度函数f(x)=随机变量X的频率

=随机变量X的均值=随机变量X的方差

=3.1415926;e=2.71828一般正态分布的密度函数f(x)=随机变量X的频率一般正态分布概率图示一般正态分布概率图示*正态分布函数的性质图形是关于x=对称钟形曲线,且峰值在x=处;均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”;均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭;当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。

*正态分布函数的性质图形是关于x=对称钟形曲线,且峰值在x任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布任何一个一般的正态分布,可通过下面的线性变换转*【例】计算以下概率:

(1)

X~N(50,102),求和

(2)

Z~N(0,1),求和

(3)正态分布概率为0.05时,求标准正态累积分布函数的反函数值z。

正态分布

(例题分析)

*【例】计算以下概率:正态分布

(例题分析)*样本均值概率分布图示x90%的样本99.73%的样本95%的样本

根据中心极限定理可知,,*样本均值概率分布图示x90%的样本99.73%的样本95*****概率度:度量置信水平大小的指标,概率度大则置信水平高,概率度小则置信水平低。其实质是以抽样平均误差(标准误差)为标准去衡量抽样极限误差大小的统计指标,即抽样极限误差为标准误差的倍数。置信水平与置信度之间的关系可用下式表达:*概率度:度量置信水平大小的指标,概率度大则置信水平高,概率*常用的概率度和置信水平的关系表置信水平1-/268.27%0.31730.15865190%0.100.051.64595%0.050.0251.9695.45%0.0550.0275299%0.010.0052.5899.73%0.00270.001353*常用的概率度和置信水平的关系表置信水平1-/268*3.区间估计的方法方法一:根据给定的抽样极限误差,求置信水平F(Z)(1)抽取样本,计算岩本统计量,如计算样本平均数或样本成数作为相应总体参数的估计值,如果缺少总体方差或均方差资料,还应计算样本方差或均方差代替;(2)根据给定的抽样极限误差,估计总体参数的上、下限;(3)计算抽样平均误差或估计标准误差;(4)将抽样极限误差除以抽样平均误差求出概率度Z值,再根据Z值查“正态分布概率表”求出相应的置信水平F(Z)。*3.区间估计的方法*方法二:根据给定的置信水平要求,来推算抽样极限误差,然后进行区间估计。(1)抽取样本,计算岩本统计量,如计算样本平均数或样本成数作为相应总体参数的估计值,如果缺少总体方差或均方差资料,还应计算样本方差或均方差代替;(2)根据给定的置信度F(Z)要求,求得概率度Z值;

(3)计算抽样平均误差u;(4)根据概率度Z和抽样平均误差来推算抽样极限误差,再根据抽样极限误差求出被估计总体参数的上下限,对总体参数做区间估计。*方法二:根据给定的置信水平要求,来推算抽样极限误差,然后进*每包重量(克)包数组中值149以下10148.51485-1.832.4149~15020149.52990-0.812.8150~15150150.575250.22151以上20151.530301.228.8合计100—15030—76[例]某外贸公司出口一种茶叶,规定每包规格不低于150克,现用不重复抽样方法从中随机抽取1%进行检验,抽检结果如表所示:*每包重量(克)包数组中值149以下10148.51485-*要求:(1)抽样极限误差为0.2克,估计该批茶叶每包平均重量的区间及其概率保证程度;(2)茶叶包装合格率的误差范围不超过6%,估计包装合格率的区间及其概率保证程度;(3)要求以95.45%的概率保证程度,估计该批茶叶每包平均重量的区间;(4)要求以95.45%的概率保证程度,估计该批茶叶的包装合格率的区间。*要求:*(1)

上限==150.3+0.2=150.5克下限==150.3-0.2=150.1克*(1)上限==150.3+0*查概率表:该批茶叶每包平均重量落在区间[150.1,150.5]克内,概率保证程度为97.91%。*查概率表:*

(2)上限==70%+6%=76%

下限==70%-6%=64%查概率表:该批茶叶的包装合格率落在区间[64%,76%]内,概率保证程度为81.32%。*(2)*(3)上限==150.3+0.1734=150.47克下限==150.3-0.1734=150.13克以95.45%的概率保证程度估计该批茶叶每包平均重量在区间[150.13,150.47]内。**(4)上限==70%+9.12%=79.12%

下限==70%-9.12%=61.88%

以95.45%的概率保证程度估计该批茶叶包装合格率的区间为[61.88%,79.12%]。*(4)*总体均值的区间估计-数理统计模式【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。已知总体标准差为=0.15cm。试估计该批零件平均长度的置信区间,置信水平为95%。该批零件平均长度的置信区间在21.302cm~21.498cm之间。

解:已知X~N(,0.152),n=9,1-=95%,z/2=1.96总体均值

在1-置信水平下的置信区间为*总体均值的区间估计-数理统计模式【例】某种零件的长度服从正*置信区间与置信水平的理解

总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数;实际估计时只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间,一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题。我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个;*置信区间与置信水平的理解总体参数的真值是固定的,而用样本*如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间;置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的。

*如果用某种方法构造的所有区间中有95%的区间包含总体参数*从均值为185的总体中抽出n=10的20个样本构造出总体均值的20个置信区间我没有抓住参数!点估计值*从均值为185的总体中抽出n=10的20个样本构造出总体均*假设检验

(hypothesistest)先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的统计方法。假设检验的步骤:提出原假设H0;确定适当的检验统计量;给定显著性水平;计算检验统计量的值发生的概率(P值)或计算给定显著性水平下的临界值;作出统计决策。*假设检验

(hypothesistest)先对总体的参*决策依据逻辑上运用反证法,统计上依据小概率原理;样本统计量越大或P值越小,则越倾向于拒绝原假设在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现。*决策依据*...因此我们拒绝假设

=50...如果这是总体的真实均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20假设检验图示*...因此我们拒绝假设=50...如果这是总体*P-值原假设为真条件下,抽样分布中大于或小于样本统计量的概率。/

2

/

2Z拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值*P-值原假设为真条件下,抽样分布中大于或小于样本统计量的概*5.4样本容量的确定

5.4.1样本容量确定的两难

5.4.2简单随机抽样条件下样本容量的确定

5.4.3总体参数的预先估计

5.4.4确定样本容量时需考虑的因素*5.4样本容量的确定*5.4.1样本容量确定的两难样本容量较大,收集的信息就相对多,从而估计精度较高,但进行观测所投入的费用、人力及时间就比较多;样本容量较小,则投入的费用、人力及时间就相对节约,但收集的信息也较少,从而估计精度较低;所以,精度和费用对样本量的影响和要求是矛盾的,不存在既使精度最高又使费用最省的样本量。反映精度的指标为抽样极限误差,其中的概率度Z与置信水平相关,只有抽样平均误差与样本量有关。*5.4.1样本容量确定的两难样本容量较大,收集的信息就相*费用与样本量的关系:费用与n的关系用费用函数来表示的,简单随机抽样的条件下,通常表现为:其中:C为总费用;c0为固定费用,c1为与样本量有关的可变费用。抽样平均误差与样本量的关系:结论:当样本量较小时,增加相同的费用估计精度的提高较明显,当样本量较大时,增加相同的费用估计精度的提高效果不好。*费用与样本量的关系:*样本容量的影响因素1、总体变异程度(、)2、抽样极限误差(允许误差范围)3、置信水平(置信度、概率保证程度)4、抽样方法(重复抽样、不重复抽样)5、抽样组织方式(简单随机抽样、分层抽样、等距抽样、整群抽样)。*样本容量的影响因素1、总体变异程度(、*1、估计总体均值时样本容量的确定重复抽样

不重复抽样5.4.2简单随机抽样条件下样本容量的确定

其中:以上求出的样本量为必要样本量,即最小样本量,不能整除时不采用四舍五入的方法,而是采用取大的临近整数的方法。*1、估计总体均值时样本容量的确定5.4.2简单随机抽样条件*重复抽样与不重复抽样条件下样本容量的变换:由于重复抽样下的公式比不重复抽样下的公式要简单得多,所以对不重复抽样必要样本单位数的确定经常遵循如下思路确定:首先计算重复抽样条件下的必要样本单位数,记为n0;然后判断是否成立,如果成立,则取n=n0,否则,对n进行修正,修正公式为:*重复抽样与不重复抽样条件下样本容量的变换:***【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取样本容量为多大的样本?*【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2*解:

已知=2000,=400,1-=95%,z/2=1.96

则即应抽取97人作为样本。*解:已知=2000,=400,1-=95%,*

重复抽样

不重复抽样2、估计总体比例时样本容量的确定

其中:*2、估计总体比例时样本容量的确定其中:*【例】根据以往的生产统计,某种产品的合格率约为90%,现要求允许误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知p=90%,1-=95%,Z/2=1.96,=5%

应抽取的样本容量为:

应抽取139个产品作为样本。*【例】根据以往的生产统计,某种产品的合格率约为90%,现要*1.如果有历史资料,可利用历史资料代替;如果有若干个可供选择的历史资料,应采用数值最大的一个;成数方差在完全缺乏资料的情况下,用0.25代替;2.假如没有可供替代的历史资料,可以通过组织试验性的抽样取得替代资料:首先确定一个可以承受的样本量n0,调查后用样本方差代替总体方差进行计算,如果精度跟可靠性达到要求,则调查结束;否则,计算为达到精度要求所需样本量n,再补抽n-n0个单位进行调查;4.没有同类调查的经验,时间等各方面条件又不允许进行预调查,则只能通过定性分析来确定总体变异系数。5.4.3总体方差的预先估计*1.如果有历史资料,可利用历史资料代替;如果有若干个可供选*其中,C为变异系数,r为相对误差。将计算样本容量的公式变形得:*其中,C为变异系数,r为相对误差。将计算样本容量的公式变形*1.研究问题的重要性。对于决策比较重要的问题样本量要大一些;2.所研究问题目标量的个数。如果所研究的问题目标量较多,样本量应适当放大;3.调查表或调查问卷的回收率;4.有效样本数;5.资源限制:调查项目的经费、时间要求以及调查人员的限制。5.4.4确定样本容量时需要考虑的其它因素*1.研究问题的重要性。对于决策比较重要的问题样本量要大一些*5.5其它参数估计与假设检验内容

5.5.1一个总体均值

5.5.2两个独立总体均值之差

5.5.3两个配对总体均值之差

5.5.4总体方差

5.5.5计量经济学中的参数估计与假设检验*5.5其它参数估计与假设检验内容*5.5.1一个总体均值的区间估计

(一个总体—小样本)1. 假定条件总体服从正态分布,但方差(2)

未知小样本(n<30)使用t

分布统计量总体均值在1-置信水平下的置信区间为:*5.5.1一个总体均值的区间估计

(一个总体—小样本)1*5.5.2两独立总体均值之差m1s1总体1s2

m2总体2抽取简单随机样样本容量n1计算X1抽取简单随机样样本容量n2计算X2计算每一对样本的X1-X2所有可能样本的X1-X2m1-m2抽样分布*5.5.2两独立总体均值之差m1s1总体1s2m*两独立总体均值之差的估计

(大样本)1. 假定条件两个总体都服从正态分布,12、22已知若不是正态分布,可以用正态分布来近似(n130和n230)两个样本是独立的随机样本使用正态分布统计量z*两独立总体均值之差的估计

(大样本)1. 假定条件*12,22已知时,两个总体均值之差1-2在1-置信水平下的置信区间为:12、22未知时,两个总体均值之差1-2在1-置信水平下的置信区间为:*12,22已知时,两个总体均值之差1-2在1-*两独立总体均值之差的估计

(小样本:

12=22)1. 假定条件两个总体都服从正态分布两个总体方差未知但相等:12=22两个独立的小样本(n1<30和n2<30)总体方差的合并估计量估计量x1-x2的抽样标准差*两独立总体均值之差的估计

(小样本:12=22*样本统计量两个总体均值之差1-2在1-置信水平下的置信区间为:*样本统计量*两独立总体均值之差的估计

(小样本:1222)1. 假定条件两个总体都服从正态分布两个总体方差未知且不相等:1222两个独立的小样本(n1<30和n2<30)使用统计量*两独立总体均值之差的估计

(小样本:1222*两个总体均值之差1-2在1-置信水平下的置信区间为:自由度*两个总体均值之差1-2在1-置信水平下的置信区间自*5.5.3两配对总体均值之差的估计

(大样本)假定条件两个匹配的大样本(n130和n230)两个总体各观察值的配对差服从正态分布检验统计量两个总体均值之差d=1-2在1-置信水平下的置信区间为:*5.5.3两配对总体均值之差的估计

(大样本)假定条件*两配对总体均值之差的估计

(小样本)假定条件两个匹配的小样本(n1<30和n2<30)两个总体各观察值的配对差服从正态分布两个总体均值之差d=1-2在1-置信水平下的置信区间为*两配对总体均值之差的估计

(小样本)假定条件*5.5.4总体方差1.假设总体服从正态分布2.总体方差2

的点估计量为s2,且3.总体方差在1-置信水平下的置信区间为:*5.5.4总体方差1.假设总体服从正态分布3.总体方*两个总体方差比的区间估计1. 比较两个总体的方差比用两个样本的方差比来判断如果S12/S22接近于1,说明两个总体方差很接近如果S12/S22远离1,说明两个总体方差之间存在差异总体方差比在1-置信水平下的置信区间为:*两个总体方差比的区间估计1. 比较两个总体的方差比*

5.5.5计量经济学中的参数估计及假设检验*

5.5.5计量经济学中的参数估计及假设检验*结束THANKSCLASSISOVER*结束THANKSCLASS参数估计假设检验统计方法描述统计推断统计统计估计非参数估计参数估计假设检验统计方法描述统计推断统计统计估计非参数估计*第5章抽样推断5.1抽样推断的一般问题5.2抽样误差5.3参数估计5.4样本容量的确定*第5章抽样推断5.1抽样推断的一般问题*抽样推断的过程总体样本随机取样计算出样本的均值、样本比例、样本方差调查总体均值、总体比例、总体方差等推断*抽样推断的过程总体样本随机取样计算出样本的均值、样本比例、*5.1抽样推断的一般问题

5.1.1抽样推断的概念和特点

5.1.2抽样推断的基本范畴

5.1.3抽样分布*5.1抽样推断的一般问题*1、概念抽样推断是在抽样调查的基础上,根据样本的情况来推断总体特征的一种统计分析方法。2、抽样推断的特点按照随机原则抽取样本单位(样品);根据对样本的调查对总体做出推断;抽样误差可以事先计算并加以控制。3、抽样推断的适用场合无法进行全面调查时;进行全面调查有困难或不必要时;5.1.1抽样推断的概念和特点*1、概念5.1.1抽样推断的概念和特点*1.抽样框和抽样单位(1)总体和样本

总体也称母体,是所要研究的全部单位组成的整体。一般用N表示总体包括的总体单位数。样本又称子样,它是从总体中随机抽取出来的一部分单位组成的整体。一般用n表示样本包括的总体单位数。作为推断对象的总体是确定的,而且是唯一的;作为观察对象的样本不是确定的,也不是唯一的。5.1.2抽样推断的基本范畴*1.抽样框和抽样单位5.1.2抽样推断的基本范畴*(2)抽样框:抽样框是包括全部总体单位的框架,以此代表总体,用来从中抽取样本单位,具体表现形式有总体单位(或其集合)的名单或目录、地图、时间等。(3)抽样单位:抽样单位是构成抽样框的基本要素,它可以是总体单位也可以是总体单位的集合。*(2)抽样框:*2.重复抽样和不重复抽样重复抽样,也叫回置抽样/放回抽样,是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。不重复抽样,也叫不回置抽样/不放回抽样,是指抽中单位不再放回总体中,下一个样本单位只能从余下的抽样单位中抽取。*2.重复抽样和不重复抽样*3.样本容量和样本可能数目样本容量:一个样本所包含的总体单位数,用n表示,当样本容量大于等于30时称为大样本,小于30时称为小样本。样本可能数目:指按一定抽样方法和一定样本容量从总体中抽取样本时,所有可能的样本个数,一般用M表示。

*3.样本容量和样本可能数目*考虑顺序的重复抽样的样本可能数目:考虑顺序的不重复抽样的样本可能数目:样本可能数目的计算*考虑顺序的重复抽样的样本可能数目:样本可能数目的计算*不考虑顺序的重复抽样的可能样本数目:不考虑顺序的不重复抽样的可能样本数目:客观现象中常见的*不考虑顺序的重复抽样的可能样本数目:不考虑顺序的不重复抽样*4.参数和统计量参数:根据总体中各单位的变量值计算的、反映总体数量特征的特征值。主要有总体均值、成数或比例、方差。统计量:根据样本中各单位的变量值计算的、反映样本数量特征的特征值。主要有样本均值、成数或比例、方差。总体是确定的、唯一的,所以总体参数也是确定的、唯一的;样本是随机的,所以样本统计量是随机变量。*4.参数和统计量*

总体参数样本统计量*总体参数*样本统计量的概率分布;随机变量是样本统计量:样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本;提供了样本统计量的分布特征,是进行推断的理论基础,也是抽样推断科学性的重要依据。 5.1.3抽样分布

(samplingdistribution)*样本统计量的概率分布;5.1.3抽样分布

(sampl*抽样分布的形成

(samplingdistribution)总体计算样本统计量:样本均值、比例、方差样本*抽样分布的形成

(samplingdistributi*1.形成过程从单位数为N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下,共有Nn个可能的样本,在不重复抽样条件下,共有PNn个可能样本;对于每一个样本,我们都可以计算出样本的均值;将所有可能样本的样本均值根据其取值形成概率分布,即可得到样本均值的抽样分布,它是推断总体均值的理论基础。(一)样本均值的抽样分布*1.形成过程(一)样本均值的抽样分布*【例】设一个总体,总体单位数N=4。4个单位某一标志值的取值分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下:

总体分布14230.1.2.3均值和方差*【例】设一个总体,总体单位数N=4。4个单位某一标志值的*现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有16个样本。所有样本的结果为:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)*现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有*计算出各样本的均值,并给出样本均值的抽样分布:3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5*计算出各样本的均值,并给出样本均值的抽样分布:3.53.0*2.样本均值的数字特征*2.样本均值的数字特征*证明:*证明:*X=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5XxP(x)结论:1.样本均值的均值(数学期望)等于总体均值;

2.样本均值的方差等于总体方差的1/n。*X=2.5总体分布14230.1.2.3抽样分布P*样本均值的数学期望:样本均值的方差:不重复抽样条件下:*不重复抽样条件下:*样本均值的抽样分布=50

=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,且其数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)*样本均值的抽样分布=50=10X总体分布n=*中心极限定理

(centrallimittheorem)当样本容量足够大时(n>30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。一个任意分布的总体X*中心极限定理

(centrallimittheorem*的分布趋于正态分布的过程*的分布趋于正态分布的过程*总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布样本均值的抽样分布样本均值的抽样分布与总体分布的关系*总体分布正态分布非正态分布大样本小样本正态分布正态分布非正*总体(或样本)中具有某种属性的单位与全部单位总数之比:不同性别的人数与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例表示为

样本比例表示为

(二)样本成数(比例)的抽样分布*总体(或样本)中具有某种属性的单位与全部单位总数样本比例*样本比例的抽样分布容量相同的所有可能样本的样本比例的概率分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似。样本比例的数学期望:样本比例的方差重复抽样:不重复抽样: *样本比例的抽样分布容量相同的所有可能样本的样本比例的概率分***5.2抽样误差

5.2.1抽样误差

5.2.2抽样平均误差

*5.2抽样误差*1、概念抽样误差是指由于随机抽样的偶然因素使样本单位不足以代表总体单位,而引起的样本统计量和总体参数之间的绝对离差。()2、影响因素总体单位标志值的离散程度;样本容量的大小(n);抽样方法(重复抽样/不重复抽样);抽样调查的组织方式(简单随机抽样/分层抽样/等距抽样/整群抽样)。5.2.1抽样误差*1、概念5.2.1抽样误差*1、所有可能样本统计量与总体参数的平均离差。2、理论计算公式为:上式可以变换为:5.2.2抽样平均误差(标准误)由此,样本均值的抽样平均误差就是样本均值的标准差。*1、所有可能样本统计量与总体参数的平均离差。上式可以变换为*3、抽样平均误差的计算公式:(1)重复抽样条件下(2)不重复抽样条件下*3、抽样平均误差的计算公式:*

在总体单位数很大的情况下,可近似表示为:*在总体单位数很大的情况下,可近似表示为:*抽样推断的标准误差

(standarderror)样本统计量的标准差,称为统计量的标准误,也称为标准误差;衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度;当总体标准差未知时,可用样本标准差s代替,在重复抽样条件下,样本均值的标准误差为*抽样推断的标准误差

(standarderror)样本*可以通过调整样本单位数n来控制抽样平均误差。例如,将样本容量增加3倍,则平均误差就缩小一半;而抽样平均误差减少20%,则样本容量就需要原来的1.56倍。*可以通过调整样本单位数n来控制抽样平均误差。例如,将样本容*5.3参数估计

5.3.1抽样推断的内容

5.3.2点估计

5.3.3区间估计*5.3参数估计*1、参数估计依据所获得的样本数据,对总体的数量特征进行估计的推断方法称为参数估计,即根据样本统计量来估计总体参数。参数估计包括的内容:如确定估计值,确定估计的优良标准;确定估计值和被估计参数之间的误差范围以及在一定误差范围内所作推断的可靠性程度等。2、假设检验先对总体的数量特征作某种假设,再根据样本数据对所作假设进行检验。假设检验包括的内容:确定原假设与备择假设;选择检验统计量;确定显著性水平;做出决策。5.3.1抽样推断的内容*1、参数估计5.3.1抽样推断的内容*5.3.2点估计

(pointestimate)1、定义:用样本统计量的值直接作为总体参数的估计值,称为总体参数的点估计2、优点:简便、易行3、缺点:没有考虑抽样误差的大小;没有给出估计值接近总体参数的程度;没有考虑估计的概率保证程度。*5.3.2点估计

(pointestima*

估计量与估计值

(estimator&estimatedvalue)估计量:用于估计总体参数的样本统计量的名称;如样本均值、样本比例(成数)、样本方差等参数用表示,估计量用表示估计值:根据样本资料得出的估计量的具体取值如果样本均值x=80,则80就是估计值*估计量与估计值

(estimator&estima*评价估计量的优良标准无偏性:估计量的数学期望等于被估计的总体参数

P(

)BA无偏有偏总体参数*评价估计量的优良标准无偏性:估计量的数学期望等于被估计的总*有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。AB

的抽样分布

的抽样分布P(

)

比更有效*有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计*一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。大数定律已经证明了:样本平均数和样本成数都满足一致性:*一致性:随着样本容量的增大,估计量的值越来越接近被估计的总*1、定义:在点估计的基础上,指出总体参数的上限和下限,即指出总体参数可能存在的区间范围,并指出总体参数落在这一区间的置信水平。区间估计的三个要素:点估计值总体参数与点估计值的抽样误差范围(抽样极限误差)置信水平/概率保证程度(1-α)5.3.3区间估计*1、定义:在点估计的基础上,指出总体参数的上限和下限,即指*2、区间估计的一对矛盾:准确性(精度):在点估计的基础上,给出总体参数估计的一个区间范围,称为置信区间,该区间由样本统计量加减一个误差范围而得到:

样本统计量值

(点估计)置信区间置信下限置信上限*2、区间估计的一对矛盾:样本统计量值

(点估计)置信区间*抽样极限误差抽样极限误差是根据统计研究任务要求确定的可允许的最大抽样误差范围,它等于总体参数可允许变动的上限或下限与样本统计量的绝对离差。

我们总是希望估计的准确性越高越好,即估计精度尽可能的高,也就是希望置信区间越窄越好,或者抽样极限误差越小越好。*抽样极限误差抽样极限误差是根据统计研究任务要求确定的可允许*(2)可靠性(置信水平/概率保证程度):总体参数落在置信区间内的概率,即样本统计量与总体参数的误差不超过抽样极限误差的概率。样本统计量的抽样分布能够根据样本统计量与总体参数的接近程度给出相应的概率度量:两者越接近概率越小,差异越大概率越大。*(2)可靠性(置信水平/概率保证程度):总体参数落*表示为(1-

)%为总体参数落在区间内的概率常用的置信水平为99%,95%,90%相应的为0.01,0.05,0.10置信水平的表示

(confidencelevel)

*表示为(1-)%置信水平的表示

(con*抽样推断时,我们总是希望估计的误差范围尽可能的小,即抽样精度尽可能的高,并且估计的置信水平也尽可能的大,但事实上这两者是矛盾的:在其他条件不变的情况下,提高估计的置信水平,就会增大抽样极限误差(降低估计的精度);提高估计的精度,就会减小置信水平。所以在区间估计中,我们只能对准确性和可靠性中的一个提出要求,来推求另一要素的情况,事实上抽样极限误差与置信水平之间存在一一对应的关系,知道其中一个可以求另外一个。准确性与可靠性的关系*抽样推断时,我们总是希望估计的误差范围尽可能的小准确性与可*标准正态分布

(standardizenormaldistribution)

标准正态分布的概率密度函数:随机变量具有均值为0,标准差为1的正态分布;任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布;

标准正态分布的分布函数;*标准正态分布

(standardizenormaldi*标准正态分布概率图示90%的x99.73%的x95%的xx*标准正态分布概率图示90%的x99.73%的x95%的一般正态分布的密度函数f(x)=随机变量X的频率

=随机变量X的均值=随机变量X的方差

=3.1415926;e=2.71828一般正态分布的密度函数f(x)=随机变量X的频率一般正态分布概率图示一般正态分布概率图示*正态分布函数的性质图形是关于x=对称钟形曲线,且峰值在x=处;均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”;均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭;当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。

*正态分布函数的性质图形是关于x=对称钟形曲线,且峰值在x任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布任何一个一般的正态分布,可通过下面的线性变换转*【例】计算以下概率:

(1)

X~N(50,102),求和

(2)

Z~N(0,1),求和

(3)正态分布概率为0.05时,求标准正态累积分布函数的反函数值z。

正态分布

(例题分析)

*【例】计算以下概率:正态分布

(例题分析)*样本均值概率分布图示x90%的样本99.73%的样本95%的样本

根据中心极限定理可知,,*样本均值概率分布图示x90%的样本99.73%的样本95*****概率度:度量置信水平大小的指标,概率度大则置信水平高,概率度小则置信水平低。其实质是以抽样平均误差(标准误差)为标准去衡量抽样极限误差大小的统计指标,即抽样极限误差为标准误差的倍数。置信水平与置信度之间的关系可用下式表达:*概率度:度量置信水平大小的指标,概率度大则置信水平高,概率*常用的概率度和置信水平的关系表置信水平1-/268.27%0.31730.15865190%0.100.051.64595%0.050.0251.9695.45%0.0550.0275299%0.010.0052.5899.73%0.00270.001353*常用的概率度和置信水平的关系表置信水平1-/268*3.区间估计的方法方法一:根据给定的抽样极限误差,求置信水平F(Z)(1)抽取样本,计算岩本统计量,如计算样本平均数或样本成数作为相应总体参数的估计值,如果缺少总体方差或均方差资料,还应计算样本方差或均方差代替;(2)根据给定的抽样极限误差,估计总体参数的上、下限;(3)计算抽样平均误差或估计标准误差;(4)将抽样极限误差除以抽样平均误差求出概率度Z值,再根据Z值查“正态分布概率表”求出相应的置信水平F(Z)。*3.区间估计的方法*方法二:根据给定的置信水平要求,来推算抽样极限误差,然后进行区间估计。(1)抽取样本,计算岩本统计量,如计算样本平均数或样本成数作为相应总体参数的估计值,如果缺少总体方差或均方差资料,还应计算样本方差或均方差代替;(2)根据给定的置信度F(Z)要求,求得概率度Z值;

(3)计算抽样平均误差u;(4)根据概率度Z和抽样平均误差来推算抽样极限误差,再根据抽样极限误差求出被估计总体参数的上下限,对总体参数做区间估计。*方法二:根据给定的置信水平要求,来推算抽样极限误差,然后进*每包重量(克)包数组中值149以下10148.51485-1.832.4149~15020149.52990-0.812.8150~15150150.575250.22151以上20151.530301.228.8合计100—15030—76[例]某外贸公司出口一种茶叶,规定每包规格不低于150克,现用不重复抽样方法从中随机抽取1%进行检验,抽检结果如表所示:*每包重量(克)包数组中值149以下10148.51485-*要求:(1)抽样极限误差为0.2克,估计该批茶叶每包平均重量的区间及其概率保证程度;(2)茶叶包装合格率的误差范围不超过6%,估计包装合格率的区间及其概率保证程度;(3)要求以95.45%的概率保证程度,估计该批茶叶每包平均重量的区间;(4)要求以95.45%的概率保证程度,估计该批茶叶的包装合格率的区间。*要求:*(1)

上限==150.3+0.2=150.5克下限==150.3-0.2=150.1克*(1)上限==150.3+0*查概率表:该批茶叶每包平均重量落在区间[150.1,150.5]克内,概率保证程度为97.91%。*查概率表:*

(2)上限==70%+6%=76%

下限==70%-6%=64%查概率表:该批茶叶的包装合格率落在区间[64%,76%]内,概率保证程度为81.32%。*(2)*(3)上限==150.3+0.1734=150.47克下限==150.3-0.1734=150.13克以95.45%的概率保证程度估计该批茶叶每包平均重量在区间[150.13,150.47]内。**(4)上限==70%+9.12%=79.12%

下限==70%-9.12%=61.88%

以95.45%的概率保证程度估计该批茶叶包装合格率的区间为[61.88%,79.12%]。*(4)*总体均值的区间估计-数理统计模式【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。已知总体标准差为=0.15cm。试估计该批零件平均长度的置信区间,置信水平为95%。该批零件平均长度的置信区间在21.302cm~21.498cm之间。

解:已知X~N(,0.152),n=9,1-=95%,z/2=1.96总体均值

在1-置信水平下的置信区间为*总体均值的区间估计-数理统计模式【例】某种零件的长度服从正*置信区间与置信水平的理解

总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数;实际估计时只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间,一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题。我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个;*置信区间与置信水平的理解总体参数的真值是固定的,而用样本*如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间;置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的。

*如果用某种方法构造的所有区间中有95%的区间包含总体参数*从均值为185的总体中抽出n=10的20个样本构造出总体均值的20个置信区间我没有抓住参数!点估计值*从均值为185的总体中抽出n=10的20个样本构造出总体均*假设检验

(hypothesistest)先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的统计方法。假设检验的步骤:提出原假设H0;确定适当的检验统计量;给定显著性水平;计算检验统计量的值发生的概率(P值)或计算给定显著性水平下的临界值;作出统计决策。*假设检验

(hypothesistest)先对总体的参*决策依据逻辑上运用反证法,统计上依据小概率原理;样本统计量越大或P值越小,则越倾向于拒绝原假设在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现。*决策依据*...因此我们拒绝假设

=50...如果这是总体的真实均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20假设检验图示*...因此我们拒绝假设=50...如果这是总体*P-值原假设为真条件下,抽样分布中大于或小于样本统计量的概率。/

2

/

2Z拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值*P-值原假设为真条件下,抽样分布中大于或小于样本统计量的概*5.4样本容量的确定

5.4.1样本容量确定的两难

5.4.2简单随机抽样条件下样本容量的确定

5.4.3总体参数的预先估计

5.4.4确定样本容量时需考虑的因素*5.4样本容量的确定*5.4.1样本容量确定的两难样本容量较大,收集的信息就相对多,从而估计精度较高,但进行观测所投入的费用、人力及时间就比较多;样本容量较小,则投入的费用、人力及时间就相对节约,但收集的信息也较少,从而估计精度较低;所以,精度和费用对样本量的影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论