第三章 随机抽样和抽样分布_第1页
第三章 随机抽样和抽样分布_第2页
第三章 随机抽样和抽样分布_第3页
第三章 随机抽样和抽样分布_第4页
第三章 随机抽样和抽样分布_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章随机抽样和抽样分布在前两章的讨论中,我们知道了随机现象常常通过随机变量及其概率分布和数字特征来描述,然而,在实际问题中,要准确知道概率分布和数字特征,有时是很困难的。例如,我们要以药丸的崩解时间或药片的溶解速度为指标来考察某一批药品的质量。若把这批药品全部进行一下试验,其分布函数及其有关的数字特征都可求出。但是,由于测定这些指标的试验,一般是破坏性的,报废了全部药品即使求出了有关指标也无意义。还有一些检验指标,如蜜丸的重量、体积等,对它们的检验虽不是破坏性的,但要成批逐个检验,无论从人力还是物力上都会受到条件限制。事实上,人们总是通过对部分产品的试验结果作分析,推断出全部产品的情况。这就是数理统计研究的一个主要问题。本章先讨论样本和统计量等基本概念,然后讨论常见的几种抽样分布,为进一步讨论统计推断方法打下必要的理论基础。3-1 随 机 抽 样3-1.1 总体与样本总体与样本是数理统计中两个主要概念。总体是指研究对象的全体,组成总体的每个单元称为个体。总体可以包含有限个个体,也可以包含无限多个个体。某个总体是有限的,但在个体相当多的情况下,往往把它作为无限总体来对待。在数理统计中,我们不笼统地研究所关心的对象,只考察它的某一种数值指标,例如,考察某批中成药丸的质量时,可以考察崩解时间、溶解速率、丸重等项指标。这里,如果我们只需注意药丸的重量,当然,每一丸都有一个确定的重量如:6g,6.1g,6.01g,5.9g,。我们就把所有这些丸重数值当成丸重的总体;每个丸重值就是一个个体。这样,丸重 X 实际上是一个随机变量,它的取值的全体是一个总体,每一个可能取值就是它的个体。由于随机变量是用其概率分布F(x)(或密度函数 )来刻画,所以若 X 具有分布函数 F(X),则称这一总体为具有分布函(fx数 F(X)的总体。为了研究总体,需在总体中抽取若干个个体,这就得出样本的概念。定义 1 在一个总体 X 中抽取 n 个个体 X1,X 2,X n,这 n 个个体称为总体 X 的一个容量为 n 的样本。样本容量 n 是指样本中含有个体的数目,也称样本的大小。由于 X1,X 2,X n是从总体中随机抽出来的,可以看成是 n 个随机变量。但在一次抽取后,它们都是具体的数值,记作 x1,x2,,x n,称为样本值。由于两次各抽取 n 个个体的抽样,得到的两批样本值一般是不同的,因此,在不至引起混乱的情况下有时也用x1,x2,,x n,表示 n 个随机变量,以此泛指一次抽取后的结果。这样,每当提到一个容量为 n 的样本时,常有双重含义:一是指某一次抽样的具体数值 x1,x 2,x n;有时是泛指一次抽出的可能结果,就表示 n 个随机变量。3-1.2 随机抽样抽样的目的在于对总体的统计规律进行推断,因而很自然地要研究该怎样从总体中抽取样本,使其尽可能地反映总体的特征。因此在抽样时,既要考虑抽样结果的代表性,又要考虑抽样本身的可行性,简便性。抽样方法很多,对于不同的抽样方法,使用的统计推断方法也将不同,这里主要讨论简单随机抽样。所谓简单随机抽样是指在抽取样本单位时,总体的每一个可能的样本被抽中的概率相同。定义 2 样本 X1,X 2,X n相互独立且与总体 X 有相同的分布函数,这样的样本称为简单随机样本。本书主要讨论简单随机样本,以下简称样本。由以上定义可见,简单随机样本是满足下述两点要求的样本:其一,抽样随机,总体中每个个体被抽到的机会均等。例如,在检查药品质量指标时,有意识地选优,就违反了随机性原则,所得指标必然不能反映总体的质量情况,不具代表性;其二,样本X1,X 2,X n具有独立性,即抽取一个个体后,总体成分不变。例如,从一小批产品中,抽样检查合格品,要求有放回地抽样,可满足独立性条件;若无放回地抽样则不满足独立性条件。对于无限总体,由于抽出的一个样品放回与否不改变总体成分,可看作不影响抽样的独立性。但实际应用中,即使总体个数 N 有限,只要被抽取的个体数 n 较小,比如不超过总体的 5%,也可看作近似满足独立性条件,按无放回抽样,这样做可简化计算。3-2 样本的数字特征3-2.1 统计量数理统计的主要任务,是以样本的特性去推测总体的特性。为此,需要根据样本构造出某种函数(样本函数)作为推测的基础。如当随机变量的某些总体数字特征未知时,就需要通过样本构造相应的函数。不含任何未知参数的样本函数称为统计量,是统计推断中最常使用的工具。定义 1 设 X1,X 2,X n为总体 X 的一个样本,g(X 1,X 2,X n)为一个样本函数。如果 g 中不含有任何未知参数,则称 g 为一个统计量。例 如,设 XN(, 2),且 为已知, 2为未知,X 1,X 2,X n是 X 的一个样本,则 是一个统计量;而 仅是样本函数,不是统计量,因为其21()nii1()nii中含有未知参数 2。3-2.2 样本的数字特征下面我们来构造统计推断中最常使用的几种样本数字特征。它是估计总体数字特征的方法之一。一、 样本均数定义 2 设有容量为 n 的样本 X1,X 2,X n,则称 (X1+X2+Xn)为样本均数,亦可写为或 (3-1)1niiXn明显地,由于容量为 n 的样本是 n 个独立同分布的随机变量,所以样本均数也是一个随机变量。样本均数的计算公式表明,它不含任何未知参数,是一个统计量。二、 样本方差、标准差、变异系数定义 3 设有容量为 n 的样本 X1,X 2,X n则称 21()iiS或(3-2)2222111nnni iiSXX为样本方差;S 称为样本标准差: 称为样本变异系数。S样本方差、标准差、变异系数都是刻画数据离散程度的指标。和样本均数一样,都是随机变量,同时也都是统计量。三、 与 S2的运算性质X(1) 若样本值 与 有如下关系:ixiy(i=1,2, n)iicx则 ,yxSc(2) 若样本值 与 有如下关系:ixiyixayb则 1,yxxS其中 a,b,c 为非零常数。在样本个体数很多、值很大的情况下,利用上述运算性质可使计算简化,节省工作量。四、 标准误样本均数是随机变量,按样本均数、方差的定义、性质我们可以给出样本均数的均数及方差。若总体均数 EX 与总体方差 DX 存在,则, (3-3)EX1DXn统计学中称样本均数的标准差为标准误。一般用 来表示,因此 。XXDn在实际抽样研究中, 往往未知,这里用样本标准差 S 来代替,可得标准误 ,计算DX S公式为(3-4)XSn五、 其他常用的数字特征医药科研的统计中,还广泛地使用一些样本的数字特征。关于刻画随机变量平均水平的还有:中位数 它是累积概率分布或分布函数等于 50%所对应的变量值。换言之,随机变量的取值大于它的概率和小于它的概率恰好相等,在概率意义上它位于正中。众数 它是随机变量的概率函数或概率密度函数最大值所对应的变量值。换言之,当大量独立重复试验时,样本值较多地集中在这个值的附近。关于刻画随机变量分散程度的还有:极差 它等于随机变量有限个样本中最大值与最小值之差。在计算上较标准差方便,因而受到实际工作者的欢迎。但是,它对随机变量的分布情况毕竟只能提供少量信息,因此远不能取代标准差的重要性。例 设某药厂生产的开胸顺气丸,崩解时间 XN(, 2),其中 , 2均未知。今随机抽取 5 丸测得崩解时间如下(单位:分):36,40,32,41,36计算样本均数和方差解 为运算方便,可列表 3-1。,25134ix5n所以=15185=37X2268971535S3-3 抽 样 分 布统计量都是随机变量。数理统计中常要知道统计量的分布函数(抽样分布),由此去推断所研究的总体性质。常用的统计量,除上节讨论过的样本均数、方差外,还有 ,2t,F 等统计量,这节我们将讨论这些统计量的分布。3-3.1 样本均数的分布我们先不加证明给出正态变量的如下性质:(1) 两个相互独立的随机变量 X1N( 1, )、X2N( 2, )的代数和 X=X1X2仍2服从正态分布,且有 XN( 1 2, + );2(2) n 个相互独立的随机变量 XiN( i, )的和 仍服从正态分布,且2i1niXXN( , ),其中 i=1,2,,n;1i2i(3) 随机变量 XN(, )的线性函数 Y=aX+b 仍服从正态分布,且 YN(a+b,21),其中 a,b 均为常数;2(4) n 个相互独立的随机变量 XiN( i, )的线性组合 仍服从正态分布,2i1niXc且有 XN( , ),其中 ci是不全为零的常数。1ic21ni表 3-1ix2ix36 129640 160032 102441 168136 1286518ix5216897ix下面,我们来讨论样本均数的分布。首先考虑样本来自正态总体时,即 XiN(, )。由样本均数的定义,是 n 个相互2独立同分布的随机变量的线性组合, ,则由正态变量的性质(4)容易推1nii出: 21(,)niiXN:即(3-5)2(,)n这个结论表明:来自正态总体的样本均数仍旧服从正态分布,该分布的均数等于原总体的均数,方差是原总体方差的 倍。由此可见,样本均数这一随机变量所服从的正态分1n布与总体的正态分布相比较在分散性方面有改善,且 n 越大,方差就越小, 就越接近总X体的均数 。再考虑样本来自非正态总体时的情况。当抽样为小样本时,问题没有一般的确定解答;当抽样为大样本时,则由 2-5.3 段的中心极限定理知(3-6)(0,1)XNn:也就是说,对于大样本,无论总体分布如何,式(3-6)总是成立的。3-3.2 分布2定义 1 设 X1, X2,X n是相互独立且同服从于 N(0,1)分布的随机变量,则称随机变量+ (3-7)221Xn服从参数为 n 的 分布,记为 (n)。2分布的概率密度函数是2122,()()0,xnnefx0x当 当其中参数 n 称为自由度,它表示式(3-7)中独立变量的个数。“自由度”的含意:式(3-7)中的统计量 是 n 个独立的随机变量 Xi的平方和, Xi之间没有约束条件,每2个 Xi均可自由变动,故称 的自由度为 n。又如在式(3-2) 中221()niiSX有 n 个变量 X1- ,X 2- ,X n- ,它们之间存在着惟一的约束条件。(X1- )+(X2- )+(Xn- ) 图 3-1=X1+X2+Xn-n =0 因此,n 个变量 X1- ,X 2- ,X n- 中只有 n-1 个可以自由变动,所以样本方差 S2的自由度为 n-1。f(x)的图形如图(3-1)所示,是一条偏向左侧的曲线。自由度越小越偏,自由度相当大时,接近正态分布。(n)分布是 p 分布在 , 时的特例。221n分布具有可加性。2设随机变量 , ,且它们互相独立,则21()n:2()2112()n:这个性质也可推广到多个独立的 变量和或差的情形。由此性质还可推出下列结果:若 X1,X 2,X n为正态总体 N(, 2)的一个样本,则有(3-8)2(1(1)nSn:因为 2 2211()nni ii iXXS221nii221niiXn在此式中(0,1)iXN:,n从而可得,21()niiX:2(1)Xn:再由 分布的可加性,即得22(1)(1)nSn:这个结论表明: 是一个服从 分布的随机变量,自由度为 n-1。2()23-3.3 t 分布定义 2 设随机变量 UN(0,1),V (n)并且 U 与 V 相互独立,则称随机变量2tn服从自由度为 n 的 t 分布,记为 tt(n)。在不至于弄错的情况下,括号中的自由度可以省略。t 分布的概率密度函数为121()nntfx()t其中 n 为自由度。f(t)的图形如图 3-2 所示。曲线关于 t=0 对称,形状类似于标准正态概率密度函数的图形。当 n时,它的极限分布是标准正态分布。但当 n 较小时,对于相同的变量值,t 分布的尾部比标准正态分布的尾部有着更大的概率,它们差异较大。图 3-2t 分布是统计学中极为重要的分布,应用最为广泛。其应用的重要依据是下面的定理。定理 1 设 X1,X 2,X n为正态总体 N(, 2)的一个样本,则(1)XtnS:证 因为 2(,)N所以 (0,1)Xn:又知 2()(1)S:并且与 Xn2()相互独立,从而由 t 分布的定义得 2(1)(1)XtnSn:定理 2 设 , , 和 , , 分别是从同方差的总体 N( 1, 2)和1X21nY22nN( 2, 2)中所抽取的样本,它们相互独立,则 1212()()()tSn:其中 2221()(1)S和 分别是这两个样本的方差。21S证 由定理的条件可知 211()(,)XYNn:由已知两个总体方差相等,则12()()(0,1)XYUNn:给定条件知,211()()nS:22()(1)Sn:且它们相互独立,由 2 分布的可加性 221 12()()()nV从而,按 t 分布的定义得 121212()()()XYUtnSnn:3-3.4 F 分布定义 3 设随机变量 U (n1),V (n2),并且 U、V 相互独立,则称随机变量2121nF服从自由度为(n 1,n2)的 F 分布,记作 FF(n 1,n2)。F 分布的概率密度函数为1 121222,()0,nnnxxfx 0xF 分布有两个自由度,第一自由度 n1为组成统计量 F 分子的随机变量的自由度;第二自由度 n2为分母的随机变量的自由度。图 3-3f(x)的图形如图 3-3 所示。不对称的山状曲线,峰向左偏斜,随着 n1与 n2的同时增大,其均数趋近于 1,且 f(x)的曲线趋向于对称。再介绍一个常用的服从 F 分布的随机变量。定理 3 设 , , , 为总体1X21nN( 1, )的样本; , , 为总体2Y2N( 2, )的样本,且二样本相互独立,样本方差为 、 ,则21S2112(,)SFn:证 因为 211()()22()()nSn:所以由 F 分布的定义,可知 2121 1221()(,)SnFnS:最后,读者必须注意:本节中介绍的 2 分布、t 分布、F 分布都是对正态总体而2言的,就是说,这些样本都是来自正态总体,在以后使用时,必须注意这一前提条件。3-4 概率纸及其应用通过对样本的实际观测,能够获知一个变量的频率分布情况。如果观测次数足够多,样本频率将接近总体概率,这时该变量的频率分布(统计分布)接近概率分布(理论分布)。为验证一个随机变量的理论分布,可使用概率纸方法。3-4.1 正态概率纸利用正态概率纸可判断一组数据是否取自正态总体。一、 正态概率纸的原理设 XN(, 2),那么 ,(0,1)XN:令 u= ,则 F(x)=(u)。图 3-4因为 u 是 x 的线性函数,在坐标 x-u 中,u 对x 的图形是一条直线(图 3-4),通过 值表,把纵轴刻度上的 u 值改写成对应的 (u)值,即 F(x)值。这样一来,在坐标系 x-F(x)中,F(x)对 x 的图形仍是那一条直线。于是,以普通均匀尺 x 为横轴,以函数尺 -1(F)为纵轴,就构成了正态概率纸,如图 3-5。二、 正态概率纸的使用方法(1) 把样本数据 x 从小到大排队,并计算对应的累积频率 F(x);(2) 在正态概率纸上描出点列(x,F(x);(3) 若点列能拟合一条直线,则变量 X 近似服从正态分布 N(, 2);图 3-5 正态概率纸(4) 由纵轴上的 F(x)=0.50,0.16(或 0.84),找到横轴上对应的 x0.50,x 0.16,或(x 0.84),则均数 和标准差 的估计值为 =x0.50, =x0.50-x0.16(或 =x0.84-x0.50,或= (x0.84-x0.16)。12例 1 山东中医学院对六味地黄丸进行显微定量研究。为探讨丸剂中熟地的某种特征物(棕色核状物)数目是否服从正态分布,镜检了 67 组载玻片中熟地的特征物数目,得到累积频率分布如表 3-2 所示。表 3-2 累积频率分布表特征物数 频数 累积频数 累积频率 特征物数 频数 累积频数 累积频率56 1 1 0.015 65 13 40 0.59757 1 2 0.030 66 7 47 0.70159 2 4 0.060 67 4 51 0.76160 3 7 0.104 68 5 56 0.83661 2 9 0.134 69 6 62 0.92562 5 14 0.209 70 2 64 0.95563 5 19 0.284 71 1 65 0.97064 8 27 0.403 72 2 67 1.000利用正态概率纸描点,由于散点能拟合一条直线(图 3-6)。说明六味地黄丸中熟地所含该种特征物的数目近似服从正态分布。从图上可求出均数和标准差的估计值 0.564.8x0.84.23.3-4.2 对数正态概率纸在药剂学、药理学等领域常可遇见一些不服从正态分布的随机变量,如乳剂中油珠直径的分布,剂量-反应曲线等,其一般特征是其概率密度曲线偏向左侧而显出长尾状。这类随机变量的对数服从正态分布,称其服从对数正态分布。判断随机变量是否服从对数正态分布,可以对所得样本资料取对数后借助正态概率纸来完成。为免去取对数的工作,也可将正态概率纸的横轴改为对数坐标,构成对数正态概率纸(图 37) 。利用这种坐标纸,可方便地直接以样本累积频率 F(x)对 x 作图,若呈直线状就可判断随机变量为对数正态变量。至于均数和标准差的估计,宜分两步进行。首先,从图上查找 F(x)=0.50 和 0.84(或 0.16)所对应的横坐标值 x0.50和 x0.84(或 x0.16),注意到横轴为对数坐标,读数为 a 时应为 lga,所以如果将取对数后正态分布的均数和标准差称为对数均数和对数标准差,分别记为 和,则类似于图 3-6 正态分布的情形。 0.5lgx.84.(或 ,或 )0.50.16lglx0.840.16lgl2x然后代入公式 21.5和 21.3(0)即得对数正态分布本身的均数和标准差的估计值。(此公式的推导过程,读者可参见其他详细的数理统计课本)3-4.3 韦布尔概率纸2-2 中已给出韦布尔分布的概率密度函数为,1()mxfxe分布函数为(3-9)()1mxFe其中有三个参数 、 和 m。对式(3-9)改写后两端取对数,有 ln()x图 3-7 对数正态概率纸变号后,再取对数,ln-ln1-F(x) =mln(x-)-ln作变量代换X=ln(x-),B=-ln,Y=ln-ln1-F(x) 则有Y=mX+B可以看出 Y 与 X 存在线性关系,于是,以一个随机样本的累积频率代替 F(x),以 ln-ln1-F(x) 对 ln(x-)作图,如 =0,便以 ln-ln1-F(x) 对 lnx 作图。如果所得诸点按直线排布,便可认为该样本来自一个服从韦布尔分布的总体。图 3-8 韦布尔概率纸为避免多次查取自然对数,依上述原理制作韦布尔概率纸,如图 3-8。图上有两条互相垂直的坐标轴,横向 X 轴,纵向 Y 轴。为便于作图,在上、下、左、右四条边框上设有四把刻度尺,上边和右边分别称 X 尺和 Y 尺,系普通均匀尺度,以X=lnx1ln1ln()FxFx的数值刻线,并实际标以 X 或 Y 的数值;下边的标 x 尺,名义上虽然刻以 x 的数值,实际上却是据 lnx 刻线;左边的称 F(x)尺,同样,名义上虽标以 F(x)的数值,实际上却是据刻线。1ln()Fx在韦布尔概率纸上,以样本的累积频率代替 F(x),利用左边的 F(x)尺和下边的 x 尺,按如下步骤作图估计:(1) 以 F(x)对 x 作图,(2) 若诸点排布接近直线,则适当拟合一直线,尤其注意照顾 F(x)在 30%至 70%范围内的点,使之优先贴近直线。(3) 若诸点排布呈曲线状,则沿曲线趋势延伸,与 x 轴交点的数值作为 的初步估计值,以 F(x)对 x- 作图。如此反复修改,直到选定一个较好的 作为位置参数的估计值为止(图 3-9)。曲线:F(x)对 x 作图。直线:F(x)对 x- 作图。:曲线与横轴交点。(4) 在 F(x)对 x- 所作的图上拟合一直线,由 X=1 和 Y=0 的交点(称 m 点)作平行于该直线的平行线,查出它和 Y 轴交点在 Y 尺上投影的读数,不计正负号即得 m 的估计值(图 3-10)。图 3-9 图 3-10(5) 所拟合的直线与 x 轴有一交点,在 x 尺上投影点的读数即为 的估计值。1m(6) 依下式计算均数和标准差的估计值,1m 11 22m或查 Y 尺右侧 尺和 尺与 m 估计值对应的数值,它们分别乘以 即为 、 的图估值。习 题 三1. 思考下列问题:(1) 自总体中随机抽取的容量为 n 的样本,可以看成是 n 个随机变量,如何理解?(2) t 分布与正态分布的区别与联系是什么?2. 计算下列各样本的均数、方差、标准差及变异系数:(1) 5,19,-3,7,1,1;(2) 5,-3,2,0,8,6;(3) 10,15,14,15,16;(4) 0,5,10,-3。3. 从同一批号的阿司匹林片中随机抽出 5 片,测定其溶解 50%的所需时间分别为:5.3,6.6,5.2,3.7,4.9试计算其样本方差,样本均数和变异系数。4. 在总体 N(12,4)中随机抽一容量为 5 的样本 Z1,Z 2,Z 5。(1) 求样本均值与总体均值之差的绝对值大于 1 的概率;(2) 求概率 Pmax(Z1,Z 5)15;(3) 求概率 Pmin(Z1,Z 5)10.5. 设随机变量 X 和 Y 相互独立,且都服从 N(0,3 2),而 Xi(i=1,2,9)和Yi(i=1,2,9)分别是来自总体 X 和 Y 的简单随机样本,求统计量服从的分布。99211iiiKX6. 某地 101

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论