1.1总体和样本.ppt_第1页
1.1总体和样本.ppt_第2页
1.1总体和样本.ppt_第3页
1.1总体和样本.ppt_第4页
1.1总体和样本.ppt_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,1.总体和样本,一、总体和样本,例 某钢铁厂某天生产10000根钢筋,规定强度小于52kg/mm2的算作次品,如何来求这批钢筋的次品率?是否需要测量每根钢筋的强度呢?,一般来说是不需要的. 只要从这10000根钢筋中抽取一部分,比如100根,测量这100根钢筋的强度,就可以推断出整批钢筋的次品率了,这就是抽样检验.,事实上,全面检验是有困难的 有些检验是有破坏性的,如使用寿命; 产品数量大,或检验成本太高,人力、物力、时间不允许等 例如:有一批棉花,需要检查纤维的长度,我们 当然不可能去测量每一根棉花纤维的长度。 数理统计提供了一整套方法,保证可以通 抽样检验做出可靠的科学结论。,直观地说,

2、 被观察对象的全体称作总体;总体的每一基本单元称作个体或样品;从总体中抽出的一部分个体组成一个样本,样本中所含个体的个数称作样本的容量或大小。 如前例所说,10000根钢筋的强度是总体,每一根钢筋的强度是一个个体,抽查的100根钢筋的强度是一个样本,它的容量是100。,更确切的说,对这批钢筋,我们关心的是它的强度的分布,如强度低于52kg/mm2的比例是多少. 设 X 表示“任一根钢筋的强度”,X 是一个随机变量. 它的概率分布就反映了这批钢筋的强度的分布,即把总体看做一个随机变量。,从总体中抽取一个个体就是做一次随机试验,而“任取 n 根钢筋,测其强度”就是做 n 次随机试验,得到容量为 n

3、 的样本. 因为抽取是随机的,故可以样本看做 n个随机变量 。 当试验是同重复独立试验时, 与总体 有相的分布,这样的样本称作简单随机样本。,一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是,(1) 与总体X 有相同的分布,(2) 相互独立,简单随机样本,N / n 10.,总体中个体总数,样本容量,由定义, 若总体 是离散型随机变量,其分布律为 则样本 的联合分布为 若 是连续型随机变量,其分布密度为 则样本 的联合分布密度是,二、频率分布表与直方图,一、频率分布表 设总体 是离散型随机变量, 是一组样本值,取到的值为 ,并且取到 的个数

4、分别为 ,则样本容量 ,我们称 为 出现的频数,而 出现的频率为 显然,,例1 对100块焊接完的电路板进行检查,每块板上焊点不光滑的个数的频数分布表和频率分布表如下图所示,从上表可大体知道这批电路板的不光滑情况,可近似地作为“每块板上不光滑点个数” X 的分布律.,二、直方图,当总体是连续型随机变量时,可采用直方图来处理数据(样本值). 设 为给定的一组样本值,处理步骤如下: 1)简化数据,令 由于数据总在某个某个数值 上下波动,可以选取适当的常数 ,把样本值化为位数较少的整数,为方面起见,化简后的数值 仍记为 .,2) 求 中的最大最小值. 记 3) 分组. a) 确定组数和组距. 选定组

5、数 ,取组距 一般情况下, 应取数据的最小单位的整数倍. b) 确定各组的上下界. 取第一组的下界 应略小于 ,使得 落入第一组内,即 然后令,为了使每个数据都落入组内,应使分点 比样本值多一位小数. 计算频率,记 为落入第 个区间的频数,则频 率为 画直方图. 以 为底, 为高画小长方形. 显然,所有小长方形面积之和等于1:,样本直方图与密度函数 的关系?,根据大数定律, 近似等于随机变量 落入区间 内 的概率,即 设 的密度函数为 ,则 如果 在区间 内连续,下面举例说明画直方图的全过程及注意事项,例 2 某食品厂为加强质量管理,在某天生产的一大批罐头中抽查了100个,测得内装食品的净重数

6、据如下(单位:g):,解 1) 简化数据. 取c=340, d=1. 令 . 简化后的数据如下图,2) 求最大值和最小值. 由上表知,最小值为-8,最大值为18. 3) 分组 a)确定组数和组距. 考虑到样本容量 n=100, 取组数 m=10. 由于(18+8)/10=2.6, 取组距 . b) 确定各组的上、下界. 取 , 依次得 -5.5, -2.5, 0.5, 3.5, 6.5, 9.5, 12.5, 15.5, 18.5. 4) 计算频率 5) 画直方图. 注意 .,三、经验分布函数,对给定的一组样本值,将它们按从小到大的顺序排列: 对任意实数 ,定义 称 为经验分布函数.,例如,给

7、定样本值5, 3, 7, 5, 4. 将它们从小到大重新排列: 3, 4, 5, 5, 7. 经验分布函数为,记 , 发生的概率 . 根据贝努利大数定律, 对任意的 , 有 事实上,可以证明下述更强的结论:,根据经验分布函数的定义,,中不大于x的个数),定理(格列汶科) 设总体 的分布函数为 , 当 ,经验分布函数 以概率1关于 一致 地收敛于 , 即 注:上述定理表明,当样本容量 充分大时, 样本取值的分布相当准确的反映总体的分布.,统计是从手中已有的资料-样本值,去推断总体的情况-总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断

8、总体.,样本是联系二者的桥梁,由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.,四、统计量和抽样分布,1. 统计量,这种不含任何未知参数的样本的函数称为统计量. 它是完全由样本决定的量.,几个常见统计量,样本均值,样本方差,它反映了总体均值 的信息,它反映了总体方差 的信息,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体k 阶矩 的信息,它反映了总体k 阶 中心矩的信息,2. 顺序统计量,定义 : 设,为取自总体X的样本,,将其按大小顺序排序,则称 X(k) 为第 k 个次序统计量( No.k Order Sta

9、tistic),特别地,称,为最小顺序统计量(Minimum order Statistic),称,为最大顺序统计量(Maximum order Statistic) 。,称,为偶数,为奇数,为样本中位数.,称 为样本极差,反映了样本的离散程度,也反映了总体的离散程度.,3. 抽样分布,统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布” .,抽样分布就是通常的随机变量函数的分布. 只是强调这一分布是由一个统计量所产生的. 研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质.,抽样分布,精确抽样分布,渐近分

10、布,(小样本问题中使用),(大样本问题中使用),五. 统计三大分布,记为,分布,1、,定义: 设 相互独立, 都服从正态 分布N(0,1), 则称随机变量: 所服从的分布为自由度为 n 的 分布.,分布是由正态分布派生出来的一种分布.,分布的密度函数为,来定义.,其中伽玛函数 通过积分,请看演示,c2 分布,由 分布的定义,不难得到:,1.设 相互独立, 都服从正态分布,则,2. 设 且X1,X2相互 独立,则,这个性质叫 分布的可加性.,应用中心极限定理可得,若,的分布近似正态分布N(0,1).,则可以求得, E(X)=n, D(X)=2n,若,定理(柯赫伦定理)设 相互独立, 都服从正态分

11、布N(0,1),T的密度函数为:,记为Tt(n).,所服从的分布为自由度为 n的 t 分布.,定义: 设XN(0,1) , Y , 且X与Y相互独立,则称变量,2、t 分布,当n充分大时,其图形类似于标准正态分布密度函数的图形.,由定义可见,,3、F分布,定义: 设 X与Y相互独立,则称统计量,服从自由度为n1及 n2 的F分布,n1称为第一自由度,n2称为第二自由度,记作 FF(n1,n2) .,F(n2,n1),即它的数学期望并不依赖于第一自由度n1.,若XF(n1,n2), X的概率密度为,请看演示,F分布,t分布与F分布的关系,由t分布的定义,设,其中,且X,Y独立,故,当总体为正态分

12、布时,教材上给出了几个重要的抽样分布定理. 这里我们不加证明地叙述. 除定理2外,其它几个定理的证明都可以在教材上找到.,六、几个重要的抽样分布定理,定理 1 (样本均值的分布),定理 2 (样本方差的分布),定理 3,与,相互独立,定理 4 (两总体样本均值差的分布),与,相互独立,定理 5 (两总体样本方差比的分布),若,则,例1 从正态总体,中,抽取了,n = 20的样本,(1) 求,(2) 求,例2 设r.v. X 与Y 相互独立,X N(0,16), Y N(0,9) , X1, X2 , X9 与Y1, Y2 , Y16 分别是取自 X 与 Y 的简单随机样本,求 的分布.,例3

13、设总体,为总体 X,3. 单个次序统计量的分布,定理1:设总体X的密度函数为 f (x) ,分布函数为 F(x) , 为样本,则第 k 个次序 统计量的密度函数为,推论1 :最大次序统计量 的概率密度函数为,推论2 :最小次序统计量 的概率密度函数为,图 5-8 x (k) 的取值示意图,样本的每一分量小于等于 x 的概率为 F (x) , 落入区间 ( x , x + x 概率为F(x+ x)-F(x),落入区间 (x+ x, b的概率为 1-F(x+x) ,而将 n 个分量分成这样的三组,总的分法有,种,于是,若以 Fk (x) 记 的分布函数,则由多项分布可得,两边同除以 x , 并令

14、x0 , 即有,定理2:设总体X的密度函数为 f(x) ,分布函数为 F(x) , 为样本,则第 k 个次序统计 量 和第 r 个次序统计量 的联合概率密度函数为,上述5个抽样分布定理很重要, 要牢固掌握.,七、下侧分位数,(一)总体分位数,定义1.5.4: 设总体 X 的分布函数为 F (x) ,满足,的 x称为 X 的 -下侧分位数,如下图所示。,例如, =0.975,而,所以, Z0.975 =1.96.,对标准正态分布变量Z,对给定的 (01),PXx =,七、上侧分位数,PUu =,例如, =0.05,而,PU1.645 =0.05,所以, u0.05 =1.645.,位数都在书后附表中可以查到。,这里要注意到如下几个有用的事实。,2)对于 T t (n) ,同样地,由密度函数的对称性 可知,即得,3)对于 F分布,由于,所以,即,的点u/2称为标准正态分布的双侧分位数。,u/2可由PUu/2= /2,即 (u /2) =1- /2,反查标准正态分布表得到,,PU1.96=0.05 /2,例如,求u0.05/2,,得u0.05/2=1.96,双侧分位数,标准正态分布的分位数,在实际问题中, 常取0.1、0.05、0.01.,常用到下面几个临界值:,u0.05 =1.645, u0.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论