版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1此幻灯片可在网址http:/上下载第18讲2第六章 样本及抽样分布3第一节 总体与样本4在实际应用中,对一个给定的随机变量x,通常并不知道它的一些信息。例如,或者不知道它的分布,或者,不知道它的一些数字特征,如数学期望,方差,等等。因此,就需要对x做一些随机试验,根据随机试验的结果,对x的一些信息作出判断或者估计,得出某些结论,这就是数理统计。5因此,对于我们要通过一系列随机试验来研究的那个随机变量x,我们叫它总体总体。通常要做多次相互独立的随机试验。在事先要做出计划,随机试验的次数是多少。事先计划的随机试验的次数n,我们称之为样本容样本容量量。6对总体x计划做n次随机试验,将要得到n个数,
2、就是试验结果。但是,在计划已经做出,试验还没有做的时候,我们不知道这n个数是什么,在这时,这n个数也是随机变量,因为试验是计划相互独立地做的,因此这n个随机变量x1,x2,xn也是相互独立的,它们都和总体x的分布一样。称这n个随机变量为总体x的样本样本。7然后开始实施计划,也就是对总体x做n次相互独立的随机试验,也可以看成是对样本x1,x2,xn做一次随机试验,当然就得到了n个具体的试验结果,n个具体的数,用x1,x2,xn来表示,这被称为样本x1,x2,xn的样本值样本值。8总结性的定义:定义定义 总体总体是一个随机变量x,样本样本是n个相互独立的与总体同分布的随机变量x1,x2,xn,其中
3、n称为样本容量样本容量。样本值样本值是对x做n次独立试验(或对样本x1,x2,xn做1次试验)的试验结果,用x1,x2,xn表示,也叫样本观测样本观测值值。9若将样本x1,x2,xn看作是一个n维随机变量(x1,x2,xn),则(1) 当总体x是离散型随机变量,可取的值为h1,h2,,若记其分布律为px=x=p(x), 其中x这个自变量是离散地取值h1,h2,,则样本(x1,x2,xn)的分布律为p*(x1,x2,xn)=p(x1)p(x2)p(xn); (1)其中x1,x2,xn都离散地从h1,h2,中取值.(2) 当总体x是连续型随机变量,其概率密度函数为f(x)时,样本(x1,x2,xn
4、)的概率密度为f *(x1,x2,xn)=f(x1)f(x2)f(xn) (2)10第二节 样本分布函数 直方图11一、样本分布函数一、样本分布函数将总体x的分布函数f(x)=pxx)(1)称为总体分布函数. 从总体中抽取容量为n的样本,得到n个样本观测值,若样本容量n较大,则相同的观测值可能重复出现若干次,为此,应当把这些观测值整理,并写出下面的样本频率分布表:观测值x(1)x(2)x(l)总计频数n1n2nln频率f1f2fl112样本频率分布表:观测值x(1)x(2)x(l)总计频数n1n2nln频率f1f2fl1其中x(1)x(2)x(l) (ln)11(1,2, ),1.iilnii
5、iinfilnnnf13定义定义 设函数其中和式 是对小于或等于x的一切x(i)的频率fi求和, 则称fn(x)是样本分布函样本分布函数数或经验分布函数经验分布函数.( )(1)( )(1)( )0,( ),(1,2,1)1,(2)iniiixxlxxf xfxxxilx x( ) ixx14易知样本分布函数fn(x)具有下列性质:1 0fn(x)1;2 fn(x)是非减函数;3 fn()=0, fn(+)=1;4 fn(x)在每个观测值x(i)和是右连续的,点x(i)是fn(x)的跳跃间断点,fn(x)在该点的跃度就等于频率fi. 15样本分布函数的图形x(1)x(2)x(i)x(i+1)x
6、(l)xfn(x)116对于任意的实数x,总体分布函数f(x)是事件xx的概率; 样本分布函数fn(x)是事件xx的频率. 根据伯努利大数定理可知, 当n时,对于任意的正数e, 有lim |( )( )|1(3)nnpf xf xe格利汶科(glivenko)进一步证明了,当n时,样本分布函数fn(x)与总体分布函数f(x)之间存在着更密切的近似关系的结论. 这些结论就是我们在数理统计中可以依据样本来推断总体的理论基础.17二、直方图二、直方图数理统计中研究连续随机变量x的样本分布时,通常需要作出样本的频率直方图(简称直方图),作直方图的步骤如下:(1) 找出样本观测值 x1,x2,xn中的最
7、小值和最大值,分别记作*1x与*2x, (2) 适当选取略小于*1x的值数 a 与略大于*2x的值 b, 并用分点 a=t0t1t2tl1tl=b 把区间(a,b)分成 l 个子区间 t0,t1),t1,t2),ti1,ti),tl1,tl). 18第 i 个子区间的长度为ti=titi1,i=1,2,l. 各子区间的长度可以相等,也可以不等;若使各子区间的长度相等,则有ibatl (i=1,2,l). 子区间的个数 l 一般取为 8 至 15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难于显示分布的特征. 此外,为了方便起见,分点 ti应比样本观测值 xi多取一位小数. 19(3)
8、把所有样本观测值逐个分到各子区间内,并计算样本观测值落在各子区间的频数 ni,及频率(1,2, )iinfiln. (4) 在 ox 轴上截取各子区间,并以各子区间为底,以1iiiftt为高作小矩形,各个小矩形的面积si就等于样本观测值落在该子区间内的频率,即 11()(1,2, )()iiiiiiifsttfiltt20所有小矩形的面积的和等于1:111lliiiisf这样作出的所有小矩形就构成了直方图.因为当样本容量n充分大时,随机变量x落在各个子区间ti1,ti)内的频率近似等于其概率,即1 (1,2, )iiifp txtil所以直方图大致地描述了总体x的概率分布.21例例 测量100
9、个某种机械零件的质量,得到样本观测值如下(单位:g)22设置的分布区间及统计的频率如下:接收236.5239.5242.5245.5248.5251.5254.5257.5260.5263.5266.5频率01591924221161223用excel软件绘出的直方图如下:24第三节 样本函数与统计量25为了借助于对样本观测值的整理、分析、研究,从而对总体x的某些概率特征作出判断,往往需要考虑各种适用的样本函数g(x1,x2,xn). 因为一组样本x1,x2,xn可以看作是一个n维随机变量(x1,x2,xn), 所以任何样本函数g(x1,x2,xn)都是n维随机变量的函数,显然也是随机变量.
10、根据样本x1,x2,xn的观测值x1,x2,xn计算得到的函数值g(x1,x2,xn)就是样本函数g(x1,x2,xn)的观测值.26定义定义 若样本函数g(x1,x2,xn)中不含有任何未知参数,则称这类样本函数为统计量统计量.27数理统计中最常用的统计量及其观测值有:1. 样本均值 11niixxn (1) 它的观测值记为 11niixxn (2) 2. 样本方差2211()1niisxxn (3) 它的观测值记为2211()1niisxxn (4) 28假设总体x的期望为m, 方差为s2, 则来自总体x的n个样本x1,x2,xn的期望和方差也就是m和s2, 经常是x的方差我们不知道, 因
11、此定义一个统计量为 u=(x1m)2+(x2m)2+(xnm)2, 称它偏差平方和偏差平方和, e(u)=ns2, 因此e(u/n)=s2, 可以用u/n来估计x的方差.有的估计问题, m是已知的, 因此可以用这种办法来估计.但是大多数的估计问题是m与s2都为未知, 因此被迫用t=(x1 x)2+(x2 x)2+(xnx)229 u=(x1m)2+(x2m)2+(xnm)2, 但是大多数的估计问题是m与s2都为未知, 因此被迫用t=(x1 x)2+(x2 x)2+(xn x)2来近似u. t被称为样本偏差平方和.因此用t/n来估计s2也是一个合理的考虑. 但是t中使用的样本均值毕竟不是常数m,
12、 也是一个随机变量, 这就导致了e(t)=(n1)s2, 因此就用n1去除t得样本方差s2, 用s2来估计s2.30 u=(x1m)2+(x2m)2+(xnm)2,t=(x1 x)2+(x2 x)2+(xn x)2u中的n个用来平方求和的随机变量x1m, x2m, , xnm 是相互独立的, 而且相互独立还有一个说法就相互间是自由的, 而且有n个相互独立的随机变量, 因此就认为自由度是n.31 u=(x1m)2+(x2m)2+(xnm)2,t=(x1 x)2+(x2 x)2+(xn x)2而t中的n个用来求平方和的随机变量(x1 x),(x2 x),(xn x)却因为x中同时含有x1,x2,x
13、n的成份而导致它们并不相互独立, 因此是不自由的, 这n个随机变量如果不平方就相加, 得1212()()()0nnxxxxxxxxxnx满足一个方程因此就减少了一个自由.32 u=(x1m)2+(x2m)2+(xnm)2,t=(x1 x)2+(x2 x)2+(xn x)2但是可以证明, 可以对(x1 x),(x2 x),(xn x)做适当的线性变换, 得到n-1个相互独立的0均值方差为s2的随机变量y1,y2, , yn-1, 导致222121ntyyy因此t的n个不是相互独立的随机变量的平方和, 相当于n1个相互独立的随机变量的平方和, 因此t的自由度是n1. 象这样的原理只有在更深的数理统
14、计书中才能够看到.33 u=(x1m)2+(x2m)2+(xnm)2,t=(x1 x)2+(x2 x)2+(xn x)2t的另一种计算办法:222112211222211()(2)22nniiiiinniiiinniiiitxxxx xxxxxnxxnxxnxxnx34样本方差的另一算法: 222111iisxnxn 相应地观测值为222111niisxnxn 3. 样本标准差2211()1niissxxn(5) 它的观测值记为2211()1niissxxn(6) 354. 样本k阶原点矩11,1,2,(7)nkkiiaxkn它的观测值记为11,1,2,(8)nkkiiaxkn显然,样本的一阶
15、原点矩就是样本均值.365. 样本k阶中心矩11() ,1,2,(9)nkkiibxxkn它的观测值记为11() ,1,2,(10)nkkiibxxkn显然,样本一阶中心矩恒等于零.37当样本容量n较大时,相同的样本观测值xi往往可能重复出现,为了使计算简化,应先把所得的数据整理,设得到下表:观测值xix(1)x(2)x(l)总计频数nin1n2nln其中1liinn38观测值xix(1)x(2)x(l)总计频数nin1n2nln于是,样本均值x, 样本方差s2及样本二阶中心矩 b2可以分别按下列公式计算: ( )122( )122( )11,(11)1()(12)11()(13)liiiliiiliiixn xnsn xxnbn xxn39显然,当样本容量n充分大时,样本方差s2与样本二阶中心矩b2是近似相等的.( )122( )122( )11,(11)1()(12)11()(13)liiiliiiliiixn xnsn xxnbn xxn4011,1,2,npkkikiaxknm 若总体x的k阶矩e(xk)=mk存在, 则当n时 , k=1,2,.这是因为x1,x2,xn独立且与x同分布, 所以x1k,x2k,xn
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店管理集团经理职位面试技巧
- 智慧城市解决方案架构师面试全解
- 物流技术支持岗位技能要求及面经探讨
- 汽车销售顾问的客户沟通与谈判技巧培训
- 物流行业高级规划师面试全攻略
- 微软技术岗位面试经验及要点
- 加推人工智能智能营销系统
- 人工智能芯片设计前沿
- 新人入职如何适应:薪酬福利专员的经验谈
- 客户服务规范及执行标准
- 工程项目管理基础知识培训教材及讲义
- JJF(皖) 24-2020 药物溶出试验仪校准规范
- 钢板桩司机培训考核试题带答案
- 挖机河道清淤技术施工方案
- 卧姿掩体构筑课件
- 冲压模具维护保养培训
- 加油站治安事件应急预案
- 医药代表大客户管理
- 管理体系咨询中期汇报
- 车辆出现事故处理流程
- 精神病患者病情观察要点
评论
0/150
提交评论