




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章 样本及抽样分布从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节 数理统计的基本概念内容分布图示 引言 总体与总体分布 样本与样本分布 例1 例2 例3 例4 统计推断问题简述 分组数据统计表和频率直方图 例5 经验分布函数 例6 统计量 样本的数字特征 例7 例8 例9 内容小结 课堂练习 习题5-1 返回内容要点:一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量的值,于是, 一个总体对应于一个随机变量, 对总体的研究就相当于对一个随机变量的研究, 的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义:定义 统计学中称随机变量(或向量)为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O型、A型、B型、AB型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体的一组数值,其中每一是从总体中抽取的某一个体的数量指标的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为的样本可视为维随机向量,一旦具体取定一组样本,便得到样本的一次具体的观察值,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: 与所考察的总体具有相同的分布;2. 独立性: 是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的个相互独立的随机变量表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体的分布函数为,则简单随机样本的联合分布函数为并称其为样本分布.特别地, 若总体为连续型随机变量,其概率密度为,则样本的概率密度为分别称与为总体密度与样本密度.若总体为离散型随机变量,其概率分布为, 取遍所有可能取值, 则样本的概率分布为分别称与为离散总体密度与离散样本密度.三、统计推断问题简述 总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体的一个样本对总体的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系: 总体 推断(个体)样本 样本值 抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率. 2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设是样本的个观察值.(i) 求出中的最小者和最大者;(ii) 选取常数(略小于)和(略大于),并将区间等分成个小区间(一般取使在左右): ,一般情况下,小区间不包括右端点. (iii) 求出组频数,组频率,以及 (iv) 在上以为高,为宽作小矩形,其面积恰为,所有小矩形合在一起就构成了频率直方图五、经验分布函数 样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。定义 设总体的一个容量为n的样本的样本值可按大小次序排列成则不大于的样本值的频率为 因而函数 与事件在n次独立重复试验中的频率是相同的,我们称为经验分布函数。对于经验分布函数, 格里汶科(Glivenko)在1933年证明了以下的结果: 对于任一实数x, 当时以概率1一致收敛于分布函数, 即因此, 对于任一实数x当n充分大时, 经验分布函数的任一个观察值与总体分布函数只有微小的差别, 从而在实际中可当作来使用. 这就是由样本推断总体其可行性的最基本的理论依据.六、统计量为由样本推断总体,要构造一些合适的统计量, 再由这些统计量来推断未知总体. 这里, 样本的统计量即为样本的函数. 广义地讲, 统计量可以是样本的任一函数, 但由于构造统计量的目的是为推断未知总体的分布,故在构造统计量时, 就不应包含总体的未知参数, 为此引入下列定义.定义 设为总体的一个样本, 称此样本的任一不含总体分布未知参数的函数为该样本的统计量.七、样本的数字特征以下设为总体的一个样本.1. 样本均值 2. 样本方差 3. 样本标准差 4. 样本(k阶)原点矩 5. 样本(k阶)中心矩 注: 上述五种统计量可统称为矩统计量,简称为样本矩,它们都是样本的显示函数,它们的观察值仍分别称为样本均值、样本方差、样本标准差、样本(k阶)原点矩、样本(k阶)中心矩.6. 顺序统计量 将样本中的各分量按由小到大的次序排列成则称为样本的一组顺序统计量, 称为样本的第个顺序统计量. 特别地, 称与分别为样本极小值与样本极大值, 并称为样本的极差.例题选讲:例1 (讲义例1) 样本的一些例子与观察值的表示方法:(1) 某食品厂用自动装罐机生产净重为345克的午餐肉罐头, 由于随机性, 每个罐头的净重都有差别. 现在从生产线上随机抽取10个罐头, 秤其净重, 得如下结果:344 336 345 342 340 338 344 343 344 343这是一个容量为10的样本的观察值, 它是来自该生产线罐头净重这一总体的一个样本的观察值.(2) 对某型号的20辆汽车记录每加仑汽油各自行驶的里程数(单位:公里)如下:29.8 27.6 28.3 28.7 27.9 30.1 29.9 28.0 28.7 27.928.5 29.5 27.2 26.9 28.4 27.8 28.0 30.0 29.6 29.1这是一个容量为20的样本的观察值, 对应的总体是该型号汽车每加仑汽油行驶的里程.(3) 对363个零售商店调查周售额(单位:元)的结果如下:这是一个容量为363的样本的观察值, 对应的总体是所有零售店的周零售额. 不过这里没有给出每一个样品的具体的观察值, 而是给出了样本观察值所在的区间, 称为分组样本的观察值.这样一来当然会损失一些信息, 但是在样本量较大时, 这种经过整理的数据更能使人们对总体有一个大致的印象.例2 (讲义例2) 称总体为正态总体, 如它服从正态分布. 正态总体是统计应用中最常见的总体. 现设总体服从正态分布, 则其样本密度由下式给出:例3 (讲义例3) 称总体为伯努利总体,如果它服从以为参数的伯努利分布, 即不难算出其样本的概率分布为其中取1或0, 而, 它恰等于样本中取值为1的分量之总数. 服从伯努利分布的总体也具有较广泛的应用背景. 概率p通常可视为某实际总体(如工厂的某一批产品)中具有一特征(如废品)的个体所占的比例, 称为比率. 从总体中随机抽取一个个体, 可视为一个随机试验, 试验结果可用一随机变量来刻画: 若恰好抽到具有该特征的个体, 记; 否则, 记. 这样, 便服从以p为参数的伯努利分布. 通常参数p是未知的, 故需通过抽样对其作统计推断.例4 设总体服从参数为的泊松分布, 为其样本, 则样本的概率分布为其中取非负整数, 而.例5 (讲义例4) 从某厂生产的某种零件中随机抽取120个, 测得其质量(单位: g) 如表5.1所示. 列出分组表, 并作频率直方图.表5-1-1例6 (讲义例5) 随机观察总体,得到一个容量为10的样本值:3.2, 2.5, , 2.5, 0, 3, 2, 2.5, 2, 4求经验分布函数.例7 (讲义例6) 某厂实行计件工资制, 为及时了解情况,随机抽取30名工人, 调查各自在一周内加工的零件数, 然后按规定算出每名工人的周工资如下: (单位:元)156 134 160 141 159 141 161 157 171 155149 144 169 138 168 147 153 156 125 156135 156 151 155 146 155 157 198 161 151这便是一个容量为30的样本观察值, 其样本均值为:它反映了该厂工人周工资的一般水平. 试计算其样本方差与样本标准差.例8 (讲义例7) (分组样本均值的近似计算) 如果在例7中收集得到的样本观察值用分组样本形式给出(见表4.2.1), 此时样本均值可用下面方法近似计算: 以表示第个组的组中值(即区间的中点), 为第组的频率, , 则 (4.2.3)表4.2.1 某厂30名工人周平均工资额则本例中这与例4.2.2的完全样本结果差不多. 注:在样本容量较大时,给出分组样本是常用的一种方法,虽然会损失一些信息,但对总体数学期望给出的信息还是十分接近的.例9 (讲义例8) 设我们获得了如下三个样本:样本A: 3,4,5,6,7;样本B: 1,3,5,7,9; 样本C: 1,5,9如果将它们画在数轴上(图5-1-3), 明显可见它们的“分散”程度是不同的: 样本A在这三个样本中比较密集, 而样本C比较分散.这一直觉可以用样本方差来表示. 这三个样本的均值都是5, 即 而样本容量 从而它们的样本方差分别为:.由此可见,这与直觉是一致的, 它们反映了取值的分散程度. 由于样本方差的量纲与样品的量纲不一致, 故常用样本标准差表示分散程度, 这里有 同样有由于样本方差(或样本标准差)很好地反映了总体方差(或标准差)的信息, 因此若当方差未知时, 常用去估计, 而总体标准差常用样本标准差S去估计.课堂练习1. 一组工人完成某一装配工序所需的时间(分)分别如下:35 38 44 33 44 43 48 40 45 3045 32 42 39 49 37 45 37 36 4235 41 45 46 34 30 43 37 44 4936 46 32 36 37 37 45 36 46 4238 43 34 38 47 35 29 41 40 41(1) 将上述数据整理成组距为3的频数表,第一组以27为起点;(2) 绘制样本直方图;(3) 写出经验分布函数.第二节 常用统计分布取得总体的样本后, 通常是借助样本的统计量对未知的总体分布进行推断, 为此须进一步确定相应的统计量所服从的分布, 除在概率论中所提到的常用分布外, 本节还要介绍几个在统计学中常用的统计分布:分布 t分布 F分布内容分布图示 引言 分位数 例1 分布 例2 分布 例3 分布 例4 内容小结 课堂练习 习题5-2 返回内容要点:一、分位数设随机变量的分布函数为, 对给定的实数 若实数满足不等式,则称为随机变量的分布的水平的上侧分位数.若实数满足不等式,则称为随机变量的分布的水平的双侧分位数.二、分布定义1 设是取自总体的样本, 则称统计量 (1)服从自由度为n的分布,记为这里, 自由度是指(1)式右端所包含的独立变量的个数.分布的概率密度:其中为Gamma函数,的图形如5-2-3.1.分布的数学期望与方差:若, 则 2分布的可加性:若且相互独立,则 3分布的分位数:设,对给定的实数 称满足条件的点为分布的水平的上侧分位数. 简称为上侧分位数. 对不同的与n, 分位数的值已经编制成表供查用(参见附表).三、t分布定义2 设,且X与Y相互独立,则称服从自由度为n的t分布, 记为,分布的概率密度: t分布具有如下性质:1的图形关于y轴对称,且;2当n充分大时,t分布近似于标准正态分布;3t分布的分位数: 设,对给定的实数 称满足条件的点为分布的水平的上侧分位数. 由密度函数的对称性,可得 类似地,我们可以给出t分布的双侧分位数显然有 对不同的与n, t分布的双侧分位数可从附表查得.四、F分布定义3 设且X与Y相互独立, 则称服从自由度为的F分布, 记为分布的概率密度:F分布具有如下性质:1若,则2若 则 3F分布的分位数:设,对给定的实数称满足条件的点为分布的水平的上侧分位数. F分布的上侧分位数的可自附表查得.4F分布的一个重要性质:此式常常用来求F分布表中没有列出的某些上侧分位数.例题选讲: 分位数例1(讲义例1)设, 求标准正态分布的水平0.05的上侧分位数和双侧分位数. 分布例2(讲义例2)设是来自总体的样本, 又设试求常数C, 使服从分布. t分布例3(讲义例3)设随机变量, 随机变量均服从, 且都相互独立, 令试求的分布, 并确定的值, 使F分布例4(讲义例4)设总体X服从标准正态分布, 是来自总体X的一个简单随机样本, 试问统计量服从何种分布?课堂练习1.设是来自正态总体的样本.(1) 求C使统计量服从分布.(2) 求所服从的分布.第三节 抽样分布内容分布图示 抽样分布 单正态总体的抽样分布 例1 例2 例3 例4 例5 双正态总体的抽样分布 例6 例7 一般总体抽样分布的极限分布 内容小结 课堂练习 习题5-3 返回内容要点:一、抽样分布有时, 总体分布的类型虽然已知, 但其中含有未知参数,此时需对总体的未知参数或对总体的重要数字特征(如数学期望、分差等) 进行统计推断, 此类问题称为参数统计推断.在参数统计推断问题中, 常需利用总体的样本构造出合适的统计量, 并使其服从或渐近地服从已知的总体分布. 统计学中泛称统计量分布为抽样分布.讨论抽样分布的途径有两个. 一是精确地求出抽样分布, 并称相应的统计推断为小样本统计推断; 另一种方式是让样本容量趋于无穷, 并求出轴样分布的极限分布.然后,在样本容量充分大时, 再利用该极限分布作为抽样分布的近似分布, 进而对未知参数进行统计推断, 称与此相应的统计推断为大样本统计推断. 这里重点讨论正态总体的抽样分布, 属小样本统计范畴;此外, 也简要介绍一般总体的某些抽样分布的极限分布, 属大样本统计范畴。二、单正态总体的抽样分布设总体X的均值,方差为,是取自X的一个样本,与分别为该样本的样本均值与样本方差, 则有 而 故有下列定理:定理1 设总体 是取自X的一个样本, 与分别为该样本的样本均值与样本方差, 则有(1) ;(2) 定理2 设总体 是取自X的一个样本, 与分别为该样本的样本均值与样本方差, 则有 (1) = (2) 与相互独立.定理3 设总体是取自X的一个样本, 与分别为该样本的样本均值与样本方差, 则有(1) (2) 三、双正态总体的抽样分布定理4 设与是两个相互独立的正态总体, 又设是取自总体X的样本, 与分别为该样本的样本均值与样本方差. 是取自总体Y的样本, 与分别为此样本的样本均值与样本方差. 再记是与的加权平均, 即则 (1) (2) (3) 当时, 四、一般总体抽样分布的极限分布定义1 设为随机变量的分布函数, 为随机变量X的分布函数,并记为由的全体连续点组成的集合, 若则称随机变量依分布收敛于X, 简记为或.命题 设随机变量X有连续的分布函数,且有则 定理5 设为总体X的样本,并设总体X的数学期望与方差均存在, 记为记统计量其中与S分别表示上述样本的样本均值与样本方差,则有 以上,与分别表示与标准正态分布的分布函数.注: 定理4成立的条件只是总体的方差存在,这样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年文化系统公务员录用考试面试真题模拟试卷(无领导小组讨论)
- 2024年重庆江北区五里店街道招聘真题
- 2024年益阳桃江县暑期教师选调真题
- 2024年曲靖市辅警真题
- 汉中市杨河学校教师招聘笔试真题2024
- 2025年提高三类医疗器械自查报告填报率的措施
- 2025年公共政策概论机考试题(附答案)
- 2025年公共卫生专业研究生入学考试试题及答案
- 2025年公共卫生与环境管理能力考核试卷及答案
- 2025年公共卫生基本知识考试题库及答案
- 2025上海市八年级升九年级数学暑假提升讲义:相似三角形压轴题(六大题型)原卷版
- 2025年工业互联网工程技术人员考核试题题库及答案
- 供货组织方案范文
- 农行OCRM系统讲解
- 2025年《药品经营和使用质量监督管理办法》培训试题及答案
- 2024年云南省县乡教师选调考试《教育学》真题汇编带解析(原创题)
- 工贸安全员考试题库及答案大全
- 羊肚菌栽培及其管理课件
- 教师身体健康管理指南
- 2025高空作业考试试题及答案(完整版)
- 出租车车辆GPS定位承包合同范本
评论
0/150
提交评论