第6章__抽样与抽样分布.ppt_第1页
第6章__抽样与抽样分布.ppt_第2页
第6章__抽样与抽样分布.ppt_第3页
第6章__抽样与抽样分布.ppt_第4页
第6章__抽样与抽样分布.ppt_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、你不必吃完整一头牛,才知道它的 肉是咬不动的。 Samel Johnson,第 6 章 抽样与抽样分布,统计应用“抓阄”征兵计划,在美国的对越战争中,为使前线有足够的士兵,美国政府制定了一个“抓阄”的征兵计划。该计划打算把1到366的号码随机地分配给一年中每一天,然后由军事部门按分配的号码顺序把生日与之对应的年轻人分批征召入伍。这种方法的目的是为了给大家相等的机会卷入这场不受欢迎的战争中,因此被征召的可能性应该是随机的 在第一年的征兵计划中,号码1被分配给了9月14日,分配方法是随机抽取一个大容器中的366个写上了日子的乒乓球。结果所有年满18岁且生于9月14日的合格青年将作为第一批被征召入伍

2、。生日被分配为号码2的青年则在第二批被征召入伍,以此类推,统计应用“抓阄”征兵计划,我们知道,并不是所有的人都被征召入伍,因此,生日被分配的号码较大的人也许永远轮不上到军队服役 这种抓阄看起来对决定应该被征召入伍是一个相当不错的方法。然而,在抓阄的第二天,当所有的日子和它们对应的号码公布以后,统计学家们开始研究这些数据。经过观察和计算,统计学家们发现了一些规律。例如,我们本应期望应该有差不多一半的较小的号码(1到183)被分配给前半年的日子,即从1月份到6月份;另外一半较小的号码被分配给后半年的日子,从7月到12月份。由于抓阄的随机性,前半年中可能不会分到正好一半较小的号码,但是应当接近一半,

3、统计应用“抓阄”征兵计划,然而结果是,有73个较小的号码被分配给了前半年的日子,同时有110个较小的号码被分配给了后半年的日子。换句话说,如果你生于后半年的某一天,那么,你因为被分配给一个较小号码而去服兵役的机会要大于生于前半年的人 在这种情况下,两个数字之间只应该有随机误差,而73和110之间的差别超出了随机性所能解释的范围。这种非随机性是由于乒乓球在被抽取之前没有被充分搅拌造成的。在第二年,主管这件事的部门在抓阄之前去咨询了统计学家(这可能使生于后半年的人感觉稍微舒服些),第 6 章 抽样与抽样分布,6.1 概率抽样方法 6.2 三种不同性质的分布 6.3 一个总体参数推断时样本统计量的抽

4、样 分布 6.4 两个总体参数推断时样本统计量的抽样 分布,学习目标,了解概率抽样方法 区分总体分布、样本分布、抽样分布 理解抽样分布与总体分布的关系 掌握单总体参数推断时样本统计量的分布 掌握双总体参数推断时样本统计量的分布,6.1 概率抽样方法,6.1.1 简单随机抽样 6.1.2 分层抽样 6.1.3 系统抽样 6.1.4 整群抽样,抽样方法,概率抽样(probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目

5、标量进行 估计时,要考虑到每个样本 单位被抽中的概率,简单随机抽样(simple random sampling),从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,简单随机样本(simple random sample),由简单随机抽样形成的样本 从总体N个单位中随机地抽取n个单位作为样本,使得每

6、一个容量为n样本都有相同的机会(概率)被抽中 参数估计和假设检验所依据的主要是简单随机样本,简单随机抽样(用Excel对分类数据随机抽样),【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本,简单随机抽样(用Excel对分类数据随机抽样),第1步:将30个学生的名单录入到Excel工作表中的一列 第2步:给每个学生一个数字代码,分别为1,2,30,并按 顺序排列,将代码录入到Excel工作表中的一列,与学 生名单相对应 第3步:选择【工具】下拉菜单,并选择【数据分析】选项, 然后在【数据分析】选项中选择【抽样】 第4步:在【抽样】对话框中的【输入区域】中

7、输入学生代码 区域,在【抽样方法】中单击【随机】 。在【样本 数】中输入需要抽样的学生个数。在【输出区域】中 选择抽样结果放置的区域。【确定】后即得到要抽取 的样本, 用Excel对分类数据抽样,简单随机抽样(用Excel对数值型数据随机抽样),第1步:将原始数据录入到Excel工作表中的一列 第2步:选择【工具】下拉菜单,并选择【数据分析 】选项 , 然后在【数据分析】选项中选择【抽样】 第3步:在【抽样】对话框中的【输入区域】中输入原始数据 区域,在【抽样方法】中单击【随机】。在【样本 数】中输入需要抽样的数据个数。在【输出区域】 中选择抽样结果放置的区域。【确定】后即得到要 抽取的样本数

8、据, 用Excel对数值型数据抽样,分层抽样(stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便,可提高估

9、计的精度 缺点:对估计量方差的估计比较困难,整群抽样(cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,多阶段抽样(multi-stage sampling),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查 群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样 具有整群抽样的优点,保证样本相对集中,节约调查费用 需要

10、包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开 在大规模的抽样调查中,经常被采用的方法,6.2 三种不同性质的分布,6.2.1 总体分布 6.2.2 样本分布 6.2.3 抽样分布,总体中各元素的观察值所形成的分布 分布通常是未知的 可以假定它服从某种分布,总体分布(population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对

11、频数分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布 (sampling distribution),抽样分布的形成过程 (sampling distribution),6.3 样本统计量的抽样分布 (一个总体参数推断时),6.3.1 样本均值的抽样分布 6.3.2 样本比例的抽样分布 6.3.3 样本方差的抽样分布,样本均值的抽样分布,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体均值的理论基础,样本

12、均值的抽样分布,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为

13、n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为2/n的正态分布,中心极限定理 (central limit theorem),x 的分布趋于正态分布的过程,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值 正态分布,样本均值 正态分布,样本均值 非正态分布,样本均值的数学期望 样本均值的方差 重复抽样 不重复抽样,样本均值的抽样分布(数学期望与方差),样本

14、均值的抽样分布(数学期望与方差),比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n,统计量的标准误 (standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差 标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度 以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为,估计的标准误 (standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误 以样本均值的抽样分布为例,当总体标准差未知时,可

15、用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,样本比例的抽样分布,总体(或样本)中具有某种属性的单位与全部单位总数之比 不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比 总体比例可表示为 样本比例可表示为,比例(proportion),在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布 一种理论概率分布 当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础,样本比例的抽样分布,样本比例的数学期望 样本比例的方差 重复抽样 不重复抽样,样本比例的抽样分布(数学期望与方差),样本方差的抽样分布,样本方差的分布,在重复

16、选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布 对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为 (n -1) 的2分布,即,由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来 设 ,则 令 ,则 Y 服从自由度为1的2分布,即 当总体 ,从中抽取容量为n的样本,则,2分布(2 distribution),分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为E(2)=n,方差为D(2)=2n(n为自由度)

17、可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),c2分布(图示),c2分布(例题的图示),c2分布(用Excel计算c2分布的概率),利用Excel提供的CHIDIST统计函数,计算c2分布右单尾的概率值 语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值 给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现 计算自由度为8,统计量的取值大于10的概率, 用Excel计算c2 分布的概率,c2分布(用Excel计算c2分布的临界值),利用Excel提供的CH

18、IINV统计函数,计算分布右单尾的概率值为的临界值 语法为CHIINV(,df),其中df为自由度 给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现 计算自由度为10,右尾概率为0.1的临界值, 用Excel计算c2 分布的临界值,c2分布(用Excel生成c2分布的临界值表),第一步:将c2分布自由度df的值输入到工作表的 A列,将右尾概率的取值输入到第1行 第二步:在B2单元格输入公式 “=CHIINV(B$1,$A2)” 然后将其向下、向右复制即可得到分布 的临界值表, 用Excel生成c2 分布的临界值表,c2分布 (用Excel绘制c2分布图),第1步:在工作表的第

19、1列A2:A62输入应一个等差数列,初始 值为“0”,步长为“1”,终值为“60” 第2步:在单元格B1输入c2分布自由度(如“15”) 第3步:在单元格B2输入公式“=CHIDIST(A2,$B$1)”,并将其 复制到B3:B62区域 第4步:在单元格C2输入公“=B2-B3”,并将其复制到C3:C62 区域 第5步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据“ 图表向导”绘制折线图, 用Excel绘制c2分布图,c2分布 (用Excel绘制c2分布图),6.4 样本统计量的抽样分布 (两个总体参数推断时),6.4.1 两个样本均值之差的抽样分布 6.4.2 两个样本比例之差的抽

20、样分布 6.4.3 两个样本方差比的抽样分布,两个样本均值之差的抽样分布,两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差 方差为各自的方差之和,两个样本均值之差的抽样分布,两个样本均值之差的抽样分布,两个样本比例之差的抽样分布,两个总体都服从二项分布 分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似 分布的数学期望为 方差为各自的方差之和,两个样本比例之差的抽样分布,两个样本方差比的抽样分布,两个样本方差比的抽样分布,两个总体都为正态分布,即X1N(1 ,12),X2

21、N(2 ,22 ) 从两个总体中分别抽取容量为n1和n2的独立样本 两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) 的F分布,即,由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名 设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,F分布(F distribution),F分布(图示), 不同自由度的F分布,F 分布(用Excel计算F分布的概率),利用Excel提供的FDIST统计函数,计算分布右单尾的概率值 其语法为FDIST(x,df1,df2),其中x是随机变量的取值,df1为分子自由度,df2为分母自由度 给定分子自由度df1、分母自由度df2和统计量取值的右尾概率,也可以利用“粘贴函数”命令来实现 计算分子自由度为4,分母自由度为6,统计量的取值大于2.5的概率, 用Excel计算F分布的概率,F

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论