已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章抽样分布与抽样方法,gongwei,本章主要内容,随机抽样和统计推断抽样分布抽样设计方法,教学基本要求,通过本章的学习,掌握抽样的概念,简单随机抽样的方法;掌握重置抽样的抽样分布,不重置抽样的抽样分布;识记抽样其他组织形式,抽样设计的基本原则,掌握各种抽样组织形式的抽样平均误差的计算方法,了解抽样方案的设计内容。,抽样的基本概念,抽样涉及的基本概念有:总体与样本样本容量与样本个数总体参数与样本统计量重复抽样与不重复抽样这些概念是统计学特有的,体现了统计学的基本思想与方法。,总体和样本(回顾),1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用N表示。2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用n表示。3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,例1:一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:,抽样估计方法主要用在下列两种情况:1、对所考查的总体不可能进行全部测度;2、从理论上说可以对所考查的总体进行全部测度,但实践上由于人力、财力、时间等方面的原因,无法或没有必要(不划算)进行全部测度。注意:抽样调查必须遵循随机原则。抽样估计只能得到对总体特征的近似测度,因此,抽样估计还必须同时考察所得结果的“可能范围”与“可靠程度”。,样本容量与样本个数,样本容量:一个样本中所包含的单位数,用n表示。样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!),例3:某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。总体:2500名中层干部(population),如果:上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。假如:1:已经得到了如下的结果:总体均值(populationmean)=51800总体标准差(Populationstandarddeviation=4000,2、同时,有1500人参加了公司培训,则参加公司培训计划的比例为:P=1500/2500=0.60参数是总体的数值特征(Aparameterisanumericalcharacteristicofapopulation.)。如:例3中的中层干部平均年薪,年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。,统计量,x1,x2,xn是相应于样本X1,X2,Xn的样本值,则称g(x1,x2,xn)是g(X1,X2,Xn)的观察值。,注:统计量是随机变量。,1.,思考?,常用统计量,样本均值,样本方差,它反映了总体均值的信息,它反映了总体方差的信息,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体k阶矩的信息,当k=1时,就是样本均值,它反映了总体k阶中心矩的信息,它们的观察值分别为:,注意:总体参数是常数,计算总体参数的公式中所用到的总体各单位的标志值是确定的具体数值,而样本统计量是随机变量,计算样本统计量的公式中所用的样本在未具体观察前是随机变量。计算有限总体参数的公式中要使用总体的所有单位的标志值,(有限总体的单位总数N),而计算样本统计量的公式中只使用抽取到的样本(其个数是样本量n)。,总体参数和样本统计量,总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量:根据样本分布计算的指标。是随机变量。,例:从一批瓷砖中随机抽取10件,测得其重量为(单位:千克):2.10,2.43,1.85,2.40,2.15,2.28,1.96,2.35,2.00,1.99求这组样本的均值和方差。解:,抽样分布,总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布,总体分布(populationdistribution),一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sampledistribution),抽样分布的概念,1、举个例子:丢骰子2、结论:样本均值并不总是落在总体均值很近的位置。因此,我们不能仅仅根据一个样本得出总体的情况,需认识到样本统计量本身就是个随机变量,不同的样本会导致样本统计量取不同的值。3、解决方法:在大量重复抽样试验的基础上,得出统计量取值的集合及相应的概率,进而作出判断和比较,抽样分布的形成过程(samplingdistribution),样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布(samplingdistribution),样本均值的抽样分布(例题分析),例:设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的抽样分布例题分析,样本均值的分布与总体分布的比较(例题分析),=2.52=1.25,总体分布,比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n,抽样分布的形式,1、样本均值抽样分布的形式与原有总体的分布和样本容量n的大小有关2、如果原总体分布是正态分布,那么,无论样本容量的大小如何,样本均值的抽样分布都服从正态分布3、如果原总体分布是非正态分布,即看样本容量的的大小,当样本容量大于30时,抽样分布将趋近正态分布,这就是著名的中心极限定理,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(centrallimittheorem),中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,中心极限定理(centrallimittheorem),x的分布趋于正态分布的过程,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,样本比例的分布(proportion),样本比例的分布,在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布总体为二项分布当样本容量很大时,样本比例的抽样分布可用正态分布近似,即,抽样分布与总体分布的关系,例:求样本平均数的概率分布,设某公司1000名职工的人均年奖金为2000元,标准差500元,随机抽取36人作为样本进行调查,问样本的人均年奖金在19002200元之间的概率有多大?,设XN(72,100),为使样本均值大于70的概率不小于90%,则样本量至少应取多少?解:设样本量为n,则,例,依题意:,查表得:,抽样设计方法,抽样估计效果的衡量与抽样组织形式,抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小,抽样效果从整体上看就是好的;否则,抽样效果就不理想。抽样平均误差受以下几方面的因素影响:总体的变异性,即与总体的标准差大小有关样本容量抽样方法抽样的组织形式抽样的组织形式有如下几种:简单随机抽样、等距抽样、类型抽样、整群抽样、阶段抽样,简单随机抽样(SimpleRandomSampling),若总体X的样本X1,X2,Xn满足:(1)X1,X2,Xn与X同分布;(2)X1,X2,Xn相互独立,那称它为简单随机样本。简称为样本,其观察值x1,x2,xn称为样本值。,定理:若为X的一个样本,则的联合分布函数为:,若设X的概率密度为f,则的联合概率密度为:,简单随机抽样(SimpleRandomSampling),简单随机抽样可根据总体的有限性或无限性分为有限总体简单随机抽样与无限总体随机抽样。有限总体简单随机抽样的特点:每一个可能的相同容量的样本被抽中的概率相同。无限总体简单随机抽样的特点:1、每一样本(单位)来自同一总体;2、每一样本(单位)是独立抽取的。,简单随机抽样,1、自有限总体的抽样方法:将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。适用:总体规模不大;总体内部差异小。2、自无限总体的抽样方法:必须特殊制定一种独立选取样本点的抽样过程,以避免由于某些类型的个体以较大概率被选入而产生误差。适用:总体太大或是无限的;总体内部差异小。,随机数字表(摘录),63271599867174451102151418071458683931081355479945885470989695436791150830301041200306375408459283645595757243838650991119761663554010226646601471570246276874534479067122455738435821625169991338522782553630744934835152907661667191127772186168689032636939392785499025844742048303788761826933406401628113186294318819004588387338129089541702904011308243177262865256836783514732718518922225520127340104933652064465055503015782242295206975372602237565493581628361003925456835376360242198063896416495399337随机数字表中,可以从任何一个位置、任何方向开始挑选随机数。一旦选择一个任意起点,就采用事先确定的程序。,重复抽样与不重复抽样,对于无限总体而言,抽样总是可以看成是重复抽样(或重置抽样),然后,对于有限总体而言,由抽样是否具有可重复性,又可分为重复(重置)抽样与不重复(不重置)抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。,重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2考虑顺序时:样本个数=Nn=52=25不考虑顺序时:样本个数=,重复(置)抽样,重置抽样可以看做是有限总体下的简单随机抽样。所以以下结果都适用:,不重复(置)抽样,也叫不放回抽样,指每次从有限总体中随机抽取一个单位,登记结果后不放回原总体,下一个单位继续从总体中余下的单位随机抽取。其特点为:n个单位的样本由n次抽取的结果构成;每次抽取的结果不是独立的;虽然在同次试验中每个单位被抽取到的概率相同,但在不同次的试验中被抽取到的概率是不相等的。,例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2考虑顺序时:样本个数不考虑顺序时:样本个数,不重复(置)抽样,例,设某小型工厂有5位工人,他们的时薪分别为4,6,8,10,12元,那么总体均值和方差分别是,按不重置抽样方法从5位工人中抽出2人,并计算样本均值的期望与方差:,两两样本的平均数(单位:元),样本均值的分布,根据样本均值的分布,计算样本均值的期望与方差:,有限总体(不重置简单随机抽样)的修正系数,重置抽样分布-样本平均数的分布,由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下正态分布这是一个非常重要的结论,有广泛的应用。,重置抽样分布-样本成数的分布,总体成数p是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是N,总体中有该特征的单位数是N1。设x是0、1变量(总体单位有该特征,则x取1,否则取0),则有:现从总体中抽出n个单位,如果其中有相应特征的单位数是n1,则样本成数是:P也是一个随机变量,利用样本平均数的分布性质结论,即有:,不重置抽样分布,样本均值的分布性质:样本成数的分布性质,总结,例,某地区职工家庭的人均年收入平均为12000元,标准差为2000元。若知该地区家庭的人均年收入服从正态分布,现采用重复抽样从总体中随机抽取25户进行调查,问出现样本平均数等于或超过12500元的可能性有多大?,例,某商场推销一种洗发水。据统计,本年度购买此种洗发水的有10万人,其中6万是女性。如果按不重复随机抽样方法,从购买者中抽出100人进行调查,问样本中女性比例超过50%的可能性有多大?,抽样优良性的一个准则,例,按重置抽样方法从总体随机抽取样本量为n的样本。如果总体标准差=2,样本量从n=4增加到n=16,那么抽样误差有何变化?解:当n=4时,抽样误差为当n=16时,抽样误差为因此,当样本量从n=4增加到n=16,即增加4倍时,抽样标准误差减少一半。,等距抽样(机械抽样或系统抽样),1、方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。设总体有N个单位组成,现在抽取一个容量为n的样本,现将总体N个单位按标志排队,然后将N划分为n个单位相等部分,每部分包含k个单位,(Nnk),然后在每部分中抽取一个单位。按排队标志性质的不同,可分为有关标志排队等距抽样和无关标志排队等距抽样。,先按某个标志对总体单位进行排序,然后依固定的间隔来抽取样本单位。这样可以保证样本单位均匀地分布在总体的各个部分,有较高的代表性。总体的单位数N,需要抽取的样本单位数n,则等距抽样的间隔大小:k=N/n,总体排序标志是由总体的有关辅助信息确定的,与调查标志两者间可以有关也可以无关。1、无关标志排队:如家计调查,按门牌号码排序。2、有关标志排队:如农产量调查按平均亩产量高低排序。一般来讲,有关标志排序要比无关标志排序的机械抽样更为优越。,在排队时,要注意避免抽样间隔与现象本身的周期性节奏相重合。以减少系统偏差的影响,提高样本的代表性。,2、等距抽样平均误差的计算,关于等距抽样的平均误差,它和标志排列顺序有关,情况比较复杂。如果用来排队的标志是无关标志,而且是随机起点抽样,那么它的抽样误差就十分接近简单随机抽样的误差,为了简便起见,可以采用简单随机抽样误差公式来近似计算即:,1、方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。,类型抽样(分层抽样或分类抽样),得到样本如下:,2、类型抽样的特点:,根据方差定理:总方差=组内方差的平均数+组间方差在划分类型后,类型抽样实际是对每组都抽去了一个样本,如果各组内的抽样误差都为0,那么不论各组之间差异如何,整个样本的方差就等于总方差(总方差=组间方差),也就是说抽取得到的样本分布完全和总体分布一样,也就不存在抽样误差。所以说,类型抽样总的抽样误差主要取决于各组内的抽样误差。,3、类型抽样平均误差的计算,设总体有N个单位组成,把总体分为k组,然后从每组中抽取样本单位构成样本总体。怎样从每类中抽取呢?通常是等比例抽样。,类型抽样两点结论,从类型抽样的抽样平均误差公式来看,类型抽样的抽样平均误差与组间方差无关,它决定于组内方差的平均水平。而方差的加法定理:,因此有如下结论:抽样效果一般来说好于简单随机抽样。因此在分组时应尽量扩大组间方差(组间差异),缩小组内方差(组内差异),从而减少抽样误差,提高抽样效果。,类型抽样例,假设某农场种植小麦1200亩,根据其地理条件划分为甲、乙、丙三类,按5%的比例总共抽取60亩进行调查,结果如下表所示。试以95%的概率估计农场平均亩产量的区间范围。,整群抽样(集团抽样),1、方法:将总体全部单位分为许多个“群”,然后随机抽取若干“群”,对被抽中的各“群”内的所有单位登记调查。,总体,群1,群2,群,2、整群抽样的特点:根据方差定理:总方差=组内方差的平均数+组间方差在分群后,整群抽样实际是对中选群进行全面调查,其样本的代表性取决于抽中的群体对总体的代表性每组。如果各群体之间没有差异(即组间方差=0),群内方差就等于总方差(总方差=组内方差),则样本能完全代替总体,也就不存在抽样误差。所以说,整群抽样总的抽样误差主要取决于各群间的抽样误差或群间差异程度。,3、整群抽样平均抽样误差计算公式:设总体全部单位划分为群每群包含单位则现在从总体群中随机抽取群组成样本,并分别对中选群的所有单位进行调查,类型抽样与整群抽样比较,1、抽样平均误差的决定因素不同。类型抽样的平均误差与组间方差无关,决定于组内方差的平均水平整群抽样的平均误差与组内方差无关,决定于组间方差大小2、减小类型抽样与整群抽样平均误差的方法不同。因为总体方差等于组间方差加上组内方差平均数。所以提高组间方差,降低组内方差可减小类型抽样平均误差对于整群抽样则相反,类型抽样与整群抽样比较,3、适应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 场地地基处理协议书
- 报价委托协议书模板
- 改装车轮胎耐磨性能提升创新创业项目商业计划书
- 搪瓷咖啡拉花模具与裱花嘴创新创业项目商业计划书
- 敏感肌卫生巾无添加创新创业项目商业计划书
- 型模底板表面强化处理技术创新创业项目商业计划书
- 床品快速物流配送体系创新创业项目商业计划书
- 销售人员保密协议模板
- 人教版(2024)五年级全一册信息科技第25课 有趣的七桥问题 教案
- 2019-2021年北京重点校高一(下)期末物理试卷试题汇编:圆周运动章节综合
- 2026年雪茄烟活动策划方案
- 角磨机安全使用培训课件
- 生产管理SOP(标准操作流程)模板
- 2026年浙江中烟工业有限责任公司高层次人才招聘(2人)考试笔试参考题库附答案解析
- 白玉县冬季施工方案
- 2025税务师《税法二》考试试题及参考答案
- 燃气管道保护专业施工方案
- 2026中国能源建设集团云南火电建设有限公司校园招聘(46人)备考考试题库附答案解析
- 2024中国生物医药出海现状与趋势蓝皮书
- DB14T 3563-2025 县域医共体慢病管理中心建设与运行规范
- 2025-2030中国骆驼奶制品营养价值研究及产业化开发可行性分析报告
评论
0/150
提交评论