简单随机抽样.ppt_第1页
简单随机抽样.ppt_第2页
简单随机抽样.ppt_第3页
简单随机抽样.ppt_第4页
简单随机抽样.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter2简单随机抽样(SimpleRandomSampling),简单随机抽样的定义与抽选方法简单估计量及其性质比率估计量及其性质回归估计量及其性质样本量的确定原则若干问题的补充,1简单随机抽样的定义与抽选方法,一、定义从大小为N的总体抽取样本量为n的样本,若全部可能的样本被抽中的概率都相等,则称这样的抽样为简单随机抽样。根据抽样单位是否放回可分为放回简单随机抽样和不放回简单随机抽样。放回简单随机抽样:每个样本抽中的概率不放回简单随机抽样:每个样本抽中的概率,二、实施方法简单随机样本的抽选,首先要将总体从1到N编号,每个单位对应一个号;然后从所编的号中抽号,如果抽到某个号,则对应的那个单位入样,直到抽够n个单位为止。抽签法随机数法,抽签法:简单随机抽样就是从盛有N张票子的盒子里随机无放回地摸取n(N)张票,它可以有两种取法:1)从盒子中一次性摸取n张票2)从盒子中随机地摸取一张票,相应的单元入样后,票不放回盒子;从余下的N-1张票中再随机地摸取一张票,相应的单元也入样且票也不放回盒子;依次实施,直到第n个样本入样。两种抽取的方法是等价的。每个样本的被抽中的概率都是,随机数法当总体较大时,抽签法实施起来比较困难,这时可以利用随机数表、随机数骰子、摇奖机、计算机产生的伪随机数进行抽样。(1)利用随机数表进行抽选。随机数表是一张由0,1,2,9这十个数字组成的,一般常用的是五位数的随机数字表,10个数字在表中出现的顺序是随机的,每个数字都有同样的机会被抽中。,(2)利用随机数骰子进行抽选。(3)利用摇奖机进行抽选。(4)利用计算机产生的伪随机数进行抽选。通常产生的伪随机数有循环周期。Excel、SPSS等都有随机数发生器等,简单随机抽样在抽样理论中的地位,缺点:要求每一个单元都有一个号码,这意味着必须有一个包含所有单元的完整抽样框,而当N很大时,这点常常是不具备的;由此得到的样本很分散,不利于调查。例如,对全国进行人口调查,总体单元超过12亿,要对全国每个人都编上号,编制一个完整的抽样框实际上是不可能的。即使可能,当抽到一个人也很难找到。,优点:简单随机抽样在抽样理论中占有重要地位,它是其它抽样方法的基础,其理论也最为成熟。其它许多方法都是建立在简单随机抽样的基础上。,相关符号,有关指标与符号,引理,引理1:从大小为N的总体中抽取一个样本容量为n的简单随机样本,则总体中每个特定的单元入样的概率为n/N,两个特定单元入样的概率为n(n1)/N(N-1)。,一个特定单元入样的概率,两个特定单元入样的概率,引理2:从大小为N的总体中抽取一个样本容量为n的简单随机样本。若令:,简单估计量的定义简单估计量的性质放回简单随机抽样的简单估计设计效应影响估计量精度的因素,2.2简单估计量及其性质,一、简单估计量的定义,对于简单随机抽样,在没有其它信息的条件下,最简单的估计是利用样本均值作为总体均值的估计,即总体均值的简单估计量为:,也就是说,样本均值是总体均值的简单估计量。,例2.1:一个N=6的总体中抽取n=3的样本,设这6个单元的值分别为Y1=21,Y2=12,Y3=15,Y4=24,Y5=6,Y6=18,则总共可能有个样本,每个样本所包含的单元号及其数值见表2.1总体均值:总体方差:发现:样本均值的均值总体均值样本方差的均值总体方差这并不是偶然的,是其重要的性质。,证明:(方法一:对称性证法),证明:(方法二:引入示性变量),证明:(方法一:引入示性变量),证明:(方法二:对称性证法),根据对称性论证法,有,回顾,简单随机抽样的定义与抽选方法简单随机抽样的实施方法两个引理简单估计量的定义样本均值是总体均值的无偏估计。,Q1:估计量的精度与抽样比的关系大吗?,A1:当N很大时,抽样精度基本取决于样本量n,而与抽样比几乎无关。,Q2:进行人口抽样调查,如果需要各个省的数据,要达到相同的精度,大省和小省所需要的样本量几乎相同还是相差很大?,A2:几乎相同。虽然此时抽样比相差很大,但如果抽样比相同,必然会导致小省精度不够,大省抽样过多而浪费。,一点解释:1-f,1-f:fpc(finitepopulationcorrection)有限总体校正系数总体未入样率从一无限总体中抽取一个样本容量为n的随机样本,一般而言,当抽样比小于5%时,fpc可以忽略不计算,这样的话估计量的标准差就估计的稍微高一些。,简单估计量方差的无偏估计,证明:说明样本方差是总体方差的无偏估计即可。,根据对称性论证法和方差性质,简单估计量的性质小结,具体例子,例:从一个容量为100的总体中抽出样本容量为10的简单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间。,95%的置信区间为5-1.961.3115,5+1.961.31152.43,7.57,例:从一个容量为100的总体中抽出样本容量为10的简单随机样本,,续上,若问:(2)估计总体的总量以及95的置信区间。,95%的置信区间为N5-1.961.3115,5+1.961.31151002.43,7.57243,757,(3)总体均值估计的绝对误差和相对误差,(三),放回简单随机抽样的简单估计量,有放回抽样的精度低于不放回抽样的精度。,百分数的估计及其误差,在问卷调查中对某个问题的回答为“是”或“否”的情况:若某个问题的答案只有两个,“是”或“否”,则选择“是”或“否”的比例即是需要估计的总体比例多项选择题:某个问题有5种可选答案A、B、C、D、E,每人可任意选择一项,那么对答案A而言,每个人的选择可以是“A”或“非A”,由此“选择A的比例”即是需要估计的总体比例。同理,选择B、C、D及E的比例都是我们需要估计的总体比例。总体比例常用百分数来表示,有时也俗称为成数。,如果我们只关心总体中某些特定类型的集合占整个总体的比例,那么我们的盒子模型中的票子分为两类:我们感兴趣的全标为1,其余全标为0。于是盒子成为:,1,0,0-1盒子模型,具有该种属性的比例为:,(1)具有某种属性单位的个数N1的估计就是对总体总值估计(2)对总体比例的估计就是对总体均值的估计,方差用比例表示,总体方差样本方差,估计量的定义和性质,估计量的性质,(1)当N,n,N-n都比较大时,a(样本中1的个数)近似服从正态分布,,(2)当N很大,但n不是很大时,a近似服从二项分布。二项分布是个离散分布,而正态分布是个连续分布,因此可将其进行连续性修正。P经修正后的近似置信区间为:,应用举例,例:某超市开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度。于是在总体中抽取了一个样本容量为200人的样本。调查发现对该超市的购物环境表示满意和基本满意的居民有130位,请估计对超市购物满意的居民的比例,并在置信度为95%下,给出估计的绝对误差,相对误差和变异系数coefficientofvariation和置信区间。,置信区间为(0.65-0.0663,0.65+0.0663)即(58.37,71.63%),样本量的确定(2.5.1),确定样本量的主要考虑因素样本量与精度的关系估计量的精度要求高,意味着抽样误差小,样本量大。样本量与实际调查运作的限制调查的经费能支持多大的样本?允许调查持续的时间有多长?需要多少调查人员?由于大部分限制条件难以量化,确定样本量的计算公式时往往只在抽样精度与调查费用两者之间权衡。确定样本量的原则最优设计在总费用一定的条件下使精度最高;在满足一定精度要求的条件下使费用最小。,其他影响样本量的因素,问题的重要性所研究问题的目标量个数参照同类调查调查表的回收率有效样本,样本量与精度,精度的衡量:估计量的标准误,一定概率保证下的绝对误差d及相对误差r变异系数cv等,考虑精度决定样本量,通常先计算出n的近似值n0,实际n比n0小。当n0N,两者之比小于0.05时,则可取nn0,否则进行修正。,(1)绝对误差上限d决定样本量,举例,例:一批电子元件有1600只,为估计元件的平均寿命,先根据抽样计算出样本平均寿命为8400小时,标准差为760小时,如果要求估计的绝对误差限为168小时,可靠程度在95%以上,问至少应抽取多少只元件?,具体例子,从一个容量为100的总体中抽出样本容量为10的简单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间。,95%的置信区间为5-1.961.3115,5+1.961.31152.43,7.57,上例中,如果现在要求以95%的把握保证相对误差不超过10%,样本量至少是多少?,注意:不要忘了修正样本量!,练习:欲估计一个农村的每月平均副业收入,已知该村共有1000户农户,月副业收入的标准差不超过300元。(1)现要求置信度为95%,估计每户月副业收入的误差不超过50元,应抽取多少户作为样本?(2)若每户调查费用为15元,调查管理费用为800元,该项调查预计费用是多少?(3)要估计全村1000户一月的副业总收入,允许总量的误差为40000,置信度为95%,应抽取多少样本?,小结:简单抽样的公式一览表,习题,1.为调查某地区1960个村新棉收购情况,以简单不重复抽样方式随机抽取49个村进行调查,求得试以95%的可靠程度估计该地区平均每村收购多少斤?2.从5620个中学中抽出一个含有300个学校的简单随机样本,其中有187个学校赞成一项提案,试估计赞成该提案的比例及总的学校数。3.对某问题进行调查,在总体中抽取容量为200的简单随机样本,若赞成,反对及不表态的人数分别为132,51,17,试给出赞成、反对及不回答比例的90%的近似置信区间。,实践题,取一本厚的英汉字典,以一页作为一个抽样单元,从中抽取一个数量为页的简单随机样本(用随机数表),计算每一样本单元的收词数,用此样本(1)估计全字典的单词收词总数,并计算此估计的方差的估计值(2)若要求相对误差不超过10%,应抽取多大的样本量?,回顾,(1)具有某种属性单位的个数N1的估计就是对总体总和的估计(2)对总体比例的估计就是对总体均值的估计,通常先计算出n的近似值n0,实际n比n0小。当n0N,两者之比小于0.05时,则可取nn0,否进行修正。,练习:欲估计一个农村的每月平均副业收入,已知该村共有1000户农户,月副业收入的标准差不超过300元。(1)现要求置信度为95%,估计每户月副业收入的误差不超过50元,应抽取多少户作为样本?(2)要估计全村1000户一月的副业总收入,允许总量的误差为40000,置信度为95%,应抽取多少样本?,估计总体比例时样本量的确定,通常先计算出n的近似值n0,实际n比n0小。当n0N,两者之比小于0.05时,则可取nn0,否则进行修正。,(1)实际中P值通常是通过历史数据或试调查的数据得到。,由于n0与PQ成正比(除了P或Q很接近0或1)PQ值的变化都比较小。当P=0.5时即PQ=0.25时PQ取到最大值。当P不太大或不太小时,可以取p0q00.5作为n0的一个保守估计。,当估计P0.5,则选取较小的P,如若估计P为0.6,0.8,则选取P为0.6若对P一无所知,则取P=0.5,此时用保守估计当P值很小,即事件为稀有事件,需要用其他方法来估计。霍丹(Haldane)1945年提出一种称为逆抽样的方法,专门用于小比例事件(稀有事件)的抽样。,例:在人口变动情况调查中,出生率P是一个重要指标。根据以前调查数据,出生率P的估计可取为18。问在95%,的置信度下,实际调查估计P的绝对误差限为0.5和相对误差限5%,各需要多大的样本量?,(2)r=0.05,由于上述数字均比实际人口小很多,故不考虑修正。,注意不要忘了修正:首先要判断是否需要修正哦!,例:某销售公司希望了解全部3000家客户对公司的满意度,决定用电话调查一个简单随机样本。这时销售公司希望以95的把握保证客户满意度比例P在样本比例p10,p+10范围内,但对总体比例P无法给出一个大致范围。这时调查多少个客户,才能保证满足要求?,分析:总体的容量N=3000,绝对误差限d=0.1置信度为0.95,P的大致范围没有给出,最保守的估计是假设P=0.5,于是,由于97/3000=0.0321,表明所考虑的抽样设计的效率不如简单随机抽样;若deff1,表明该抽样设计的效率比简单随机抽样高。,deff的功效1:为了比较不同抽样方案的效率或效果。deff的功效2:确定样本量对于复杂抽样,样本量比较难确定。一定的精度要求下,简单随机抽样的样本量n容易确定,若估计了该复杂抽样的deff,则在同样精度要求下,样本量为:,练习:,在超市问卷调查中进行预调查,置信度为95%,抽取50个样本,得到的满意度的相对误差为5%,现希望在相同的置信度下,使相对误差减少到原来的一半,则需要再抽取多大的样本量?以知某个抽样方案的设计效应是4,在精度相同情况下,已知简单随机抽样所需要的样本量为25,则该抽样方案所需的样本量为多少?,其他影响样本量的因素,问题的重要性所研究问题的目标量个数参照同类调查调查表的回收率有效样本,案例分析,几份调查报告,简单随机抽样小结,总体均值的估计和样本量的确定总体比例的估计和样本量的确定实际问题中样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论