抽样和抽样分布(一)_第1页
抽样和抽样分布(一)_第2页
抽样和抽样分布(一)_第3页
抽样和抽样分布(一)_第4页
抽样和抽样分布(一)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样和抽样分布第一节抽样及抽样中的几个基本概念一、抽样的概念和特点1、抽样:从所研究的对象中随机地取出其中一部分来观察,由此而获得有关总体的信息。

2、抽样的3个特点:1)遵守随机原则;2)推断被调查现象的总体特征;3)计算推断的准确性和可靠性。二、抽样的基本概念

1、全及总体和样本总体全及总体是我们所要研究的对象,而样本总体则是我们所要观察的对象,两者是有区别而又有联系的不同范畴。全及总体又称母体:具有某种共同性质的许多单位的集合体。

样本总体:又称子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用小写英文字母n来表示。

样本代表性问题:随着样本容量的增大,样本对总体的代表性越来越高,并且当样本单位数足够多时,样本平均数愈接近总体平均数。2.全及指标和抽样指标全及指标:根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指示称为全及指标。常用的全及指标有总体平均数(或总体成数)、总体标准差(或总体方差)。

抽样指标:由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标称为统计量(抽样指标)。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差)。

注意:

对于一个问题全及总体是唯一确定的,所以全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的不同而发生变化。

3、样本容量和样本个数

样本容量:指一个样本所包含的单位数。通常将样本单位数不少于30个的样本称为大样本,不及30个的称为小样本。社会经济统计的抽样调查多属于大样本调查。样本个数又称样本可能数目。指从一个总体中可能抽取的样本个数。一个总体有多少样本,则样本统计量就有多少种取值,从而形成该统计量的分布,此分布是抽样推断的基础。4、重重复抽抽样和和不重重复抽抽样有放放回回抽抽样样::总体体中中的的每每个个个个体体单单位位可可以以不不止止一一次次地地被被选选中中的的抽抽样样。。无放放回回抽抽样样::总体体中中的的每每个个个个体体被被选选中中的的次次数数不不多多于于一一次次。。名称样本总体定义从总体中抽出的部分单位数研究对象的全部单位总数特征统计量参数符号样本容量:n样本平均数:样本比例:样本标准差:s样本方差总体容量:N总体平均数:μ总体比例:p总体标准差:σ总体方差:5、、样样本本统统计计量量的的总总体体参参数数符符号号三、、随随机机抽抽样样和和判判断断抽抽样样随机机抽抽样样:按照照随随机机原原则则抽抽取取样样本本,,在在总总体体中中所所有有单单位位被被抽抽中中的的机机会会是是均均等等的的。。判断断抽抽样样:根据据个个人人或或集集体体的的设设想想或或经经验验,,从从总总体体中中有有目目的的地地抽抽取取样样本本。。三、、非非抽抽样样误误差差和和抽抽样样误误差差1、、非非抽抽样样误误差差::在调查登登记过程程中发生生的误差差和由于于主观因因素破坏坏了随机机原则而而产生的的系统性性偏差。。2、抽样样误差::是指由于于随机抽抽样的偶偶然因素素使样本本各单位位的结构构不足以以代表总总体各单单位的结结构,而而引起抽抽样指标标和全及及指标之之间的绝绝对离差差。不包包含登记记性误差差和不遵遵守随机机原则造造成的偏偏差。影响抽样样误差的的因素有有:总体各单单位标志志值的差差异程度度;样本本的单位位数;抽抽样的方方法;抽抽样调查查的组织织形式。。第二节随机机抽样设计一、纯随机抽抽样:对总体的所有有容量不做任任何的分类和和排队,完全全按随机原则则逐个抽取样样本容量。纯随机抽样样的常用抽抽样方法1)抽签法法:将总体容量量全部加以以编号,并并编成相应应的号签,,然后将号号签充分混混合后逐个个抽取,直直到抽到预预定需要的的样本容量量为止。缺点:总体容量很很多时,编编制号签的的工作量很很大,且很很难掺和均均匀。2)随机数数字法:用字母顺序序或身份证证号等任何何方便的方方法对总体体容量编者者按号,利利用随机数数表从1到到总体容量量N中随机机抽取n((样本容量量数)个数数,遇到那那些不在编编号里的数数字需跳过过。二、等距抽抽样:先将总体各各单位按某某一有关标标志(或无无关标志))排队,然然后相等距距离或相等等间隔抽取取样本单位位。根据需需要抽取的的样本单位位数(n))和全及总总体单位数数(N),,可以计算算出抽取各各个样本单单位之间的的距离和间间隔,即::K=N/n,然后后按此间隔隔依次抽取取必要的样样本单位。。等距抽样的的一个例子子某企业有职职工5000名,现现要随机抽抽取100人进行家家庭收入水水平调查。。抽取方法::按与研究目目的无直接接关系的姓姓名笔划对对总体进行行排列,把把总体划分分为K=5000/100=50个相相等的间隔隔,在第1至第50人中随机机抽取一名名,如抽到到第10名名,后面间间隔依次抽抽取第60,110,160,210,…直到到4960为止,总总共抽取50同名职职工组成一一个抽样总总体。等距距抽抽样样的的优优点点::(1))能保保证证被被抽抽取取到到的的样样本本单单位位在在全全及及总总体体中中均均匀匀分分布布;;((2))简简化化抽抽样样过过程程。。等距距抽抽样样应应注注意意::要避避免免抽抽样样间间隔隔或或样样本本距距离离和和现现象象本本身身的的节节奏奏性性或或循循环环周周期期相相重重合合。。三、、类类型型抽抽样样类型型抽抽样样::将全全及及总总体体中中的的所所有有单单位位按按某某一一主主要要标标志志分分组组,,然然后后在在各各组组中中采采用用纯纯随随机机抽抽样样或或等等距距抽抽样样方方式式,,抽抽取取一一定定数数目目的的调调查查单单位位构构成成所所需需的的样样本本。。适用用范范围围::主要要适适用用于于总总体体情情况况比比较较复复杂杂,,各各类类型型或或层层次次之之间间的的差差异异较较大大,,而而总总体体单单位位又又较较多多的的情情形形,,分分层层使使层层内内各各单单位位之之间间的的差差异异减减小小,,层层间间差差异异扩扩大大。。(一)类类型比例例抽样按照总体体单位数数在各组组之间的的比例,,分配各各组的抽抽样单位位数。即即:各类类型中抽抽取的样样本单位位数ni占该类型型所有单单位数Ni的比例是是相等的的,等同同于样本本单位总总数n占占总体单单位数N的比例例,即::各类型组组应抽取取的样本本单位数数为:样本比率率抽样样样本容量量:按前面指指定的比比例(n/N)从每组组的Ni单位中抽抽取ni个单位即即构成一一个抽样样总体,其样本本容量为为:n=n1+n2+n3+…+nk=(二)类类型适宜宜抽样在抽取样样本单位位数时,,要考虑虑各类型型组包含含的单位位数不同同和标志志变动度度())的的不同,,变动程程度())大大的类型型组要多多抽样本本单位数数,变动动程度(())小的的组要少少多抽样样本数,,使得各各类型组组的变动动程度(())在所所有类型型组变动动程度之之和中中的的比例相相等,等等同于是是或或。。此外,还还可将各各类型组组单位数数和和变动程程度结结合考虑虑,使得得在在所所有类型型组之和和中中所所占比例例等于或或,,即::从而求得得各类型型的样本本单位数数为:四、整群群抽样在全及总总体中以以群(或或组)为为单位,,按纯随随机方式式或等距距抽样方方式,抽抽取若干干群(或或组),,然后对对所有抽抽中的各各群(或或各组))中的全全部单位位一一进进行调查查。五、多阶阶段抽样样将多个抽抽样程序序分成若若干阶段段,然后后逐阶段段进行抽抽样,以以完成整整个抽样样过程。。适用范围围:总体包括括的单位位很多,,而且分分布很广广,通过过一次抽抽样抽选选出样本本是很困困难的,,这时使使用多阶阶段抽样样。多阶段抽抽样的一一个例子子例:对我我国的农农产量进进行抽样样调查。。抽样方法法是:先由省抽抽县,由由抽中的的县内再再抽乡、、村,由由抽中的的乡、村村抽地块块,最后后才由抽抽中的地地块再抽抽样本单单位。第三节抽抽样分分布一、抽样样分布::从一个给给定的总总体中抽抽取(不不论是否否有放回回)容量量(或大大小)为为n的所所有可能能的样本本,对于于每一个个样本,,计算出出某个统统计量((如样本本均值或或标准差差)的值值,不同同的样本本得到的的该统计计量的值值是不一一样的,,由此得得到这个个统计量量的分布布,称之之为抽样样分布。。例如:如如果特指指的统计计量是样样本均值值,则此此分布为为均值的的抽样分分布。类类似的有有标准差差、方差差、中位位数、比比例的抽抽样分布布。二、统统计量量抽样样分布布的均均值、、标准准差::对于每每个统统计量量的抽抽样分分布,,可计计算出出它的的均值值和标标准差差等,,称之之为该该统计计量抽抽样分分布的的均值值和标标准差差等。。三、均均值的的抽样样分布布(一))被抽抽样的的总体体服从从正态态分布布,样样本平平均数数的的抽抽样分分布具具有下下列质质:1、样样本平平均数数的分分布依依然是是正态态分布布;2、样样本平平均数数分分布的的平均均值等等于总总体平平均数数μ;;3、样样本平平均数数分分布布的均均方差差等等于::当为有有限总总体无无放回回抽样样时,,其样样本均均值标标准差差为::如果总总体为为无限限总体体的或或抽取取是有有放回回的,,其样样本均均值标标准差差为::(二))非正正态总总体样样本平平均数数的的分布布及性性质??1、中中心极极限定定理可可以解解决上上述问问题::一个具具有任任意函函数形形式的的总体体,其其样本本平均均值μμ和方方差有有限。。在对对该总总体进进行抽抽样时时,随随着样样本容容量n的增增大,,由这这些平平均样样本算算出的的平均均数的的抽样样分布布将近近似服服从平平均数数为μμ和方方差为为的的正态态分布布。2、样样本容容量究究竟该该多大大才能能使抽抽样分分布逼逼近于于正态态分布布?中心极极限定定理说说明了了不仅仅从正正态总总体抽抽取样样本时时,样样本平平均数数这一一统计计量要要服从从正态态分布布,即即使是是从非非正态态总体体进行行抽样样,只只要是是大样样本((容量量n≧≧30),,样本本平均均数也也趋向向于正正态分分布。。(三))应用用举例例例1:从某某地区统计计中得知,,该地区郊郊区平均每每一家庭年年收入为3160元元,标准差差为800元。从此此郊区抽取取50个家家庭为一随随机样本,,平均每年年收入为以以下数字的的平均概率率是多少::(1)多多于3000元;((2)少于于3000元;(3)在3200元到到3300元之间。。使用模型描描述我们的的问题题中没有告告知总体服服从正态分分布,但样样本容量足足够大(n=50)),据中心心极限定理理,近近似服服从正态分分布。(1)同理处理((2)和((3)(2)(3)例2:从海海外A地区区采购大豆豆10000包,已已知平均每每包重量为为100公公斤,标准准差为4公公斤,现按按不重复抽抽样从中抽抽取样本容容量n=500包的的样本,来来测定这批批大豆的每每包平均重重量,要求求标出样本本平均重量量短0.5公斤以上上的概率.问题的模型型描述没有告知总总体服从正正态分布,,但样本容容量足够大大(n=500),,据中心极极限定理,可可知知近近似服从从正态分布布。大豆的抽抽样:四、比例例的抽样样分布(一)比比率的抽抽样分布布:从一个计计数的变变量总体体中抽取取一定容容量的样样本,计计算其具具有某种种特征的的单位数数所占的的比率,,其所有有可能样样本比率率所形成成的分布布就是比比率的抽抽样分布布。(二)比比例的抽抽样分布布、均值值和方差差1、当样本容容量很大大(n≧≧30))时,比比例的抽抽样分布布非非常接接近于正正态分布布。2、比例例抽样分分布的均均值3、比例例抽样分分布的标标准差::(1)有有限总体体且有放放回抽样样:(2)有有限总体体且抽样样无放回回:(三)比比例抽样样分布的的例子某选区的的选取举举结果表表明某一一位候选选人得到到了46%的选选票。从从选民中中随机抽抽取(1)200人,,(2))1000人作作民意测测验,求求大多数数人支持持这位候候选人的的概率。。该问题的的模型描描述因为样本本容量n(n=200或1000))较大,,故的的分分布接近近于正态态分布。。均值标准差(1)(2)(1)样样本中大大多数人人支持候候选人的的选取民民比例为为:200人中中的大多多数即为为:100.5/200=0.5025要求的概概率为:(2)样本中中大多数人支支持候选人的的选取民比例例为:1000人中的大大多数即为:500.5/1000=0.5005概率为第四节2个样本平平均数

之差差的抽样分布布问题提出:在某些情况下下,需要对来来自2个不不同总体的平平均数进行比比较,例如,,比较2种管管理方法下的的工作台效率率等。为了通通过样本数据据对2个总总体平均数之之差作出推断断,就需要知知道2个样样本平均值之之差的的抽抽样分布布性质。一、、两两样样本本平平均均数数之之差差的的分分布布、、期期望望和和方方差差(一一))两正正态态总总体体样样本本平平均均数数之之差差的的分分布布假设设有有2个个给给定定的的正态态总总体体,其其平平均均数数分分别别为为μμ1和μμ2,方方差差分分别别为为和和,,从从2个个正态态总总体体中抽抽取取的的容容量量分分别别为为n1和n2的2个个独独立立样样本本的的平平均均数数之之差差分布布::服从从正正态态分分布布;;样本本平平均均数数::μμ1-μμ2;;样本本平平均均数数的的方方差差::(二二))两两非非正正态态总总体体样样本本平平均均数数之之差差的的分分布布从两两个个非非正正态态总总体体中中抽抽取取2个个独独立立的的样样本本,,这这时时,,只只要要样样本本的的容容量量足足够够大大,,即即n≥≥30,,根根据据中中心心极极限限定定理理,,样样本本平平均均数数之之差差的的抽抽样样分分布布逼逼近近正正态态分分布布,,其平均均数同同样为为:μ1-μμ2其标准准差同同样为为:二、2个个样本比率率

之差的的抽样分布布如果有2个个总体,它它们的某种种特征的单单位数所占占的比率分分别为p1和p2,现从这2个总体中中分别抽出出容量为n1和n2的2个独立立样本随机机样本,其其样本比率率分别为和和。。问服服从什什么分布,,其均值和和方差分别别为多少??当n1和n2很大时,2个样本比比率之差的抽样分布布就近似于于正态分布布,其平均均值和方差差分别为::三、应用实实例某调查研究究机构经调调查后所示示的统计资资料表明,,A类企业业5年内用用于市场情情况的市场场调查预算算增加了18%,而而B类企业业增加了10%。现现在要问::(1)如果果从每类企企业中各抽抽选90个个企业组成成2个独立立随机样本本,样本比比率之差的的抽样分布布的平均值值和标准差差有多大??(2)样样本比率之之差位于0.06和和平共处1之间的概概率有多大大?(3)如果从从每一类企企业中各解(1)因因为样本容容量n1=n2=90,故故的的分分布接近于于正态分布布,则(2)为求求位位于0.06和和0.11之间的概概率,必须须先求出Z1和Z2的值:于是小小于或等等于0.03的概率率为:(3)小小于或等于于0.03的概率为为:第五节t分布布、2分布和F分布在实际工工作中,,抽取足足够多的的样本容容量进行行调查意意味着人人力、物物力和财财力的增增加,尤尤其对一一些具有有破坏性性的试验验来说也也不宜抽抽取太多多的样本本容量。。也就是是说,对对于大样样本进行行观察受受到某些些条件的的限制。。本节主主要讨论论t分布、2分布和F分布布。一、t-分分布关于t分布布的早期理论论工作,是英英国统计学家家威廉•西利利•戈塞特((WillamSealyGosset)在在1900年年进行的。t分布是小样样本分布,小小样本分布一一般是指n<30。t分分布适用于当当总体标准差差未知时用样样本标准差s代替总体标标准差,由由样本平均数数推断总体平平均数以及2个小样本之之间差异的显显著性检验等等。从平均值为、方差为2的正态总体中中抽取容量为为n的一个样样本,其样本本平均数服服从平平均值为,,方差为2/n的正态分分布,因此,,。但是总体方方差2总是未知的,,从而只能用用s2来代替,(1)如果n很很大,那么,,s2就是2的一个较好的的估计量,仍仍然是是一个近似的的标准正态分分布;(2)如果n较小,s2常常与2的差异较大,,因此,统计计量就就不再是是一个标准正正态分布,而而是服从t分分布。(一)t分布布的性质1、t分布是是对称分布,,且其均值为为0。2、当样本容容量n较小时时,t分布的的方差大于1;当n增大大到大于或等等于30时,,t分布的方方差就趋近于于1,t分布布也就趋近于于标准正态分分布。3、t分布是是一个分布族族,对于不同同的样本容量量都对应不同同的分布,且且其均值都为为0。4、与标准正正态分布相比比,t分布的的中心部分较较低,2个尾尾部较高。5、变量t的的取值范围在在与与之之间。t分布与标准准正态分布的的比较如下图图所示:(二)t分布布的自由度样本中独立观观察值的个数数(即样本容容量)n减去去1(由于样样本要估计的的总体参数的的个数为1,,即2)。如果用一个样样本容量为n=20的样样本估计总体体平均数,那那就要用14个自由度,,以便选择适适当的t分布布。(三)t分分布表的使用用在使用t分布布表时,必须须同时具备置置信度和自由由度2个条条件。置信度表示被被估计的总体体参数落入置置信区间的概概率。然而,,t分布给出出的是值,即表示示所估计的总总体参数不落落入置信区间间的概率,或或落入置信区区间以外的可可能性。的数值是由由100%减减去给定的置置信度后得到到的。查表时还要指指定自由度。。t分布表使用的的一个例子::在99%的置置信度下,对对容量为14的样本作出出一个估计。。解:从=0.10那一栏下,找到自由度度为13(n-1=14-1=13)那一行相相交的数字,这个数字为为1.771。数值1.771表明明,如果从平平均数两侧分分别加减1.771个标标准差,那么么,在这两个个界限之内曲曲线下的面积积是99%,,而有曲线面面积之外是10%。如下下图所示:二、2分布2分布的产生和和适用范围简简介:2分布是海尔墨墨特(Hermert))和卡.皮尔尔生(K.Pearson)分别于于1875年年和1890年导出的。。它主要适用于于对拟合优度度检验和独立立性检验,以以及对总体方方差的估计和和检验等。2分布介绍:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论