抽样与参数估计_第1页
抽样与参数估计_第2页
抽样与参数估计_第3页
抽样与参数估计_第4页
抽样与参数估计_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9讲

抽样与参数估计一﹑抽样方法抽样概率抽样非概率抽样简单随机抽样分层抽样等距抽样整群抽样方便抽样判断抽样定额抽样滚雪球抽样1.简单随机抽样(SimpleRandomSampling)

一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。假设要对某食品店内的一批小包装饼干进行卫生达标检验,我们只能从中抽取一定数量的饼干作为检验的样本。得到样本饼干的一个方法是,将这批小包装饼干放入一个不透明的袋子中,搅拌均匀,然后不放回地摸取(这样可以保证每一袋饼干被抽中的机会相等),这样我们就可以得到一个简单随机样本。抽签法(抓阄法):例如,高一(2)班有45名学生,现要从中抽出8名学生去参加一个座谈会,每名学生的机会相等。我们可以把45名学生的学号写在小纸片上,揉成小球,放到一个不透明袋子中,充分搅拌后,再从中逐个抽出8个号签,从而抽出8名参加座谈会的学生。2.分层抽样法(类型抽样:StratifiedSampling)

一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样法.假设某地区有高中生2400人,初中生10900人,小学生11000人.此地区教育部门为了了解本地区中小学生的近视情况及形成原因,要从本地区中小学生中抽取1%的学生进行调查.由于样本容量与总体的个体数的比是1:100,因此,样本中包含的各部分的个体数应该是

2400/10010900/10011000/100即抽取24名高中生,109名初中生和110名小学生作为样本.3.等距抽样(系统抽样:SystematicSampling)

等距抽样是在总体中每隔一定距离选取一个样本,即从数量为N的总体中每隔k个单位就选取一个样本,若需选择n个样本,则取k=N/n,k的值需取整.(如遇到N/n不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除)某学校为了了解高一年级学生对教师教学的意见,打算从高一年级500名学生中抽取50名进行调查.首先将这500名学生从1开始进行编号,然后按号码顺序以一定的间隔进行抽取.由于500/50=10,这个间隔可以定为10,即从号码为1~10的第一间隔中随机地抽取一个号码,假如抽到6号,然后从第6号开始,每隔10个号码抽取一个,得到

6,16,26,36,···,496这样我们就得到一个容量为50的样本.4.整群抽样(ClusterSampling)

整群抽样就是从总体中成群成组地抽取调查单位,而不是一个一个地抽取调查单位。整群抽样与分层抽样有相似之处,即它们的第一步都是根据某种标准将总体划分为一些子群。分层抽样是在所有子群中均要抽取样本,作为总体样本的一部分。而整群抽样则不然,它是抽取若干子群并将抽出的子群中全部个体作为样本,因此总体样本只分布在几个群中。某大学共有100个班级,每班30人,共3000人。现要抽300人作为样本,就可以采取随机的办法抽10个班。整群抽样的优点是可以简化抽样的过程;降低收集资料的费用;扩大抽样的应用。其缺点是样本分布不均匀,样本的代表性较差。5.方便抽样(ConvenienceSampling)

方便抽样又称为就近抽样、偶遇抽样和自然抽样,它是一种非概率抽样方法。

方便抽样是指调查者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。为了调查某市的交通情况,研究者到离他最近的公共汽车站,把当时正在那里等车的人选作调查对象。

在图书馆阅览室对当时正在阅读的读者进行调查。6.判断抽样(JudgmentSampling)

判断抽样又称为主观抽样和立意抽样,它是一种非概率抽样方法。

判断抽样是根据合理的判断而得到具有代表性的样本的一种抽样方法。如果判断正确,使用判断抽样既节约时间又节省成本,但通常就一个判断而言,有时出现判断错误是不可避免的。某记者可以抽取他认为能够代表所有参议员观点的两名或三名参议员进行调查。7.定额抽样(配额抽样:QuotaSampling)

定额抽样是一种非概率抽样方法。

定额抽样与分层抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分成若干类或层,然后在各层中抽样,样本中各层(类)所占比例与他们在总体中所占比例一样。定额抽样的目的在于要抽选出一个总体的“模拟物”。

某高校有2000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;一年级学生占40%,二年级、三年级、四年级学生分别占30%、20%和10%。现要用定额抽样方法依上述三个变量抽取一个规模为100人的样本。可得定额表如下:

男生(60)女生(40)文科(30)理科(30)文科(20)理科(20)年级一二三四一二三四一二三四一二三四人数1296312963864286428.滚雪球抽样(SnowballSampling)滚雪球抽样是一种非概率抽样方法。

在无法了解总体情况时,可以从总体中的少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。这样的抽样方法就是滚雪球抽样方法。要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。二﹑抽样分布与参数估计1.正态分布与总体均值的区间估计

(1)正态分布设连续型随机变量X的概率密度为其中μ,σ>0为常数,则称X服从参数为μ,σ的正态分布或高斯(Gauss)分布,记为X~N(μ,σ2).当μ=0,σ=1时,为标准正态分布,记作N(0,1).

从经验和理论的研究告诉我们,在实践中遇到的随机变量,有许多是服从或近似地服从正态分布律.

,f(X)=√2πσ1e-(x-μ)22σ2﹣∞<x<+∞正态分布的密度函数f(x)的曲线简称为正态曲线.下图给出3条正态曲线,它们的μ都等于零,但却具有不同的σ值.从图可以看出,正态曲线具有下述性质:1)

曲线是位于横轴的上方,以直线x=μ为对称轴,它向左右对称地无穷伸延,并且以横轴为渐进线.当x=μ时曲线处于最高点,当x向左右远离μ时,曲线逐渐降低,整条曲线呈现“中间高,两边低”的形状.参数σ决定了正态曲线的形状特点

(2)中心极限定理

设从均值为μ,方差为σ2的一个服从任意分布的总体中,抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布.中心极限定理告诉我们,当样本总体不是正态分布或者总体的分布未知时,只要样本容量n充分大,样本均值就服从正态分布.那么n多大才叫充分大呢?当总体的分布未知时,通常要求n≥30.

(3).σ2已知时,总体均值μ的区间估计

设(X1,X2,···,Xn)是来自正态总体N(μ,σ)的一个样本,其中总体方差σ2已知,则统计量

~N(0,1).对于给定的显著性水平α(0<α<1),总体均值μ在置信水平1-α下的置信区间为:

本例中,虽然总体分布未知,但由于n=36,是大样本情况,根据中心极限定理,样本均值服从正态分布.已知:n=36,σ=1.2,1-α=0.98则α=0.02,差表得Z=2.33样本均值X=[(3×14)+(4×8)+(2×6)+(5×5)+(1×2)+(6×1)]/36=3.31根据前面的公式,总体均值在置信水平98%下的置信区间为:=(3.31-2.33,3.31+2.33)=(2.84,3.78)也就是说,有98%的把握相信,顾客平均入住天数大约在2.8天与3.8天之间.2α(X-Z2σnX+Z)σ√nα2α√,1.2√361.2√36案例:

某饭店随机抽取了36名顾客,对其入住天数进行统计调查,其中入住3天的有14人,入住4天的有8人,入住2天的有6人,入住5天的有5人,入住1天的有2人,入住6天的有1人,假设其总体标准差为1.2,试构建98%的置信区间,估计顾客的平均入住天数.n2.t分布与总体均值的区间估计

(1)t分布设(X1,X2,···,Xn)是来自正态总体N(μ,σ2)的一个样本,而总体方差σ2未知,样本均值,样本方差为S2,

X=n1ΣXii=1nS2=n-11Σ(Xi-X)i=1n2t=X-μS/√nt=X-μS/√n~t(n-1).从图可以看出t分布是对称分布,当n很大时(例如当n>30时)t分布和正态分布很接近.t分布通常是在小样本情况下,总体方差未知时,对总体均值μ的估计和假设检验中使用.则选取统计量其中

(2)σ2未知时,总体均值μ的区间估计

设(X1,X2,···,Xn)是来自正态总体N(μ,σ)的一个样本,但总体方差σ2未知,这时要选取统计量,

对于给定的显著性水平α(0<α<1),总体均值μ在置信水平1-α下的置信区间为:

t=X-μS/√nt=X-μS/√n~t(n-1).

案例:研究者从人群中随机抽取16人,调查他们的年出游天数,得到他们的年出游天数分别为13天﹑9天﹑

7天﹑

15天﹑

17天﹑

20天﹑

12天﹑

6天﹑

12天﹑

12天﹑

10天﹑9天﹑16天﹑

7天﹑

8天﹑

11天,假设其总体服从正态分布,试在α=0.1下建立年人均出游天数的置信区间.已知n=16,α=0.1

计算得:查表得:t=1.753

根据公式,总体均值μ在置信水平90%下的置信区间为:也就是说,有90%的把握相信,年人均出游天数大约在9.8天到13.2天之间.ΣXi=11.5X=n1i=1ni=1n(Xi-X)2√1n-1Σ

=3.96S=2α(X–t(n-1),α2S√nX+t(n-1))α2S√n11.5+1.7533.9616)=(11.5-1.7533.9616,=(9.77,13.24)

3.总体比例的区间估计

(1)样本比例的分布样本比例p是样本中具有某种特征的单位数量X除以样本中的单位总数n得到的.

总体中具有某种特征的单位占全部单位的比例称为总体比例,记作p.

在大样本情况下,样本比例分布近似于正态分布.若从总体中抽取n个样本,则样本比例p的均值为p,p的方差为

p=nXn1p(1-p),即p~N(p,p(1-p))n1Z=√p-pp(1-p)n则统计量~N(0,1).

(2)总体比例的区间估计在

中,要确定p的区间估计,用p代替分母中的p,得到在1-α的置信水平下,总体比例p值的置信区间为:

在上式中,是点估计,

P(1-P)nZ=√p-p

是估计误差.案例:航空公司的飞行时间和价格是商务旅行者选择航班的重要因素,调查结果表明,商务旅行者一般将航空公司许诺的常客折扣看成是最重要的因素.在一个由1993名商务旅行者组成的简单随机样本中,有618人认为折扣是他们最看好的东西.试在0.95的置信水平下,估计认为折扣最有吸引力的人数所占的比例.=(0.29,0.33)p(1-p)n(p–Z

α2√,p(1-p)np+Z

α2√

已知,n=1993,p=618/1993=0.31,1-α=0.95查表得:Z2α=Z0.025=1.96由得知,认为折扣最有吸引力的人数所占的比例为29%~33%之间.pp))

4.样本容量的确定

(1)估计总体均值时,样本容量的确定

在大样本情况下,不论是正态总体还是非正态总体,在估计总体均值μ时,我们都选取统计量其中,X-μ就是估计误差,记估计误差为△,

△=X-μ,则得到估计总体均值μ时的样本容量为:

X-μZ=σ/√n,

Z=σ/√n△2Zn=α2σ2△2

案例:某饭店为了合理配置前台接待人员,饭店管理部门需要了解接待一名顾客所花费的时间,要求估计误差不超过2分钟,假定一名服务员接待一名顾客花费时间的标准差为4分钟,问在99%的置信水平下,需要观察多少名顾客?2Zα=Z0.005=2.58

查表得:n=α2σ2△2Z2=(2.58)2(4)222=26.6于是,已知估计误差△=2,标准差σ=4,1-α=0.99,α=0.01即需要观察27名顾客。(2)估计总体比例时,样本容量的确定估计样本比例时,选取统计量,估计误差为△,△=p–p=Z2α√p(1-p)nP(1-P)nZ=√p-p在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论