版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第三章第三章 简单随机抽样简单随机抽样第一节第一节 简单随机抽样概述简单随机抽样概述u一、简单随机抽样的概念一、简单随机抽样的概念u定义之一:简单随机抽样就是从总体n个抽样单元中,一次抽取n个单元时,使全部可能的 种不同的样本被抽到的概率均相等,即都等于1/a。u定义之二:简单随机抽样是从总体的n个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。u按简单随机抽样,抽到的样本称为简单随机样本。 u简单随机抽样是一种最简单、最基本的抽样组织形式。它适用于均匀总体,即具有某种特征的总体单位均匀地分布于总体的各个部分。简单随机抽样具有下
2、列优点: )(nna u首先,在理论上最符合随机原则。对此可有二种理解:一种是总体中各个单位被抽中的机会相等。设总体有n个单位,各单位被抽中的概率均为 。另一种是总体中各个样本被抽中的概率相等。我们知道,一个总体n中可以抽取许多个容量为 的样本,通常情况下按组合形式有 个样本,那么,在一次抽样中,某个样本被抽中的概率为 ,这个概率对每个可能的样本都相等。简单随机抽样遵循这种等可能性原则,为进行抽样估计,计算抽样误差,提供了重要前提条件。 n1nnnc1nncu其次,它是设计其他更复杂抽样形式的基础。例如,设计分层抽样,将总体划分为若干层,然后对各个层实施简单随机抽样。对一个非常大的总体,需要分
3、若干个阶段进行抽样。例如,进行全国性抽样调查,第一阶段可以由全国抽取若干个省份,第二阶段再由抽中的省份抽取若干个县(市);第三阶段再由抽中的县(市)抽取若干个乡(街道);第四阶段再由抽中的乡(街道)抽取若干个村(居委会)等等。在这种多阶段抽样中,每个阶段中抽取样本单位均可采用简单随机抽样方法。 u再次,是衡量其他抽样效果的比较标准。抽样效果首先体现在抽样误差的大小上。而反映或者比较某一抽样形式的误差大小,需要有一个比较指标,这通常采用抽样设计效果指标 ,这个抽样设计效果是以某一抽样形式的方差与简单随机抽样的方差进行对比,设前者为 , 后者为 ,那么,抽样设计效果为:u这个设计效果 取反指标的形
4、式。若 值大于等于1,即 ,则抽样估计效果较差;反之, 小于l,即 ,则抽样估计效果较好。 deff)(1v)(0v)()(01vvdeff deffdeff)(1v)(0vdeff)(1v)(0vu例如,用分层抽样从某企业抽100个职工户,调查每户平均收入,得到抽样方差 =25,以相同的单位数用简单随机抽样形式,得到抽样方差 =49,则抽样设计效果为: =2549=0.51 u这表明在同样抽取100户条件下,用分层抽样优于简单随机抽样。并且,可以利用抽样设计效果 计算有效单位数 : 式中, 为某一抽样形式的样本单位数, 表示在相同的抽样方差下,采用简单随机抽样形式所需要的样本单位数。在上面的
5、例子中, =100户, =0.51,所以, =1000.51=1961v0vdeffdeffndeffnn nnndeffnu二、简单随机抽样的具体实施方法二、简单随机抽样的具体实施方法u(一)抽签法u抽签法是先对总体n个抽样单元分别编上1到n的号码,再制作与之相对应的n个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。u(二)随机数法u随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。u1、随机数表及其使用方法u随机数表是由0到9的10个阿拉伯数字进行随机排
6、列组成的表。u所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。u随机数表的用途很多,不仅可以组织等概样本,也可组织不等概样本。u简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:u每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。u设总体容量为n,若n的位数为r,则一定要从r位数中抽取。遇到1至n的数可直接使用;遇到其它的数不能直接使用。u当r2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。u在重复抽样时,遇到重复的数字应重复使用;在不
7、重复抽样时,遇到重复的数字应舍去不用。u随机数表法一般分下述几步:u第一步:确定起点页码;u第二步:确定起点的行数与列数;u第三步:确定所抽样本单元的号码。u快速抽取的常用方法有:u余数法。如果n是个r位数,由1到 随机取一个数r,而 是n的最大r位整倍数,则编号等于r除n所得余数的单元便被选中。u商数法; 修正余数法; 修正商数法; 独立选择数位法。nnu2、随机数骰子及其使用方法u随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有09的数字各2个。u两个有名的试验u试验一:随意数试验。u让六个人写下100个自己随意想到的三位数,将这些数内的0、1、9数字列成
8、次数分布表。u可见,六个人都对数字存在偏好,如第一个人更加偏好数字4、3、0;第二个人则偏好数字1、8、4;等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。数字人的编号期望次数 1 2 3 4 5 60123456789 50 1 38 29 34 59 29 48 30 57 33 27 20 19 28 31 20 22 50 39 34 34 24 24 55 40 28 29 15 27 20 18 31 15 30 25 30 26 26 27 31 15 12 39 32 35 42 35 25 42 30 23 44 37 9 28 23 20 27 2930303030
9、303030303030合计300 300 300 300 300 300300u试验二:着色试验。u让四个人将1010方格的纸板着色,可供选择的颜色有蓝、绿、红、白和黄色五种,对每一个四分象限来说,规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示,如(4,6)代表第四列第六行的方格。请四个人对这100个方格随意选择行列号,而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下:u四个人对方格着色的次数分布颜色人的编号期望数字 1 2 3 4蓝绿红白黄14 26 20 1228 21 15 2115 12 20 2225 23 20 1918 18 25 2620
10、20202020合计 100 100 100 100100u可见四个人都对颜色存在偏好,如第一个人偏爱绿色,第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型,可称之为颜色偏误。u结论:随意抽样随机抽样u三、简单随机抽样的方法评估三、简单随机抽样的方法评估u1.简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。u2.因为是等概率抽取样本,所以要求总
11、体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。因此,实际工作中很少单纯使用简单随机抽样方法。u3.直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。u4.简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。 u结论:在此基础上研究其它抽样技术显得更加重要。
12、 第二节第二节 总体参数的估计总体参数的估计u一、基本原理一、基本原理u设总体包含有 、 、 、 四个单元,其观测值分别为 、 、 、 ,则总体均值为 ( + + + )/4。现用简单随机抽样法抽一个单元并以其观测值来估计总体均值,则这四个单元每个都是可能的样本,而每个可能样本被抽中的概率均为四分之一。每个样本观测值本身就可以当作总体均值的一个估计值。显然,根据不同样本估计的结果与总体均值之间通常并不一致,而是存在一个的误差。下表列出了抽到不同样本时的结果: 1u4u2u3u1y2y3y4y1y2y3y4yyyy-yy1-yy2-yy3-yy4-y样本编号样 本样本观测值 的估计值1u1y1y
13、12u2y2y23u3y3y34u4y4y4)(1y)(2y)(4y)(3yu由上述分析可知u所以,是 的无偏估计量。的均方误差(mse)为u即总体方差。又因为 是 的无偏估计量,因此,估计量的方差等于均方误差,即 u若用不放回简单随机抽样法从上例的总体中抽取2个单元组成样本,则可以得到 等六个可能样本,每个样本被抽中的概率均为六分之一,当抽到不同的样本时,会有不同的估计结果,如表所示: yyyei41)(yyy22)(41)(yyymseiyy)1414(1)(22yv434232413121,uuuuuuuuuuuu可见,样本均值 是 的一个无偏估计量,因为yy314314)(121)2(
14、61)(iijiijjijiyyyyye而每个单元均可能在三个样本内出现,故413121)(iiyyye由四个单元中不放回抽取2个单元的可能结果 将上述结论加以推广,则可得出一般性的结论,即从总体的n个单元中不放回抽取n个单元时的估计量及其方差的构造形式。因此, 的样本方差为y314314222222)2(241)(4161)()(iijiijjijijiyyyyyyyyyyeyv又已知 (i=1,2,3,4)在三个样本内出现,而 3144122162iijiijiyyyy则)1424(23)41(3131121)(2241224122iiiiyyyyyvu二、估计量二、估计量u1、总体均值和
15、总和的简单估计量u在简单随机抽样条件下,总体均值的简单估计量为: u可以证明,样本均值是总体均值的无偏估计,即:u因此总体总和的简单估计量为:u其中n/n也称作膨胀因子。nyyyniiyye)(niiniiynnnynynyu2、总体比例的简单估计量n抽样调查中,经常需估计总体中具有某种特性的单元总数及其在总体中所占的比例(即成数)。n设总体中的n个抽样单元按其是否具有某种特性可分成d和 两类,d类具有某种特性, 类不具有某种特性。d类有 个单元, 类有 个单元,则: 又令0nd1nddnnp/1nnp/1属于d的单元数属于d的成数总体样本总体样本n1n1类个单元属,若第类个单元属若第didi
16、yi0, 1u则 =p, =p, y= , y= . u由此则将估计 和p的问题转化为估计y和 ,所以依上面的结论可知总体比例的简单估计量为: 且u总体中具有d类属性的单位总数的估计量为:1n1nyyy1nnnpp1ppe)(nppnn1 证明:样本平均数是总体平均数的无偏估计量证明:样本平均数是总体平均数的无偏估计量 u证明证明1 1:根据无偏性定义。(无偏性即抽样指标的数学期望等于总体参数。换句话说,虽然每一次抽样指标与总体参数有一定偏差,但对于总体中所有可能的样本指标,要求其平均数等于总体参数,这就是用样本指标估计总体参数的无偏性要求。无偏性的数学表达式为: u对于每次抽样,由于总体中的
17、任意一个单位 都有1 / n的概率被抽中,故对每次抽样的结果 (视为随机变量),都有:)(eiyiyyynyeinii11)(yynnyenyenii1)(1)(1u证明证明2 2:对固定的有限总体,估计量的期望或均值的含义既是对所有可能的样本求平均,因而, 这里求和是指全部可能的 个不同样本求和。每个特定的单位 ,出现在不同样本中的次数都为 ,因此,nnciyniinnnccycnyyynynnnn111211)(1yynncycyeniinnniinn11111)(nncnncyye)(11nncu证明证明3 3:按对称性原则。由于每个总体单位在样本中出现的次数均相等,因此, 必定是 的倍
18、数,这个倍数是 ,故:)(1niiyeniiy1nnf yynynnnyenyeniiniinii11111)(1)(u三、估计量的方差三、估计量的方差u在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。联合国统计局编的抽样调查理论基础一书指出:“从研究大多数国家的抽样实践中,可以看出:虽然计算估计量的标准差,至少对关键性的几个估计量计算其标准差来说,仅需增加很少的额外开支或负担,但是他们并不意识到确定估计量的标准差的重要意义。这是否因
19、为统计人员无意识地忽视了估计量的不精确性所产生的严峻的现实呢?计算标准差,并且把他们与估计量一起列出来,应该成为实际工作的一个常规。”u总体均值估计量的抽样方差为:u其中,f为抽样比,1-f为有限总体不重复抽样校正系数,记为fpc。u由此进一步可推出u又因为在研究总体成数时:21)(snfyv222)()1 ()(snnnnsnfnyv)1 (1)(11)(11)(11222122ppnnnpnpnyynyynsniiniiu所以可得出总体比例估计量的抽样方差为:u总体中具有某种属性单元总数估计量的抽样方差为:u四、方差估计量四、方差估计量u可以证明样本方差为总体方差的无偏估计量,即 ,所以,
20、当总体方差 未知时,可用样本方差 来代替,由此可得出估计量的方差的估计量分别为:u而且 与 分别是 与 的无偏估计。)1 (1)(ppnfpv)1 (1)()(21ppnnfpnvnv22)(sse2s2s21)(snfyv22)1 ()(snfnyv)(yv)(yv)(yv)(yvu 的无偏估计量为:u 的无偏估计量为:)(pv)1 (11)(ppnfpv)(1nv)1 (1)1 ()(21ppnfnnv 证明:对于简单随机抽样,证明:对于简单随机抽样, 的方差为的方差为u证明证明1 1:由于 根据对称性原则: 则niiyyyyn1)()(njijiniiniiyyyyyyyyyyn)(2)
21、()()(2121222121)()(yynnyyeniinii)(11)(yyyynnnnyyyyejnjiijnjiiniiyyenyyeyv1222)(1)()()(112)(12yyyynnyynnjnininniiyynnyynnnn22)(11)()111 (12)(11yynnnnnniy21)(snfyv21)(snfyvu证明证明2 2:样本均值的方差为:u设: ,在不抽样下,样本就是总体本身。此时,不论样本单位如何,总有:u由此可得:u即:1),(2nsyycovji2),(2) 1(20nsyycovnnji0)()()(211yvnyvyvniiniinn ),(2)(
22、)(211ncjijiniiniiyycovyvyv2)()(yyeyvu运用对称性原理:u由此有:u在重复抽样下,对于任何 和 , 和 都互相独立 ,从而:u因此:11) 1(1)(1)(22212nnnnssnnnnnyvnyvniii0),(jiyycov)(ji jyiyj221) 1(snnnns)1(2) 1(11222nsnnnnnnnsnn),(112)()(211jcjiiniiniiyycovnnnnyvnnyvn2221211)(1)(snnsnnnyvnyvnii 证明:证明:样本方差为总体方差的无偏估计量样本方差为总体方差的无偏估计量u证明证明:将样本方差改写为u由对
23、称性知:u而:u因此:2221)(snnnnsnfyye22)() 1() 1(snnnnnnsniiyyneyyense1222)()(11)() 1(1122snnnnnsnnnn22121) 1()()(snnnyynnyyeniinii)()(11)(11221212yynyynyynsniinii22)(sse第三节第三节 样本容量的确定样本容量的确定u一、必要样本容量的确定一、必要样本容量的确定u必要样本容量是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。u(一)依规定精度来定u1、关于精度的不同提法u提法之一:以置信度1-,允许总体参数的估计量 的最大绝对误差为,即:u提法之二:以置信度1-,允许总体参数的估计量 的最大相对误差为r,即:1)(p为相对误差)(.1)(rrpu提法之三:以置信度1-,允许总体参数的估计量 的最大方差不超过v,即: u提法之四:以置信度1-,允许总体参数的估计量 的最大变异系数不超过c,即:u2、样本容量n的确定u当n足够大时,可以认为服从正态分布n(,v( )(理由如前述样本统计量的抽样分布)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年及未来5年中国程控交换机市场前景预测及投资规划研究报告
- 2026年及未来5年中国工业控制软件行业市场发展数据监测及投资方向研究报告
- 环保工程达标承诺函(9篇)
- 2026年及未来5年中国自助硬币兑换机行业市场前景预测及投资战略研究报告
- 员工权益保护落实承诺书8篇范文
- 财务信息安全合规管理承诺函4篇
- 记事类演讲稿:我的成长故事10篇
- 关于亲情的话题作文9篇范文
- 数字化未来愿景承诺书(9篇)
- 海外科研合作责任书3篇
- 拍摄合作协议书范本
- 国家开放大学汉语言文学本科《古代小说戏曲专题》期末纸质考试第四大题论述题库2025春期版
- 环境卫生学EnvironmentalHygiene10课件
- 桥架安装承包合同
- 牛羊肉精深加工项目可行性研究报告
- 12D101-5 110KV及以下电缆敷设
- 直肠阴道瘘诊疗指南的更新
- DL-T5434-2021电力建设工程监理规范
- FZT 43046-2017 锦纶弹力丝织物
- 居住权协议书
- 病案管理考核标准表格2022版
评论
0/150
提交评论