社会调查与统计分析 课件 第四章 抽样_第1页
社会调查与统计分析 课件 第四章 抽样_第2页
社会调查与统计分析 课件 第四章 抽样_第3页
社会调查与统计分析 课件 第四章 抽样_第4页
社会调查与统计分析 课件 第四章 抽样_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会调查与统计分析公共管理学院卢小君第四章抽样抽样的意义与作用概率抽样的原理与程序概率抽样方法非概率抽样方法样本规模与抽样误差4.1抽样的意义与作用抽样的基本概念总体(Population):构成它的所有元素(Element)的集合。样本(Sample):从总体中按一定方式抽取出的一部分元素的集合。抽样(Sampling):从总体中按一定方式抽取样本的过程。抽样单位(SamplingUnit):一次直接抽样所使用的基本单位。抽样框(SamplingFrame):一次直接抽样中总体中所有抽样单位的名单。抽样框的经典例子《文学摘要》杂志在1920年、1924年、1928年和1932年,以邮寄明信片的方式对美国总统大选,进行了民意测验,并准确预测出这4次选举的结果。当1936年总统大选来临时,杂志回收了200多万份明信片。测验结果显示57%的人支持共和党的候选人兰登,民主党候选人、在任总统罗斯福的支持率为43%。然而,两星期后的选举结果,罗斯福以62%的得票率当选。杂志因此声誉扫地,不久就关门大吉了。选民的地址与姓名大都取自于电话簿与汽车俱乐部会员名单抽样的基本概念参数值(Parameter):也称为总体值,是关于总体中某一变量的综合描述。统计值(Statistic):也称为样本值,是关于样本中某一变量的综合描述。置信度(ConfidenceLevel):又称为置信水平,指的是总体参数值落在样本统计值某一区间内的概率或把握性程度。置信区间(ConfidenceInterval):在一定的置信度下,样本统计值与总体参数值之间的误差范围。置信区间越大,误差范围越大,抽样的精确性程度就越低。抽样的基本概念

调查1000名大学生家庭平均月收入水平为5000元如何估计总体参数值?90%的置信度置信区间[4800,5200]95%的置信度置信区间[4500,5500]99%的置信度置信区间[4300,5700]样本统计值抽样的基本概念

置信度越高,置信区间越大;置信度越低,置信区间越小抽样的可靠性(置信度)越高,抽样的精确性程度(置信区间)就越低;反之,抽样的可靠性越低,抽样的精确程度就越高。抽样的类型40个人的总体16人13人4人7人抽样的类型抽样方法概率抽样简单随机抽样系统抽样分层抽样整群抽样多段抽样非概率抽样偶遇抽样判断抽样定额抽样雪球抽样代表性:当选出的样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。4.2概率抽样的原理与程序定义:概率抽样要求保证总体中的每一个个体都有同等的机会入选样本;且任一个个体入选与否,与其他个体毫不相关,互不影响,即每一个个体的抽取都是相互独立的。或者说,每一个个体的抽取都是相互独立的,是一种随机事件。基本原理:当样本规模越大时,样本平均值(统计值)接近总体平均值的(参数值)的可能性越大。抽样分布抽样分布:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。假如10个人受教育的年限分别为6、7、8、9、10、11、12、13、14、15年,那么这一总体中的成员平均受教育年限为10.5年。抽样分布抽样分布抽样分布抽样分布抽样分布当样本容量增大时,样本平均值接近总体平均值的次数会越来越多抽样分布当n足够大时(通常假定大于30),无论总体的分布如何,其样本平均数所构成的分布都趋于正态分布。μμ+SEμ-SEμ+2SEμ+3SEμ-2SEμ-3SE34.13%34.13%13.6%13.6%2.16%2.16%小概率事件区小概率事件区抽样的一般程序(1)界定总体:界定总体的范围和界限1988年全国1‰生育率调查对总体的定义是:1988年7月1日零时全国(除西藏、中国台湾外)28个省、市、自治区所有15~67岁的妇女。(2)制定抽样框:收集全部抽样单位的名单当抽样是分几个阶段、在不同层次上进行时,要分别建立几个抽样框。(3)决定抽样方案:确定抽样方法、样本规模影响样本规模的三个因素:总体的规模总体内部的差异程度对调查结果的精确度的要求抽样的一般程序(4)实际抽取样本(5)评估样本质量:对样本的质量、代表性、偏差等进行初步的检查和衡量。基本方法:将可得到的反映总体中某些重要特征及分布的资料与样本中的同类指标的资料进行对比。总体(4000名大学生):男78%,女22%;大一28%,大二25%,大三25%,大四22%样本1(200名大学生):男76%,女24%;大一29%,大二24%,大三27%,大四20%样本2(200名大学生):男54%,女46%;大一38%,大二12%,大三17%,大四33%4.3概率抽样方法简单随机抽样系统抽样分层抽样整群抽样多段抽样PPS抽样户内抽样(1)简单随机抽样(SimpleRandomSampling)又称为纯随机抽样,是概率抽样的最基本形式。它是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N>n)。抽签法随机数表法随机数表法第一步:先取得一份调查总体所有元素的名单(即抽样框)第二步:将总体中所有元素都按顺序编号,根据编号的最大数确定使用随机数表中几位数码;第三步:对随机数表中的数码逐一进行衡量并决定取舍,根据样本规模的要求选择出足够多的数码个数;第四步:依据从随机数表中选出的数码,到抽样框中找出它所对应的元素。随机数表法8135146844

6362895006

3210235370

31523382311629105549

6126863470

8320171912

96642948624811714890

2694464096

4574425373

36595486327487287852

9574892523

8016523862

34254591416773135283

1312945866

7919104047

70629061403455597166

3784979155

1247776366

64811658152552654745

9478609124

8412722821

52722030171254777565

6144968943

3019777311

72922591719598596878

1528196387

3641827221

37129381430425475978

3882338758

9447759760

37297337174457466575

4669738749

6321332898

69989729186822347065

9711581230

6754715370

36553490826547308059

1286381349

2042302277

85369893353574142598

2692847855

8017015594

36605371772103371519

1298583727

5748323262

27107729866116708625

6474632492

1234476453

73338506275412164092

4599372732

8522125833

50247459371685543885

1999133972

2998301447

36107417365461401140

6916568879

7628215983

24454663769436966977

7210363756

4137235877

78826998366799954269

5169509662

7087806097

17520653389013921911

8973679618

6287691252

47393574926766832446

1061757589

2605189859

19521150451889947275

8834696982

2982144368

57418548231142539819

4845592651

9342582336

54808777257970315491

1872412232

8385497065

25391729476184147135

8137264037

7966264261

14508594359868516088

9671271338

6610961839

11534672964645428573

7446875341

1699113737

65141221617119442266

6040585661

1422708002

68973640953793101417

4310485698

5620397196

49537453497465588976

9312164533

4204794468

86901455655855625374

9065403581

6380413195

39844213613590235585

6566164545

0993593568

43771251566067396082

6827801041

7831859820

1298462110随机数表应用实例(2)系统抽样(SystematicSampling)又称为等距抽样或间隔抽样。步骤:将总体中的每一个元素按顺序编上号码,即制定出抽样框;计算出抽样间距,方法是用总体的规模除以样本的规模;

K(抽样间距)=N(总体规模)/n(样本规模)在最前面的K个元素中,采用简单随机抽样的方法抽取一个元素,记下这个元素的编号(A),它称做随机的起点。在抽样框中,自A开始,每隔K个元素抽取一个元素,即所抽取元素的编号分别为A,A+K,A+2K,…,A+(n-1)K;将这n个元素合起来,就构成了该总体的一个样本。(2)系统抽样(SystematicSampling)例:在一个有5010名员工的单位中,抽取200人进行工作满意度调查,如采取系统抽样法,应如何操作?如果N/n不是整数,则可以采用循环等距抽样方法。即先将N个总体元素首尾相接排成一个封闭圆,抽样间距K取最接近N/n的整数,再从1~N中随机抽取一个起点作为起始单位,然后每隔K抽取一个元素,直到抽满n个元素为止。K=25.05=2550、75、100、125……5000、5025?→5025-5010=15(2)系统抽样(SystematicSampling)前提条件:总体中个体的排列应是随机的,即不存在某种与研究变量相关的规则分布。注意两种情况:总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况。总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。(3)分层抽样(StratifiedSampling)又称为类型抽样。它是先将总体中所有元素按一定标准(如年龄、性别、职业等)分成若干类型或层次,然后在各个类型或层次中采取简单随机抽样或系统抽样的方法抽取一个子样本,最后将这些子样本合起来构成总体的样本。优点:在不增加样本的规模的前提下降低抽样误差,提高抽样的精度;非常便于了解总体内不同类型和层次的情况。(3)分层抽样(StratifiedSampling)(3)分层抽样(StratifiedSampling)(3)分层抽样(StratifiedSampling)分层抽样的运用分层的标准问题,一般依据:已有明显层次区分的变量;把分析和研究的主要变量或相关的变量作为分层的标准;保证各层内部同质性强和各层之间的异质性强。思考:在“青年人价值观念研究”中,可以采用哪类变量进行分层?性别、文化程度、户籍分层抽样的运用分层的比例问题:按比例和不按比例分层按比例:多则多抽,少则少抽;样本中比例与总体中比例相同;不按比例:有时由于个案太少而不便于了解各个层次的情况。例如,某工厂有工人500人,男性有450人,女性有50人,男女比例为9:1,样本为100人。按比例分层抽样,男性90人,女性10人。不按比例的方法进行分层抽样,男性70人,女性30人。(4)整群抽样(ClusterSampling)又称为集体抽样或群体抽样,是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查的样本的方法。整群抽样区别于其它抽样方法的最大特点在于它的抽样单位不是单个元素,而是成群的元素。整群抽样的优缺点优点在于可以简化抽样的过程,降低调查的费用。缺点就是其样本的分布面不大、样本对总体的代表性相对较差。整群抽样与分层抽样区别运用不同子群相互之间差别不大、而每个子群内部的异质性较大时,则适合于采用整群抽样的方法;反之,当不同子群相互之间差别很大、而每个子群内部的差异不大时,则特别适合于采用分层抽样的方法。销售部行政部技术部制造部(5)多段抽样(MultistageSampling)又称为多级抽样或分段抽样,它是按总体中元素的层次关系,把抽样过程分成两个或两个以上的阶段进行。具体做法:先从总体中随机抽取若干个大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直至抽到最基本的抽样元素为止。例1:一个城市有100000户居民,分属200个居委会,要从总体中抽取1000户居民构成样本。200个居委会→20个居委会→50户居民例2:一个城市有100000户居民,分属40个街道的200个居委会,要从总体中抽取1000户居民构成样本。40个街道→10个街道→2个居委会→50户居民多段抽样的优缺点优点:它不需要总体的全部名单,各阶段的抽样单位数一般较少,因而抽样比较容易进行。缺点:每阶段抽样时都会有一定误差,故最后结果误差较大。抽样方案选择的考虑因素例:从全市100家企业(总共20万名职工)中,抽取1000名职工进行调查。1000名职工构成的调查样本:方案1:抽20个企业,每个企业50个人方案2:抽5个企业,每个企业200个人应该在类别和个体之间保持平衡:各个抽样阶段中的子总体同质性程度;各层子总体的人数;要考虑研究者所拥有的人力和经费。练习:设计抽样方案

某省有200所高中,共200000名学生。这些中学分布在全省10个城市中。其中公立高中150所,私立高中50所。现要从全省高中生中抽取1800名学生进行学习情况的调查。请设计一种多段抽样方案以保证样本的代表性。(6)PPS抽样——概率与元素的规模大小成比例的抽样(SamplingwithProbabilityProportionaltoSize)多段抽样暗含的假定:每一个阶段抽样时,其元素的规模是相同的。例1:一个城市有100000户居民,分属200个居委会,要从中抽取1000户居民构成样本。500户居民500户居民800户居民200户居民不符合等概率原则(6)PPS抽样——概率与元素的规模大小成比例的抽样(SamplingwithProbabilityProportionaltoSize)原理:以阶段性的不等概率换取最终的、总体的等概率。实质:在第一个阶段中,大的群被抽中的概率大,而小的群被抽中的概率小;这样到了第二个阶段,被抽中的大的群中的元素被抽中的概率就小于被抽中的小的群中的元素了。正是这一大一小,平衡了由于群的规模不同带来的概率差异。PPS抽样的原理=所抽取的群数╳平均每个群中所要抽取的元素/总体的规模=样本规模/总体规模PPS抽样的原理=所选择的街道数╳所选择的居委会数╳每个居委会中所要抽取的户数/总体的规模=样本规模/总体规模╳所选择的居委会数一个城市有100000户居民,分属40个街道的200个居委会,要从中总体中抽取1000户居民构成样本。PPS的具体操作

例2:从全市100家企业(总共20万名职工)中,抽取1000名职工进行调查。(7)户内抽样(SamplingwithinHousehold)在有关家庭的调查研究中,不仅需要抽出家庭户的样本,同时还要进行户内抽样——从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的样本。Kish选择法工具:调查表(8种编号的调查问卷)选择卡(1套8种)Kish选择法研究者首选将调查表分为(编号为)A、B1、B2、C、D、E1、E2、F,每种表的数目分别占调查表总数的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6。调查员首先要对每户家庭中成年人进行排序和编号,排序的方法是男性在前,女性在后;年纪大的在前,年纪小的在后。然后根据调查表上的编号,选用“选择表”,确定最后人选。A式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上111111B1式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上111122B2式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上111222C式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上112233D式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上122344E1式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上123335E2式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上122355F式选择表如果家庭户中18岁以上人口为被抽选人的序号为123456人以上123456序号称呼性别年龄1爸爸男482儿子男203奶奶女694妈妈女46家庭内成年人的排序序号称呼性别年龄1爷爷男722爸爸男483奶奶女694妈妈女465女儿女21家庭内成年人的排序Kish选择法Kish方法的好处是,它不仅可以使研究者收集到样本家庭的资料,同时也可以收集到这些被访者所构成的个人样本的资料,可以用来描述这一地区所有成年人所构成的总体。4.4非概率抽样方法不是按照概率原则,而是根据人们的主观经验或其他条件来抽取样本。样本的代表性成问题,误差无法估计。非概率抽样方法偶遇抽样判断抽样定额抽样雪球抽样(1)偶遇抽样(AccidentalorConvenienceSampling)又称为方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象;或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。偶遇抽样与随机抽样的区别:偶遇抽样没有保证使总体中的每一个成员都具有同等的被抽中的概率。(2)判断抽样(JudgmentalorPurposiveSampling)又称立意抽样。它是调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法。总体规模小、调查所涉及的范围窄或调查时间、人力等条件有限而难以进行大规模抽样的情况。(3)定额抽样(QuotaSampling)又称为配额抽样。研究者尽可能找出各种因素来对总体分层,并找出具有各种不同特征的成员所占的比例,然后去选择调查对象。假设某高校有2000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;博士研究生占20%,硕士研究生占30%,本科生占50%。现要用定额抽样方法依上述三个变量抽取一个规模为100人的样本。男生(60人)女生(40人)文科(30人)理科(30人)文科(20人)理科(20人)博士硕士本科博士硕士本科博士硕士本科博士硕士本科6915691546104610(3)定额抽样(QuotaSampling)又称为配额抽样。研究者尽可能找出各种因素来对总体分层,并找出具有各种不同特征的成员所占的比例,然后去选择调查对象。定额抽样与分层抽样的区别:抽样方法不同。定额:判断抽样分层:随机或系统抽样(4)雪球抽样(SnowballSampling)当我们无法了解总体情况时,可以从少数成员入手,对他们进行调查,再去找他们知道的人。具体步骤:第一,从总体中少数人员入手,认定和访问几个具有研究特征的人;第二,通过这些人,去了解更多的人,依靠他们找到提供情况、信息的其他人;第三,通过更多的调查对象去了解另外的人。

(4)雪球抽样(SnowballSampling)例如,美国社会学家E.古德于1967年春夏两季,先访问了二十几个大麻吸食者;访问每个人之后,请他或她提供几个其他吸毒者,从而扩大到204个吸毒者,通过对这些人的访问,研究了吸毒的社会环境等问题。雪球抽样的缺点:能找到的样本量有限所选择的样本有时会有很大的随意性和特殊性,因而

代表性不高

抽样调查实例:全国城市职工家计调查抽样方法1980年国家统计局通过多阶段、多种方式抽样的结合,在全国范围内随机抽取44个城市的8万多户职工家庭,进行家庭生活调查。其抽样方法是将总体各单位按其属性特征分为若干类型。然后在各类型中用等距抽样方法抽选样本单位。具体步骤是:第一阶段,在全国范围内抽选调查城市。(1)分层。把全国城市分为大、中、小三种类型;然后将三种类型的各个城市分别按六个大区(东北、华北、西北、中南、西南、华东)归类;这样一共得到18个层。(2)等距抽样。将全国城市按18个分层排列起来。把城市的职工人数累积起来,进行等距抽样。每隔100万职工定一点,每个点所在城市就是选中的调查城市。第1层城市名全部职工人数(万人)职工人数累计(万人)选中记号东北区中型城市A4343B2366(50)C37103D58161(150)E42203F27230G46276(250)H36312I54366(350)第二阶段,在被抽中的城市里抽取职工家庭。第一步,抽选调查单位。首先根据城市规模的大小确定应抽选的职工人数,然后把应抽选的职工人数按所有制和国民经济部门的职工人数比例分配。例如,某市有职工70万人,其中全民所有制单位职工56万人,按5%计算,应调查2800人;集体所有制单位职工14万人,应调查700人。中选城市调查单位抽样表职工人数分配好以后,接着在各部门内抽选调查单位。例如,全民所有制工业部门,应调查的职工人数是1160人,假定每个调查单位的调查人数为50人,则:应抽选的调查单位数=工业部门应调查人数/每个调查单位调查人数=1160/50≈23抽样间距=工业部门职工总人数/应抽选的调查单位数=23.2/23≈1(万人/个)将工业部门内各企业按等距离抽选调查单位。每隔1万人抽一个调查单位,直到抽满23个调查单位为止。第二步,抽选职工户。在抽中的单位中按人员分类排队,如在工厂里按管理人员、工程技术人员、工人分层排列。每层中再按抽样单位分到的数额决定抽样间隔进行等距抽样,抽到的那位职工,他的家庭作为调查户。企业名全部职工人数(万人)职工人数累计(万人)选中记号全民所有制工业部门A0.430.430.40B0.230.66C0.371.03D0.581.611.40E1.423.032.40F0.273.30G0.463.763.40H2.366.124.40,5.404.5样本规模样本规模(SampleSize)又称为样本容量,它指的是样本中所含个案的多少。确定样本规模也是每一项具体的社会调查所必须解决的问题之一。统计学中以30为界;社会调查中以100为界计算公式简单随机抽样中推论总体平均数的样本规模计算公式为:

n=(t2×σ2)/e2简单随机抽样中推论总体成数(百分比)的样本规模计算公式为:

n=[t2×p(1-p)]/e2t为置信度所对应临界值;σ为总体的标准差;e为抽样误差;P为总体的成数或百分比。计算公式在计算推论总体平均值的样本规模时,根据经验:在计算推论总体成数的样本规模时,采取比较保险的办法,取p=0.5,使n达到最大值。

n=[t2×p(1-p)]/e2=t2/4e2总体规模100以下100-500500-10001000-50005000-1万1万-10万10万以上样本比例50%以上30%-50%20%-50%10%-30%3%-15%1%-5%1%以下总体规模(人)1020501005001000200050001000050000100000样本10194480133217278322357

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论