《社会调查研究方法》课件第6讲抽样_第1页
《社会调查研究方法》课件第6讲抽样_第2页
《社会调查研究方法》课件第6讲抽样_第3页
《社会调查研究方法》课件第6讲抽样_第4页
《社会调查研究方法》课件第6讲抽样_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、不超过2000人就可以对9000万选民的行为进行预测!抽样作为一种从部分到整体、从个别到一般的认识方法,自古有之。但抽样作为科学的调查方法,只有很短的历史。始于1891年挪威的人口调查。1936年美国总统竞选,当时著名的调查机构美国文学文摘采用大样本调查(样本量达200万人),预测阿尔夫兰登将战胜富兰克林罗斯福当时无名的盖洛普通过20003000个样本的调查,得出完全相反的结论。最终罗斯福获得民众63支持率成为美国总统。此后,盖洛普公司在历届总统竞选的预测当中都获得巨大的成功,依据的都是3000以下样本的抽样调查。第1节 抽样的意义与作用 一、抽样的概念1、总体与元素总体(population

2、):构成它的所有元素的集合 元素(element):构成总体的最基本单位 2、样本(sample):从总体中按一定方式抽取出的一部分元素的集合。或者说,一个样本就是总体的一个子集。3、抽样(sampling):从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素的过程。 4、抽样单位(sampling unit):一次直接的抽样所使用的基本单位。注意:抽样单位与构成总体的元素有时是相同的,有时是不同的。5、抽样框(sampling frame):一次直接抽样时总体中所有抽样单位的名称,又称为“抽样范围”。 6、参数值(parameter):关于总体中某一变量的综合描述,或者是总体

3、中所有元素的某种特征的综合数量表现,也称为总体值。 总体值只有通过对总体中的每个元素都进行调查或测量才能得到。 7、统计值(statistic):也称为样本值,关于样本中某一变量的综合描述,或者是对样本中所有元素的某种特征的综合数量的表现。 样本值是从样本的所有元素计算来的,是相应总体值的估计量。 从每个样本中所得到的估计量,都只是总体许多可能的估计量的一个。 抽样设计的目标:尽可能使抽出的样本的估计量接近总体的参数值。 二、抽样的作用 由部分认识总体 抽样的方法受到时间、经费、人力等方面的制约,是这几者之间的平衡。 三、抽样的类型 1、概率抽样:依据概率理论,按照随机的原则选择样本,不带调查

4、者的主观色彩。2、非概率抽样:依据研究者的主观意愿、判断或是否方便等因素来抽取对象。 第2节 非概率抽样方法 一、偶遇抽样 1、含义:偶遇抽样(accidental sampling)又称作方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离的最近、最容易找到的人作为对象。2、特点:(1)没有保证总体中的每一个成员都具有同等的被抽中的概率。(2)不能依据偶遇抽样得到的样本来推论总体。二、判断抽样 1、概念:判断抽样(judgmental sampling)又称为立意抽样(purposive sampling),研究者根据研究的目标和自己的主观分

5、析,来选择和确定研究对象的方法。 2、特点:(1)抽样标准有较大的主观性;(2)样本的代表性难以判断;(3)多用于总体规模小、涉及的范围较窄,或时间、人力等条件有限而难以进行大规模抽样。 三、定额抽样 1、概念:定额抽样(quota sampling)又称作配额抽样,根据不同特征的成员在总体中所占的比例来选择抽样对象的方法。 2、假定:(1)只要类型划分较细,那么同一类型中的每一个个体都是同质的,因而无需采用随机抽样。(2)只要类型划分合理,且分配各类的名额符合总体中各类人员的分布,那么样本就能准确地反映总体。 3、做法:依据那些有可能影响研究变量的因素对总体分层,并找出具有不同特征的成员在总

6、体中所占的比例;依据这种划分以及各类成员的比例去选择对象,使样本中的成员在上述各种因素、各种特征方面的构成及在样本中的比例尽量接近总体。举例1:课本,p.145 举例2:梦想调查的配额说明4、适用范围:研究的主要目标不是去推断总体状况,而主要是为了检验理论、解释关系或比较不同性质的群体。抽样标准不是代表性,而是合适性。 5、先天缺陷:配额的框架必须十分精确,为了做到这点,必须掌握最新的资料,这是非常困难的。四、雪球抽样 1、含义:雪球抽样(snowball sampling)是根据既有研究对象的建议或其关系网络,找出其他研究对象的抽样方法。 2、具体做法:从总体中少数成员入手,对他们进行调查,

7、向他们询问还知道哪些符合条件的人;再去找那些人并再询问他们知道的人,由此不断找到越来越多具有相同性质的群体成员。这种方法在定性研究方法中经常运用。3、特点:抽样代表偏误很大。 第3节 概率抽样的原理与程序 一、概率抽样的基本原理 简单选取样本的问题:随意抽样的误差难以避免:个人的偏见;不能把握总体特征。代表性:当选出样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。抽样的最终目的是通过对样本的统计值的描述来准确勾画总体的面貌。样本一般都难以绝对完美地代表总体。概率抽样具有两项独特的优点:(1)较其他方法更具代表性,能避免各种偏见;(2)更重要的,概率理论使我们能够估计样本的精确度

8、和代表性。随机抽样(random selection),是概率抽样过程的核心。在随机抽样中,任何元素(对象)都具有同等的、独立于任何其他事件的被抽中的概率。例如:投掷硬币、掷骰子等。二、抽样分布 1、抽样分布:从总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。 2个样本,有45个可能的抽样:选择更大的样本:大数定理:当试验次数n足够大时,n个随机变量的平均值与单个随机变量的数学期望u的差可以任意的小。当样本容量增大,样本平均数的分布会发生变化,即平均数的范围将逐步缩小,相同的平均数增多,而且,平均数的分布向总体平均数集中的趋势也越发明显。中心极限定理:当n足够大,样本平均值趋于正态分

9、布。 当n足够大(通常假定大于30),无论总体的分布如何,其样本平均数所构成的分布都趋于正态分布。 正态分布曲线:68.26%的样本平均数落在+SE之间;90%的样本平均数落在+1.65SE之间(p0.10) ;95%的样本统计值落在+1.96SE内(p0.05);99% 的样本统计值落在+2.58SE内(p0.01) ;99.9%的样本统计值落在+3SE内(pn)。 2、方法:(1)号码抽签法(2)随机数表抽样第一,取得一份总体所有元素的名单(抽样框);第二,将总体中的所有元素一一按顺序编号;第三,根据总体规模是几位数来确定从随机数表中选几位数码;第四,以总体的规模为标准,对随机数表中的数码

10、逐一进行衡量并决定取舍;第五,根据样本规模的要求选出足够的数码个数;第六,依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。练习:假定某公司有员工10000人,如果需要随机抽取10人作为样本,请利用随机数表,按照从左到右的顺序,选出抽取的样本编号。如果按照从上到下的顺序,抽取的样本编号又是怎样的呢? 二、系统抽样 1、概念:系统抽样(systematic sampling)又称等距抽样或机械抽样。它把总体的单位进行标号排序后,再计算出某种间隔,然后按照这一固定的间隔抽取样本的号码来组成样本的方法。 抽样间距(sampling interval):两个被选择要素间的标准距离。抽样比率(

11、sampling ratio):被选择要素与所有总体要素数量的比率。抽样比率=样本大小/总体大小 2、具体步骤:(1)给总体中的每个个体按顺序编号,即制定出抽样框;(2)计算出抽样间距。K(抽样间距)=N(总体规模)/n(样本规模)(3)在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体编号为A),它称为随机起点。(4)在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A+K,A+2K,A+(n-1)K(5)将这n个个体结合起来,就构成了该总体的一个样本。3、优点:系统抽样较之于简单随机抽样,简便易行,尤其是当总体及样本

12、的规模较大时更是如此。4、重要的前提:总体中个体排列的随机性。个体排列具有某种次序上的先后、等级的高低、周期性的分布,则抽出的样本会出现偏差。三、分层抽样1、概念:分层抽样(stratified sampling)又称类型抽样,是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后将这些子样本合起来构成总体的样本。适用范围:适合于总体内个人数目较多,结构较复杂,内部差异较大的情况。 2、分层抽样的优点:(1)在不增加样本规模的前提下,降低抽样误差,提高抽样精度。(2)便于了解总体内不

13、同层次的情况,以及对总体中的不同层次进行单独研究或比较。3、分层抽样的两种方法:(1)将所有的总体元素按照所作用的分层变量加以分类,成为不同的小团体。然后再从各个小团体中随机抽出适当数量的样本。(2)先将总体进行分类,然后将不同类型的元素入到一个连续性的列表中。再对整个列表进行一个随机起始的系统抽样。4、分层抽样的注意事项(1)分层的标准:第一,以所分析和研究的主要变量或相关变量为标准;第二,以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为标准;第三,以那些已有明显层次区分的变量为标准。(2)分层的比例:第一,按比例分层。按各种类型或层次中的单位数目同总体数目间的比例来抽取

14、样本。好处:确保得到一个与总体结构完全一样的样本。第二,不按比例分层。适用对象:总体中有的类型或层次的单位太少;用于对不同层次的子总体进行专门研究或比较,而不用样本资料来推断总体的时候。注意:如果用样本资料来推断总体,需要对各层的数据资料进行加权处理。5、分层抽样与配额抽样的差别(1)目的不同:配额抽样分层的目的在于抽出一个总体的“模拟物”,注重的是样本与总体在结构比例上的表面一致性;分层抽样进行分层,一方面是要提高各层次间的异质性与同层中的同质性,另一方面是为了照顾到某些比例小的层次,使得所抽样本的代表性进一步提高。(2)抽样方法不同:配额抽样方法是通过主观的分析来确定和选择组成这种总体“模

15、拟物”的成员,“按事先规定的条件,采取偶遇方式,有目的的寻找”;分层抽样的方法完全依据概率原则,排除主观因素,客观地、等概率地到各层中进行抽样。练习:据统计,某高校现有全日制大学生12000名,男女生比例为3:1;城乡比例为2:1;文理科比例为1:4。请按照性别、生源地、专业三个因素抽样选取1200名某高校大学生。 四、整群抽样1、概念:整群抽样(cluster sampling)是从总体中随机抽取一些小的群体,然后由所抽出来的若干个小群体内的所有元素构成的样本。 2、特点:(1)简化抽样的过程,降低收集资料的费用。(2)样本分布面不广,样本对总体的代表性相对较差。即尽管整群抽样的效率很高,但

16、是效率的代价是样本精确度的降低。3、整群抽样与分层抽样的区别适用对象不同当某个总体是由若干个有着自然界线和区分的子群(或类别、层次)所组成,不同子群相互间差别很大,而每个子群内部差别不大时,适合于分层抽样的方法。当不同子群相互之间差别不大,而每个子群内部的异质性程度比较大时,适合于采用整群抽样的方法。举例:总体是全国所有城市集合,抽取规模为40个城市的样本(随机抽样、系统抽样、分层抽样、整群抽样)。五、多段抽样1、概念:多段抽样(multistage sampling)又称多级抽样或分段抽样,按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。2、适用范围:总体规模特别大、或者总体分布

17、范围特别广。3、具体做法:先从总体中随机抽取若干大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直到抽到最基本的抽样元素为止。4、注意事项:要在类别和个体之间保持平衡,或保持适当的比例。 举例:书p137某市共有3万名教师,分布在全市10个区的300所学校中。要抽取1200名教师的样本,按照第一阶段抽取所在区、第二阶段抽取学校、第三阶段抽取教师的方法,分段抽样如下:第一阶段第二阶段第三阶段方案1方案2方案3方案4方案5方案6方案7方案8方案9抽10个区抽2个区抽10个区抽8个区抽5个区抽4个区抽3个区抽2个区抽1个区抽4所学校抽20所学校抽20所学校抽15所学校抽1

18、2所学校抽10所学校抽10所学校抽10所学校抽12所学校每所学校抽30名教师每所学校抽30名教师每所学校抽6名教师每所学校抽10名教师每所学校抽20名教师每所学校抽30名教师每所学校抽40名教师每所学校抽60名教师每所学校抽100名教师选择抽样方案时需要考虑的因素: (1)各个抽样阶段中的子总体的同质性程度原则:样本相似程度越高的子总体,抽样规模应小一些;反之,则大一些。 (2)考虑研究者所拥有的人力和经费。5、缺点及克服的方法缺点:每级抽样时都会产生误差,因此,这种抽样方法的误差较大。减小误差的方法:相对增加开头阶段的样本数而适当减少最后阶段的样本数。 六、补充:地图法将地图用格子分割,建议

19、采用5X5格子分割。在分割时候,原则上每个格子一样大小,尽量使得格子的边界与自然的道路重合。 第5节 户内抽样与PPS抽样 一、户内抽样的方法1、概念:户内抽样(within-household sampling):从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的样本。 2、方法:Kish选择法根据这种方法,每户家庭中所有的成年人(18岁以上)都具有同等的被选中的机会。 3、具体做法:(1)调查表一套八种(A,B1,B2,C,D,E1,E2,F),每人一套。A式(占1/6),B1式(占1/12),B2式(占1/12),C式(占1/6),D式(占1/6),E1式(占1/12),E2式(占1/

20、12), F式(占1/6)。(2)对每户家庭中的成年人进行排序和编号。排序的方法是:男性在前,女性在后;年纪大的在前,年纪小的在后。(3)调查员按照调查表上的编号找出编号相同的那种“选择表”,根据家庭人口数目从“选择表”中查出该选个体的序号,最后对这一序号所对应的那个家庭成员进行访谈。练习:假定有一户家庭,家里有奶奶、爸爸、妈妈、大儿子及其儿媳、小闺女(20岁)、孙子(10岁)。如果进行户内抽样,请确定八种调查表中,应该分别选择哪一位作为被访谈对象。 4、实际调查中的应用为了操作起来更为简便,研究者在实际调查的过程中通常使用的户内随机抽人方法是生日法。 具体步骤:(1)随机确定一年中的某一天为

21、标准日期,为便于计算,通常抽取每个月的第一天,如6月1日,7月1日等。(2)了解所抽中的户中18岁以上的人口数,以及每个人的生日。(3)计算出每人的生日距离标准日期的天数。(4)从中选择生日距离标准日期最近的人作为调查对象。二、PPS抽样多段抽样的前提假设:每一个阶段抽样时,其元素的规模是相同的。 1、概念:PPS抽样(Sampling with Probability Proportional to Size),全称“概率与元素的规模大小成比例的抽样”。 目的:以阶段性的不等概率换取最终的、总体的等概率。 2、基本原理:(1)每个群按照其规模(所含元素的数量)被给予大小不等的抽取概率,大的群

22、具有比小的群更大的概率。(2)从每个抽中的群中抽取同样多的元素。实质:两个阶段都是不等概率的,最终平衡了由于群的规模带来的概率差异。每一个元素被抽中的概率=所抽取的群数(群的规模/总体的规模)(平均每个群中所要抽取的元素/群的规模)3、具体做法:(1)将各个元素排列,算出它们在总体中所占比例;(2)将元素的比例累加起来(累积百分比);(3)根据比例的累计数,确定每一元素所对应的选择号码范围(范围大小等于元素规模所占的比例);(4)用随机数表或系统抽样的方法,选择号码,号码对应的元素进入第一阶段样本;(5)对选中号码的元素进行第二阶段抽样。练习:某企业有10000名职工,共分为5个生产车间,各个

23、车间职工数如下:一车间500名;二车间500名,三车间1500名;四车间2500名,五车间5000名。如果要抽取1000名职工进行调查,请根据PPS抽样方法,抽取样本。第6节 样本规模与抽样误差一、样本规模1、概念:样本规模(sample size)又称为样本容量,指样本中所含个案的多少。 统计学以30个个案为界,30个个案及以上,是大样本,30以下小样本。 无论总体如何分布,其平均数的抽样分布接近正态分布,很多统计学的公式可以应用,也可以用样本资料来推论总体。 社会研究认为样本规模不能少于100 2、样本规模的确定n=t2*2/e2t是置信度所对应的临界值,为总体的标准差,e为抽样误差对于实际采用的多阶段复杂抽样,还要考虑设计效应deff(经验数据为1.8或2,或2.5)。 二、影响样本规模确定的因素1、总体的规模 一定精确度要求下,总体越大,要求样本规模越大。一定精确度要求下,总体越大,要求样本规模越大;但是,当总体足够大时,样本规模的变化很小。 2、推断的把握性与精确性 在社会研究中,用置信度和置信区间来说明样本规模与抽样的可靠性及精确性之间的关系。 置信度(或置信水平)总体参数值落在样本统计值某一区间中的把握性程度。反映抽样的可靠性程度。 在其他条件一定的情况下,置信度越高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论