




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抽 样主讲老师 赵凌云教学重点:相关术语的含义;概率抽样的基本方法;样本规模与抽样误差教学难点:分层随机抽样与整群随机抽样的异同;样本规模与抽样误差的确定教学内容:第一节 几个重要术语的概念1、抽样调查所谓抽样调查,是按照一定的程序,从所研究对象的同质总体中抽取一部分进行调查,并在一定的条件下,运用数理统计的原理和方法,对总体的数量特征进行估计和推断。2、总体和样本总体(Population)或同质总体,是指提供所需信息的人的全体。对应的总体指标是根据总体各单位标志值计算,常用的总体指标有总体平均数、总体比例、总体方差2。样本是总体的一部分,它由从总体中按一定程序选取的部分个体或抽样单元组成。样本是总体的子集,相对较小,但精心选择的样本能够准确的反映出所抽查的总体的特征。对应的样本指标是根据样本各单位标志值计算,常用的样本指标有样本平均数、样本比例、样本方差S2。3、随机抽样和非随机抽样抽样可分为随机抽样(也称概率抽样Probability sampling)和非随机抽样(也称非概率抽样Non-probability sampling)两种方式。随机抽样指在总体中的每个单位都具有同等可能性被抽选的方法。随机抽样在市场调查中应用的非常广泛,在完成抽样的过程中,调查员必须严格遵守正确的抽样程序,避免武断或有偏见的选择抽样的单位。使用抽样的样本预测总体时的差异,称为抽样误差。随机抽样,总体中的每一个体或单位被抽中的概率要相等。它的优点在于:(1)可以根据抽样数据,利用统计分析方法,对总体的数量特征做出估计。(2)抽样误差可以事先确定并加以控制。其难点在于,要有总体完整的名单才能进行随机抽样,而市场调查中有些总体是无法精确界定的;而有些总体的资料是不公开的或很难收集的,此时进行随机抽样必然会无形中增加很大的成本。非随机抽样是指从总体中非随机的选择特定的要素(单位),根据简便易行、节省开支或根据研究者主观的判断从总体中选取样本的抽样方法。非随机抽样更多的依赖研究者个人的经验和判断,它的缺点是无法估计和控制抽样误差,也不能用样本的定量数据推断总体,但是非随机抽样实行起来简单方便,所以经常在定性调查研究中使用。4、抽样框和抽样单元抽样框被定义为总体的数据目录或单位的名单,从中可以抽出样本单位。抽样框一般可采用现成的名单,如住户登记表、电话号码簿等。因该注意的是,在利用现有名单作为抽样框时,要先对该名录进行核查,避免有重复、遗漏的情况发生,以提高样本框对总体的代表性。为了便于抽样,通常将总体划分为有限个互补重叠又穷尽的部分,每一个部分称为抽样单元。抽样单元可大可小,如在全国性居民生活状况的抽样调查中,可以设置省为一级抽样单元,省下面的不同城市设置为二级单元,城市中街区可以设置为三级单元,家庭户设为四级单元,抽样方案按照不同级别的抽样单元分别进行。第二节 抽样的方法根据是否遵循随机原则进行抽样,抽样方法可以分为两大类:随机抽样(概率抽样)和非随机抽样(非概率抽样)。一、随机抽样(概率抽样)根据调查对象的性质和研究目的的不同,随机抽样方法主要有:简单随机抽样、分层抽样、整群抽样、多级抽样、系统抽样等方法。下面针对各抽样技术的概念、特点等内容进行介绍。1简单随机抽样简单随机抽样(Simple random sampling)是最完全的概率抽样,针对包含N个单位的总体,选出n个单位作为样本时,每个单位在抽选时有相同被选中的机会的方法。有的书中定义简单随机抽样时,有两种方式:如果抽样是无放回的(每个样本被抽中的概率是一样的),所得到的样本就叫做简单随机抽样样本;如果抽样是有放回的(每次抽中的签要放回,并再次混合均匀后,再继续抽取),则得到的样本叫做非常简单随机样本。前一种方法,总体中每个单元被抽中的概率完全相等;后者,总体中每个单元被抽中的概率并不相等。但是如果总体很大,样本量相对较小时,两者的差别会非常小。简单随机抽样一般可采用抽签法,或查阅随机数表的方法来得到样本。(1)抽签法是先将总体中的每个单元都编上号,写在签上,将签充分混合均匀,每次抽取一个签,签上号码所对应的单元即入样,抽中的签不放回,再接着抽取下一个签,直到抽够所需样本量为止。(2)随机数表法是先将总体中的每一个单元都编上号,要注意的是,所有号码的位数均应相同。然后从随机数表的任一位置开始,向任何一个方向连续地摘录数字,将得到的数字按上边编号的位数分割为若干组数码,得到的数码所对应的单元即入样,重复的数码和没有对应单元的数码去掉,直至抽足所需样本量为止。例如,要从一个700人的总体中抽取样本量为15的样本,先将这700人按001700编号(或000699,注意一定位数相同),从表中的任一位置,例如从第6行、第7列开始,向右(可以向其他任何方向)连续地以三位数字为一个数码,得到的数码如下: 上面有下划线的数码均有相应的单元与之对应,则对应单元入样,依次选够15个为止。其他超过700的数码没有对应单元,去掉即可。数码618出现了二次,第二个618也要去掉不算。这两种方法,以随机数表法实施起来更为便利,特别是总体非常大的情况,用抽签法是几乎不可能的。简单随机抽样的优越性在于方法简单直观,当总体名单完整时,可直接从中随机选取样本,由于抽取概率相同,计算抽样误差及对总体指标进行推断时比较方便。但是在实际的调查中,编制和获得完整的总体是非常困难的,也是不可能做到的,而且简单抽样得到的样本较为分散,会消耗比较大的调查成本,因此简单随机抽样适合于总体单位数不是很庞大,而且样本分布比较均匀情况。 2系统抽样 系统抽样(Systematic sampling)也叫等距抽样,先将先将总体的每个单元编号,并按照一定顺序排列,然后按一定间隔选取样本的抽样方法。等距抽样经常最为简单随机抽样的代替物使用,所得到的样本几乎与简单随机抽样的样本相同。使用等距抽样的方式,也必须获得一份总体的单位表,这一点与简单随机抽样是一样的。决定抽样间隔的运算公式如下:例如要从120户居民中选出7户,使用系统(等距)抽样的过程如下:a 先将120户居民从“1”到“120”编号;b 决定间隔数;120/717.1,最接近的整数是17,间隔数定为17。c 抽取第一个编号:等距抽样的方式可以随意使用一个起点,可通过随机表选取,也可按照简单的主观随意决定第一个编号。d 然后每隔17抽取一个编号,这时可能出现两种情况:第一是开始的号码比较大,按照间隔抽选时,会出现超出编号的可能,即1);第二是选中的样本偏好在总体编号的范围内,即2):1)38,55,72,89,106,123(3),140(20);2)8,25,42,59,76,93,110“1)”中最后两个编号超过了120,则把它们分别减去120,得到最后的编号3,20。最后这些编号所对应单元入样。“2)”里由于第一个编号限定在1至17之间,所以没有出现超过120的编号,则所抽中编号不需修正,它们所对应单元入样。由此可见,在确定第一个编号时,“2)”的方法更为简便。3分层抽样分层抽样(Stratified sampling)又称类型抽样,是先将总体的所有单位按某些重要特性分成若干互不重叠的子总体(或层),然后在各个子总体(或层)中采用简单随机抽样或者等距抽样方式抽取样本单位的一种抽样方法。在分层时可以根据调查的具体要求,按照一个或多个特性来分层。比如下面的例子是按照教育程度和性别这两个指标来分层的。为便于计算,假设总体是1,000,000人,从中抽取1,000人的样本。教育程度作为第一阶段分层的指标,性别作为第二阶段分层的指标,先按教育程度分为四组,每组再按性别分成两组,共分为八层,见下图。从图中可以看到,整个抽样过程是先按照教育程度和性别将总体分为八层,根据各种教育程度在总体中所占比例和各种教育程度中男女所占比例,计算出每层的人数,再按照“1000/ 10000001/1000”的比例从每一层中随机抽取子样本,八个子样本合在一起即为样本。分层抽样的优点在于:(1)由于总体中常有少数特殊单元,用简单随机抽样得到的样本中,这些特殊单元所占的比例容易过高或过低,而影响估计量的精度,分层抽样可以将这些特殊单元做为一层,从而避免上述情况,使样本更具代表性。(2)可以根据需要对各层的特性加以比较。(3)从管理和实施上看,比简单随机抽样便利得多。4整群抽样整群抽样(Cluster sampling)是先将总体划分为若干互不重叠的群,然后在所有的群中,随机地抽取一部分,对抽中的这些群内的所有单元进行调查的抽样方法。要注意的是,分层抽样和整群抽样都是先将总体划分为互不重叠的若干部分(层或群),但是划分的原则是不一样的。在分层抽样时,是要将在某些特性上比较一致的单元分为一层,而各层之间的差异性则较大(见13-3分层抽样示意图)。在整群抽样中分群时则恰恰相反,要求各群之间的差异较小,每个群中各单元的差异较大。例:某高校学生会要调查该校在校生对学校广播站节目的评价,用整群抽样法抽样时,可以把全校每一个班级做为每一群,也可以按宿舍来划分,每一个宿舍做为一个群,因为在这个问题上,一般来说各班之间或各宿舍之间差异不会太大。假设该校有1500名学生,200个学生宿舍,从中抽取15个宿舍进行调查,抽样过程见图13-4。从图13-4中看到整群抽样的特点就是对群进行随机抽样,抽到的群的所有单元全部入样。整体抽样的优点是,组织实施比较方便,确定一组就可以抽出许多单位进行调查;而且只是需要群的名单,而不需要群内单元的名单,这就使得抽样工作大为简化。5多级抽样多级抽样(Multistage sampling)又叫多阶段抽样。在很多情况下,特别是复杂的、大规模的市场调查种,调查单位一般不是一次性直接抽取到的,而是采用两阶段或多阶段抽取的办法,即先抽取大的单元,在大单元中再选取小单元,再在小单元中选取更小的单元,这种抽样方式称为多级抽样。以二级抽样为例,二级抽样是先将总体分为互不重叠的若干部分(称为一级单元),从中随机抽取一些一级单元,这是抽样的第一阶段;再从这些抽中的一级单元中分别随机抽取子样本,所有的子样本合起来构成样本,这是抽样的第二阶段。分层抽样和整群抽样是二级抽样的两种特殊形式。见下图:从图中可以看到,整个过程是先在所有一级单元(100个班)中,抽取10个班,再从每个班中抽取10个人,这10个班抽中的所有人合在一起构成了100人的样本。如果第一阶段的抽样时,所有一级单元全部被抽中,此时二阶抽样就相当于分层抽样,如果第二阶段抽样时,整个班的人全部入样,此时二阶抽样就相当于整群抽样。 多级抽样适合于大规模调查,它的组织实施的便利程度和抽样精度介于分层抽样和整群抽样之间。对于那些抽样单位数多且较分散的总体,由于编制抽样框较为困难,或者难以直接抽取所需样本,就可以利用多级抽样方法完成。在实际的抽样过程中,常常以地理区域或行政系统作为分级的指标。二、非随机抽样由于在有些调查中得不到总体完整的名单,或者使用随机抽样的方法选取样本过于昂贵,这时就要使用非随机抽样的方法来选取样本。一般而言,任何不满足概率抽样要求的抽样方法都被称为非概率抽样。使用非随机抽样方法通常比用随机抽样的方法抽样要省钱、省事得多,但是其缺点也比较明显,不能计算抽样误差,这就意味着评估和预测总体数据质量和结果存在很大的困难。非随机抽样法经常使用的主要有四种方法:便利抽样、判断抽样、配额抽样、滚雪球抽样等方法。 1方便抽样方便抽样(Convinent sampling)又称偶遇抽样,是根据调查者的方便与否来选取样本的方式。比如访问路过的行人或任意找一些在家的居民进行访问,这都属于便利抽样。便利抽样简便易行,能及时获得所需的数据信息,省时省力,但是抽样偏差比较大,一般用于探索性调查。2判断抽样判断抽样(Judgement sampling)又称目的抽样,是凭借调查研究人员的主观意愿,经验和知识,从总体中选择具有典型代表性的样本作为调查对象的方法。应用这种抽样方法的前提是研究者必须对总体的有关特征有相当高的了解。判断抽样选取样本单位一般有两种方法:一是选择最能代表普遍情况的调查对象,常用“平均型”(“平均型”是指在调查对象中具有代表性的平均水平的单位)或“多数型”为标准(“多数型”是指在调查中占多数的单位),应尽量避免选择“极端型”。另一种方法是利用调查总体的全面统计资料,按照一定标准,主观选择样本。判断抽样方法适合样本量小,抽样单位不易分门别类的市场调查。但由于调查的准确性依赖研究者对调查对象的了解程度,判断水平和对结果的解释情况,所以判断抽样的结果容易受到怀疑。3配额抽样配额抽样(Quota sampling)是非随机抽样中使用最为广泛的一种抽样方法,所谓“配额”是指对划分出总体各类型,并分配给一定数量,从而组成的调查样本的方法。按照某些特性(这些特性与所研究的总体特性应有较强的相关性,并且它们的各种取值在总体中所占的比例是已知的)将总体细分为几个次总体,然后将总样本量按照各次总体中所占的比例分配,这样在选择样本单元时,即可以为每一个调查员指派“配额”,要他在某个次总体中访问一定数额的样本单元。比如可将一个以家庭户为基本单位的总体按照家庭月收入和家庭规模分为四个次总体。若样本量为400户,则从每个次总体中按比例抽取样本,应依次抽取140户、80户、100户、80户。在调查时可以给每一个调查员指定在每个次总体中调查的户数。例如要派20个调查员进行访问,指定每个调查员在第(1)、(2)、(3)、(4)次总体中分别调查7户、4户、5户、4户。配额抽样类似于随机抽样中的分层抽样,有两点重要区别:首先,配额抽样的被调查者不是按随机抽样的原则抽选出来的,而分层抽样必须遵守随机抽样的原则;其次,在分层抽样种,用于分类的指标,应联系研究目标来选择,而配额抽样无此要求。4滚雪球抽样滚雪球抽样(Snowball sampling)是指通过少量样本获得更多调查单位,即通过使用初始被调查者的推荐来选取被访者的抽样程序。滚雪球的步骤为:首先找出少数样本单位;其次通过这些样本了解更多样本单位;再次通过更多的样本单位去了解更多数量的样本单位;以此类推,如同滚雪球,是调查样本越来越多,结果越来越接近总体。 滚雪球的优点在于调查费用大大减少,当然这种成本的节约是以牺牲部分调查质量为代价的,整个样本可能出现偏差,因为那些个体名单来源于最初接受调查的人,他们之间可能十分相似,样本可能不具有很好的代表性。 第三节 样本规模与抽样误差一、样本规模 1、定义:又称为样本容量,它指的是样本中所含个案的多少。确定样本规模也是每一项具体的社会调查所必须解决的问题之一。 统计学中通常以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)。 2、影响样本规模确定的因素 影响样本规模的因素主要有:(1) 抽样的精确度。一般来说,在其他条件不变的情况下,抽样允许误差范围越小,样本规模就越大。(2) 总体规模。在置信度和抽样误差不变的条件下,样本规模是随着总体规模的扩大而扩大的。但是当总体规模大到一定程度时,样本规模的增加对抽样误差的影响就微乎其微了。(3) 总体的异质性程度。在其他条件不变的情况下,总体各单位的异质性越大,需要的样本规模就越大。(4) 调查者的人力、财力和时间。一般来说,样本规模越大,调查工作难度越大,调查成本越高。因此确定样本规模还需要考虑调查者的人力、财力和时间。3、抽样误差抽样误差是指所选样本的结果不能完全代表总体而导致的误差。有两类抽样误差:随机的和管理上的。管理上的抽样误差涉及抽样执行中的问题,即样本的设计和执行中有缺陷,非抽样或测量误差是在调查过程中,由于计算不准确和偏见等原因造
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急扑火队管理制度
- 影像科dr管理制度
- 微信分销商管理制度
- 德鲁克成果管理制度
- 快递员发放管理制度
- 总信息调度管理制度
- 总经理私章管理制度
- 感染mdt管理制度
- 成品车出门管理制度
- 房地产价格管理制度
- 转让钓场合同协议书
- 医院感染教学课件
- 叉车考试试题模拟100题及答案
- 《全球教育资源库》课件
- 2025年中考生物模拟测试卷及答案
- 慢性胃炎考试题及答案
- 2024北京西城区五年级(下)期末数学试题及答案
- 《古建筑欣赏》课件
- 《公路桥梁预应力钢绞线用锚具夹具和连接器 JTT 329-2025》知识培训
- 《新时代员工管理策略》课件
- 湖南省房屋建筑和市政基础设施工程-“机器管招投标”模块化招标文件(施工)-(2025年第1版)
评论
0/150
提交评论