抽样设计讲稿_第1页
抽样设计讲稿_第2页
抽样设计讲稿_第3页
抽样设计讲稿_第4页
抽样设计讲稿_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样设计

Sampling本讲内容抽样基本概念及一般过程1概率抽样2非概率抽样3样本容量的确定41抽样基本概念及一般过程

一、抽样的有关术语1、抽样总体(Population)在社会调查中用N表示)抽取样本的总体。(1)目标总体:所有研究对象的全体。(是理论上的总体)(2)抽样总体:是研究者实际抽样样本的个体(分析单位)的集合体。(是实际操作中的总体)

二者不同:目标总体是我们概念上的,而抽样总体是我们实际抽取样本的集合。如:开展对某省大学生择业倾向调查时,目标总体:该省所有在校大学生的集合,每个在校大学生就是构成总体的元素。抽样总体:该省所有在册大学生。2、样本(Sample)(社会调查中用n表示)是从调查总体中按一定方式抽取出来的那一部分代表的集合体。3.抽样(Sampling)

是一种选择调查对象的程序与方法,即从总体中选取一部分代表的过程,也即从总体中按一定方式选择或抽取样本的过程。

如:从某省总数为10万人的大学生总体中按照一定方式抽取出1000名大学生进行调查,这1000名大学生就是构成总体的一个样本。(从一个总体中可以抽取出若干个不同的样本)4.抽样单元(SamplingUnit)

一次直接的抽样所使用的基本单位。抽样单元和构成总体的元素有时相同,有时不同。5.抽样框(SamplingFrame)

也称抽样范围,指抽取样本的所有抽样单位的名单。如:从某所大学全体学生中直接抽取200名学生作为样本—该校全体学生的名单从某一所大学所有班级中抽取3个班级作为样本—该校所有班级的名单

6.参数值(Parameter)也称总体参数,是关于总体中某一变量的综合描述。如:某厂职工的平均收入、平均年龄……7.估计量(Statistic)也称样本值,是关于样本中某一变量的综合描述。如:某厂职工中抽取出一部分,得到的平均收入、平均年龄……

8.抽样误差(SamplingError)

直观的说,就是由于随机而造成的样本统计量与总体参数之间的偏差。估计样本统计值与真实值的差距

两个影响因素:样本规模、样本元素之间的异质性。﹠抽样误差的意义:是衡量样本代表性好坏的标准,抽样误差越小,说明样本的代表性越好,反之,则越不好。如果我们由总体内随机抽取许多独立的样本,这些随机抽样所得到的统计结果将以一种可知的方式分布在总体参数附近.那么抽样结果集中在总体参数多大的范围内呢?—置信水平和置信区间

概率理论明确指出:

一定比例的样本估计值会落在总体参数值的某个增量内(一个标准误SE就是一个增加单位)---置信区间

9.置信水平与置信区间(1)置信水平(ConfidenceLevel)

也称置信度,指的是总体参数值落在样本统计值某一区间内的概率。它反映抽样的可靠性程度。如置信度为95%:指对某一总体进行的同样形式的100次抽样中,总体值将有95次都落在样本值周围的某一区间内。在其他条件一定的情况下,置信度越高,推论的把握性越大,所要求的样本规模就越大。(2)置信区间(ConfidenceInterval)

是指在一定范围的置信水平下,样本统计值与总体参数值之间的误差范围估测总体参数值的范围.它是指在一定的置信度下,样本值与总体值之间的误差范围。它反映的是抽样的精确程度。范围越大,精确性程度越低。在其他条件一定的情况下,置信区间越小,精确性程度要求就越高,即样本值与总体值之间的误差范围越小,则所要求的样本规模就越大。举例:我们有95%的信心说,35-45%的投票者会投票给A

由于平均数的抽样分布是正态分布,其平均数的次数就是正态曲线下的面积.而根据概率统计论,正态分布曲线下的面积是可以用数学方法推算的.有90%落在u±1.65SE之间有95%落在u±1.96SE之间有98%落在u±2.33SE之间有99%落在u±2.58SE之间我们可以这样说:对于任何一次抽样来说,其样本统计值落在总体参数值正负2个标准误之间的概率是95%

(3)置信水平与置信区间的关系﹠置信水平反映的是抽样的可靠性程度,置信区间反映的是抽样的精确性程度。﹠在其他条件不变的情况下,置信水平越高,置信区间越大;置信水平越低,置信区间越小。对抽样的可靠性程度要求越高,抽样的精确性程度将越低;对抽样的可靠性程度要求越低,则抽样的精确性程度将越高。

二、抽样的基本程序1.界定总体2.选择抽样的具体方法,确定抽样的精确性程度与样本规模3.制定抽样框4.实施抽样5.样本质量评估

(一)界定总体即在具体抽样前,对从中抽取样本的总体范围作出明确的界定。﹠为什么要对总体进行界定?原因之一:是由抽样调查的目的决定的,其目的是调查部分以反映总体。原因之二:界定总体是达到良好的抽样效果的前提条件。

例如:1936年美国总统大选前《文学文摘》杂志的抽样

思考

美国的《文学文摘》是一本1890年—1938年间在美国发行颇为流行的新闻杂志。1920年、1924、1928、1932年的美国总统大选前都作出了准确的预测。1936,《文学文摘》进行了一次最具雄心的民意测验活动:选票寄给了从电话薄与车牌登记单中挑选出来的1000万人。收到了200万人以上的回应;结果显示,有57%人支持共产党候选人阿尔夫·兰登,而当时在任的美国总统富兰克林·罗斯福的支持率为43%。两个星期以后全民选举的结果出来了,罗斯福以历史上最大的优势61%的得票率获得第二届任期。思考:为什么《文学文摘》的预测会失败?

(二)选择抽样的具体方法,确定抽样的精确性程度与样本规模﹠如何确定抽样的精确性和样本规模(待)(三)制作抽样框当采用一次性抽样时,应依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并对名单按随机原则进行统一编号,建立起供抽样使用的抽样框。

﹠例如:我们要在重庆城市管理职业学院进行一项该校大专学生职业观的抽样调查。﹠注意:当采取多级抽样时,则需制作多个抽样框。

﹠例如:为了了解某市小学生的学习情况,需要从全市500所小学中抽取500名小学生调查。﹠准确的抽样框原则:1、完整性2、不重复性例如:在城市居民户的抽样中,会经常出现一户有多处住房的情况,这样很容易把一户重复列入抽样框,使得他们在抽样中的中选概率高于其他居民,相反,许多城市居民居住条件比较差,很多居民同住在一个门牌号中,因此很容易遗漏。两种情况均违背了随机抽样的等概率原则。

(四)实际抽取样本即在前进几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个抽样单位,构成调查样本。(五)评估样本质量所谓样本评估,就是对样本的质量、代表性、偏差等进行初步的检验和衡量,其目的是防止由于前面步骤中的失误而使样本偏差太大,进而导致整个调查的失误。﹠评估样本的基本方法:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。若二者之间的差别很小,则可认为样本的质量较高,代表性较好;反之,若二者之间的差别十分明显,则表明样本的质量和代表性不可能高。因而需要对前面的抽样步骤进行检查、修正,直到抽出质量较高、代表性较好的样本为止。

﹠例如:从我院3000名学生中抽取300名学生作为样本。同时,我们从学院教务处或学生处得到下列统计资料:全院男生占学生总数的53%,女生占47%;本市学生占40%,外省学生占60%。那么,我们可以对抽出的300名学生进行这两方面分布情况的统计。假定样本统计得到的结果是:男生占52%,女生占48%;本市学生占41%,外省学生占59%。两相对比,可以发现二者之间的差距很小,这就在一定程度上说明,样本的质量较高,代表性较好,从这样的样本中得到的结果往往能较好地反映和体现总体的情况。本讲内容抽样基本概念及一般过程1概率抽样2非概率抽样3样本容量的确定42概率抽样

(probabilitysampling)简单随机抽样系统抽样分层抽样整群抽样多阶段抽样概率与规模成比例抽样(PPS)户内抽样就是等概率抽样,每个个体以相同的概率被抽中。步骤:1)发展一个准确的抽样框;

2)把抽样框中的所有元素编号;

3)利用数学软件(随机数表等)选择元素1)简单随机抽样

(simplerandomsampling)(2)、系统抽样(SystematicSampling)★概念:是把总体中的个体进行随机编号并排序,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。★具体步骤:(1)给总体中的每一个个体随机编上号码并按号码排序,即制作抽样框;(2)计算出抽样间距,公式为:K=N/n(K—抽样间隔,N—总体规模,n—样本规模);(3)在最前面的K个个体中,随机抽取一个个体,并记号其编号(假定为A),作为随机起点;(4)在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A+K,A+2K,.,A+(n-1)K;(5)将这n个个体合起来,就构成了该总体的一个样本。例如:某大学共有3000名学生,要抽取一个容量为100的大学生样本,使用系统抽样的方法如何抽取。课堂练习:现要对某一产品的口味进行测试,需要从调查总体的150人中抽取12人进行测试,请使用系统抽样的方法抽取样本。?思考:如果总体的个体数不能被样本容量整除时,如何处理?3、分层抽样(StratifiedSampling)★概念:是先将总体中的所有个体按某种特征或标志划分为若干类型,然后再在各类型中采用简单随机抽样或系统抽样的方法抽取一个子样本,最后将这些子样本合起来构成总体的一个样本。其中,N为总体,Ni为子总体,n为样本,ni为子样本类型1类型2类型3类型4子样本2子样本3子样本4子样本1考虑分层的比例问题,又分为1、比例分配法;考虑每层中的总体单位数,按比例在每层中抽出相同比例的样本,即每层的样本容量例如:调查在校学生的阅读倾向将符合要求的学生做统计后(除去留学生,成教等)总数为2万多人,考虑要作年级和教育差异对比,可将学生分为本科、硕士、博士三个大群体,需要抽取1068人就足够了。经求取比例,最低比例4.3%可以满足样本需求。2、不按比例分层抽样当总体中有些分层的数目太少,若以比例抽样,则有的层在样本中个案太少,影响分析。为了对不同层次的子总体进行专门研究,则可不按比例分层抽样。但需注意,若要用样本资料推断总体时,则需要对各层数据资料进行加权处理,使样本中各层的比例恢复到总体中各层实际的比例结构。例如:某厂600工人(男500,女100人)调查他们的平均收入。计划抽样60人。按比例抽样:男500*(60/600)=50人,女100*(60/600)=10人不按比例抽样,即男女各抽30人全厂工人平均收入=(每个男工的收入*5/3+每个女工的收入*1/3)/60人

2、奈曼最佳分配法考虑每层中总体单位的变异程度不同,在样本容量一定的条件下,变异大的层样本容量也大,变异小的层样本容量也小。每层的样本容量为

3.二相分层抽样1938年Neyman提出的先取一个大样本额的样本,调查每一个单位的辅助变量,然后按辅助变量将此样本的各单位分入不同的层,再从中做一个小样本的分层抽样注意:

1)用于划分总体的变量(分层变量)除了考虑常见的人口统计特征变量、比较容易得以辨识的变量外,还要考虑与研究变量相关的一些变量。例如性别和许多研究变量相关,且容易辨识,所以常常作为分层变量。2)分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。3)当研究者感兴趣的层占总体的比例很小的时候,若采用简单随机抽样方法就可能会漏掉该层的元素,此时常用分层抽样。4)在某些特殊情况下,研究者可能想让某个层在样本中的比例不同于其在总体中的真正比例,此时也常用分层抽样。5)在3)与4)情境下,做推断的时候,要进行处理。(4)整群抽样(clustersampling)子群1子群2子群6子群3子群7子群5子群4★概念:是从总体中随机抽取一些小群体,然后由所抽出的若干个小群体内的所有元素构成调查的一个样本。其中,N为总体,Ni为子总体,n为样本★整群抽样与前几种抽样方法的最大区别在于,它的抽样单位不是单个的个体,而是成群的个体。★具体步骤:1、将总体各单位按一定标准划分为若干群体。2、以群为单位,从整体中抽取部分群(数量确定)3、将这些群中的所有个体合起来,形成总体的一个样本。★整群抽样的应用范围较广,在简单随机抽样与系统抽样中,都要求有一份总体所有成员的名单,即抽样框。但在实际调查过程中,这样的名单往往难获得,此时可采用整群抽样来解决问题。两种情境下要考虑采用整群抽样:没有最终要素名册,也就是没有有关最终要素的抽样框;总体分散,取得样本的成本极其高昂。步骤:1)就是首先将总体划分为若干个小子群,这些子群包含有最终抽样元素,或者经过多层后包含有最终抽样元素。2)然后以这些群为抽样单位,按照简单随机抽样法或者系统抽样法从中抽出部分子群,3)抽取出的子群的所有元素都构成样本元素。例如:城市人口抽样街道1街道2街道n-1-----街道n-----样本整群抽样比简单随机抽样花费较少,但是更不精确。一般来说,整群抽样的设计原则是:尽可能设计较多的群,和抽取较多的群,而减少每个群的抽样元素数量。人口调查常常是在每个社区找5户,如果要抽取2000户的话,就需要400个社区。为了改进样本代表性,也可以在整群抽样的每一阶段采取分层技术,而非简单随机抽样法。注意:5)多阶段抽样multistagesampling按照隶属关系或层次关系,一层一层分阶段的往下抽样,一直抽到最基本的抽样元素位置。每一阶段的抽样都是按照简单随机抽样、系统抽样或者分层抽样进行。例如:CGSS(中国综合社会调查)2006的城市抽样街道1街道2街道n-1---街道n区1区2区m-1区m---居委会1居委会2居委会K-1居委会k---住户和居民例如:从全市300所小学抽取300名小学生调查,可以分为几个阶段来进行?每个阶段的抽样单位分别是什么?方法:从总体中随机抽取若干大群,然后从大群中抽取若干小群,层层抽下去,直到抽到最基本的抽样元素为止。重复两个基本步骤:列表名册和抽样在上述每个阶段的抽样中,都要采用简单随机抽样或等距抽样或分层抽样的方法进行。

例如:某地有2.4万名教师,他们分布在全市10个区的200所学校里,现在要抽取一个由1200名教师组成的样本,按照三级抽样的方法,有以下几种抽样方案:

?思考:1、哪一种方案最节省人力和经费?2、哪一种方案得到的样本精确度最高?3、考虑到实际情况,你在抽样中会选择哪种方案?为什么?第一阶段第二阶段第三阶段方案110个区每个区抽4所学校每所学校抽30名教师方案210个区每个区抽20所学校每所学校抽6名教师方案3从10个区中抽5个区每个区抽12所学校每所学校抽20名教师方案4从10个区中抽3个区每个区抽10所学校每所学校抽40名教师方案5从10个区中抽1个区每个区抽12所学校每所学校抽100名教师案例

假设从某市100所高校的50万大学生中,抽取5000名学生进行环保意识的抽样调查。二阶段抽样:大学——学生第一阶段:从100所高校中抽取10所按简单随机抽样或系统抽样的方法,则首先需要弄到一份100所高校的名单,并对其进行编号,然后根据抽签、随机数表或通过计算抽样间距直接从抽样框中抽取;若按分层抽样的方法,则可以先将其分为本科院校和专科院校,然后分别从每一类中抽取若干高校;几种抽样方法的比较第二阶段:从10所高校中分别抽取500名学生按整群抽样的方法(假设其中一个学校有100个班级,每班50名学生)多段抽样中,其实暗含了一个假定:即每一个阶段抽样时,其元素的规模是相同的。比如第一阶段抽取学校时,暗含了每个学校的规模相同。在这样的假定下,采取上述几种随机抽样的方法,最终每名学生被抽中的概率相等。但现实生活中,每一个学校包含的学生人数不同,因而按照上述多段抽样的方法来抽取样本时,最终每名学生被抽中的概率实际上是不同的。(规模不一样大)假设甲学校比较大,有2万名学生,乙学校比较小,只有3千名学生。那么当二者在第一阶段都被抽中后,第二阶段分别从他们中抽取500名学生,甲学校学生被抽中的概率为:(10/100)*(500/20000)=1/400乙学校学生被抽中的概率为:(10/100)*(500/30000)=1/60原理:元素被选中的概率与其规模(用所用子群数来衡量)成正比

6)概率与规模成比例抽样

(ProbabilityProportionatetoSize,PPS)PPS的具体操作方法:1、在确定的总体内,给每个抽样单位按序编号,并且写出它们的规模;2、累计相加每个抽样单位包含的单位数,并根据累计相加结果确定每个单位的号码范围;3、采用随机数表的方法或等距抽样的方法选择号码,号码所对应的单位入选第一阶段样本;4、在被抽取的单位中,按照抽样元素的多少进行第二阶段抽样。7户内抽样

within-householdsampling适用于以家庭作为分析单位,以入户访谈的方法收集资料入户前的抽样可以采用多段抽样的方式如市/县—区/乡—街/村—居委会/组—家庭户确定户后,如何对户内的成年人进行选择?--生日接近法:确定每一天为标准日期→弄清家庭户中成年人的生日→计算其生日离标准日期的天数→选出生日离标准上期最近的人作为调查对象。--KISH选择表从所抽中的每户中抽取一个成年人,已构成访谈对象的样本。Kish选择法步骤:1调查员获取每户家庭详细信息。2调查员对每户家庭中成年人进行排序和编号:男性在前,女性在后;年长在前,年幼在后。3调查员比照事先随机分配到的Kish选择表,从中查出被调查家庭人口总数所对应的个体序号,然后对之进行调查。A式选择表家庭中18岁以上人口数被抽选人的序号为11213141516或以上1B1式选择表家庭中18岁以上人口数被抽选人的序号为11213141526或以上2C式选择表家庭中18岁以上人口数被抽选人的序号为11213242536或以上3B2式选择表家庭中18岁以上人口数被抽选人的序号为11213142526或以上2E1式选择表家庭中18岁以上人口数被抽选人的序号为11223343536或以上5D式选择表家庭中18岁以上人口数被抽选人的序号为11223243546或以上4F式选择表家庭中18岁以上人口数被抽选人的序号为11223344556或以上6E2式选择表家庭中18岁以上人口数被抽选人的序号为11223344556或以上5例如,某家庭有四位成人,排序为:1—父亲;2—儿子;3—祖母;4—母亲。若事先随机分配到的为A表,则抽取父亲,若为F表,则抽取母亲。3)调查员对每户家庭中的成年人进行排序和编号。排序方法:男性在前,女性在后;年纪大的在前,年纪小的在后。4)调查员按照调查表上的编号找出编号相同的“选择卡”,依据家庭人数从“选择卡”中查出该选个体的序号。然后对这一序号对应的该家庭成员进行访谈。抽样实例——GSS调查1980年GSS:generalsocialsurvey全国综合社会调查,芝加哥大学全国民意研究中心。总体:所有居住在美国的成年人(年满18岁及以上)目标总体:所有说英语的、住在家中的成年人构成。住在公共机构中的人排除在外:大学宿舍、疗养中心或军营。据估计所有住宅户的成年人口中有97.3%住在家里,住户中有97%说英语,能够接受访问。抽样方法:一组复杂的多阶段概率抽样,将多阶段抽样、分层抽样和PPS结合在一起。第一阶段抽取县市和标准都会统计区首先,制作一个全国性的抽样框,包括:全美各县市、独立城市和标准都会统计区。每个抽样元素包含有大约4000户家庭。使用4个主要地理区域、是否为都会地区两个变量将抽样框进行分层。依据每个县市或者标准都会统计区的住户数,应用比例抽样法,从每个层中抽出样本。结果是一组为48个县市或标准都会统计区的样本。第二阶段从县市、标准都会统计区中抽取出街区。首先标示出每个县市或标准都会统计区中的市区街区、户政调查单位、或者乡村中的等值区域。使用比例抽样法,从每个县市或标准都会统计区中,抽出6个以上的街区。最后得到562条街区第三阶段:抽取住户和访谈依据街道上的住址随机抽取住户。抽到地址后,访问员与该住户取得联系,从中抽取合格的被访者。访问员查阅选取表找出可能的被访者。总共联系上1934人。展开访问,结果完成了75.9%,最终样本为1468人。抽样比=1468/1.5亿=0.01%。3非概率抽样

(nonprobabilitysampling)港大民调:大陆人与台湾人对美国认知的差异

原文出处:/Mil/Trends/200907/245532.html随意抽样配额抽样立意抽样滚雪球抽样异常个案抽样电影:《TheRiseandRiseofMichaelRimmer》1)随意抽样(haphazardsampling/accidentalsampling):偶遇或方便抽样电视节目的街头访问;杂志的读者问卷。1950年代BBC常年聘请1,000多兼职的调查人员了解民众对广播和电视节目的反应。(照片:1955年)

盖洛普民意调查研究所盖洛普的研究显示,在任何一个特殊场所,如商店、体育馆、火车站等地找到的人都不能完全代表所有的人,只有去人们家里向人们提问才能确保被提问的人代表了所有的人。30年代到80年代中期,在这50年的时间里,盖洛普民意调查研究所对12次美国总统选举的调查显示,盖洛普民意调查的准确率非常高。1948年预测错误,杜鲁门当选,杜威落败。80年代中期以后,由于95%的美国家庭都拥有了电话,使得利用电话进行调查成为可能。盖洛普民意调查研究所的做法:1)利用计算机随机选电话号码;2)确保提问方式的中立性,以防止对被提问者如何回答产生误导。2)配额抽样(quotasampling;定额抽样)盖洛普(GeorgeGallup)在1936年使用的配额抽样法准确预测罗斯福会连任美国总统。步骤:(1)先用各种变量(例如:性别、年龄阶段、受教育水平、宗教信仰、民族、城乡、居住地地理位置等人口统计特征变量)对总体进行交叉分类,建立描述总体特征的矩阵或表格;(2)考查总体中的矩阵或表格中每一个格子(cell)所占的比例;(3)决定样本中每一个格子抽样数(4)采用随意抽样抽取个体。男生(60人)女生(40人)文科(30人)理科(30人)文科(20人)理科(20人)年级一二三四一二三四一二三四一二三四人数129631296386428642例子——风笑天(2007)p145.(??)假设某高校有4000人,其中男生占60%,女生占40%;文科生和理科学生各占50%;一年级站40%,二三四年级学生分别占30%,20%,10%。现采用定额抽样方法,按照上面的3个变量抽取一个规模为100人的样本。3)立意抽样(purposivesampling/judgmentalsampling;判断抽样):借助专家的判断来选择个体,或者以研究者心中的特定目标与主观分析来选择。常用于探索性研究或田野调查中。适用情况:如果研究者要选择一个信息量大的独特个案时适用。例如要研究女性时尚文化方面的主题,可以选一本非常流行的时尚杂志。当研究对象是难以接触、特殊总体时,可以使用研究者的主观信息和专家的判断来界定研究计划所要包含的样本。例如:暗娼、吸毒人员、艺术家、乞丐和游民等。当研究者要找某一类特殊个案进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论