《传播研究方法》第八讲.ppt_第1页
《传播研究方法》第八讲.ppt_第2页
《传播研究方法》第八讲.ppt_第3页
《传播研究方法》第八讲.ppt_第4页
《传播研究方法》第八讲.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复习,为什么抽样? 经济、提高研究质量 抽样的类型: 概率抽样、非概率抽样 7种非概率抽样(Nonprobability Sampling),复习:概率抽样的逻辑和理论,代表性(Representativeness) 当选出的样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。 样本不需要在每一方面都具有代表性,代表性只需局限于与研究的实质性需要相关的特征。 概率抽样的基本原则: 总体中的每一单位都有一个已知的、非零的被包含在样本中的概率,尽管对于总体的所有单位而言,选择的概率并非总是相同的。 EPSEM(Equal probability of selection method):在这种样本设计中,总体中的每个成员都具有相等的被选进样本的机会。 概率抽样的独特优点: 虽无法完美地代表总体,但能避免各种偏见; 能够估计样本的精确度及代表性。,复习:概率抽样的逻辑和理论,代表性(Representativeness) 当选出的样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。 样本不需要再每一方面都具有代表性,代表性只需局限于与研究的实质性需要相关的特征。 概率抽样的基本原则: 总体中的每一单位都有一个已知的、非零的被包含在样本中的概率,尽管对于总体的所有单位而言,选择的概率并非总是相同的。 EPSEM(Equal probability of selection method):在这种样本设计中,总体中的每个成员都具有相等的被选进样本的机会。 概率抽样的独特优点: 虽无法完美地代表总体,但能避免各种偏见; 能够估计样本的精确度及代表性。,复习:概率抽样的逻辑和理论,随机选择(Random Selection) 获得代表性样本的核心步骤。 随机并非偶然,而是一种非常仔细的特别的程序,能确保每一样本单位的选择都独立于其他单位的选择。 独立:总体中的任何一个成员的选择都不会对总体中任何其他正在被选择的成员的选择的可能性产生影响。 例如:投掷硬币 以随机数表或电脑程序完成。 随机选择的优点 此过程可以避免研究者自觉或不自觉的偏见; 符合概率理论,提供了估计总体参数和抽样误差的基础。,复习:概率抽样的逻辑和理论 一些基本概念,总体(Population):我们感兴趣的、试图概括的群体或集合体。如:全国人口 要素(Element):构成总体的单位,也是样本所包含的内容。 在一个既定研究中,要素与分析单位往往是相同的。要素用于抽样,分析单位用于资料分析。 样本率(sampling ratio):样本个案数和总体之比,即n/N. 例:总体包含50,000人,研究者从中抽取150人作为样本,则样本率为,150/50000=0.003 or 3%,复习:概率抽样的逻辑和理论 一些基本概念,样本框(Sampling Frame) “总体”是个抽象的概念。 样本框:用于抽样的总体列表。如果样本能够代表总体,则其样本框必须包含所有(或几乎所有)的总体成员。 例:对组织的研究【成员名单即为样本框】 以电话黄页为样本框,复习:概率抽样的逻辑和理论 一些基本概念,样本框(Sampling Frame) 样本框存在的四个潜在的缺陷 丢失:样本框中丢失了目标总体的某些人口单位 重复:某些单位在清单中登录了一次以上 不合格:样本框中有不属于目标总体的单位 整群登录:样本框中的单位以群体形式登录 样本框定义出现问题,会导致非抽样偏倚: 样本框造成的偏倚; 无回答偏倚 测量误差【定义和测量工具的问题】,复习:概率抽样的逻辑和理论 一些基本概念,参数(parameter):对总体中某变量的概括性描述。 统计值(statistic):对样本中的变量的概括描述,并被用来估测总体参数。,复习:概率抽样的逻辑和理论 一些基本概念,抽样单位(sampling unit) 抽样过程中的基本单元。在简单随机抽样中,抽样单位是个体(individuals);在群集(cluster sampling)抽样中,抽样单位是由个体组成的群集。 层级(stratum): 样本的一个子集。层级的划分通常是研究所关心的某一变量为依据。同一层级中的个案,就该变量而言,是同一的(homogeneous)。,复习:概率抽样的逻辑和理论,抽样要解决的两大问题: 如何选择一个用于代表总体的样本? 如何判断样本是否完好地代表了总体?,抽样偏倚/误差:在研究总体的值与期望值之间存在的差异。 抽样分布(Sampling Distribution): 一种估计量,如从许多样本计算的 ,围绕以它的期望值为中心的分布。 SB:抽样偏倚 :从研究总体中得到的均值 :均值的期望值,即对研究总体反复进行抽样得到的均值的平均值,抽样误差(Sampling Error),抽样分布,假设研究州立大学的学生对校方拟实行的一套学生管理条例的态度。研究总体为20,000名该校注册学生,随机从中抽取100名学生为样本以估计总体的情况。 假设学生中有一半赞成,一半反对(研究者预先并不知道这一情况)。,三种假设的抽样所产生的结果,对学生名册上的每一个学生予以编号,使用随机数表选出其中的100位,询问其对于校规的态度。其中:48位学生赞同,52位不赞同; 以相同的方法选出另外100个样本。结果:51%赞同; 在第三组样本中,有52位学生持赞同态度。,抽样分布,如果扩大抽样数量,我们会发现,虽然抽样结果分布在一个相当大的范围内,但是大部分的抽样结果都出现在图中的50%附近。,抽样误差(Sampling Error),标准误:某抽样设计的期望误差程度;指出抽样结果集中在总体参数附近多大的范围内。 其中一种测量方法: P、Q:二项变量的总体参数值 60%的学生赞成校规而 40%的学生反对,则P=60%,Q=60% N:每组样本包含的样本量【如n=100】 S:标准误,样本容量n:越大,S越小 样本同质性:p=0 or 1, S=0,正态曲线(Normal Curve),不论总体有何特质,当反复地从总体中抽取样本时,曲线的数值就接近正态曲线的形状。 大约34%的样本估计值会落在大于总体参数值一个标准误的范围内;另外34%的样本估计值会落在小于总体参数值一个标准误的范围内。,估测抽样误差:置信水平( Confident Level )和置信区间(Confident Interval),置信水平:总体参数落在一既定置信区间的估测概率。 例如:我们有95%的信心说35%-45%的投票者会支持候选人A。 置信区间:估测总体参数值的范围。 例如:我们有95%的信心保证样本统计值会落在与参数值相距正负5%的范围内。 置信区间扩大时,置信水平也会增加。 几乎所有样本估计值(99.9%)都会落在与真实值相距三个标准误的范围内。,估测抽样误差:置信水平( Confident Level )和置信区间(Confident Interval),当决定了允许的抽样误差范围后,便可依此范围计算所需要的样本量。,找出样本量和样本二项式分布值得交叉点,出现的数字代表当置信度为95%时,以百分点(正负)所显示的抽样估计误差。,例:400名受访者样本中,60%回答是,40%回答否,抽样误差估计为正负4.9个百分点。则我们可以预测,当置信度为95%时,总体中回答“是”的比例落在55.1%-64.9%之间。,若希望有95%的信心让研究结果与总体参数值的差异在正负5%以内,那么样本容量至少要有40人。,传播研究方法,第八讲:抽样的逻辑(2),中国青年政治学院 赵菁 2015年11月5日,本讲概要,概率抽样的类型 第二次作业,抽样设计的类型,简单随机抽样(Simple random sampling, SRS) 系统抽样(Systematic sampling) 分层抽样(Stratified sampling) 多级整群抽样(Multistage cluster sampling) 概率比例抽样(Probability proportionate to size, PPS),抽样设计的类型 1. 简单随机抽样(Simple Random Sampling, SRS),通过对总体随机抽取而获得的样本。 方法: 第一步 编制包含所有要素的抽样框; 第二步 给名册中每一个要素一个号码; 第三步 确定所需样本数; 利用随机数表(random numbers table)选择要素 两个基本特征:1)同一概率;2)独立性 要求:有所有个体的名单,并且可以接触到所有个体。,例:简单随机抽样,随机数表的使用方法,【要求】:假设要从800人的总体中用简单随机抽样方法选取50个人作为样本。 【步骤】: 将总体中所有的人编码(1-800); 确定所选择的随机数需要几位数字(3位,001-800) 翻到随机数表第一页: 如何从五位数字号码中产生三位数字号码?【建立原则】 按照什么顺序在表中选择号码? 从哪里开始选择?,1.超过800的数字 :忽略它; 2. 碰到同一个 号码:跳过第二 个重复的; 3. 依此进行, 选足50个随机数,问题: 1.成本高; 2. 不精确,等距抽样:系统化地选择完整名单中的每第K个要素组成样本。 例:从120个人(总体)中选出10个人(样本) 抽样间距(sampling interval):两个被选择的要素间的标准距离。 总体大小/样本大小,120/10=12 【步骤】: 1. 将总体中所有要素编码; 2. (从1-12中)随机选择一个数字作为起点; 3. 每隔12个数字选一个作为样本,抽样设计的类型 2. 系统抽样(Systematic random sampling),潜藏危机:周期性问题 如果要素名单是以与抽样间隔一致的循环方式排列的,系统抽样方法可能产生一个有重大偏误的样本。 例如:报纸抽样;公寓样本; 士兵名册抽样,抽样设计的类型 2. 系统抽样(Systematic random sampling),随机起始:2 抽样间距:4 选入样本:a,在抽样之前将总体分为同质性的不同群(或层)。每一子集就所研究的有关特征而言(如年龄、收入、种族等)是同一的。 之后可与简单随机抽样、系统抽样或整群抽样相结合,在每一子集中抽取随机样本,组成一个总的随机样本。 关键功能:将总体分成几个同质的次级集合(次级集合间有异质性),然后再从每个次级集合中抽出适当数量的样本。 次级集合除了在用来分层的变量方面具有同质性之外,在其他变量方面也可能具有同质性。E.g.按年级分类的样本会使年龄更具代表性;按性别分类的样本会在就业意愿方面显现出更好的代表性。,抽样设计的类型 3. 分层抽样(Stratified random sampling),好处:提高代表性、减少抽样误差 例如:对某大学本科生进行分层抽样: 将所有学生按年级加以分类; 分别从一年级、二年级、三年级、四年级的学生中,各抽出适当数量的要素组成样本。 对一个非分层的抽样样本来说,与学生所属年级相关的抽样误差将与其他变量的抽样误差一样大; 而对于分层的抽样方法而言,与学生所属年级相关的抽样误差将减少至零。,抽样设计的类型 3. 分层抽样(Stratified random sampling),以职位分层,某综合医院的100个样本,好处:当我们所感兴趣的某类群体在总体中所占比例过小,简单随机样本很可能遗漏该类群体成员时,分层可以解决此问题。 研究者要从 20,000名大学生中抽出200个样本 从注册处得知,20,000名学生中,2%的学生(400人)是离婚女性,且有一个不到5岁的孩子。 在一个有代表性的样本中,此群体应为4人,但简单随机抽样容易遗漏。 而分层抽样中,可以直接从这400人种选4人进入样本。,抽样设计的类型 3. 分层抽样(Stratified random sampling),分层变量的选择方法: 依赖于现有的变量:性别、班级、院系、地域、选区 考虑与想要精确描述的变量相关的变量:性别、教育(不易获知)、城市、地理位置(南城、北城、西城、东城社会阶层相关)区域等,抽样设计的类型 3. 分层抽样(Stratified random sampling),处理包含总体所有要素的名册,两种分层方法 将所有要素按照所使用的分层变量加以分类,成为不同的小团体;再按相对比例从各个小团体中抽出(随机方法或系统抽样法)适当数量的样本。 例如:二年级学生中GPA为3.5以上的学生占所有学生的1%,而我们要获取1000个学生样本;那么,可以在GPA3.5以上的大二学生中抽出10个作为样本的一部分。 先将学生进行分类;将所有不同类别的学生放到一个连续性的列表中;然后再对整个列表进行一个随机起始的系统抽样。 例如,将学生名册从GPA4的大一男生开始,然后以GPA不超过1的大四女生为结束。,抽样设计的类型 3. 分层抽样(Stratified random sampling),随机起始的分层系统抽样,系统抽样中隐含的分层: 当名册顺序具有隐含分层的状态下,系统抽样方法会比简单随机抽样方法更加准确。 有时一个排过序的名册可能比一个杂乱无章的名册提供更多、更有用的信息。 例:对夏威夷大学学生进行研究:按年级分层后,又把所有的学生按学号进行排列。但是他们的学号也是他们的社会安全号码(social security number),而SSN前三位代表州名,这就粗略地提供了地区性分层。,抽样设计的类型 3. 分层抽样(Stratified random sampling),当1)不可能或不方便编制一个完整的名单形成目标总体;2)简单随机抽样成本过高时,可以使用整群抽样方法。 例:对全国摩托车的抽样 整群抽样设计:先对群集进行抽样,然后再从选中的群中抽取要素。【只要该群被选中,该群中所有的成员都进入随后的子样本。】,抽样设计的类型 4. 整群抽样(Cluster random sampling),多级整群抽样(multistage cluster sampling) 重复两个步骤:列表名册、抽样 先编制初级抽样单位(如教会、街道)的名册,然后对这个名册进行抽样;根据选出的初级抽样单位再编制其要素名单,再进行抽样,如此一直重复下去。 北京:抽城区抽街道抽社区抽户抽人,抽样设计的类型 4. 整群抽样(Cluster random sampling),比较:分层抽样与整群抽样,多阶整群抽样效率高,但代价是样本精确度降低。对总体名单进行简单随机抽样会产生一次抽样误差;而两阶段的整群抽样则会有两次抽样误差。 例如:有可能抽到的富裕街道超过实际比例,而进行次级抽样时,抽到的富裕家庭又超过实际比例。解决方式:选择群的数量,以及群内选择的要素的数量。,多级整群抽样与抽样误差,抽样误差的减少:增加样本容量;提高样本要素的同质性 抽样原则:尽可能多地多选取群,而减少每个群中要素的数量。 在力所能及的范围之内尽量选取较多的群。通用原则:人口调查者在每个普查街道选择5户来做访谈。 如果抽样总数是2000户家庭,那么总共要选择400条街道,每条街道访问5户。,多级整群抽样中的分层,多阶整群抽样设计中,每一阶段除简单随机法挑选样本外,还可对其进行分层,以改进样本的精度。 多级分层随机样本(Multistage Stratified Random Sampling),对高校学生的多级分层随机样本,第一步:选择院系 以院系为分层,并将全校47个院系分为小规模(少于100名学生)、中等规模(100-300名学生)、大规模(大于300名学生); 分为:42个小规模院系、4个中等规模院系、1个大规模院系; 随机抽取1个大院系、2个中等院系、12个小院系 第二步:从院系中选择班级 将所选的15个院系的班级分为大规模(超过100名学生)、中等规模(31-99名);小规模(少于30名学生) 从中选出:8个大班、26个中班、13个小班 第三步:选择备用班级 研究参与完全自愿,有相似规模的班级用来作为备用班级,防止有些班级拒绝合作;,户内抽样(Within-Household Sampling),在一户之内,研究者应该访谈谁? 第一个接电话的人?开门的人? 也应进行随机抽样:在得知家庭规模和组成后,按照选择表进行选择 最近生日法:住在您家中年龄在18岁以上的人当中,谁最近过生日?,例如:选择一个城市的住户。假设城市中有1000条街道,先挑选100个街道做样本,则每条街道被抽中的机会为0.1;再从每条街道中10户抽1户,即该街道中每户被选中的机会也是0.1。所以,每户人家入选的概率是:1/10*1/10=1/100,相同。 陷阱:街道大小不同(以户数计算)时,会出现问题。 PPS:多级整群抽样的一种,其中的群被选取的概率并不相等,其被选中的概率和其规模大小根据其子样本的数量来衡量成比例。,抽样设计的类型 5. 概率比例抽样(Probability proportionate to size, PPS),当被抽样的群规模很大时,应采取修正过的概率比例抽样设计。 拥有200家住户的街道被选中的机会,是只有100户的街道的2倍。但在每个群(街道)内,被选取的住户数量仍然固定,如5户。 街道A:100户;街道B:10户;概率比例抽样中,给街道A被选中的机会10倍于街道B。若街道A被选中的概率是1/20,则街道B被选中的概率为1/200. 若从每个街道选5户,则若街道A被选中,其住户被选中的概率为5/100;则街道A住户从总体中被选为样本的总概率为:1/20*5/100=1/400. 街道B住户从总体中被选为样本的总概率为:1/200*5/10=1/400.,抽样设计的类型 5. 概率比例抽样(Probability proportionate to size, PPS),用于电话访问,且不使用黄页作为样本框。 黄页问题: 没有电话的人 最近搬家的人 出于隐私考虑未在黄页登记电话的人 RDD:总体为电话号码,而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论