




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章 数据的来源,21 数据的来源 22 抽样调查 23 调查设计,学习目标,1.了解数据的来源。 2.了解普查、抽样调查的作用及特点。 3.了解各种概率抽样与非概率抽样方法。 4.了解抽样中的误差。 5.掌握数据的搜集方法。 6.学会设计调查方案和调查问卷。,2.1 数据来源,2.1.1 一手数据和二手数据 2.1.2 统计调查方式,2.1.1 一手数据和二手数据,二手数据的来源,二手数据,主要是公开出版或报道的数据,有些是未公开出版的数据。在我国,公开出版或报道的社会经济数据主要来自国家和地方的统计部门以及各种报刊媒介。,使用二手数据需要注意的问题,应注意数据的含义、计算口径和计算方法,避免误用或滥用; 注意二手数据的时间性,不能用过时的数据; 应充分搞清这些数据的来源和可靠程度; 应注明数据的出处,以尊重他人的劳动成果。,2.1.2 常用的统计调查方式,统计调查是社会经济数据的主要来源。 实际中常用的统计调查方式主要有 抽样调查 普查 统计报表,1普查(Census),普查是为某一特定目的而专门组织的一次性全面调查。 特点: 普查通常是一次性的或周期性的。例如国务院规定每10年进行一次人口普查。 普查一般需要规定统一的标准时点。例如,第5次人口普查的标准时间为2000年11月1日0时。 普查数据的准确性、标准化程度均较高 ; 普查的调查项目较少,适用范围较狭窄,调查资料缺乏深度。,2.抽样调查(Sampling Survey),抽样调查:是一种非全面调查,它是按照一定程序从总体中抽选一部分单位(样本)进行调查或观察,并以此对总体参数做出推断的调查方法。 抽样不过是一种方法、手段,其主要目的仍然在于推断总体的信息。 可以单独使用,也可用来对普查数据进行评价、修正或补充。,概率抽样和非概率抽样,根据抽选样本的方法,抽样调查可以分为: 概率抽样:也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知。概率抽样中可以对抽样误差进行控制。在我国,习惯上将概率抽样称为抽样调查。 不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差。,概率抽样中的随机原则,随机原则:在抽选样本时排除主观因素的影响(不是有意识的抽选某些单位),使每个单位都有一定的机会被抽中。 等概率抽样:抽样时每个单位被选中的概率都相等。 不等概率抽样:抽样时不是每个单位被选中的概率都相等。,抽样调查的特点,是实际中应用最广泛的一种调查方式。1992年我国的国家调查系统将抽样调查列为统计调查的主体。 与全面调查相比,它具有以下明显的特点: 经济性。普查需要花费大量人力、财力,而采用抽样调查则可取得事半功倍的效果。 时效性强 。可以迅速及时地获得信息。 适应面广 。对于某些不可能进行普查的现象,只能通过抽样调查获取这些现象的部分数据。 有可能获得比普查更高的数据质量 。普查中工作量大、环节多,登记性误差往往很大。,3. 统计报表,统计报表是按照国家有关法规规定,自上而下地统一布置、自下而上地逐级提供基本统计报表的统计报告制度。 是我国特有的统计调查方法。 可以是全面调查,也可以是非全面调查。 按报表内容和实施范围不同,分为国家、部门和地方统计报表 按报送周期长短不同,分为日报、旬报、季报、半年报和年报 按填报单位不同,分为基层统计报表和综合统计报表。,2.3 抽样调查,概率抽样方法 非概率抽样方法 抽样调查中的误差,抽样调查方法的分类,抽样单元和抽样框,在抽样调查中可以把总体分成若干个互不重叠又穷尽 的有限个部分,每个部分称为一个抽样单位 (抽样单元,Sampling unit)。 抽样单位可以是一个总体单位,也可以包含多个个体。 抽样单位的名单称为抽样框(Sampling Frame)。抽样框应尽可能与目标总体相一致。例如名单抽样框、区域抽样框、时间表抽样框。 从全校100个班级中抽选10个班进行调查,抽样单位和抽样框? 从5000名学生中抽选500名学生进行调查,抽样单位和抽样框?,(1)简单随机抽样 (Simple Random Sampling),也称纯随机抽样。直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。可分为有放回和无放回两种方式。 是最基本的抽样方法,许多抽样方法都是在它的基础上发展起来的。其数学性质简单,理论也最为成熟。,有放回抽样和无放回抽样,有放回抽样:也称为重复抽样,在一个 单位被选入样本后,记录其编号,然后又 将其放回总体中继续参与随后的抽样过程。 无放回抽样:也称为不重复抽样,在一个单位被选入样本后,不再放回总体参与随后的抽样过程。,有放回抽样和无放回抽样,问题:不重复抽样中每个个体被选中的概率相等吗? 重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大(第4章有进一步的讲解)。 实际应用中一般采用不重复抽样。,抽选样本单位的方法,从N个总体单位中抽选n个单位组成样本, 可以先将N个单位编号,若抽到某个号则 对应的单位入样。通常有抽签法和随机数法两种抽选方法。 抽签法:用均匀同质的材料制作N个签并充分混合,然后一次抽取n个签,或一次抽取一个签但不放回,直至抽满n个签为止。 随机数法: 随机数表 随机数骰子 摇奖机 计算机产生的伪随机数,随机数表举例,39 65 76 45 45 19 90 69 64 61 20 26 36 31 62 73 71 23 70 90 65 97 60 12 11 98 40 07 17 66 72 20 47 33 84 51 67 47 97 19 98 40 07 17 66 75 17 25 69 17 17 95 21 78 58 24 33 45 77 48 37 48 79 88 74 63 52 06 34 30 01 31 60 10 27 02 89 08 16 94 85 53 83 29 95 56 27 09 24 43 ,简单随机抽样最适用的场合,当总体内样本单位不多,且有完备名册,可用于编号时。 对研究的目的而言总内样本单位间的差异不大时。 无法充分获得总体信息时。 由于编制抽样框及抽取的样本可能过于分散等原因在实际实施中有一定困难,加之没有利用其他辅助信息提高估计的效率,所以大规模调查中很少直接采用。,(2)系统抽样 (Systematic Sampling),系统抽样(也称等距抽样):将总体N个单位按某 种顺序排列,按规则确定一个随机起点,再每隔一 定间隔逐个抽取样本单位的抽样方法。 直线等距抽样: 将总体分成n个组,每组有 k=N/n个单位。 在第一组随机选择一个单位,之后每隔k个选择一个。,N = 64 n = 8 k = 8,第一组,等距抽样的特点,总体单位的顺序可能影响抽样结果: 各单元的排队顺序与所研究的内容无关; 各单元的排队顺序与所研究的内容有内在联系。 优点:抽取样本简便易行,易于监控。,等距抽样的特点,主要适用场合 总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的 总体内单位数过多,而抽取的样本又较多时 总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查),(3)分层抽样 Stratified Sampling,也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。,男生,女生,样本,分层抽样的特点,问题:分层抽样中在分层时使用了已知的信息,还符合随机原则吗? 可以提高样本的代表性,提高估计的精度。 在估计总体参数的同时还能估计每层的参数。 抽样误差只受层内方差的影响,分层时应使层间方差大、层内方差小。 最适用的场合: 当总体内样本单位的差异较大时; 分层后能达到层间差异大,层内差异小的原则时,按比例分层抽样和不按比例分层抽样,按比例分层抽样:各层的抽样比例都相等(等于n/N)。 在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用不按比例分层抽样。 在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理。,不按比例分层抽样(不等概率抽样)的例子,假设要从1000亩农田中抽取100亩调查小麦的平均亩产。1000亩耕地中有600亩为平原,400亩为丘陵;平原地区的亩产量相差不大(方差很小),而丘陵地区亩产量的差别很大(方差大)。 按比例抽样:平原和丘陵各抽60亩和40亩。 不按比例抽样:为了更准确地估计丘陵地区的平均亩产,在丘陵地区多抽一些农田(例如70亩),从平原地区抽取30亩 。这时总体平均亩产的估计值为,(4)整群抽样 Cluster Sampling,先将总体分为R个群(即次级单位或子总体), 每个群包含若干总体单位。按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式。,随机选择2个群构成样本,整群抽样的特点,样本单位比较集中,容易集中力量进行调查, 便于组织与管理,也节省了调查时间和费用。 不需要所有总体单位的抽样框。 由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些(对策:增大样本容量)。 抽样误差受群间方差的影响,不受群内方差的影响。分群时应使群间方差小。 最适用的场合: 总体名单不易获得时 为节省调查成本时 群内差异大,而群间的变异小时,(5)多阶段抽样,先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,如此下去直至抽取所要调查的基本单位的抽样方法。 例如: 统计年鉴2004指出 2003年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、等距、整群概率比例抽样方法,在全国31个省、自治区、直辖市抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人。,多阶段抽样的特点,适用于总体分布很广,不可能从总体中直接抽取样本单位的情况。 不需要全部低级单位的抽样框,节省了调查费用。 方法灵活多样。,抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件。凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则。,非概率抽样,不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差。,方便抽样Convenience sampling,纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题。 也译为便利抽样、偶遇抽样。 例如: 在街头的拦截式访问。 登在报刊、网上的问卷。,判断抽样 Judgment Sampling,调查者根据主观经验和判断从总体中选取有代表性的单位构成样本。 精度取决于抽样者的经验。 不能获得估计值的精度。 适用于总体单位极不相同而样本容量又很小的情况,配额抽样Quota sampling,是非随机抽样方法中最常用的一种抽样方法。分为两个步骤: 根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额; 然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位。 问题:与分层抽样的区别?,雪球抽样 Snowball Sampling,也译为滚雪球抽样 。 其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止。 主要用于对稀少群体的调查。 例如某研究部门在调查保姆问题时,先访问了7名保姆,然后再请她们提供其他保姆名单,逐步扩大到近百人。,抽样调查中的误差,误差与抽样误差,误差是指估计值与真实值之间的差异。 抽样误差(Sampling error):由于抽选样本的随机性造成的误差,也称为代表性误差。 样本只是总体的一部分,它对总体的代表性存在局限性,从而会造成误差。在抽样调查中,抽样误差就不可避免。 在概率抽样中抽样误差是能够计量且可以得到控制的。 影响抽样误差的主要因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法等。,非抽样误差(Nonsampling error),非抽样误差:除抽样误差以外的所有误差。 通常认为是由于调查程序执行中的错误与不足引起的。 主要包括抽样框误差、无回答误差和计量误差。 国内也称为“工作误差” 或“调查误差” 。,抽样框误差( sampling frame error , Coverage Error),当目标总体与抽样框所涵盖的元素不一致时,就会产生抽样误差。 抽样框误差包括:丢失目标总体单位、包含非目标总体单位,复合连接等。 例如,在民意调查中文学摘要对有电话的选民进行调查与其目标总体(所有选民)之间存在着明显的差异,这样也就必然产生抽样误差。,无回答误差 Nonresponse Error,因缺失部分指定样本单位的数据或调查问卷中的部分数据项而引起的误差都称为无回答误差。 样本个体拒绝访问 样本个体无法接受访问 样本个体拒绝回答部分问题,计量误差 Measurement Error,计量误差是指调查中获得的数据与调查项目真实值之间不一致而产生的误差, 也称为登记性误差。 测量工具不准确 调查员的工作失误(如计量错误、计算错误、记录错误等) 被调查者没有提供真实情况,2.3 调查设计,调查方案的主要内容 数据调查方法 调查问卷的设计,2.3.1 调查方案的主要内容,调查方案:指导整个调查过程的纲领性文件。 主要内容: 调查目的:为什么调查? 调查对象和调查单位:向谁调查? 调查内容 :调查什么? 调查时间及其他问题,1、调查目的和调查对象,调查目的:调查要达到的具体目标,调查之前必须明确。 调查对象:调查研究的总体或调查范围。 调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)。 填报单位:负责报送统计数据资料的单位。,例子,农产量抽样调查制度是国家统计局为取得高质量的农产品产量等相关指标数据,在全国范围内统一抽选样本调查、推算,并由直属调查队伍实施的抽样调查制度。2003年全国共抽选了约万个样本地块进行实割实测调查,并运用这些样本科学地推算全国粮食产量数据。 问:调查目的? 调查对象?调查单位?填报单位?,2、调查内容,调查内容:需要调查的具体项目。 通常以表格的形式来表现,称为调查表。 调查表的组成部分: 表头:说明调查表的名称、被调查单位的名称质等。 表体:调查的具体项目。 表脚:填报人签名、日期等。,3、调查时间及其他问题,调查时间。两种含义: 调查资料所属的时间,回答 “调查何时”的问题; 调查工作的起止时间,回答 “何时调查”的问题。 例如, 1990年第四次人口普查规定的资料所属时间为“1990年7月1日0时”;普查的工作期限是“1990年7月1日至7月10日完成普查的登记工作”。 调查所采用的方式方法; 调查组织与实施的具体安排。,2.3.2 数据调查方法,不论采用何种调查方式,在取得数据时都需要使用一些具体的数据搜集方法。数据的收集方法归纳起来可分为询问调查和观察实验两大类。 询问调查是调查者与被调查者与被调查者直接或间接触以获得数据的一种方法。 观察或实验:调查者通过直接的观察或实验获得数据的方法。,数据调查方法 的分类,数据的收集方法,1. 访问调查,调查者与被调查者通过面对面地 交谈而获得资料。 可分为标准式访问和非 标准式访问: 标准式访问通常按事 先设计好的问卷进行 非标准式访问事先一 般不制作问卷,访问调查中的注意事项,在访问调查中,调查者到人地生疏的地方搜集资料,且被调查者往往又不愿意提供的这些资料,为顺利完成调查访问工作,调查者事前的准备工作非常重要。事前的准备工作包括以下内容: 仪容仪表 携带访问工具 预约并先了解访问对象 熟记问题及方法 运用各种技巧激发被调查者主动合作 注意自身的安全,2. 邮寄调查,也称邮寄问卷调查,是一种标准化调查。 调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷。 通过某种方式将调查表或问卷送至被调查者手中,由被调查者填写,然后将问卷寄回指定收集点。 问卷或表格的发放方式有 邮寄、宣传媒介传送、 专门场所分发三种。,3. 电话调查,您好! 我是调查公司的调查员,调查者利用电话与被调查者进行语言交流以获得信息。 优点: 时效快、成本低。 覆盖面广。 缺点: 每次调查时间不能过长; 不能提过于复杂的问题; 对挂断电话拒绝回答者 很难做工作。,4. 电脑辅助调查,又称电脑辅助电话调查,电脑与电话相结 合完成调查的全过程。 一般需借助专门的软件进行,硬件设备要求较高。,5. 座谈会,也称集体访谈,将一组被调查者集中 在调查现场,让他们对调查的主题发表 意见以获得资料。 参加座谈会的人数不宜过多,一般为610人。 侧重于定性研究。,6. 个别深度访问,一次只有一名受访者参加、针对特殊问题的调查。 适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题。 侧重于定性研究。,7. 观察法,就调查对象的行动和意识,调查人员边观察边记录以收集所需信息。 调查人员不是强行介入,能够在被调查者不察觉的情况下获得资料。,8. 实验法,在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料。 研究在其它条件相同的条件下,所控制的一个(或一组)变量对另外一个(或一组)变量的影响。,2.3.3 问卷设计,问卷的基本结构 问卷中问题的设计 问卷中答案的设计 问题顺序的设计,问卷设计的步骤,1.根据研究目的建立分析架构,2.决定问卷之形式,3.编拟问卷初稿,4.邀请专家学者检查、修订问卷,5.预试问卷,6.问卷定稿并订定使用说明,1、问卷的基本结构,问卷的基本结构,开头 部分,甄别 部分,主体 部分,背景 部分,问候语, 填写说明, 问卷编号,也称过滤,通过一些问题筛掉不符合条件的被调查者。,要调查的全部问题,以及这些问题可供选择的答案。,被调查者的性别,职业,收入,文化程度,婚姻状况等,2问卷中问题的设计,(1)提问的内容尽可能短。 问题中应该坚决摒弃多余的修饰词,提问 的内容尽可能的短,若问题比较复杂,应将 其分为几个问题来问。 “我国越来越多的人去国外旅游。您曾经去别的国家旅游过吗?如果去过,您也许是为了欣赏风光才去的。那么,别国的风光对您决定出国旅游有多重要?” Q1:您出国旅游过吗?1、是 2、否(终止访问) Q2:那里的风光对您决定去旅游有多重要?,(2)用词要确切通俗,避免不具体的问题,问卷中的用词要确切、通俗,应容易被人理 解,应避免使用过于专业的术语(例如严重急性呼吸系統綜合症);设计的问题要适合所有被调查者;提问目的要明确,避免模棱两可。 Q:您对本餐厅是否满意? 1.满意 2.一般 3.不满意 满意 一般 不满意 Q1:您对本餐厅饭菜质量是否满意? Q2:您对本餐厅环境设施是否满意? Q3:您对本餐厅服务态度是否满意? ,(3)一项提问只包含一项内容,一个问句最好只问一个要点。一个问句中如果包含过多询问内容,会使被调查者无从答起,给统计处理也带来困难。 你经常看电影和电视吗?,(4)避免诱导性提问,应避免诱导性、暗示性的提问。诱导性 提问会导致两个不良后果: 被调查者不加考虑就同意所诱导问题中暗示的结论; 由于诱导性提问大多是引用权威或大多数人的态度,被调查者就会产生心理上的顺向反应。 “绝大多数饮用过光明奶的人都认为它口味纯正, 您认为是这样吗?”,(5)避免否定形式的提问,否定式的提问会影响到被调查者的思维, 或容易造成相反意愿的回答。 Q:您不认为听到国歌不立正不是不对的吗? 1.是 2.不是,(6)避免敏感性问题,敏感性问题是指与个人或单位的隐私或私人利益有关而不便向外界透露的问题。 问卷中要尽量避免提问敏感性问题或容易引起人们反感的问题,对敏感性问题的调查应当在提问的方式上进行推敲,尽量采用间接询问的方式,用语也要特别婉转,以降低问题的敏感程度。 你是否在考试中作过弊? 您是否有酒后驾车行为?,3问卷中答案的设计,开放性问题是指对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由做出回答,属于自由回答型。 封闭型问题是指对问题事先设计出了各种可能的答案,由被调查者从中选择。 封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。,(1)、二项选择法,二项选择法也称二分法,即提出的问题只有两种答案:“是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开学时考试题及答案
- 新鲜探讨广告设计师考试理念试题及答案
- 机械自动化试题及答案
- 2024年纺织品设计师创意生成方法试题及答案
- 三标管理试题及答案详解
- 初中生美术试题及答案
- 2024年纺织设计师专业知识试题及答案
- 广告设计师创新能力试题及答案
- 口语考试历年试题及答案
- 准备2024年考生的前期策划试题及答案
- 合伙入股协议合同范本
- 急救与心理技能(视频课)知到智慧树章节测试课后答案2024年秋中南大学
- DG-TG08-12-2024 普通中小学建设标准
- 冀教 七年级 下册 数学 第7章《平行线的性质》课件
- 《新媒体文案创作与传播(第2版微课版)》全套教学课件
- 征信异议申请书
- 隧道反坡排水、施工通风专项施工方案
- 【MOOC】《介入放射学》(东南大学)章节中国大学慕课答案
- 2024年05月北京北京银行博士后科研工作站招考(514)笔试历年参考题库附带答案详解
- 口腔放射类知识培训课件
- JTG H30-2015 公路养护安全作业规程
评论
0/150
提交评论