数据的来源PPT课件.ppt_第1页
数据的来源PPT课件.ppt_第2页
数据的来源PPT课件.ppt_第3页
数据的来源PPT课件.ppt_第4页
数据的来源PPT课件.ppt_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第2章数据的来源 2 1数据的来源2 2调查设计2 3概率抽样与非概率抽样2 4抽样调查中的误差 2 学习目标 1 了解数据的来源 2 了解普查的定义 作用及特点 3 掌握抽样调查的方法和特点 4 掌握数据的搜集方法 5 学会设计调查方案和调查问卷 6 了解抽样中的误差 3 2 1数据来源 2 1 1一手数据和二手数据2 1 2统计调查方式2 1 3数据收集的方法 4 2 1 1一手数据和二手数据 5 二手数据的来源 二手数据 主要是公开出版或报道的数据 有些是未公开出版的数据 在我国 公开出版或报道的社会经济数据主要来自国家和地方的统计部门以及各种报刊媒介 6 使用二手数据需要注意的问题 应注意数据的含义 计算口径和计算方法 避免误用或滥用 注意二手数据的时间性 不能用过时的数据 应充分搞清这些数据的来源和可靠程度 应注明数据的出处 以尊重他人的劳动成果 7 2 1 2常用的统计调查方式 统计调查是社会经济数据的主要来源 实际中常用的统计调查方式主要有抽样调查普查统计报表 8 1 普查 Census 普查是为某一特定目的而专门组织的一次性全面调查 普查具有以下显著特点 普查通常是一次性的或周期性的 例如国务院规定每10年进行一次人口普查 第五次人口普查是2000年 普查一般需要规定统一的标准时点 例如 第5次人口普查的标准时间为2000年11月1日0时 普查数据的准确性 标准化程度均较高 普查的调查项目较少 适用范围较狭窄 调查资料缺乏深度 9 2 抽样调查 SamplingSurvey 抽样调查 是一种非全面调查 它是按照一定程序从总体中抽选一部分单位 样本 进行调查或观察 并以此对总体参数做出推断的调查方法 抽样不过是一种方法 手段 其主要目的仍然在于推断总体的信息 可以单独使用 也可用来对普查数据进行评价 修正或补充 10 概率抽样和非概率抽样 根据抽选样本的方法 抽样调查可以分为 概率抽样 也称随机抽样 是按照随机原则抽选样本的抽样方式 抽样时每个样本单位被选中的概率是已知 概率抽样中可以对抽样误差进行控制 在我国 习惯上将概率抽样称为抽样调查 不满足概率抽样要求的抽样都被归为非概率抽样 非概率抽样单个单位被选中的概率是不可知的 不能从概率意义上控制抽样误差 11 概率抽样中的随机原则 随机原则 在抽选样本时排除主观因素的影响 不是有意识的抽选某些单位 使每个单位都有一定的机会被抽中 等概率抽样 抽样时每个单位被选中的概率都相等 不等概率抽样 抽样时不是每个单位被选中的概率都相等 12 抽样调查的特点 是实际中应用最广泛的一种调查方式 1992年我国的国家调查系统将抽样调查列为统计调查的主体 与全面调查相比 它具有以下明显的特点 经济性 对于有些现象尽管可以通过普查取得全面资料 但普查需要花费大量人力 财力 而采用抽样调查则可取得事半功倍的效果 时效性强 可以迅速及时地获得信息 适应面广 对于某些不可能进行普查的现象 只能通过抽样调查获取这些现象的部分数据 有可能获得比普查更高的数据质量 普查中工作量大 环节多 登记性误差往往很大 13 3 统计报表 统计报表是按照国家有关法规规定 自上而下地统一布置 自下而上地逐级提供基本统计报表的统计报告制度 是我国特有的统计调查方法 可以是全面调查 也可以是非全面调查 按报表内容和实施范围不同 分为国家 部门和地方统计报表按报送周期长短不同 分为日报 旬报 季报 半年报和年报按填报单位不同 分为基层统计报表和综合统计报表 14 2 1 3数据收集的方法 不论采用何种调查方式 在取得数据时都需要使用一些具体的数据搜集方法 数据的收集方法归纳起来可分为询问调查和观察实验两大类 询问调查是调查者与被调查者与被调查者直接或间接触以获得数据的一种方法 观察或实验 调查者通过直接的观察或实验获得数据的方法 15 数据收集方法的分类 数据的收集方法 16 1 访问调查 调查者与被调查者通过面对面地交谈而获得资料 可分为标准式访问和非标准式访问 标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷 17 访问调查中的注意事项 在访问调查中 调查者到人地生疏的地方搜集资料 且被调查者往往又不愿意提供的这些资料 为顺利完成调查访问工作 调查者事前的准备工作非常重要 事前的准备工作包括以下内容 仪容仪表携带访问工具预约并先了解访问对象熟记问题及方法运用各种技巧激发被调查者主动合作注意自身的安全 18 2 邮寄调查 也称邮寄问卷调查 是一种标准化调查 调查者与被调查者没有直接的语言交流 信息的传递依赖于问卷 通过某种方式将调查表或问卷送至被调查者手中 由被调查者填写 然后将问卷寄回指定收集点 问卷或表格的发放方式有邮寄 宣传媒介传送 专门场所分发三种 19 3 电话调查 您好 我是 调查公司的调查员 调查者利用电话与被调查者进行语言交流以获得信息 优点 时效快 成本低 覆盖面广 可以对任何有电话的地区 单位和个人直接进行调查 缺点 每次调查时间不能过长 不能提过于复杂的问题 对挂断电话拒绝回答者很难做工作 20 4 电脑辅助调查 又称电脑辅助电话调查 电脑与电话相结合完成调查的全过程 一般需借助专门的软件进行 硬件设备要求较高 21 5 座谈会 也称集体访谈 将一组被调查者集中在调查现场 让他们对调查的主题发表意见以获得资料 参加座谈会的人数不宜过多 一般为6 10人 侧重于定性研究 22 6 个别深度访问 一次只有一名受访者参加 针对特殊问题的调查 适合于较隐秘的问题 如个人隐私问题 或较敏感的问题 如政治方面的问题 侧重于定性研究 23 7 观察法 就调查对象的行动和意识 调查人员边观察边记录以收集所需信息 调查人员不是强行介入 能够在被调查者不察觉的情况下获得资料 24 8 实验法 在设定的特殊实验场所 特殊状态下 对调查对象进行实验以获得所需资料 研究在其它条件相同的条件下 所控制的一个 或一组 变量对另外一个 或一组 变量的影响 25 2 2调查设计 26 2 2 1调查方案的主要内容 调查方案 指导整个调查过程的纲领性文件 主要内容 调查目的 为什么调查 调查对象和调查单位 向谁调查 调查内容 调查什么 调查时间及其他问题 27 1 调查目的和调查对象 调查目的 调查要达到的具体目标 调查之前必须明确 调查对象 调查研究的总体或调查范围 调查单位 需要对之进行调查的单位 可以是调查对象的全部单位 全面调查 也可以是调查对象中的一部分单位 非全面调查 填报单位 负责报送统计数据资料的单位 28 例子 农产量抽样调查制度 是国家统计局为取得高质量的农产品产量等相关指标数据 在全国范围内统一抽选样本调查 推算 并由直属调查队伍实施的抽样调查制度 2003年全国共抽选了约 万个样本地块进行实割实测调查 并运用这些样本科学地推算全国粮食产量数据 问 调查目的 调查对象 调查单位 填报单位 29 2 调查内容 调查内容 需要调查的具体项目 通常以表格的形式来表现 称为调查表 调查表的组成部分 表头 说明调查表的名称 被调查单位的名称质等 表体 调查的具体项目 表脚 填报人签名 日期等 30 3 调查时间及其他问题 调查时间 两种含义 调查资料所属的时间 回答 调查何时 的问题 调查工作的起止时间 回答 何时调查 的问题 例如 1990年第四次人口普查规定的资料所属时间为 1990年7月1日0时 普查的工作期限是 1990年7月1日至7月10日完成普查的登记工作 调查所采用的方式方法 调查组织与实施的具体安排 31 2 2 2问卷设计 问卷设计的原则问卷的基本结构问卷中问题的设计问卷中答案的设计问题顺序的设计 32 问卷设计的步骤 1 根据研究目的建立分析架构 2 决定问卷之形式 3 编拟问卷初稿 4 邀请专家学者检查 修订问卷 5 预试问卷 6 问卷定稿并订定使用说明 33 1 保罗 海格等 问卷设计的10条原则 1 考虑调查的目标 考虑怎样完成访问 考虑 公式化 boilerplate 的信息和说明 即在不同调查中通用的内容 考虑设计 问卷应清晰易读 考虑被调查者 问题应以与被调查者友好的交流方式设计 34 1 问卷设计的10条原则 2 考虑问题的顺序 应该容易地从一个问题转到另一个问题 并且按逻辑顺序编排各个主题 考虑问题的类型 调研人员可以选择开放型问题或封闭型问题 考虑问题的同时要考虑可能的答案 考虑怎样处理数据 考虑对调查者的指导 35 2 问卷的基本结构 问卷的基本结构 开头部分 甄别部分 主体部分 背景部分 问候语 填写说明 问卷编号 也称过滤 通过一些问题筛掉不符合条件的被调查者 要调查的全部问题 以及这些问题可供选择的答案 被调查者的性别 职业 收入 文化程度 婚姻状况等 36 3 问卷中问题的设计 1 提问的内容尽可能短 问题中应该坚决摒弃多余的修饰词 提问的内容尽可能的短 若问题比较复杂 应将其分为几个问题来问 我国越来越多的人去国外旅游 您曾经去别的国家旅游过吗 如果去过 您也许是为了欣赏风光才去的 那么 别国的风光对您决定出国旅游有多重要 Q1 您出国旅游过吗 1 是2 否 终止访问 Q2 那里的风光对您决定去旅游有多重要 37 2 用词要确切通俗 避免不具体的问题 问卷中的用词要确切 通俗 应容易被人理解 应避免使用过于专业的术语 设计的问题要适合所有被调查者 提问目的要明确 避免模棱两可 Q 您对本餐厅是否满意 1 满意 2 一般 3 不满意满意一般不满意Q1 您对本餐厅饭菜质量是否满意 Q2 您对本餐厅环境设施是否满意 Q3 您对本餐厅服务态度是否满意 38 3 一项提问只包含一项内容 一个问句最好只问一个要点 一个问句中如果包含过多询问内容 会使被调查者无从答起 给统计处理也带来困难 你经常看电影和电视吗 39 4 避免诱导性提问 应避免诱导性 暗示性的提问 诱导性提问会导致两个不良后果 被调查者不加考虑就同意所诱导问题中暗示的结论 由于诱导性提问大多是引用权威或大多数人的态度 被调查者就会产生心理上的顺向反应 绝大多数饮用过光明奶的人都认为它口味纯正 您认为是这样吗 40 5 避免否定形式的提问 否定式的提问会影响到被调查者的思维 或容易造成相反意愿的回答 Q 您不认为听到国歌不立正是不对的吗 1 是 2 不是 41 6 避免敏感性问题 敏感性问题是指与个人或单位的隐私或私人利益有关而不便向外界透露的问题 问卷中要尽量避免提问敏感性问题或容易引起人们反感的问题 对敏感性问题的调查应当在提问的方式上进行推敲 尽量采用间接询问的方式 用语也要特别婉转 以降低问题的敏感程度 你是否在考试中作过弊 您是否有酒后驾车行为 42 4 问卷中答案的设计 开放性问题是指对问题的回答未提供任何具体的答案 由被调查者根据自己的想法自由做出回答 属于自由回答型 封闭型问题是指对问题事先设计出了各种可能的答案 由被调查者从中选择 封闭型问题答案的设计方法主要有 两项选择法 多项选择法 顺序选择法 评定尺度法 双向列联法等 43 1 二项选择法 二项选择法也称二分法 即提出的问题只有两种答案 是 或 否 有 或 无 等 这两种答案是对立的 排斥的 被调查者的回答非此即彼 不能有更多的选择 如 您是否购买了笔记本电脑 A 是B 否 44 2 多项选择法 有些问题还需要采用选择多个答案 以统计出多个答案的重要性及差别 Q1您购买山地自行车的原因是 可多选 A 经济条件许可B 用于代步工具C 便于郊外旅游 锻炼身体D 别人有你也想有 赶时髦E 作为礼物送给亲人朋友F 其它 45 3 顺序选择法 顺序选择法的问题是列出若干个答案 要求被调查者按其重要性或记忆的先后顺序将它们一一排列 Q 您在找工作的过程中遇到的主要问题是 请您依次排序 A专业不对口B没有本地户口C缺乏社会关系D招聘信息不足E性别歧视F其他 46 4 评定尺度法 评定尺度法也称量表法 量表是一种工具 是将一些主观的 抽象的概念定量化 Q 您对我校教学评估体系总体感觉如何 A 非常满意B 比较满意C 一般D 不太满意E 非常不满意 47 5 双项列联法 将两种不同的问题综合一起 通常用表格的形式来表现 可以节省问卷的篇幅 Q 请在您赞同项目的空格内划 48 设计问题答案时的注意事项 答案要穷尽 答案要互斥 您上月的支出中花费最多的是 A食品B服装C书籍D饮料E其它 49 5 设计问题顺序应注意的问题 1 问题的安排应具有逻辑性 2 问题的安排应先易后难 由浅入深 3 问卷主体部分的问题通常按过滤性 热身性 容易性 困难性的顺序进行排列 50 2 3概率抽样与非概率抽样 51 抽样调查方法的分类 52 抽样单元和抽样框 在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分 每个部分称为一个抽样单位 抽样单元 Samplingunit 抽样单位可以是一个总体单位 也可以包含多个个体 抽样单位的名单称为抽样框 SamplingFrame 抽样框应尽可能与目标总体相一致 例如名单抽样框 区域抽样框 时间表抽样框 从全校100个班级中抽选10个班进行调查 抽样单位和抽样框 从5000名学生中抽选500名学生进行调查 抽样单位和抽样框 53 1 简单随机抽样 SimpleRandomSampling 也称纯随机抽样 直接从总体单位中抽选样本单位 每个个体被选入样本的概率都相等 可分为有放回和无放回两种方式 是最基本的抽样方法 许多抽样方法都是在它的基础上发展起来的 其数学性质简单 理论也最为成熟 54 有放回抽样和无放回抽样 有放回抽样 也称为重复抽样 在一个单位被选入样本后 记录其编号 然后又将其放回总体中继续参与随后的抽样过程 无放回抽样 也称为不重复抽样 在一个单位被选入样本后 不再放回总体参与随后的抽样过程 55 有放回抽样和无放回抽样 问题 不重复抽样中每个个体被选中的概率相等吗 重复抽样的计算公式比不重复抽样简单 但误差也比不重复抽样略大 第4章有进一步的讲解 实际应用中一般采用不重复抽样 56 抽选样本单位的方法 从N个总体单位中抽选n个单位组成样本 可以先将N个单位编号 若抽到某个号则对应的单位入样 通常有抽签法和随机数法两种抽选方法 抽签法 用均匀同质的材料制作N个签并充分混合 然后一次抽取n个签 或一次抽取一个签但不放回 直至抽满n个签为止 随机数法 随机数表随机数骰子摇奖机计算机产生的伪随机数 57 随机数表的使用 396576454519906964612026363162 737123709065976012119840071766 722047338451674797199840071766 751725691717952178582433457748 374879887463520634300131601027 028908169485538329955627092443 58 简单随机抽样最适用的场合 当总体内样本单位不多 且有完备名册 可用于编号时 对研究的目的而言总内样本单位间的差异不大时 无法充分获得总体信息时 由于编制抽样框及抽取的样本可能过于分散等原因在实际实施中有一定困难 加之没有利用其他辅助信息提高估计的效率 所以大规模调查中很少直接采用 59 2 系统抽样 SystematicSampling 系统抽样 也称等距抽样 将总体N个单位按某种顺序排列 按规则确定一个随机起点 再每隔一定间隔逐个抽取样本单位的抽样方法 直线等距抽样 将总体分成n个组 每组有k N n个单位 在第一组随机选择一个单位 之后每隔k个选择一个 N 64n 8k 8 第一组 60 等距抽样的特点 等距抽样可分为无关标志排队和有关标志排队 按无关标志排队 各单元的排队顺序与所研究的内容无关 按有关标志排队 各单元的排队顺序与所研究的内容有关系 优点 抽取样本简便易行 易于监控 主要适用场合总体内的样本单位 对有兴趣的指标而言是随机的或按大小排列的总体内单位数过多 而抽取的样本又较多时总体内的单位数不能确定时 例如抽取学号最后一位为8的学生进行调查 61 按无关标志排队时等距抽样的特点 按无关标志排队时 如果单位的排列存在周期性 而抽样间隔又恰好与周期的长度一致时 样本的代表性可能很差 62 按有关标志排队时等距抽样的特点 按有关标志排队时 相应的指标数值有线性趋势 按照普通的等距抽样方法会导致样本指标的偏大或偏小 为了避免这一问题需要采取对称等距抽样的方法 这时样本单位在总体中分布比较均匀 有利于提高估计的精度 直线等距 对称等距 对称等距 63 3 分层抽样StratifiedSampling 也称分类抽样或类型抽样 即先将总体所有单位按某种标志划分为若干层 然后从各层中随机抽取一定数目的单位构成样本 根据各层样本汇总对总体指标作出估计的一种抽样方式 男生 女生 样本 64 分层抽样的特点 问题 分层抽样中在分层时使用了已知的信息 还符合随机原则吗 可以提高样本的代表性 提高估计的精度 在估计总体参数的同时还能估计每层的参数 抽样误差只受层内方差的影响 分层时应使层间方差大 层内方差小 最适用的场合 当总体内样本单位的差异较大时 分层后能达到层间差异大 层内差异小的原则时 65 按比例分层抽样和不按比例分层抽样 按比例分层抽样 各层的抽样比例都相等 等于n N 在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计 需要采用不按比例分层抽样 在不按比例的分层抽样中如果要用样本资料推断总体 需要对各层的数据资料进行加权处理 66 不按比例分层抽样 不等概率抽样 的例子 假设要从1000亩农田中抽取100亩调查小麦的平均亩产 1000亩耕地中有600亩为平原 400亩为丘陵 平原地区的亩产量相差不大 方差很小 而丘陵地区亩产量的差别很大 方差大 按比例抽样 平原和丘陵各抽60亩和40亩 不按比例抽样 为了更准确地估计丘陵地区的平均亩产 在丘陵地区多抽一些农田 例如70亩 从平原地区抽取30亩 这时总体平均亩产的估计值为 67 4 整群抽样ClusterSampling 先将总体分为R个群 即次级单位或子总体 每个群包含若干总体单位 按某种方式从中随机抽取r个群 然后对抽中的群的所有单位都进行调查的抽样方式 随机选择2个群构成样本 68 整群抽样的特点 样本单位比较集中 容易集中力量进行调查 便于组织与管理 也节省了调查时间和费用 不需要所有总体单位的抽样框 由于样本单位不能均匀的分布在总体中 所以样本的代表性要差一些 对策 增大样本容量 抽样误差受群间方差的影响 不受群内方差的影响 分群时应使群间方差小 最适用的场合 总体名单不易获得时为节省调查成本时群内差异大 而群间的变异小时 69 5 多阶段抽样 先从总体中随机地抽取若干初级单位 再从初级单位中抽取若干二级单位 如此下去直至抽取所要调查的基本单位的抽样方法 例如 统计年鉴2004指出 2003年人口变动情况抽样调查是以全国为总体 各省 自治区 直辖市为次总体 采用分层 等距 整群概率比例抽样方法 在全国31个省 自治区 直辖市抽取了990个县 市 区 3734个乡 镇 街道 6544个调查小区的126万人 70 多阶段抽样的特点 适用于总体分布很广 不可能从总体中直接抽取样本单位的情况 不需要全部低级单位的抽样框 节省了调查费用 方法灵活多样 抽样调查的组织方式完全取决于调查研究的目的要求 调查对象的特点和客观的条件 凡是能够最经济 最省时而又能够满足预期精确度和可靠性的组织方式 便是一种好的组织方式 这也是抽样设计的最根本的原则 71 非概率抽样 不满足概率抽样要求的抽样都被归为非概率抽样 非概率抽样中单个单位被选中的概率是不可知的 无法根据样本计算抽样误差 72 方便抽样Conveniencesampling 纯粹以方便基本着眼的抽样方法 事先不预定样本 碰到即问或被调查者主动回答问题 也译为便利抽样 偶遇抽样 例如 在街头的拦截式访问 登在报刊 网上的问卷 73 判断抽样JudgmentSampling 调查者根据主观经验和判断从总体中选取有代表性的单位构成样本 精度取决于抽样者的经验 不能获得估计值的精度 适用于总体单位极不相同而样本容量又很小的情况 74 配额抽样Quotasampling 是非随机抽样方法中最常用的一种抽样方法 分为两个步骤 根据研究人员认为较重要的一些变量把总体单位分类 指定每一类中的定额 然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位 问题 与分层抽样的区别 75 雪球抽样SnowballSampling 也译为滚雪球抽样 其原理是先找到最初的样本单位 然后根据他们提供的信息去获得新的样本单位 这种过程不断继续 直到完成规定的样本容量为止 主要用于对稀少群体的调查 例如某研究部门在调查保姆问题时 先访问了7名保姆 然后再请她们提供其他保姆名单 逐步扩大到近百人 76 2 4抽样调查中的误差 77 误差与抽样误差 误差是指估计值与真实值之间的差异 抽样误差 Samplingerror 由于抽选样本的随机性造成的误差 也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论