统计学第2章幻灯片.ppt_第1页
统计学第2章幻灯片.ppt_第2页
统计学第2章幻灯片.ppt_第3页
统计学第2章幻灯片.ppt_第4页
统计学第2章幻灯片.ppt_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据的搜集 P12 学习目标 数据的来源搜集数据的调查方法搜集数据的实验方法数据的误差数据的质量要求 文学文摘 的总统选举预测 P12 这个故事有关一次著名的失败的统计调查 在1936年美国总统选举前 一份名为 文学摘要 LiteraryDigest 的杂志曾进行了一次民意调查 调查的焦点是谁将成为下一届总统 是挑战者 堪萨斯州州长阿尔夫 兰登 AlfLandon 还是现任总统富兰克林 德拉诺 罗斯福 FranklinDelanoRoosevelt 样本的选择 根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表 在收回的调查表中看到 兰登非常受欢迎 文学摘要 极其自信地发表了预言 共和党候选人兰登 AifLondon 将以 比 战胜罗斯福 结果 罗斯福以 比 战胜兰登 文学摘要 杂志最终 关门大吉 1 样本选取问题 电话和汽车在1936年并不像现在这样普遍 拥有者的观点并不能够很好地反映全体选民的观点 2 缺失数据的影响 忙于生计的一般家庭收到问卷后大多拒绝回应 ContentTitle 间接来源 直接来源 别人调查或实验的数据 自己调查或实验的的数据 2 1 1数据的间接来源2 1 2数据的直接来源 2 1数据的来源 P12 2 1 1数据的间接来源 P13 从别人调查或实验 即数据的间接来源 获取的数据又称为二手数据系统外部的数据统计部门和政府部门公布的有关资料 如各类统计年鉴各类经济信息中心 信息咨询机构 专业调查机构等提供的数据各类专业期刊 报纸 书籍所提供的资料各种会议 如博览会 展销会 交易会及专业性 学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料 2 1 1数据的间接来源 P13 系统内部的数据 业务资料 如与业务经营活动有关的各种单据 记录 经营活动过程中的各种统计报表 各种财务 会计核算和分析资料等 2 1 1数据的间接来源 P13 二手数据的特点 P14 优点 1 搜集容易2 采集快 成本低3 作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径局限性 1 针对性 相关性可能不强2 数据可能不准确或者过时在研究中一般会优先考虑搜集二手资料 但也要注意到其局限性 故要进行评估 2 1 1数据的间接来源 P13 二手数据的评估 P14 数据是谁搜集的 可信度评估2 为什么目的而搜集的 3 数据是怎样搜集的 4 什么时候搜集的 2 1 2数据的直接来源 P14 由使用者自己调查或实验 即数据的直接来源 获取的数据又称为一手数据 调查数据通过调查方法获得的数据通常是对社会现象而言通常取自有限总体实验数据通过实验方法得到的数据通常是对自然现象而言也被广泛运用到社会科学中如心理学 教育学 社会学 经济学 管理学等 2 2调查数据 P15 2 2 1概率抽样与非概率抽样2 2 2搜集数据的基本方法 2 2调查数据 调查数据也称观测数据 观测数据是指仅通过对研究对象客观地观察 而没有操纵或控制它 所得到的数据 如果能够收集到总体中所有个体的数据 称为普查 如果只从总体中抽取样本 收集样本的数据 称为抽样调查 在解决实际问题时由于人力 物力 财力 时间以及不断变化的环境条件等等约束 普查经常很困难 人们就会采用抽样调查 抽样调查 案例 在一个水库中养着许多鱼 管理人员希望了解鱼的大致数量 这就是一个实践中的统计学问题 问题 有什么办法可以大致计算出水库中的鱼 由于鱼是不听从指挥 会在各处自由游动的 因此 在进行统计时 必须创造性地提出解决方案 一种解决方法是 先从水库的不同位置一共捕上来1000条鱼 在每条鱼的尾部作上一个标记 应当保证标记不会影响鱼的自由游动 然后 将鱼全部放回水库 几天后 从水库中再捕上来2000条鱼 检查其中尾巴上有标记的鱼的数量 假定在第二次捕上来的2000条鱼中 有20条尾巴上做了标记 则可以推断 水库中鱼的总数大致为1000 20 2000 10万条 样本的选择问题 由于样本选择对于结果的可信度有重要作用 如何选择样本成为统计研究者所面临的一个关键问题 希望基于样本得出的结论能够适用于该样本所属的总体 这依赖于 好 样本 什么是好样本 以烹调为例子说明 当我们品尝一勺我们做的汤时 我们关心的不是这勺汤怎样 而是整个锅里的汤味道如何 所以在舀这勺汤之前要先把锅里的汤充分搅拌 这样只需品尝一勺 即样本 而且是好样本 即可知道整锅汤 总体 的味道 从某种意义上来说 我们从总体中选择一个样本时 也希望选择一个来自 搅拌均匀 的总体的样本 当然在解决实际问题时不是那么容易做到 需要有正确地选择样本的方法 否则出错难以避免 2 2 1概率抽样和非概率抽样 P15 概率抽样 probabilitysampling 也称随机抽样是指遵循随机原则进行的抽样 特点按一定的概率以随机原则抽取样本每个单位被抽中的概率是已知的 或是可以计算出来的当用样本对总体目标量进行估计时 要考虑到每个样本单位被抽中的概率 随机原则 randomprinciple 是指在抽样时排除主观上有意识地抽取调查单位 使每一个单位都有一定的机会被抽中 概率抽样 简单随机抽样 simplerandomsampling P16 又称单纯随机抽样 是最基本的抽样方法 从总体N个单位中随机地抽取n个单位作为样本 总体中每一个个体都有相等的被选中的机会 分为重复抽样和不重复抽样 在重复抽样中 每次抽中的单位仍放回总体 样本中的单位可能不止一次被抽中 不重复抽样中 抽中的单位不再放回总体 样本中的单位只能抽中一次 纯随机抽样的具体作法有 抽签法 将总体的全部单位逐一作签 搅拌均匀后进行抽取 随机数字表法 将总体所有单位编号 然后从随机数字表中一个随机起点 任一排或一列 开始从左向右或从右向左 向上或向下抽取 直到达到所需的样本容量为止 概率抽样 简单随机抽样 simplerandomsampling 特点简单 直观 在抽样框完整时 可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时 不易构造抽样框 适合较小总体 抽出的单位很分散 给实施调查增加了困难没有利用其它辅助信息以提高估计的效率纯随机抽样必须有一个完整的抽样框 即所有总体单位的清单 若没有抽样框 则不能计算样本单位的概率 从而也就无法进行概率选样 抽样框又称 抽样框架 抽样结构 是指对可以选择作为样本的总体单位列出名册或排序编号 以确定总体的抽样范围和结构 设计出了抽样框后 便可采用抽签的方式或按照随机数表来抽选必要的单位数 随机样本 P12 思考题 学校给我们班5个免费旅游的机会 大家都想去 怎么办 选择一个简单随机样本做法之一 将叠好的写有同学名字 或学号 的纸签放进一个纸箱子里 搅拌均匀 并随机抽取 抽到的人就构成一个简单随机样本 重复抽样还是不重复抽样 抽样框是什么 概率抽样 2 分层抽样 stratifiedsampling P17 又称分类抽样或类型抽样 先将总体按某种特征分为若干层 次级总体 然后再从每一层内进行单纯随机抽样 组成一个样本的方法 一般地 在抽样时 将总体分成互不交叉的层 然后按一定的比例 从各层次独立地抽取一定数量的个体 将各层次取出的个体合在一起作为样本 这种抽样方法就是一种分层抽样 适用条件 分层抽样尽量利用事先掌握的信息 并充分考虑了保持样本结构和总体结构的一致性 这对提高样本的代表性是很重要的 当总体是由差异明显的几部分组成时 往往选择分层抽样的方法 例 一个单位的职工有500人 其中不到35岁有125人 35岁至49岁的有280人 50岁以上的有95人 为了了解这个单位职工与身体状况有关的某项指标 要从中抽取一个容量为100的样本 由于职工年龄与这项指标有关 决定采用分层抽样方法进行抽取 因为样本容量与总体的个数的比为1 5 所以在各年龄段抽取的个数依次为125 5 280 5 95 5 即25 56 19 概率抽样 2 分层抽样 stratifiedsampling P17 优点分层抽样的特点是将科学分组法与抽样法结合在一起 分组减小了各抽样层变异性的影响 抽样保证了所抽取的样本具有足够的代表性在不断增加样本规模的前提下降低抽样的误差 提高抽样的精度 便于了解总体内不同层次的情况 便于对总体不同的层次或类别进行单独研究 分层的原则以调查所要分析和研究的主要变量或相关变量作为分层标准 以保证各层内部同质性强和各层之间的异质性强 突出总体内在结构的变量作为分层变量 以那些已有明显层次区分的变量作为分层变量 概率抽样 3 整群抽样 clustersampling P17 又称聚类抽样 将总体中若干个单位合并为组 群 抽样时直接抽取群 然后对选中群中的所有单位全部实施调查的方法 特点抽样时只需群的抽样框 可简化工作量调查的地点相对集中 节省调查费用 方便调查的实施缺点是样本分布面不广 样本对总体的代表性相对较差 估计的精度较差 整群抽样与分层抽样的区别 1 整群抽样群间差异小 群内差异大 分层抽样群间差异大 群内差异小2 分层抽样的样本是从每个层内抽取若干单元或个体构成 而整群抽样则是要么整群抽取 要么整群不被抽取 概率抽样 4 系统抽样 systematicsampling P17 又叫做等距抽样或机械抽样 将总体中的所有单位按一定顺序排列 根据样本容量要求确定抽选间隔 然后随机确定起点 每隔一定的间隔抽取一个单位的一种抽样方式 是纯随机抽样的变种 具体做法 先将总体从1 N相继编号 并计算抽样距离k N n 式中N为总体单位总数 n为样本容量 从数字1到k之间随机抽取一个数字r作为初始单位 以后依次取r k r 2k 直至抽够n个单位为止 优点 操作简便 可提高估计的精度缺点 对估计量方差的估计比较困难要防止周期性偏差 因为它会降低样本的代表性 例如 军队人员名单通常按班排列 10人一班 班长排第1名 若抽样距离也取10时 则样本或全由士兵组成或全由班长组成 例 产品检验 在某道工序上定时去抽一件产品进行检验 就可以看做是系统抽样法的一个例子 概率抽样 5 多阶段抽样 multi stagesampling P18 先抽取群 但并不是调查群内的所有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论