《数据的收集》PPT课件.ppt_第1页
《数据的收集》PPT课件.ppt_第2页
《数据的收集》PPT课件.ppt_第3页
《数据的收集》PPT课件.ppt_第4页
《数据的收集》PPT课件.ppt_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文学文摘预测罗斯福竞选落败,在美国1936年的总统选举中,两位竞争者分别是民主党的罗斯福和共和党的兰登。竞选前美国著名杂志文学文摘发放了1000万份的调查问卷,通过对收回的240万张问卷及电话调查的结果进行分析,预测兰登将获得57%的选票 而最后的投票结果是:罗斯福以62%对38%一边倒优势胜出。 文学文摘也最终因此而破产倒闭。 问题:为什么文学文摘调查的样本量如此之大,结果却那样离谱?,1、样本抽选有偏差 兰登的支持者主要是富裕阶层,大资产阶级,而罗斯福的支持者主要是一般工薪阶层、中下层平民。 在1936年,美国约有1100万户家庭拥有电话,有900多万失业人口。 2、没有考虑缺失数据的影响 在芝加哥对三分之一的选民进行调查,只有20%的比较富裕的阶层给予回答。,盖洛普预测,民意调查(二),1948年的美国总统选举中,两位竞争者分别是共和党的杜威和民主党杜鲁门。 The buck stops here 杜鲁门,1、配额抽样 例如,盖洛普的民意测验在圣. 路易斯访问13对象,要求 (1) 6人住近郊,7人住在市中心 (2) 男的7人,女的6人 (3)7个男的中3个40以下,4人40岁以上 2、访问人员自由选择配与定额的方法,调查偏差的原因,共和党偏性,盖洛普民意测验记录,2010年9月,第2章 数据的搜集,2.1 数据的来源 2.2 调查数据 2.3 实验数据 2.4 数据的误差,2010年9月,2.1 数据的来源,原始数据和二手数据的比较,2010年9月,系统外部的数据,统计部门和政府部门公布的有关资料 专业调查机构提供的数据 各种会议,学术性研讨会上交流的资料 从互联网或图书馆查阅到的相关资料,2010年9月,系统内部的数据,业务资料: 发票 统计资料:统计报表 财务资料:成本 其他资料:顾客建议,2010年9月,二手数据的评估,数据的可靠性 数据收集的目的性 数据收集的方法 数据的及时性,金钱杂志公布了一项研究,揭示了消费者认为的航空公司最重要的特点。按照重要性顺序,依次是安全、价格、行李处理、按时起飞、乘客服务、以及食品。 金钱根据这些特点评出了美国10家最大的航空公司。,二手数据评估,数据的直接来源,实验数据 通过实验方法得到的数据 通常是对自然现象而言 也被广泛运用到社会科学中 如心理学、教育学、社会学等,2010年9月,数据的直接来源,1. 调查数据 通过调查方法获得的数据 通常取自有限总体,2. 按调查包括的范围: (1)全面调查:普查 (2)非全面调查:重点调查、典型调查、 抽样调查,普查:对总体中的所有个体进行调查 如:人口普查、工业普查等 特点: (1)通常是周期性的,一般需间隔较长时间; 逢“0”年份:人口普查 逢“3”年份:第三产业普查 逢“5”年份:工业普查 逢“7”年份:农业普查,普查,(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏;,(3)准确性一般较高,较规范; (4)只能调查一些最基本、最一般的现象。,如:第五次人口普查登记的标准时间是2000年11月1日凌晨零时,2010年9月,2.2 调查数据,概率抽样与非概率抽样 搜集数据的基本方法,2010年9月,概率抽样和非概率抽样,2010年9月,概率抽样,也称随机抽样 2. 特点:按随机原则抽取样本 个体都有一定的机会被抽中 个体被抽中的概率是已知的 样本可以对总体目标量进行估计,3. 抽样框:所有总体单位信息,2010年9月,简单随机抽样,定义: 从总体中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的 最基本的抽样方法,是其它抽样方法的基础,在某城市某街道所管辖的10000户居民中,抽取200户居民,就居民对某种商品的需求量进行调查,就可以做10000张纸片,写上1-10000号,从中随机(或按随机数)抽取200张,被抽中的居民即为样本。,简单随机抽样例子,特点 简单、直观 对参数进行估计比较方便 局限性 当总体量很大时,不易构造抽样框 抽出的单位很分散 没有利用其它辅助信息,2010年9月,分层抽样,将抽样单位按某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。,分层抽样的步骤,() 确认目标总体。 () 决定样本数。 () 决定分层标志。 () 将总体按照分层标志分成若干类,其 中每一类称为一层。 () 在每一层中随机抽取出足够的样本。,消费倾向调查,在进行消费倾向调查时,按年龄将调查人口分为老年人、中年人、青年人三类。总调查人口6000人,其中:老年人1000人,中年人2000人,青年人3000人。现从中抽取200人。 问题:如采用等比例分层抽样,如何确定样本数量?,老年类抽取样本数,中年类抽取样本数,青年类抽取样本数,调研某地家用电器产品的潜在用户,分层抽样的优点,优点 样本的结构与总体的结构比较相近 既可以对总体参数进行估计,也可以对各层的目标量进行估计,2010年9月,整群抽样,定义:将总体中若干个单位合并为群,抽样时直接 抽取群,然后群中的所有个体全部实施调查 特点: 只需群的抽样框,可简化工作量 调查的地点相对集中 缺点是估计的精度较差,抽取2000个样本。假定该市共有1000个居委会,每一个居委会平均有100户居民。这样,就可以居委会为单位,采用纯随机抽样抽出20个居委会,共2000户,然后把这20个居委会的2000户视为样本进行普查。,调查某城市居民户的经济情况,整群抽样与分层抽样的区别,1、 分层抽样分成的各类彼此之间差异明显, 而每类内部差异不大; 2、整群抽样的群间彼此差异不大,而每群之内差异明显。 3、 分层抽样每类都按一定比例抽取样本,而整群抽样是从总群中抽出若干群,2010年9月,系统抽样,定义:将个体按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位 优点:操作简便 缺点:对总体参数的估计比较复杂,() 将总体单位排列。 () 决定抽样间距(总体单位数样本数)。 () 采用简单随机抽样法抽出一个单位作为起点。 () 取得一个样本单位后,每隔一个抽样间距抽 取一个单位,直到样本数足够为止。,系统抽样的步骤,系统抽样例子,对1000个企业进行抽样调查,样本数为100,则抽样时间距为1000/100=10。我们可在1-10中随机抽取一个单位,作为起点。譬如,单位 3 为起点,则样本单位号码依次为3,13,23,33,直至样本数量达到100个为止。,2010年9月,多阶段抽样,要经历两个或以上阶段才能抽到样本 具有整群抽样的优点 具有更广泛的范围 常用于大规模的抽样调查中,普查表长表抽样方法,长表抽样方法,第六次全国人口普查方案 普查表长表抽取10%的户填报 普查表短表由其余的户填报 10%的长表登记户如何抽? 2000年的每隔10户抽一户 2010年拟抽取长表住户组 长表住户组为相邻4户一组,抽样框审核,注意: 在户主姓名底册中 参与长表抽样户 居住在本地的家庭户和集体户 离开本地不满半年的家庭户,不参与长表抽样的户 全户为港澳台或外籍人员的户 全户寄挂户口的户 全户外出半年以上的户 全户因房屋拆迁已离开本地户 全户死亡的户 无人居住且无户口寄挂空房户,抽样框审核,1、普查区第一个普查小区随机起点的确定 随机起点在1-10内确定 随机起点为负责长表抽样人员,取本人生日的最后1位数 1- 9 对应随机起点 1-9 0 对应随机起点 10,长表调查户抽取,其后普查小区的随机起点=前一个小区的随机起点+1(如11减10为1),例1本人生日的最后1位数是5。,例2本人生日的最后1位数是0。, 住户组的抽取方法几种情况 1、普查小区对于户主姓名底册最大“户编号” 在40以上。 2、对于户主姓名底册最大“户编号”不足40(20-39户),要保证抽取一个住户组(相邻4户组成)。 3、对于户主姓名底册最大“户编号”不足20(1-19户)要保证抽取相邻的2户。,1、户主姓名底册最大“户编号”在40以上 将普查小区随机起点 乘 4 得到数值为第一个抽中住户组的尾数 随机起点为3 34=12 抽中住户组的尾数,会同尾数相邻的前3户,组成了第一个抽中的住户组抽中第一个住户组在户主姓名底册“户编号” 9,10,11,12, 第二个抽中的住户组 = 第一个抽中住 户组所对应的户编号加40 抽中第二个住户组 “户编号” 49,50, 51,52, 第三个抽中的住户组 = 第二个抽中住户 组所对应的户编号加40 抽中第三个住户组 “户编号” 89,90, 91,92 以此类推,直到住户组数超出了户主姓名底册的最大“户编号“为此。 如普查小区最大“户编号“ 80 ,抽中第三个住户组 ,“户编号” 89,90,91,92, 超出了普查小区最大“户编号“ 80, 该小区最后一组长表住户组,“户编号”为 49,50,51,52,普查小区随机起点为3,如果类推抽取的住户组所对应的“户编号”, 超出普查小区户主姓名底册最大“户编号”三户或三户以上,则该小区长表调查住户组抽取工作完成。该小区抽取的最后一个长表调查住户组为户主姓名底册临近最大“户编号”的一组。,如果类推抽取的住户组所对应的“户编号”超出最大“户编号”二户或一户,则该小区抽取的最后一个长表调查住户组为户主姓名底册最大“户编号”的最后4户。,1. 为了调查某校学生的购书费用支出,从男生中抽取60名学生,从女生中抽取40名学生调查,这种调查方法是() A. 简单随机抽样 B. 整群抽样 C. 系统抽样 D. 分层抽样,2. 为了调查某校学生的购书费用支出,从全校的抽取4个班级的学生进行调查,这种调查方法是() A. 简单随机抽样 B. 整群抽样 C. 系统抽样 D. 分层抽样,3. 为了调查某校学生的购书费用支出,将全校的学生的名单按拼音顺序排列,每隔50名学生抽取一名进行调查,这种调查方法是() A. 简单随机抽样 B. 整群抽样 C. 系统抽样 D. 分层抽样,非概率抽样,1、相对于概率抽样而言 2、抽取样本时不是依据随机原则,概率抽样与非概率抽样的比较,概率抽样 依据随机原则抽选样 可根据调查的结果推断总体 非概率抽样 不是依据随机原则抽选样本 无法使用样本的结果推断总体,方便抽样,依据方便的原则抽取样本 拦截式调查 优点:容易实施,调查的成本低 缺点:样本信息无法代表总体,判断抽样,研究人员根据经验有目的选择样本 重点抽样,典型抽样 样本选择的好坏取决于调研者的判断 抽样成本比较低,容易操作,自愿样本,被调查者自愿参加,成为样本中的一分子。 自愿样本与抽样的随机性无关 样本是有偏的 不能依据样本的信息推断总体,自愿样本例子,1984年的ABC之夜节目,请观众给电视台打电话,回答联合国是否应该继续留在美国,在超过186000个打电话者中,67%的人回答 “不”。 事实上,一份更科学的民意调查发现72%想让联合国留在美国。,滚雪球抽样,先选择一组调查单位,再请他们提供另外一些属于研究总体的调查对象,进行此后的调查。 适合于对稀少群体和特定群体研究 优点:容易找到那些属于特定群体,调查的成本也比较低,配额抽样,总体按一定的标志分为若干类,然后在每个类任意选取样本 操作简单,样本的结构和总体的结构类似 不是依据随机原则,属于非概率抽样,假定某单位有5000 名职工,其中男性占40%,女性占60%;专业技术人员和行政管理人员各占50%;生产部门占40%,营销部门、技术部门、财务部门分别占30%、20%和10%。现要用配额抽样方法依上述 个变量抽取一个规模为100人的样本。依据总体的结构抽取样本。,配额抽样实例,配额抽样实例,搜集数据的基本方法,自填式问卷调查,1、由被调查者自己完成调查问卷 方法有:调查员分发、邮寄、网络 2、要求调查问卷结构严谨,有清楚的说明 3、缺点 问卷的返回率比较低 不适合结构复杂的问卷 调查周期比较长 出现问题难于及时采取调改措施,面访式问卷调查,1、调查员与被调查者面对面提问、回答方式 2、优点 回答率高 数据质量高 可调节数据搜集所花费的时间 3、缺点 调查的成本较高,电话式问卷调查,您好! 我是调查公司的调查员,1、通过电话向被调查者实施调查 2、特点 速度快 适合于样本单位十分分散的情况 3、局限 访问的时间不能太长 使用的问卷需要简单,调查方法的比较,数据收集方法的选择,1.抽样框中的有关信息 2.目标总体的特征 3.调查问题的内容 4.有形辅助物的使用 5.实施调查的资源 6.管理与控制 7.质量要求,调查方案与问卷设计,一确定调查目标 二确定调查方法 三确定调查对象 四确定调查时间 五经费预算 六制定调查的组织计划,调查方案内容,关于福建农林大学快递服务的满意度调查方案,调查目的: 大学生是快递服务的新生客户群体,对快递服务的需求日渐增长,通过调查本校校园快递用户的满意度,总结校园快递客户的总体特征和快递服务业的普遍问题,向快递公司提出可行的改进方案。让同学们享受更好的快递服务。,调查方法:对大学生采取随机抽样调查的方式 调查对象及样本分析 (1)调查对象:福建农林大学全体大学生 (2)样本分析:拟调查200份纸质样本,电子 样本,调查时间及工作期限安排: (1)讨论课题 2013.11.23 (2)问卷设计 2013.11.232013.11.29 (3)问卷发放及回收 2013.11.302013.12.03 (4)数据录入 2013.12.042013.12.06 (5)数据处理 2013.12.072013.12.09 调查经费: (1)打印问卷210份(其中10份为备份) 210 0.12 = 25.2 元 (2)此次调查所产生的经费平摊处理。,调查的组织计划:,问卷设计:林雅光、陈珊珊 财务负责:徐份如 实施问卷调查: (1)网上实行问卷调查(针对本校):陈锦超 (2)校园内发放问卷: 梁宇、徐份如、刘屿璠 陈洪泉、陈小琼 方案设计:黄婷婷 报告撰写:李小敏 数据处理分析:严梅 数据录入与编码设计:黄美琴,问卷设计,问卷设计,1、问卷开头 问候语 指导语 2、问卷的正文 被调查者的信息 问题和答案 3、问卷的结尾 开放性的题目,(1)问卷的开头 标题 中学生“追星”现状调查 指导语 同学,你好: 为了解你对“追星”这一普遍的社会现象的态度和看法,加深我们对你的了解,创建一个良好的校园文化氛围,请你协助进行这次调查。本次调查不记名,所以你不必顾忌,只需按照自己的真实情况,如实回答。谢谢! 填表说明: 1、请在每一个问题后适合自己情况的答案号码上画圈或者在画线处填上适当的内容。 2、若无特殊说明,一个问题只能选择一个答案。 3、问题没有对错之分,填写问卷时,请不要与他人商量。,问卷编制,问卷的正文 个人背景资料: 例:性别:男 女 。 具体调查内容: 例:你对自己喜欢的明星的熟悉程度如何? a.只是认识,知道名字,看过他们的表演或节目 b.知道他们的基本情况,如身高、体重、爱好、家庭等 c.努力地搜集有关他们的一切消息和新闻 问卷的结尾 例:题目已完,谢谢你真实、有效的回答,万分感谢! 题目已完,如果您对本次调查有什么意见或建议,请写在下面,谢谢!, 填空式 a.您的年龄是 岁? b.您家有几口人? 人 c.您有几个孩子? 个 d.您每天上班需要 (分钟)时间?,问题答案的设计,是否式,a.您是共产党员吗? 是 不是 b.您住在本市吗? 是 不是 c.您家有私家车吗? 有 没有 d.您赞成学分制吗? 赞成 不赞成 , 单选式,您的文化程度是( ) a.小学及以下 b.初中 c.高中或中专 d.大专以上,多项限选制,您喜欢看哪一类电视节目?(请最多选择三项打) a.新闻节目 b.电视剧 c.体育节目 d.广告节目 e.教育节目 f.歌舞节目 g.少儿节目 h.其他 (请注明),矩阵式,您对河北电信提供的下列服务看法如何?(请在所选方框内打) 很满意 满意 基本满意 不满意 很不满意 a.装机移机服务 b.话费查询服务 c.电话障碍修复 d.公用电话服务 ,条件式(追问式),你有喜欢和崇拜的明星吗? a.有 b.没有 如果有,请写下他们的名字 。,关于福建农林大学快递满意度的问卷,同学,您好!我们是计算机与信息学院2011级的学生,能否耽误您510分钟,帮我们填写下问卷,谢谢合作! 1、您平均一个学期寄收的快递数量是多少? A.0 B.1-2 C.3-6 D.6-10 E.10次以上 9、对于现在学校内的快递,你有什么样的要求? A.降低价格 B.改善服务态度 C.提高速度 D.增加快递点 E.送货

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论