版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-4-272022-4-27第一章第一章 数据收集数据收集 收集数据时需考虑的问题是: 相关总体 数据来源 提问 调查中的偏差 数据的类型2022-4-272022-4-27相关总体相关总体 总体是我们要调查或统计的某一现象的全部数据的集合。 要明确向什么总体收集数据,因为数据收集是花钱花时间有代价的。 数据的一种描述性的定义为:可以由它作出推断的已知事情或事物。 数据有各种不同的表达形式 对决策者而言,数据的质量是一个最大的问题。2022-4-272022-4-27数据来源 数据可分为两大来源:原始数据和二手数据 原始数据是直接向调查对象收集的数据。 其特点是为指定目的而收集。 二手
2、数据是收集已经加工、整理过的数据。 二手数据大部分来自官方统计,如年鉴、 月度统计报表、财经统计、经济趋势等。2022-4-272022-4-27数据来源数据获取的途径:调查、试验和模拟调查:只观察、记录或度量,但不对现场行为加以干 预,是被动的数据搜集方式。试验:能主动产生数据,是有计划、有选择地对受试 对象施加影响,来观察受试对象的反应。模拟:依据一定的基本数据使用计算机产生大量的随 机数据,来模仿随机现象,帮助进行决策。2022-4-272022-4-27数据来源原始数据得到的方法有:自填式、采访法、直接观察法和行政数据的调查等。数据收集的类型:普查和抽样调查 普查是根据统计任务的特定目
3、的而专门组织的一次性全面调查,一般局限于较小的总体。 抽样调查有随机抽样和非随机抽样 随机抽样:总体中每个单位都有相同的概率或机会被选中。几种重要的随机抽样有:简单随机抽样、分层随机抽样、等距随机抽样和整群随机抽样等。 2022-4-272022-4-27数据来源非随机抽样:抽样时不遵循随机原则,而是按照研究人员主观判断或仅按方便原则抽选样本。非随机抽样技术主要有:方便抽样、判断抽样、配额抽样和雪球抽样等。 配额(比例)抽样:是非随机抽样中最流行的一种,配额抽样类似于随机抽样中的分层抽样,首先将总体中的所有单位按一定的标志分为若干类(组),然后在每个类(组)中用方便抽样或判断抽样选取样本单位。
4、 2022-4-272022-4-27数据来源例2(见P3)如某商场希望根据年龄和性别来调查对营业时间的意见,计划调查周边地区的1000个人。已知年龄和性别分布如下:年龄(岁)比例(%)15-201620-302630-50305028性别比例(%)男51女492022-4-272022-4-27数据来源若准备抽1000人,则配额抽样方案为:年龄(岁)男性女性15-20827820-3013312730-50153147501431372022-4-272022-4-27提问 认定调查总体及决定用问卷方式以得到所需信息后,下一步是确定问什么,如何问。 一.问卷设计 问卷调查一般是抽样调查中常用
5、的首选方式 问卷设计是根据调查目的和要求,将所需要调查的问题具体化,使研究者能顺利地获取必要的信息资料,以便于统计分析的一种手段2022-4-272022-4-27提问 1.问卷的一般结构 问卷的标题 问卷说明 被访者的基本情况 调查的主题内容 编码 作业证明的记载2022-4-272022-4-27提问 2.问卷结构特点 问答由一个问题顺势转入下一个问题;由一个主题转到另一个主题。不要有跳跃而导致回答的无方向性。 建议:从一般问题到特殊问题。2022-4-272022-4-27提问“南方周末中国内地人物创富榜”读者调查问卷1.您对中国的民营企业家的总体评价是 A.正面评价 B.负面评价 C.
6、感受不大2.如果您的评价是正面的,主要原因是 A.民营企业为从业者提供了工作机会和报酬 B.民营企业对国家经济发展的贡献大 C.民营企业对社会责任有所担当,扮演了企业公民的角色 D.其他2022-4-272022-4-27提问3.如果您的评价是负面的,主要原因是 A.民营企业获取财富方法的正当性存在疑问 B.民营企业支配财富方面存在问题 C.民营企业没有积极承担社会责任 D.其他4.您感受过民营企业对社会(包括您本人)的贡献吗? A.是 B.否5.您是通过什么途径感受到民营企业对社会贡献的? A.本人直接受益 B.大众传媒 C.周围人口碑相传 D.其他2022-4-272022-4-27提问
7、盖洛普组织总结提问的目的有如下5种: (1)找出回答者是否觉察到这一结果; (2)获得关于结果的一般感觉; (3)获得该结果指定部分的答案; (4)获得反映回答者观点的理由; (5)找出持有这些观点的强烈程度;2022-4-272022-4-27提问例:1.你是否知道合肥和徐州之间要修条高速公路的计划? 知道/不知道2.你是否同意合肥和徐州之间修条高速公路? 强烈同意、同意、无所谓、不同意、强烈不同意3.你认为高速公路会对当地环境产生影响吗? 有/没有 4.如果反对,那你反对的理由是: (a)已经有一条可用的主干道 (b)合肥和徐州之间运量不足 (c)高速公路会损坏美丽的乡村风景 (d)道路会
8、破坏历史文物 (e)其他,请指定 2022-4-272022-4-27提问提问 5.你准备用下列哪一种行动来支持你的观点? (a)给地区人大代表写信 (b)给新闻单位写信 (c)在政府召开的公众听证会上发言 (d)在网上发表呼吁文章进行调查 (e)其他,请指定2022-4-272022-4-27提问 二.提问的方式 有开放式和预设答案提问(封闭式提问) 开放式提问是指所提出的问答题并不列出所有可能的答案,而是由被访者自由做答的问答题。 预设答案提问是指已经事先设计了各种可能的答案的问答题,被访者只要或只能从中选定一个或几个现成答案的提问方式。2022-4-272022-4-27提问 三三. .
9、提问的措辞 提问的措辞在诱导出有代表性回答中是非常重要的。一个有偏差的或诱导性提问将偏离给定的回答。 在问卷设计中发现的偏差主要有: (1)把两个或两个以上问题表达为一个; (2)问题中含有含糊或不熟悉的单词; (3)用软化难度或方向的词开始的提问; (4)包含条件或假设条款; (5)包含对回答者一个或多个指令的提问;2022-4-272022-4-27调查中的偏差调查的偏差来自许多方面,分为两类:抽样误差和非抽样误差非抽样误差的来源:涵盖误差、计量误差、处理误差和无反应误差1.涵盖误差:指由于在抽样框或样本中出现了涵盖不全、过度涵盖、重复以及错误的分类而导致估计的偏倚。2.计量误差:指对一个
10、问题所做的记录与它的真值不同,可能是由于被调查者和调查者对问题的误解、收集数据方式不同或测量工具而造成的。3.处理误差:可能发生在数据编码、数据录入、审核及插补等步骤中。2022-4-272022-4-27调查中的偏差4.无反应误差在抽样调查中,我们希望能取得所要求的全部样本单位的数据或特征记录,但在实践中,常有部分单位的调查结果会因多种原因而出现空缺,即常称的无反应现象。调查中无反应的原因 (1)调查对象联络不上,已经搬走 (2)被调查者不能胜任或无能力 (3)调查期间人不在 (4)拒绝合作 (5)丢失调查表2022-4-272022-4-27调查中的偏差 案例 Literary Diges
11、t杂志自第一次世界大战以来一直进行总统预测,而且每次都预测准了。 1936年美国总统选举前,Literary Digest杂志发出了1000万张调查问卷。回收到240万张,预测共和党候选人兰登(London)和民主党候选人罗斯福(Roosevelt)的得票比例是57:43,预测是根据240万张的民意调查回单作出的。 但实际选举结果是罗斯福赢得了这场选举,他与兰登得票比例是62 :38。2022-4-272022-4-27调查中的偏差 分析出现预测错误的原因: 第一.选取样本的方式不是随机的,它主要是从电话号码簿和各种俱乐部会员名册上去选取的,这些人大多是有钱人,他们支持共和党候选人兰登; 第二
12、. 有760万张问卷无反应,在没有寄回的人中支持共和党和支持民主党人的比例一般与寄回来的240万答卷中的支持比例不一样,例如该杂志向芝加哥地区三分之一的登记选民发了调查问卷,有20%的被询问者作了回答,其中一半以上支持兰登,但实际选举的结果是在芝加哥地区是2 : 1有利于罗斯福。2022-4-272022-4-27调查中的偏差 案例在1936年美国总统选举的预测中,美国舆论统计学家盖洛普获得成功。他所领导的研究所等三家民意测验机构,只调查了比文学文摘少得多的选民,预测候选人罗斯福的投票率为54%。其抽样方法是他在从事新闻工作中发展起来的,采用派调查员亲自访问调查,事先将各个地区不同类型与不同人
13、数的对象定额分配给每一个调查员,然后分头在全国范围内进行。他为了取得良好的测定效果,按照以接近数字的准确程度算出来的比例,从特定的各种类别的人中,选出三千个样本代表全国各个阶层人口的特征。2022-4-272022-4-27调查中的偏差由于无反应(等于改变了原先随机抽取的样本)而造成的偏差叫“无反应偏差”。在调查中我们要尽量减少这种偏差。为解决无反应问题,常用的处理方法有: 多次调查 对调查结果进行估算 在无回答者中抽取随机子样本调查 波利兹方案:是一种对于获得有回答的概率之间的差别,并相应地 对其加权的方法。 对无回答者的替代2022-4-272022-4-27数据的类型例 有一批旅游者从北
14、京出发,分别到普陀、喀什、三亚和漠河,给这四个城市编号,分别为1、2、3、4。当旅游结束时,请每位旅游者回答下列问卷:1.您去了哪个城市? A.普陀 B.喀什 C.三亚 D.漠河2.与以往旅游活动总的感觉相比,您认为此次旅游 A.很满意 B.较为满意 C.一般 D.不满意 E.很不满意3.您在此地时的最高气温是 度。4.您此行的全部支出是 元。2022-4-272022-4-27数据的类型 根据数据的来源,可以把数据分成:定性数据、定序数据、定距数据和定比数据 1.定性数据(分类、定类或名义数据) 将数字作为现象总体中不同类别或不同组别的代码。这是最低层次的尺度。 2.定序数据(有序数据) 按照特征等级进行排序,数据之间有大小之分,但没有大多少的概念。 2022-4-272022-4-27数据的类型3.定距数据(间隔数据) 不仅可以用数值表示现象类(组)别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 29997-2013铜及铜合金棒线材涡流探伤方法》
- 深度解析(2026)《GBT 29836.1-2013系统与软件易用性 第1部分:指标体系》
- 2026年深海资源勘探合作合同
- 某省市某省市二年级数学期末质量监测卷
- 2025北京一六六中、五十中高三(上)期中联考数学试题及答案
- 分布式发电与微电网应用技术 含分布式电源的配电网潮流计算
- 富顺就业指导
- 博物馆学专业就业前景
- 术后出血急救措施
- 银行家职业金融路
- 义务教育均衡发展质量监测八年级综合试卷(附答案)
- 宠物美容师就业合同协议(2025年工作规范)
- 基因治疗产品生产工艺清洁验证残留限度
- 2025年吐鲁番市法检系统招聘聘用制书记员考试(23人)模拟试卷及参考答案
- 三年(2023-2025)广东中考化学真题分类汇编:专题09 质量守恒定律和化学方程式(原卷版)
- DB53-T 1188-2023 植保无人飞机防治烟草病虫害作业技术规程
- 兴奋剂药品知识培训课件
- 新版中华民族共同体概论课件第十二讲民族危亡与中华民族意识觉醒(1840-1919)-2025年版
- 颅内动脉粥样硬化性急性大血管闭塞血管内治疗中国专家共识解读 3
- 2025年西藏初中班(校)招生全区统一考试语文试卷
- 农村旧房木梁拆除方案(3篇)
评论
0/150
提交评论