




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2 - 2 - 2 - 1 1 1第一节第一节 统计数据的获取统计数据的获取第二节第二节 统计数据的质量统计数据的质量第三节第三节 调查方案设计调查方案设计第四节第四节 数据的预处理数据的预处理2 - 2 - 2 - 2 2 21.了解统计数据的获取方法了解统计数据的获取方法2.了解数据误差及对数据的质量要求了解数据误差及对数据的质量要求3.掌握调查方案的设计掌握调查方案的设计4.了解统计调查方式了解统计调查方式2 - 2 - 2 - 3 3 3数据获取数据获取观测研究观测研究实验研究实验研究2 - 2 - 2 - 4 4 41.观测研究是观察一些个体,观测研究是观察一些个体,并度量我们感兴趣
2、的变量,并度量我们感兴趣的变量,但并不试图影响回应。但并不试图影响回应。2.观测研究的目的是描述一个观测研究的目的是描述一个团体或一种状况。团体或一种状况。3.在只观测不干扰的情形在只观测不干扰的情形下搜集信息下搜集信息2 - 2 - 2 - 5 5 51.实验时会刻意对某些个体加上某项实验时会刻意对某些个体加上某项处理,以期能够观察其反应。处理,以期能够观察其反应。2.实验的目的是要研究某种处理是否实验的目的是要研究某种处理是否确实会引起某种反应。确实会引起某种反应。实验会对个体做某件事情,然后观实验会对个体做某件事情,然后观察个体的反应察个体的反应2 - 2 - 2 - 6 6 6n观察数
3、据:观察数据:u不对被调查对象数据产生的条件施加任何控制;不对被调查对象数据产生的条件施加任何控制;u通常(但不一定)是众多因素作用的结果。通常(但不一定)是众多因素作用的结果。n实验数据:实验数据:u对数据产生的条件实施控制;对数据产生的条件实施控制;u通常(但不一定)是单一因素作用的结果。通常(但不一定)是单一因素作用的结果。n观测是次于实验的第二选择观测是次于实验的第二选择(但可惜的是,有时候我们却只能选择观察)(但可惜的是,有时候我们却只能选择观察)u随机化比较实验可能是统计学中最重要的概念。随机化比较实验可能是统计学中最重要的概念。u要证明一个变量会影响另一个变量,实验是提供证据的金
4、字招牌。要证明一个变量会影响另一个变量,实验是提供证据的金字招牌。u双盲试验(双盲试验(Double-blind experiment)l不论受试对象,还是会和受试对象有互动的人,都不知道哪位受试对象接不论受试对象,还是会和受试对象有互动的人,都不知道哪位受试对象接受了何种处理。受了何种处理。l美国法律,新的处方或医疗装置必须经过随机化双盲试验来证明其安全性美国法律,新的处方或医疗装置必须经过随机化双盲试验来证明其安全性和有效性。和有效性。 胃冷冻失败了胃冷冻失败了2 - 2 - 2 - 7 7 7试试 验验 伦伦 理理1.实施研究的机构必须设立试验审查委员会,负责事实施研究的机构必须设立试验
5、审查委员会,负责事先审查所有的研究对象,以保护受试对象免于受到先审查所有的研究对象,以保护受试对象免于受到可能的伤害;可能的伤害;2.在搜集资料前,研究中的每一个受试对象都必须知在搜集资料前,研究中的每一个受试对象都必须知情且同意参加试验;情且同意参加试验;3.任何人的资料必须保密,只有整体的统计结果可以任何人的资料必须保密,只有整体的统计结果可以公开。公开。2 - 2 - 2 - 8 8 8n用随机化方法将受试对象分组,且保证各组在实施处理之前,在各个方面用随机化方法将受试对象分组,且保证各组在实施处理之前,在各个方面都类似;都类似; (美国是否值得执行儿童学前教育计划?(美国是否值得执行儿
6、童学前教育计划?历时历时20年)年)n用用“比较比较”的设计以确保:除实验上的处理外,其他所有因素都会同样作的设计以确保:除实验上的处理外,其他所有因素都会同样作用在所有的组上;用在所有的组上;n因此,反应变量的差异必是处理的效果所致。因此,反应变量的差异必是处理的效果所致。坏实验的根源:坏实验的根源:1.潜在变量:潜在变量:对研究中其它变量间的关系有重要影响,却未被列为解释变量的对研究中其它变量间的关系有重要影响,却未被列为解释变量的变量;变量;(网上学习与教室学习效果一样好?(网上学习与教室学习效果一样好?原有知识水平)原有知识水平)2.交叉变量:交叉变量:两个变量对反应变量的影响混在一起
7、,无法区分。交叉变量可以两个变量对反应变量的影响混在一起,无法区分。交叉变量可以是解释变量,也可以是潜在变量;是解释变量,也可以是潜在变量;3.真实实验中真实实验中还可能遭遇到受试者拒绝参加、不合作、中途退出等问题还可能遭遇到受试者拒绝参加、不合作、中途退出等问题2 - 2 - 2 - 9 9 9n其关键在于:其关键在于:u随机化:随机化:l遵循以整个总体为背景进行随机化抽样的原则遵循以整个总体为背景进行随机化抽样的原则u控制:控制:l有安慰剂的控制组进行对比实验,克服安慰剂效应有安慰剂的控制组进行对比实验,克服安慰剂效应u受试对象足够多受试对象足够多l满足大数定理的要求满足大数定理的要求2
8、- 2 - 2 - 101010例如:研究野生动物的习性例如:研究野生动物的习性 研究国民经济的发展研究国民经济的发展 研究企业的经营状况研究企业的经营状况 研究股票的发展趋势研究股票的发展趋势 2 - 2 - 2 - 1111111.1.抽样调查是抽样调查是很重要的一种观测研究很重要的一种观测研究,2.2.抽样调查抽样调查根据随机原则根据随机原则,从总体中抽取部分单位做为样本加以调查研究,从总体中抽取部分单位做为样本加以调查研究,以以样本指标去推算总体指标样本指标去推算总体指标的一种专门组织的非全面调查。的一种专门组织的非全面调查。3.3.抽样调查由于遵循随机原则,抽样调查由于遵循随机原则,
9、样本单位的选取不受调查者主观意识的影响样本单位的选取不受调查者主观意识的影响。4.4.抽样调查既是抽样调查既是搜集统计资料搜集统计资料的方法,也是对调查对象进行的方法,也是对调查对象进行科学估计和推断科学估计和推断的的方法。方法。抽样调查就是从某个特定总体中抽取样本,然后从样本中推断整个总体的抽样调查就是从某个特定总体中抽取样本,然后从样本中推断整个总体的信息信息2 - 2 - 2 - 1212121.普查是企图把整个总体纳入样本的抽样调查。普查是企图把整个总体纳入样本的抽样调查。2.属于全面调查属于全面调查,涉及面广,工作量大;且调查对象随着时间的推移不断变化,涉及面广,工作量大;且调查对象
10、随着时间的推移不断变化,同时在空间分布上也会有较大的变动;故一般需要规定统一的标准调查时间,同时在空间分布上也会有较大的变动;故一般需要规定统一的标准调查时间,数据的规范化程度较高。通常是一次性或周期性的,目的在于取得详细资料。数据的规范化程度较高。通常是一次性或周期性的,目的在于取得详细资料。3.从时间、金钱及可行度上,抽样更为划算。从时间、金钱及可行度上,抽样更为划算。n即使有政府的强大资源做后盾,普查也不是一定做得到;即使有政府的强大资源做后盾,普查也不是一定做得到;n而且有些检查是破坏性的,普查并不适用。而且有些检查是破坏性的,普查并不适用。n另外,比起全面普查,较小的样本反而反而可能
11、会得到较精确的结果另外,比起全面普查,较小的样本反而反而可能会得到较精确的结果,因为人员心烦的时候,数据往往也会混乱。,因为人员心烦的时候,数据往往也会混乱。普查试图取得总体中每个个体的信息普查试图取得总体中每个个体的信息2 - 2 - 2 - 1313132 - 2 - 2 - 1414142.典型调查典型调查u根据统计调查的目的和要求根据统计调查的目的和要求,在对被研究现象进行,在对被研究现象进行全面全面分析的基础上分析的基础上,有意识地有意识地选择若干选择若干具有典型意义具有典型意义的或的或有有代表性代表性的单位进行的一种专门组织的非全面调查。的单位进行的一种专门组织的非全面调查。u具有
12、灵活机动、通过少量典型即可取得深入、详实的统具有灵活机动、通过少量典型即可取得深入、详实的统计资料的特点。计资料的特点。u但典型单位选择往往受到人们主观认识的影响。但典型单位选择往往受到人们主观认识的影响。为防止为防止片面性,典型调查必须与其他调查方式相结合。片面性,典型调查必须与其他调查方式相结合。u典型调查可以补充全面调查的不足,也可用于验证全面典型调查可以补充全面调查的不足,也可用于验证全面调查数据的真实性,做到定性与定量分析相结合,调查数据的真实性,做到定性与定量分析相结合,在特在特定条件下定条件下,典型调查也可用于统计数据质量的检查或对典型调查也可用于统计数据质量的检查或对总体数量的
13、推算。总体数量的推算。2 - 2 - 2 - 151515抽样,结果就一定准确吗?1 统计数据的误差来源统计数据的误差来源2 统计数据的质量要求统计数据的质量要求 2 - 2 - 2 - 1616161.文摘文摘杂志杂志1890-1938年间在美国相当普及,从年间在美国相当普及,从1916年开始,每年开始,每次选举前都预测出了总统选举的获胜者。次选举前都预测出了总统选举的获胜者。1936年,该杂志邮寄了年,该杂志邮寄了1000万份万份调查表,并自豪地宣布,照以往的判断标准,预测结果的调查表,并自豪地宣布,照以往的判断标准,预测结果的误差将在误差将在1%之内。最后,该杂志回收了之内。最后,该杂志
14、回收了240万份万份问卷,分析结果为问卷,分析结果为兰登将获得兰登将获得57%的选票,而罗斯福只能得到的选票,而罗斯福只能得到43%的选票。的选票。2.刚刚成立不久的盖洛普研究所仅仅从美国选民中随机抽取了刚刚成立不久的盖洛普研究所仅仅从美国选民中随机抽取了2000多多选民,预测结果为罗斯福会得到选民,预测结果为罗斯福会得到54%的选票并获胜。的选票并获胜。3.真实的结果是,罗斯福获得了压倒多数的真实的结果是,罗斯福获得了压倒多数的62%的选票。盖洛普以悬的选票。盖洛普以悬殊的样本容量取得了正确的预测结果,从此名声大震。殊的样本容量取得了正确的预测结果,从此名声大震。4.从从1936年的大选开始
15、,盖洛普总是用年的大选开始,盖洛普总是用1000-1500人人的样本,快速、的样本,快速、准确地对每届总统选举进行了预测,误差在准确地对每届总统选举进行了预测,误差在2%以内;而当时的美以内;而当时的美国成年人已接近国成年人已接近2亿亿。2 - 2 - 2 - 1717171.文摘文摘取样是基于两个来源:电话簿和汽车注册档案。取样是基于两个来源:电话簿和汽车注册档案。在上世纪在上世纪30年代,在美国拥有电话和汽车的家庭都属于中年代,在美国拥有电话和汽车的家庭都属于中产阶级,多是共和党人中的保守阶层。产阶级,多是共和党人中的保守阶层。2.1936年,美国由于经济政策的分歧在政治上发生分裂年,美国
16、由于经济政策的分歧在政治上发生分裂共和党中的保守阶层对过去四年中民主党罗斯福的执政共和党中的保守阶层对过去四年中民主党罗斯福的执政结果非常不满意,特别希望改变现状。从而,这类选民比结果非常不满意,特别希望改变现状。从而,这类选民比其他选民更愿意回复其他选民更愿意回复文摘文摘的问卷调查。的问卷调查。 3.文摘文摘的民意测验依靠的是自愿回答。的民意测验依靠的是自愿回答。4. 问题:你认为盖洛普采用的何种调查方法问题:你认为盖洛普采用的何种调查方法?2 - 2 - 2 - 1818181.盖洛普认为,随机性是民意调查的基础,只有真正盖洛普认为,随机性是民意调查的基础,只有真正随机地选择被提问的人,才
17、能确保每一个人都有机随机地选择被提问的人,才能确保每一个人都有机会被提问,也就确保了提问结果能真正反映公众的会被提问,也就确保了提问结果能真正反映公众的民意。民意。2.盖洛普的研究显示,在任何一个特殊场所,如商店盖洛普的研究显示,在任何一个特殊场所,如商店、体育馆、火车站等地找到的人都不能完全代表所、体育馆、火车站等地找到的人都不能完全代表所有的人,只有去人们家里向人们提问才能确保被提有的人,只有去人们家里向人们提问才能确保被提问的人代表了所有的人。问的人代表了所有的人。2 - 2 - 2 - 1919191.从从30年代到年代到80年代中期,盖洛普民意调查研究所的年代中期,盖洛普民意调查研究
18、所的调查员主要是在美国各地按照随机抽样的名单去每调查员主要是在美国各地按照随机抽样的名单去每个人家里面对面的提问。在这个人家里面对面的提问。在这50年的时间里,盖洛年的时间里,盖洛普民意调查研究所对普民意调查研究所对12次美国总统选举的调查显示次美国总统选举的调查显示,盖洛普民意调查的准确率非常高。,盖洛普民意调查的准确率非常高。 2.80年代中期以后,由于年代中期以后,由于95%的美国家庭都拥有了电的美国家庭都拥有了电话,使得利用电话进行调查成为可能,同时也使调话,使得利用电话进行调查成为可能,同时也使调查费用大大降低,调查结果也能得以迅速发表。查费用大大降低,调查结果也能得以迅速发表。2
19、- 2 - 2 - 2020201.可是决定给哪些人打电话进行下面提问还有一个问题,那就是在确定可是决定给哪些人打电话进行下面提问还有一个问题,那就是在确定1000个电话号码时,要确保所有家庭的电话都有被随机选取的可能。个电话号码时,要确保所有家庭的电话都有被随机选取的可能。2.采用现成的电话号码簿并从中选择样本号码要省事得多,但是,这样可采用现成的电话号码簿并从中选择样本号码要省事得多,但是,这样可能会引起抽样偏差,因为大约有能会引起抽样偏差,因为大约有30%的美国居民电话并不注册公开。使的美国居民电话并不注册公开。使公司先有一份美国大陆各州所有家庭电话号码簿是一个复杂的过程,开公司先有一份
20、美国大陆各州所有家庭电话号码簿是一个复杂的过程,开始应当是具有全美所有电话交换总机的清单以及这些电话交换总机服务始应当是具有全美所有电话交换总机的清单以及这些电话交换总机服务的居民家庭数量。然后,计算机采用一种名为随机号码拨号的程序,从的居民家庭数量。然后,计算机采用一种名为随机号码拨号的程序,从这些电话号码中随机产生样本电话号码。这些电话号码中随机产生样本电话号码。3.另外在提问时,确保提问方式的中立性也是很重要的。因为这样才能不另外在提问时,确保提问方式的中立性也是很重要的。因为这样才能不对被提问者如何回答产生误导。对被提问者如何回答产生误导。 2 - 2 - 2 - 2121211.文摘
21、文摘的坏样本的坏样本有偏抽样有偏抽样方便样本:调查结果受到调查者的控制方便样本:调查结果受到调查者的控制自发性回应样本:调查结果受到受访者的左右自发性回应样本:调查结果受到受访者的左右2.盖洛普的好样本盖洛普的好样本简单随机抽样(确保抽样结简单随机抽样(确保抽样结果的无偏性)果的无偏性)2 - 2 - 2 - 2222222 - 2 - 2 - 232323抽样误差抽样误差抽样框误差抽样框误差回应误差回应误差处理误差处理误差非抽样误差非抽样误差数据的误差数据的误差2 - 2 - 2 - 2424241.非抽样误差是由于调查过程中各个环节工作失误造成的。主要有:非抽样误差是由于调查过程中各个环节
22、工作失误造成的。主要有:u抽样框误差:抽样框误差:如果总体的某些部分未被纳入抽样框中,则抽样过如果总体的某些部分未被纳入抽样框中,则抽样过程就会出现涵盖不全问题程就会出现涵盖不全问题 可以避免可以避免l抽样框:将所有总体成员列成清单,以便于我们从中抽取样本抽样框:将所有总体成员列成清单,以便于我们从中抽取样本u回应误差:回应误差:受访人员无回应、或给出错误答案时造成的误差。受访人员无回应、或给出错误答案时造成的误差。u处理误差:处理误差:手工输入、计算错误等,在计算机帮助下,该类错误手工输入、计算错误等,在计算机帮助下,该类错误已大大减少;已大大减少;2.存在于所有的调查之中,包括全面调查、抽
23、样调查存在于所有的调查之中,包括全面调查、抽样调查可以避免可以避免2 - 2 - 2 - 2525251.抽样误差:是利用样本推断总体时产生的误差。由于抽样误差:是利用样本推断总体时产生的误差。由于样本只是总体的一部分,抽样误差总会存在。样本只是总体的一部分,抽样误差总会存在。 不可避免,但可以衡量不可避免,但可以衡量(置信描述:误差界限与(置信描述:误差界限与置信水平)置信水平)2 - 2 - 2 - 2626262 - 2 - 2 - 2727271.非抽样误差非抽样误差可以避免,方法主要有:可以避免,方法主要有:u调查员的挑选调查员的挑选u调查员的培训调查员的培训u督导员的调查专业水平督
24、导员的调查专业水平u调查过程控制调查过程控制l调查结果进行检验、评估调查结果进行检验、评估l现场调查人员进行奖惩的制度现场调查人员进行奖惩的制度2.抽样误差抽样误差不可避免不可避免,可以可以计算计算(置信描述)和(置信描述)和控制控制(样本量(样本量的选取)的选取)2 - 2 - 2 - 2828281.随机抽样随机抽样利用随机抽样可以得到样本对总体的无偏估计利用随机抽样可以得到样本对总体的无偏估计2.样本量足够大样本量足够大在坚持随机抽样的前提下,在坚持随机抽样的前提下,增大样本量可以使样本统增大样本量可以使样本统计结果的变异性无限小计结果的变异性无限小3.随机抽样误差:是样本统计量与总体参
25、数之间的差距,源于随机性随机抽样误差:是样本统计量与总体参数之间的差距,源于随机性u误差界限误差界限:指出样本统计量离总体参数有多远,此误差界限只体现随机:指出样本统计量离总体参数有多远,此误差界限只体现随机抽样误差抽样误差u置信水平置信水平:说明所有可能样本中有多少百分比满足这样的误差界限,:说明所有可能样本中有多少百分比满足这样的误差界限,95%是常用的置信水平,常被视为默认值是常用的置信水平,常被视为默认值盖洛普的表述:调查发现,盖洛普的表述:调查发现,57%的美国成年人在过去的美国成年人在过去12个月内曾购买彩卷。我们个月内曾购买彩卷。我们有有95%的信心的信心认为,所有美国成年人真正
26、购买比例,会在这个样本结果的认为,所有美国成年人真正购买比例,会在这个样本结果的正负正负3个百分点个百分点之内。之内。(此处仅指随机抽样导致的变异性误差)(此处仅指随机抽样导致的变异性误差)2 - 2 - 2 - 292929现实世界中现实世界中常用的抽样方法常用的抽样方法2 - 2 - 2 - 303030简简单单随随机机抽抽样样分分层层抽抽样样整整群群抽抽样样系系统统抽抽样样多多阶阶段段抽抽样样概概率率抽抽样样方方便便抽抽样样判判断断抽抽样样自自愿愿样样本本滚滚雪雪球球抽抽样样配配额额抽抽样样非非概概率率抽抽样样抽抽样样方方式式2 - 2 - 2 - 3131311.根据一个已知的概率来抽
27、取样本单位,也称随机抽样根据一个已知的概率来抽取样本单位,也称随机抽样。2.特点特点u按一定的概率以随机原则抽取样本按一定的概率以随机原则抽取样本l抽取样本时使每个单位都有一定的机会被抽中抽取样本时使每个单位都有一定的机会被抽中u每个单位被抽中的概率是已知的,或是可以计算每个单位被抽中的概率是已知的,或是可以计算出来的出来的 u当用样本对总体目标量进行估计时,要考虑到每当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率个样本单位被抽中的概率2 - 2 - 2 - 3232321.从总体从总体N个单位中随机地抽取个单位中随机地抽取n个单位作为样本,个单位作为样本,使得每一个总使得每
28、一个总体单位都有相同的机会体单位都有相同的机会( (概率概率) )被抽中;被抽中;2.抽取元素的具体方法有重复抽样和不重复抽样;抽取元素的具体方法有重复抽样和不重复抽样;3.特点特点u简单、直观,在抽样框完整时,可直接从中抽取样本简单、直观,在抽样框完整时,可直接从中抽取样本u用样本统计量对目标量进行估计比较方便用样本统计量对目标量进行估计比较方便4.局限性局限性u当当N 很大时,不易构造抽样框很大时,不易构造抽样框u抽出的单位很分散,给实施调查增加了困难抽出的单位很分散,给实施调查增加了困难u没有利用其他辅助信息以提高估计的效率没有利用其他辅助信息以提高估计的效率2 - 2 - 2 - 33
29、33331.将总体单位按某种特征或某种规则划分为不同的层,然后从将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本;不同的层中独立、随机地抽取样本;2.优点优点u保证样本的结构与总体的结构比较相近,从而提高估计保证样本的结构与总体的结构比较相近,从而提高估计的精度;的精度;u组织实施调查方便;组织实施调查方便;u既可以对总体参数进行估计,也可以对各层的目标量进既可以对总体参数进行估计,也可以对各层的目标量进行估计。行估计。3.缺点:缺点:4.客观上破坏了整体抽样的概率均等原则,故在利用样本估客观上破坏了整体抽样的概率均等原则,故在利用样本估计总体时,必须对数据进
30、行修复性校正(参见相关资料)计总体时,必须对数据进行修复性校正(参见相关资料)2 - 2 - 2 - 3434341.将总体中的所有单位将总体中的所有单位(抽样单位抽样单位)按一定顺序排列按一定顺序排列u排列的标识可以是与调查目的相关的排列的标识可以是与调查目的相关的,也可以是无关也可以是无关的,主要取决于辅助资料的占有情况和提高抽样估的,主要取决于辅助资料的占有情况和提高抽样估计精度的目的。计精度的目的。2.在规定的范围内随机地抽取一个单位作为初始单位,然在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位后按事先规定好的规则确定其他样本单位u最简单的系统抽样
31、是等距抽样:先从数字最简单的系统抽样是等距抽样:先从数字1到到k之间之间随机抽取一个数字随机抽取一个数字r作为初始单位,以后依次取作为初始单位,以后依次取r+k,r+2k等单位等单位3.优点:操作简便,可提高估计的精度优点:操作简便,可提高估计的精度4.缺点:表面上行之有效的系统抽样可能不是严格的概率缺点:表面上行之有效的系统抽样可能不是严格的概率抽样。方差估计比较困难,在通常意义上不可能找到无抽样。方差估计比较困难,在通常意义上不可能找到无偏估计量。偏估计量。2 - 2 - 2 - 3535351.将总体中若干个单位合并为组将总体中若干个单位合并为组(群群),抽样时直接抽抽样时直接抽取群,然
32、后对中选群中的所有单位全部实施调查取群,然后对中选群中的所有单位全部实施调查。2.特点特点u抽样时只需群的抽样框,可简化工作量;抽样时只需群的抽样框,可简化工作量;u调查的地点相对集中,节省调查费用,方便调调查的地点相对集中,节省调查费用,方便调查的实施;查的实施;u缺点是估计的精度较差。缺点是估计的精度较差。2 - 2 - 2 - 3636361.抽签法:抽签法:u直观,但总体庞大时难以执行。直观,但总体庞大时难以执行。2.Excel中中“工具工具- 数据分析数据分析- 抽样抽样”2 - 2 - 2 - 373737首先给总体每个单位确定一个唯一的首先给总体每个单位确定一个唯一的编号编号;然
33、后准备同样数量的然后准备同样数量的竹签竹签,分别标上号码,使,分别标上号码,使之和总体的每个单位一一对应;之和总体的每个单位一一对应;将将竹签混合竹签混合并拌匀,按随机原则逐次并拌匀,按随机原则逐次抽出抽出或摸或摸出竹签,直到达到样本容量要求的出竹签,直到达到样本容量要求的数量数量为止;为止;此时,此时,抽到抽到的竹签上面的的竹签上面的标号标号对应着的总体单对应着的总体单位即可作为被抽中的单位。位即可作为被抽中的单位。 直观,但总体单位数量庞大时难以执行。直观,但总体单位数量庞大时难以执行。2 - 2 - 2 - 383838给每个总体单位分别进行给每个总体单位分别进行编号编号,从,从 1 到
34、到 N。u如果总体各单位已有编码,可以借用,不必重新编号如果总体各单位已有编码,可以借用,不必重新编号;在在Excel中选择中选择 “工具工具- 数据分析数据分析- 抽样抽样” 对编号对编号进行随机抽样,而后找出对应的总体单位。进行随机抽样,而后找出对应的总体单位。举例举例2 - 2 - 2 - 3939391.周围同学喜欢的手机颜色;2.周围同学每月平均消费支出;3.周围同学自用手机的实际购买价格2 - 2 - 2 - 4040401. 精精 度:度:最低的抽样误差或随机误差最低的抽样误差或随机误差2. 准准 确确 性:性:最小的非抽样误差或偏差最小的非抽样误差或偏差3. 关关 联联 性:性
35、:满足用户决策、管理和研究的需要满足用户决策、管理和研究的需要4. 及及 时时 性:性:在最短的时间里取得并公布数据在最短的时间里取得并公布数据5. 一一 致致 性:性:保持时间序列的可比性保持时间序列的可比性6. 最低成本:最低成本:以最经济的方式取得数据以最经济的方式取得数据2 - 2 - 2 - 4141412 - 2 - 2 - 424242第一步:确定调研议题第一步:确定调研议题 Michael是盖洛普公司纽约州的民情调查研究员,是项目小组的组是盖洛普公司纽约州的民情调查研究员,是项目小组的组长,晚饭后接到长,晚饭后接到Ben的电话,的电话,“hey,你关心他们的竞选优劣势么,你关心
36、他们的竞选优劣势么?”Ben是盖洛普的科学家团队成员。第二天,是盖洛普的科学家团队成员。第二天,Michael召集团队开会,召集团队开会,“Ben提出了我们下次调研的内容提出了我们下次调研的内容你不喜欢哪个候选人你不喜欢哪个候选人?因为什么厌因为什么厌恶他们呢恶他们呢?”第二天的头脑风暴开始了,有的认为应该考虑到数据的追踪第二天的头脑风暴开始了,有的认为应该考虑到数据的追踪问题,当然也有成员认为这样的话题媒体已经讨论了很多,这些候选人问题,当然也有成员认为这样的话题媒体已经讨论了很多,这些候选人都已经有了模式化的优劣势呈现。最后大家得出了结论:在纽约州做一都已经有了模式化的优劣势呈现。最后大家
37、得出了结论:在纽约州做一个这样的调查,也许调查结果会和媒体渲染的有不一样的地方。个这样的调查,也许调查结果会和媒体渲染的有不一样的地方。 这就是盖洛普开展调查报告的这就是盖洛普开展调查报告的第一步骤:确定调研议题第一步骤:确定调研议题。与市场调。与市场调研公司不一样,盖洛普民调研公司不一样,盖洛普民调议题有相当一部分是公司内部的科学家团队议题有相当一部分是公司内部的科学家团队推荐,然后调研团队开内部头脑风暴推荐,然后调研团队开内部头脑风暴。盖洛普中国运营总监沈颖对本刊。盖洛普中国运营总监沈颖对本刊记者说:记者说:“除了给特定的团体、机构做一些他们想知道的调查,盖洛普除了给特定的团体、机构做一些
38、他们想知道的调查,盖洛普的许多议题是由内部人员针对时下热点展开的,所以我们内部形成了完的许多议题是由内部人员针对时下热点展开的,所以我们内部形成了完备的研究系统,有一个社会科学家团队。这也是由盖洛普的独立性决定备的研究系统,有一个社会科学家团队。这也是由盖洛普的独立性决定的,我们可以自发地研究自己觉得有价值的信息点。的,我们可以自发地研究自己觉得有价值的信息点。”2 - 2 - 2 - 434343第二步:确定调查样本第二步:确定调查样本确定了议题后,确定了议题后,Michael和他的团队决定在纽约州和他的团队决定在纽约州随机抽取随机抽取1000个美个美国成年人进行访问国成年人进行访问。别小看
39、这个步骤。别小看这个步骤!首先,首先,1000这个样本容量的确定这个样本容量的确定就是一个数理统计的问题,在抽样统计中,所以,一般进行大型民意调就是一个数理统计的问题,在抽样统计中,所以,一般进行大型民意调查时,查时,1500人是个最为经济的数值。而这人是个最为经济的数值。而这1500个样本大约个样本大约3%左右的误左右的误差率一般情况下也足够反映民意。而在此基础上增加差率一般情况下也足够反映民意。而在此基础上增加1000人的访问量,人的访问量,所减小的误差率不足所减小的误差率不足1%,其效益成本比并不合理。,其效益成本比并不合理。Michael在纽约州做在纽约州做的调研取样的调研取样1000
40、人,也是一个可以接受的样本容量。人,也是一个可以接受的样本容量。其次,针对纽约州数百万的人口,盖洛普没有采用针对人口构成特征其次,针对纽约州数百万的人口,盖洛普没有采用针对人口构成特征先期划分的分层抽样,而是直接在数百万人口中进行随机抽样。先期划分的分层抽样,而是直接在数百万人口中进行随机抽样。“由于由于1000个样本足够多,所以我们没有必要针对人口构成特征进行配额划分个样本足够多,所以我们没有必要针对人口构成特征进行配额划分,用随机完全可以体现纽约州的人口构成特征。,用随机完全可以体现纽约州的人口构成特征。”沈颖这样解释,就像沈颖这样解释,就像抛硬币抛硬币10次的话可能会有次的话可能会有7次
41、正面、次正面、3次反面的现象,但抛次反面的现象,但抛1000次就基本次就基本接近接近500:500的正反面比例,所以针对的正反面比例,所以针对1000个受访对象,完全可以不用个受访对象,完全可以不用先对先对1000个配额进行分层统计,用随机的抽样就可以极为接近人口构成个配额进行分层统计,用随机的抽样就可以极为接近人口构成特征的基本概率。特征的基本概率。2 - 2 - 2 - 444444第三步:选择调查方式第三步:选择调查方式Michael和组员们讨论,对这样一个访问采取电话访问还和组员们讨论,对这样一个访问采取电话访问还是入户访问的方式进行是入户访问的方式进行?最后最后Michael拍板电话
42、访问。拍板电话访问。对于准确率都非常高的电话访问和入户访问,最终取舍和对于准确率都非常高的电话访问和入户访问,最终取舍和调研时间的长短及问卷的难易程度有极大的关系。调研时间的长短及问卷的难易程度有极大的关系。案例中的案例中的调查过程非常短,要在调查过程非常短,要在4天时间内完成天时间内完成1000个采访个采访;而且问卷而且问卷并不难回答。所以采用电话访问是比较好的方式。自上世纪并不难回答。所以采用电话访问是比较好的方式。自上世纪90年代开始,盖洛普几乎只运用电话采访进行民调,摒弃了年代开始,盖洛普几乎只运用电话采访进行民调,摒弃了入户采访。入户采访。2 - 2 - 2 - 454545第四步:
43、设置调查问卷第四步:设置调查问卷问卷的设置是个问题问卷的设置是个问题?Michael和他的组员们提供了一个和他的组员们提供了一个封闭和开放式封闭和开放式问题结合问题结合的问卷。的问卷。“你不喜欢哪个候选人当选总统你不喜欢哪个候选人当选总统?”这无疑是个封闭式问题,在候选人这无疑是个封闭式问题,在候选人只缩小到只缩小到3个的情况下,个的情况下,“哪些方面让你觉得这个人当选总统是不妥的哪些方面让你觉得这个人当选总统是不妥的?”则是一个完全开放式的问题,并且可以让受访者用自己简略的话概括则是一个完全开放式的问题,并且可以让受访者用自己简略的话概括“不喜欢的理由不喜欢的理由”。沈颖对开放题有这样的解释
44、:。沈颖对开放题有这样的解释:“一般盖洛普问卷不一般盖洛普问卷不会有太多的开放题。就这个案例而言,开放式问题更能体现受访者的真会有太多的开放题。就这个案例而言,开放式问题更能体现受访者的真实意图,但是需要花费整理、归纳观点的成本。对于开放题的结果分析实意图,但是需要花费整理、归纳观点的成本。对于开放题的结果分析,我们在拿到访问结果后,通常会对开放问题的答案进行编码。所谓编,我们在拿到访问结果后,通常会对开放问题的答案进行编码。所谓编码就是对被访者的回答的要点进行归纳总结,通过这个方式将开放的结码就是对被访者的回答的要点进行归纳总结,通过这个方式将开放的结果转换成可分析的数据信息,然后进行统计分
45、析。果转换成可分析的数据信息,然后进行统计分析。”2 - 2 - 2 - 464646第五步:电话号码抽样第五步:电话号码抽样Michael的调研团队确定问卷的同时,抽样师开始安排在纽约州进行的调研团队确定问卷的同时,抽样师开始安排在纽约州进行区域划分,然后在不同的抽样区域里,根据当地电话局提供的住宅电话区域划分,然后在不同的抽样区域里,根据当地电话局提供的住宅电话号码而不是现成的电话号码簿随机抽样电话号码,供呼叫中心随机访问号码而不是现成的电话号码簿随机抽样电话号码,供呼叫中心随机访问。盖洛普公司进行电话号码抽样的这一过程很关键,目的是让每个美国盖洛普公司进行电话号码抽样的这一过程很关键,目
46、的是让每个美国家庭和每个美国成年人被抽中的机会均等。家庭和每个美国成年人被抽中的机会均等。至于执行层面,对于盖洛普民意调查,美国民众的参与度很高。至于执行层面,对于盖洛普民意调查,美国民众的参与度很高。“因因为没有商业目的,而且美国人对参政议政的态度也比较开放,甚至会感为没有商业目的,而且美国人对参政议政的态度也比较开放,甚至会感到接受盖洛普的访问非常幸运,所以我们的调查在受访者那儿很少有不到接受盖洛普的访问非常幸运,所以我们的调查在受访者那儿很少有不配合的情况。配合的情况。”沈颖说。沈颖说。至于打电话过去无人接听或是实在对方不愿花费时间在受访上,至于打电话过去无人接听或是实在对方不愿花费时间
47、在受访上,“我我们会尝试着说服对方一两次,然后放弃寻找下一个随机号码,因为这和们会尝试着说服对方一两次,然后放弃寻找下一个随机号码,因为这和调查时限有关,不可能为了追求绝对的均等概率在一个样本上纠缠过多调查时限有关,不可能为了追求绝对的均等概率在一个样本上纠缠过多时间。时间。”沈颖告诉本刊记者。沈颖告诉本刊记者。2 - 2 - 2 - 474747第六步:访问调查第六步:访问调查Andrew是是Michael手下呼叫中心的一个电话访问员,受过严格的盖洛手下呼叫中心的一个电话访问员,受过严格的盖洛普电话采访训练。他打通了一户人家的电话,一个男声很高兴地接受了普电话采访训练。他打通了一户人家的电话
48、,一个男声很高兴地接受了盖洛普的电话调研,盖洛普的电话调研,Andrew这样开始了访问:这样开始了访问:“先生,请问您家里有先生,请问您家里有几个成年人几个成年人?能否请最近过生日的那一位来接受访问呢能否请最近过生日的那一位来接受访问呢?”说到这个电话采访中的细节,沈颖笑道,说到这个电话采访中的细节,沈颖笑道,“这也是为了符合民调中的这也是为了符合民调中的均等概率原则,你想如果这是一个三口之家,母亲正在洗碗,孩子在看均等概率原则,你想如果这是一个三口之家,母亲正在洗碗,孩子在看球赛,百无聊赖的父亲最有可能接了电话,所以盖洛普这样的挑选原则球赛,百无聊赖的父亲最有可能接了电话,所以盖洛普这样的挑
49、选原则就是尽可能保持随机抽样原则。就是尽可能保持随机抽样原则。”在访问中,在访问中,Andrew只是倾听并如实记录,绝不对被访者的观点进行只是倾听并如实记录,绝不对被访者的观点进行评价。现场的询问其实远不是拿着问卷问对方那么简单,受访者的逻辑评价。现场的询问其实远不是拿着问卷问对方那么简单,受访者的逻辑水平、认知水平各不相同,有时需要采集员运用自己的判断和追问把受水平、认知水平各不相同,有时需要采集员运用自己的判断和追问把受访者从过于感性中拉回来。访者从过于感性中拉回来。“开放式问卷也需要调研员对事件本身有前开放式问卷也需要调研员对事件本身有前期充足的准备,了解各个理由中的关联。期充足的准备,
50、了解各个理由中的关联。”2 - 2 - 2 - 484848第七步:统计样本第七步:统计样本一天的电话采访,收集回来一天的电话采访,收集回来1005份调查问卷,在经过最份调查问卷,在经过最后的编码总结等处理后,后的编码总结等处理后,Michael团队开始撰写调研报告,团队开始撰写调研报告,统计可能出现的样本误差率。统计可能出现的样本误差率。沈颖说,沈颖说,“盖洛普的民意调查报告更多的以展示数据为主盖洛普的民意调查报告更多的以展示数据为主,用一目了然的比例圆柱图和翔实可信的数据说话,定性报,用一目了然的比例圆柱图和翔实可信的数据说话,定性报告较少。告较少。”这篇报告除最后指出希拉里、奥巴马与麦凯
51、恩的这篇报告除最后指出希拉里、奥巴马与麦凯恩的差别在于两位民主党最大的危机在于自身特质,而共和党候差别在于两位民主党最大的危机在于自身特质,而共和党候选人的最大危机在于政策指向性之外,也确实做到了选人的最大危机在于政策指向性之外,也确实做到了“数据数据静默胜千言静默胜千言”。2 - 2 - 2 - 494949第八步:公布结果第八步:公布结果Michael团队把报告的简略版放到了盖洛普的官网上,吸团队把报告的简略版放到了盖洛普的官网上,吸引了不少选民、竞选团队和媒体的注意,他们很快注意到,引了不少选民、竞选团队和媒体的注意,他们很快注意到,与之前媒体渲染的各大候选人的弱点有些不一致,希拉里一与
52、之前媒体渲染的各大候选人的弱点有些不一致,希拉里一直标榜的经验问题同样是她自身的危机,麦凯恩的大年龄和直标榜的经验问题同样是她自身的危机,麦凯恩的大年龄和大脾气倒没有太过引发选民的恶感。也许会有媒体和竞选团大脾气倒没有太过引发选民的恶感。也许会有媒体和竞选团队致电盖洛普,要求买到更完备的调查报告。队致电盖洛普,要求买到更完备的调查报告。2 - 2 - 2 - 505050一一. 确定调查目的确定调查目的二二. 确定调查对象和调查单位确定调查对象和调查单位三三. 设计调查项目和调查表设计调查项目和调查表四四. 确定调查时间和调查期限确定调查时间和调查期限五五. 制定调查的组织实施计划制定调查的组
53、织实施计划2 - 2 - 2 - 515151调查方案的内容调查方案的内容调调查查目目的的调查调查对象对象调查调查单位单位调查调查项目项目和调和调查表查表确确 定定调调 查查时时 间间和和 调调查查 期期限限制制 定定调调 查查的的 组组织织 实实施施 计计划划2 - 2 - 2 - 5252521.调查要达到的具体目标调查要达到的具体目标2.回答:解决什么问题?达到回答:解决什么问题?达到什么要求?什么要求?3.调查之前必须明确调查之前必须明确2 - 2 - 2 - 5353531.调查对象:调查对象:调查研究的调查研究的总体总体或调查范围或调查范围2.调查单位:调查单位:需要对之进行调查的
54、需要对之进行调查的个体个体单位。可以单位。可以是调查对象的全部单位(全面调查),也可以是是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)调查对象中的一部分单位(非全面调查)3.回答:向谁调查?回答:向谁调查?2 - 2 - 2 - 5454541.调查项目:调查项目:调查的具体内容,要求少而精,遵循需要和可调查的具体内容,要求少而精,遵循需要和可能原则。能原则。2.调查项目中的问题要尽可能用调查表的形式表示出来。调查项目中的问题要尽可能用调查表的形式表示出来。2. 调查表:调查表:表现调查项目的表格或问卷表现调查项目的表格或问卷3. 回答回答“调查什么?调查什么?
55、”2 - 2 - 2 - 5555551.依据研究的目标,确定需要考虑哪些变量、收集哪些数据,从而确定设置哪些问题。依据研究的目标,确定需要考虑哪些变量、收集哪些数据,从而确定设置哪些问题。2.猜想变量(特征)之间的相互关系,是成功设计问卷的关键之一;猜想变量(特征)之间的相互关系,是成功设计问卷的关键之一;3.预先考虑到数据处理方法,也会影响问卷的问题设置。预先考虑到数据处理方法,也会影响问卷的问题设置。n问题设计用词要准确、用语要含义明确;问题设计用词要准确、用语要含义明确;n问题的不同提法,可能导致不同的回答结果;问题的不同提法,可能导致不同的回答结果;n凡不能获得诚实回答的问题,不应设
56、计在问卷中;如果确需了解,可以变换问题凡不能获得诚实回答的问题,不应设计在问卷中;如果确需了解,可以变换问题的提法来获得相应的数据,或者通过了解相对数据来判断总体的情况;的提法来获得相应的数据,或者通过了解相对数据来判断总体的情况;n对对怀疑得不到诚实问答怀疑得不到诚实问答的问题,应在问卷的不同位置,设置相同、相近、相的问题,应在问卷的不同位置,设置相同、相近、相反的问题,以求相互验证;反的问题,以求相互验证;n单选问题单选问题备选答案必须是备选答案必须是一个空间的完整划分一个空间的完整划分,更不应当是两个空间的混淆;,更不应当是两个空间的混淆;n但对多选题,备选答案可以交叉,也可以处于不同的
57、层面;但对多选题,备选答案可以交叉,也可以处于不同的层面;n无论是多选题还是单选题,任何一个备选答案都不能有多重含义,备选答案之间无论是多选题还是单选题,任何一个备选答案都不能有多重含义,备选答案之间也不能有包含关系;也不能有包含关系;n问卷设计一定要通过小规模访谈来修改。问卷设计一定要通过小规模访谈来修改。2 - 2 - 2 - 5656561.调查方案中,如果调查的现象是时点现象,则要明确规定资调查方案中,如果调查的现象是时点现象,则要明确规定资料所属的统一时点,一般称为标准时间;料所属的统一时点,一般称为标准时间;2.如果调查对象是时期现象,则要明确规定现象的起止时间。如果调查对象是时期
58、现象,则要明确规定现象的起止时间。3.在调查方案中,还应明确调查工作的期限,包括收集资料和在调查方案中,还应明确调查工作的期限,包括收集资料和报送资料整个工作所需要的时间。报送资料整个工作所需要的时间。4.为了保证资料的及时性,应尽可能缩短调查期限。为了保证资料的及时性,应尽可能缩短调查期限。2 - 2 - 2 - 5757571.主要包括:主要包括:n调查工作的组织领导和调查人员的组织;调查工作的组织领导和调查人员的组织;n调查的方式、方法;调查的方式、方法;n调查前的宣传教育、人员培训等准备工作;调查前的宣传教育、人员培训等准备工作;n调查资料的报送办法;调查资料的报送办法;n调查经费的预
59、算和开支办法;调查经费的预算和开支办法;n提供或公布调查时间等。提供或公布调查时间等。n需要进行试点调查时,还应明确试点调查的细节。需要进行试点调查时,还应明确试点调查的细节。2 - 2 - 2 - 585858一一. 获取间接数据获取间接数据二二. 获取直接数据获取直接数据2 - 2 - 2 - 595959中国统计出版社1.统计部门和政府部门公布的有关资料,如各类统计年鉴统计部门和政府部门公布的有关资料,如各类统计年鉴: 中国统计年鉴中国统计年鉴、中国统计摘要中国统计摘要、中国社会统计年中国社会统计年鉴鉴、中国工业经济统计年鉴中国工业经济统计年鉴、中国农村统计年鉴中国农村统计年鉴、中国人口
60、统计年鉴中国人口统计年鉴、中国市场统计年鉴中国市场统计年鉴、世界经济世界经济年鉴年鉴、国外经济统计资料国外经济统计资料、世界发展报告世界发展报告2.各类经济信息中心、信息咨询机构、专业调查机构等提各类经济信息中心、信息咨询机构、专业调查机构等提供的数据供的数据3.各类专业期刊、报纸、书籍所提供的资料各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料从互联网或图书馆查阅到的相关资料 2 - 2 - 2 - 606060中国政府及
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市建筑色彩规划重点基础知识点
- 制造企业QC新员工培训大纲
- 员工安全生产培训内容
- 《經濟學與生活》课件
- 车辆订购合同修改协议
- 化肥买卖服务合同
- 与供应商的合同续签申请书
- 水井收费协议书
- 绿色食品批发市场采购合作协议
- 玫瑰岛产品销售培训高级班赋能方案
- 2024年重庆市初中学业水平考试生物试卷试题真题(含答案详解)
- 整形外科诊疗规范
- 2025届高三语文一轮复习学法指导专题讲座
- 2024年江苏省扬州市广陵区中考二模道德与法治试题
- 临床诊疗指南及规范自查报告
- 课前游戏-数字炸弹-模板可修改
- MOOC 跨文化交际入门-华中师范大学 中国大学慕课答案
- 合作取得更大的成功辩论稿范文六篇
- 掏土纠偏法在地基纠偏中的应用
- 金蝶云星空操作手册
- 《精益生产培训》课件
评论
0/150
提交评论