社会调查中空间随机抽样方法和步骤_第1页
社会调查中空间随机抽样方法和步骤_第2页
社会调查中空间随机抽样方法和步骤_第3页
社会调查中空间随机抽样方法和步骤_第4页
社会调查中空间随机抽样方法和步骤_第5页
免费预览已结束,剩余183页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

空间随机抽样的方法和步骤

——社会调查问卷发放的必备知识和技术陈彦光城市与环境学院0。前言印度统计学家C.R.Rao写了一本书《统计与真理——怎样运用偶然性(StatisticsandTruth:PuttingChancetoWork

)》。在扉页上有两句话:“对统计学的一知半解常常造成不必要的上当受骗;对统计学的一概排斥往往造成不必要的愚昧无知。”0。前言社会上的例子。中央电视台法制频道。武汉市一位女医生,贩卖一种自称可以控制生男生女的药物,1000元钱一副;如果无效,退款800。典型的骗局——纯粹地赚钱。但很多人购买她的药物。可以预期:如果100人上当,她大约可以赚6万钱;200人上当,则可赚12万。0。前言专业上的例子。河南省鹤壁市人口迁移。0。前言社会调查研究,包括调查过程安排、问卷的发放与数据的提取、分析和推断,如此等等,都必须有相应的概率论和统计学知识的支撑。没有相关的知识背景,非常可能发生错误而不自觉。社会问题调研分为两个层面:宏观层面和微观层面。0。前言列表说明。层面调研方式目标基础知识宏观层面问卷寻找趋势统计学微观层面访谈揭示机制概率论0。前言微观层面更多的是定性研究,有时候需要基于概率论开展定量分析。但是,宏观层面则主要是定量分析,借助统计学寻找规律,预测事物的发展趋势,为社会决策服务。为此,需要发放问卷。在特定情况下,开展访谈记录的统计分析(访谈大量个体)。0。前言微观层面的社会调研主要是针对个体,针对局部,着重于定性研究。这方面的工作国内做得挺好,其他老师会根据自己的亲身经历讲授得更为精彩。我的讲授内容限定于宏观层面。宏观研究的目的是基于大量统计结果开展规律性或者趋势性的定量研究。0。前言下面要讲授的内容分为如下几个部分。抽样的基本知识。经典案例分析。SRS的构造方法。空间抽样的步骤。需要注意的问题。1。基本知识《弟子规》——古代学童们的生活规范。其中说:“见未真,勿轻言;知未的,勿轻传。”毛泽东:“没有调查就没有发言权。”是不是有调查就有发言权呢?也不是。问题看你如何调查。1。基本知识BertrandRussell:“HowtoAvoidFoolishOpinions”.“Ifthematterisonethatcanbesettledbyobservation,maketheobservationyourself.Aristotlecouldhaveavoidedthemistakeofthinkingthatwomenhavefewerteeththanmen,bysimpledeviceofaskingMrs.Aristotletokeephermouthopenwhilehecounted.Hedidnotdosobecausehethoughtheknew.”1。基本知识香港凤凰台有一个节目:“李敖有话说”。李敖有话说并不是都讲自己的话。有一次他重复了罗素(Russell)的观点,认为亚里士多德(Aristotle)因为懒得“让自己的太太张开嘴巴数一数”而得出“男人的牙齿多于女人”的错误结论。真的如此吗?不一定。1。基本知识Aristotle是一个什么人?他是一个非常重视观察的古代智者。拉斐尔(Raphael

,1483-1520)是文艺复兴意大利艺坛三杰之一。他曾画过一副名画——《雅典学院》。

1。基本知识据说,这副画创造于1510年。《雅典学院》把不同时期的人物集中于一个空间,把古代希腊、罗马和当时意大利的50多位哲学家、科学家、艺术家和名流荟萃一堂。下面就是《雅典学院》图片。1。基本知识1。基本知识1。基本知识这副画的核心人物是柏拉图(Plato)和亚里士多德(Aristotle)。前者手指天空,指向抽象思维和学术理想的领域;后者将手挥向大地,强调观察和实证才是全部思想的最终源泉。西方有人说:“全部西方哲学只不过是对Plato思想的注脚。”(S.A.Gore)达尔文(Darvin)则说:“今天知识最渊博的科学家,在Aristotle面前只能充当小学生。”1。基本知识Aristotle更多地是一个科学家,是非常重视观察和实证的人。我猜想,Aristotle不是因为失察才导致上述错误。更大的可能是,他做了一个错误的结论外推。今天我们知道,正常情况下人的牙齿是28颗。如果长全智齿就是32颗。智齿有的人长,有的人不长。所以不是所有的人牙齿数目都一样。如果Aristotle长过智齿,而他太太没有长智齿,当时的解剖学知识又不发达,得出错误的判断是可想而知的。

1。基本知识我的根据是什么呢?是我本人和我太太的牙齿。我在上大学期间长过智齿,因此有32颗牙齿。我太太从未长智齿,她是28颗。如果我像罗素、像李敖所说的那样进行观察,我会得出像亚里士多德同样的结论。可见,单凭简单的观察,不一定就能得出正确的结论。1。基本知识专业问题举例。郊区化:调查表明,某城市中心区人口密度降低,郊区、远郊区人口密度上升。能否据此断定郊区化发生?FDI投资中心转移:调查表明,珠三角FDI减少,长三角FDI增多。能否据此判断中国的FDI中心从珠三角转移到长三角?关键在于显著性:是趋势,还是随机扰动?1。基本知识B.J.L.Berry的一个错误——逆城市化(counter-urbanization)。BerryBJL.Ed.UrbanizationandCounterurbanization.BeverlyHills,CA:SagePublications,1976.暂时现象(temporaryphenomenon)——随机扰动,不是一种趋势(…化——趋势)。Berry后来不吭气了,但很多人研究得津津有味。1。基本知识要想通过观察和调查得到相对可靠的结论,就必须具备统计学的知识。四个方面:数据产生(Dataproduction)。数据分析(Dataanalysis)。概率(probability)。统计推断(Statisticalinference)。1。基本知识所谓统计推断(Statisticalinference),就是超越手中的数据,对更大的全体(universe)做出结论。例如:通过调查一些男人和女人,做出“男女牙齿一样多”的推断。必须明确:“男女牙齿一样多”是一种平均意义的结论。统计结论中必须考虑:变异无所不在,结论并不确定。1。基本知识西方有句谚语:“你不必吃完整头牛,才知道肉是老的。”以小明大——通过部分推断整体。《淮南子·说山训》:“以小明大,见一叶落而知岁之将暮。”——一叶落知天下秋。见微知著——借助迹象,判断趋势和本质。汉班固《白虎通·情性》:“智者,知也。独不见前闻,不惑于事,见微知著者也。”1。基本知识观测研究(observationalstudy)。基本概念如下。个体(individual)——一组数据的描绘对象。来自全体(universe)。变量(variable)——一个个体的任意特征(characteristic)。测度(measure)——度量感兴趣的变量。1。基本知识总体和样本。总体(population)——研究对象的全体。样本(sample)——总体中的一部分(由若干个体构成)。1。基本知识从总体(P)中抽样(S)示意图。Population总体Sample样本1。基本知识例子之一——民意调查。盖洛普(Gallup)——民意调查机构,探询人们对某项议题的意见。变量——人们对公共政策相关问题的问答。常年进行。总体(P)——18岁以上的美国居民,包括非公民,甚至非法移民。样本(S)——选自总体的、经过电话访谈的人。数目:1000-1500之间。1。基本知识例子之二——当前人口调查。美国政府当前人口调查(CPS:CurrentPopulationSurvey)——民意调查机构,探询人们对某项议题的意见。按月执行。总体(P)——超过1亿的全部美国住户。同屋而住者为他们定义的住户。样本(S)——每月访谈的住户。数目:约50000个。1。基本知识例子之三——全面社会调查。芝加哥大学的美国全国民意调查中心(NationalOpinionResearchCenter)开展的“全面社会调查(GSS,GeneralSocialSurvey)”。两年一次。主题多,变量更多。总体(P)——美国住户中的成年人(18岁以上)。不包括住在机构里的成年人。样本(S)——面对面在住所访谈的住户。数目:约3000个。1。基本知识例子之四——市场调查。著名案例是尼尔森媒体研究(NielsenMediaResearch)开展的电视收视率调查。其结果影响广告商对某节目的投资,以及一个节目是否值得继续播放。总体(P)——所有1亿户有电视机的美国住户。样本(S)——同意使用“个人收视记录器”的住户。数目:约5000个。1。基本知识普查与抽样。普查(census):样本(S)=总体(P)。抽样(sampling):样本(S)<<总体(P)。1。基本知识全面调查与抽样调查的比较。抽样调查费用较低、速度较快、应用较广。调查和数据处理的质量比较容易控制,结果比较可靠。一方面,我们可以相对严格地挑选和培训调查员;另一方面,被调查者的心理压力较小。可行性强。当调查对象规模很多乃至无限,或者测试方法具有破坏性时,根本无法进行全面调查。1。基本知识样本多大合适?有一种说法,是样本与总体的比率达到3%或者5%即可。理论上,样本越大,越接近于总体,结论越是可靠。但是,统计学家的一个研究结论是:1200-1500是比较理想的选择。不论总体多大,样本规模不得低于1000。对于社会调查来说,太多也没有必要。2。实例分析一个失败的例子。美国路易斯安那州瑞皮德斯堂区(RapidesParish,Louisiana)有一家公司提供救护车服务。当地的一家报纸《镇报(TownTalk)》希望通过社会调查了解民众是否赞成该公司垄断。方式:自动电话访察。2。实例分析调查的结果。先后接到3763个电话。事后调查发现,有638个电话来自救护车公司的办公室或者公司高级主管的家里。还有更多的是较低阶层的公司员工打的。这种调查方式不规范,调查结果称为“坏样本”,或者糟糕的样本。2。实例分析那么什么是好样本呢?所有的好样本,都是“概率样本”。所谓概率样本(probabilitysample),就是充分发挥随机性的作用,利用机遇抽取的样本。样本必须避免偏向性,为此要了解随机性。2。实例分析陈年旧话。盖洛普如何战胜《文学摘要》。2006年高考模拟题:为什么某主流媒体对新政前途的预测和宣传是错误的?

2。实例分析1936年,美国总统富兰克林·D·罗斯福(FranklinD.Roosevelt)第一任期满,进行新一轮的总统选举。竞选者分别为民主党人罗斯福和共和党人兰登(AlfredLandon

)。美国权威的《文学摘要》杂志社,为了预测总统候选人谁能当选,采用了大规模的模拟选举,

他们以电话簿上的地址和俱乐部成员名单上的地址发出1000万份模拟选票,收到回信240万封。2。实例分析这在调查史上,样本容量如此之大实属罕见。杂志社花费了大量人力和物力处理调查统计结果。其推断是:兰登将以57%对43%的比例获胜。《文学摘要》对此结论大肆宣传。最后选举结果却是,罗斯福以62%对38%的巨大优势获胜,连任总统。这个调查使《文学摘要》杂志社威信扫地,不久,只得关门停刊。2。实例分析那时,一位名不见经传的青年盖洛普(Gallup)成立了自己的民意调查结构(GallupPoll),也针对总统选举开展了社会调查和预测分析。他们取得一个大约5万的样本,分析结论是:罗斯福将以56%对44%胜出,连任总统。这个结论当时没有引起人们的重视。但事实是,盖洛普成功了,虽然预测的比例存在误差。

2。实例分析《文学摘要》失败的原因?下面是一种观点。抽样方法不正确。样本不是从总体——全体美国公民中随机抽取,而是具有有偏性——偏向了富人,忽略了穷人。1936年,美国有私人电话和参加俱乐部的家庭,都是比较富裕的家庭。《文学文摘》杂志社却是根据电话薄和俱乐部成员名单开展调查。在一般情况下,富人利益和穷人利益大体一致。但是,在非常时期,情况就不同了。2。实例分析《文学摘要》的调查和预测是否始终以失败告终?不是。从1916年开始,该杂志社先后对美国五届总统选举做出预测,都能正确地预测出获胜的一方。因此在当时的美国有很大的影响力。但是,情况会发生变化,所谓“此一时,彼一时”。2。实例分析1929-1933年爆发了世界性经济危机,美国经济遭到重创。此时富人和穷人的利益很不一致。罗斯福总统为了实行“新政”,动用行政手段干预市场经济,损害了部分富人的利益。但是,大多数下层美国民众从中受益。在这种情况下,《文学摘要》富人偏向的抽样严重偏离了总体意向,导致样本不具备代表性,从而结论不正确。

2。实例分析上述为一部分学者的观点。更多的学者赞成如下看法,不回答导致的偏性。这就涉及到一个抽样调查的概念——不回答偏性,又叫自发回应偏性。具体说明如下。

2。实例分析1936年,《文学摘要》杂志的一次专门调查,给芝加哥的选民每三人寄去一份问卷,约有20%的人被调查者响应,其中支持兰登的答卷超过半数。但是,在实际选举过程中,兰登在芝加哥的得票率只有三分之一左右。

2。实例分析注意到发放的问卷中有五分之四没有回答。当出现较高的不回答率时,有可能出现不回答偏性。研究发现,高收入和低收入两种极端情况的人倾向于不回答问卷。在这种情况下,中等收入的意见超出了实际比例。

2。实例分析我们知道,人的收入服从Pareto分布,高收入的人少,但越是低收入的人越多。2。实例分析在那没有回答的五分之四中间,有相当多的低收入家庭的意见没有反映出来。因此,后来社会调查采用亲自访问代替邮寄问卷调查。不过,亲自访问也不能杜绝偏性。这个后面还要讨论。2。实例分析盖洛普为何获胜?盖洛普采用的是定额抽样方法,注意到样本在性别、年龄、职业、收入、种族和文化层次等基本指标的分布与全国人口的结构保持一致。这样的一个样本实际上是全国总人口构成的缩影,无偏性较好(不是最好),因而在一定程度上具有代表性。

2。实例分析有人感叹:1936年美国的总统大选,最大的赢家不是罗斯福,而是盖洛普。盖洛普的成功,说明美国的民主是实质的,不是假民主。我们先看看盖洛普是一个什么人。

2。实例分析一些百科文摘对盖洛普进行了如下介绍。盖洛普(Gallup,GeorgeHorace1901-1984)为美国统计学家。抽样调查方法的创始人、民意调查的组织者。盖洛普几乎成为这种民意调查活动的代名词。Gallup创立的民意调查公司(GallupOrganization

)——又叫“盖洛普民意测验所”或者“美国舆论研究所”,专门从事市场调查和市场研究,是世界上最大的民意调查和管理咨询组织,在20多个国家设有40多个分部,90年代进入中国大陆。2。实例分析盖洛普在民意调查和预测方面是否没有遇到挫折呢?当然不是。1936年及其以后的两次选举预测,盖洛普都成功了。但是,1948年的总统选举,盖洛普预测错了。2。实例分析二战期间,总统罗斯福因为脑溢血去世,副总统杜鲁门(HarryS.Truman)接任。1948年,杜鲁门任期已满,与共和党人杜威(ThomasDewey

)竞争总统职位。盖洛普基于50000人次的调查,预测杜威以6个百分点的优势获胜。与此同时,另外两家重要的民意调查机构也进行了预测,他们预言杜威将领先5个百分点。2。实例分析实际结果是:杜鲁门以55%对45%的优势获胜。我们知道,哈利·S·杜鲁门是一个缺点很暴露的美国人。比方说,他爱讲脏话,爱骂人。2。实例分析据说有一次,一位优雅的女士对杜鲁门夫人抱怨说:“总统讲话实在太脏了,你真该好好劝劝他。”杜鲁门夫人遗憾地耸耸肩:“你不知道呀夫人,我花了整整二十年的时间美化总统的语言,才达到今天这个水平。”2。实例分析《史记》记载了中国的一句古话:“大行不顾细谨,大礼不辞小让。”干大事的人有点小毛病,没有关系。大约1980年代的时候,美国人评选历史上的“十佳总统”和“十差总统”。杜鲁门名列“十差”之中。2。实例分析但是,一些史学家却对他评价很高,认为他是一个优秀的国家领导人。大众的看法和专家的看法不一样。二战之后,美国遇到新一轮的经济衰退。当时外交内政都有很多麻烦。政府官员的丑闻不断发生。特别是,朝鲜战争失败,严重影响了杜鲁门的声誉。2。实例分析我在《城市规划系统工程学》课上曾经讲述过评价人物的尺度问题。春秋人物管仲——孔子评价很高(大处着眼),孔子的弟子子贡、子路评价都很低(小处着眼)。李熬:大人格(专家的见解),小人格(匹夫匹妇的见解)。2。实例分析后来共和党的艾森豪威尔反对杜鲁门的口号就是:“韩国!共产主义!贪污!”(Korea!Communism!Corruption!)。他因此而赢得人心,在1952年出任总统,结束了民主党长达20年的执政。

2。实例分析这些例子说明什么问题?说明社会调查的统计分析是一个宏观层面的问题。杜鲁门有缺点,而且他的缺点早就暴露。无论东方抑或西方,都会有一些人斤斤计较这类小节问题。但是,在美国,小节在选举的过程中被忽略了。最终影响杜鲁门声誉的,都是大问题。2。实例分析现在我们再看看盖洛普预测杜鲁门-杜威竞选结果失败的原因何在。盖洛普和另外两家民意测验机构都采用了定额抽样法。也就是说,访问人员访问的人数是固定的,但访问对象可以由访问人员自由选定。2。实例分析举一个例子。盖洛普要求访问人员在St.Louis城访问13个对象。明确规定如下。6人住在城郊,7人住在市中心。男性7人,女性6人。在7个男性中,40岁以上的3人,40岁以下的4人;1个黑人,6个白人。对于女性也有类似的定额规定。2。实例分析事实情况则是,在1948年的民意访问人员选择了过多的共和党人,对民主党人照顾不够。原因是,共和党人相对富余,受过较好的教育,住在较好的街区,比较容易接近。因此,访问人员为了方便,在调查过程中乐意访问共和党人。这就又涉及一个概念——选择偏性。下面的表格说明了访问结果导致的共和党偏性。2。实例分析年份共和党实际得票率(%)盖洛普预测共和党得票率(%)有利于共和党的偏差(%)1936384461940454831944464821948455052。实例分析改进:基于概率的分层多阶抽样方案的提出。失败是成功之母。1952年,盖洛普总结经验,吸取教训。借助概率方法选择样本,发展了分层多阶随机抽样的方法。分为如下六个步骤完成。第一步,将美国分为四层,即四个地理区域:东北,中西,南,西。2。实例分析区域划分结果如下。东北(NE)中西(WM)南(S)西(W)2。实例分析第二步,在每一个地理区域分成一个个城镇。例如,在东北地区,将人口5万到25万的居民中心地归为一类城镇。在每一个地理区域内随机抽取若干个城镇。2。实例分析第三步,将城镇划分成选区。在每一个被抽取的城镇内随机抽取若干个。2。实例分析第四步,将选区划分成亚选区。在每一个被抽取的选区内随机抽取若干个亚选区。2。实例分析第五步,在每一个抽取的亚选区内随机抽取若干个家庭。2。实例分析第六步,访问被抽取的家庭中的某些成员。到这个时候,访问人员会接到通知。比方说,要求他/她与家庭中18岁以上的最年轻的男子交谈;如果没有男子在家,就与18岁以上的最年长的女子交谈。如此等等。2。实例分析下面我们对上面涉及的各种调查方法进行小结。定额抽样法对访察对象的宏观结构有具体的规定,这样可以保证样本的比例与总体的比例大体一致。也就是说,样本应该是总体的一个缩影。样本的规模远远小于总体,但是,必须保证“麻雀虽小,五脏俱全”。2。实例分析相对于邮寄问卷,定额抽样法避免了“不回答偏性(Non-responsebias)”——某些类别的人群倾向于不回答问卷。这就使得样本个体的构成更为符合实际。但是,由于访问人员的惰性,这种方法又难以避免所谓“选择偏性(Selectionbias)”——访问人员优先选择易于接近的人群。结果依然会导致结构偏差:麻雀肢解,五脏不全。2。实例分析概率抽样法代替定额抽样法之后,调查偏性导致的结构误差大为降低。这样,可以使得黑人比例、年轻人比例、生活水平低下者的比例都比较符合实际情况。不仅如此,采用概率方法之后,调查的工作量大为降低。2。实例分析1948年前,采用定额抽样法,样本大小为50,000。1948年之后,采用概率抽样法,样本容量只有原来的五分之一到十分之一(5000—10,000)。按照美国那时的人口平均,每10万人中抽查的个体不到5人。最重要的是,消除了党派偏性。2。实例分析这样,预测准确,并且精度提高。在1948年之前,预测误差大约为5%;1948年之后,预测误差小于此数。下表说明了概率抽样法的优越之处。2。实例分析年份样本容量获胜总体Gallup预测得票率实际得票率误差19525385艾森豪威尔51%55.4%4.4%19568144艾森豪威尔59.5%57.8%-1.7%19608015肯尼迪51%50.1%-0.9%19646625约翰逊64%61.3%-2.7%2。实例分析年份样本容量获胜总体Gallup预测得票率实际得票率误差19684414尼克松43%43.5%0.5%19723689尼克松62%61.8%-0.2%19763439卡特49.5%51.1%1.6%19803500里根55.3%51.6%-3.7%19843456里根59%59.2%0.2%19884089布什56%53.9%-2.1%2。实例分析现在我们知道,样本与总体具有良好的同构性是统计推断是否可靠的基本前提。统计学所谓的无偏性,就是在结构上不忽略总体中的任何一个构成。确定的框架——随机选取的个体:保证样本与总体同构:全息。2。实例分析自组织城市:混沌城市(chaoticcity),分形城市(fractalcity)。混沌(chaos)——确定与随机的关系。分形(fractal)——局部与整体的相似性。当然,这是题外话。3。操作方法(SRS)为了说明有偏调查的危害,不妨再举一例。某企业开展了一项关于快餐市场的调研。他们抽取了500户家庭,访问时间选择在白天。在访问过程中,有150户家庭没有人。在这种情况下,能否用白天有人的350户家庭的数据呢?3。操作方法(SRS)回答是:不可以。因为这里具有不回答偏性。白天不在家的那150户人家,可能正是吃快餐比较多的家庭。这部分家庭的信息遗漏,怎能保证正确的推断结果?3。操作方法(SRS)2005年,我们到青岛城阳区夏庄云头崮片区开展社会调查。学生白天访谈。一般家庭只有老人、小孩、部分闲人。绝大部分劳动者都不在家。调查的结果可想而知——不回答偏性。3。操作方法(SRS)在社会调查和统计分析过程中,必须注意两种误差。一是偏差(bias)。当我们取很多样本时,统计量一直朝着同一个方向偏离总体的参数值。二是变异性(variability)。当我们取很多样本时,统计量的值有一定的离散程度。变异性大,表明不同样本的结果差别较大。3。操作方法(SRS)简而言之:偏差——不真实(不同构);变异——不稳定(误差范围大)。一个好的抽样结果,偏差和变异性都不能太大。降低变异性的方法利增大样本容量。降低偏差的办法则是利用随机性,或者说利用机遇代替人的主观选择。3。操作方法(SRS)3。操作方法(SRS)美国专栏作家兰德丝(AnnLanders)曾经开展过一次读者访查:“如果可以重新开始生活,你还要孩子吗?”她收到大约1万份答复,其中将近70%的人回答:不要。能否就此得出结论:70%的父母后悔有了孩子呢?不能。这里同样存在不回答偏性导致的误差。3。操作方法(SRS)兰德丝(AnnLanders)得到的是一个自发性回应样本。对于兰德丝这类问题,一般人是没有闲情逸致去回答的。但是,那些因为生孩子而出现麻烦、由此导致负面感受的人才会因此产生强烈的反响,从而不厌其烦地去回答她的问题。那些因为孩子带来天伦之乐的家庭,相当部分没有理会这类问题。3。操作方法(SRS)如果统计问题的设计使得结果总是往某个方向偏,这个设计就是有偏的。两类有偏样本。第一类,方便抽样导致的样本——方便样本。在从总体中抽样时,如果选择最容易取得的,叫做方便抽样(conveniencesampling)。这样容易导致选择偏性。3。操作方法(SRS)第二类,自发回应样本(voluntaryresponsesample)。这种样本通常具有不回答偏性。如果经由对某一诉求的回应自然形成,就会得到自发回应样本。写信回应(write-in)或者电话回应(call-in)意见调查都是自发回应样本的例子。3。操作方法(SRS)例如,如果调查购物情况,仅仅去购物中心进行调研,则容易导致方便样本。常去购物中心的人士主要有三类:比较有钱的人(有金钱挥霍),青少年(有心理需要),退休人士(有时间保证)。在中国,普通家庭妇女有购物癖好。这样得到的方便样本可能与总体情况有很大出入。3。操作方法(SRS)又如,利用学生开展某类调查。要大学生或者中学生将问卷发放到家庭,然后回收。这是典型的方便样本,容易导致不回答偏性和选择偏性双重偏性。而且,在中国,还有学生自己胡乱填写的假答卷。这就涉及另外一个概念——非抽样误差。后面要具体说明。3。操作方法(SRS)可以看出,最常见的抽样误差分为两类。其一,自发回应样本。由被调查者决定要不要回应,容易导致不回答偏性。其二,方便样本。由调查者决定调查的对象,从而引起选择偏性。共同的结果:样本结构与总体结构不对应。或者说,相应于总体,样本的五脏不全,六腑受损。举例说明如下。3。操作方法(SRS)构成总体比例(%)好样本比例(%)坏样本比例(%)A1515左右20B2020左右15C3030左右50D2020左右15E1515左右0总和Nnn3。操作方法(SRS)怎样避免坏样本?除了普查之外,一个有效的抽样方法,就是利用“机遇(chance)”来选取样本。既避免调查者(取样者)的主观倾向(调查谁),也避免被调查者(回应者)的主观倾向(要不要回答)。3。操作方法(SRS)这样,在从总体中选取个体构造样本的过程中,每一个个体中选的机会是均等的。不管你是白人还是黑人,男人还是女人,年轻人还是老年人,富人还是穷人,读书人还是文盲,被抽取的机会完全一样。在这种情况下,当样本数量达到一定规模时,其构成就非常接近于总体的构成。3。操作方法(SRS)那么怎样利用机会进行随机抽样呢?最简单的方法如下:将所有的名字分别写在一张张纸条上,将这些纸条放进一个帽子里面(这就是总体),充分摇匀,然后从中随便抓出一把(这就是样本)。这就涉及到简单随机抽样(SRS)的概念。3。操作方法(SRS)简单随机抽样(SRS,SimpleRandomSample)定义如下。“大小为n的简单随机样本(SRS)是有n个个体的样本。这个样本的选取方法是,使得总体中任意一组n个个体,中选的概率都相同。”3。操作方法(SRS)SRS的特点是:总体中每一个个体有相同的中选机会。每一种可能的样本,有相同的中选机会。从而每一个样本都与总体同构。上述两点是同一个问题的两个方面。因此,SRS可以消除选择偏差。3。操作方法(SRS)最简单的操作方法如下。将100个名字分别写在相同大小的纸条上面,将这些纸条放在帽子里面混合均匀。这就是总体。然后一张接一张抽出纸条,一共抽取10次。这就是一个SRS。或者将名字写在扑克牌上(100),充分地洗牌,然后随机抽取若干张(10)。3。操作方法(SRS)这个SRS的特点是:任何纸条中选的机会是相同的。这就是个体机会均等。任何10张纸条与任何另外10张纸条,中选的机会都一样。这就是样本机会均等。如果研究的对象规模庞大,这种在帽子中抽名字的方式就不好使了。3。操作方法(SRS)下面就介绍利用随机数表(tableofrandomdigits)进行抽样,构造SRS的方法。那么什么是随机数(randomdigit)呢?3。操作方法(SRS)随机数表是一连串的0、1、2、3、4、5、6、7、8、9这些数字,它们满足如下两个条件。表中任一位置的数字,其为0-9中任何一个数字的概率相同。不同位置的数字之间是独立的。换言之,知道表中某一部分是些什么数字,不会提供你任何关于其他部分是些什么数字的任何信息。3。操作方法(SRS)举例说明如下。假定我们班有26位同学,分别用A、B、C、…、Z这26个字母表示。我想从中选取5位同学访谈教学情况。为了避免偏差,有必要选取大小为5的SRS。3。操作方法(SRS)第一步,编码——对总体中的每一个个体,指定一个数字代码,保证每一个代码都是同样的位数。给每一个同学一个代码,代码的数字要适可而止:太大则增加取样的难度,太小则不能覆盖全体同学。3。操作方法(SRS)由于人数小于100大于10,我们采用2位编码恰到好处:01,02,03,…,25,26当然,可以用从00到25的数字编码,也可以用从02到27的数字编码,还可以用任意不重复的26个两位数编码。3。操作方法(SRS)编码的结果见右表。注意,我们是用26个字母代表26个名字。后面的编码仅仅代表一种可能。也可以采用其他编码。名字编码名字编码A01N14B02O15C03P16D04Q17E05R18F06S19G07T20H08U21I09V22J10W23K11X24L12Y25M13Z263。操作方法(SRS)第二步,用表——生成随机数,借助随机数字随机地挑选代码。一般的统计学教科书后面都附有随机数表,利用这些随机数表,可以生成一系列的2位随机数序列。3。操作方法(SRS)例如我们从某随机数表中查到如下随机数字:1922390534057562871396409125314254482853将这组随机数按顺序重新组合成两位数19223905340575628713964091253142544828533。操作方法(SRS)凡是大于26的抛弃掉,剩余的随机数为192205051325重复出现的只保留一个1922051325于是被选中的同学是19-S,22-V,05-E,13-M,25-Y3。操作方法(SRS)注意,这里巧得很,我们决定抽取5个个体,最后得到的两位随机数刚好是5个。如果最后的两位随机数不是5个,而是大于5个或者小于5个怎么办?方法很简单。如果小于5个,那么就要从随机数表挑选更多的随机数字,组成更多的两位随机数;如果大于5个,从中任意挑选5个即可。3。操作方法(SRS)有人会说,查表太麻烦了。有没有更简便的方法。有,利用Excel中的随机数发生器。步骤如下。第一步,编码。方法同上。编码结果见下图。3。操作方法(SRS)3。操作方法(SRS)3。操作方法(SRS)第二步,生成随机数。从主菜单出发,沿着“工具→数据分析”的路径,打开“数据分析”复选框。3。操作方法(SRS)选择随机数发生器,弹出一个对话框。分布类型选择“均匀”,变量个数设为1,随机数个数设为26,参数范围介于1-100之间,随机数基数设为1。输出区域选择第三列——当然可以选择其他地方,这一个选项没有太大关系。3。操作方法(SRS)3。操作方法(SRS)全部设置完毕,确定,立即得到一组随机数,数值为介于1~100之间的分数。然后利用取整函数int取其整数部分,将小数点后面的数字全部舍弃。3。操作方法(SRS)方法如下,根据我们的数值分布位置,在第四列的D2单元格输入公式“=INT(C2)”,回车,得到第一个取整结果。然后用鼠标将光标指向D2单元格的右下角,待其变成细小黑十字,双击或者下拉,即可得到全部取整结果。3。操作方法(SRS)3。操作方法(SRS)3。操作方法(SRS)第三步,取样。将取整后的随机数从小到大排序。保留其中小于27的数字,并且删除重复出现的数字,得到的结果是1,2,10,12,15,17,18,20一共8个数字。在这8个数字中任意挑选5个即可。比方说,选取2,10,12,15,17,则相应的抽样结果为B、J、L、O、Q。3。操作方法(SRS)有人可能要问,你的这些关于构造SRS的操作步骤与我们的主题社会调查有什么关系?当然大有关系。现在,假定我们要开展一项社会调查,为此我们设计了3000份问卷。我们怎样发放问卷才能避免有偏性呢?换言之,怎样利用机遇进行取样?4。空间抽样技术现在我们假定在北京开展一项社会调查,要发放一批问卷。为了简便起见,不考虑城乡差别,将城区人口与郊区人口同等对待。我们以2000年的地图为依据说明如何处理空间抽样问题。4。空间抽样技术为了多快好省地将问卷随机地发放到人群之中,我们首先应该开展空间抽样,即随机地挑选一些调查的区域——不妨以街道为地域单元。在2000年前后,北京一共有239个街道,在地图上则分为241单元。假定我们从这241个单元中随机抽出20个单元。利用Excel抽样的步骤如下。

4。空间抽样技术4。空间抽样技术4。空间抽样技术第一步,样品编号。对全部241个样品编号,从1开始,到241结束。然后考虑抽取21个样品——当然也可以抽取20个或者21个以上。多抽取几个的目的是预备抽样重叠时便于处理。一般多取一个就可以了。4。空间抽样技术4。空间抽样技术第二步,选择函数,生成随机数。首先选中将要输出随机数的区域,比方说E2:E22。然后,从主菜单“插入”出发,沿着“插入→函数”的路径打开“函数”选项框。当然,也可以直接点击图标fx,弹出插入函数的选项框。4。空间抽样技术4。空间抽样技术在“函数类别”中选择“数学与三角函数”,在“选择函数”中选择随机数函数rand,确定,弹出“函数参数”对话框。

4。空间抽样技术同时按下“Ctrl+Shift”键,回车。或者说同时按下Ctrl+Shift+Enter”键。这样立即出现一系列小于1的随机数。4。空间抽样技术4。空间抽样技术第三步,改变随机数的数值范围。我们的样品编号处于1~241之间,但生成的随机数数值却位于0~1之间。为此,需要改变随机数的变化范围。一个有效的办法是用所有的随机数乘以最大编号241。4。空间抽样技术具体操作方法如下。由于我们的随机数位于第E列单元格,变化范围为E2:E22。选中E2单元格,在函数图标fx后面出现公式“=RAND()”。将公式改为“=241*RAND()”,回车,则数值改变;然后用鼠标将光标指向E2单元格的右下角,待其变成细小黑十字填充柄,双击或者下拉,即可得到全部修改结果。对于修改之后的数值而言,随机性不变。4。空间抽样技术容易发现,每当对数据操作一次,随机数都改变一次。4。空间抽样技术第四步,随机数取整。在插入函数中,找出“数学与三角函数”中的取整函数ceiling,这是一个向上舍入取整函数。它将任何小数变成大于该小数的整数。也就是说,不管遇到0.1还是0.9,统统变成1。这样,就可以将所有的随机数转换为1~241之间的随机整数。4。空间抽样技术如下图所示,首先选中F2:F22单元格作为取整后的随机数分布区域,然后打开取整函数对话框之后,在Number文本框里选中随机数的分布范围E2:E22,在Significance后面的文本框里取1。同时按下Ctrl+Shift+Enter”键,即可得到全部向上舍入取整后的随机数。4。空间抽样技术4。空间抽样技术也可以按照如下方式操作。在F2单元格中输入公式“=CEILING(E2,1)”,回车,得到第一个取整的随机数。然后用鼠标将光标指向F2单元格的右下角,待其变成细小黑十字填充柄,双击或者下拉,得到全部修改结果。4。空间抽样技术4。空间抽样技术第五步,建立随机数与样品名称之间的索引关系。打开“插入函数”选项框,在“函数类别”中选择“查找与应用”,在“选择函数”中选择随机数函数index。4。空间抽样技术4。空间抽样技术确定,弹出“选定参数”对话框,参数选为(array,row_num,column_num),即返回数组中指定单元格或单元格数组的数值。4。空间抽样技术确定,弹出“函数参数”对话框,在Reference文本框中选择B2:B242,这是样品名称分布的范围;在Row_num对话框中选择F2:F22,这是取整后的随机数分布范围。4。空间抽样技术4。空间抽样技术同时按下Ctrl+Shift键,回车,即可得到索引结果。可以看出,在F列中,随机数1对应的样品为东华门街道,这与编号为1的样品是一致的;随机数11对应的是西长安街街道,这与11号样品是一致的。其余依此类推。

4。空间抽样技术4。空间抽样技术第六步,随机取样。上述结果在工作表活动的时候,数字不断变化。为了随机取样,可以不断地按功能键F9,得到新的抽样结果。每按一次F9键,抽样结果就会改变一次。4。空间抽样技术注意,我们需要抽取20个样品,而前面给出的随机数有21个。如果抽样的结果没有重复,那就随意舍弃一个样品,保留20个即可。如果刚好有一个重复,则舍弃一个重复出现的样品;如果有多个样品重复,则重写按动F9键,改变取样结果,直到没有样品重复或者至多有一个重复,就可以满足要求。当然,如果有较多的重复样品,可以将任意两次取样的结果合并,再从合并结果中任意选出20个样品。4。空间抽样技术下图给出了抽样结果之一。这个抽样的结果具有如下特征。其一,样品的选择不以任何人的主观意志为转移,而是由偶然性来决定。因此,各个样品被选中的机会是一样的。其二,在空间分布上,样品的分布是均衡的,没有规律可寻的。

4。空间抽样技术4。空间抽样技术下面考虑分层抽样问题:在抽样过程中照顾地理方位。当然,在实际工作中是否要考虑方位问题,取决于研究问题的性质和目标。以天安门为原点,画出东西向和南北向两条坐标轴,将北京辖区分隔成东北、西北、东南、西南四个象限。将上述239个街道、241个样品划分到4个亚区域。4。空间抽样技术如果一个街道或者乡、镇跨越几个象限,则根据面积的大小决定归属——哪一个象限占据一个样品更多的面积,这样品就归属于哪个象限。这样,东北区有67个样品,西部区有65个样品,东南区有49个样品,西南区有60个样品。于是,一个总体分隔为4个总体。4。空间抽样技术然后,我们分别从上述4个亚区或者四个总体中各挑出5个样品,得到4个样本。取样的方法与3.1节的讲述内容完全一样。不同的是,要针对4个区域的分别开展四次工作。取样结果参见下面的图表。4。空间抽样技术4。空间抽样技术4。空间抽样技术上述分区采用没有明确的现实意义,仅仅用于说明分层采样的方法。一个更为实际的分区采样方法是,将北京市分为中心城区、近郊区、远郊区;然后根据不同区域的重要性确定各区采取的样品数目;再然后对中心城、近郊区和远郊区分别采取样品。每个区域采取多少样品,可以根据人口密度来确定。4。空间抽样技术抽取20个街道或者乡、镇之后,还要对各个街道中的下一级聚落单元进行随机采样。以郊区为例,在一个乡里随机抽取若干个村,在被抽取的村中随机抽取若干个组,在一个组中随机抽取若干个家庭。4。空间抽样技术像这样,如果市中取县,县中取乡,乡中取村,村中取组,组中取家庭,家庭中再取个人,则整个抽样要分为6级,比较繁琐。比较简便的方法是,越过一些行政级别。比方说直接从市中取街道、乡、镇,街道、乡、镇中直接取小区或组,小区或者组内再取个人。这样减少抽样的工作量,且不影响最终样品的随机分布。4。空间抽样技术4。空间抽样技术当我们将抽样结果落实到个人之后,就可以发放问卷或者进行访谈。问题在于,如果落实到个人而又找不到个人,反而增添麻烦。这就涉及后面将要谈到的不回应问题。5。需要注意的问题西方有个叫做奎塔德(Guittard)的人,曾经有一句名言:“婚姻是一个被包围的城堡,外面的人想冲进去,里面的人想逃出来。”钱钟书的《围城》一书,其主题就来自这个名言。5。需要注意的问题现在,我们假定调查了10,000对夫妇,其中有3,000对夫妇表示他们后悔结婚了。我们能否得出如下结论呢?“通过调查,有30%的夫妇后悔结婚。”不能,这种表述不科学。即便加上“大约”二字,也是不准确的。5。需要注意的问题正确的表述如下:“经过调查,我们有95%的把握相信,大约有29~31%的夫妇对结婚表示后悔。”这就是所谓“置信表述”。这是一种科学的表答方法。在这段表述中,隐含着样本容量的信息。为此,有必要介绍“误差界限”这个概念。5。需要注意的问题为了认识“误差界限”,首先要明确两个最最基本的统计学概念——参数和统计量。参数(Parameter)——描述总体的数字。参数是一个固定的值,但我们实际上无法知道参数的值。统计量(statistic)——描述样本的值。一旦取得样本,统计量也就知道了。但是,改变样本,统计量也就有所改变。我们用统计量估计未知的参数。5。需要注意的问题5。需要注意的问题“误差界限(marginoferror)是什么意思?如果我们说,误差界限为正负6个百分点,意思是说:“如果我们采用相同的方法,在同一个总体中抽出许许多多的样本,则这些样本中有95%,其所得结果会落入总体真正值的正负6个百分点范围之内。”5。需要注意的问题取显著性水平取a=0.05,或者置信度取95%。快速估计误差界限的方法如下。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论