统计数字会统计谎言_第1页
统计数字会统计谎言_第2页
统计数字会统计谎言_第3页
统计数字会统计谎言_第4页
统计数字会统计谎言_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计数字会统计谎言

在这本书中,只有8万多字的翻译成中文,60多万幅插图中只有160页,但在美国50年中传播开来。在中国出版和出版的那一年,他被评估为“2009年最佳阅读次数”之一。它就是美国统计专家达莱尔·哈夫(DarrellHuff)在上个世纪50年代所著《Howtoliewithstatistics》一书,中文译名《统计数字会撒谎》。本书用风趣的插图和通俗的语言把高深的统计学写得像“故事书”一样精彩。作者重说明、轻证明,重文字描述、轻理论推导,并结合活生生的案例,语言轻松诙谐,揭露了大量的“统计谎言”。重新设定是抽烟过分的标准,这也是认知偏差的原因之一本书一共10章。前九章,作者按照统计的指标、方法等,从九个方面选取大量案例,指出涉及这九个方面的真实的统计数据所产生的谎言。比如“平均数”。作者举例:“你的邻居中大多数都是小农、在附近村庄上班的工薪阶层或是靠养老金为生的退休老人,但有3户邻居是百万富翁,他们仅仅是来此度周末。就是这3户邻居的收入提高了总收入,相应地抬高了算术平均数。这样一来,均值达到了绝大多数家庭遥不可及的水平,几乎每个人都低于平均数。虽然这听起来像是笑话,或者文学修饰,但的确是不争的事实。”又比如“样本”。作者举例:一则新闻报道:“1924级的耶鲁毕业生平均年收入为25111美元。”该数据的两个疑点是(收入)“惊人的精确”和“大得令人难以置信”。再比如“相关关系”。作者举例:有人曾经费尽周折以探求是否抽烟者的大学成绩比不吸烟者的差,结果的确如此。这着实让一些人高兴,从此,他们多次使用这个结论:在通往好成绩的道路上,需要忍受放弃抽烟的痛苦。进一步使用该结论,还有这样的合理推断:抽烟使人的头脑变笨。虽然这是一个古老的谬误,但是它却仍频繁地出现在统计资料中。它掩饰在一大堆让人印象深刻的数据之中,让人很难看清其庐山真面目。这个谬误是:如果B紧跟着A出现,那么A一定导致B。上例中,当抽烟与低分同时出现时,人们得到了一个无根据的假设,抽烟导致低分。难道就不能是相反的解释吗?也许不理想的分数促使学生不喝酒而变得爱抽烟。数字劳工:过多数据的竞争作者运用统计学、逻辑学、心理学、社会学等诸多学科的原理和思辨方法,深入浅出、鞭辟入里地分析了各种真实的统计数字成为“谎言”的原因。比如“平均值”有几个具体种类(指标)——均值,中位数,众数,各个指标的具体涵义不同。当被平均的一组数值呈正态分布时,均值,中位数,众数十分接近,甚至落在相同的点上。而当一组数值呈偏态分布时,均值与中位数相差甚远,使用不当,就会掩盖真相,给人以撒谎的感觉。又比如样本的选取可能“内在有偏”。被调查的“1924级的耶鲁毕业生”是那些“能够取得联系并愿意回答问卷的耶鲁学生”,这些人更可能是毕业后发展得比较好,调查时比较富有的人。“这个班级最富有的人,即使忽略了与校友办公室联系,他们的地址也可以通过查《美国名人录》(who’sWhoinAmerica)或其他参考资料找到。因此,我们可以较合理地猜测,那些被遗漏的人是获取耶鲁文学学士学位之后的25年来没能实现自己光辉梦想的人,他们是小职员、技工、流浪者、失业的酒鬼、仅仅得以糊口的作家或艺术家……六七个甚至更多这样的人将其收入相加才可能达到25111美元,他们不会在班级的联谊会上注册,仅仅因为他们支付不起路费。(P8)”由此看来,调查得到的收入偏高就不奇怪了。再比如“相关关系的误解”。“两个事物之间的关联关系并不能用于说明其中一个将引起另一个的变化”,即不构成因果关系。即使构成因果关系,也要留意超过了推断相关关系的数据范围而得出的结论。“例如从常理来说,雨下得越多,谷物则长得越高,收成越多。雨是农民的福音。但一季暴雨则可能破坏甚至毁灭庄稼。正相关到了一定的程度后便急剧地转化为负相关。超过了一定的降雨量,雨越多,收成却越少。”还有,明明没有能力或证据证明某事,却通过使用不完全匹配的资料,解释其他的事,“并假装它们是一回事。”比如,“去年因飞机失事造成的死亡人数比1910年多,这是否意味着乘坐现代化的飞机反而更加危险?这根本是无稽之谈,因为现在选择作为交通工具的人已经是以前的几百倍了。”甚至统计图形的画法,都可以在视觉上有意识地夸大两个数据的对比。在第9章,作者更是全面揭露了人为的“统计操纵”——利用统计资料传递错误的信息而误导他人。“为了使最声名狼藉的统计资料看上去更有分量、更精确,你应该考虑使用小数”,百分数“也能为不确切的事物蒙上精确的面纱”;通过改变基数使人产生增加折扣的幻觉;投资回报率由3%到6%,谦虚的描述是“增长了3个百分点”,也可以描述成“增长高达100%”,等等。作者指出:“统计工作者经常要在许多方法中主观地选择一种方法以描述事实。在商业活动中,统计工作者不大可能选择不利于己的方法”,“即使是学术界,学者也有自己的偏好(可能是无意识的)”,更重要的是“许多统计资料的歪曲和被控制并不是资深统计学家所为,出自统计学家之手的完善资料也许最终会被销售人员、关系专家、记者或者广告撰稿人扭曲、夸张、简化或是刻意地进行挑选。”从第9章的叙述风格和阐述内容看,将书名译为《如何利用统计数字撒谎》似乎更贴切些。实际上,Howtoliewithstatistics的英文原意确实如此。这个短语的主语虽然被省略了,但主语显然不是“统计数据”。毕竟统计数据是客观的、真实的,只是它们被人用来撒谎了。资料:可靠的资料《统计数字会撒谎》一书所列举的统计数据撒谎案例多达近百个,配合案例分析,随处可见振聋发聩的警句:“一般而言,民意调查都带有一定方向的误差”;“采用严重有偏的样本几乎能够产生任何人需要的任何结果”;“只有当差别有意义时才能称之为差别”;“两个事物之间的关联关系并不能用于说明其中一个将引起另一个的变化”;“数据是真实的,然而唯一不妥的是依据这些数据和事实推断出了一个未经证实的结论”;等等。著名词作家闫肃曾经为1993年的“3.15打假晚会”写了一首主题歌《雾里看花》,歌词中写到:“借我一双慧眼吧,让我把这纷扰看得清清楚楚明明白白真真切切”,《统计数字会撒谎》的作者便给读者提供了这样一双“慧眼”:在第10章接连提出5个问题,告诉读者“怎样凭双眼就能识破虚假的统计资料,并揭开它的老底;同样重要的是,如何在这一大片充满了欺骗性的数据海洋中找出可靠有用的资料。”问题1:“谁说的?”作者指出:“出于学术、名誉或收入的考虑而需要证明某些结论的实验室,希望获得一篇好报道的报界,工资已岌岌可危的工人和管理部门,他们提供的数据都有可能产生偏差。”还要注意:“当某个权威人士被引用时,请弄清楚到底资料的内容是权威的,还是仅仅扯上了权威人士的大名。”问题2:“他是如何知道的?”要看样本是否有偏,“由刻意挑选有利的样本造成有偏。”通过仔细的、长时间的观察,“你就会发现由于缺乏足够多的观测值,报告的内容不足以说服任何人。”问题3:“遗漏了什么?”作者提醒:“数据的缺失,特别当信息来源于与信息存在利害关系一方时,已足以使你对整件事情提出质疑。同样,对一个缺失可信度(可能误差、标准误差)检验的相关关系也不用太当真。”“有时文章中遗漏了引起变化的原因,这容易让读者认为其他的因素才应对变化负责。”问题4:“是否有人偷换了概念?”作者反复告诫:“请留心从搜集原始资料,到形成结论的整个过程中,是否存在着概念的偷换。”作者列举偷换概念的诸多方式:将疾病案例的增多等同于发病率的上升;两次普查的对“农场”的定义不同;将“相关关系”偷换成“因果关系”;标榜自己在某个领域获得了第一——没有特别指出是哪个领域。问题5:“这个资料有意义吗?”作者自信地说:“这个问题通常能将一个伪装得很好的统计资料打回原形。”“许多统计资料一眼就可以看出是有误的,这是因为奇妙的数据与平常的感觉不符。”“你可以通过观察周围所认识的人进行反驳。”“让人印象深刻的精确数据也会与实际情况相左。纽约的某家报纸曾经报道:研究显示,一个与家庭住在一起的上班妇女需要40.13美元的日常支出。在读这张报纸时,任何人——只要没有完全丧失逻辑思考能力——就会意识到,物质和精神需要的费用加在一起是不可能精确到美分的。”对于使用外推法预测趋势,作者强调:“到目前为止的趋势都是事实.而未来的趋势只不过是受教育者的猜测。该方法暗含‘其他所有条件都相同’,以及‘现有趋势将继续下去’的前提。但实际上,条件总是在变化的”。有趣的是,作者嘲讽美国历史上的两次人口预测“已经变成了全美国人民的笑柄”,这两次预测分别低估和高估了美国的人口总数,而做出预测的分别是由专家组成的总统顾问团和大名鼎鼎的总统阿伯拉罕·林肯(AbrahamLincoln)。(P146-P147)统计数据的使用应用样品主要解决了“指标出现偏差”或“数字媒体”美国的《图书期刊》评价本书“能给你带来娱乐,又能引发思考”。笔者多年从事人口与计划生育统计工作,经常与统计数据打交道,既要识别其他部门、机构、人员提供的可能是“谎言”的统计数据,又要避免本部门所提供的统计数据被认为是“谎言”。要做到后一点,难度更大。读了《统计数字会撒谎》,结合自己的实践,梳理几条感悟:公开透明是谎言的天敌。要证明所提供的统计数据不是“谎言”,就要讲清所提供数据的基本定义、采集过程、整理方法、推算技巧。这表明数据提供者对事实的尊重和对数据使用者的尊重。比如:在公布相对数时给出相应的绝对数,在公布抽样调查的推算结果时给出置信区间,尽可能地提供原始数据,等等。尤其应说明原始数据采集过程中可能产生的调查误差,以及调查的组织者为控制误差所采取的措施,这样,即使数据的准确性不够,至少数据的使用者可以了解、分析数据的可靠程度和真实程度(包括其中真实的误差)。每个统计指标和相应的统计数据都是有具体含义的,一个数据的计算受到诸多条件限制,其作用是有限的。要全面地反映客观事实,常常要采用多个指标和数据。正常情况下,如果没有其他相关指标和数据的“呼应”,某一个指标的数值的变化就容易被认为“有假”。比如:采用平均数描述全体社会成员收入的增加幅度,由于近年来不同职业、行业,不同人群收入的绝对差和相对差不断拉大,处于低收入水平人群的收入增加幅度一定是低于“平均增加幅度”的,这些人理所当然地质疑“收入增加幅度”的数据不正确。因此,就收入增加而言,单一使用平均数描述全社会成员的收入水平是不够的,还应当辅之以其他相关数据,如低收入群体的收入增加幅度,低收入群体与高收入群体的收入差距变化等等。在由抽样调查数据推断总体参数的时候需要综合考虑抽样方法(samplingmethod)和样本规模(samplesize)。从抽样原理看,二者是决定样本代表性(samplerepresentativeness)的重要因素。在实际调查中,往往受客观条件的制约,样本分布很难做到完全合理、随机,由调查数据推断总体参数(指标)就可能产生一定的偏性。一次综合性的调查,往往包含了许多调查项目,其中有的项目的调查质量好一些,有的质量可能差一些,有的指标推断总体的把握度比较大(或者说误差比较小),而有的指标推断总体的把握度比较小(或者说误差比较大),应具体情况具体分析。比如,人口和计划生育部门进行生育节育方面的抽样调查,对于生育节育方面的内容最为重视,这方面各项指标数据的比较准确,推断总体把握比较大,而调查中涉及妇女的民族构成、受教育程度、就业情况等指标的准确性就差一些(在很大程度上,这些指标的抽样误差本身就比较大),人们可以使用这些指标辅助分析生育节育情况,但用它们来推断总体的相应数据,误差就比较大。要正确地使用统计指标,合理地应用统计数据,恰如其分地解释统计指标和统计数据的含义,不可把一些指标的作用过分夸大,或者对某些(哪怕是真实的)数据过分地渲染,否则,就算不是“撒谎”,也难免有“忽悠”的嫌疑。既然统计数据本身存在误差,即使真实的数据也有可能被“曲解”,政府的公信力和社会的诚信度还有待提高,那么,社会各界从专家学者到商人学生,从政府官员到普通百姓,对于反映社会生活的各种统计数据(大多由官方发布)提出质疑(有些质疑甚至是相互矛盾的)是很正常的。近些年发布的不少统计数据与公众的生活非常密切,却与公众的直接感受差距明显,统计数据因此被诟病,留下“学生被就业”、“收入被增长”的笑谈。质疑反映了公众对统计数据的关注,有助于统计工作的改进和完善。作为统计数据的发布者,应理性地看待和回应社会上各方面的质疑。1992年,当时的国家计生委组织进行的全国38万人生育节育抽样调查的结果表明,我国妇女的生育率已经低于更替水平。这样“史无前例”的调查数据遭到来自各方的怀疑、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论