统计学中的几个问题_第1页
统计学中的几个问题_第2页
统计学中的几个问题_第3页
统计学中的几个问题_第4页
统计学中的几个问题_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学中的几个问题北京市第十五中学凌艺国平均数的陷阱样本与总体辛普森悖论选举与选举方式名额分配小李大学毕业了,他需要找一份合适的工作。一天,他看到一个小厂的招工启事。其中工资一项工厂承诺:所有人员平均工资一个月1200元。小李觉得这个报酬还可以,于是去应聘并成为这个工厂的一员。工作一个月后,小李领到了工资,自有800元。气愤的小李去找厂长问原因。平均数的陷阱厂长解释说:我们工厂里共有20人,我厂长每个月4000元,4个管理人员,没人每月2000元,剩下15个像你这样的工人,没人每月800元。你算算看,没人的平均工资是不是1200元?我们的招工启事上的承诺就是这样的,一点错都没有呀。平均数的陷阱算术平均:总值除以总项数中位数:把数据按大小顺序排列,处于中心位置的数值。如果数值有奇数个,则中位数就简单取中间项的值。如果有偶数项,中位数往往取中间两项的算术平均众数:数项中出现次数最多的值平均数的陷阱算术平均容易受少数极端数值的影响,事实上,很多和钱有关的分布,如收入、房价、财富等,都有很强的右偏现象,用算术平均往往会给人以歪曲的印象。从统计学角度看,用中位数和众数表达,最大的好处是不受两头的影响。对一些有偏的分布,用中位数和众数往往能更好地反映情况。一般而言,有关收入的统计若用中位数和众数来表述,较为公平。平均数的陷阱北京市统计局关于公布2011年度北京市职工平均工资的通知京人社规发[2012]87号2012年04月06日各有关委、办、局,各控股(集团)公司、企业(集团)公司,各区县人力资源和社会保障局、各社会保险经代办机构:现将2011年度全市职工平均工资公布如下:2011年度全市职工平均工资为56061元,月平均工资为4672元,比上年增长11.2%。凡按2011年度全市职工平均工资计算的事项,均按本通知标准执行。市人力资源和社会保障局北京市统计局二〇一二年四月六日平均数的陷阱值此岁末年初之际,各行各业职工一年来薪酬几多,是社会广泛关注的话题。放眼三百六十行,银行业无疑是高收入行业。2010年度,16家上市银行职工人均年收入8.43万元。其中,浦发银行人均年收入最高,达24.42万元。据了解,2011年度银行职工薪酬增长幅度较大。初步估算,16家上市银行2011年度职工总数为1826605人,人均收入达到12.27万元。平均数的陷阱魔术家大卫.科波菲尔提出一个数学魔术:只要走动一个人,就可以使整整两个国家增加他们的平均国民收入请你想想,为什么?魔术家的数学魔术大卫.科波菲尔的方法:比如韩国与朝鲜,韩国的人均年收入是23000美元,朝鲜的是1000美元,现在一位年收入20000美元的韩国人调到朝鲜工作,年薪不变。这样两个国家的人均收入都得到提升。魔术家的数学魔术一个小镇有大小两所医院。在大医院里每天大约有45个婴儿出生,在小医院里每天大约有15个婴儿出生。我们知道,大约有50%的婴儿是男孩。当然,真正的百分比每天都不一样,有时候高于50%,有时候低于50%。在一年的时间里,每一所医院都记录了出生的男孩比例高于60%的天数。你认为哪一个医院记录的天数多?大医院、小医院,还是基本一致?男婴的比例正确答案是:小医院样本的大小对统计的波动影响很大在其他因素保持不变时,较大的样本总是能够更精确的估计出总体的情况,样本越小,波动就越可能出现统计的波动有一个男性团体对女性歧视,想证明女人对男人有多坏。这个团体找到了一个数据,对这个数据他们是这样陈述的:在等待处决的女死刑犯中,一半是因为谋杀了亲夫,而等待处决的男死刑犯中,只有三分之一是因犯了杀妻罪。统计的波动补充这个团体略而不言的一个事实:等候被处决的女死刑犯人数自有7人,而等待处决的男死刑犯数目多达2400人。统计的波动支持率与抽样调查支持率与抽样调查美国咨询专栏作家安妮.兰德斯每隔两三年就要进行一次自愿回答的调查,让她的读者回答一个有争议的问题。如在1972年第一次调查中她问:“假如你能重新选择的话,你是否还会要孩子?”在接近10000个回答中,大约70%回答是“不”,许多人在回答中还加进动人的故事,讲述抚养孩子种种苦楚。这个结果是否能真实反映全体父母的情况呢?支持率与抽样调查这里使用的样本是一种自发性回应样本,是有人们自行决定要不要回应。自愿回答的本性就是吸引那些对问题的真论具有强烈感情,特别是负面感情的人。样本中不要孩子的父母百分比远大于全体父母中不要孩子的百分比这是一种有偏差的样本,不能代表总体情况支持率与抽样调查有人对此有进行了一次科学的抽样调查,结果发现91%的父母还会再要孩子。支持率与抽样调查第一次科学性的抽样方法出现在美国爱荷华州,创始人盖洛普(1901~1984),在读博士的时候创建了一种抽样方法1936年罗斯福与共和党的兰登竞选总统,当时,《文摘》杂志进行了民意调查。指导思想是:样本越大,结果越准确。在全国的电话号码薄和汽车登记薄上找出越1000万选民,进行了大规模的舆论调查,对其中约200万名选民的回答结果进行了分析后得出:兰登将以压倒性的优势获胜。盖普洛的样本小很多,他分析的结果是:罗斯福将以55.7%的投票率获胜最后结果是罗斯福获得了62.5%的投票,竞选总统成功。支持率与抽样调查科学的抽样的基本思想是:让没有个人因素的客观的机遇来选择样本,即用随机选取样本来消除偏差。现在专业的民意调查和其它一些抽样调查,都是采用随机抽样。随机抽样的样本大小只要在1000~1500间就足够大了对于从随机样本算出的统计量的表现,总体的大小影响是很小的。支持率与抽样调查一所美国高校的两个学院,分别是法学院和商学院。新学期招生后,人们对两个学院的男女生录取情况做了如下统计:法学院商学院录取率悖论性别录取拒收总数录取比例男生8455315.1%女生5110115233.6%性别录取拒收总数录取比例男生2015025180.1%女生92910191.1%从这两个表格看,女生在两个学院都被优先录取了。即女生的录取率较高。把数据汇总,再看从总体看女生的录取率反而较低了,为什么?录取率悖论性别录取拒收总数录取比例男生2099530468.8%女5%A,B两班各有50名学生,其中,A班20名男生,30名女生;B班30名男生,20名女生.两个班参加同一次测试,测试结果如下:及格率悖论及格不及格总数及格率A班男生1822090%A班女生20103066.7%B班男生2643086.7%B男女生1372065%两个班全体学生的及格率及格率悖论及格总数及格率A班385076%B班395078%某研究单位研究出一种新药,为了检验药是否有效,人们对一组病人进行试验。试验中,给予一些病人真正的新药,而其余病人则给以“安慰剂”(不含药物的药片),结果如下:药效悖论试验次数成功次数平均药物1006666%安慰剂402460%另一位研究者对更大的病人组重复了这一试验,结果如下药效悖论试验次数成功次数平均药物20018090%安慰剂50043086%两位研究者对发现感到非常兴奋,决定把他们的数据合并起来公布结果,但是他们困惑地看到了最意想不到的结局。药效悖论试验次数成功次数平均药物30024682%安慰剂54045484%以上三个悖论的实质是相同的。这类问题在20实际初就有人讨论。1951年E.H.辛普森在他发表的论文中,对此现象进行了正式描述。于是,就把这类悖论统称为“辛普森悖论”这类悖论表明这样一个事实:在某些情况下,在分组比较中都占优势的一方,会在合并后的总评中成为失势的一方。为什么?在数学上怎样解释?辛普森悖论民主选举的最基本原则是“多数选举”,即获得多数票的候选人当选选举的结果与选举制度有很大关系在选民的“偏爱”不变,只要改变了选举方式,就会选出不同的赢家选举与选举方式每年一次的足球界的金球奖评选,假设55位记者要从5个候选球员(记为A,B,C,D,E)中选出一位为该年度的金球奖得主。每位记者对这5为候选球员的喜爱程度进行了排序,如下表记者181210942第一选择ABCDEE第二选择DEBCBC第三选择EDEEDD第四选择CCDBCB第五选择BAAAAA规则:以最多票者为胜者上例中A是胜者许多国家总统选举,国会议员选举等都采用这种选举制。问题:选出的候选人票数可能低于半数,上例中A只有18票,占总票数的32.7%。这不符合“大多数原则”简单多数票选举规则:第一轮“海选”,然后再得票前两名之间进行第二轮选举。上面的例子中,第一轮选举后剩下A与B。在第二轮的选举中,A将获得18票,而B将获得余下的37票,结果是B当选。两轮选举规则:进行多轮投票,每轮淘汰一名得票最少的。在上面的例子中,第一轮将淘汰E,第二轮中原来把E作为第一支持的6名记者转投别人,其中4人投B,3人投C。第二轮淘汰D。逐论选举记者181210942第一选择AB16C12DEE第二选择DEBCBC第三选择EDEEDD第四选择CCDBCB第五选择BAAAAA如此原来支持D的记者将把票投给C第三轮淘汰B逐论选举记者181210942第一选择AB+4C+2+9DEE第二选择DEBCBC第三选择EDEEDD第四选择CCDBCB第五选择BAAAAA第四轮支持B的16名记者将把票投给C,于是,C将有37张票,成为胜者。逐论选举记者181210942第一选择AB+4C+2+9DEE第二选择DEBCBC第三选择EDEEDD第四选择CCDBCB第五选择BAAAAA采用这种方式的有奥斯卡奖评选爱尔兰议会选举,澳大利亚上院选举逐论选举规则:对每种选择赋予一定分值,然后累加出总分值,以最高分者获胜。18世纪法国数学家博尔达首先提出,故命名之。在上例中,对第一选择至第五选择分别记5、4、3、2、1分,则A的得分是:18×5+12×1+10×1+9×1+4×1+2×1=127;B:156;C:162;D:191;E:189.D当选在体育中,多采用这种方式以排出参赛队伍的名次。博尔达记分法规则:让两个候选人之间进行表决。E:A=37:18E:B=33:22E:C=36:19E:D=28:27E当选鹰派对决记者181210942第一选择ABCDEE第二选择DEBCBC第三选择EDEEDD第四选择CCDBCB第五选择BAAAAA分别看每一种选举方式,都有道理。但按照不同的选举方式,得到的选举结果却是人人都可以当选。结论美国威斯康星大学的陈炳藻教授,他利用概率论的方法研究《红楼梦》中虚字

的出现规律,得出一个结论:《红楼梦》后40回也是曹雪芹写的!把《红楼梦》按回分成三组(A组:1~40回、

B组:41~80回、C组:81~120回),每组随机抽取两万字,加上《儿女英雄

传》中随机抽取的两万字(D组),总共8万。统计了14个指标之后,他发现ABC三组

是一样的,和D组不一样。于是结论是前面三组是一个人写的《红楼梦》作者考证原理是对的,但陈炳藻教授的样本选取有问题。他是把《红楼梦》作为母体,那几万字作为样本;现在讨论的问题是曹雪芹的写作风格,那么母体应该是曹雪芹的写作风格,《红楼梦》是样本。陈炳藻教授搞错了

——陈大康《红楼梦》作者考证陈大康教授逐字逐句地点:《

红楼梦》全书中“之”、“乎”、“者”、“也”各出现了多少次,五字句、六字句各

有多少……这个工作我做了一年多在同义词的使用上两个人不一样。比如说“我索性怎么样”,还有一种说法是“我越性怎么样”。“越性”、“索性”是一对同义词,但是在前八十回里用的是“越性”,在后四十回用的是“索性”,类似这样的同义词陈大康教授找到27对《红楼梦》作者考证陈大康教授,1982年1月毕业于复旦大学数学系,获理学学士学位,华东师范大学终身教授。

从复旦毕业后于上海纺织专科学校任教。1990年6月毕业于华东师大中文系,获文学博士学位。现任华东师范大学中文系系主任、文学研究所所长、上海古典文学学会副会长、《文学遗产》编委会编委、国务院学位委员会第五届学科评议组成员、上海市政协委员。)《红楼梦》作者考证1987年复旦大学数学系李贤平教授的工作。李教授用陈大康先生对每个回目所用的47个虚字(之,其,或,亦……呀,吗,咧,罢;……的,着,是,在……,可,便,就,但……,儿等)出现的次数(频率),作为《红楼梦》各个回目的数字标志,输人计算机,然后将其使用频率绘成图形,从中看出不同作者的创作风格。据此,他提出了《红楼梦》成书新说:《红楼梦》作者考证是轶名作者作《石头记》,曹雪芹“批阅十载,增删五次”,将自己早年所作《风月宝鉴》插入《石头记》,定名为《红楼梦》,成为前80回书。后40回是曹雪芹的亲友将曹的草稿整理而成,其中宝黛故事为一人所写。而程伟元、高鹗为整理全书的功臣《红楼梦》作者考证设想你面前有10个空盒子,按1~10进行了编号。在你看不到的情况下,你的朋友把一个鸡蛋放进了其中一个盒子里。然后,你的朋友对你说:“你按编号依次打开盒子。我保证,你将在某个盒子里意外地发现鸡蛋。”你不妨推理一下,是否在某个盒子中意外地发现鸡蛋。意料之外的鸡蛋第二次世界大战期间(1943年或1944年),瑞典广播公司播放了一个广播声明:本周将举行一次民防演习。为了确保各个民防

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论