




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
扇贝抽样案例统计方法的误区Arnold Bennett是美国MIT斯隆商学院的一名教授,在杂志Interfaces(1995年3月)中描述了最近他作为统计学“专家”提供相关服务的一个法律案例。这个案例涉及一艘远离新英格兰海岸捕捞扇贝的渔船。为了保护幼扇贝免遭捕捞,美国渔业和野生动物保护机构规定“每个扇贝肉的重量至少1/36磅才可以捕捞”。这艘船被指控违反了这个重量标准。Bennett教授在文章中描述:这艘船抵达马萨诸塞州的一个港口时装有11000袋扇贝,港务人员随机抽选了其中的18袋来检查。港务人员从每一个袋中随机取出一满勺扇贝,然后算出每个扇贝肉的平均重量。港务抽样方法是什么?人员根据18袋的结果估计这艘船的每个扇贝肉的平均重量为1/39磅,低于标准,于是立即没收了捕获的95%,后来进行了拍卖。船主不服,对联邦政府提起诉讼,认为自己的捕捞符合标准,认为只选了18袋,不足以代表全体。律师问Bennett教授的问题之一就是:“能够从一个容量18的样本中得到所有扇贝的平均重量的可靠估计吗样本容量应该为多大?”于是Bennett教授进行了分析:Bennett教授把被抽样的18袋的每袋的平均重量按照1/36磅为1的情况作了比较,0.93就是比1/36磅轻,1.14就代表比1/36磅重,数量低于1的表明是不符合标准的。请看下面的数据,只有两袋超过了1/36磅,其他都没有到“1”,都不符合标准。0.930.880.850.910.910.840.900.980.880.890.980.870.910.920.991.141.060.93那么正如律师所问,从11000袋中只抽出18袋作为样本合不合理呢?结论是不合理:仅用18袋作样本太小了,至少应该在30以上,才能小样本理论适用吗?作为推断的基本证据,否则误差很大。当然抽样中也并不是越大越好,只要样本的抽样方法是科学的,适当的样本便是好的。现在我把数据还原:0.02580.02440.02360.02530.02530.02330.02500.02720.02440.02470.02720.02420.02530.02560.02750.03170.02940.0258经过我的计算,样本均值为0.0259,样本方差0.0000043777,总体均值在95%置信度下的置信区间为【0.0258791537,0.0258801055】,这个置信区间的长度非常短,原因就是因为样本方差过小;即便是我们把置信度提高为99.9%,置信区间为【0.0258788307,0.0258804286】,其长度依然非常短。然而,置信区间的长度短,正表明了精确性样本方差的大小受到哪些因素的影响?。注意我要说的“误区”,不在于Bennett教授指出的样本量过小从而抽样结论不可靠的误区(袁卫老师也这样认为),上面计算的数据表明,实际上精确度是非常之高的,精确度高理所当然是可靠的!我要提出我的一个疑问,如果没错的话,那么就是大多数研究抽样问题的人的一个误区总认为样本量小是导致误差大的主要原因;我认为我们的理解走错了方向。本案例的精度从何而来?答曰来自于置信区间,而置信区间又直接来自于样本均值的方差,所以我们从样本均值的方差公式来看这个问题,一切自然明了:用这个公式对吗?显然,样本均值的方差不仅受样本量n影响,而且受总体方差影响(样本方差是它的无偏估计),当样本方差非常小的时候,n对于估计精度能起多大作用呢?例如本例,样本方差极其小,此时n根本不起多大作用可能有问题哈?;或者,若n大了,样本方差有可能更大,于是可能导致精确度反而降低。由此看来,样本方差对于精度的影响同样是非常大的!我上面这段话其实也是看似有理,没有说到本质问题上。为什么样本量小就会导致代表性不够、精度低呢?按常理想想,确实是这个道理,但是(我要说的误区所在)我们的解释往往停留在样本均值的方差公式前面的那个系数(1-f)/n上,如果n小,那么这个系数就会大,导致方差大,这个解释是不太合理的(虽然有一定道理),上面已经作出了初步说明,下面我说说我认为是本质的看法:为什么用正态分布呢?其实,可能多数人都忽略了一种习以为常的替代用无偏估计值替代真值。影响样本代表性以及精度的真正原因应该在这个替代上!E(s2)=S2这个替代有问题吗?注意,无偏估计并不一定等于真值的!而通常由于无偏估计的良好统计学性质,我们就把它当作真值使用了;用样本量n很小的样本求出来的s2与n很大的样本求出来的s2,哪个对S2更具有代表性?若n太小,当然感觉心里不踏实。试想,若抽出所有的样本点,那么样本方差就直接等于总体方差了;若抽取少数一两个样本点,代表性当然差,误差当然大!真正的代表性与误差的根源,我认为来自于此,而不是样本均值的方差公式前面那个系数(1-f)/n,不知各位看法如何笔者恐怕忽略了它们之间的依存关系哈?。其实今日看袁卫老师的演讲,想到主要是另一个问题,涉及到统计学的根基性的问题:数据的概括性度量(集中趋势、离散趋势、峰度与偏度)。原始数据经过整理、分析之后,必然造成信息的丢失;但是同时也概括、集成了主要信息。这是一种必然的、普遍的矛盾。继续看袁卫老师的演讲:另一个问题是,法律规定扇贝平均重量要超过1/36磅才可以捕捞,这一规定是否合理?我们认为以平均的扇贝重量作为保护扇贝的标准是有问题的。按照这个标准,如果船上有大扇贝,即使捕捞了小扇贝,由于平均重量符合了标准也不会被罚,这并不利于保护小扇贝。应当更改这种标准,比如规定捕捞到的小扇贝的百分比不能超过5%,或者像捕鱼那样,规定网眼的大小等等,这样比较合理用平均数作为标准是相对合理的。这里反映充分出均值的缺点,对原数据作平均的处理,集成了信息,但是也掩盖了信息有一部分小扇贝并没有受到保护。统计分析往往不可避免会丢失信息,同时,这其实也就体现出统计学的特性不确定性(抑或称之为模糊性)。统计学总是研究不确定性的科学(个人理解),统计学唯一能确定的就是这个不确定性有多么不确定(用概率或者置信区间等手段体现)。那统计究竟有什么用呢?似乎很没用的样子。我觉得这取决于当事人的风险爱好类型了。统计的结果,也仅仅是一个客观参考而已,不要去那么严厉地推敲它这样看似乎是不对的。仍然引用这篇文章的例子,作为本文结尾:下面这个案例是著名的O.J.Simpson案。这个案子影响很大,是世界上最有名的审判之一,美国人把这个审判称为“世纪审判”。从1994年6月12日案发到1995年10月3日审判,美国共播出了5000小时的有关这个案子的电视节目,可见美国人对这个案件的重视程度。辛普森是美国橄榄球明星,又是播音员,是个家喻户晓的人物,这个案件便是要判定他是否杀了前妻和前妻男友。1994年6月12日(周日)晚11点左右,在洛杉矶市郊富人区,晚上跑步的人顺着狗的叫声,在辛普森前妻住宅的外面发现了其前妻和前妻男友的尸体。警察发现前妻被砍7刀,男友被砍22刀。首先被怀疑的就是辛普森,他已经和前妻离婚好几年了,且有虐待前妻的记录。警察在辛普森在富人区的房子外面的车的旁边发现了血迹,还有一只血手套,现场也有一只血手套,一左一右,是一对。辛普森当晚已经乘航班从洛杉矶飞到了芝加哥,在得知前妻被杀时,表示很惊讶,并且立即飞了回来,但不承认自己有罪。洛杉矶警察作为检方提起诉讼,辛普森则请了美国最好的律师组成律师团。8月到11月选陪审团,最后陪审团确定为9个黑人、2个白人、1个拉美人。洛杉矶虽然黑人较多,但是比例也不是很大,但是这个陪审团却有四分之三都是黑人。95年1月正式开始法庭辩论,检方的证据主要是:有作案动机;曾经虐待前妻;不满意前妻和其男友;经过DNA检验,血手套DNA相似的概率为99.99%。庭辩论中,辛普森的律师指出以下几点:手套是几年前前妻买给辛普森的,但是辛普森戴不进去,最后很困难的戴进去了;警察抽了辛普森7毫升血,最后只剩5.5毫升,有1.5毫升不知去向;没有直接目击者,也一直没有找到凶器;辛两个月前买过一把猎刀,但是上面没有找到任何血迹。最后辛普森的律师认为发现手套的警察仇视黑人,少的1.5毫升血液可能是被这个警察为了栽赃辛普森滴到血手套上了。同时从作案时间到飞机起飞仅有半个小时,杀人后洗清血迹,然后再登机,时间并不很充裕。国有一句话:“一碗面条里只有一条虫。”意思是碗里只要找到一条虫子就不能吃了,再去找第二条在法律上是没意义的。这个案子,检方一开始是很顺利的,他们又提出了许多多余的证据,结果弄巧成拙。95年10月3日,陪审团要做出最后的判决,12位陪审团成员一致认为辛普森无罪,因为已有的证据不足以认定有罪,只能做无罪推定。所有黑人欢呼雀跃,大多白人非常失望,并开始质疑陪审团制度和DNA检测。刑事审判结束之后,在97年,法庭认定辛普森对虐待前妻以及其他一些行为要负民事责任,2月10日,判定辛普森赔偿3350万美金给他的前妻及前妻的男友。这个案例并没有直接运用统计方法,只是我们可以注意一个细节,辛普森的律
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江温州市人才资源开发有限公司招聘2人考试备考题库及答案解析
- 2025四川内江市第二人民医院考核招聘工作人员23人备考考试题库附答案解析
- 2025年合肥某事业单位面向社会招聘驾驶员1人考试参考试题及答案解析
- 2025年河北沧州高校毕业生临时公益性岗位招聘备考考试题库附答案解析
- 2025福建福州市鼓楼区水部股份经合社招聘1人备考考试题库附答案解析
- 2025贵州黔东南州黄平县选聘城市社区工作者工作8人备考考试题库附答案解析
- 2025年下半年陕西汉中市事业单位招聘262人备考考试题库附答案解析
- 2025海南东方市第二次招聘事业编制工作人员80人备考考试题库附答案解析
- 2025甘肃省商务厅厅属事业单位招聘工作人员5人备考考试题库附答案解析
- 2025江苏苏州市卫生健康委员会直属事业单位招聘卫生专业技术人员29人备考考试题库附答案解析
- 文旅公司考试试题及答案
- 2025秋七年级开学新生家长会《启幕新篇章携手创辉煌》【课件】
- 2025至2030年中国公立医院行业发展监测及市场发展潜力预测报告
- GJB3243A-2021电子元器件表面安装要求
- 2025年全国翻译专业资格(水平)考试土耳其语三级笔译试卷
- 人工智能技术在网络安全威胁检测中的应用
- 2025内蒙古民族大学招聘管理助理、教学助理50人笔试模拟试题及答案解析
- 2025年麻醉、第一类精神药品管理培训考核试题及答案(护士卷)
- 胃肠镜报告的解读
- 2025年金融办面试题库及答案
- 急性胆管炎的特征与处理方法
评论
0/150
提交评论