统计学:二十一世纪的挑战和机遇.doc_第1页
统计学:二十一世纪的挑战和机遇.doc_第2页
统计学:二十一世纪的挑战和机遇.doc_第3页
统计学:二十一世纪的挑战和机遇.doc_第4页
统计学:二十一世纪的挑战和机遇.doc_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学:二十一世纪的挑战和机遇Bruce LindsayJon KettenringDavid Siegmund2003年6月编缪柏其译中国科学技术大学统计与金融系2003.12报告是由美国国家科学基金会(NSF)资助召开的一个研讨会的一份工作报告,时间为2002年的5月6日至8日。大约由50 位来自世界各地的统计学家参加。研讨会的目的是确认统计学今后的挑战和机遇。它主要集中于科学研究,但也涉及重要的相关领域,如统计教育,基础结构,国际前景和长期目标。该科学委员会负责起草出这份报告,在明年的这一过程中,还将收到来自该委员会其他成员和专业统计组织负责人的意见。这个报告试图反映出这些意见的一个综合观念。统计本身是一门科学从数据中学习的科学,它扎根于继续增长的知识核心。这表明它的根是概率论和数学,同时也受到更现代的计算机科学的影响。统计学来自于这些根,又反馈给它们新的数学和计算问题。统计也是一个不多见的学科交叉领域。的确,应用是它的原动力。在为认可的技术提供有价值的市场时它们激发了关于新理论和新方法的研究。对统计来说目前最迫切的是要适应于这种数据集的需求,它们是如此之大和如此复杂,以至于需要新的概念。统计学家不但要使用数据,而且要设计试验和阐述试验结果。这些问题经常是广泛的学科间合作的源泉从天文到公共政策到动物学这些都是今天的统计学家从事的领域。1统计是什么?假如面对广大的听众演讲,委员会感到有必要来阐述科学中的统计角色。许多科学家(如果不是全部)仅仅看到了我们领域的一点皮毛。为此在研讨会上的第一个演讲者,牛津大学著名的D. R. Cox 教授,被要求从最基本的讲起,以及确认“统计是什么?”该问题在研讨过程中被反复提及。我们在这儿综述一些主要观点。统计学科本质上可以用它的多学科性来识别。该领域的长远(over-arching )目标是从所有类型的数据中提取科学的和有意义的信息。统计学家用不同的方法在大量的科学过程中达到这一目标。在好的实验原理培养下,他们可以成为从初级实验设计一直到最终数据分析和得出结论这一科学过程的合作者。统计工作的科学领域几乎与科学尝试一样广泛,在研讨会中,我们集中讨论六个主要领域:统计核心加上六个应用的主要领域: 生物科学 工程和工业统计 地理和环境科学 信息技术 物理科学 社会和经济科学被选择的这些领域大体上对应于(美国)国家科学基金资助的不同的方向。在本报告的第五章,这些领域的每个部分,除了一个外都将给出一个有深度的回顾,但社会和经济科学必须被不幸地排除。编委们面临的困难是这个领域不但很难与别的领域分开,而且相当复杂。在该领域的研究工作者大多不在统计系工作,但对诸如经济学,心理学和社会学感兴趣。这包含了若干个领域,这些领域有它们自己成熟的和特有的统计文献,如心理计量学和经济计量学等。关于对这种成熟的和有大量文献领域的回顾已超出我们的时间框架和资源。在合作领域外,统计学者的核心活动是用于信息抽取的数学和概念工具的构造。虽然大部分这类研究的数学基础是概率论,但最终目的是要提供在经验工作中有用的结果。这区分了统计学家理论研究结果和大多数数学领域的结果在其中抽象结果纯粹追求它们内在的意义。正如NSF报告9895 “关于美国数学的国际评估的高级评估小组报告”(report of the Senior Assessment Panel for the Inttrnationd Assessment of the U.S.A Machematical Science)(以后称为”Odom Report”) 所述,:统计总是与应用连在一起的,结论的重要性,既使是理论统计,也是强烈依赖于与结论有关的应用类型。在这方面它非常不同于计算数学以外的其它所有数学分支。(我们所强调的)统计领域的显著特点,以及它发展的方法论,集中在从数据得出科学结论的小心谨慎原则的设计上。该原则性方法使统计有别于数据处理,组织和分析的场合。一个主要的要求是规定我们必须要对由数据作出的科学陈述的不确定性提供一种度量。设计的这类统计工具如置信系数,显著性水平以及信任区域等,提供了关于有效性的容易解释的度量。适当使用这些工具有助于控制来自于数据的虚假结论。 首先是本杰明 狄斯瑞利(Benjamin Disraeli),后来由马克 吐温引用,说道:“有三类谎言:谎言,可恶的谎言,以及统计。”事实上,统计学家被训练成能区分科学真理和科学虚构。为了指出这一点,在本报告的后面,我们将讨论有效性的一种新的度量,假发现率(false discovery rate),它是由于在现代科学研究中的海量数据和假设范围很大而发展起来的。当然,统计学拥有统计工具一点也不比数学家拥有数学工具多。确实,大多数的统计应用和统计研究是由其它学科领域的科学家得到的。统计研究的基本作用是发展新工具用于尖端科学。本报告的后一节我们将描述近年来产生的非常激动人心的统计研究的可能性。特别,数据收集和储存的可能性已打开了对数据分析问题的全新方法的需求。统计学会根据统计工作的性质,统计学者在很广的范围内工作。在美国,有许多统计学家在统计系工作。这种系可以在大多数研究型大学中找到。目前在统计,生物统计和生物计量领域有86个博士点。它们往往集中在研究生的研究中,包括与其它学科合作,教学,以及为本科服务的课程。本报告后面要演讲的一个主要问题是,在为主修统计的本科生拓宽进入统计领域渠道的主要努力中他们潜在的未来角色。这些系大部分是在二十世纪后半叶从数学系分出来的。因此统计常常被认为是数学的一个分支。这种结构观点也很明显反映在NSF本身。在其中,概率和统计作为数学下的一个分支,与纯数学分支,如拓扑和代数等同放在一起。但是“未来”研讨会与会代表的一个主要结论是统计与其它数学分支越来越不同。统计学家的科学目标和现代科学的方向指向这样一个方向:计算机和信息科学工具对统计而言至少与概率论同等重要。大量的科学统计学会的分支不在统计系。这可能就出现在有统计系的大学里,我们可以在商学院,社会科学和不同门类的理科系中发现它们。在没有统计学的学院,例如在四年制的学院,统计学家经常在数学系,因为数学系需要他们为本科生上课。最后,还有许多统计学家在生物统计系工作。还有大量的统计学家在科学学会外,但与学会有良好联系,他们受雇于政府、企业和许多统计使用者。NSF报告,即Odom报告,叙述了关于统计的领域:在科学学会与工业和政府中的使用者之间的交流发展得很快,因此理论思想与来于应用的挑战性的问题,以及各学科传统之间的散布都非常快。,统计学家也工作于各政府部门,从人口普查局到国家标准化和技术研究所,到国家卫生研究所。他们也受雇于许多工业企业,经常是从事质量控制工作。特别,医药工业已成了统计学家最大的雇主。他们完成药品以及所需的试验设计和分析。著作二十一世纪的统计(Raftery等著)包含了当今许多领头学者们撰写的70 篇论文。可以把它介绍给统计学家作为有用的信息要目,它在很广的统计主题范围内涵盖了统计当前的地位和将来的研究方向。2 历史回顾统计方法在科学上的应用已经有很长的历史了,尽管将之认知为一门独立的学科要追溯到20世纪。西格尔(Stigler)(1986)将现代统计学确认为一门统一的学科,“既是逻辑又是方法”。于是在这种基础上产生了各种统计思想。其中之一就是源于天文和地理测量中的联合测量难题上的数据分析。最早的贡献就是1800年左右拉格朗日(Legendre)的最小二乘法。第二个分支是起源于概率论早期发展的不确定理论的基础。这里,数学家贝努里(Bernoulli),德谟弗(DeMoivre),贝叶斯(Bayes),拉普拉斯(Lapalace),高斯(Gauss) 奠定了概率模型结构的基础,同时也提供了从概率模型得出关于数据结论的基础。 十九世纪后期在英国统计思想才有了本质性的加速,现在那些产生概念的度量正是起源于遗传和生物计量学所用的度量。相关系数和回归这些主要的统计思想正是在这个时候发展起来的。不久K皮尔逊(K Pearson)发展了检验(1900)。这是一个相当重要的概念性的突破。直到今天它还被用作统计模型中科学假设的严格检验。伦敦大学的应用统计系在1911年由K 皮尔逊建立,它是世界上第一个大学里的统计系。它的前身是优生学实验室和生物计量实验室.几年之内, R 费歇(R Fisher),也是英国人,创建了很多现代统计学的基础。费歇也是现代人类遗传学的创立者,他具有极高的天赋。他创建了复杂实验的分析方法,即现在每天被科学家们使用成千上万次的“方差分析”。他证明了一个称之为似然的函数可以用来研究几乎任一概率模型中的最优估计和检验程序。受农业田间实验的启发,他建立并发展了实验设计的主要思想。费歇有相当强烈的统计直觉。至少二十世纪的一些重要工作都仅仅是弄清显著性和推广他田间试验的研究领域。在随后的二十世纪30年代的重要工作就是伦敦大学的J 纽曼和E 皮尔逊对假设检验的严格的理论发展了。这个理论已成为二十世纪后期这个领域中其他研究的基础。到了二十世纪中期,美国的统计学家做出了一些开创性的工作。哥伦比亚大学的A瓦尔特(A .Wald)是发展序贯分析的领导者,这是二战时期需要有效抽样而发展起来的一门学科。同时,他也是统计决策理论发展方向的领导者。这个时期的另一个大师级人物就是宾夕法尼亚州立大学的C.R. 劳(C.R. Rao)前不久全国科学金牌的获得者(national medal of science),他在多元统计方面有很多的创新,解决了研究多维数据的复杂结构问题。另一个科学金牌获得者普林斯顿的J. 土凯(J.Tukey)则是现代数据分析之父。正是在这段时期,统计学在美国作为一门独立学科开始制度化和系统化,统计学不同于数学也不是数学应用的特殊领域。美国的哥伦比亚大学和北加州大学都是最早的一批加入者。后来,随着科学的发展,统计部门的数量和规模都在逐步壮大。下一章节中我们将会看到这方面的迹象。上个世纪很多重要的发展都出自建模和估计领域,这些研究出来的方法扩大了可用模型的视野和拓宽了统计程序有效性的范围。这些研究的一个重要副产品是所谓的大样本理论的扩展当数据样本大小很大时统计过程的分布性质的研究。不确定性的精确度量是统计推断的关键部分。大样本理论使统计学家们能够在很广的一类问题中计算这些度量的相当好的近似值。科学上的一个主要革命发生在二十世纪七十年代,这次革命注定要永远改变统计学的面貌。起初是笨拙地用打孔机打卡,但是计算机很快地取代了这种很慢的打孔方法,它完全改变了得出统计分析结论的意义。它也改变了科学家们收集数据和存储数据的工作。那么随之而来的是什么呢?这个报告正是关于这些问题的。关于历史,我们注意到这样一个事实:二十世纪末最成功的方法,如自助法和比例危险率模型,如果没有计算机的帮助,这些方法可能就不能付诸实际。科学家们收集更多和更复杂数据的能力给我们指出了一个令人兴奋和极具挑战性的,并有更多基础性结果的未来。3 现状概述统计的理论和应用涉及很多学科。 应该注意到,统计学科不可能有一种在传统分类意义下分成不同研究领域的统一分法。专业性质Odom 报告对于美国学者们在统计上的努力给予了充分肯定,报告指出:“美国的统计科学非常正常地涵盖了所有分支,成为全世界的主导”。一份有关四本主流统计杂志(其中两本在英国)的非正式调查证实了这一结论。下表展示了这些杂志中美国基本作者的部门背景。统计学 49生物统计学 23工业 6数学科学 5数学 4其它 13 这些作者中大约一半的人有美国背景。基本上这些作者都在学术机构。而且,大部分来自统计和生物统计系,小于十分之一的人来自数学或与数学科学。下表展示了已出版研究成果的资金来源。NIH 40%NSF 38%NSA(美国标准化协会) 9%ARO/ONR/EPA 4%其它 9很显然,国家科学基金(NSF)和国家健康研究所(NIH)是统计研究资金的两个主要的来源。专业的规模衡量统计领域规模的方法之一是把它和其他的数学学科相比较。下表中我们给出了主要的统计学和数学机构中大概的会员数:美国统计协会(ASA) 16,000数理统计学会(IMS) 3,500生物统计学会(ENAR/WNAR) 3,500美国数学会(AMS) 30,000美国数学联合会(MAA) 33,000工业和应用数学会(SIAM) 9,000这些数目比较起来有些困难,因为会员名单中有重复。但是这些数据表明统计领域的会员数可能占数学家的1/4到1/2。美国数学会2001年度的调查表明在统计,生物统计和生物计量学中有86个博士(program)计划,(第四组)这可以和其他数学领域的196个(program)计划相比较(第一,二,三,五组)。数字上不是很容易比较,但是确实提供了规模的一些概念。每年统计博士的人数可能是一个更好的度量。然而,这些数据受到许多通常数据采集方法的影响:总体的定义,数据的质量以及调查无反应。下表展示了三个对统计而言完全不同的会员数和关于数学其余部分的两个估计数。AMS 调查2000(概率除外) 310美国数学会 在线2000(自身报告) 457NSF 2000年获得博士学位(包括统计分支) 822作为参考,排除统计的数学:AMS 调查 2000 809NSF 获得博士学位的调查 925AMS的调查承认了统计(program)计划中的无反应问题。NSF有关已获博士学位数目的调查是把统计的各分支学科加总来算的。在这个基础调查中,这些学科中博士被分成几乎300个细类。如果我们考虑除掉统计后数学中的博士数目,那么在AMS和NSF的调查中就有许多的一致之处。这样再一次表明了对统计而言,在数据的收集和确认中存在许多问题。NSF的调查提供的数据让我们了解了统计和其他数学学科之间的关系在过去的35年内发生了改变。表3.1表明了每年统计学博士的数目(由NSF定义)至少有200人,但比数学学位人数的1/3还要小,但是大体沿着线性速度增长到800,在二十世纪八十年代和数学学位的人数基本相同,然后就稍稍超过数学。 研究型博士的数目是研究活跃水平的一个大体反映。不管怎么说,在DMS中有三个项目方向是统计和概率的,而其余19个项目是数学的其余所有领域。这种平衡似乎并没有反映出统计研究成果的程度,这是由参与者衡量的,不涉及对科学的重要性,我们将在后面说明。数据收集我们报告的主题是统计领域在它的科学价值和科学工作量上正经历着一个引人注目的增长,这是由于科学的变化,特别是数据收集变化的结果。Odom报告指出:“随着高速计算机和传感器的出现,一些实验科学现在可以产生大量的数据人类基因就是一个例子然后需要编制这些数据和从中提取有用信息的新工具,这些新工具将依赖于数学科学。”在所有的数学科学中,统计学是唯一关注科学数据的收集和分析的学科。近年来每一个高级统计学者都已经感受到数据量的惊人成长所带来的冲击。科学合作带来的机遇增长这个报告的第二个主要议题是科学上对统计知识需求的增长给统计学者们带来了与日俱增的压力,他们本身需要抓紧时间学习,同时也要给各个科学领域提供指导。正如Odom报告所指出:无论是在应用还是多个学科的交叉项目中,既有误用统计模型的严重问题。又有对科学家,工程师,社会科学研究者以及其他统计方法的使用者的教育质量的严重问题。当观测产生更多的数据时,或许就要由包括统计学者的研究队伍来解决这个难题。图3.1 NSF 关于学科中博士的调查Odom的报告进一步指出将来的科学难题将会非常复杂,以及需要多方面的努力。报告指出:单个研究者掌握数学/计算机科学两个学科以及对复杂问题仅仅建立一个科学准则几乎是不可能的事。我们完全同意这个发现并且会进一步给予详细阐述。关于下一代:从几个方面来看,未来的挑战对统计学与数学是有所区别的。例如,在Odom的报告中指出三个要点:美国数学会同其他国家一样面临着诸多重大的挑战,包括与其他科学领域和工程学的隔离的环境、进入这一领域的年青人数量的滑坡、与非科学领域,特别是私人部门联系的匮乏。(我们所强调的观点)我们可以发现,在过去的一些年中,美国居民进入统计领域的人数确实在不断的缩减,博士学位人数的增长主要来自于国外留学者。另一方面,从科学委员会的观点看, Odom报告中提到的与其他学科、领域及非自然科学联系不够的问题,在统计领域似乎不存在。4统计的核心统计学中有一个正在不断扩展的知识传统,对此,没有一个合适的词语来称呼,暂且称之为统计的核心。这个术语并没有被学术界广泛地接受,所以有必要对它的含义加以阐明。我们定义统计核心为众多统计工作的子集,这些统计工作指的是统计学内在的研究而不是它的延伸,尤其是那些触及特定学科领域的统计需求。作为“核心”的同义词,内延(“inreach”)是可以接受的。它反映了核心是外延的对立面。按照这样的说法,几乎所有的统计学家都同时涉及到了内延和外延。对“核心”领域的研究集中在对统计模型、方法和根据统计学一般原理的相关理论的研究。目的是创建统一的基本原理、概念、统计方法以及计算工具。尽管这是一种内部审视的行为,但是核心的一个中心理念是:一个问题的重要性不是由其内在美(即抽象数学)所决定的,而是由其潜在的广泛应用价值所决定的,换句话说,是由我们的方法对扩展科学有效性的理解中的价值决定的。从内在和外在结合的角度来看,核心可看作一个信息插座。核心可以由它和所有其它学科的有效连接和应用来定义。核心中的统计概念和方法可同时被用于非常广泛的学科,同时应用是统计发展的巨大源泉,作为结论,核心对所有科学提供了高的价值。核心研究有别于“特殊应用统计研究”,后者完全是为解决某一特定科学领域里的问题而需要分析数据所驱动的。必然地,这种研究以核心知识作为工具以及作为对这些工具局限性的一种认识。这种研究为将来核心研究提供了原始素材。4.1 对统计核心互动性的理解有一个指标可以反应统计核心在科学界贡献的普遍价值,那就是统计文献的被引用次数。从谨慎的角度来看,被引用次数不要解释过度,因为单篇论文的高引用可以反映质量或内在重要性以外的事情。我们在这里选择引用次数是因为它可以提供一个简单而又可行的度量,来衡量统计在其他科学领域研究里的广泛影响力。图4.1 被引用最多的数学家的引用次数著名的编制SCI和相关文献的科学信息研究所(ISI),创建了“二十世纪九十年代被引用最多的科学家”的几个排行榜。根据Jennifer Minnick和ISI在2000年10月11日提供的数据,1991至2001年之间在前25名被引用最多的数学家中由18位是统计学家或生物统计学家。每位学者的被引用次数情况见图4.1。补充一点,JASA(Journal of the American Statistical Association) 则是远远超过被引用次数最多的数学科学杂志。有证据表明,统计文献相对于整体数学的高引用率是与它广泛的科学影响分不开的。例如,Hall和Titterington (1987)的一篇论文,文中考虑了关于在非参数函数估计中选择光滑参数的棘手问题,大约三分之二的引用都是来自与统计核心的任一定义无关的领域,如:IEEE杂志, 显微镜, 生物医学工程,以及物理学杂志(Journal de Physique)。该论文发表在核心研究杂志上并不影响它的理论传播。图4.2 统计信息向其它学科的扩散一篇介绍自助法的论文,作为最重要的论文之一,直接从统计核心的研究进入到许多科学的主流领域。在该文最新的500次引用中,只有152次出现在统计文献中。图4.2表明,由统计核心产生的新方法得到广泛的传播。当然,核心也产生于对科学有意义和有用的方法中,因为它延伸到某些特殊领域,发现重要的概念,以及创立扩大可应用性的必要推广。例如,在保险精算中有个特定年龄死亡率的问题,我们可以考虑这些方法的拓展。在1972年和1975年,提出的比例危险率回归和偏似然分析 (partial likelihood analyses) ,使我们可处理关于协变量信息删失的数据,这极大丰富了寿命数据分析的可用工具。从那个时候起,这些思想和这个方法被发展和传播到有删失和部分可观测数据的所有科学中。这也许包括天文学,例如,一颗用某种观测工具可以看到的可视星,可能由于不适当的信号用另一种观测工具却看不到。4.2 互动性的一个详细例子如下最近的例子更具体地表明这样一个事实:统计的核心研究与统计外延努力相互反馈和相互作用。因为至少有一些这类工作是NSF资助的,因此它部分指出了这类相互作用。在支持核心研究时应该记住这点。去年,三个天体物理学家在Science上发表了一篇证实宇宙起源大爆炸理论的论文。他们研究了当今宇宙物质分布中所谓声音振荡的痕迹,得出这种痕迹是与从早期宇宙发出的宇宙微波背景辐射是一致的。这不仅给大爆炸理论提供了支持,也提供了一种认识早期宇宙物理性质的方法,这种方法可以根据随时间向前向后的微波背景辐射来预测物质的分布情况。这个发现是通过使用一种叫做假发现率(周知为FDR)的新统计方法来探测振荡而得到的。在假发现率为1/4的情形下,8被标记为可能与光滑无特征的功率谱不一致。这个发现和更深入的分析使得作者得出这样的结论:振荡在统计意义上不同于通常物质密度功率谱。这种方法是通过与两位统计学家合作完成的,并发表在天文学杂志(The Astronomical Journal)上。用这种方法,作者才能够获得他们的发现而且能够把论文发表在Science上,而与此同时,其它的竞争团队却由于数据过多而难以前进。追踪这个成功的历史是件很有意义的事情,因为它很好地描述了统计核心如何作为“信息插座”而运作。图4.3描述了该统计思想的迁移路径。当人们根据同一数据集检验许多假设时,必须调整检验的显著性水平以免错误地拒绝真正的原假设。这种“同时推断”问题也许在医学统计中受到高度重视,至少所引用的所有参考文献是作为动机出现在医学文献中的。确实,这儿统计的贡献不是提出用于本例中的序贯P-值程序(这种程序实际上可以追溯到80年代(也许更早)的西门斯(Simes),而是建立起了一种令人信服的理论判断。这种理论判断,也就是FDR控制,导致了其他研究人员提出一种新的估计。这个估计建议引起了别人的注意,因为它对统计信号过程中小波缩减方法中阈值的选取有着潜在的作用。CMU(卡内基 梅隆大学)的统计工作者已经开始使用FDR方法了,不仅在核心课题中使用,而且也在他们与天体物理学家Miller和Nichol的合作中使用。最初,他们考虑巨大像素阵列的信号探测问题。后来,在他们的合作中,物理学家们发现这种方法可以应用到声音振荡信号中,正是这个发现导致了Science的一篇论文。Miller和Nichol称,当他们把这一工作向物理学界报告的时候,人们对FDR方法表示了极大的兴趣。CMU物理学教授Bob Nichol写道:我个人愿意强调,在CMU的统计学家和天体物理学家已经产生了某种共生关系。现在已经很清楚存在着两个领域的研究者们都感兴趣的公共核心问题,如把FDR方法用于天体物理问题。实际上,当统计学家乐于扮演帮助认识宇宙的角色时,天体物理学家对统计的数学美也甚是赏识(甚至想参与其中)。除了这些联合项目外,这种合作也推动着各自领域里新的研究。总之,这种多渠道合作不仅激发了新的联合研究,也激发了各自领域中新的研究。因此,这是一个完美的结合。4.3一系列研究挑战下面我们将给出未来在统计研究的核心领域中将要面临的一些重要挑战的建议。我们认为统计领域中的这些挑战和其他科学领域有着内在的细微区别。例如在数学领域,大多数重点都放在那些延续下来的持久性的挑战,而在统计领域,统计问题总是随着新的数据结构和新的计算方法而发展的。和实验科学不同,统计学没有在主要研究前沿上与众多实验室竞争或共同运行而需要大的花费问题。大多数最重要的进步是不可预测的,也许这一点统计学比其它学科更有体会。正是因为如此,我们需要保持一种理解的哲学,即足够的灵活性以适应变化的哲学。同时,要注意到这些未来的研究不能退化为各种不同工具的组合。我们可以确定一些导致现代核心领域研究的广泛的论题。这些挑战主要是基于概念框架的发展和用多参数,多刻度,以及有复杂相依结构的适当的渐近逼近理论来处理(可能的)海量观测值。4.3.1 数据的规模注意到所收集数据的爆炸已成为很普遍的事。如下观点虽属老生常谈但仍然正确:数据增加呈指数型,数据分析呈二次增长,而统计学家增长是线性的。1994年Huber关于数据大小的分类方法,很小 ,小 ,中等 ,大 ,巨大 看起来是很奇怪的(Wegman,1995)。例如,在斯坦福线性加速器中心,当用“BaBaR”探测器作单粒子物理试验时的一个数据库为比特。在每一个规模上,我们有许多问题需要研究在100以下的数据集范围内,我们还没有解决所有的问题。然而,对统计新的挑战是各种结果的混合,例如,可归纳性、可测量性、稳健性,以及对数据科学理解的深度,将随着规模和内容而变化。而且,显然我们的研究及研究生教育还没有完全认识到与大规模数据相联系的计算和其它结果。4.3.2数据缩减和压缩我们需要更多的“压缩原理”:费歇尔(R. A. Fisher) 给出了许多重要的思想,例如:充分性、辅助性、条件变量,变换、枢轴法,和渐近最优性,后来又有了不变方差。然而,在诸如模型选择、预测和分类等领域显然需要新思想来指导我们。一种新思想是用“压缩”作为数据分析中的指导性方法。对我们而言基本想法是一个好的理解数据的结构是我们不仅能够压缩储存它们而且能够解压缩和几乎恢复原始信息。例如,在信号和图像数据领域,小波在表达和压缩图像中的曲线边界时实际上不是最优的。这就要求我们需要新的表示系统以便更好地压缩。4.3.3机器学习和神经网络现在有很多特别的方法和计算策略来处理“工业强度”的数据。其中大多数方法不能通过泛泛的理解推出来,而且它们也没有被溶入到主流统计中来。这些方法是由机器学习协会等在分析庞大而复杂的数据中发展起来的,因此未来的工作应该包含把这些方法有条理地整合到核心统计中去。这些研究大体上是建立模型和结构,这些模型和结构允许风险学科以及基于数据的风险评价。这将包括在定向适应的建模过程中研究一些主要的工具。4.3.4对大p小n的多元分析在许多重要的统计应用中,变量数()往往要比观测单元数()小。这样的例子包括曲线数据、光谱、图像、以及DNA微阵数据的分析。最近在荷兰来顿(Leiden)举行的名为“高维数据:在数理统计和生物医学中的应用”的研讨会突出了该课题与统计中很多领域交叉研究的重要性。下面这个比较特殊的例子可以用来描述其它领域的新息如何能够证明本问题是有用的,因此加强了核心统计继续往外延伸的观点。随机矩阵理论描述了这样一类模型和方法,这些模型和方法始于在数学物理中对复杂原子核能级的研究,并在最近40年里发展起来的。最近几年这些思想引起了概率论和组合数学的兴趣。目前应用和研究在高维情况下统计和数据分析中的方法的时机似乎已经成熟。例如,在许多领域中科学家用大的数据矩阵(许多观测值()和许多变量())做研究,几乎没有统计理论来支持和理解用于维数缩减的启发性方法,如主成分,典型相关等。早期结果显示大n大p理论有些时候提供了比经典的大n固定p的渐近理论更有用和更好的近似。例如,关于“高斯正交总体”的Tracy-Widom分布提供了单一的分布,经过恰当的中心化和刻度变换,它提供了关于极值主成分和典型相关系数在零假设下分布的非常精确的描述。4.3.5贝叶斯估计和有偏估计九十年代带来的计算技术的发展和效率使得贝叶斯方法可以在很广泛的模型类中实现。未来几十年的挑战是充分研究和开发将贝叶斯方法和近代非参数、半参数统计方法联系在一起的纽带,包括将贝叶斯方法和频率论方法的尽可能结合的研究。一个显然的结果是对于有许多变量的海量数据模型,无偏性和近似无偏性的概念(例如MLE)将会变得毫无用处,因为统计方法中隐含的数据综合的概念将由于无偏方法的复杂性和变化性而失去意义。因此需要更广的“有偏估计理论”和处理有很多变量的海量数据的新理论。除了“蒙特卡罗”方法在建模实践中不断增长的作用外,显然也需要深入的,用于推断的“蒙特卡罗”方法的分析。4.3.6在证明和计算实验之间的中间地带未来几十年对理论工作最后的挑战是研究证明速度(太慢)和无约束的计算实验的沼泽地(太武断且没有说服力)之间的协议中间地带。在数学证明中存在许多问题,由于证明太难以及证明不太重要这两个原因,严格的数学验证也许要落后于方法的研究。例如,尽管几十年的工作,有许多重要的统计模型类,例如混合模型,其中可识别性问题根本不考虑,因为含有很难的分析和需要研究的模型结构的不断扩展。4.4 对核心的机遇和需求如果收集的数据和数据分析的需求呈指数增长,核心为什么要达到相应水平?这是因为统一的思想可能减弱增长,而统计的核心领域是可以产生思想和通过科学进行沟通的地方。也就是说,从在数据分析中能有效组织和传达的观点来看,发展核心领域统计实际上对科学而言是一个重要的基础目的。在数据分析方法激增的领域之间,一个健康的统计核心理论(通过与应用有机的联系)对于有效地消化,开发和传播来说是最有希望的。由此可见,总的来说它是科学的重要基石。4.4.1适应核心外的数据分析 数据需求的增长对统计学家提出了独特的挑战,要求他们在适当的时间内为在其他领域发展出来的许多数据分析方法提供智力结构。正如一位首席统计学家说的:“如果我们不想被机器学习者或计算机科学家取代,他们专门从事某些有意义的应用领域,而且在他们自己的势力范围内有天然的优势,则我们必须经常考虑一些好的统计思想,这些统计思想容易被使用者接受。”4.4.2核心研究的分裂我们的理解是统计的超越能力是很高的,且由于各种好的理由这种势头还在上升。一统的观念可能减弱这种增长,而统计的核心领域是可以产生思想和通过科学进行交流的地方。但是这种增长也会产生这样一种结果,我们认为是非故意的,即对基础研究的相对忽略,以及统计领域分裂的潜在危险。我们再次强调核心研究的重要性:FDR例子说明对特殊方法的方法论/理论洞察力扩大了它们潜在的应用。有人或许会提到一些数据来支持下面的说法:在前些年里,根据由Stephen Stigler提出 的“出口得分”分析,统计年鉴是最有影响力的统计杂志。然而,根据最近的趋势反映,提交该杂志的论文已经下降了大约25%,也许是非偶然的,美国作者的比例也由20年前的70%降到到现在的35%。这个人力资源问题注定会变得更坏,因为统计的博士生通过求职市场明显发现超越技术有很高的价值。4.4.3在专业需求中的增长统计的核心研究在工具上是多学科的:它至少借助于信息论、计算机科学、物理学以及概率论和传统数学领域。因为统计学家变得越来越重视数据(在解决现代规模和范围的实际问题的意义上),在核心领域中需要的数学技巧已经提高。例如,统计学家也许需要懂得复分析(鞍点)、代数学(列联表)、马尔可夫链(MCMC),或者泛函分析(建立复模型)。同时需要足够多的计算机科学家去发展数据分析所需的算法和计算机软件。需要不断增长的技术手段给予了我们第二个方面的挑战:保持核心活力作为统计思想整合的一个场所。5科学与工业中的统计统计学作为一门学科,它的一个显著特征就是它与整个自然科学、社会科学和技术的相互作用。这一章主要阐述统计学在广泛的领域内对于人类提高认识所起的作用。5.1 生物统计二十世纪上半叶农业和遗传统计学首先获得了发展,在其基础上发展起来的生物统计学、统计流行病学、随机化临床试验学已经成为攻克人类疾病的一个里程碑。这在过去的半个世纪里显著提高了人类的期望寿命。最近在分子生物和遗传领域取得重要进展,使得人类在可以预见的将来在分子层面上对基础生命过程的理解将有飞速的进展。该项研究的长期目标是把分子过程的知识应用到整个有机体和种群上。这些目标包括对个人医疗方案的改善(即设计出个性化基因疗法),通过改良重要的农作物品种和家畜来缓解营养不良和饥饿问题,改进公共卫生,以及更好地防范生物恐怖袭击(bioterrorism)。除了对即将在下文讨论的新生物学所产生的问题的新解决方法外,统计研究的成功也依赖于对在过去半个世纪中发展起来的临床诊断、实验室试验和野外试验,以及观测研究等统计方法更好的理解和这些方法的进一步的发展。统计和计算方法已经扮演和会继续扮演重要角色的大体上包括如下四个领域:(A)计算基因组学,特别包括生物分子序列分析和功能基因组学;(B)遗传流行病学和基因定位(gene mapping);(C)进化和种群遗传学以及生态学;(D)计算神经学。(A)生物分子序列分析和功能基因组学是一种生物研究方法,它是基于DNA序列(基因构成片段)分析、氨基酸序列(蛋白质的构成片段)分析,以及在各种细胞状态下的RNA和蛋白质的全剖面(grobal profile)分析,来发现基因和蛋白质的结构和演化过程,以及它们在正常和不正常过程中的功能,例子包括1数据库搜索:基于蛋白质序列对齐,比较新发现蛋白质与已研究过的有关蛋白质来推断新蛋白质的机能。2识别基因组中的控制区域:这个基因组区域控制蛋白质的数量以及产生蛋白质的条件。3不同生物或动物种群的同源遗传区域的序列对比:这是推断它们种群史的第一步。4在正常和疾病细胞中基因表达水平的比较分析:它不仅可以为那些表现出相似临床症状的疾病提供客观和不同的诊断,而且在了解疾病病理学中基因的过表达和欠表达规律的基础上,为该类疾病大体上提供成功治疗的途径。在这个领域很有希望的方向包括在分子医药学、细胞和发展生物学这些领域使用计算的和功能遗传学的方法。分子医药学包括以下几个方面的研究:用遗传数据来识别对药品毒性有风险的人群;基于基因型、RNA和蛋白质外形(profile)研究疾病子类型的更细的分类;根据用分子水平分析得到的预测模型来发展个性化的治疗方法。在这个方向上研究的理由最终将依赖于传统的针对临床的生物统计学领域,如临床试验和队列研究。对生物统计学科来说,这是一个充满无限机遇的领域。尽管统计学在细胞和发展生物学方面还没有完全建立起来,但随着设计越来越大的试验方案,例如,目前按96井或384井精心安排的试验分析来平行获得上千个基因promoter活性的真实时间测量,新的统计和计算方法对将来该方向的进步是本质的。借助于时衰显微镜(time-lapsed),杂交和抗体着色中的大量图象将动态地提供在有机体发展的每个阶段上发生的关键分子事件。特别令人兴奋的一个研究方向是研究方法的进步,它有能力把来自第一手文献(PubMed,在线文章)和数据库(如,Locus Link,OMIM,Flybase,Gene Ontology)与大型的功能功能基因组学和细胞成像数据分析信息结合起来。(B)遗传流行病学的目标是理解环境和遗传在人类疾病中的相对重要性。基因定位包括使用分子标记图,来确定与感兴趣的表现型有关的基因的位子。这经常是它迈向更好理解并治疗动植物中遗传疾病的第一步。 人们也希望对导致那些在重要农作物和家畜中具有所需特性的基因定位,或对生物体模型中表现型的基因定位,如对实验鼠,这可以对类似的人类表现型的遗传提供线索。在实验生物体中遗传定位包括生殖试验设计以获得最多的信息。关于不能进行生殖实验的人类基因定位则更复杂,一些方法解释了家族成员间的关联,而另外一些方法包含了对一人群内个体之间更难于推断和更复杂的关联。(C)进化,种群遗传学和生态学研究发生在动植物中总群水平下的变化,这种变化是由于基因库的随机突变和环境发生引起的。虽然最初定位于进化关系的研究(例如,支持现代人类有共同非洲祖先假设的证据),种群基因的概念逐渐用于理解细菌和病毒的进化(为了提供合适的疫苗和药品)和不同的动植物种群中蛋白质的进化(通过识别进化中保存下来的不同物种中的相关蛋白质部分来理解蛋白质的结构和功能)。(D)运用现代神经成像学(PET,fMRI),计算神经学试图在少量的交互神经水平下和整个大脑水平下来理解神经系统功能:在什么条件下,哪部分大脑被激活?正常人和精神病人的大脑在结构和/或功能方面有什么区别?以及如何利用这些知识来诊断和治疗?计算神经学涵盖了基本的分子生物学,从离子通道行为的研究、简单神经网络中的神经元脉冲建模、嗅觉视觉感受器的反应,到用于活大脑成像和冷冻切片技术的宏观测量方法,再到计算视觉中的抽象方法。统计在分析的每个水平上发挥了至关重要的作用。统计方法和计算方法对于这些大量的科学问题,统计、概率和计算的方法已被证明是非常有用的。一些方法适用于许多领域,而另外一些方法适用于某些特殊的领域。随机过程,从有限马尔可夫链到点过程和高斯随机场,在所有问题中都很有用。分类、聚类和主成分分析等统计方法广泛地应用于(A)和(D),随机过程中的似然分析和/或贝叶斯分析在(A)、(B)和(C)中是非常重要的。由于大量产生的数据,如个体样本中上万个基因的微阵表达水平,或来自于分布于上千个个体基因的上千个标记的数据(将来可能达到十万个),对产生于(A)、(B)和(D)中的多重比较问题提出了挑战。在计算和最大化(A )、(B)和(C)中的似然函数时,隐马尔科夫模型和MCMC(马尔科夫蒙特卡洛)提供了重要的计算算法。一部分统计方法虽然需要作适当的修改(主成分曲线,随机过程的似然分析)来处理由现代生物实验所产生的大量数据,但是这些方法仍然是经典的(例如,主成分、似然分析);其他统计方法(隐马尔科夫模型、MCMC)是近期与实现它们所需的现代计算技术同步发展起来的。另外还有一些统计方法,它们对单个领域的发展是至关重要的。一个例子是运用树(系统发育树和粘联树)来描述群体内部个体之间以及不同群体之间的进化关系。(树在聚类分析中也起到一个方法的作用)。试验设计和方差分量为基因定位提供了重要工具。许多方法在与应用密切相关的领域中已经发展起来了,人们期望将来重要的贡献来自于对特定应用有很深造诣的统计学家。无论如何,这些方法是建立在一种理论框架上,这种理论是为了响应其他一些感知的需要而发展起来的,它们经常来自于与现代生物学无关的领域。在数个不同领域找到应用的那些方法的共同方法论特征激励人们去获得更好的理论理解,到那时那种理解也不局限于一个特定的应用。值得注意的是由于知识大爆炸,许多知识都超越了它们传统的界限,正在培养的下一代科学家将需要某种舆论,这包括什么概念将是重要的以及一般方法论与专业物质学科知识之间的平衡。以上所讲到的共同特征就是数据的量化、复杂性和可变性。计算(通常包括图形)是实现每种想法的一个重要方面。由于从事生物研究的科学家有不同的数学和计算背景,因此把算法尽可能看作“用户友好”这一点很重要。这可能需要专家的支持来提供“前台界面”(“front end”)和必要的文档支持,以便实验科学家能够轻松自如和正确地运用统计学家开发的工具。例子例1:,在解决生物学重要的具体问题时需要广博的数学知识是非常重要的。这可以从如何计算DNA序列对齐的统计显著性这个例子中看出(参见上述(A)1下面)。这门学科的现代历史大约开始于1990年,当时一组从事分析单个DNA或蛋白质序列用途的研究人员证实了与Iglehart在1970年发现的研究结果(排队论的一个研究成果)有关。与此同时,其他研究人员推测对成对序列对齐也有一个相似结果,另一组研究队伍在1994年证明了一个更困难的结果,但是它仅适用于没有缺口(gap)数据的人为简化的问题。根据Karlin和Altschul猜想、Waterman和Vingron猜想(1994),即相同参数形式的近似也许对更重要的有缺口的实际情况是有效的,蒙特卡洛(MC)方法被发展来估计上述参数。这些MC估计被编成了广泛使用的BLAST软件,但是由于计算速度太慢,它们的应用仅局限于上述的一小部分研究案例中。受应用于质量控制方法的启发,人们得到了对有缺口数据对齐的一种近似方法,它虽然不精确,但是非常容易估计。当前的研究继续致力于寻找一个能成功地把适用性、估计的速度和精度结合在一起的一种近似。例2: 促进新的计算和统计工具快速发展的领域是cDNA微阵分析,它用于在各类生物研究中测量基因表达。一个典型的问题是评估对照和处理组之间的不同表达,它们来自于相对小的个体样本的大量(几千)基因。描述性统计学(经常以聚类算法形式出现)以及推断统计学(用于处理由同时比较上千个基因而产生的特殊问题)都起着重要的作用。例如统计学家与肿瘤与生物化学研究者合作开发出了“微阵显著性分析”软件(SAM)(斯坦福大学)。这个软件是在测量人类细胞对电离辐射遗传反应实验的推动下开发出来的。方法非常简单,在Excel表中就可以操作。这个软件包在2001年4月发表之后,已经被下载3400多次了。例3: 由K. Worsely所提供的这个例子用来说明更高级的数学和计算方法提升了对复杂数据的视觉理解。K.Worsely在他最近的十年里主要致力于脑成像数据的研究,这些数据来自于正电子发射断层成像术(positron emission tomogtaphy)(PET )或来自于功能磁性共振成像(functional magnetic resonance imaging)(fMRI)(以及类似的天体物理的数据)(参见 Worsley Evans,Marrett and Neelin (1992))或Worsley,et al.(2002)。Worsley运用微分和积分几何的数学思想来评价在受到外部刺激条件下神经活动区域的统计意义。其中微分和积分几何是首先由C. F. 高斯在1800年代发展起来的。图5.1就是从Worsley的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论