版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
/图3.4图3.5Minard/图3.6uJ>:<Duo«doteda>oOJGDPpercapita,PPP(constant2005internationalRegiPopulation,▼Lin0000Z000二00001000"oooooz0000SI0000010000S图3.24图3.25_/图3.27e(9*4,9613.1图K-Means_4.18K-Means和基于密度的聚类 ABABC/图4.22LL63%11%图6.2-少图6.4J!”图6.8图6.13图6.20中心极限定律,这也能算数学?从应用学科的角度看(例如,计算机、管理学),统计学太数学,一点也不应用。分析数据就好好分析数常为此,反省自问:问题到底出在哪里?我辈应该如何作为?学作为一个历史非常短的学科,在它的发展历史中,有不少杰出的学者做出了卓著的贡献。是他们的卓著努力为统计学建立了扎实的理论基如果,我们有能力把统计学中最闪光的智慧,用最朴素而有趣的语言,结合生动而有趣的故事表述出来,那世界又会怎样?如果能够做到,统计学的美就可以被大家感受到。届时,统计学是不是数学重要吗?统计学是不是应用重要吗?统计学就是统计学,她既有理论,又有应用。关键是,她很美,她真的很美,美得令人窒息,美得令人流连忘返,而我们都陶醉于她那独特的美。请问,到哪里去找这样一本书,专要写这样一本书的难度可想而知。首先,你要对统计学的宏观理论框架,从历史到最新前沿,非常熟悉。说来惭愧,我做不到。其次,你要数学公式自由穿插,流畅而优美地交织在一起。这对我来说也很难。这样一本书一定是跨学科的。与数据科学相关的领域可不仅仅是统计正当我一筹莫展的时候,突然老天眷顾,统计之都大侠舰哥送给我他的新书《统计之美》。首先,我一下子就被目录吸引了。从统计学科学何现有专著或者教材完全不同。这些章节的框架设计恢宏壮美,讨论的问题深刻而朴素,覆盖的内容从过去到未来。这样的框架设计,散发(或案例)有:上帝掷骰子、女士喝茶、寻找失踪的核潜艇等。每个小故事都突出讲述了一个统计学的智慧,一个知识点。通过这样精炼而经典的小故事,让人们感受到统计学之美,她美在哪里?她美就美在统计学的智慧上,这些智慧变成了统计学思想,统计学思想变成了统计学理论,统计学理论变成了统计学的模型算法。噢,这个路途太长了,难怪当人们看到模型算法的时候,实在是想不起她原来的美了。2018年12英国学者李约瑟研究中国科技史时提出了一个问题:“尽管中国古代对人类科技发展做出了很多重要贡献,但为什么科学和工业革命没有在(Needham'sGrandQuestiono17世纪的西方,特别是文艺复兴之后的欧洲?”李约瑟通过对中国科学技术史的研究⑴,在社会制度和地理环境中寻找答案。但这个问题一直被国人拿来反思自己的文化和传统,很多人都分析出了各种原因,大多数人认为中国的传统文化中缺少科学精神、甚至没有能够产生现代科学的基因,再结合现实生活中的各种乱象,无不痛心疾首,都想治病救人。让我们把时间拉回到百年前的中国,轰轰烈烈的新文化运动已经开始,“德先生”和“先生”进了中国。国人深切地认识到了科学的威力,无数仁人志士立志向学,1923二千多年的无赖鬼”[2,很多科普作者越科普越心焦,质疑中国科学精神的言论也仍然甚嚣尘上。业的科学知识不应苛责,这是正常现象,不同科学领域、不同知识内容的科普是一项漫长而有意义的事业,更需要普及的可能是科学思维。学,也不能说理性主义是科学而经验主义就不是科学。不同的历史文化可能侧重不同,我们不能因为中国历史上三百年的特殊时期就质疑整个历史的科技成就,也不能因为中国传统公理体系的缺失就否认整个文化的科学精神,这是不科学的做法,也属于没有文化自信的表现。时代下已经充分证明了经验主义、归纳推理的强大之处,即使是如日中天的人工智能实际上也是大数据加上深度学习的归纳方法的成功。我科学的根基。库恩认为,科学很重要的特点在于其独特的范式,在科学领域里大部分时间并没有竞争学派在质问彼此的目的和标准,因此相比其他领域能够取得明显的进步同。在不同的领域,大家遵循公认的科学范式进行研究,不管认识论和推理逻辑方面有何不同的倾向,都巧合的是,当年科玄论战中“科学派”的主要理论基础就是统计学大宗师卡尔•皮尔逊早期的代表作《科学的规范》【7】。当年的皮尔逊还通向整个知识区域的唯一门径。但是他也认为无论在哪种情况下科学都不能证明任何固有的必然性,也不能以绝对的确定性证明它必须重差理论、概率论、统计理论来实现。后来随着统计学的发展成熟,直到今天大数据和人工智能成为显学,都验证了皮尔逊当年的观点。也许是因为科学这个词听起来太高端,也可能是科学比较接近真理,现在很多科普过于强调精确科学或者“硬”科学,有时候站在了普通人有些矫枉过正,我觉得还是允执厥中比较好。能够在概念世界和知觉世界⑺中达到和谐、能够在演绎法与归纳法中达到平衡,统计学可能是纳精神,或者神农尝百草的试验精神,还是后世天人合一的整体思维、观过知仁的结果导向、未战而庙算的预测习惯,都是深合统计之道很多人受到各种原因的误导之后对中国的文化不自信,易于走向崇洋媚外的极端,这是不对的。即使是作为很多科学基础的数学,也不止一融合无间【91962年的文章Ml析?”[叫如今大师们的论断都已言中,统计学与算法结合解决实际问题,已经渐成主流,甚至发展出了一门新的学科一据科学。卡瓦列里原理在西方数学史中被认为是微积分发明前的重要基础,而中国的祖眶原理与之等价[12]。莱布尼茨在提出二进制的那篇著名文章[13]里直接引用了伏羲八卦,他还认为“如果说我们(欧洲人)在手工技能上与他们(中国)不分上下、在理论科学方面超过他们的话,那么,在实践哲学方面……我不得不汗颜地承认他们远胜于我们”[14厉害(如果是这个目的的话,可以举更多例子或者写另一本书),仅仅只是为了澄清一些误解,这些误解既是对中国传统的某种误读,同时也是科学思维上的某类误区。我们追求理性和完美的体系,也希望能止于至善,但我们也不应忽视经验主义和观察、试验、归纳、计算的力量,这些都是科学,不应偏颇。尤其对于普通人来说,多从观察身边的小事、解决实际问题的角度训练科学思维,可能效果更好,毕竟“刻在如今这个理性与经验、理论与实践、演绎与归纳、公理体系与算法程序和谐统一的大好时代里,我们多了解一些统计学,关注一下数据科时注意到的例子,尝试介绍统计学的发展历程、理论方法和应用实务。受本人的经验和学识所限,很多例子并不是最好的,也肯定存在各种疏漏,但是希望能做一些尝试,和更多的人一起探索统计中的美,分享科学思维中比较人性化的一面。文中类似“⑴”的符号对应到图书最后的“参考文献”中查找。全书中重要的概念和人名也可以到书末的“索引”中查找相应的页码。这本书计划了很久,也拖延了很久,感谢本书的策划人成都道然科技有限责任公司的姚新军先生,帮助我们谋篇布局、规划时间以及处理各女儿从动笔之初就开始的陪伴。当然,最需要的是提前感谢读者的宽宏大量,本人才疏学浅,难免或有所遗漏或偏颇,希望能多多海涵和多2018年8第1・R^in664H-99 4-^-;+hr1:1^5CV|J*•1-*地船工11**±71157¥;66斷步3&4 ,.豕第2••ijtfrfEtC^II6捧吕和14.士堆k钊?三&uh¥黑客帝国和变形金刚•・土苻人M/HIII-•耳地出5$白占箱盜施T1・•结•;-!■田相壬n・・文H唏土htTr显壬1日勞利相亲多少次与神奇的37・3.2.3深水王子与针眼画师••…863.2.4“挑战者”号航天飞机•・・88第4茗洒吕百重帀戻•・・吊用就VT茕栈上口和rs^-TT卜歹快腺J腔雄T&障華以IS5左吉4杲1-/KK-略匹砧4=fife第5孜不旳殳H统计学的hk・谢太垢在**kT7V+C-T-谁说菜鸟不会数据分析・AIExcel统计软件和BI土栈丄柱圳卩旳取发Pythonmi本书作者最爱的R•…・R第1大英百科全书给统计学的定义是:“一门收集数据、分析数据,并根据数据进行推断的艺术和科学”。关于统计的科学性,各种各样介绍方共同点都是来源于生活,很多身边的小事、长辈的经验、处事的直觉,都蕴含了丰富的统计学原理。统计学是一门应用的科学,枯燥的定理和吓人的公式是其科学性的基础,但是很多应用的原理和思路并没有那么复杂。在本章中,我们将会第1理黄金时代及之前,科学家大多相信世界具有确定性,但是最近100第2学的数学基础即可,读者可以通过其中的内容来了解概率论的发展过程和熟悉概率的思维方式。第3的科学内涵。本节将通过具体的例子来探讨这些统计思想中的科学道理和数学原理,不需要太多数学知识,关键在于理解。第4边界并没有那么容易把握,一不小心就容易陷入机械论或者玄学,如何更好地理解和应用科学,可以通过统计学来澄清很多问题。《三体》【闵是刘慈欣的雨果奖作品,是一部家喻户晓的科幻小说。男主角(或者说线索人物)应用物理学家汪森在开篇就卷入了一起顶尖(参见图1.1)o但是丁仪让汪森想象几种其他的情况:"第一次,白球将黑球撞入洞内;第二次,黑球走偏了;第三次,黑球飞上了天花板;第四次,黑球像一只受惊的麻雀在房间里乱飞;第五次,黑球以接近光速的速度飞出太阳系"。很显然,第一次是正常的情况,第二次也不是不可能发生,击球的过程中手抖或者没瞒准也不一定进得了必进球。但后三种情况就匪夷所思了。对于科幻小说来说,这段描述引出了后续的情节。但是在日常生活中,后三种情况基本上是不可能发生的。图1.1了力与加速度的关系:F=ma,其中F是对物体沿某方向施加的力,m是该物体的质量,a是该方向上的加速度。力和加速度之间存在因果关系,台球受力后将会产生一个瞄准方向上的加速度,于是白球运动起来撞击到黑球。然后在运动方向上给黑球一个力,使得黑球也运动起所以,台球高手会计算好击球的力度和角度,从而控制白球的速度与线路,这样可确保撞击黑球后能使黑球按照预期的速度与轨道前行。整击球的瞬间就能感觉到。继续训练一下手的稳定性或者大脑的计算能力就能提高准确性。大千世界正如台球世界一般,被很多简单的、强大的物理规律所支配,有因必有果,结果是确定的。人们都知道,再厉害的台球高手也没办法对自己的手部肌肉和目测角度实现百分之百的控制,所以台球这项运动才有悬念。那么假设人能百分之百地控制出杆击球(),擦力,球和球台的材料表面都有可能不均匀,空气中会有阻力,可能还有风,这些都是非常现实的可能会对台球的运动轨迹产生影响的因我们能够穷举所有可能的影响因素吗?答案是肯定的,至少在目前的物理体系下可以。我们能够计算出所有可能的影响因素吗?至少在台球的影响因素要么小得可以忽略不计(比如空气阻力),要么发生的可能性极低(比如极端大风或者地震),数学工具来描述它,至少从直观上来看这些因素是有办法处理的,通常我们称之为随机的方法。当然,在这个例子中,我们所说的随机不一定是真正的随机,很可能只是综合了大量难以测量的确定性因素后的一种处理方式,这样并没有系统【"I明可能也是三体人在使坏,不仅物理学家会崩溃,统计学家也要崩溃。无论世界是一套难以预测的确定性系统,还是具备真正的不确定性,或者具有完全的随机规律,我们都可以借助“随机”这个工具来更好地当然也更不是确定性。随着概率论和统计学的发展,随机方法成了科学家手中越来越强大的武器,可以用来描述更加复杂的世界现象。尤其是社会科学,任何一个问题的影响因素都是错综复杂的,所以需要统计工具来处理。从这个意义上来说,随机的世界已经广泛地被人类所接受,我们理解世界的方式也经历了从确定性到随机性的转变。不确定性,用科学的方法、用统计学来解决问题是行之有效的,这也是今天我们能享受光辉灿烂的人类文明的原因之一吧。确定性:对误差有着完全了解的认知情况,或没有疑惑的精神状态。(维基百科不确定性:缺乏知识来描述当前情况或估计将来的结果。(维基百科)分布。(维基百科)1927年101.2可能比这次会议更出名,时常以“世界上最智慧的大脑”为名在网络上被转载。这次会议通常被认为是爱因斯坦与玻尔在量子论观点上的决战LI,“上帝不会掷骰子”的观点也从此流传1926仰,也是很多持有决定论观点的物理学家的信仰。但这并不意味着他们是经典物理时代的守旧者,即使是今天,上帝究竟掷不掷骰子也没有定论。只是在那场大会上,爱因斯坦不断地挑战玻尔的观点都没有成功,在争论上以失败告终,让人感觉上帝开始掷骰子了而已。关于上帝掷骰子的讨论背景来源于量子力学的发展初期,1925式在数学上是等价的,但两派对于物理学上的表述和理解产生了严重分歧。1926年7月的解释打开了一个潘多拉的魔盒,他认为申代表了一种随机性,中2表示电子在某个位置出现的概率。这种解读是对决定论的颠覆。后来海森堡基于他的矩阵论于1927年3月提岀了著名的“测不准原理”(图1.2不确定性原理),测出精确的结果,用“坍缩”来解释,“观测者”的意识居然参与到了物理过程中,更是惊世骇俗。海森堡和玻尔以及玻恩、泡利、约尔当这批人大多数曾在哥本哈根工作过,他们也被称为“哥本哈根学派”,而他们的这套解释也被称为量得不承认该理论能做出很好的解释。即使针对一些“思维试验”的质疑(比如薛定帶的猫)也能很好地自圆其说。关于量子论和真实的物理世界到底如何,超出了本书的讨论范围,也超出了本书作者的学识范围。总之,在1927但很多领域的决定论都被打破了,比如力学家赖特希尔爵士于19861闵发表300周年的集会上发表了著名他们把它总结成一种可预言的系统。而且说实话,我们在1960经误导了公众,向他们宣传说满足牛顿运动定律的系统是决定论的,但是这在1960年后已被证明不是真的。我们都愿意在此向公众表示道上一节我们提到过,很多事情处理成随机的方式只是为了操作的简便,并不意味着其中的物理规律是完全随机的,比如空气对台球运动轨迹然可以认为是确定的。可是对于很多我们身处其中的社会规律,越来越多地接受了随机性的假设,这也是很多社会科学的基石。虽然主流的社会科学和物理学完全是两套体系,但是我们也可以看到统计学研究随机性的方法在两个领域中都可以应用得很好。100个问题已经不再困扰大家了。让我们引用被誉为“活着的传奇”的统计学家C.R.劳【19】的名言作为本节的结尾:是另外事件的发生。(维基百科)量子力学:是物理学的分支,主要描述微观的事物,与相对论一起被认为是现代物理学的两大基本支柱。(维基百科美剧《数字追凶》(Numb3rs)第1季的第1Don是FBI的探员,对于一个毫无线索的连环杀人案一筹莫展。他的数学天才弟弟Charlie通过犯罪地点推测出了一幅热区图,交给他的哥哥重点设网。第一次并没有抓到罪犯,但是CharlieCharlie为了给探员解释随机性,请求5位探员站出来,要求随便站,结果5位探员都不自觉地分散开来,每个人的距离也差不多。Charlie指出真正的随机会有一些人聚在一起,而普通人很难直观选择随机的顺序。所以罪犯也会刻意避开平常活动的模式给人以一种"随机”的感觉,实际上恰好掉入了随机性的陷阱。虽然武侠小说常说“最危险的地方就是最安全的地方”,但大部分人没有这个胆子和运气,人总是容易陷入思维的误区。凶手总觉得在自己现有什么规律,想人为地制造随机,结果反而不自觉地把“均匀”当成了随机。比如图1.3所示的是随机模拟的点,其中左图用了正态分布-右图用了均匀分布。这两种分布都是随机分布,但是自然界中的正态分布明显更常见,所以称为“正态”(normal),本意是“正常”。我们可以看到,正态分布的图中出现了一些点聚集在一起的现象,而均匀分布图中的点散得比较开,比较接近人们心中对“随机性”的直觉。实际上这也是一种把均匀当作随机的思维。图1.3遗传学家霍尔丹曾说过“人类是一种常规动物,并不能模仿自然界的无序”,说的就是这个道理。像《数字追凶》中这样的试验做起来不是很容易,而且不好量化。我们可以看一下C.R.・到医院去搜集1000・投掷10001关于分布的详细介绍在“第56页:2.2.3・想象投掷1000对于每个实验的1000个数据,我们按照顺序将5个分为1组,那么各有2005个数据,所以每组正面朝上(男孩)的次数可能是0到5之间的6表1.1C.R.正面朝上(男孩)以表1.1的第一行为例,200组医院数据中男孩数目为0的组数为2,2005,200组想象投掷硬币的数据中未出现正面朝上的组数为2。我们比较3比如次数为2、3、4的情况中,差距比较大。对于这个数据,我们还能用严格的统计方法来检验其中的差别,比如疋检验,我们在“第20页:1.3.1女士品茶”中将会对假设检验进行详细介绍。此处我们直观地比较这3组数据就能看出差异,不影响理解。关于这个实验,很明显,医院出生的小孩性别是一种自然界的随机,我们都知道男女出生比例接近1:1,但无法判断下一个出生的孩子是男是象中投掷一枚硬币的时候,总是没办法抹去随机的执念,怕正反比例失衡,所以当我们想象了很多次正面之后,会不自觉地多想象一些反面的情况。关于这个实验,大家可以自己尝试一下,看看自己想象中的随机和实际的随机是否一致,可能可以加深对随机性的理解。正常:符合一般规律和情况。(《现代汉语大词典》均匀:分布或分配在各部分的数量相同。(《现代汉语大词典》蒲丰(Buffon)1707年出生于法国,是博物学家、数学家、生物学家、启蒙时代著名作家,概率论中著名的“蒲丰投针”就是以他的名字命名的。德摩根(DeMorgan1806年出生于印度,7的概念严格化。卡尔•皮尔逊(KarlPearson)1857年出生于英国,是现代数学统计学的开创者,生物统计学的奠基人。罗曼诺夫斯(Romanovsky是苏联数学家,1906们都做过一种很"无聊”的事情:扔硬币。表1.2列出了他们扔硬币的次数和正面朝上的结果。表1.2很久以前,人类就具备了随机性的思想,《易经》算卦甚至需要设置随机数种子。就算从科学性的角度来看,也能追溯到古时候人们对赌博1654年【20],通常认为这一年帕斯卡12的通信,所以费马也被认为是概率论的创始人之一。在当时,还没有“概率”(Probability)这个术语,人们常用“机会”(Chance)之类的词表达概率的含义。一般认为安托万•阿尔诺(AntoineArnauld)与皮埃尔•尼古拉(PierreNicole)在1662年出版的《波尔•罗亚尔逻辑》中第一次对“概率”一词赋予了数学的含义。概率论严格的数学体系直到203在1774年正式提出的:〔BlaisePascal(1623年6月19H-1662年8月19H),法国神学家、哲学家、数学家、物理学家、化学家、音乐家、教育家、气象学家,压2PierredeFermat(1601年8月17H—1665年1月12H),3Laplace(1749年3月23H-1827年3月5是雅各布•伯努利1提出来的,包含在他的著作《猜度术》[11]为P,另一种可能结果出现的概率为1-P,则该试验称为伯努利试验2。基于这个试验,伯努利还进行了很多数学上的研究,推导出了一些很显然,我们这个扔硬币的试验就是一个伯努利试验,正常情况下硬币扔出去只会有两种结果(我们称为事件彳):正面朝上或者反面朝0.5o0.5,有时候比0.5大,有时候比0.5上一节里我们就说了,自然界的随机不一定是均匀的。那么我们似乎可以合理地猜测,是不是扔的次数越多则正面朝上的概率越接近于0.5呢?这似乎是一个规律,从表1.2伯努利大数定律的数学描述非常简单,假设做一个伯努利试验,重复n(比如硬币正面朝上)的概率是p,总成功次数记为S“,则limP(|——pl<e)= ”->oo其中e代表一个任意小的正数,该公式用中学数学里的极限知识即可理解。把S“就是利用了大数定律。因为真实世界中的事件谁也没办法确认它一定是个随机变量,只是从试验和常识的角度来看符合这种“数据越多越稳1JakobI.Bernoulli(1654年12月27H-1705年8月160),瑞士数学家,伯努利家族代表人物之一。其著作《猜度术》在他去世后第8(1713年)2关于伯努利试验的详情请参看“第51页:2.2.13事件可以认为是具有一定概率出现的结果,关于随机试验和事件的详细介绍,参看"第51页:2.2.1概率:又称或然率、机会率或几率、可能性,是数学概率论中的基本概念,是一个在0到1(维基百科大数定律:简称LLN(Lawoflargenumbers),样本数量越多,则其平均就越趋近期望值。(维基百科被称为现代会计学之父的卢卡•帕西奥利在其1494Pol。假设两个人A和B在玩一种游戏,每局只有胜负之分,胜者得10分,负者得0分,先得到60分的人获胜。如果A和B在玩的过程中因为某些原因停止了,而此时A的得分是50分,B的得分是30分,奖金应该如何分配给A和B才算公平?这个问题在今天来看可能只是中学生水平的数学题,但是在500文艺复兴时期著名学者卡尔达诺(Cardano)大约在1539年的时候对这个问题做了解答,他认为A只要再赢1局即可获胜.而B还要赢3局才能获胜。卡尔达诺可能意识到了B要赢3次是建立在前两次都赢的基础上的,因此他给了一个计算公式:(1+2+3):1=6:1,答案即为A和B按照6:11654年,32岁的帕斯卡想挑战这个问题。他的思路很直观,从游戏停止的时刻算起,如果下一局A胜,则A获得全部奖金,如果下一局B胜,那么B得到40BA赢一局获胜,或者B赢一局后得50分。如果是B赢,那么A和B都得50分,下一局谁胜谁就拿走所有奖金。所以分配的金额比例应该根据可能性来计算,A应该获,所以A和B的奖金分配应该是7:1,该解题思路可以用图1.4X1_2X1_2+XX1_2+X1_2X1_2图1.4马。费马经过思索之后给出了另一个思路。无论如何,最多三轮这个游戏就会结束,那么假设游戏必须继续进行3轮,一共有8种可能:AAA、AAB、ABA、ABB、BAA、BAB、BBA、BBBO在这8种可能中,只有出现BBB的时候B才能赢得奖金,另外7种可能在这个规则下都应该是A赢,因此A和B的奖金分配应该是7lo虽然在这个问题的解答上费马似乎技高一筹,但是在那一年他们的信件中还讨论了很多其他概率问题,帕斯卡都提出了很多清晰而全面的解1654的发展史上有着重要的地位,今天的我们凭借中学的数学知识就可以理解先贤的成果,可能感觉只是小小的进步,尤其是放在历史的背景下将要被其后很多伟大科学家的光芒掩盖。1654年,在人类历史上只是普通的一年,这一年牛顿12岁,一个新的时代等着他来开启。而在遥远的东方,南明丧失了最后的机会,苦苦支撑的永历帝开始苟延残喘,一个文明的巅峰即将谢幕,就要陷入近300年的黑暗期。不过所有的一切都不一定有这个简单的例子重要,当时的人们也不一定能想象“概率”这个神奇的东西被人类掌握后将会带来多大的能量,其实未来改变世界的那道“随机”的大门从此刻起就已经被打开了。概率论创立之后一直持续发展,当时虽然还未建立一套数学公理化体系,但是已经有了一套完整的数学基础和计算方法,尤其是应用到实际1812概率论完善的标志,他明确给出了概率的古典定义,并在概率论中引入了更强大的数学分析工具,证明了很多重要的定理,建立了一套较为严密的体系。古典概率论也称为传统概率论,以概率的计算和大数定律为基础,偏重于解决实际问题。1900年,德国数学家希尔伯特(DavidHilbert)23道最重要的数学问题,为206在其中起重要作用的物理学,首先是概率论和力学”。后来这个问题也被拆分成“物理学公理化”和“概率论公理化”这两个分支问题。1933Kolmogorov)出版也成为现代概率论诞生的标志事件。从此,人类进入了现代概率论的时代。不过对于大部分的应用场景来说,古典概率论和现代概率论并没有本质的区别,所以即使没有深厚的数学背景,也能使用概率论这一强大的武器,在实际工作中发挥重要的作用。概率分布和数字特征。(统计大词典)6连号和142009年6月12日,武汉市5141124名市民当中有6人的购房资格证明的编号是连续的。经查,6人申请材料系造假,购房资格被取消。巧合的是,2009年7月29日,老河口市第二期经济适用住房的摇号结果被发在了网上,很快有网民发现,在1138户具有购房资格的申请者中,抽中了514户购房者,其中有14户资格证编号相连,经过多方调查,未发现该次摇号中出现暗箱操作。这两次事件激发了网友计算概率的热情,新闻也不断报道,出现了很多不同的结果。一时间,这两个问题的概率究竟如何计算难倒了很多人,直到新闻热点冷却也还没有一个大范围流行的正确解法。6连号和14连号背后的数学问题是一样的,都可以描述成:从N1到N)中等概率地抽取1m个数,求出现k连号的概率P(N,m,k),其中k连号指不少于k个数字相连。这是一个典型的概率计算问题,也是古典概率中常见的表述方式。我们知道,从Nm个数的可能组数是组合数的问题,共有C™种可能的组合方式。我们需要计算出其中包含k连号的组数。把两个数目相除就是这个问题要计算的概率。这个概率计算的关键就是求排列组合1也称为简单随机抽样:SimpleRandomSampling不失一般性,我们假设要从8个数中抽取5个数,计算3C|种结果,再把其中出现3个以上连号的组数挑选出来。结果见表1.3。表1.38选5中35688768887888845656567757777333454455446651IX11xIXIX1-110^0^678787888877884576657775667733345446645566IXIXIX1-1A111A0^78688877878878455675667666673344545564555611±1X1-1±11IX1-0^00从表1.3可知,56种抽签结果中包含了40组3连号的情况,那么其概率为40/56=0.7143。如果数据量比较大,很难像这样全部列出来然后挑选符合情况的组数,因此需要找到一个计算这类问题的数学公式。可以想象,如果有8个箱子,编号从1到8,我们把5个球随机地放到箱子中(每个箱子中最多只能放1个球),出现3“14568”这种组合的结果,可以表示成图1.5所示的结果形式,白色表示空箱子,黑色表示放了球,很显然其中包含了3连号。 图1.5对于这个问题,我们很难用一个公式表示出包含3连号的所有组合,记这个组合数的函数为在本例中其为f(8,5,3)如果1号箱子里没有球,那么在剩下的7个箱子中抽取5个计算3连号,总数为f(7,5,3)如果1号箱子里有球,2号箱子里没球,那么在剩下的6个箱子中抽取4个计算3连号,总数为如果1号和2号箱子里有球,3号箱子里没球,那么在剩下的5个箱子中抽取3个计算3连号,总数为如果1号、2号、3号箱子里都有球,那么剩下的5个箱子里无论怎样排,都会包含3连号,所以总数为以上4种情况包含了所有的可能性,而且是互斥的,所以可得f(8,5,3)=f(6,4,3)+f(5,3,3)+/⑸3,3)+C影这是一个递推公式,其中/(6,4,3)等项仍然可以用这种思路递归地计算。我们将这个方法扩展到任意N,m,k的情况,可以得到公式:f(N,m,k)=^f(N-i,m-i+1,k)+f(N,tn,k)=l,如果N=tnf(N,m,k)=O,如果N<.k或m<k或N<.在“第142页:4.4.26连号和14连号7(5141,124,6)=((1138,514,14)=可见,在武汉的6连号事件中,出现这种6于这种通过小概率进行判断的例子,我们将在“第25页:1.3.3六西格玛的奇迹”中进行详细介绍。排列:从n个元素中取出k个元素,如果这k组合:从"个元素中取出k个元素,不考虑顺序,则称为组合,计算公式为:洋=善=顷気。(维基百科)三门问题,又称蒙提霍尔问题,出自美国的电视节目《让我们做笔交易》(Let'sMakeaDeal),得名于该节目的主持人蒙提霍尔(MontyHall)。这个节目大概在1975年的时候进入公众视野,节目的参者会看见三扇关闭着的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊(参见图1.6)。当参者选定了一扇门,但未去开启它的时候,知道门后情形的节目主持人会开启剩下两扇门中的其中一扇,露出其中一只山羊。主持人其后会问参者要不要换另一扇仍然关上的门。问题是:换另一扇门是否会增加参者赢得汽车的概率?这可能只是一个简单的概率问题,但自其诞生后带来了很大的影响。因为1991年的时候,玛丽莲(MarilynvosSavant)参与进来了,她是被吉尼斯世界纪录所认定的拥有最高智商的人类。1956年9月,玛丽莲在刚满10岁的时候初次接受斯坦福比奈智力量表(Stanford-BinetIntelligenceScale)的测试,测得智商高达228,随后进行过多次测试,在1985年的时候以HoeflidsMegaTest测试得分186的正式成绩登上吉1990是最后的世界纪录,虽然后来有韩国人金恩荣在斯坦福比奈智力量表中得到210的成人最好成绩,但已经没有这个纪录了。所以从某种意义上来说,这位定格为人类历史上“官方”记载智商最高的人是一位女性,而且曾经干过大事。这件大事就是蒙提霍尔问题,从20世纪80年代开始,玛丽莲在《展示杂志》(ParadeMagazine)上开了专栏“问问玛丽莲”,作为人类智商最高者解答各种问题。在1991年的时候,有人问了这个蒙提霍尔问题,玛丽莲的答案是“该换,换完就有2/3的概率赢得汽车”。结果引发了很多专业人士的质疑,其中包括著名的数学家保罗•埃尔德什(PaulErdoso人们可能不愿意相信这么不符合常理的结果,也可能对“智商最高”不爽很久T,终于在这次事件中爆发了,甚至有人说出了心声“也许女人和男人看待数学问题的角度不一样吧”[211。在概率的直觉中,一共有31/2,设之前一系列的陈述代表了事件A,其概率是P(£),而面临二选一时正确的概率是P(B),我们要计算的概率是P(B|A),根据条件概率的公式:P(B|A)=囁尹。如果事件▲和B是独立发生的,则有:P(ACB)=P(4)P(B)。很显然,当参者面临是否更换选择的时候,如果他突然忘记了之前的事情,也不会对他的选择造成任何影响,因为剩下两个选项中是羊还是车已经确定了。既然如此,先前的选择和主持人的开门似乎和下一次的选择之间没有什么关系,那么A和B可以认为是独立的,那么有P(B|A)=P^jB)=P(B),其结果就是随机二选一的概率:1/2O不过玛丽莲的思路并不是这样的,让我们从参者最初的选择开始,一共存在两种可能,各自的最终结果如下所示情形A:参者选中了汽车(概率为1/3),那么主持人会打开任意一扇有山羊的H,此时换门后获胜(记为事件W)的概率P(W|A)=情形B:参者选中了山羊(概率为2/3),那么主持人会打开另一扇有山羊的门,此时换门后获胜(记为事件W)的概率P(W|B)=1由于只可能存在情形A或者B,所以换门后最终获胜的概率P(W)=P(WCA)+P(WCB),根据条件概率的公式可得P(W)p(wnA)+P(wnBp(w|A)XP(A)+P(W|B)xP(B)-0x1/3+1x2/3=2/3。所以换门后赢得汽车的概率为2/3,丽莲的计算是正确的,换门后赢得汽车的概率是2/3情形A:参者选中了汽车(概率为1/3),那么主持人会打开任意一扇有山羊的门,此时换门后获胜(记为事件W)的概率P(W|A)=0情形B:参者选中了山羊(概率为2/3),主持人打开包含了汽车的门(概率为1/2),该情形不考虑在内,也不可能赢情形C:参者选中了山羊(概率为2/3),主持人打开包含了山羊的门(概率为1/2),此时换门后获胜(记为事件W)的概率P(W|C)=p(wnA)+P(W|A)*P(A)+P(W|C)*P:(C)-P(A)+P(0x1/3+1x2/3xl/2)/(l/3+2/3x1/2)=(l/3)/(2/3)=1/2O直觉中1/2的概率就是这么来的。在这个例子里,我们通过概率的之毫厘,谬以千里,这在计算概率的时候是尤其要注意的。对立事件:对于事件A,“事件A不出现”作为一个事件,称作AP(月)=1P(A)任意事件的加法法则:对任意事件A和B,有P(AUB)=P(A)+P(B)—P(AC1B)互斥事件:如果事件A和B没有交集,则称事件A和BP(AUBP(A)P(B)条件概率:事件A在另外一个事件BP(A|B),读作“在B条件下A的概率”。其计算公式为P(A|B)-舗寻。(维基百科)1968年5月22日,美国“天蝎”号核潜艇(参见图1.7)99名成员全部遇难。事后的调查报告说是被自关注。当时为了寻找"天蝎”号,美国海军划定了一个半径32千米、数千英尺深的圆形海域。如果要搜遍整个区域几乎是不可能完成的任务。当时,人们想到的最可行方案是聘用三四个潜艇和海洋环流顶级专家来推断“天蝎”号的位置。但是美国海军特别计划部的首席科学家约翰•克拉芬(JohnPCraven到了"天蝎”号的残骸,完成了几乎不可能完成的任务。图1.7背景主要来自贝叶斯统计,在这个例子里,用简单的贝叶斯公式就能很好地理解。贝叶斯公式也称为贝叶斯定理,其形式如下所示:・P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A-P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B・P(A)是A的先验概率(或边缘概率)。之所以称为“先验”,是因为它不用考虑任何B・P(B)是B在这个搜寻天蝎号的例子中,对于搜寻海域中的某一个格子,我们记“潜艇在格子中”为事件人,“潜艇被找到”为事件B,“潜艇在格子中”的概率为p,“潜艇在该格子中被找到”的概率为?,那么有p=P(A),g=P(B|A)。我们最关注的是概率p,其值越大说明该范围内存在p。通常会从概率最大的地方开始搜索,如果没有在该格子中找到潜艇,说明这个概率没有之前想象得那么高,我们可以利用贝叶斯公式重新计算这个概—(叭空 心根据条件概率和互补事件的定义,可得P⑻=P(B|A)P(A)P(B|A)P此P(B|A)=0,将以上各概率的值代入公式1.2.2中可得:p'=P(A|B)卩(11,将减小的概率平均分配到其他格子即可。随着搜索的进行,使用计算机算法不断更新每个格子的概率,直到搜索到残骸为止。这种方法的思路非常简单,但是在实际的使用中常常有奇效。尤其是其中的先验概率,可以是主观的,由此发展出了一套系统的统计推断方法,称为贝叶斯方法,甚至形成了一个贝叶斯学派。随着计算机能力的不断提高,贝叶斯学派的影响也变得越来越大。是数理统计学)中很重要的技巧之一。(维基百科)20世纪20们觉得两种液体的混合物在化学成分上不可能有任何区别。此时,一位名叫费希尔(RonaldAylmerFisher)的男子陷入了沉思,他考虑了各种试验设计方法,以确定这位女士是否能判断出两种茶的区别。做完费希尔设计的试验后,人们惊奇地发现,那位女士正确地判断出了每一杯茶的制作方式122](参见图1.8)。这个故事来自经典的统计历史读物《女士品茶少凶],故事中的费希尔是现代统计学的奠基者之一,当时不到40岁。这个试验的详情包含在了费希尔1935MurielBristol)营养的机制方面颇有建树,不过在公众中的名气似乎主要来自品茶的女士这个身份。在古老的英国,人们一直都在争论这个问题,究竟是先加奶后加茶好喝还是先加茶后加奶好喝。据说贵族倾向于先加茶,平民倾向于先加奶,有人分析说有钱人可以用上好的瓷器,比如来自中国的茶杯,所以先加滚烫的茶也不会爆裂,而普通人用的茶杯就只能先加冷的牛奶问题才有了很好的解决方案。8杯茶,有4杯是先加茶,4杯是先加奶,茶杯完全一样,以随机的顺序交给女士来品茶。女士尝完这8的奶茶的数目作为研究对象(研究先加奶的也可以),记为X,X的取值有5种可能,分别是0、1、2、3、4。根据直觉判断我们也知道X越大说明女士越厉害。当然,费希尔有除了直觉之外更好的办法。让我们重新拿出概率计算这个武器,首先假设“该女士完全分不出哪些先加茶哪些先加奶”,那么她只能随机地猜测,正确区分每一杯茶的概率只有1/28个球(4个黑球4个白球)中随机摸出4个的问题,摸出的4X也是等价的。根据排列组合的公式,从8个球中摸出4个的组合数为Cl=70,其中X的不同取值也可以计算出来,如表1.4所示。表1.4从结果来看,如果我们之前的假设“该女士完全分不出哪些先加茶哪些先加奶”是正确的,那么出现这种结果(X=4)有0.0143是0.0143。这个概率很小,比0.05还要小,所以我们有充足的理由认为“该女士可以分出哪些先加茶哪些先加奶”O・Ho・Hi其中Ho称为原假设,Hi是Ho的否命题,称为备择假设。我们在原假设的基础上对数据和试验结果进行深入的研究,可以计算得到一个“拒绝“P值”,虽然最近很多文章把PP值的行为,并没有否定P值在统计推断中极其重要的地位。在本例中,P值就是0.0143,我们专门强调了这个值小于0.05,是因为在计算能力不发达的时代,对于很多复杂的问题很难精确地计算P值。所以需要将一个显著性水平带入公式,通常通过查表的方式来判断是否显著,由于不同的方法和假设的分布的具体形式差异很大,我们在这里就不详述了。总之,虽然因为历史原因导致0.05这个数值成了判断显著性的重要标准,但我们实际使用时也很能说得通,因为它代表了拒绝原假设犯错误的概率,如果这个概率小于0.05,当然说明我们有充足的理由可以拒绝原假设,换句话说也就是接受备择假设。需要特别注意的是,最好任何时候也不要说“接受原假设”这样的话语,即使P味着接受原假设犯错误的概率不大。如果P值很大的话,我们应该说“不能拒绝”而不要说“接受”,只有备择假设才能“接受”。在这个女士品茶的例子里,费希尔当时使用的方法里并没有备择假设(实际上费希尔一直也不支持这种套路),用的是另一种类似的方式,P值。这个思想的核心在于“拒绝”,而不是“证明”,似乎与常规的思维方式有些不同,但这是一种科学的思维方式,正如科学在不断否定中进步和发推断统计学:又称统计推断(StatisticalInference),与描述统计相对应,研究如何根据样本数据去推断总体数量特征的方法“它是在对样过程的观察来进行推断的。(维基百科)第一类错误:在假设检验中,如果HoHoP值来描述。(维基百科)第二类错误:在假设检验中,如果Ho是错误的(Hi是正确的),错误地接受了Ho,称为第二类错误。(维基百科)关于“渣男”的话题在很多网站或者社交网络上都容易成为热点,百度“渣男去死”可以搜到各种各样奇葩的故事和极品的人类,有些是很征被总结出了很多,比如花心、家暴、不负责任、自恋、抠门、大男子主义等。但这些特征通常都很难通过初次见面或者短期相处发现,很多时候都是相处久了才感受越来越深,及时止损都已经太晚。“渣男”和一般的坏人不一样,很多所谓很“渣”的事情都不是罪大恶极,如果原则性不太强的话比较容易忽略,再加上“渣男”通常都擅是个问题。原谅吧,怕真的是“渣男”,以后还会经常犯。不原谅吧,怕错伤好人,万一真的只是不小心犯错以后再也不犯了呢?11件很“渣”的事情,那么偶尔犯错,人非圣贤、孰能无过,以后可能就不会犯了。究竟是不是无心之失,需要针对具体的事情来分析,我们这里只将其类比成一个统计问题。假设箱子里有N个球(N是一个很大的数),只可能是黑色或者白色。如果我们随机地取出1个球,然后放回去,如此反复,一共取10次,发现其中有1次是黑球,请问箱子里黑球的比例p是多少?在这个问题里,p总体,其中黑球的比例p称为一个“参数”,参数通常用来描述总体的一些重要特征。而随机摸取出来的球的颜色的结果称为样本,样本的数量虽然不大,但是可以合理地认为其中包含很多总体的特征。在这个例子里,每一次取球取到黑球的概率其实就是参数po摸取10次后得到一个样本量为10的样本。我们是否可以利用这个样本来推断出总体中p的大小呢?通过样本来推测总体是一种非常重要的统计思想,假设通过某种摸取的方式()后样本可以代表总体,说明样本和总体具有一些相同的性质,如果总体中存在某些参数可以描述各种性质,那么通过样本来推断总体的参数,就称为参数估计。估计的思想在统计中非常常具体的估计方法有很多种,其实在判断“渣男”的例子中就提到了一种。有的女生觉得犯一次错就不可饶恕,因为发生的事件应该是可能性(也称为极大似然)打靶,一声枪响后发现十环被打中,那么人们通常都会猜测这一枪是射击冠军打的。本质上都是最大似然思想在生活中的应用。把这种思想应用到参数估计上也是可行的,比如在上面摸球的例子中,我们可以计算得到该结果(摸10次有1次是黑色)的概率p=p1.(1-P)9所谓最大似然,就是寻找一个p,使得P*(1P’=1•(1-p)9一p・9(l—p)*= (1-3-解得p0.1时P具有最大值。因此P0.1是参数p10个球抽中1个所以是0.1的结果完全相同。如果模型或者参数的分布更复杂,就没办法靠直觉来求解了,但这种最大似然的思想是一致的,也是我们进行参数估计的最常用方法之一。(维基百科)六西格玛(SixSigma),又称六标准差,是一种用于流程改善的工具与程序,也是一种管理的战略和方法。一般认为其核心思想诞生于20世纪70年代的摩托罗拉公司(Motorola)o1986年,工程师比尔•史密斯(WilliamB.Smith)制定了管理摩托罗拉的一系列方法,因此他也被称为“六西格玛之父”。后来由于通用电气(GE第八任CEO杰克•韦尔奇(JackWelch)的推广,六西格玛于1995不去深究它的应用方式和管理学内涵,主要讨论“六西格玛”中所包含的一种统计思想,也就是小概率的思想。六西格玛的标准写法是“6h,正态分布及其参数,我们将在“第56页:223棣莫弗的正态”进行详细介绍,在这里我们只需要了解图1.9中的几个数值即可。图6a该图描述了一个标准正态分布(均值为0,标准差为1),所谓6(r,就是指正负62a和6a以外的情形。比如x2的左边与x=2右边的阴影面积,表示2c之外的面积。在正态分布中这两块阴影的面积之和与整个钟形区域的面积之比即为概率,比如标准正态分布下2a之外的概率为2x0.02275=0.0455。所谓6a的管理方式,其最早来源是基于当时通用的3a缺陷率,也就是说,在当时的工业领域,普遍认为如果缺陷率在标准正态分布的3a以外0.0026。所谓6a的管理,简单理解就是朝着更高的目标“6我们利用标准正态分布计算可得真实的6a以外的概率应该是0.00000000197,约等于十亿分之二。但是摩托罗拉公司在提出六西格玛管理方法1.5。的偏移。如果放在64.5<T,另一侧变成了7.5°(只有3.2x10-14,小到可以忽略不计),所以我们通常说的6a实际上指的是4.5<r的缺陷率,这个数值是0.0000034,也就是我们熟知的百万分之三点四。极大的作用。在很多场景下,都可以通过小概率帮助我们做决策,比如之前提到的假设检验,如果概率小于0.05就可以拒绝原假设了。但0.05的概率并不意味着不可能发生,甚至并不足够小。所以如果我们需要一个更小的概率来描述几乎不可能发生的事情,6a理论中的百万实的生活中有理由认为概率低于百万分之三点四的事情不会发生。有趣的是,英国数学家李特尔伍德(JohnEdensorLittlewood)回到“第13页:1.2.26连号和14连号”中的例子,武汉6连号事件中计算的概率是百万分之0.8,而老河口14连号事件中计算的概率是百分之0.8把计算概率的方法和这种小概率的思想结合起来,能够帮助我们进行更好的决策和判断。平均数(Mean):常用于表示统计对象的一般水平,是描述数据集中趋势的一个统计量,样本均值的计算方式为:f=勺+卑…+叫标准差(StandardDeviation):简称为SD,一般用数学符号a来表示,是数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,差,代表这些数值较接近平均数。样本标准差的计算公式为;SDv/(Xl_E)2±(X2_E)2+...+a”至。(维基百科)约翰•康杜特曾经记载了牛顿和苹果的故事:“1666年,当他在一座花园中沉思散步时,他突.然想到重力(它的作用让一个苹果从树上掉到地WilliamStukeley在他的《艾萨克•牛顿爵士生平回忆录》中记录了1726年4月15日与牛顿的一次谈话"从前,引力的概念进入了他的脑海。在他正在沉思时,苹果的下落引起了他以上是关于牛顿和苹果的故事的一些出处的记载,虽然现在有些人质疑牛顿从苹果落地得到万有引力的灵感的真实性,但不妨碍牛顿的苹果的记录,另一方面主要是万有引力的规律实在是太鬼斧神工了,让人很难相信一个苹果就能启发如此天才的灵感。不过无论是否质疑这个苹果的存在,人们都关心的问题是这需要多么天才的头脑才能凭空想到万有引力的公式啊?万有引力定律(Newton'slawofuniversalgravitation)是牛顿在1687年于《自然哲学的数学原理》[18]上发表的定律。让我们先来看看万其中F表示万有引力,G是一个常数,精确测量后得到其值约为6.67x1011N加2炀2,加1和m2分别表示两个物体的质量,「是它们之间的距这个公式为什么惊世骇俗?关键是其中的那个“等号”。等号意味着这是绝对的物理规律,不会有任何偏差,如果有偏差那一定是测量的误差。100(Cavendish)于1797年到1798过卡文迪许实验测得了大量物体之间的万有引力,同时也测量了物体的质量、间距等数据,慢慢发现物体的质量、间距会是关键的影响因F=f(〃i,wi2/)+ (1-3-如果引力和质量、间距之间真的存在规律,那么ef(mvm2,r)e的存在,我们无法得到一个完美的等号,但是可以表达足够强的规律,得到一个统计模型。这就是拟合的思想,也是最常见的统计思想之一。拟合(Fitting):已知的数据相吻合。(维基百科)《水浒传》里有两个神机妙算的军师(参见图1.10)图1.10朱武虽然排名比较靠后,但也是72地煞星的第1上去好像没那么多鬼点子,但是只要斗阵必胜,让人感觉很安心。当然,《水浒传》中还有一个预测能力很强的人,或者说不是人,那就是计学显然是其中最科学的。我们正好可以通过《水浒传》中的例子来介绍不同的预测方法。朱武的预测能力最清晰直白,他看一眼敌军的阵法就能发现其中的关键并预测下一步的走势,然后指挥己方军队有针对性地布阵,对其进行克制。朱武为什么能这么厉害?是因为他之前学习过各种各样的阵法,所以一看到敌阵的某个片段、某些特征就能预测出这是一个什么阵,用专业的术语说,朱武做了一个正确的分类。我们可以认为朱武胸中蕴藏了一个非常强大的分类模型,可以精准地对任何阵法进行分类。而立模型,然后用来做预测,这种预测通常称为Prediction,详情可以参见“第124页:4.2.4树木与森林”。吴用的预测能力感觉存在感更高,因为他经常能未卜先知,针对很多问题都有自己的直觉,而不是像朱武那样胸中藏有分类模型。我们细看析模型,比如时间序列,我们通常把这种预测称为预报,对应的英文单词是Forecasting,详情可以参见“第114页:4.1.4股票的走势”。无论是Prediction还是Forecasting,都有科学的方法进行统计推断。统计学家埃弗龙(BradleyEfron)曾说过“统计是仅有的系统地研究推预测(Prediction):研究和预估不确定事件的发生及结果,是统计推断的一部分,通常需要基于已有的经验和知识。(维基百科预报(Forecasting):基于过去的数据对未来进行预测。(维基百科)预言(Prophecy):通过神力或者非凡的能力所获得的对现时的真理和事实的宣布。(维基百科)1996年2月10日,IBM公司的超级电脑深蓝首次挑战国际象棋世界冠军卡斯帕罗夫,但以2:4落败。比在2月17日结束。其后研究小组把深蓝加以改良,1997年5月再度挑战卡斯帕罗夫,比在5月11日结束,最终深蓝电脑以3.5:2.5击败卡斯帕罗夫,成为首个在标准比时限内去败国际象棋世界冠军的电脑系统。2016年3月,GoogleDeepMind开发的人工智能围棋程序AlphaGo(被戏称为"阿尔法狗”)挑战世界冠军韩国职业棋手李世石九段,分别于3月9日、10日、12日、13日和15日进行了五番棋,最终AlphaGo4:1战胜了李世石(参见图1.11)o2017年5月23日,AlphaGo在中国乌镇开始挑战世界围棋第一高手中国的柯洁九段,最终以3:0图1.11两个时代里机器挑战人类的比,虽然过程不同,但最终的结果都是机器获胜。国际象棋被誉为人类智慧的试金石,结果特级大师败得毫无悬念,围棋曾被认为是人工智能无法攻克的堡垒,结果也出乎所有人意料地获胜了。这两次震惊世界的大都引发了新一轮的人工智能热潮,尤其是AlphaGo获胜的这一次,对人类带来的惊天动地的影响还在继续,而且看不到衰减的趋势。人类虽然输了比,但是赢了未来。深蓝和AlphaGo虽然都被称为人工智能,但是它们实现的原理和思维方式却完全不同。深蓝(DeepBlue)是由IBM开发的,专门用以分析国际象棋的超级计算机。当时电脑的计算能力普遍不行,深蓝作为超级计算机,主要靠算能力来搜索各种可能。国际象棋的变化相对较少,那时即使无法搜索全部的可能性,也能覆盖很大一部分,再加上人们专门针对国际象棋的规则进行开发,甚至请来了特级大师教程序员制定对付卡斯帕罗夫的规则。所以深蓝的胜利主要是硬件和优化算法的胜利。AlphaGo,直译是阿尔法围棋,当2015是当时的计算能力可以染指的,直到阿尔法狗战胜李世石,同时人们深入研究了Google公开的论文之后,才明白其中的道理。狗就像一个不眠不休不死不睡的高手,仍然能通过不断的学习(包括学习自己的棋谱)继续进步。关于深蓝和阿尔法狗的技术细节我们就不进行详细的对比了。其中最关键的差异在于两种不同的推理方法:演绎和归纳。演绎法最早是古希到各种各样合理的结果。归纳法的思维方式正好相反,主要是通过特定的结果来研究前提,是一种由特殊推向一般的推理过程,通过现象去匹配假设,过程中可以产生新的知识,但因为这种推理过程中包含很多不确定性,所以并不能确保得到准确的结果。[19】回到深蓝和阿尔法狗的例子,深蓝就是典型的演绎推理,通过各种预设规则和最优化算法,根据场上形势不断推演,寻找最优解。阿尔法狗规则,在深度学习的模型中甚至都不是显式的规则,也没办法教给人类,但用在棋局中能获胜。能,也是以归纳推理为主,从数据中得到知识,也可以称为数据科学,在“第154页:5.1.4大数据时代新纪元”中有更详细的讨论。归纳(Induction):对事物特殊的代表进行有限观察,把性质或关系归结到类型,或基于对反复再现的现象的模式进行有限观察,总结出公式或规律。(维基百科)演绎(Deduction):2015年10月8日,中国科学家屠呦呦获得2015年诺贝尔生理学或医学奖,成为第一个获得诺贝尔自然学奖的中国人。无论是作为中国人的骄反对者很快树殳一个“人们认为青蒿素是中药”的靶子,开始大肆攻击,持续的进攻将中国传统医学和中药贬得一钱不值。其实两派的争论由来已久,参与网络争论的这两拨儿人大多数并不懂中药也不懂西药,争论的源头很可能纯粹是信仰的差异。对于这个话题,我们不涉及信仰之争,主要谈药。药和医是不同的,中医和西医都是太大的领域,说来话长。相对来说,药学比较偏技术,也依赖数据,统计学可以在其中发挥很重要的作用。一款新药的研发和上市要经过非常复杂的流程。一般来说,首先是新药发现和临床前试验(Preclinical)验阶段。如果按照FDA(美国食品药品监督管理局)的标准流程进行试验的话,需要进行四期的临床试验,只有通过了层层考验之后,才能在新药研发的过程中,无论是时间还是资金成本,最大份额都在于临床试验,这是搞统计的人可以愉快玩耍的领域。而网络上西药和中药的中药支持者骄傲的理由是青蒿素“新药发现”的灵感来自中药的方子,而后面的动物试验到人体试验都和目前主流的新药研发流程没什么区别。中医反对者认为中医在其中的作用完全只是巧合。保护期不会等人,药厂面临的压力很大。本来化合物的筛选就像撞大运一般,没有特别好的方法来找到人们想要的。据媒体 报道,当年美国为了越战抗疟的需要筛选了30仍然拿青蒿素来举例,西药的药理学会研究化合物对人体的作用,通常的表述方式是这样的:“它们将修饰或抑制疟原虫生长所需要的大分据建立药物进入血液后的药动学模型和药效学模型,这样才可以量化地研究其规律,用统计模型来描述药和人体之间的关系,然后通过各项试验的数据来验证,并依赖且仅依赖于大规模人体试验的数据来判断该药是有效且轻害的。中医和中药的全部,从神农尝百草开始的试验思想以及以疗效为唯一目的的统计思想才是值得称道的。现在有些人过多地关注数学模型相对于玄学模型的优势,而忘了模型的本质只是研究真实世界的一种不得已而用之的手段,刻意强调方法的“科学性”而忽视大规模数据的验1.12描述了西药中的房室模型和中药中的经学是唯一的真理,但相信科学是目前认识世界的最好工具。图1.12目前来看,中药和西药最大的差异在于药理,很显然古代中药的药理学很不科学,现代人致力于将中药理论科学化但是效果并不好。可是现代制药流程中最接近真理的地方可能并不在于药理,而是药效,甚至可以认为现代药学最核心的部分就是试验。就拿所有人都不会反对的FDA(美国药监局)FDA的经典之作。现代社会的西药之所以安全,主要因为大规模试验后的数据分析,这就是统计学的重要作用。神,历史也证明了中医对整个民族的贡献,我们看问题要实事求是,不能用是否具有“科学”的数学模型来一刀切。那么统计学是否能支持中药呢?很显然,统计不拒绝任何对人类有帮助的东西,我们只相信数据及其结论。但是实际的情况是,中药基本上以很容易地设计临床试验和进行统计分析。而中药在临床试验中面临的最大问题就是混合物的问题。哪怕只包含两个化合物,光是研究协同不容易,如果对精度要求不高,也得用最优化的方法来求解,如果要求严格的比例控制的话,基本就不可能了。中国药监局还是美国的FDA,药,都能在统计学的护持下健康地发展。药物代谢动力学(Pharmacokinetics):简称为“药动学”,主要是定量研究药物在生物体内的活动过程(吸收、分布、代谢和排泄),并运用数学原理和方法阐述药物在机体内的动态规律的一门学科。2013年3月28日,统计学家乔治•伯克斯(GeorgeBox)93岁。他的离去引来社会各界的无限追思。伯克斯教授被公认为20世纪后半期最重要的三位统计学家之一(另两位是约翰•图基和D.R.考克斯),在工业、经济、商业、农业、环境等诸多领域都留下了很多以他的名字命名的方法。对公众来说,印象最深的可能还是那句名言:"所有模型都是错误的,但有些是“所有模型都是错误的”,听起来有些极端,有些人会感觉信仰受到了伤害,还有些人会借此来攻击统计模型。实际上,如果我们足够了解是邪教,以科学的初衷做出很多不科学的事来,可能会带来比较大的危害。我们在“第27页:1.3.4或者现象(),然后一个天才人物站在巨人的肩膀上提出一个假说(),再后来会有很多真实数据或者实验来支持这个假说(卡文迪许实验)。一旦发现某个反例,说明该假说被证伪,或者在一定范围内被证伪,然后就会有新的理论进行弥补或者替代(比如量子力学),然后进入新的发展周期,于是科学在不断否定中进步。人类社会也跟着科学一起发展进步。波普尔1和实验来验证,如果每次验证都是对的,不能说命题就是对的,但只要有一次验证发现错了,那么就被证伪了,这个命题也就被推翻法精确地证伪,而很多命题被证伪了也不一定是科学命题,比如“处女座的人都有洁癖”显然不是科学命题。们在“第31页:1.4.2深蓝与阿尔法狗”也介绍了归纳推理和演绎推理的差异,确实使用归纳逻辑更容易犯错,iKarlRaimundPopper(1902年7月280-1994年9月17日),出生于奥地利,逝于英国伦敦,犹太人,被誉为20世纪最伟大的哲学家之(尤其是对历史数据进行分析)要注意不能把特殊性当成一般性,盲目相信数据和经验。使用演绎思维的时候,也不能陷入极端的封闭中越绕越接近真理,但通常会更有用。用科学的方式得到有用的假说是大家都认可的,归纳和演绎其实最大的差别是得到“更好的”假说的方式。(JohnMacmurray)曾说过:“对科学来说,并不在决问题,就是好的模型。当发现不管用的时候,或者出问题的时候,我们需要继续寻找一个更好的模型,这才是科学的态度,也是解决问题科学(Science):是通过经验实证的方法,对现象(原来指自然现象,现泛指包括社会现象等现象)进行归因的学科。(维基百科)哲学(Philosophy):(维基百科)第2统计学是一门关于数据的科学,但是针对数据进行分析的方法并不只有统计学这一种。只要能够从数据中获取价值,可以通过可复制的方式科学性,所以能够实现可重复研究,同时又不局限于数学的背景,所以能以更加灵活的方式从数据中获取价值。但是对于各类方法,如果能有坚实的数学基础,将能更好地理解其中的原理和应用边界,否则很容易误解或者不自信。在当今的时代里,各作,但其中的危险性也不可不知,这就需要掌握一定的数学知识,从而可以对方法有比较透彻的理解。第1了解,可以参阅线性代数【23】的相关书籍,也可以跳过此处内容,不太影响后续的阅读。第2节“随机变量和分布”介绍了概率分布的基础,和第1章中介绍的古典概率论不同,此处引入了随机变量和分布函数这些专业的工具,但概率论的相关书籍【24】,也可以跳过此处内容,不太影响后续的阅读。第3节“认识数据”主要是从工程角度对数据的介绍,如果有实际的数据处理经验(使用过Excel或者数据库等)将能更好地理解其中的内第4基础不够,可以参考一些数理统计相关书籍Ml,也可以跳过其中的数学公式,结合具体的例子理解其中的统计思想即可。在一维的世界里,整个空间就是一根线,假设里面生活了一只題子,那么虫子永远只知道前后,不知道左右。在二维的世界里,空间是一个可怜虫。三维世界是我们生活的世界,除了前后左右之外,我们的空间还有上下之分(参见图2.1)o是否存在四维空间?我们不知道也想象不到,正如“夏虫不可以语冰”一般,三维虫不可以语四维也。所谓空间,在数学上有严格的定义,也存在各种各样不同的空间,但最常用也最符合我们理解真实世界直觉的是欧几里得空间(EuclideanSpace的就是笛卡儿坐标系(CartesianCoordinateSystem),也称为直角坐标系。图2.2中箭头所在的点的坐标为(3,2)O图2.2对于二维平面来说,我们通常把横轴称为X轴,把纵轴称为Y轴,为了不失一般性,我们也可以将它们称为第一轴(记为Xi)为X2)oXi和X2三个值。超过三维的"维空间我们想象不出来,但是类比可以知道其中点的坐标一定是包含n个值的。对于这样的情况,我们使用向量(Vector)由n个实数,•••,x„组成的一个数组x或X’”称为向量的维数,表示向量中元素的个数。向量默认为列的形式,右上角的撇(')(Transpose),也就是旋转成行的形式。所以我们用x来代表一个向量的时候通常是指按列排列的,如果为了排版的需要而横着排,就记为乂'。向量x在几何上可表示为一个n维有向线段,它沿第一个轴的坐标为X1,沿第二个轴的坐标为X2……沿第n个轴的坐标为X”。一个向量可以表示n维空间中的一个点,即该有向线段(箭头)的顶点。图2.2就展现了二维空间中的向量x,根据向量的定义,我们可以知道该向量为=[3,2]向量可以进行运算,比如标量乘法(ScalarMultiplication),又称数乘,向量乘以一个实数相当于其每个元素都乘以该实数:C"=…,c・x”]向量长度伸长或缩短,变为原来的c倍,但是方向不变,如图2.3图2.3Addition)运算。向量加法表示将两个向量的各元素分别相加:xix+y(有些领域也称矢量),具有大小和方向,计算合力就是做向量加法。如图2.3的右图所示。x'[xi,X2,...,xny'yi,y2,•••,!/”],我们定义其内积(InnerProduct)运算如下:x'y=Xiyi+X2yi+•••+xnyn内积也称为点积(DotProduct),记为x'y。向量的长度L’(也记作||x||)两个向量之间还存在夹角,我们记向量x和y的夹角为0,则有cos(0)=x'y/(L』y)。如果x'y=0,说明0=90°,称为x与y垂直。向量之间还可以定义距离,在欧氏空间里,对于向量£= []/1,]/2,...,如,其欧氏距离dxvdxy=d(X1—yi)2+(X2—]/2)2+…+(X”-对于两个向量:xr[xi,x2,...,xn]和••・,%],我们还可以定义兀在y上的投影为:豈y。该投影也是一个向量,与向量y的方向相同,如图2.4图2.4中去可以解决更多更复杂的问题。向量(Vector)“Matrix”TheMatrix,里面的“母体”(Matrix统连接,思维活在这个虚拟的世界而不自知,很多人第一次看的时候非常震撼。《变形金刚》里面有一个"能源宝"(MatrixofLeadership),Matrix一词的本意就是母体,英国数学家西尔维斯特(JamesJosephSylvester)于1850年用它来命名我们今天所熟知的"矩阵”,至此Matrix这个词就深入到数学应用的各个领域A伉a12久22•Qm2我们记该矩阵为A,用川来表示矩阵A血a12伉a21A伉仇22•O«22Qm2^2n其中加和卅称为矩阵的维数(Dimension),如果两个矩阵A和BAB。如果AA为对称矩阵(SymmetricMatrix)o设c为任一实数,矩阵A={夠},CQ]CC21Cfl22cACC•c•该运算称为矩阵的标量乘法(ScalarMultiplication),也称为“数乘”。标量乘法满足交换律:c-A=A-co设矩阵A={a,;}和矩阵B={切}具有相同的维数,A和B之间可以进行(mxn) 各种运算。直中AB称为矩阵加法(MatrixAddition«11+a122A+Ba21+«22+22a2n+_aml+Qm2+^m2^mn+矩阵加法满足交换律:A+B=B+Ao矩阵减法与加法类似:A-B=A+(-l)-AQB称为哈达玛乘积(HadamardProduct11•a1212in*A0Bfl21•fl2222•a2n•_aml*Qm2*bm2amn'AQB设矩阵A={切}和矩阵B={&,■,},矩阵乘法(MatrixProduct)AB定 刀7=1伉1/•切2•…E/Li-匸7=121•bi2••.E/L1^21-E/L1aml'E/LlQml•bi2…刀7=1伉诙•AB也可记作ABmxn和料xk的两个矩阵相乘后,生成的新矩阵的维数为mxk。注意,矩阵乘法不满足乘法交换律,亦即AB不一定等于BAO如果一个矩阵的行数与列数相等,则称为方阵(SquareMatrixo0的方阵称为对角矩阵(DiagonalMatrix)o对角线上的值都为1的对角矩阵称为单位矩阵(IdentityMatrix),如下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 常州市溧阳中学高三地理二轮复习区域地理作业
- 2026年珠宝鉴定师能力(品质评估)考题及答案
- 2025年大学环境工程(污水处理工艺设计)试题及答案
- 2026年专利代理师(专利法律知识)试题及答案
- 2026下半年托福(iBT)口语话题素材与应答技巧
- 2025年中职水产养殖技术(成鱼养殖)试题及答案
- 高一生物(真题演练)2027年上学期期末考核卷
- 2026年注册公路工程师(专业考试)试题及答案
- 2025年大学自动化(机器人减排研究)试题及答案
- 金融科技 习题及答案题库汇 - 第1-6章
- 俄语口语课件
- 2025广西自然资源职业技术学院下半年招聘工作人员150人(公共基础知识)综合能力测试题带答案解析
- django基于Hadoop的黑龙江旅游景点系统-论文11936字
- 2025-2026学年广东省深圳市福田中学高一(上)期中物理试卷(含答案)
- 施工现场安全、文明考核管理办法
- 香蕉购买协议书模板
- 神龙公司合并协议书
- 2025广东中山市人力资源和社会保障局招聘雇员10人考试历年真题汇编附答案解析
- 调度员岗位招聘考试试卷及答案
- UX 设计师岗位招聘考试试卷及答案
- 2026年高考语文押题作文8篇
评论
0/150
提交评论