数理统计在化学中应用.ppt_第1页
数理统计在化学中应用.ppt_第2页
数理统计在化学中应用.ppt_第3页
数理统计在化学中应用.ppt_第4页
数理统计在化学中应用.ppt_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计在化学中的应用,数理统计方法在化学中的应用,李振华 复旦大学化学系表面化学实验室,讲义,/teacher/lizh/lizh.htm,绪论,统计方法是一种用于收集、表示、分析和解释通过观察和实验而得到的基本数据的方法,是人类认识自然和社会的重要手段。 上海股票市场收益率分布模型统计研究 在运用正态分布假设的GARCH模型来描述金融收益序列的条件分布时,正态分布假设常常被拒绝,人们用一些具有尖峰、厚尾特性的分布,如t分布、GED分 布来替代正态分布假设,从而得到一系列GARCH模型的扩展形式,如GARCH-t模型、GARCH-GED模型等。本文依据严密的统计分析方法选择了 GARCH-t(1,1)模型描述上证综指对数收益率序列的分布。最后,根据各项模型检验结果说明,用GARCH-t(1,1)模型描述上证综指收益率序 列是有充分理由的。 统计定价模型与股票投资决策2007年 第15期 ,作者: 高祥宝, 闫惠敏,数理统计在化学中的应用,3,韩寒代笔之争,/448946/3.html 首先从逻辑角度讲,方舟子应该证明 P( A | F) 大于一个很大的值如95% 。这里 A是方的假设, 比如 “三重门是韩父写的”F是 所有可观测的客观事实的集合。这里方可以用两种方法去证明 P(A|F) 95%. 第一种是找到一些列的独立证据 F1,F2, F3 每一个证据 P(A|Fi) 都很大,比如他能找到证人证明什么时间,什么地点由什么证人看到了听说了韩父代写,或者手稿上的字迹能证明是韩父的。这些都是硬的证据,方没有。这没有关系,方可以采用另外一种方法证明,那就是对于某一个事实Fk, 如果 P( Fk|a ) 很小,这里a是A的补集。(也就是a =”三重门是韩寒自己写的“)那么通过贝耶斯公式反推P( A | F),如果P( Fk|a ) 足够小,那么P( A | F)是可以大于95%的。 这种也是方一直在采用的方法,但使用这种方法的问题在于,根据公式,P ( A | F) = P(AF)/P(F) = ( P(F1|A)*P(F2|A)*P(Fn|A)*P(A) ) / (P(F1|A)*P(F2|A)*P(Fn|A)*P(A) + (P(F1|a)*P(F2|a)*P(Fn|a)*P(a) )也就是说,如果F由很多n个独立的事实组成,那么,你如果只找到了个很小的P( Fk|a )是不能推断P( A | F)很大的。也就是说,如果这里有100万个事实,你找到了100个 令人质疑的事实 根本没用,除非你的那些令人质疑的事实的概率极其小 。 这也就是我们金融领域常说的data mining. 也就是,在同一个sample里不停的用各种方法去找股票的规律,最后你总能找到“一些”的规律,比如,“每个月的第一天股价总是上升的”之类的。你用统计方法做假设检验, t-value都好高,但是没用,因为你是先看到了Sample再做的检验。同理,方舟子把韩寒的资料不停的翻,不停的找,总能找出点什么异常的,但是这根本无法证明什么。除非方舟子可以做 out of sample test. 比如,方舟子用他的假设来推断一些事实存在于他还没看过的/不知道的韩寒的书,资料,或者事件,那才能算得上证据。不然的话,今天证明这个,明天证明那个,不过就是一个data mining 的游戏而已。,韩寒代笔之争,/note/200344586/ 【例四】假设有一个要证明韩寒作品有代笔的实验。 零假设:韩寒作品没有代笔 备择假设:韩寒作品有代笔 选择显著性水平=?(且预设检验力1-=?) 选择样本、收集数据,计算p值。 若p,则无法拒绝零假设。,红楼梦前80回与后40回作者之争,早在 1980 年,在美国威斯康星大学召开的“首届国际红楼梦研讨会”上,该校华裔学者陈炳藻教授首次报告了他在这方面的研究工作(见 4 , 5 ),此后还出版了专著(见 6 )。陈教授将红楼梦 120 回分为三组,每组 40 回,并将儿女英雄传作为对照组进行比较研究。他从每组中任取 8 万字,挑出名词、动词、形容词、副词、虚词这 5 种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现: 红楼梦前 80 回与后 40 回所用词汇的相关程度远远超过红楼梦与儿女英雄传所用词汇的相关程度,并由此推断:前 80 回与后 40 回均为曹雪芹一人所作。,红楼梦前80回与后40回作者之争,但是,我国华东师范大学陈大康教授得出了迥异的结论 (1987 , 7) 。他也把红楼梦 120 回分成三组,每组 40 回,并统计了其中所含词、字、句等 88 个项目。他发现,这些词在前两组出现的规律相同,而与后 40 回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后 40 回则迥异。由此推断:后 40 回非曹雪芹所作(但含有少量残稿) 本文以数据分析为基础,以统计学中“两个独立二项总体的等价性检验”为基本方法,很清楚明确地证明:红楼梦前 80 回与后 40 回在饮食与花卉的描写上确实存在非常显著的差异;在树木的描写上也存在明显差异。不过,这种差异还不能说明红楼梦前 80 回与后 40 回出自不同的作者。,数理统计在化学中的应用,统计学是“对令人困惑费解的问题做出数字设想的艺术。” -美国 David Freedman 统计学是一门处理数据中变异性的科学和艺术。 - John M.LastA Dictionary of Epidemiology 科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果,数理统计在化学中的应用,实验化学的基础是测量,实验化学学科作为一门实验科学,一直被认为是有着很大欠缺的,那就是欠缺严格性、逻辑性以及精确性的理论。 测量具有随机可变性、不确定性、模糊性。统计学可解决前两种问题.,数理统计在化学中的应用,测量的重要性,在美国芝加哥大学社会科学研究馆的正面,刻有这样一段铭文:“假若你不能测量,你的知识就是贫乏和不能令人满意的。” 实际上,这句话还应该这样来补充:“假如你只懂得测量,那么你对世界的认识将是可怜的。”,数理统计在化学中的应用,不能片面强调测量的精确性,长期以来,我们已习惯于把科学知识看成是许多确实无误的陈述的集合,化学中同样也是这样,充斥着决定论。 片面地追求所谓精确性,其结果只能是将认识过程中的某一部分加以近似化、简单化,最终常会走向形而上学,乃至神秘主义。,数理统计在化学中的应用,二.统计学的历史及作用,统计学的历史一般认为开始于十七世纪中叶,最初的统计学出现在德国和英国,被称为古典统计学。统计学的发展史上曾形成过记述学派、政治算术学派、数理学派这三个主要学派。十九世纪中叶,数理学派的代表人物比利时科学家凯特勒(L.A.J. Quetelet)将概率论正式引进到统计学中之后,也就开始了数理统计学的发展时期。,数理统计在化学中的应用,数理统计在科学研究中得到了极其广泛的应用,主要地是由于以下几个原因: 窥一斑而知全豹:科学实验的研究对象具体地只能是极小一部分样品,研究的最后结果也只能是从这一小部分样品的研究结果出发来作出统计推断,也就是运用数理统计方法推断出研究对象的全体来。 归纳规律:科学实验中不可避免地会存在着大量随机误差的问题,要从这些随机现象中去得出准确可靠的研究结果,这只能依赖于数理统计的方法和原理。 优化和试验设计:科学实验经常要进行各种条件试验,诸如合成路线、配方设计、工艺条件、寿命试验等等,这就需要运用统计的原理和方法来进行优化和实验设计。,数理统计在化学中的应用,数理统计在科学研究中得到了极其广泛的应用,函数关系:科学实验中总要研究各个变量之间的关系,并进而进行科学的预测和推断,而这些是离不开数理统计方法的应用的。 数据处理:随着现代科学研究的发展,各种测量仪器的计算机化给我们带来了“数据爆炸”,如何来处理这些大量的数据,并要能从这些数据中获取更多的甚至意想不到的信息,只有数学和统计学技术才能给我们以可靠的保证。,数理统计在化学中的应用,三.统计方法在化学中应用的意义,应该说化学这一学科基本上还是一门实验学科,因此化学工作者掌握数理统计的原理及其应用的必要性和实际意义也就显得尤为重要。只有正确地运用数理统计方法,才能够帮助我们在化学实验中,从表面杂乱无章的现象里去寻找出有意义的统计结论来;才能使我们能更有成效地进行各门化学领域中的科学研究,确保科学研究取得可靠、准确的结果并进而得以发现客观规律;才能使我们从大量的实验数据、实验资料中去揭示和获取更多的化学信息。,数理统计在化学中的应用,第一章 随机变量和分布函数,第一节 几个基本的统计学概念 1-1 总体和样本 1-2 随机现象 1-3 随机变量 离散型随机变量 连续型随机变量,数理统计在化学中的应用,第一章 第一节,$1.1 总体和样本 总体:满足指定条件的众多数据的集合 有限总体 无限总体 样本:从总体中抽取一部分实测的个体或单位的集合 容量:样本中含有个体的数目 样品:组成样本的每一单位或个体,样本,总体,样品,数理统计在化学中的应用,第一章 第一节,$1.1.1 必然事件与随机事件 必然事件:满足一定条件后一定发生或一定不发生的事件 随机事件:满足一定条件后不一定发生的事件,数理统计在化学中的应用,$1.1.2 频率和概率(几率),频率:,概率:,0 P 1 必然事件: P = 1 不可能事件:P = 0,数理统计在化学中的应用,Table 硬币投掷实验,数理统计在化学中的应用,第一章 第一节,$1.1.3 随机变量 实验中所可能出现的结果的量(X)。 离散型随机变量 随机变量的取值仅仅是有限个,或是可列的无穷多个。 连续型随机变量 随机变量的取值是充满某一区间的,并且落在任一区间的概率也是确定的。 随机变量所取的数值:x,$1.2 分布函数,第二节 分布函数 $1.2.1 分布函数的定义、类型和性质 $1.2.2 概率密度函数,数理统计在化学中的应用,$1.2 分布函数,$1.2.1 分布函数的定义、类型和性质 累积分布函数(Cumulative Distribution Function, CDF): 设x是一任意实数或事件,X取得小等于x的数值,的概率为P(Xx), F(x) (= P(Xx) )就称为随机变量X的累积分布函数,记为: F(x) = P(Xx),数理统计在化学中的应用,$1.2 分布函数,$1.2.1 分布函数的定义、类型和性质 对于任意实数x1, x2, 且x1 x2有, Px1xx2=Pxx2-Pxx1 = F(x2)-F(x1) 因此,若已知x的累积分布函数,就可以知道x落在任一区间(x1, x2)上的概率,在这个意义上说,累积分布函数完整地描述了随机变量的统计规律性。,数理统计在化学中的应用,$1.2.1,累积分布函数具有如下性质:,数理统计在化学中的应用,F(x)为增函数,当x2 x1时,F(x2) F(x1) F(x)为右连续,$1.2 分布函数,$1.2.2 概率密度分布函数(Probability Density Function, PDF) 对于一维连续实随机变量x,任何一个满足下列条件的函数f(x)都可以被定义为其概率密度函数:,数理统计在化学中的应用,显然,$1.2.3 概率质量函数,概率质量函数(Probability Mass Function, PMF): 是离散随机变量在各特定取值上的概率 概率质量函数和概率密度函数不同之处在于:概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。 离散随机变量概率质量函数的不连续性决定了其累积分布函数也不连续。,数理统计在化学中的应用,$1.2.4 平均值,期望值,偏差,方差,均值,期望值 平均值,数理统计在化学中的应用,X的期望值(expectation value),有时用来表示,如果x是连续型随机变量:,$1.2.3 量度数据离散程度(dispersion)的统计量,极差 一组数据中最大值和最小值之差,数理统计在化学中的应用,平均绝对偏差,方差(Variance) 样本方差,$1.2.3 量度数据离散程度的统计量,方差(Variance) 总体方差,数理统计在化学中的应用,标准差(Standard Deviation),相对标准差(Relative Standard Deviation),样本方差 S2 是对总体方差2的无偏估计,$1.2.3 量度数据离散程度的统计量,连续性随机变量的标准差,数理统计在化学中的应用,数理统计在化学中的应用,$1.3 化学中常用的分布函数,$1.3.1 二项式分布 $1.3.2 泊松分布 $1.3.3 麦克斯威尔分布,$1.3.1 二项式分布,每次试验只有两种可能结果而不受以前试验结果影响的分布。其中一种事件的概率p,另一种的概率q(1-q)。 如果在n次独立试验下,求A出现次数x的概率分布,这一分布的概率质量函数即为: P(x) = Cnx px qn-x (x = 0,1,2 n,0p1 ) 这个概率函数给出的分布就叫做二项式分布,即二项式(p+q)n的展开式。二项分布常用于军事射击和工业检查中,在化学中可用于计算质谱中同位素峰的强度比以及根据塔板理论推导气液色谱的流出曲线。,数理统计在化学中的应用,二项式分布,数理统计在化学中的应用,例1-2色谱的塔板理论,(一)塔板理论的四个基本假设 1在柱内一小段高度内组分分配瞬间达平衡(H理论塔板高度) 2载气非连续而是间歇式(脉动式)进入色谱柱,每次进气一个塔板体积 3样品和载气均加在第0号塔板上,且忽略样品沿柱方向的纵向扩散 4分配系数在各塔板上是常数 根据塔板理论,待分离组分流出色谱柱时的浓度沿时间呈现二项式分布,当色谱柱的塔板数很高的时候,二项式分布趋于正态分布。,杨世钺, 色谱法溶质以二项式展开分布的简明推导, 化学通报, 1989, 02, 47-49.,例1-3,有一化学药品的混合过程在正常情况下会有10%的可能混合不合格,今在一批药品中抽验8个样品,发现有2个不合要求,检验员欲拒收整批药品,试问这一决定是否正确?,数理统计在化学中的应用,解: P(x=2) = Cnx px qn-x = C82 0.12 0.910-2 = 0.149 计算表明,在总体合不格率为10%的情况下抽检出两个不合格的概率为14.9%,因此不应拒收这批药品。,数理统计在化学中的应用,$1.3.2 泊松分布,当某事件出现的概率很低(P1)时,二项分布就成为泊松分布。由法国数学家Poisson于1838年发表。 泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。,泊松分布,泊松分布的概率质量函数为: (x = 0,1,2,为参数) : 单位时间(或单位面积)内随机事件的平均发生数 性质: x的期望值等于方差即: = = 2:,数理统计在化学中的应用,数理统计在化学中的应用,PMF,CDF,数理统计在化学中的应用,例1-4 400ml微生物溶液中含微生物的浓度是0.5只/毫升,抽出1毫升,其中所含微生物的只数x服从什么分布?含3只及3只以上微生物的可能性有多少? 解:溶液中总共有微生物n = 0.5400 = 200只,每一只微生物落入抽检的1毫升溶液中的概率p = 1/400,不落入的概率q = 399/400。如看有几只微生物落入抽检的1毫升溶液中就相当于一个n = 200时的独立试验模型,所以x服从二项分布。,数理统计在化学中的应用,由于 = np = 0.5比较小,可以用泊松分布来近似计算。 P(n3) = 1 - P(n3) = 1 - P(n=0) - P(n=1) - P(n=2) = 1 e-0.5 0.5e-0.5 0.52e-0.5 /2 = 1 - 0.6065 - 0.3033 - 0.0758 = 0.0144 因为概率很小,在0.5只/毫升条件下,抽检1毫升是不大可能发现3只或3只以上的。如真抽到,就说明并不是这个浓度,而是大大超过了.,数理统计在化学中的应用,$1.3.3 麦克斯威尔分布,直角坐标下速度的概率密度分布,球坐标下速度的概率密度分布,速率的概率密度分布,数理统计在化学中的应用,第二章 正态分布 $2.1 频率和概率,数理统计在化学中的应用,数理统计在化学中的应用,数理统计在化学中的应用,图2-1 测量数据的频率密度直方图。,数理统计在化学中的应用,图2-1 频率密度分布逐渐接近正态分布示意,数理统计在化学中的应用,$2.2 正态分布( 高斯分布)与正态曲线,假设在一定条件下,对某一个量x进行无限多次重复的等精度测量,得到一系列数据x1,x2, xn,则各测量值的频数密度分布将会从锯齿形图(见直方形图)转变成为一条平滑的曲线,该曲线的分布就称为正态分布。因为随机误差是服从正态分布的,所以正态分布又常称为(随机)误差分布。,数理统计在化学中的应用,正态分布的历史,正态分布最早是棣莫佛在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的分析概率论中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛拉普拉斯定理。 拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。 正态分布这个名字还被Charles S. Peirce, Francis Galton, Wilhelm Lexis在1875分别独立的使用。这个术语是不幸的,因为它反应和鼓励了一种谬误,即很多概率分布都是正态的。 这个分布被称为“正态”或者“高斯”正好是Stigler名字由来法则的一个例子,这个法则说“没有科学发现是以它最初的发现者命名的”。,数理统计在化学中的应用,中心极限定理 数学家们对正态分布曲线做了将近有300年的研究,证明了当每次测量都受到很多微小随机因素的影响时,测量的总误差就具有正态分布,当然对于这种断定不应在没有证据的情况下就予以接受。 统计学告诉我们,只要测量的次数n足够多,样本平均值的分布总可服从正态分布,而不论它原来是什么分布。这就是中心极限定理。 中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。,二项式,泊松,数理统计在化学中的应用,智商分布曲线,IQ test: http:/www.iqtest.dk/main.swf,IQ,Richard Herrnstein and Charles Murray The Bell Curve (1994) 智商70%左右来源于遗传,和环境关系不大 Leon J. Kamin (1927-) Now: Indiana University Chairman (1968): Department of Psychology at Princeton University The Science and Politics of IQ (1974),IQ and Race,In his 2006 book Race Differences in Intelligence Lynn adopted the ten-category classification scheme of human genetic variation introduced in The History and Geography of Human Genes by Luigi Cavalli-Sforza and colleagues. Lynn argues that mean IQ varies by genetic clusters, or “race“. According to his calculations, the East Asian cluster (Chinese, Japanese and Koreans) has the highest mean IQ at 105, followed by Europeans (100), Inuit-Eskimos (91), South East Asians (87), Native American Indians (87), Pacific Islanders (85), South Asians & North Africans (84), sub-Saharan Africans (67), Australian Aborigines (62), and Kalahari Bushmen & Congo Pygmies (54).360,数理统计在化学中的应用,正态分布:通常用N(,2)来表示总体平均值(期望值)为 ,方差为2的正态分布。 正态分布概率密度函数(PDF) f(x)又叫正态分布曲线,由下式来表示:,.,,,数理统计在化学中的应用,累积概率分布函数(CDF),数理统计在化学中的应用,$2.2.3 正态分布的性质,从图2-3 可以看到,正态曲线的形状是由决定的,而决定曲线的位置。,累积分布函数(CDF),数理统计在化学中的应用,68,95,99,2,3,2,3,f(x),x,数理统计在化学中的应用,$2.3 标准正态分布和概率的计算,讨论正态分布曲线 令u = (x-)/,则,记当=0; 2=1时的正态分布,称为标准正态分布,记为N(0,1),数理统计在化学中的应用,$2.3 标准正态分布和概率的计算,因此:,u = (x-)/,du = dx/,数理统计在化学中的应用,正态分布表:,数理统计在化学中的应用,第三节 概率的计算 例2-2 设随机变量X服从N(, 2),试计算下列范围中的概率 (1) (-, +); (2) (-2, +2); (3) (-3, +3);,数理统计在化学中的应用,例2-3根据资料,30-40岁男子血清胆固醇值(mmol/l)极近正态分布N(4.72,0.77), 试求:该年龄健康男子血清胆固醇值(1)大于6.20的概率;(2)大于4.00且小于5.50的概率。,数理统计在化学中的应用,数理统计在化学中的应用,第四节 和正态分布有关的一些样本分布,自由度,统计学上的自由度(degree of freedom, df),是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自由度。这里我们用k或v来表示。 例如,在估计总体的平均数时,样本中的k个数全部加起来, 其中任何一个数都和其他资料相独立,从其中抽出任何一个数都不影响其他资料(这也是随机抽样所要求的)。 因此一组资料中每一个资料都是独立的,所以自由度就是估计总体参数时独立资料的数目,而平均数是根据k个独立资料来估计的,因此自由度为k。,数理统计在化学中的应用,学生t-分布(Students t-distribution),实际工作中,难以做到测量无限多的样本。在小样本的情况下,未知,如果用测定样本所得到的标准偏差S来代替,此时测量值及其偏差就不再符合正态分布了。 1908年,英国统计学家W.S. Gosset证明了:在未知而以样本的标准差S去代替时,此时遵守的将是t-分布。 若x1,x2, xn是由服从正态分布的总体中随机抽取的样本值,,数理统计在化学中的应用,那么统计量,如果知道总体平均值,即期望值,和标准差,则可定义:,t-分布的几率密度分布函数,v是自由度 注意:对于一个容量是n的样本,其v=n-1。,数理统计在化学中的应用,t-分布的概率密度函数(PDF),数理统计在化学中的应用,t-分布的累积分布函数(CDF),数理统计在化学中的应用,t-分布的应用t检验(Students t-test),学生t分布应用在当对呈正态分布的母群体(总体)的均值进行估计。它是对两个样本均值差异进行显著性测试的学生t检验的基础。t检验改进了Z检验(Z-test),不论样本数量大或小皆可应用。在样本数量大(超过120等)时,可以应用Z检验,但Z检验用在小的样本会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论