气候统计PPT演示课件_第1页
气候统计PPT演示课件_第2页
气候统计PPT演示课件_第3页
气候统计PPT演示课件_第4页
气候统计PPT演示课件_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章基本气候状态的统计量,Part2理论概率分布,1,学习目标,掌握理论分布的含义;了解气候问题中常见的理论分布;学会通过查表的方式计算连续理论分布的累计概率值;,2,背景,在上一节,我们主要介绍了经验性的概率分布;本节介绍采用数学形式来表征一组气象数据,这种数学形式代表的是理想(理论)的数据分布特征;值得我们思考的是,理论分布实际上是比较抽象的,对于实际的数据也只是近似的表征,为何我们仍然要用理论分布来探讨气象数据的基本特征?,3,理论分布的优势,1压缩性(简洁性):我们用几个参数便可以很好的描述气象数据,而不必对大量的数据进行繁琐的重复操作(经验分布);2平滑以及内插:实际的气象数据并不是完全连续的,理论分布使得数据分布更加平滑(不易受到异常点的影响),同时也可以了解观测中缺失点数据的出现概率,从而对缺失点的数据进行了插值处理;,4,理论分布的优势,3外推:理论分布可以帮助我们判断气象数据两侧没有数据值的数据点可能的发生概率。但理论分布不能脱离实际数据本身,实际数据决定采用何种理论分布、参数的选取以及拟合效果的分析。,5,什么是理论分布(参数化分布)?,一种抽象的数学形式,或特征形态;由某些特定的值确定,又称“参数分布”;这些参数可以决定分布的特征。,6,理论分布中的参数,参数常与样本统计量混淆;参数:是某一特定分布的抽象特征的诠释,简洁地代表的了统计概念中总体数据的特征;统计量:由样本计算得到的任何量;引起混淆的主要原因是,通常一些常用的样本统计量是分布参数的一个很好的估计值。,7,离散相对于连续,离散和连续均是理论分布的两种具体的表达形式;离散分布描述的是随机变量具有特定值,这些值是有限的,或者是无限可数的;连续的随机变量可以是某一实数段内的任何值;,8,离散相对于连续,虽然严格而言,采用连续分布则意味着观测数据量相当大的,但实际对于某些离散观测的变量采用连续分布是可行的;气象中的数据,如温度和降水,虽然观测结果是离散的数值,但它们可以是某一段数据中的任何值,因此,我们因此可以把它们视为连续数据。,9,离散分布二项式分布(1),最简单的理论分布;在实验中,可能发生2个相互独立的事件,如“成功”/“失败”,0/1等等;随机变量X,做N次实验(假定每次实验发生的事件为0或者1)。则N次实验后,X可能的值为从0(我们想要的结果从未发生)到N(每次实验都得到我们想要的结果),即N+1个可能的值;在得到以上结果时,必须满足2个条件:事件发生的概率不随实验变化;每次实验发生的事件(成功或者失败)是相互独立的。,10,离散分布二项式分布(2),最简单的,最直接的关于二项式分布的例子为“投掷硬币”,假定出现两种事件(“head”或者“tail”)的概率均为0.5且这个概率在每次实验中均不发生改变;同时投掷N1个硬币,出现heads或者tails彼此不联系(不影响)。这就满足二项式分布的所有条件:两种事件(结果是二分类的)、且相互独立,同时事件发生的概率为常数。,11,离散分布二项式分布(3),二项式分布公式为公式分为两部分组合部分,给出在N组实样中实现个我们感兴趣的结果的所有可能组合;概率部分,满足概率中的乘法定律。,12,离散分布二项式分布(4),使用二项式分布要注意:对于周期变化的事件,如大气中的雷暴或者闪电等事件,这些事件的发生率存在日以及年变化,而同时也存在更小时间尺度(小时(相对于日)以及月-(相对于年)的变化,对于这些更小尺度的变化应作单独分析;气象数据中(如日降水发生与否),日-日之间的存在较强的依赖性,即日发生事件之间不完全独立,但对年-年事件则可视为完全独立的。,13,离散分布二项式分布(5),二项式分布中参数p=0.5,则二项式分布是对称的,否则为不对称分布;但参数n越大,非对称性越不明显;,14,离散分布二项式分布(6)-例子,Cayuga湖结冰事件两个事件:结冰(感兴趣事件)不结冰;具体年份的结冰事件之间相互独立;给定年份中湖面结冰的概率为常数;,到1994年止,200年中曾经结冰的年份,在满足二项式分布条件的前提下,如何得到参数p和N的值?,15,离散分布二项式分布(6)-例子,p是湖面在任何一年中可能结冰的概率最直接的办法:计算相对频率,p=10/200=0.05N具有独一无二的特点,其值的确定依赖于我们所要分析的问题:如果我们想知道下一年或者未来某一年湖面结冰的概率如何,则N=1,即Bernoulli分布;如果我们想知道未来10年中至少有一年结冰的概率如何,则N=10,16,离散分布Bernoulli分布,Bernoulli分布,即0-1分布;随机变量的取值只能为2个数,即0与1;其概率分布公式为:,17,JacobBernoulli,Born:27Dec1654inBasel,SwitzerlandDied:16Aug1705inBasel,Switzerland,伯努利资料,18,离散分布二项式分布(6)-例子,Case1:10年中仅出现一次结冰事件的概率Case2:10年中至少出现一次结冰事件的概率,19,离散分布几何分布(1),几何分布与二项式分布类似之处在于:每次实验只可能发生两种事件,如“成功”或者“失败”;事件(“成功”或者“失败”)的概率不随实验次数发生变化;每次实验之间是相互独立的。不同之处:二项式分布,给出成功事件(X)可能发生的概率;几何分布,又称为“等待分布”,即第一次成功前失败的次数。,20,离散分布几何分布(2),几何分布公式在气象中,可以用来描述我们期待的现象发生前某段天气现象的持续过程,WaymireandGupta(WaterResour.Res.,1981)用该分布分析出现的湿润事件前的一段连续干旱过程。,21,关于泊松分布,历史上泊松分布是作为二项分布的近似,于1837年由法国数学家Poisson引入的,近数十年来,泊松分布日益显示其重要性,成了概率论中最重要的几个分布之一。它常与单位时间(或单位面积、单位产品等)上的计数过程相联系。在实际应用中许多随机现象服从泊松分布。这种情况特别集中在两个领域中。一是社会生活,对服务的各种要求:诸如在单位时间内,电话交换台中来到的呼叫数,公共汽车站来到的乘客数等等都近似地服从泊松分布,因此在运筹学及管理科学中普阿松分布占有很突出的地位;另一领域是物理学,放射性分裂落到某区域的质点数,热电子的发射,显微镜下落在某区域中的血球或微生物的数目等等都服从泊松分布。因此泊松分布的应用十分广泛。,22,Born:21June1781inPithiviers,FranceDied:25April1840inSceaux(nearParis),France,SimonPoisson,23,离散分布Poisson分布(1),Poisson分布单位间隔(如单位时间、单位空间)内等事件发生次数的分布例如台风季节内台风发生的次数的概率、可能的干旱或冷时段的发生率如沿高速公路加油站的数量或者某一地区出现冰雹的分布特征;事件发生次数依赖于所选择的单位间隔。,24,离散分布Poisson分布(2),Poisson分布相对于二项式分布的优点:二项式分布要求事件发生的条件是严格独立的,气象数据很难严格满足这个条件,而Poisson分布可用于分析依赖程度(相关性)不高的事件;当p趋近于0或者N趋向于无限大时,二项式分布失去使用的价值;Poisson分布也只有一个参数,也称为强度,该参数通常取值为平均发生率。,25,离散分布Poisson分布(3),Poisson分布公式:0到无限可数,但当该数很大时,概率会非常小()常用矩估计法来取值,一阶矩-平均值(单位间隔内),26,离散分布Poisson分布(4),Poisson分布为非对称分布;但当参数越大时,则非对称性越不明显;,27,离散分布Poisson分布(5)例子,1958-1988年NewYork观测到的龙卷数,28,统计期望,什么是期望:一个随机变量或者随机变量的函数的数学期望值简言之就是它们的权重平均。如何实现:几乎是不可能实现的。如何获得权重:统计期望与概率分布密切联系,概率分布给出了权重平均的权重或权重函数。,29,试问哪个射手技术较好?,例1谁的技术比较好?,30,故甲射手的技术比较好.,设甲、乙射手击中的环数分别为,(环),(环),31,统计期望离散随机变量的数学期望,数学期望的公式::的分布的平均值;分布(或总体)的平均值通常用表示。可计算得到:二项式分布:几何分布:Poisson分布:,32,说明,是一个实数,而非变量,它是一种加权平均,与一般的平均值不同,它从本质上体现了随机变量取可能值的真正平均值,也称均值.,33,常见离散型随机变量的数学期望,34,统计期望随机变量函数的数学期望,数学期望符号体现的是线性关系符号;随机变量函数的数学期望的特点:,35,统计期望方差,函数的数学期望方差:,36,连续分布(1)PDF的定义,连续随机变量概率的计算需要对概率密度函数(probabilitydensityfunctions,PDFs,通常用表示)进行积分。,只有满足该式的函数才可称之为概率密度函数。对应所有的,必须为非负值。大气中的很多变量,如温度、降水量、位势高度、风速等通常作为连续变量。,37,连续分布(2)概率的计算,连续随机变量的概率正比于概率密度函数所覆盖的面积;计算随机变量的概率是没有意义的,随机变量的取值是连续的,因此精确计算的概率是一个无限小量,因此,通常计算随机变量某段取值范围内的概率才有意义。,38,连续分布(3)CDF,累计分布函数(cumulativedistributionfunction,CDF)随机变量不超过某个值时的概率。CDF用描述为:,39,连续分布(4)CDF,在已知随机变量的累计概率的情况下,可以进行反变换,得到该累计概率对应的随机变量的取值:,40,连续分布(5)统计期望,随机变量函数的统计期望:若(数学期望):若(方差):,41,Gaussian分布(1)又称正态分布,由deMoivire(1667-1754)在1733年首次发现;有Laplace(1749-1827)和Gauss(1777-1855)在他们的天文测量误差研究中再次发现;命名为Gaussian分布。,42,Gauss,Gauss是德国数学家,与Newton、Archimedes共誉为有史以来的三大数学家。Gauss在数论、代数学、非欧几何、复变函数和微分几何等方面都做出了开创性的贡献。他还把数学应用于天文学、大地测量学和磁学的研究,发明了最小二乘法原理。,43,卡尔.比尔逊(Karl.Pearson)英国统计学家,“很多年以前,我将Laplace-Gauss曲线称为正态曲线。对于这个名称,尽管它避免了一个优先权的国际问题,但是它有一个缺点:让人们认为其他所有频率分布都是一样的或者是非正态的。当然,这种想法是没有理由的”Karl.Pearson1920,44,Gaussian分布(2)与中心极限定律,在随机变量的一切可能的分布规律中,正态分布占有特殊重要的地位;实际工作中,常遇到大量的随机变量均服从正态分布;原因就是中心极限定律;,45,Gaussian分布(2)与中心极限定律,满足中心极限定律,即当样本量很大时,一组独立试验的和或者算术平均满足Gaussian分布。实际分析中,“独立性”的条件可以不满足,因此中心极限定律可用于大气数据中。,46,Gaussian分布(2)与中心极限定律,很难知道样本量具体多大才满足中心极限定律,但如果所分析的数据满足Gaussian分布,则这些数据中的任何数据值(甚至对于n=1)的和都将满足Gaussian分布。例如:日温度的平均月平均温度。,47,Gaussian分布(3)公式,概率密度函数为:参数:的可能取值:,48,Gaussian分布(4)图形(钟型曲线),平均值位于对称分布的中心;标准差控制了分布的离散程度,通常概率集中在相对平均值的范围内。,采用矩(moments)的方法计算参数;平均值:标准差:,49,参数的不同决定Gaussian分布的图形,50,参数的点估计,矩估计法极大似然法,51,矩估计法,其基本思想是用样本矩估计总体矩.,理论依据:,它是基于一种简单的“替换”思想建立起来的一种估计方法.,是英国统计学家K.皮尔逊最早提出的.,大数定律,52,大数定律,事件发生的频率收敛于事件的概率,该定律表达了频率的稳定性。即当样本量n很大时,事件发生的频率与概率有较大偏差的可能性很小。则在实际应用中,当试验次数很大时,便可以用事件发生的频率来代替事件的概率。,53,解,54,解,55,解方程组得到a,b的矩估计量分别为,56,矩法的优点是简单易行,缺点是,当总体类型已知时,没有充分利用分布提供的信息.一般场合下,矩估计量不具有唯一性.,57,矩估计,Gaussian分布的矩估计就是,58,计算Gaussian分布的概率,Gaussian分布公式不可解析积分,可用数值积分。也可借助Gaussian分布CDF表查询得到。以上两种方法都要求首先标准化Gaussian分布,标准化后的Gaussian分布具有的特征是:,59,标准化Gaussian分布,标准化后的Gaussian分布PDF为:实际应用中:,60,Gaussian分布(6)举例说明,61,长期平均一月气温,62,标准差,63,64,65,二维Gaussian分布,考虑两个变量x和y,则二维正态分布的PDF为:,66,二维Gaussian分布,上述函数给出了x-y平面下的正态分布PDF的形状,其体积对应于累计概率;该PDF必须满足:,67,二维Gaussian分布,固定x或y对应的f(x)或f(y)应各自满足正态分布;通常满足正态分布的f(x)或f(y)构成的二维分布为正态分布,但并不完全如此;二维正态分布的参数分布可以由样本的均值、标准差以及相关值估计得到。,68,二维Gaussian分布,二维正态分布的5个参数可以决定其形状;其峰值点位于点处;参数和分布确定在x和y方向PDF的伸缩;,69,二维Gaussian分布,若,则PDF以点为轴对称形,则对于x和y,同一f(x,y)构成同心圆,否则为同心椭圆;当x和y相关的绝对值增加,则PDF呈对角形拉伸;,70,二维Gaussian分布,Perspectiveviewofabivariatenormaldistributionwithx=y,and.Theindividuallinesdepictingthehumpofthebivariatedistributionhavetheshapeofthe(univariate)Gaussiandistribution,illustratingthatconditionaldistributionsofxgivenaparticularvalueofyarethemselvesGaussian.,71,二维Gaussian分布,72,二维Gaussian分布,概率计算:,73,二维Gaussian分布,二维正态分布的一个有用之处为,可以计算在给定一个变量的情况下,计算另一个变量的条件分布;当给定y,x的条件正态分布参数为:,74,二维Gaussian分布,上述条件分布参数表明:已知y的情况下,可以提供关于x的一些信息,减少有关x的不确定性(x的标准差减小);则相关系数的平方解释为可以由y解释的x的变化的比例;,75,二维Gaussian分布,例如:IthacaandCanandaigua1987年一月两地的最高温度近似正态分布,且两者相关程度高();则已知一点温度信息的情况下,可以很好的提供另一点的温度信息;,76,二维Gaussian分布,Gaussiandistributions,representingtheunconditionaldistributionfordailyJanuarymaximumtemperatureatCanandaigua,andtheconditionaldistributiongiventhattheIthacamaximumtemperaturewas25F.Thehighcorrelationbetweenmaximumtemperaturesatthetwolocationsresultsintheconditionaldistributionbeingmuchsharper,reflectingsubstantiallydiminisheduncertainty.,77,二维Gaussian分布,则,如果知道Ithaca的最高温度为25F的情况下,估计Canandaigua最高温度不高于结冰点的概率:条件分布:对应于概率为0.984非条件分布:对应于概率为0.510,78,Gamma分布(1)定义,气象中很多变量的数据分布是非对称的,如降水量(右偏分布)。Gamma分布可以较好的描述降水量的分布。Gamma分布的PDF:为形状参数,为尺度参数其中为Gamma函数具有的性质为:,79,Gamma分布(2),可以决定Gamma分布的形状,PDF,CDF,80,81,Gamma分布(2),形状参数:,分布具有很强的右偏性;,在x=0时,PDF在垂直轴处相交,即指数分布;,PDF通过原点,f(0)=0增大,则右偏性减弱,当其取值大于50-100后,接近正态分布。,82,Gamma分布(2),尺度参数:决定PDF的伸缩;与x同量纲;增大,则PDF向右拉伸,而分布的高度必然降低;减小,则PDF向左收缩,而分布的高度必然升高。,83,Gamma分布(3)参数估计,可用矩估计方法,但效果差,尤其是当较小时。多采用极大似然法(maximumlikelihood)估计。方法1(Thom,1958):方法2(GreenwoodandDurand,1960):,84,极大似然法,它是在总体类型已知条件下使用的一种参数估计方法.,它首先是由德国数学家高斯在1821年提出的.,Gauss,Fisher,然而,这个方法常归功于英国统计学家费歇.,费歇在1922年重新发现了这一方法,并首先研究了这种方法的一些性质.,85,极大似然法的基本思想,先看一个简单例子:,一只野兔从前方窜过.,是谁打中的呢?,某位同学与一位猎人一起外出打猎.,如果要你推测,,你会如何想呢?,只听一声枪响,野兔应声倒下.,86,你就会想,只发一枪便打中,猎人命中的概率一般大于这位同学命中的概率.看来这一枪是猎人射中的.,这个例子所作的推断已经体现了极大似然法的基本思想.,87,若在一次试验中,结果,88,89,Gamma分布(4)标准化,Gamma分布也可以做标准化处理,即标准化公式:不变,无量纲,90,91,92,93,指数分布,Gamma分布的特例之一;当时,Gamma分布可退化为指数分布,其PDF为CDF(解析上是可积分的),94,指数分布,在大气科学中常用来分析雨滴大小的分布特征,即drop-size分布;当用于上述分析时,也是Marshall-Palmer分布,即以雨滴数量(其为雨滴直径的函数)的分布;该分布特别重要的应用是在雷达上的应用。,95,Chi-suqare分布,Gamma分布的另一个特例是Chi-suqare分布;即的分布;其PDF为其中为自由度;具体可见统计显著性检验。,96,对数正态(Lognormal)分布,大气科学中常用于分析云的变化,多用于水文分析。PDF为Gaussian分布参数估计,可用log转化计算的平均值()和方差(),再利用关系式计算:也可转化为标准Gaussian分布计算:遵循的Gaussian分布,97,Beta分布(1),所描述的变量集中在0到1之间,如云量、相对湿度以及日降水概率的变化。PDF,PDF,CDF,98,99,Beta分布(2),参数估计(矩估计法):得到:Beta分布也可用于间隔为,则:,100,极端值分布,极端值就是指较少发生、异常大的数据;由于这些数据密切联系社会经济等各个方面,以及科学家们往往对这些极端事件的产生有非常高的兴趣而得到广泛关注;极端数据的选择,类似于将数据分为一些段(block),每段包含m个数据,选择其中最大的值;如20年最高温度、年最大日降水量等多年极端数据构成的极端样本,m=365,n=20;,101,极端值分布,极端类型定律(ExtremalTypesTheorem)表明:无论观测数据本身来自于何种固定或单个分布,当独立观测的次数足够多(m的个数),则来自于观测的极端值将遵循某种分布;这一理论就是极端值类型理论,该理论类似于中心极限定律用于正态分布;这个方法同样可以用于分析极端最小值,即,102,广义极端值分布Generalizedextremevalue(GEV),PDF为:包含三个参数:Location(orshift):Scale:Shape:,103,广义极端值分布Generalizedextremevalue(GEV),GEV分布的CDF为(解析上是可积分的):百分率转换公式:,104,Gumbel分布(Fisher-TippetttypeI)极端值分布,描述极端事件的变化,如过去30年某站点7月的日最高温度的最大值。当GEV分布中,则为Gumbel分布PDF,105,Gumbel分布(Fisher-TippetttypeI)极端值分布,CDF(解析上是可积分的)参数的估计(矩估计法),106,Gumbel分布(Fisher-TippetttypeI)极端值分布,107,Fisher-TippetttypeII极端值分布,GEV分布类型二,该类型分布的PDF对于较大的x值下降较为缓慢,即“heavytail”;这种类型的分布对应的一些矩是无限的,即无法固定;且累计概率对应的百分位数对应的取值将相当大;,108,Fisher-TippetttypeII极端值分布,109,Weibull分布(Fisher

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论