水文统计课件_第1页
水文统计课件_第2页
水文统计课件_第3页
水文统计课件_第4页
水文统计课件_第5页
已阅读5页,还剩155页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章、水文统计学随机变量及其分布参数水文中常用的概率分布曲线统计参数估计方法相关分析水文时间序列分析第四章、水文统计学随机变量及其分布参数1学习要求:(1)了解概率、随机变量及其概率分布的基本概念;

(2)了解水文频率曲线常用的线型,要掌握P-III型分布曲线和经验频率曲线的性质和计算方法;

(3)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;

(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、曲线相关的方法和具体步骤;(6)水文过程的随机模拟。

学习要求:

2水文现象具有二重性:水文现象包含着必然性水文现象也包含着偶然性,对水文的偶然现象(或称随机现象)所遵循的规律一般称做统计规律。物理成因分析法概率论和数理统计分析方法水文现象具有二重性:水文现象也包含着偶然性34.1.1概率的基本概念与定理1.事件:是指随机试验的结果。事件有两种属性:

数量性质:直接测量的量或计算的量,如年降雨量,年径流量...

属性性质:

直接观测到的现象,如天气的雨天和晴天,婴儿性别,钱币的正面和背面...4.1.随机变量及其分布参数4.1.1概率的基本概念与定理4.1.随机变量及其分41)必然事件2)不可能事件3)随机事件事件可以分为三种类型:2.概率

为了比较某随机事件出现(或不出现)的可能性大小,必然赋予一种量化的(以数量表示)指标,这个数量指标就是事件的概率。1)必然事件事件可以分为三种类型:2.概率5

式中,P(A):一定条件下随机事件A的概率;

n:试验中所有可能的出现的结果数;

m:出现随机事件A的结果数。简单(古典)的随机事件的概率定义用下式表示:古典的随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质。 式中,P(A):一定条件下随机事件A的概6对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。设事件A在n次随机试验中出现了m次,则称:3.频率为事件A在n次试验中出现的频率。注意:n

不是所有可能的结果总数,仅是随机试验的次数。对于不是古典概型事件,只能通过多次重复试验来估计事件7频率:

频率是通过若干次试验后才能求得的经验值,事先不能确定,当试验次数n愈大,即当n趋于无穷大时,理论上,n变成试验中所有可能的结果总数,则频率愈接近概率。概率和频率的区别:概率:

在等可能条件下,表达事件客观上出现的可能性大小,是一个理论值。频率:概率和频率的区别:概率:

在等可能条件81.随机变量

用以表示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。4.1.2.随机变量及其分布参数1.随机变量4.1.2.随机变量及其分布参数9

总体

在统计数学中,把某种随机变量所取数值的全体,称为总体。如年径流量的总体数是无穷的。统计学中几个概念:

样本

从总体中不带主观成分任意抽取的一部分,称为样本。样本所包含的项数,称为样本容量。如实测的水文资料是有限的,是一样本。总体统计学中几个概念:样本10

它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作X,而随机变量的可能取的值记作x,即:

X=x1,X=x2,

X=xn

一般称之为随机系列或随机数列。

随机变量的表示:它是指随机试验结果的一个数量。在水文学中,常用大写字11离散型随机变量

随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0,1,2…,不能取相邻两数值之间的任何值。随机变量的分类:连续型随机变量

随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0~极限值之间的任何实数值。离散型随机变量随机变量的分类:连续型随机变量12对于离散型随机变量:

随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:2.随机变量的概率分布

上式中P1,P2,…Pn

表示随机变量X

取值x1,x2,…xn

所对应的概率。对于离散型随机变量:2.随机变量的概率分布13

x1x2x3x4……xnXP

离散型随机变量概率分布图一般将这种对应关系称作随机变量的概率分布规律,简称为分布律。可以用以下的分布图形表示:x1x2x3x4…14

由于它的所有可能取值有无限个,而取个别值的概率为零,故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:

它是x的函数,称作随机变量X的分布函数,记作F(x),即F(x)=P(Xx)

表示随机变量X大于或等于值

x的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。

对于连续型随机变量:由于它的所有可能取值有无限个,而取个别值的概15

由图中可知,X=900,相应的P(Xx)=0.15,说明大于900mm降雨的可能性为15%;同理,大于500mm降雨的可能性为60%00.20.40.60.81.0500900年降雨量(mm)某站年雨量概率分布曲线

P(Xx)由图中可知,X=900,相应的P(Xx)=16

P(Xx)=P(X>x+x)+P(x+x>Xx)

P(x+x>Xx)=P(Xx)-P(X>x+x)=F(x)-F(x+x)

(8-1)由概率的加法定理:则,降雨量落在900和500mm的可能性为:60%-15%=45%

x

x+

x

PXP(Xx)P(X>x+x)随机变量X落在(x,x+x)

的概率可用下式表示:

P(Xx)=P(X>x+x)+17平均概率密度:

随机变量落在区间(x,x+x)的概率与该区间长度的比值称作随机变量落在区间(x,x+x)平均概率。概率密度函数:平均概率密度:随机变量落在区间(x,x+x)18称f(x)为概率密度函数,简称密度函数。而密度函数的几何曲线称作密度曲线。当x

0,取极限得:称f(x)为概率密度函数,简称密度函数。当x019f(x)f(xi)F(x)xi密度曲线分布曲线xxdxf(x)f(xi)F(x)xi密度曲线分布曲线xxdx20通过密度函数f(x)可求出随机变量X落在(x~x+dx)区间即dx上的概率=f(x)dx,称之为概率元素,即为图中的阴影面积;通过密度函数f(x)可求出随机变量X概率分布函数F(x),其与密度函数f(x)有如下的数学关系:通过密度函数f(x)可求出随机变量X落在(x~x+dx21

F(x)分布函数,反映随机变量X超过某个值x的概率。这两个函数能完整地描述随机变量的分布规律。

f(x)密度函数,反映随机变量X落入dx区间的平均概率;可见,随机变量的二个函数:

F(x)分布函数,反映随机变量X超过某个值x的22

在实际问题中,随机变量的分布函数不易确定,或有时不一定需要用完整的形式来说明随机变量,而只要知道其主要特征就可以。随机变量的分布函数和密度函数中都包含一些参数(如均值、变差系数、偏态系数),而这些参数能反映随机变量分布的特点:如有的分布集中,有的分布分散,有的分布对称,有的分布非对称,等等。在统计学中用以表示随机变量这些分布特征的某些数值,称之为随机变量统计参数。3.随机变量统计参数在实际问题中,随机变量的分布函数不易确定,或有时不一23平均数/数学期望离散型随机变量的平均数是以概率为权重的加权平均值。a.反映位置特征参数

对于离散型随机变量:平均数/数学期望离散型随机变量的平均数是以24

式中,a、b分别为随机变量X取值的上下限。

数学期望或平均数代表整个随机变量的总水平的高低,它为分布的中心。

对于连续的随机变量:式中,a、b分别为随机变量X取值的上下限。25

表示概率密度分布峰点所对应的数。对于离散型随机变量:

M0(x)

是使概率P(=xi)等于最大时所相应的xi值。M0(x)=xiPi-1PiPi+1

Px离散型随机变量的众数众数,记为M0(x)表示概率密度分布峰点所对应的数。M0(x)=26M0(x)是概率密度函数f(x)等于最大时所对应的xi值M0(x)f(x)x连续的随机变量的众数对于连续型随机变量:M0(x)是概率密度函数f(x)等于最大27把概率密度分布分为二个相等部分的数。对于离散型的随机变量:

将所有变量的可能取值按大小次序排列,位置居中的数字。中位数,记为Me(x)把概率密度分布分为二个相等部分的数。中位28对于连续的随机变量中位数满足:式中,a,b分别为随机变量X取值的上下限Me(x)xf(x)1/21/2ab对于连续的随机变量式中,a,b分别为随机变量X29

该参数用以反映随机变量分布离散程度(相对于随机变量分布中心即平均值的差距)的指标,通常有以下几种:b.反映离散特征参数

值愈大,分布愈分散;值愈小,分布愈集中。

标准差(均方差)

(Standarddeviation)(8-6)122>1f(x)x标准差对密度函数的影响该参数用以反映随机变量分布离散程度(相对于随30变差系数(离差系数,离势系数〕CV1CV2CV2>CV1f(x)x变差系数对密度函数的影响CV值愈大,分布愈分散;CV

值愈小,分布愈集中。对于均值不同的二个系列,用均方差来比较其离散程度就不合适,则要采用均方差和均值的比来表示:变差系数(离差系数,离势系数〕CV1CV2CV2>CV31f(x)x偏态系数对密度函数的影响Cs=0Cs>0Cs<0若不对称:CS

>0,称为正偏;CS

<0,称为负偏。c.反映对称特征的参数:

偏态系数(偏差系数)f(x)x偏态系数对密度函数的影响Cs=0Cs>0Cs<0若324.2.水文中常用的概率分布曲线1.正态分布(8-9)式中,:平均数;

:标准差。

许多随机变量如水文测量误差、抽样误差等一般服从正态分布。4.2.水文中常用的概率分布曲线1.正态分布(8-9)式中,33f(x)

a.单峰,只有一个众数;b.对于平均数对称,Cs=0;c.曲线二端趋于±∞,并以x轴为渐近线;d.正态分布曲线的特点:f(x)a.单峰,只有一个众数;正态分布曲线的特点:34概率密度函数表达式:

2.皮尔逊Ⅲ型分布式中,()~的伽玛函数,,,a

0:三个参数,它们与三个统计参数有一定的关系,其表达式为:可见,当以上三个参数确定后,P-III型密度函数亦完全确定。概率密度函数表达式: 2.皮尔逊Ⅲ型分布式中,(35f(x)皮尔逊Ⅲ型概率密度曲线

a0M0(x)Me(x)xPxP-III型曲线的特点:一端有限另一端无限的不对称单峰正偏曲线f(x)皮尔逊Ⅲ型概率密度曲线a0M0(x)Me(x)x36在水文计算中,一般要求出指定概率P所相应的随机变量的取值xP,即求出的xP满足下列等式:按上式计算相当复杂,故实用中,采用标准化变换:取标准变量(离均系数),即代入上式,,

,a0以相应的和关系式表示,简化后得:在水文计算中,一般要求出指定概率P所相应370.031.302.473.384.160.20.021.292.403.233.940.10.001.282.333.093.720.0501010.10.01P(%)pCsP-III型曲线离均系数

P值表注:详表见附表1,p266被积函数含有参数,Cs,而包含在

中,制成对应关系表:0.031.302.473.384.160.20.021.238因此,由给定的CS

及P,从P-III型曲线离均系数

值表,查出P,再由下式求:

即求出指定概率P所相应的随机变量的取值xP因此,由给定的CS及P,从P-III型曲线39已知:某地年平均降雨量

=1000mm,CV=0.5,CS=1.0,若年降雨量符合P-III型分布试求:P=1%

的年降雨量。【算例】求解:由CS=1.0及P=1%,查附表1得p=3.02已知:某地年平均降雨量=1000mm,CV=40引入模比系数:

另一种求解方法:由由此建立的对应数值关系[P-III型曲线模比系数KP

值表(见附表2)]上例的解法:由CV=0.5,CS

=1.0=2

CV

,P=1%查附表2得:引入模比系数:另一种求解方法:由由此建立的41P-III型曲线模比系数KP值表(附表2,P266)

P(%)CV0.010.10.20.330.512510205075909599(一)

CS=CV0.051.191.161.151.141.131.121.111.091.071.041.000.970.940.920.89……………………………………1.5011.68.858.027.366.876.005.113.923.002.040.64-0.10-0.53-0.70-0.89(二)CS=1.5CV0.05(三)CS=2CV。。。。。。(三)CS=6CVP-III型曲线模比系数KP值表(附表2,P266)42

水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本(观测的系列)去估计总体参数。4.3.随机变量系列统计参数的估计估算方法有:

矩法;

适线法;

极大似然法;

权函数法;………水文随机变量的总体是无限的,这就需要在总体不知道的情43现行水文频率计算方法~配线法(适线法)是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,这是一种较好的参数估计方法,是我国估计洪水频率曲线统计参数的主要方法。现行水文频率计算方法~配线法(适线法)是以经44有关的概念介绍:1)经验频率及经验频率曲线:【例】已知某地年降雨量的观测资料(n=12),并由大到小排列,按计算频率。式中,P:大于或等于某一变量值x的经验频率;m:x由大到小排列的序号,即在n次观测资料中出现大于或等于某一值x的次数。有关的概念介绍:1)经验频率及经验频率曲线:【例】已知45经验频率计算表:n=12经验频率计算表:n=1246其反映年降雨量(Xx)的经验频率P(Xx)和x的关系。随着样本容量n的增加,频率P就非常接近于概率,而该经验分布曲线就非常接近于总体的分布曲线。由此得到经验分布曲线:P(Xx)x其反映年降雨量(Xx)的经验频率P(Xx)和x的47注意:样本的每一项的经验频率用公式P=m/n进行计算,当m=n时,P=100%,说明样本的最末项为总体的最小值,这是不合理的。故必须进行修正,中国常采用下面的公式进行计算:经验频率的计算公式:这样,当m=n=12

时,该公式在水文计算中通常称为期望公式注意:样本的每一项的经验频率用公式P=m/n进行计算,当m=48

所谓的重现期是指某一随机事件在很长时期内平均多长时间出现一次(水文学中常称为“多少年一遇”)。即在许多试验中,某一随机事件重复出现的时间间隔的平均数,即平均的重现间隔期。在水文分析中,重现期可以等效地替代频率。2)重现期所谓的重现期是指某一随机事件在很长时期内平49a.当研究洪水或暴雨问题

水文上关心的是大于某洪水或某暴雨量发生的频率,因此,重现期指在很长时期N年内,出现大于某水文变量XP事件的平均重现的间隔期T:式中,T:重现期,以年计;

P:大于某水文变量XP事件的频率,频率P与重现期T关系的两种表示法:a.当研究洪水或暴雨问题式中,T:重现期,以年计;频率P50

水文上关心的是小于xP的事件出现的频率及相应的重现期。重现期指在很长的时期内(N年)出现小于某水文变量xP事件的平均重现间隔期。若水文变量大于xP的频率为P

,则小于xP事件的频率应为1-P,在N年内小于xP事件出现的次数应为N(1-P),因此其重现期为:b.当研究枯水问题水文上关心的是小于xP的事件出现的频率及相应51具体求解步骤:a

根据实测样本资料进行点绘[纵坐标为随机变量X=x,横坐标为对应的经验频率P(Xx)],经验频率计算公式为:b

假定一组参数

,可选用矩法的估值作为的初始值,一般不求CS,假定,K为比例系数,可选K=1.5,2,2.5,3...3)适线法(配线法)的步骤已知:经验频率分布,求:总体分布参数具体求解步骤:b假定一组参数,可选用矩法52d根据选定的参数,由P-III型曲线离均系数值(附表1)或P-III型曲线模比系数KP值表(附表2),求出xP~P

的频率曲线,将其绘在有经验点据的同一张图上,看它们的配合好坏,若不理想,则修改有关的参数(主要调整CV及K=CS/CV),重复以上的步骤,重新配线;c选定线型,对于水文的随机变量,一般选P-III型;e根据配合的情况,选出一配合最佳的频率曲线作为采用曲线,则相应的参数作为总体参数的估值。d根据选定的参数,由53PxP

适线法的实质是通过样本经验分布来推求总体分布,适线法的关键在于“最佳配合”的判别。经验点据理论频率曲线PxP适线法的实质是通过样本经验分布来推求总体分布,适线54为避免修改参数的盲目性,要了解参数对频率曲线形状的影响:a)值愈大,频率曲线位置愈高;xPPPxPPxPc)CS值愈大,频率曲线上段变陡,下段变缓,中部向左偏。b)CV值愈大,频率曲线愈陡;为避免修改参数的盲目性,要了解参数556.5.1相关关系的概念

水文现象中许多变量不是孤立的,相互之间存在联系,则分析研究二个或二个以上随机变量之间的关系,称作相关关系。6.5相关分析6.5.1相关关系的概念6.5相关分析56

如果两个变量x,y,其中变量x的每一个值,变量y都有一个或多个确定值与之对应,而且x,y成函数关系,即x,y的关系点完全落在直线或曲线上,则称这二个变量是完全相关的。完全相关yx完全相关(函数关系〕直线关系曲线关系二个随机变量之间的关系有以下三种情况:如果两个变量x,y,其中变量x的每一个值57零相关YXb.零相关(没有关系)如果两个变量x,y之间互不影响互不相关,则称这二个变量没有关系或零相关。即x,y的关系点毫无规律,十分分散。零相关YXb.零相关(没有关系)如果两个58yx如果两个变量x,y之间关系介于以上二者之间,x,y的关系点虽有点分散,但有明显的趋势,数学上可以用一定的表达式进行拟合。则称这二个变量关系为:

统计相关或相关关系。统计相关c.统计相关(相关关系〕yx如果两个变量x,y之间关系介于以上二者59a.确定二个变量间相关关系的数学表达式,以相关方程或回归方程表示,用以由已知变量推求未知变量;b.判断二个变量间相关关系的密切程度,用一称为相关系数的参数来表示。水文计算中的相关分析的主要任务:a.确定二个变量间相关关系的数学表达式,60水文计算中,一般处理两个变量间的相关关系,称简相关,有时也要处理三个或三个以上变量关系,称为复相关。简相关可分为直线相关和曲线相关。曲线相关直线相关6.5.2

简相关水文计算中,一般处理两个变量间的相关关系,称61图解法:根据实测值,将对应点绘于方格纸上,如果点群分布平均趋势为一直线,则可以直线来近似代表这种相关关系。通过点群中心目估绘出一条直线,然后在图上量出直线的斜率a和截距b,则直线方程:

y=a+bx即为所求的相关方程。该方法简便实用,而且一般情况下精度可以保证。1)回归方程及其误差分析图解法:1)回归方程及其误差分析62相关分析法:若相关点分布较散,目估定线有一定任意性,为保证一定精确性,最好采用分析法来确定相关线的方程。设该直线方程形式为:

y=a+bx式中,x:自变量y:倚变量a,b:分别为一常数,待定。则相关点与直线在纵轴方向必然存在离差。相关分析法:若相关点分布较散,目估定线有一定任意性,为保63配合曲线与观测点在纵轴方向的离差为:xiy配合曲线与观测点在纵轴方向的离差为:xiy64要求配合曲线与所有的观测点能“最佳”拟合,即满足所有的观测点的离差y的平方和为最小,即:分别对a,b求一阶偏导数,并令其为零:要求配合曲线与所有的观测点能“最佳”拟合,即65求解上列两联立方程式,可得求解上列两联立方程式,可得66式中,:分别为x,y系列的均方差/标准差; :分别为x,y系列的平均值; :x,y系列的变差系数(按不偏估计公式计算):

:相关系数;Kxi,Kyi:分别为xi,yi系列的模比系数:式中,:分别为x,y系列的均67为回归线的斜率,称y为x倚的回归系数(8-37)式即为y倚x的回归方程,其曲线称为回归线/相关线(仅是对点据拟合最佳一条线),亦可表示为:将

代入y=a+bx中得:为回归线的斜率,称y为x倚的回归系数(8-37)式即68注意:由于x,y并非确定性关系,对于x=x0,无法知道其相应的真正值y0,通过回归方程求到:仅仅是真正值y0的一个估计值。故其与真正值y0存在偏差。根据统计学的研究,由于随机因素的影响,y0在估计值上下波动呈正态分布,其均方误差可用公式表示。注意:由于x,y并非确定性关系,对于x=x69式中,Sy:y倚x回归线的均方误;

yi

:观测点的纵坐标值;y:由回归方程求到的纵坐标值;n:观测项的数目

y倚x回归线的均方误估算公式:如前所述,可以用均方误进行误差分析,即对于任一固定的x=x0值,若以作为y的估值,其误差不超过Sy的可能性为68.3%;其误差不超过3Sy的可能性为99.7%。式中,Sy:y倚x回归线的均方误; y倚x回归线的均方误70另外,可以证明回归线的均方误与系列标准差及相关系数

有以下关系:式中,为y系列的标准差(无偏估计量)根据均方误公式,也可以用

2来判断相关程度:

2=1,Sy=0,则y=yi

,属函数关系;

2=0,Sy=y,误差最大,属零相关;

若0<

2<1,为统计相关,

2

1,x,y关系愈密切。可知,均方误Sy值愈大,则回归方程的误差愈大。另外,可以证明回归线的均方误与系列标准差及相71相关系数的均方误可用下式来估算:式中,为相关系数;n为观测项数。相关系数是根据有限的实测资料(样本)计算出来的,故相关系数也不免带有抽样误差

故水文上为了推断二个变量的相关性,必须对样本相关系数作统计检验。相关系数的均方误:相关系数的均方误可用下式来估算:式中,为相关系数;72相关系数的统计检验的思路---反证法:

检验二个变量是否相关,先假定二个变量不相关,由此如果导致“不合理的现象”发生,则表明原先的假定不成立,拒绝“不相关”的假定,如果没有导致“不合理现象”发生,则原假定成立,称原假定是相容的。这里所谓的“不合理”不是指形式逻辑上的绝对矛盾,而是基于实践中广泛采用的一个原则:

"小概率事件在一次观测中是不可能发生的"。相关系数的统计检验:相关系数的统计检验的思路---反证法:相关系数的统计检验73-

α0+

αf(r)样本相关系数密度曲线示意图具体的检验步骤:

假设两变量X,Y在总体上不相关;

从不相关的两变量总体中抽出大量的样本(如n个),进行相关分析,并分别计算各样本的相关系数1,2,…n,由于假设总体不相关,可以判断1,2,…n,为较小值的可能性大,而较大值的可能性小,其概率分布密度曲线f(r)~r如右图所示:-α0+αf(r)样本相关系数74

选定一个衡量事件发生可能性(概率)很小的指标(水文统计学中称显著性水平),对于容量为n的样本,则有一相应的临界值(为较大值),样本相关系数(根据原先假定

应为很小的值)

超过±的可能性(概率)应为较小值(水文上一般选

=0.05或0.01作为小概率),即:由于

值很小,故≥为一小概率事件.选定一个衡量事件发生可能性(概率)很小的指标(水文统计学75

取某一个具体的样本所计算的

与作比较,以判断总体是否相关:

若≥,说明样本相关系数绝对值较大,且超过了临界值,说明“小概率事件”发生了,则原先的假定是不能接受的,总体很大可能性是相关的。

若≤,说明样本相关系数绝对值较小,未超过临界值,则原先的假定可以成立,即总体很大可能性是不相关的。实用上,可查n~~(表8-7,p158)求取某一个具体的样本所计算的与作比较,以判断76不同显著性水平下所需相关系数最低值n-2(n为样本容量)0.10.050.020.0180.54940.63190.71550.764690.52140.60210.68510.7348100.49730.57600.65810.7079……………120.45750.53240.61200.6614……………1000.16380.19460.23010.2540不同显著性水平下所需相关系数最低值n-20.10.0577则上式可写成:

----直线关系故可按直线相关的方法求Y与X的回归方程,再还原成y与x的函数关系。6.5.3

曲线相关1)幂函数方程二边取对数:令:则上式可写成:故可按直线相关的方法求Y与X的回归方程,再还原78故可按直线相关的方法求Y倚X的回归方程,再还原成y与x的函数关系则上式可写成----直线关系2)指数函数方程二边取对数:令故可按直线相关的方法求Y倚X的回归方程,再还原成y79End!End!80第四章、水文统计学随机变量及其分布参数水文中常用的概率分布曲线统计参数估计方法相关分析水文时间序列分析第四章、水文统计学随机变量及其分布参数81学习要求:(1)了解概率、随机变量及其概率分布的基本概念;

(2)了解水文频率曲线常用的线型,要掌握P-III型分布曲线和经验频率曲线的性质和计算方法;

(3)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;

(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、曲线相关的方法和具体步骤;(6)水文过程的随机模拟。

学习要求:

82水文现象具有二重性:水文现象包含着必然性水文现象也包含着偶然性,对水文的偶然现象(或称随机现象)所遵循的规律一般称做统计规律。物理成因分析法概率论和数理统计分析方法水文现象具有二重性:水文现象也包含着偶然性834.1.1概率的基本概念与定理1.事件:是指随机试验的结果。事件有两种属性:

数量性质:直接测量的量或计算的量,如年降雨量,年径流量...

属性性质:

直接观测到的现象,如天气的雨天和晴天,婴儿性别,钱币的正面和背面...4.1.随机变量及其分布参数4.1.1概率的基本概念与定理4.1.随机变量及其分841)必然事件2)不可能事件3)随机事件事件可以分为三种类型:2.概率

为了比较某随机事件出现(或不出现)的可能性大小,必然赋予一种量化的(以数量表示)指标,这个数量指标就是事件的概率。1)必然事件事件可以分为三种类型:2.概率85

式中,P(A):一定条件下随机事件A的概率;

n:试验中所有可能的出现的结果数;

m:出现随机事件A的结果数。简单(古典)的随机事件的概率定义用下式表示:古典的随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质。 式中,P(A):一定条件下随机事件A的概86对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。设事件A在n次随机试验中出现了m次,则称:3.频率为事件A在n次试验中出现的频率。注意:n

不是所有可能的结果总数,仅是随机试验的次数。对于不是古典概型事件,只能通过多次重复试验来估计事件87频率:

频率是通过若干次试验后才能求得的经验值,事先不能确定,当试验次数n愈大,即当n趋于无穷大时,理论上,n变成试验中所有可能的结果总数,则频率愈接近概率。概率和频率的区别:概率:

在等可能条件下,表达事件客观上出现的可能性大小,是一个理论值。频率:概率和频率的区别:概率:

在等可能条件881.随机变量

用以表示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。4.1.2.随机变量及其分布参数1.随机变量4.1.2.随机变量及其分布参数89

总体

在统计数学中,把某种随机变量所取数值的全体,称为总体。如年径流量的总体数是无穷的。统计学中几个概念:

样本

从总体中不带主观成分任意抽取的一部分,称为样本。样本所包含的项数,称为样本容量。如实测的水文资料是有限的,是一样本。总体统计学中几个概念:样本90

它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作X,而随机变量的可能取的值记作x,即:

X=x1,X=x2,

X=xn

一般称之为随机系列或随机数列。

随机变量的表示:它是指随机试验结果的一个数量。在水文学中,常用大写字91离散型随机变量

随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0,1,2…,不能取相邻两数值之间的任何值。随机变量的分类:连续型随机变量

随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0~极限值之间的任何实数值。离散型随机变量随机变量的分类:连续型随机变量92对于离散型随机变量:

随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:2.随机变量的概率分布

上式中P1,P2,…Pn

表示随机变量X

取值x1,x2,…xn

所对应的概率。对于离散型随机变量:2.随机变量的概率分布93

x1x2x3x4……xnXP

离散型随机变量概率分布图一般将这种对应关系称作随机变量的概率分布规律,简称为分布律。可以用以下的分布图形表示:x1x2x3x4…94

由于它的所有可能取值有无限个,而取个别值的概率为零,故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:

它是x的函数,称作随机变量X的分布函数,记作F(x),即F(x)=P(Xx)

表示随机变量X大于或等于值

x的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。

对于连续型随机变量:由于它的所有可能取值有无限个,而取个别值的概95

由图中可知,X=900,相应的P(Xx)=0.15,说明大于900mm降雨的可能性为15%;同理,大于500mm降雨的可能性为60%00.20.40.60.81.0500900年降雨量(mm)某站年雨量概率分布曲线

P(Xx)由图中可知,X=900,相应的P(Xx)=96

P(Xx)=P(X>x+x)+P(x+x>Xx)

P(x+x>Xx)=P(Xx)-P(X>x+x)=F(x)-F(x+x)

(8-1)由概率的加法定理:则,降雨量落在900和500mm的可能性为:60%-15%=45%

x

x+

x

PXP(Xx)P(X>x+x)随机变量X落在(x,x+x)

的概率可用下式表示:

P(Xx)=P(X>x+x)+97平均概率密度:

随机变量落在区间(x,x+x)的概率与该区间长度的比值称作随机变量落在区间(x,x+x)平均概率。概率密度函数:平均概率密度:随机变量落在区间(x,x+x)98称f(x)为概率密度函数,简称密度函数。而密度函数的几何曲线称作密度曲线。当x

0,取极限得:称f(x)为概率密度函数,简称密度函数。当x099f(x)f(xi)F(x)xi密度曲线分布曲线xxdxf(x)f(xi)F(x)xi密度曲线分布曲线xxdx100通过密度函数f(x)可求出随机变量X落在(x~x+dx)区间即dx上的概率=f(x)dx,称之为概率元素,即为图中的阴影面积;通过密度函数f(x)可求出随机变量X概率分布函数F(x),其与密度函数f(x)有如下的数学关系:通过密度函数f(x)可求出随机变量X落在(x~x+dx101

F(x)分布函数,反映随机变量X超过某个值x的概率。这两个函数能完整地描述随机变量的分布规律。

f(x)密度函数,反映随机变量X落入dx区间的平均概率;可见,随机变量的二个函数:

F(x)分布函数,反映随机变量X超过某个值x的102

在实际问题中,随机变量的分布函数不易确定,或有时不一定需要用完整的形式来说明随机变量,而只要知道其主要特征就可以。随机变量的分布函数和密度函数中都包含一些参数(如均值、变差系数、偏态系数),而这些参数能反映随机变量分布的特点:如有的分布集中,有的分布分散,有的分布对称,有的分布非对称,等等。在统计学中用以表示随机变量这些分布特征的某些数值,称之为随机变量统计参数。3.随机变量统计参数在实际问题中,随机变量的分布函数不易确定,或有时不一103平均数/数学期望离散型随机变量的平均数是以概率为权重的加权平均值。a.反映位置特征参数

对于离散型随机变量:平均数/数学期望离散型随机变量的平均数是以104

式中,a、b分别为随机变量X取值的上下限。

数学期望或平均数代表整个随机变量的总水平的高低,它为分布的中心。

对于连续的随机变量:式中,a、b分别为随机变量X取值的上下限。105

表示概率密度分布峰点所对应的数。对于离散型随机变量:

M0(x)

是使概率P(=xi)等于最大时所相应的xi值。M0(x)=xiPi-1PiPi+1

Px离散型随机变量的众数众数,记为M0(x)表示概率密度分布峰点所对应的数。M0(x)=106M0(x)是概率密度函数f(x)等于最大时所对应的xi值M0(x)f(x)x连续的随机变量的众数对于连续型随机变量:M0(x)是概率密度函数f(x)等于最大107把概率密度分布分为二个相等部分的数。对于离散型的随机变量:

将所有变量的可能取值按大小次序排列,位置居中的数字。中位数,记为Me(x)把概率密度分布分为二个相等部分的数。中位108对于连续的随机变量中位数满足:式中,a,b分别为随机变量X取值的上下限Me(x)xf(x)1/21/2ab对于连续的随机变量式中,a,b分别为随机变量X109

该参数用以反映随机变量分布离散程度(相对于随机变量分布中心即平均值的差距)的指标,通常有以下几种:b.反映离散特征参数

值愈大,分布愈分散;值愈小,分布愈集中。

标准差(均方差)

(Standarddeviation)(8-6)122>1f(x)x标准差对密度函数的影响该参数用以反映随机变量分布离散程度(相对于随110变差系数(离差系数,离势系数〕CV1CV2CV2>CV1f(x)x变差系数对密度函数的影响CV值愈大,分布愈分散;CV

值愈小,分布愈集中。对于均值不同的二个系列,用均方差来比较其离散程度就不合适,则要采用均方差和均值的比来表示:变差系数(离差系数,离势系数〕CV1CV2CV2>CV111f(x)x偏态系数对密度函数的影响Cs=0Cs>0Cs<0若不对称:CS

>0,称为正偏;CS

<0,称为负偏。c.反映对称特征的参数:

偏态系数(偏差系数)f(x)x偏态系数对密度函数的影响Cs=0Cs>0Cs<0若1124.2.水文中常用的概率分布曲线1.正态分布(8-9)式中,:平均数;

:标准差。

许多随机变量如水文测量误差、抽样误差等一般服从正态分布。4.2.水文中常用的概率分布曲线1.正态分布(8-9)式中,113f(x)

a.单峰,只有一个众数;b.对于平均数对称,Cs=0;c.曲线二端趋于±∞,并以x轴为渐近线;d.正态分布曲线的特点:f(x)a.单峰,只有一个众数;正态分布曲线的特点:114概率密度函数表达式:

2.皮尔逊Ⅲ型分布式中,()~的伽玛函数,,,a

0:三个参数,它们与三个统计参数有一定的关系,其表达式为:可见,当以上三个参数确定后,P-III型密度函数亦完全确定。概率密度函数表达式: 2.皮尔逊Ⅲ型分布式中,(115f(x)皮尔逊Ⅲ型概率密度曲线

a0M0(x)Me(x)xPxP-III型曲线的特点:一端有限另一端无限的不对称单峰正偏曲线f(x)皮尔逊Ⅲ型概率密度曲线a0M0(x)Me(x)x116在水文计算中,一般要求出指定概率P所相应的随机变量的取值xP,即求出的xP满足下列等式:按上式计算相当复杂,故实用中,采用标准化变换:取标准变量(离均系数),即代入上式,,

,a0以相应的和关系式表示,简化后得:在水文计算中,一般要求出指定概率P所相应1170.031.302.473.384.160.20.021.292.403.233.940.10.001.282.333.093.720.0501010.10.01P(%)pCsP-III型曲线离均系数

P值表注:详表见附表1,p266被积函数含有参数,Cs,而包含在

中,制成对应关系表:0.031.302.473.384.160.20.021.2118因此,由给定的CS

及P,从P-III型曲线离均系数

值表,查出P,再由下式求:

即求出指定概率P所相应的随机变量的取值xP因此,由给定的CS及P,从P-III型曲线119已知:某地年平均降雨量

=1000mm,CV=0.5,CS=1.0,若年降雨量符合P-III型分布试求:P=1%

的年降雨量。【算例】求解:由CS=1.0及P=1%,查附表1得p=3.02已知:某地年平均降雨量=1000mm,CV=120引入模比系数:

另一种求解方法:由由此建立的对应数值关系[P-III型曲线模比系数KP

值表(见附表2)]上例的解法:由CV=0.5,CS

=1.0=2

CV

,P=1%查附表2得:引入模比系数:另一种求解方法:由由此建立的121P-III型曲线模比系数KP值表(附表2,P266)

P(%)CV0.010.10.20.330.512510205075909599(一)

CS=CV0.051.191.161.151.141.131.121.111.091.071.041.000.970.940.920.89……………………………………1.5011.68.858.027.366.876.005.113.923.002.040.64-0.10-0.53-0.70-0.89(二)CS=1.5CV0.05(三)CS=2CV。。。。。。(三)CS=6CVP-III型曲线模比系数KP值表(附表2,P266)122

水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本(观测的系列)去估计总体参数。4.3.随机变量系列统计参数的估计估算方法有:

矩法;

适线法;

极大似然法;

权函数法;………水文随机变量的总体是无限的,这就需要在总体不知道的情123现行水文频率计算方法~配线法(适线法)是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,这是一种较好的参数估计方法,是我国估计洪水频率曲线统计参数的主要方法。现行水文频率计算方法~配线法(适线法)是以经124有关的概念介绍:1)经验频率及经验频率曲线:【例】已知某地年降雨量的观测资料(n=12),并由大到小排列,按计算频率。式中,P:大于或等于某一变量值x的经验频率;m:x由大到小排列的序号,即在n次观测资料中出现大于或等于某一值x的次数。有关的概念介绍:1)经验频率及经验频率曲线:【例】已知125经验频率计算表:n=12经验频率计算表:n=12126其反映年降雨量(Xx)的经验频率P(Xx)和x的关系。随着样本容量n的增加,频率P就非常接近于概率,而该经验分布曲线就非常接近于总体的分布曲线。由此得到经验分布曲线:P(Xx)x其反映年降雨量(Xx)的经验频率P(Xx)和x的127注意:样本的每一项的经验频率用公式P=m/n进行计算,当m=n时,P=100%,说明样本的最末项为总体的最小值,这是不合理的。故必须进行修正,中国常采用下面的公式进行计算:经验频率的计算公式:这样,当m=n=12

时,该公式在水文计算中通常称为期望公式注意:样本的每一项的经验频率用公式P=m/n进行计算,当m=128

所谓的重现期是指某一随机事件在很长时期内平均多长时间出现一次(水文学中常称为“多少年一遇”)。即在许多试验中,某一随机事件重复出现的时间间隔的平均数,即平均的重现间隔期。在水文分析中,重现期可以等效地替代频率。2)重现期所谓的重现期是指某一随机事件在很长时期内平129a.当研究洪水或暴雨问题

水文上关心的是大于某洪水或某暴雨量发生的频率,因此,重现期指在很长时期N年内,出现大于某水文变量XP事件的平均重现的间隔期T:式中,T:重现期,以年计;

P:大于某水文变量XP事件的频率,频率P与重现期T关系的两种表示法:a.当研究洪水或暴雨问题式中,T:重现期,以年计;频率P130

水文上关心的是小于xP的事件出现的频率及相应的重现期。重现期指在很长的时期内(N年)出现小于某水文变量xP事件的平均重现间隔期。若水文变量大于xP的频率为P

,则小于xP事件的频率应为1-P,在N年内小于xP事件出现的次数应为N(1-P),因此其重现期为:b.当研究枯水问题水文上关心的是小于xP的事件出现的频率及相应131具体求解步骤:a

根据实测样本资料进行点绘[纵坐标为随机变量X=x,横坐标为对应的经验频率P(Xx)],经验频率计算公式为:b

假定一组参数

,可选用矩法的估值作为的初始值,一般不求CS,假定,K为比例系数,可选K=1.5,2,2.5,3...3)适线法(配线法)的步骤已知:经验频率分布,求:总体分布参数具体求解步骤:b假定一组参数,可选用矩法132d根据选定的参数,由P-III型曲线离均系数值(附表1)或P-III型曲线模比系数KP值表(附表2),求出xP~P

的频率曲线,将其绘在有经验点据的同一张图上,看它们的配合好坏,若不理想,则修改有关的参数(主要调整CV及K=CS/CV),重复以上的步骤,重新配线;c选定线型,对于水文的随机变量,一般选P-III型;e根据配合的情况,选出一配合最佳的频率曲线作为采用曲线,则相应的参数作为总体参数的估值。d根据选定的参数,由133PxP

适线法的实质是通过样本经验分布来推求总体分布,适线法的关键在于“最佳配合”的判别。经验点据理论频率曲线PxP适线法的实质是通过样本经验分布来推求总体分布,适线134为避免修改参数的盲目性,要了解参数对频率曲线形状的影响:a)值愈大,频率曲线位置愈高;xPPPxPPxPc)CS值愈大,频率曲线上段变陡,下段变缓,中部向左偏。b)CV值愈大,频率曲线愈陡;为避免修改参数的盲目性,要了解参数1356.5.1相关关系的概念

水文现象中许多变量不是孤立的,相互之间存在联系,则分析研究二个或二个以上随机变量之间的关系,称作相关关系。6.5相关分析6.5.1相关关系的概念6.5相关分析136

如果两个变量x,y,其中变量x的每一个值,变量y都有一个或多个确定值与之对应,而且x,y成函数关系,即x,y的关系点完全落在直线或曲线上,则称这二个变量是完全相关的。完全相关yx完全相关(函数关系〕直线关系曲线关系二个随机变量之间的关系有以下三种情况:如果两个变量x,y,其中变量x的每一个值137零相关YXb.零相关(没有关系)如果两个变量x,y之间互不影响互不相关,则称这二个变量没有关系或零相关。即x,y的关系点毫无规律,十分分散。零相关YXb.零相关(没有关系)如果两个138yx如果两个变量x,y之间关系介于以上二者之间,x,y的关系点虽有点分散,但有明显的趋势,数学上可以用一定的表达式进行拟合。则称这二个变量关系为:

统计相关或相关关系。统计相关c.统计相关(相关关系〕yx如果两个变量x,y之间关系介于以上二者139a.确定二个变量间相关关系的数学表达式,以相关方程或回归方程表示,用以由已知变量推求未知变量;b.判断二个变量间相关关系的密切程度,用一称为相关系数的参数来表示。水文计算中的相关分析的主要任务:a.确定二个变量间相关关系的数学表达式,140水文计算中,一般处理两个变量间的相关关系,称简相关,有时也要处理三个或三个以上变量关系,称为复相关。简相关可分为直线相关和曲线相关。曲线相关直线相关6.5.2

简相关水文计算中,一般处理两个变量间的相关关系,称141图解法:根据实测值,将对应点绘于方格纸上,如果点群分布平均趋势为一直线,则可以直线来近似代表这种相关关系。通过点群中心目估绘出一条直线,然后在图上量出直线的斜率a和截距b,则直线方程:

y=a+bx即为所求的相关方程。该方法简便实用,而且一般情况下精度可以保证。1)回归方程及其误差分析图解法:1)回归方程及其误差分析142相关分析法:若相关点分布较散,目估定线有一定任意性,为保证一定精确性,最好采用分析法来确定相关线的方程。设该直线方程形式为:

y=a+bx式中,x:自变量y:倚变量a,b:分别为一常数,待定。则相关点与直线在纵轴方向必然存在离差。相关分析法:若相关点分布较散,目估定线有一定任意性,为保143配合曲线与观测点在纵轴方向的离差为:xiy配合曲线与观测点在纵轴方向的离差为:xiy144要求配合曲线与所有的观测点能“最佳”拟合,即满足所有的观测点的离差y的平方和为最小,即:分别对a,b求一阶偏导数,并令其为零:要求配合曲线与所有的观测点能“最佳”拟合,即145求解上列两联立方程式,可得求解上列两联立方程式,可得146式中,:分别为x,y系列的均方差/标准差; :分别为x,y系列的平均值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论