第二章 水文统计基本原理与方法_第1页
第二章 水文统计基本原理与方法_第2页
第二章 水文统计基本原理与方法_第3页
第二章 水文统计基本原理与方法_第4页
第二章 水文统计基本原理与方法_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章水文统计基本原理与方法第1页,课件共135页,创作于2023年2月

第一节水文统计的意义及基本概念一、水文统计的意义水文现象必然性随机性成因分析法数理统计法分析方法分析方法第2页,课件共135页,创作于2023年2月水文统计的任务:1、对于水文要素的大量观测资料进行统计分析,寻求其变化的规律;2、在此基础上,进一步预估出河流未来长时期内可能发生的水文情势,以满足工程规划、设计、施工以及运营期间的需要。第3页,课件共135页,创作于2023年2月设计时,对给定的概率P(即设计标准,也称为频率),选择满足关系P(X≥xp)=P=F(xp)xp作为设计依据。F(x)为水文变量的累积概率函数(即统计规律),P称为设计频率,xp称为设计值。第4页,课件共135页,创作于2023年2月

二、事件在概率论中,对随机现象的观测叫作随机试验,随机试验的结果称为事件,在水文统计中是表示水文现象。事件有两种属性:(1)数量性质:直接测量的量或计算的量。例如年降雨量、年径流量、河流某断面处最大洪峰流量等。(2)属性性质:直接观测到的现象。例如风、雨、晴等。第5页,课件共135页,创作于2023年2月

分类(1)必然事件:在每次试验中一定会出现的事件称为必然事件。例如,流域上降雨且产流的条件下,河中水位上升是必然事件。(2)不可能事件:在任何一次试验中都不会出现的事件称为不可能事件。例如天然河流在洪水期间,发生断流是不可能事件。(3)随机事件:在一次随机试验中可能出现也可能不出现的事件称为随机事件。例如河流某断面处出现的年最大洪峰流量可能大于某一数值,也可能小于或等于某一数值,事先不能确定,属于随机事件。第6页,课件共135页,创作于2023年2月三、总体、样本、样本容量1、随机变量用以表示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。比如在工地上检验一批钢筋,可以随机抽查几组试件,每一组试件检验不合格的根数就是随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。第7页,课件共135页,创作于2023年2月随机变量的分类:①离散型随机变量随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0、1、2

,不能取相邻两数值之间的任何值。②连续型随机变量随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0~极限值之间的任何实数值。第8页,课件共135页,创作于2023年2月2、总体、样本和样本容量总体在统计数学中,把某种随机变量所取数值的全体,称为总体。如年径流量的总体数是无穷的。样本从总体中不带主观成分任意抽取的一部分,称为样本。样本所包含的项数,称为样本容量。如实测的水文资料是有限的,是一样本。第9页,课件共135页,创作于2023年2月四、数理统计法对水文资料的要求1、可靠性2、一致性3、代表性4、随机性5、独立性第10页,课件共135页,创作于2023年2月第二节频率和概率一、概率和频率1、概率随机事件在试验中可能出现,也可能不出现,但其出现(或不出现)的可能性大小有所不同,为了比较这种可能性的大小,必须赋予一种数量标准,这个标准就是事件的概率。第11页,课件共135页,创作于2023年2月简单(古典)的随机事件的概率定义用下式表示:式中,P(A):一定条件下随机事件A的概率;

n:试验中所有可能的出现的结果数;

m:出现随机事件A的结果数。

古典的随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质,也就不能用上述计算概率的公式。为此,水文学中通常用频率估算事件的概率。

第12页,课件共135页,创作于2023年2月2、频率

对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。设事件A在n次随机试验中出现了m

次,则称:为事件A在n次试验中出现的频率。注意:n不是所有可能的结果总数,仅是随机试验的次数。第13页,课件共135页,创作于2023年2月3、概率和频率的关系:频率是经验值,概率是理论值;可以通过实测样本的频率分析来推论事件总体概率特性;样本容量越大,结果越准确;对于水文现象,只能采用有限的多年实测水文资料组成样本系列,推求频率作为概率的近似值。第14页,课件共135页,创作于2023年2月二、随机变量的概率分布1、对于离散型随机变量随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:

上式中P1、P2、…Pn

表示随机变量X取值x1、x2、…xn

所对应的概率。第15页,课件共135页,创作于2023年2月

一般将这种对应关系称作随机变量的概率分布规律,简称为分布律。可以用以下的分布图形表示:

x1x2x3x4……xnXP

离散型随机变量概率分布图第16页,课件共135页,创作于2023年2月2、对于连续型随机变量

由于它的所有可能取值有无限个,而取个别值的概率为零,故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:P(X≥x)。

它是x的函数,称作随机变量X的分布函数,记作F(x),即

F(x)=P(X≥x)

表示随机变量X大于或等于值x的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。第17页,课件共135页,创作于2023年2月00.20.40.60.81.0500900年降雨量(mm)某站年雨量概率分布曲线

P(X

x)

由图中可知,x=900,相应的P(X≥

x)=0.15,说明大于900mm降雨的可能性为15%;同理,大于500mm降雨的可能性为60%。第18页,课件共135页,创作于2023年2月由概率的加法定理:随机变量X落在(x

,x+

x)的概率可用下式表示:

x

x+

x

PXP(X

x)P(X>x+

x)

P(X

x)=P(X>x+

x)+P(x+

x>X

x)

P(x+

x>X

x)=P(X

x)-P(X>x+

x)=F(x)-F(x+

x)则,降雨量落在900和500mm的可能性为:

60%-15%=45%

第19页,课件共135页,创作于2023年2月三、累积频率和重现期1、累积频率等量或超量值的累积频数m与总观测次数S之比,以P(x≥xi)表示。例:某桥位处测得40年最高水位资料,如表,求水位H≥25m的累积频率。第20页,课件共135页,创作于2023年2月解:当水位H=25m时,W=25%

P=25+5=30%

表明:若水位为25m时对桥梁会有威胁,则高于25m的水位对桥梁都会有威胁,其发生的可能性应为P=30%。

工程上习惯把累积频率简称为频率。第21页,课件共135页,创作于2023年2月2、重现期

所谓的重现期是指某一随机事件在很长时期内平均多长时间出现一次(水文学中常称为“多少年一遇”)。即在许多试验中,某一随机事件重复出现的时间间隔的平均数,即平均的重现间隔期。在水文分析中,重现期可以等效的替代频率。第22页,课件共135页,创作于2023年2月频率P与重现期T关系的两种表示法:式中,T:重现期,以年计;

P:大于某水文变量xP事件的频率。例如,当设计洪水的频率为P=1%时,代入上式得T=100年,称为百年一遇洪水,表示大于等于这样的洪水平均一百年会遇到一次。

(1)当研究洪水或暴雨问题时水文上关心的是大于某洪水或某暴雨量发生的频率,因此,重现期指在很长时期N年内,出现大于某水文变量xP

事件的平均重现的间隔期T:第23页,课件共135页,创作于2023年2月(2)当研究枯水问题

水文上关心的是小于xP的事件出现的频率及相应的重现期。重现期指在很长的时期内(N年)出现小于某水文变量xP事件的平均重现间隔期。若水文变量大于xP的频率为P,则小于xP事件的频率应为1-P,在N年内小于xP事件出现的次数应为N(1-P),因此其重现期为:

第24页,课件共135页,创作于2023年2月例如,当设计枯水流量的频率P=80%时,代入上式得T=5年,称此为五年一遇的枯水流量,表示小于等于这样的流量平均五年遇到一次。第25页,课件共135页,创作于2023年2月例:已知某水厂取水口流量Q≥800m3/s的频率为96%,求Q<800m3/s设计枯水流量的重现期。由P(Q≥800)=96%,得P(Q<800)=1-96%=4%由重现期的定义,T(Q<800)=25即重现期为25年一遇。第26页,课件共135页,创作于2023年2月思考:重现期和物理学中的周期有何区别?

重现期T是指水文现象在长时期内平均T年出现一次,而不是每隔T年必然发生一次,它是对于类似于洪水这样的随机事件发生的可能性的一种定量描述。例如百年一遇的洪水,是指大于或等于这样的洪水在长时期内平均100年发生一次,而不能理解为百年一遇的洪水每隔100年一定出现一次。实际上,百年一遇洪水可能间隔100年以上时间发生,也可能连续两年接连发生。周期是固定多少时间出现一次,即为固定概念。而重现期为平均概念。第27页,课件共135页,创作于2023年2月四、设计标准指国家根据工程的重要性及建筑物的等级制定的允许破坏率及要求的安全率,以符号P表示。第28页,课件共135页,创作于2023年2月第三节经验频率曲线

一、经验频率公式例:已知某地年降雨量的观测资料(n=12),并由大到小排列,按计算频率。式中,P:大于或等于某一变量值x的经验累积频率;

m:x由大到小排列的序号,即在n次观测资料中出现大于或等于某一数值x的次数。第29页,课件共135页,创作于2023年2月经验累积频率计算表:第30页,课件共135页,创作于2023年2月

如果n项实测资料是总体,则上述计算经验频率公式是合理的;但水文实测资料是样本资料,则计算的经验频率就不太合理,比如当i=n时,其频率P=100%,即是说样本的末项就是总体中的最小值,显然不符合实际情况,因为随着观测项数的增加,总会有更小的数值出现。

第31页,课件共135页,创作于2023年2月

为了修正由样本推算总体出现的不合理估算,有如下几个经验频率公式可供选择:数学期望公式

切哥达也夫公式

海森公式

第32页,课件共135页,创作于2023年2月目前我国水文计算上广泛采用的是数学期望公式,公式形式简单,计算结果也比较符合实际,且偏于安全。这样,当m=n=12

时,第33页,课件共135页,创作于2023年2月二、经验频率曲线的绘制和应用①将水文变量,按由大到小的次序排列xi,排列的序号不仅表示大小的次序,而且表示大于等于该水文变量的累积次数;②用数学期望公式计算各项的经验频率Pi;③以水文变量为纵坐标,以其对应的经验频率为横坐标,点绘出经验频率点据。

第34页,课件共135页,创作于2023年2月④根据与点群配合最好的原则绘出一条平滑曲线,即为水文变量的经验频率曲线。在频率格纸上绘制频率曲线,如为正态曲线则成直线,如为偏态曲线则两端的曲度也会大大变小,有利于特小频率或特大频率的点绘与查取。⑤有了经验频率曲线,即可在曲线上求得指定频率的水文变量值。第35页,课件共135页,创作于2023年2月第36页,课件共135页,创作于2023年2月因频率曲线的两端特别陡峭,又因图幅的限制,对于特小频率或特大频率,尤其是特大频率的点子很难点在图上。为此,设计一种“频率格纸”,其横坐标的分划就是按把标准正态分布频率曲线拉成一条直线的原理计算出来的。这种频率格纸的纵坐标仍是普通分格,但横坐标的分格是不相等的,中间分格较密,越往两端分格越稀,其间距在P=50%的两端是对称的。第37页,课件共135页,创作于2023年2月

经验频率曲线的特点

①当n→∞时,经验频率曲线将越来越光滑,且接近于理论频率曲线,对于水文变量分布线型的选择具有借鉴作用;②经验频率曲线计算工作量小,绘制简单,查用方便;③经验频率曲线外延比较盲目,误差较大,往往难以满足设计上的需要。因为在水文计算中,常需推求P=1%、0.1%、0.01%相应的水文变量值。④不能求出统计参数,难以进行参数的地区综合,无法解决无实测水文资料的小流域的水文计算问题。第38页,课件共135页,创作于2023年2月三、经验频率曲线的外延1、目估延长局限性:(1)没有实测点的控制,目估使曲线外延带有相当大的主观成分。(2)由于水文现象的随机性,有时点绘的经验频率点分布比较散乱,使得经验累积频率曲线的定线比较困难。第39页,课件共135页,创作于2023年2月2、选配合适的数学模型延长经验频率曲线对水文资料的经验频率曲线选配合适的数学模型,利用数学方法来推求理论频率曲线方程式,据此绘制理论频率曲线,减小目估徒手定线的主观因素影响。第40页,课件共135页,创作于2023年2月第四节随机变量的统计参数随机变量的概率分布曲线或分布函数,比较完整地描述了随机现象的分布规律。但是,在许多实际问题中,随机变量的分布函数不易确定,有时不一定都需要用完整的形式来说明随机变量,而只要用个别代表性的数值说明随机变量的主要特征即可。例如,某地的年降水量是一个随机变量,各年的降水量不同,具有一定的概率分布函数,若要了解该地年降水量概括情况,可用多年平均降水量这个数量指标来反映。这种能说明随机变量统计规律的数字特征值,称为随机变量的统计参数。第41页,课件共135页,创作于2023年2月

统计参数有总体统计参数与样本统计参数之分。水文现象的总体是无限的,它是指自古迄今以至未来长远岁月所有的水文系列。显然,水文随机变量的总体是不知道的,只能靠有限的样本观测资料去估计总体的统计参数或总体的分布规律。水文计算中常用的样本统计参数有位置特征参数和离散特征参数。

第42页,课件共135页,创作于2023年2月一、位置特征参数位置特征参数就是描述随机变量在数轴上位置的特征值。主要有:均值、中位数、众数。1、均值设某水文变量的观测系列(样本)为x1、x2、……、xn,则其均值为

第43页,课件共135页,创作于2023年2月均值也称算术平均值,表示系列的平均情况,可以说明这一系列总水平的高低。例如,按1956~1979年统计,黄河流域多年平均降水量为475.9mm,长江流域多年平均降水量为1070.5mm,说明长江流域的水量比黄河流域丰沛。均值不仅是频率计算中的一个重要参数,而且还是水文现象的一个重要特征值。第44页,课件共135页,创作于2023年2月令k为模比系数,则上式说明,当我们把变量X的系列用其相对值即用模比系数k的系列表示时,则其均值等于1。这是水文统计中的一个重要特征,即对于以模比系数k所表示的随机变量,在其频率曲线的方程中,可以减少均值这样一个参数。第45页,课件共135页,创作于2023年2月2、中位数中位数是把概率密度曲线分为两个相等部分的数,记为Me(x)。对于离散型的随机变量:将所有变量的可能取值按大小次序排列,位置居中的数字。第46页,课件共135页,创作于2023年2月对于连续的随机变量:中位数满足:式中,a、b分别为随机变量X取值的上下限。Me(x)xf(x)1/21/2ab第47页,课件共135页,创作于2023年2月3、众数

表示概率密度分布峰点所对应的数,记为M0(x)。对于离散型随机变量:

M0(x)是使概率

P(

=xi)等于最大时所相应的

xi值。M0(x)=xiPi-1PiPi+1

Px离散型随机变量的众数第48页,课件共135页,创作于2023年2月对于连续型随机变量:

M0(x)是概率密度函数f(x)等于最大时所对应的xi值。M0(x)f(x)x连续的随机变量的众数第49页,课件共135页,创作于2023年2月

二、离散特征参数离散特征参数是刻划随机变量分布离散程度的指标,这种类型的参数有:标准差、离势系数、偏态系数。

1、标准差(均方差)

1

2

2>

1f(x)x标准差对密度函数的影响

值愈大,分布愈分散;

值愈小,分布愈集中。第50页,课件共135页,创作于2023年2月例题:两系列:甲——5,10,15;乙——1,10,19。比较其离散程度。表明:乙系列的离散程度大于甲系列。第51页,课件共135页,创作于2023年2月2、变差系数(离差系数、离势系数)对于均值不同的二个系列,用均方差来比较其离散程度就不合适,则要采用均方差和均值的比来表示系列的相对离散程度:CV值愈大,分布愈分散;CV值愈小,分布愈集中。CV1CV2CV2>CV1f(x)x变差系数对密度函数的影响第52页,课件共135页,创作于2023年2月例题:比较两系列的离散程度:

甲——5,10,15;乙——995,1000,1005。表明:甲系列的离散程度大于乙系列。第53页,课件共135页,创作于2023年2月3、偏态系数在数理统计中主要采用偏态系数作为衡量系列不对称程度的参数。上式右端的分子、分母同除以,则得第54页,课件共135页,创作于2023年2月

当系列对称时,CS=0,此时随机变量大于均值与小于均值的出现机会相等。当系列不对称时,CS≠0,其中CS>0,称为正偏,随机变量大于均值比小于均值出现的机会小;CS<0,称为负偏,随机变量大于均值比小于均值出现的机会多。f(x)x偏态系数对密度函数的影响Cs=0Cs<0Cs>0第55页,课件共135页,创作于2023年2月三、随机变量系列统计参数的估计

水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本(观测的系列)去估计总体参数。估算方法有:

矩法;

适线法;

极大似然法;

权函数法;

………第56页,课件共135页,创作于2023年2月矩法1、计算公式已知样本的随机系列:x1、x2、x3、…xn,分别求样本的三个统计参数:均值、CV、CS。样本均值样本标准差样本离势系数第57页,课件共135页,创作于2023年2月

样本偏态系数

2、无偏估计量显然,样本的统计参数与相应的总体同名参数不一定相等。但是,我们希望由样本系列计算出来的统计参数与总体更接近些,因此,需要将上述样本参数的计算公式加以修正。

第58页,课件共135页,创作于2023年2月定义:令θ′为未知参数θ的估计量,如果E(θ′)=θ,则称θ′为参数θ的无偏估计量。换句话说,无偏估计是设想有很多个同样容量的样本资料,使其计算出来的统计参数的均值,可望等于总体的同名参数。可以证明,样本均值是总体均值的无偏估计量。然而CV、CS则不是总体相应参数的无偏估计量,称为有偏估计量。故需要对参数CV、CS进行修正,使其变成无偏估计量。

第59页,课件共135页,创作于2023年2月

求Cv、Cs的无偏估计量的修正计算式:

(当n较大时)第60页,课件共135页,创作于2023年2月第五节几种常用的概率分布曲线

目的:在水文分析计算中,常常需要知道大于或等于某一特征值的频率是多少,也就是要提供一定频率的水文数值,这就需要绘制频率曲线。

分类:国内外水文分析计算中使用的概率分布曲线俗称水文频率曲线,习惯上把由实测资料(样本)绘制的频率曲线称为经验频率曲线,而把由数学方程式所表示的频率曲线称为理论频率曲线。

第61页,课件共135页,创作于2023年2月频率计算的内容:分布线型的选择与统计参数的估算。水文频率分布线型:指所采用的理论频率曲线(频率函数)的型式(水文中常用线型为正态分布型、极值分布型、皮尔逊Ⅲ分布型等),它的选择主要取决于与大多数水文资料的经验频率点据的配合情况。

第62页,课件共135页,创作于2023年2月

探求频率曲线的数学方程,即寻求水文频率分布线型,一直是水文分析计算中争论性很强的课题。水文随机变量究竟服从何种分布,目前还没有充足的论证,因为水文现象非常复杂,我们所掌握的资料又非常短,难以从理论上推断究竟服从何种分布线型,因此只能以某种理论线型近似代替。这些理论线型并不是从水文现象的物理性质方面推导出来的,而是根据经验资料从统计数学的已知频率函数中选出来的。第63页,课件共135页,创作于2023年2月迄今为止,国内外采用的理论线型已有10余种。如:正态分布(N)、皮尔逊Ⅲ型分布(P-Ⅲ)、对数皮尔逊Ⅲ型分布(LP-Ⅲ)、克里茨基一闵凯里分布(K-M)、指数伽玛分布(Γ)、两参数对数正态分布(LN2)、三参数对数正态分布(LN3)、I型极值分布(EVI)、通用极值分布(GEV)、韦布尔分布(Weibull)、指数分布(Exp)、P-V分布、耿贝尔分布(Gamble)。第64页,课件共135页,创作于2023年2月

不过,从现有资料看,P-Ⅲ型曲线和LP-Ⅲ型曲线比较符合水文随机变量的分布。因此,这两种曲线用得最多。我国在水文频率计算中都是采用P-Ⅲ型频率曲线,并在1993年国家发布的《水利水电工程设计洪水计算规范》规定“频率曲线的线型一般应采用皮尔逊Ⅲ型。特殊情况,经分析论证后也可采用其它线型”。为此,下面介绍正态分布和P-Ⅲ型分布。第65页,课件共135页,创作于2023年2月一、正态分布1、定义:如果随机变量X的概率密度函数为则称随机变量X具有正态概率分布。正态分布具有两个参数:均值和均方差σ。e为自然对数的底。

第66页,课件共135页,创作于2023年2月2、特点a.单峰,只有一个众数;b.对于平均数对称,Cs=0;c.曲线两端趋于±∞,并以x轴为渐近线。第67页,课件共135页,创作于2023年2月4、应用(1)误差分析:正态分布的密度曲线与x轴所围成的面积应等于1。均值两边σ、2σ、3σ范围内的面积分别为显然,均方差σ越小,由均值估计x值的误差越小。正态分布的这种特性在误差估算时得到了应用。第68页,课件共135页,创作于2023年2月(2)频率格纸:正态分布频率曲线在普通方格纸上是一条规则的S形曲线,因频率曲线的两端特别陡峭,又因图幅的限制,对于特小频率或特大频率,尤其是特大频率的点子很难点在图上。为此,设计一种“频率格纸”,其横坐标的分划就是按把标准正态分布频率曲线拉成一条直线的原理计算出来的。这种频率格纸的纵坐标仍是普通分格,但横坐标的分格是不相等的,中间分格较密,越往两端分格越稀,其间距在P=50%的两端是对称的。第69页,课件共135页,创作于2023年2月第70页,课件共135页,创作于2023年2月二、皮尔逊Ⅲ型分布1、定义英国生物学家Person研制的13种分布曲线中的第3种(简称P—Ⅲ型),其密度函数为

式中,

):

的伽玛函数,

、a0:三个参数,它们与三个统计参数有一定的关系。第71页,课件共135页,创作于2023年2月2、特点(1)P-III型曲线是一条一端有限另一端无限的不对称单峰正偏曲线。f(x)皮尔逊Ⅲ

型概率密度曲线

a0M0(x)Me(x)xPx第72页,课件共135页,创作于2023年2月(2)α、β、a0三个参数与、Cv、Cs的关系:(3)多数水文特征值的最小值必须大于或等于零。(4)Cs>0时为正偏,Cs=0时为正态分布。第73页,课件共135页,创作于2023年2月3、应用

P—Ⅲ型曲线的分布函数为:F(x)=P(X≥xP)=P(1)两类计算问题①规划设计问题:由设计标准P,推求满足设计标准的设计值xp;②评估决策问题:由实际发生值x,推求出现大于或等于该值的概率。第74页,课件共135页,创作于2023年2月

(2)计算方法直接计算:由分布函数和密度函数的关系,可得当参数为已知时,规划设计问题为方程求根,评估决策问题为数值积分。第75页,课件共135页,创作于2023年2月查表计算:

将随机变量经标准化变换:

取标准变量,即

代入上式,

、a0以相应的

关系式表示,简化后得:第76页,课件共135页,创作于2023年2月

被积函数含有参数

、Cs

,而包含在中,制成对应关系表。详见附录3,P228。

因此,由给定的CS及P,从P-III型曲线离均系数

值表,查出

P

,再由下式求: 即求出指定概率P所相应的随机变量的取值xP。第77页,课件共135页,创作于2023年2月第78页,课件共135页,创作于2023年2月例2:某站年平均径流深系列符合P-Ⅲ型分布,已知该系列的R=650mm,σ=162.5mm,CS=2CV,计算设计保证率P=1%的设计年径流量。解:由CV=σ/R=162.5/650=0.25,则CS=2CV=2×0.25=0.5,P=1%,查表得,Ф=2.68,则R1%=650×(1+2.68×0.25)=1085.5mm第79页,课件共135页,创作于2023年2月另外,当CS/CV等于一定倍数时,可令模比系数KP=1+ΦPCV,则变为xP=(1+ΦPCV)=KP

,式中,KP与P和CS有关,可查附表4。第80页,课件共135页,创作于2023年2月4、理论频率曲线已知P—Ⅲ分布的三个参数、Cv、Cs值,由Φ值表可查得各种频率P相应的ΦP值,然后反变换得xp值。将点(P,xp)点绘在概率格纸上,即可连成一条光滑的频率曲线,常常将此曲线称为理论频率曲线。=1000mm,Cv=0.5,Cs=1.0的频率曲线如下。第81页,课件共135页,创作于2023年2月第82页,课件共135页,创作于2023年2月

5、统计参数对频率曲线的影响:为了避免适线时调整参数的盲目性,必须了解统计参数对频率曲线的影响。①均值对频率曲线的影响当Cv、Cs相同时,均值大的频率曲线位于均值小的频率曲线之上,且均值大的频率曲线比均值小的频率曲线陡。

第83页,课件共135页,创作于2023年2月②离势系数Cv对频率曲线的影响为了消除均值的影响,以模比系数k为变量绘制频率曲线。当Cv=0时,随机变量的取值都等于均值,此时频率曲线即为k=1的一条水平线,随着Cv的增大,频率曲线的偏离程度也随之增大,曲线变得越来越陡,且有一种使整个频率曲线顺时针方向旋转的作用。

第84页,课件共135页,创作于2023年2月③偏态系数Cs对频率曲线的影响以模比系数k为变量绘制频率曲线,在正偏情况下,当Cs增大时,频率曲线的中部下降,且两端上抬,上段变陡,下段变缓。

xPP

PxP

PxP第85页,课件共135页,创作于2023年2月第六节抽样误差一、误差来源1、观测、记录、整编和计算中有些假定不够合理造成——随着科学技术的发展逐渐减小。2、抽样误差由于水文系列总体是无限的,而样本的容量是有限的,因此,由样本求到的参数对于总体存在一定的误差,则称为抽样误差。因此,以样本参数替代相应的总体参数时,必须考虑这一误差。该误差无法准确求到,只能在概率意义下作出某种估计。第86页,课件共135页,创作于2023年2月二、抽样误差估算下面以矩法的样本均值为例,说明抽样误差的概念和估算方法:假设从某随机变量的总体中随机抽取k个容量相同的样本,分别算出各个样本的均值,这些均值对其总体均值的抽样误差为,

有大有小,各种数值出现的机会不同,即每一数值都有一定的概率,也即为一随机变量,它也有其分布,称为抽样误差分布。

第87页,课件共135页,创作于2023年2月由误差分布理论知,抽样误差可近似服从正态分布,而抽样分布的均方差(标准差)可作为度量抽样误差的指标,也即大表示抽样误差大,小表示抽样误差小。为区别起见,将称为样本均值的均方误。第88页,课件共135页,创作于2023年2月

由于抽样分布通常为正态分布,由正态分布的特性可知:上式的物理意义是:如果随机抽取一个样本,以此样本的均值作为总体均值的估计值,则有68.3%的可能性误差不超过,有95%的可能性误差不超过,有99.7%的可能性误差不超过。以上对均值的讨论同样也适用于其它样本参数。第89页,课件共135页,创作于2023年2月

根据统计理论,可导出各参数的均方误公式,它们与总体分布有关。对于皮尔逊Ⅲ型分布且用矩法估算参数时,样本参数的均方误公式为

第90页,课件共135页,创作于2023年2月

由上述公式可见,抽样误差的大小,随样本项数n、Cv和Cs的大小而变化。样本容量大,对总体的代表性就好,其抽样误差就小,这就是为什么在水文计算中总是想方设法取得较长的水文系列的原因。在均方误的计算中,因含有CS的高次方,当样本容量n<100时,由样本直接计算CS的误差很大,不能满足水文计算的要求。第91页,课件共135页,创作于2023年2月第七节水文频率计算方法

是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数。该法既能估计总体的分布型式,又能求出其统计参数,是一种能较好地满足水文频率分析要求的估计方法。

第92页,课件共135页,创作于2023年2月现行频率计算方法——适线法(配线法)试错适线法(经验适线法/目估适线法)1、步骤:(1)将实测资料由大到小排列,根据数学期望公式计算各项的经验频率,在频率格纸上点绘经验点据。(2)先采用矩法或其它方法估计出频率曲线参数的初估值。因Cs的抽样误差太大,一般凭经验初选比值Cs/Cv为某一倍数。倍数可选1.5、2、2.5、3…。已知:经验频率分布,求:总体分布参数第93页,课件共135页,创作于2023年2月

(3)选定水文频率分布线型(一般选用皮尔逊III型)。(4)根据选定的参数、CV、CS,由P-III型曲线离均系数值表(附录3)或P-III型曲线模比系数KP值表(附录4),求出xP~P的理论频率曲线,将其绘在有经验点据的同一张图上,看它们的配合好坏,若不理想,则修改有关的参数(主要调整CV及K=CS/CV

),重复以上的步骤,重新配线。(5)根据理论频率曲线与经验点据的配合情况,从中选出一条与经验点据配合较好的曲线作为采用曲线,相应于该曲线的参数便看作是总体参数的估值。

第94页,课件共135页,创作于2023年2月PxP理论频率曲线经验点据适线法的实质是通过样本经验分布来推求总体分布,适线法的关键在于“最佳配合”的判别。(6)应用试错适线法得到的统计规律,解决水文频率分析的两类计算问题。

第95页,课件共135页,创作于2023年2月

2、特点①配线法层次清楚,图像显明,方法灵活,操作容易,便于结合水文和统计概念调整参数,所以该法在水文计算中被广泛采用。②既能估计分布型式,又能推求统计参数。③外延比较准确。④计算工作量大,计算结果因人而异。第96页,课件共135页,创作于2023年2月第八节相关分析一、概述

1、相关分析的概念水文现象中许多变量不是孤立的,相互之间存在联系,则分析研究两个或两个以上随机变量之间的关系,称作相关分析。第97页,课件共135页,创作于2023年2月2、相关分析的意义与应用

应用:相关分析可以用来延长和插补短系列,从而提高系列的代表性,增加样本估计总体的计算精度,如建立上、下游水位的相关关系,由上游水位预报下游水位。

前提:在相关分析时,首先要分析随机变量之间是否在成因上确有联系,对毫无关联的现象是不能用相关分析的。第98页,课件共135页,创作于2023年2月3、水文计算中的相关分析的主要任务:(1)确定两个变量间相关关系的数学表达式,以相关方程或回归方程表示,用以由已知变量推求未知变量;(2)判断两个变量间相关关系的密切程度,用一称为相关系数的参数来表示。第99页,课件共135页,创作于2023年2月4、相关关系的种类(1)按相关变量个数分为①简相关:2个变量;②复相关:≥3个变量。

第100页,课件共135页,创作于2023年2月(2)按相关程度分为①完全相关(函数相关)如果两个变量x、y,其中变量x的每一个值,变量y都有一个或多个确定值与之对应,而且x、y成函数关系,即x、y的关系点完全落在直线或曲线上,则称这两个变量是完全相关的。第101页,课件共135页,创作于2023年2月②零相关(没有关系)

如果两个变量x、y之间互不影响、互不相关,则称这两个变量没有关系或零相关。即x、y的关系点毫无规律,十分分散。零相关YX第102页,课件共135页,创作于2023年2月③统计相关(相关关系)

如果两个变量x、y之间关系介于以上两者之间,x、y的关系点虽有点分散,但有明显的趋势,数学上可以用一定的表达式进行拟合。则称这二个变量关系为:统计相关或相关关系。yx第103页,课件共135页,创作于2023年2月二、简单直线(线性)相关1、图解法设xi和yi代表两系列(随机变量)的观测值,共有n对,把对应值点绘于方格纸上,得到很多相关点。如果相关点的平均趋势近似直线,即可通过点群中间及()点绘出相关直线,如图所示。称这种直接作图定出相关线的方法为相关图解法。

第104页,课件共135页,创作于2023年2月

方法:从图上量得直线的斜率b,直线与纵轴的截距a,则直线方程y=a+bx即为所求的相关直线方程。

特点:方法简单,计算精度不高,适用于相关密切的变量。第105页,课件共135页,创作于2023年2月2、相关分析法

若相关点分布较散,目估定线有一定任意性,为保证一定精确性,最好采用分析法来确定相关直线的方程。设该直线方程形式为:y=a+bx式中,x:自变量

y:倚变量

a、b:分别为一常数,待定。则相关点与直线在纵轴方向必然存在离差。第106页,课件共135页,创作于2023年2月xiy配合曲线与观测点在纵轴方向的离差为:第107页,课件共135页,创作于2023年2月

要求配合曲线与所有的观测点能“最佳”拟合,根据最小二乘法原理,即满足所有的观测点的离差

y的平方和为最小,即:(1)回归方程的确定欲使上式最小,可分别对其求一阶偏导数,并使其等于0,即令第108页,课件共135页,创作于2023年2月求解上述方程组可得第109页,课件共135页,创作于2023年2月式中,:分别为x、y系列的均方差;

:分别为x、y系列的平均值;

:x、y系列的变差系数(按不偏估计公式计算):

r:相关系数;

Kxi

、Kyi:分别为xi、yi系列的模比系数:第110页,课件共135页,创作于2023年2月将,代入y=a+bx中得:上式即为y倚x的回归方程,其曲线称为回归线/相关线(仅是对点据拟合最佳一条线),亦可表示为:为回归线的斜率,称为y倚x的回归系数。第111页,课件共135页,创作于2023年2月

若以y求x,则要应用x倚y的回归方程,它的图形称为x倚y的回归线。同理,可推得x倚y的回归方程,即

一般y倚x与x倚y的两回归线并不重合,但有一个公共交点。在作回归分析时必须注意,由x求y用y倚x的回归方程;由y求x用x倚y的回归方程。第112页,课件共135页,创作于2023年2月(2)相关系数回归线只是对观测点的一条最佳配合线,它反映了两个变量之间的平均关系。回归线并不能说明两个变量之间的关系是否密切。在数理统计法中,一般采用相关系数来描述和判别两变量之间的相关程度。

第113页,课件共135页,创作于2023年2月相关系数的性质:①若r2=1,表示相关点(xi,yi)均落在回归线上,两变量间具有直线函数关系;②若r2=0,说明y的变化与x毫无直线关系,称为零相关;③若0<r2<1,r2愈接近于1,点据越靠近回归直线,关系越密切。r为正时,表示正相关;r为负时,表示负相关。第114页,课件共135页,创作于2023年2月(3)相关分析的误差①回归线的误差

由于x、y并非确定性关系,对于x=x0,无法知道其相应的真正值y0,通过回归方程求到:仅仅是真正值y0的一个估计值。故其与真正值y0存在偏差。根据统计学的研究,由于随机因素的影响,y0在估计值上下波动呈正态分布,其误差大小可用均方误表示。第115页,课件共135页,创作于2023年2月第116页,课件共135页,创作于2023年2月

如用Sy表示y倚x回归线的均方误,yi为观测值,为回归线上的对应值,n为系列项数,则同样,x倚y回归线的均方误Sx为第117页,课件共135页,创作于2023年2月回归线的均方误Sy与变量的均方差σy之间的关系:两者之间从性质上讲是不同的,前者是由观测点与回归线之间的离差求得,而后者则由观测点与它的均值之间的离差求得。按照误差理论,这些可能的取值yi落在回归线两侧一个均方误范围内(y+Sy)的概率为68.3%,落在3个均方误范围内(y+3Sy)的概率为99.7%。

第118页,课件共135页,创作于2023年2月②相关系数的误差:在相关分析中,相关系数是根据有限的实测资料(样本)计算出来的,必然会有抽样误差。一般通过相关系数的均方误和相关系数的检验来判断样本相关系数的可靠性,按统计学原理,相关系数的均方误为相关系数的误差也可以用随机误差(机误)表示Er=0.6745σr。一般当r>4Er时,则认为相关关系存在。第119页,课件共135页,创作于2023年2月③相关系数的检验

必要性:有了相关系数r,只要它不为零,便可求出变量x与y之间的回归直线。但是,相关系数是根据有限的样本资料计算出来的,不免带有抽样误差,即使总体是不相关的两变量,其相关系数也不一定为零。因此,为了推断两变量之间是否真正存在相关关系,即为了避免把本来是不相关的两变量,错误地推断为相关,必须对样本的相关系数作显著性检验。

第120页,课件共135页,创作于2023年2月假设检验:先假设总体具有某种统计特性(如具有某种参数,或遵从某种分布等),然后再检验这个假设是否可信,这种方法称为假设检验。原假设H0:r总体=0(不相关);备择假设H1:r总体≠0(相关)。先假设r总体=0,即总体不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论