水文学 第三章_第1页
水文学 第三章_第2页
水文学 第三章_第3页
水文学 第三章_第4页
水文学 第三章_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第第3章章 水文统计的基本原理与方法水文统计的基本原理与方法3.1 3.1 概述概述3.2 3.2 概率与频率的基本概念概率与频率的基本概念3.3 3.3 随机变量及其概率分布随机变量及其概率分布3.4 3.4 统计参数统计参数3.5 3.5 水文频率曲线线型水文频率曲线线型3.6 3.6 抽样误差抽样误差3.7 3.7 水文频率计算适线法水文频率计算适线法3.8 3.8 相关分析相关分析2u水文现象的统计规律水文现象的统计规律水文现象是一种自然现象,它具有水文现象是一种自然现象,它具有必然性必然性的一面,也具的一面,也具有有偶然性偶然性的一面。偶然现象也称随机现象;偶然现象仍然的一面。偶然

2、现象也称随机现象;偶然现象仍然是有规律的,一般称为是有规律的,一般称为统计规律统计规律。u水文统计及其任务水文统计及其任务数学中研究随机现象统计规律的学科称为概率论数学中研究随机现象统计规律的学科称为概率论, 而由随而由随机现象的机现象的一部分试验资料一部分试验资料去研究去研究总体现象总体现象的数字特征和规的数字特征和规律的学科称为数理统计学。律的学科称为数理统计学。概率论与数理统计学应用到水概率论与数理统计学应用到水文分析与计算上文分析与计算上则称为则称为水文统计水文统计。 水文统计的任务就是水文统计的任务就是研究和分析水文随机现象的统计变研究和分析水文随机现象的统计变化特性化特性。并以此为

3、基础对水文现象未来可能的长期变化作并以此为基础对水文现象未来可能的长期变化作出在概率意义下的定量预估,以满足工程规划、设计、施出在概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。工以及运营期间的需要。 3 事件有两种属性:事件有两种属性: 数量性质:数量性质:直接测量的量或计算的量,如直接测量的量或计算的量,如 年降雨量,年径流量年降雨量,年径流量. 属性性质属性性质: 直接观测到的现象,如天气的直接观测到的现象,如天气的 雨天和晴天,钱币的正面和背面雨天和晴天,钱币的正面和背面 .4 为了比较某随机事件出现(或不出现为了比较某随机事件出现(或不出现)的的可能性大小,必然赋

4、予一种量化的(以数量表可能性大小,必然赋予一种量化的(以数量表示示)指标,这个数量指标就是指标,这个数量指标就是事件的概率。事件的概率。()()5nmAP )( 式中式中 ,P(A) :一定条件下随机事件:一定条件下随机事件A的概率;的概率; n :试验中所有可能的出现的结果数;:试验中所有可能的出现的结果数; m :出现随机事件:出现随机事件A的结果数。的结果数。 随机试验是指所有试验的可能结果都是等随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质。但水文事件不一定符合这种性质。6 对于不是古

5、典概型事件,只能通过多次重复对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。试验来估计事件的概率。 则称:则称:nmAW )( 为事件为事件A 在在n 次试验中出现的频率。次试验中出现的频率。n 不是所有可能的结果总数,仅是随不是所有可能的结果总数,仅是随机试验的次数。机试验的次数。7概率是抽象数是个理论值;频率是具体数,是概率是抽象数是个理论值;频率是具体数,是个经验值。个经验值。频率随实验次数的增多而逐渐稳定并趋近于概频率随实验次数的增多而逐渐稳定并趋近于概率率。实验者实验者掷硬币次掷硬币次数数正面出现正面出现的次数的次数正面出现的正面出现的频率频率 蒲丰蒲丰(Buffon)4

6、04020480.5069 皮尔逊皮尔逊(K.Pearson)1200060190.5016 皮尔逊皮尔逊(K.Pearson)24000120140.5005频率越频率越接近概接近概率率0.5表表6-1 掷币实验出现正面的频率掷币实验出现正面的频率8两个互斥事件两个互斥事件A、B出现的概率出现的概率 P(A+B)=P(A)+P(B)在事件在事件A发生的条件下发生发生的条件下发生 事件事件B的概率。的概率。 两事件同时出现的概率:两事件同时出现的概率: P(AB)= P(A)P(B|A) P(AB) = P(B)P(A|B) P(A)0,P(B)0若若A、B相互独立。即事件的发生互不影响,相互

7、独立。即事件的发生互不影响, 则则P(B|A)=P(B),),P(AB)= P(A)P(B) 9 用以表示随机试验结果的一个数量用以表示随机试验结果的一个数量( (事先是事先是未知的未知的) ),由于它事先不能确定,是随机的,由于它事先不能确定,是随机的,称为称为水文现象中的随机变量,一般水文现象中的随机变量,一般指某个水文特征值指某个水文特征值( (如如等等) )。10 在统计数学中,把某种随机变量所取数值的全在统计数学中,把某种随机变量所取数值的全体,称为总体。体,称为总体。 如年径流量的总体数是无穷的。如年径流量的总体数是无穷的。 从总体中不带主观成分任意抽取的一部分,称从总体中不带主观

8、成分任意抽取的一部分,称为样本。样本所包含的项数,称为为样本。样本所包含的项数,称为 如实测的水文资料是有限的,是一样本。如实测的水文资料是有限的,是一样本。11 它是指随机试验结果的一个数量。在水文学中,它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作常用大写字母表示,记作X,而随机变量的可能取的而随机变量的可能取的值记作值记作x,即:即: X = x1, X = x2, X = xn 一般称之为一般称之为随机系列随机系列或或随机数列随机数列。12 随机变量仅取得区间内某些间断的离散值,则称随机变量仅取得区间内某些间断的离散值,则称为为如洪峰次数,只能取如洪峰次数,只能取0,

9、 1, 2,不,不能取相邻两数值之间的任何值。能取相邻两数值之间的任何值。 随机变量可以取得一个随机变量可以取得一个有限区间内有限区间内的任何数值,的任何数值,则称为则称为如某河流断面的流量可以取如某河流断面的流量可以取0 极限值之间的任何实数值。极限值之间的任何实数值。13 随机变量的取某一可能值的机会有的大有的小,随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:即随机变量取值都有一定的概率与之相对应,可表示为:nn2211PxXPPxXPPxXP )()()( 上式中上式中P1, P2, Pn 表示随机变量表示随机变量X 取值取值x1, x2,

10、xn 所对应的概率。所对应的概率。14 x1 x2 x3 x4 xn 一般将这种对应关系称作随机变量的一般将这种对应关系称作随机变量的简称为简称为可以用以下的分布图形表示:可以用以下的分布图形表示: 离散型随机变量概率分布图离散型随机变量概率分布图15 由于它的所有可能取值有无限个,而取个别值的概由于它的所有可能取值有无限个,而取个别值的概率率故无法研究个别值的概率。水文学上习惯研故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:究随机变量的取值等于或大于某个值的概率,表示为: 它是它是x的函数,称作随机变量的函数,称作随机变量X 的分布函数,记作的分布函数

11、,记作F(x), 即即 F(x)=P(X x) 表示随机变量表示随机变量X 大于或等于值大于或等于值 x 的概率,其几何曲的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称线称作随机变量的概率分布曲线(水文学上通常称)(xXP 160 0.2 0.4 0.6 0.8 1.0)xX(P)x(F 500900年降雨量年降雨量(mm)某站年雨量概率分布曲线某站年雨量概率分布曲线 P(X x)17 P(X x)=P(X x+ x)+P(x+ x X x) P(x+ x X x)= P(X x)-P(X x+ x) =F(x)-F(x+ x) (1)则,降雨量落在则,降雨量落在900和和500

12、mm的可能性为的可能性为: 60%-15% = 45% x x+ x PXP(X x)P(Xx+ x)18 随机变量落在区间随机变量落在区间(x, x+x)的概率与该区的概率与该区间长度的比值间长度的比值 称作随机称作随机变量落在区间变量落在区间(x, x+x)平均概率平均概率。xxxFxF )()( 19称称 f(x)为为,简称,简称。而密度函数的几何曲线称作而密度函数的几何曲线称作。)()()()()()(xfxFxxFxxFlimxxxFxFlim0 x0 x20f(x)f(xi)F(x)xi密度曲线密度曲线分布曲线分布曲线dxxfxFx )()(xxdx21通过密度函数通过密度函数f(

13、x)可求出随机变量可求出随机变量X落在落在(x x+dx)区间即区间即dx上的概率上的概率= f(x)dx,称之为概率,称之为概率元素,即为图中的阴影面积;元素,即为图中的阴影面积;通过密度函数通过密度函数f(x)可求出随机变量可求出随机变量 X 概率分概率分布函数布函数F(x),其与密度函数,其与密度函数f(x) 有如下的数学有如下的数学关系关系:dxxfxXPxFx )()()(22 反映随机变量反映随机变量X超过某超过某个值个值 x 的概率。的概率。 这两个函数能完整地描述随机变量的分布这两个函数能完整地描述随机变量的分布规律。规律。 反映随机变量反映随机变量X落入落入dx 区区间的平均

14、概率;间的平均概率;23 位置特征参数位置特征参数均值(平均数)均值(平均数)众值(众数)众值(众数)中值(中位数)中值(中位数)离散程度特征参数离散程度特征参数均方差均方差变差系数变差系数Cv对称程度特征参数对称程度特征参数偏态系数偏态系数Cs24xniiiniiipxxEpxx11)(或或 niixnx1125dxxfxxEba)()( 式中,式中,a、b 分别为随机变量分别为随机变量 X 取值的上下取值的上下限。限。 数学期望数学期望或或平均数平均数代表整个随机变量的总代表整个随机变量的总水平的高低,它为分布的中心。水平的高低,它为分布的中心。26 表示概率密度分布表示概率密度分布峰点峰

15、点所对应的数。所对应的数。 M0(x) 是使概率是使概率 P ( = xi )等于等于 最大时所相应的最大时所相应的 x i值。值。M0(x) =xiPi-1 Pi Pi+1 Px27 M0 (x)是概率密度函数是概率密度函数f (x)等于最大时所对应等于最大时所对应的的 xi 值值M0(x)f(x)x28 把概率密度分布分为二个相等部分的数把概率密度分布分为二个相等部分的数。 将所有变量的可能取值按大小次序排列,将所有变量的可能取值按大小次序排列,位置居中的数字。位置居中的数字。29中位数满足:中位数满足:21dxxfdxxfbxMxMaee)()()()(式中,式中, a, b 分别为分别

16、为随机变量随机变量 X 取值的取值的上下限上下限Me(x)xf(x)1/21/2ab30 该参数用以反映该参数用以反映随机变量分布离散程度随机变量分布离散程度( (相对于相对于随机变量分布中心即平均值的差距随机变量分布中心即平均值的差距) )的指标,通常有的指标,通常有以下几种:以下几种: 值愈大,分布愈分散;值愈大,分布愈分散; 值愈小,分布愈集中。值愈小,分布愈集中。 (Standard deviation)1 2 2 1f(x)x标准差对密度标准差对密度函数的影响函数的影响31例例1:两系列:甲:两系列:甲-5,10,15; 乙乙-1,10,19 。 比较其离散程度比较其离散程度10乙甲

17、xx0 . 43)1015()1010(105222)(甲35. 73)1019()1010(101222)(乙表明:乙系列的离散程度大于甲系列表明:乙系列的离散程度大于甲系列 均值相同时,均方差可以反映其离散程度;但均值不均值相同时,均方差可以反映其离散程度;但均值不同时,却无法比较同时,却无法比较-因此,引入离差系数(变差系数)因此,引入离差系数(变差系数)32xxECV )(CV1CV2CV2 CV1f(x)x变差系数对密变差系数对密度函数的影响度函数的影响CV值愈大,分布愈分散;值愈大,分布愈分散;CV 值愈小,分布愈集中。值愈小,分布愈集中。对于对于的二个系的二个系列,用均方差来比较

18、其列,用均方差来比较其离散程度就不合适,则离散程度就不合适,则要采用均方差和均值的要采用均方差和均值的比来表示:比来表示:33表明:甲系列的离散程度大于乙系列表明:甲系列的离散程度大于乙系列08. 410甲甲x08. 41000乙乙x005. 010000 . 550. 0100 . 5乙乙乙甲甲甲xcxcvv例例2:比较两系列的离散程度:比较两系列的离散程度: 甲甲-5,10,15; 乙乙-995,1000,1005 。34f(x)x偏态系数对密度函数的影响偏态系数对密度函数的影响Cs=0Cs0Cs 0 , 称为正偏;称为正偏; CS 0Cs0,密度曲线峰顶在均值的左边,为左偏或正偏,密度曲

19、线峰顶在均值的左边,为左偏或正偏,概率分布曲线为向下凹曲线。概率分布曲线为向下凹曲线。 l 当当Cs0Cs0 Cs0 (PIIIPIII曲线)。当其他参数不变时,曲线)。当其他参数不变时,CsCs值越大,则概率曲线的凹度越大,即两值越大,则概率曲线的凹度越大,即两端都在正态直线以上,中间部分向下。端都在正态直线以上,中间部分向下。37是指水文分析计算中使用的分是指水文分析计算中使用的分布曲线。可分为:布曲线。可分为:习惯上把由实测资料(样习惯上把由实测资料(样本)绘制的频率曲线称为经验频率曲线,本)绘制的频率曲线称为经验频率曲线,而把由数学方程式所表示而把由数学方程式所表示的频率曲线称为理论频

20、率曲线。的频率曲线称为理论频率曲线。正态分布正态分布极值分布型极值分布型皮尔逊皮尔逊型分布型型分布型38xexfxx222)(21)(式中,式中, :平均数;:平均数; :标准差。:标准差。x 许多许多如水文测量误差、抽样误差如水文测量误差、抽样误差等一般服从正态分布。等一般服从正态分布。 随机变量随机变量x的密度函数为的密度函数为39f (x) a. 单峰,只有一个众数;单峰,只有一个众数; b. 以均值为轴对称以均值为轴对称, Cs= 0; c. 曲线二端趋于曲线二端趋于 , 并以并以x 轴为渐近线轴为渐近线; d. 1)(dxxf xxx正态分布的均值正态分布的均值 和标准差和标准差 确

21、定后,分布就唯一确定确定后,分布就唯一确定了。了。x40)(100)()()(axeaxxf 式中式中, ( ) 的伽玛函数的伽玛函数, , , a 0:三个参数,它们与三个统计参数:三个参数,它们与三个统计参数有一定的关系,其表达式为:有一定的关系,其表达式为: dxexx01)(svc,c,x)21(2402svsvsccxaccxc 41f(x)皮尔逊皮尔逊 型概率密度曲型概率密度曲线线 a0M0(x)Me(x)xP PxdxxfP)(xP-III型曲线的特点:型曲线的特点:42 PxaxPdxeaxxXPP)(100)()()( 在水文计算中,一般要求出指定概率在水文计算中,一般要求出

22、指定概率 P 所相应所相应的随机变量的取值的随机变量的取值 xP,即求出的,即求出的 xP满足下列等式:满足下列等式: 取标准变量取标准变量 , 即即 代入上式,代入上式, , , a0以相应的以相应的 和和 关系式表示,简化后得:关系式表示,简化后得: VCxxx)( )1(VCxx VCx,SC43 dCfPPsP),()( 0.031.302.473.384.160.20.021.292. 403.233.940.10.001.282.333.093.720.0501010.10.01P(%) p Cs 被积函数含有参数被积函数含有参数 , Cs ,而,而 包含在包含在 中,制成中,制成

23、 对应关系表:对应关系表:,VxCPsPC VCxxx)( 44xCxVPP)1( 即求出指定概率即求出指定概率 P 所相应的随机变量的取值所相应的随机变量的取值 xP45已知已知: : 某地年平均降雨量某地年平均降雨量 =1000 mm, , CV =0.5, CS =1.0, ,若年降雨量符合若年降雨量符合P - III型分布型分布试求:试求:P=1% 的年降雨量。的年降雨量。x解:解:由由 CS =1.0及及P =1%,查附表,查附表1得得 p = 3.02 1%(1)(3.020.5 1)1000= 2510PPVxx Cxmm + +46引入引入模比系数模比系数: x/xKPP 1

24、VPPCKxCxVPP1)( 由由由此建立由此建立 的的 对应数值关系对应数值关系P-III型型曲线模比系数曲线模比系数 KP 值表值表PKCPV上例的解法:上例的解法:由由 CV = 0.5, CS = 1.0=2 CV ,P = 1%查附表查附表2得得:mmxKxKP1%P251010002.512.51 P(%)CV0.010.10.20.330.512510205075909599(一)(一) CS=CV0.051.191.161.151.141.131.121.111.091.071.041.000.970.940.920.891.5011.68.858.027.366.876.00

25、5.113.923.002.040.64-0.10-0.53-0.70-0.89(二)(二)CS=1.5CV0.05(三)(三) CS=2CV。(三)(三) CS=6CV48x(1)均值)均值 对频率曲线对频率曲线的影响的影响49(2)变差系数)变差系数Cv对频率曲线的影响对频率曲线的影响50(3)Cs对频率曲线的影响对频率曲线的影响51由随机抽样而引起的误差,在统计学中称为抽样误差。由随机抽样而引起的误差,在统计学中称为抽样误差。52535455 水文随机变量的总体是无限的,这就需要水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本在总体不知道的情况下,靠抽出的样本( (

26、观测观测的系列的系列) )去估计总体参数。去估计总体参数。估算方法有:估算方法有: 矩法;矩法;矩法是用样本矩估计总体矩,矩法是用样本矩估计总体矩,并通过矩和参数之间的关系,来估计频率曲并通过矩和参数之间的关系,来估计频率曲线参数的一种方法。线参数的一种方法。适线法;适线法; 56 是以经验频率点据为基础,在一定的适是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率线准则下,求解与经验点据拟合最优的频率曲线参数,这是一种较好的参数估计方法,曲线参数,这是一种较好的参数估计方法,是我国是我国的主要方的主要方法。法。57经验频率经验频率及及经验频率曲线:经验频率曲线:【例】已

27、知某地年降雨量的观测资料【例】已知某地年降雨量的观测资料(n=12),并由大,并由大 到小排列,按到小排列,按 计算频率。计算频率。式中,式中,P:大于或等于某一变量值:大于或等于某一变量值 x 的的经验频率经验频率; m:x 由大到小排列的序号,即在由大到小排列的序号,即在n 次观测资次观测资料中出现大于或等于某一值料中出现大于或等于某一值 x 的次数。的次数。nmP58经验频率计算表:经验频率计算表:59 其反映年降雨量其反映年降雨量(X x)的经验频率的经验频率P(X x)和和x的关系。的关系。随着样本容量随着样本容量n的增加,频率的增加,频率P就非常接近于概率,而该就非常接近于概率,而

28、该经验分布曲线就非常接近于总体的分布曲线。经验分布曲线就非常接近于总体的分布曲线。由此得到经验分布曲线由此得到经验分布曲线: :0 .02 0 .04 0 .06 0 .08 0 .01 0 0 .0P (% )8 0 01 0 0 01 2 0 01 4 0 0年 降 雨 量 (m m )经经 验验 分分 布布 曲曲 线线P (X x)x60%31.92112121 nmP样本的每一项的经验频率用公式样本的每一项的经验频率用公式P=m/n进进行计算,当行计算,当m=n时,时,P=100%,说明样本的最末项,说明样本的最末项为总体的最小值,为总体的最小值,中国常采用下面的公式进行计算:中国常采

29、用下面的公式进行计算:这样,当这样,当m=n=12 时,时,该公式在水文计算中通常称为期望公式该公式在水文计算中通常称为期望公式1 nmP61所谓的重现期是指某一随机事件在很长所谓的重现期是指某一随机事件在很长时期内平均时期内平均出现一次(水文学中常称出现一次(水文学中常称为为“多少年一遇多少年一遇”)。即在许多试验中,某一)。即在许多试验中,某一随机事件重复出现的时间间隔的平均数,即平随机事件重复出现的时间间隔的平均数,即平均的重现间隔期。在水文分析中,重现期可以均的重现间隔期。在水文分析中,重现期可以等效地替代频率。等效地替代频率。62对于暴雨洪水(防洪,设计频率P50%) )(11pxP

30、PT(年) 三峡:P=0.01%,Q0.01%=91100m3/s,指平均每10000 年遇到 1 次洪峰流量91100 m3/s的洪水 对于枯水(灌溉、发电、供水等,P50%) PxPTp11)(1 例如P=80%,%201%8011T5(年) 63 根据实测样本资料进行点绘根据实测样本资料进行点绘 纵坐标为随机变纵坐标为随机变量量X=x,横坐标为对应的经验频率横坐标为对应的经验频率P(X x),经验经验频率计算公式为:频率计算公式为:1mPn 假定一组参数假定一组参数 ,可选用矩法的估值作,可选用矩法的估值作为为 的初始值的初始值, ,一般不求一般不求CS,假定假定 ,K为比例系数,可选为

31、比例系数,可选 K1.5, 2, 2.5, 3.SVC,C,xVC,xVSKCC 已知:经验频率分布,已知:经验频率分布, 求:总体分布参数求:总体分布参数64根据选定的参数根据选定的参数 ,由由P-III型曲线离均型曲线离均系数值系数值或或P-III型曲线模比系数型曲线模比系数KP 值表值表(,求出求出 xP P 的频率曲线,将其绘在有经验点据的的频率曲线,将其绘在有经验点据的同一张图上,看它们的配合好坏,若不理想,则同一张图上,看它们的配合好坏,若不理想,则修改有关的参数修改有关的参数(主要调整主要调整CV 及及K=CS /CV ),重复,重复以上的步骤,重新配线;以上的步骤,重新配线;S

32、VC,C,x选定线型,对于水文的随机变量,一般选选定线型,对于水文的随机变量,一般选P-III型型;根据配合的情况,选出一配合最佳的频率曲线作根据配合的情况,选出一配合最佳的频率曲线作为采用曲线,则为采用曲线,则作为作为。65PxP 适线法的实质是通过样本经验分布来推求总体分适线法的实质是通过样本经验分布来推求总体分布,适线法的关键在于布,适线法的关键在于“最佳配合最佳配合”的判别。的判别。经验点据经验点据 理论频率曲线理论频率曲线为避免修改参数的盲目性,要了解参数为避免修改参数的盲目性,要了解参数 对频率曲线形状的影响:对频率曲线形状的影响:SVCCx,6621xx x PP21VVCC P

33、x P21SSCC Px P67ppKpx(%)P666.4x0.30vC 2svCC68 水文现象中许多变量不是孤立的,相互之间存水文现象中许多变量不是孤立的,相互之间存在联系,则分析研究二个或二个以上随机变量之间在联系,则分析研究二个或二个以上随机变量之间的关系,称作的关系,称作水文计算中,相关分析可以用来延长和插补短水文计算中,相关分析可以用来延长和插补短系列。如某一水文要素的实测资料系列很短,而与系列。如某一水文要素的实测资料系列很短,而与其相关的另一要素的资料却比较长,这样我们就可其相关的另一要素的资料却比较长,这样我们就可以通过相关分析来把短系列延长。以通过相关分析来把短系列延长。

34、 水文预报中也经常采用相关分析的方法。水文预报中也经常采用相关分析的方法。69 如果两个变量如果两个变量x, y,其中变量,其中变量x 的每一个值,的每一个值,变量变量y 都有一个或多个确定值与之对应,而且都有一个或多个确定值与之对应,而且x, y成函数关系,即成函数关系,即x, y的关系的关系点完全落在点完全落在直线直线或或曲线曲线上,上, 则称这二个变量则称这二个变量是是完全相关完全相关的。的。完全相关完全相关yx直线关系直线关系曲线关系曲线关系70零相关零相关YX71 如果两个变量如果两个变量x, y之间关系介于以上二者之间,之间关系介于以上二者之间,x, y的关系点虽有点分散,但有明显

35、的趋势,数学的关系点虽有点分散,但有明显的趋势,数学上可以用一定的表达式进行拟合。则称这二个变上可以用一定的表达式进行拟合。则称这二个变量关系为量关系为: 或或。yx统计相关统计相关72确定二个变量间相关关系的数学表达式确定二个变量间相关关系的数学表达式, ,以以或或表示,用以由已知变量表示,用以由已知变量推求未知变量;推求未知变量;判断二个变量间相关关系的密切程度判断二个变量间相关关系的密切程度, ,用一称为用一称为的参数来表示。的参数来表示。73 水文计算中,一般处理两个变量间的相关关系,称水文计算中,一般处理两个变量间的相关关系,称,有时也要处理三个或三个以上变量关系,称为,有时也要处理

36、三个或三个以上变量关系,称为。简相关可分为。简相关可分为和和。曲线相关曲线相关直线相关直线相关 相关分析法可分为相关分析法可分为和和。74 根据实测值,将对应点绘于方格纸上,如果点群根据实测值,将对应点绘于方格纸上,如果点群分布平均趋势为一直线,则可以分布平均趋势为一直线,则可以来近似代表这来近似代表这种相关关系。通过点群中心目估绘出一条直线,然种相关关系。通过点群中心目估绘出一条直线,然后在图上量出直线的后在图上量出直线的斜率斜率a和和截距截距b,则直线方程,则直线方程: y=a+bx 即为所求的即为所求的相关方程相关方程。 该方法简便实用,而且一般情况下精度可以保证。该方法简便实用,而且一

37、般情况下精度可以保证。75 若相关点分布较散,目估定线有一定任意性,若相关点分布较散,目估定线有一定任意性,为保证一定精确性,最好采用为保证一定精确性,最好采用分析法分析法来确定相关来确定相关线的方程。设该直线方程形式为:线的方程。设该直线方程形式为: y = a+bx 式中,式中,x:自变量:自变量 y :倚变量:倚变量 a, b :分别为一常数,待定。:分别为一常数,待定。 则相关点与直线在则相关点与直线在纵轴方向纵轴方向必然存在必然存在离差离差。76配合曲线与观测点在纵轴方向的离差为:配合曲线与观测点在纵轴方向的离差为:iiiibxayyyy bxay xy iyyxiy77 要求配合曲

38、线与所有的观测点能要求配合曲线与所有的观测点能“最佳最佳”拟合,拟合,即满足所有的观测点的离差即满足所有的观测点的离差 y 的平方和为最小,的平方和为最小,即:即:为为最最小小222)()()(iiibxayyyy 0022 b)yy(a)yy(ii分别对分别对 a, b 求一阶偏导数,并令其为零:求一阶偏导数,并令其为零:78求解上列两联立方程式,可得求解上列两联立方程式,可得:vyvxiyixiyixiyixiiiiCCnKKKKKKyyxxyyxx) 1() 1)(1() 1() 1() 1)(1()()()(2222 xyb xyxbyaxy 79式中,式中, :分别为分别为x, y

39、系列的均方差系列的均方差/标准差标准差; :分别为:分别为x, y 系列的平均值系列的平均值; :x, y 系列的变差系数系列的变差系数(按不偏估计公式计算按不偏估计公式计算):yx, y,xvyvxC,C1)1(,1)1(22 nKCnKCyivyxivx :相关系数:相关系数; Kxi ,Kyi:分别为:分别为xi , yi系列的模比系数系列的模比系数:yyKxxKiyiixi ;80 xy为回归线的斜率,称为回归线的斜率,称 y 为为 x 倚的回归系数倚的回归系数)(xxyyxy 式即为式即为y 倚倚x 的回归方程,其曲线称为的回归方程,其曲线称为(仅是对点据拟合最佳一条线仅是对点据拟合

40、最佳一条线),亦可表示为:,亦可表示为:xyxxyy)( 将将 , 代入代入y = a+bx中得:中得:xyb xyaxy 81 回归线只能反映两变量间的平均关系,回归线只能反映两变量间的平均关系,由于由于x, y并并非确定性关系,对于非确定性关系,对于x=x0,无法知道其相应的真正值,无法知道其相应的真正值y0 ,利用回归线来插补展延短期系列时,总有一定误利用回归线来插补展延短期系列时,总有一定误差。差。通过回归方程求到:通过回归方程求到: 仅仅是真正值仅仅是真正值y0的一个估计值。故其与真正值的一个估计值。故其与真正值y0存存在偏差。根据统计学的研究,由于随机因素的影响,在偏差。根据统计学

41、的研究,由于随机因素的影响, y0在估计值在估计值 上下波动呈上下波动呈,为了衡量回归线为了衡量回归线与观测点之间的误差,采用均方误,与观测点之间的误差,采用均方误,其均方误差可用其均方误差可用公式表示。公式表示。00bxay 0y 82式中,式中,Sy :y倚倚x回归线的均方误回归线的均方误; yi :观测点的纵坐标值:观测点的纵坐标值; y:由回归方程求:由回归方程求到的纵坐标值;到的纵坐标值;n:观测项的数目:观测项的数目 2ny)(yS2iy 如前所述,可以用均方误进行误差分析,即对于如前所述,可以用均方误进行误差分析,即对于任一固定的任一固定的x=x0值,若以值,若以 作为作为y 的

42、估值,其误差不的估值,其误差不超过超过Sy的可能性为的可能性为68.3%;其误差不超过其误差不超过3Sy的可能性的可能性为为99.7%。0 y83 另外,可以证明回归线的均方误与系列标准另外,可以证明回归线的均方误与系列标准差及相关系数差及相关系数 有以下关系:有以下关系:12yyS ()(1)2iyyyn 式中式中, 为为y系列的标准差系列的标准差(无偏估计量无偏估计量)根据均方误公式,也可以用根据均方误公式,也可以用 2来判断相关程度来判断相关程度 :若若 2 = 1,Sy = 0,则,则 y = yi ,属函数关系,属函数关系;若若 2 = 0,Sy = y ,误差最大,属零相关,误差最

43、大,属零相关;若若 0 2 1,为统计相关为统计相关, 2 1, x, y 关系愈密切。关系愈密切。可知,均方误可知,均方误Sy值愈大,则回归方程的误差愈大值愈大,则回归方程的误差愈大 。84相关系数的均方误可用下式来估算:相关系数的均方误可用下式来估算:n12 式中,式中, 为相关系数;为相关系数; n 为观测项数。为观测项数。是根据有限的实测资料是根据有限的实测资料(样本样本)计算出计算出来的,故相关系数也不免带有抽样误差来的,故相关系数也不免带有抽样误差 故水文上为了推断二个变量的相关性,必须对故水文上为了推断二个变量的相关性,必须对样本相关系数作统计检验。样本相关系数作统计检验。85相关系数的统计检验的思路相关系数的统计检验的思路 - - : 检验二个变量是否相关,先假定二个变量不相检验二个变量是否相关,先假定二个变量不相关,由此如果导致关,由此如果导致“不合理的现象不合理的现象”发生,则表明发生,则表明原先的假定不成立,拒绝原先的假定不成立,拒绝“不相关不相关”的假定,如果的假定,如果没有导致没有导致“不合理现象不合理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论