应用水文统计学复习_第1页
应用水文统计学复习_第2页
应用水文统计学复习_第3页
应用水文统计学复习_第4页
应用水文统计学复习_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用水文统计学(AppliedStatisticsforHydrology)(复习),水文气象研究生课程南京信息工程大学水文气象学院CollegeofHydrometeorology(COHM)NanjingUniversityofInformationScienceThrowingacoinhead,tail;SamplinganAMPofdailyrainfall随机事件:在随机试验中,每一种可能出现的结果(outcomes)就是一个随机事件,简称事件。样本空间:所有可能的基本事件的集合就组成样本空间或称基本空间,记为。基本空间可以是有限也可以是无限的。【注意:无限的空间可能是有边界或上限

2、】基本空间本身作为一个事件,就是必然事件,意为必然要发生的事件。设扔骰子S=1,2,3,4,5,6,S为必然事件。超出基本空间的事件是不可能发生的,称为不可能事件,或称空集(Emptyset)。设扔骰子S=7,S为不可能事件。,事件之间的关系:包含关系:事件A的发生必然导致事件B的发生A=年降雨日数至少60天;B=年降雨日数至少50天2.互斥关系:不可能同时发生的事件(Mutuallyexclusive),它们之间没有交集(Intersection)A=年降雨日数至少60天;B=年降雨日数不多于50天互补关系:设B为样本空间的一个事件,把属于样本空间但不是B的事件称为互补事件(Compleme

3、nt),记为,B=一个班级中的男生;=同一个班级中的女生;班级为该样本空间.,事件的运算事件之和:事件C为A与B中至少有一件发生C=A+B=AB事件之积:事件C为A与B同时发生C=AB=AB事件之差:当事件A与B有交集,定义事件C为A发生时B不发生,则C为A与B之差C=A-B=A=A,频率及其图示表达频率:某事件在N次重复的随机试验中出现m次,其比值m/N就叫做该事件出现的频率。线性表示(Linearscaleplot)直方图(Histogram)Groupedsorted-data4.累积频率图(Cumulativefrequencyplot),Histogram,Increment=0.4

4、in.Increment=0.5in.Increment=0.6in.,随机变量(2),2-1.离散型(Discrete)变量-其每次试验取值是可数的数值(1,2,3,4,n);可以有限个,如掷骰子;也可以无限个,如除夕晚移动通讯某个号码传送拜年短信的次数。定义:其取值不多于一个可数的数值的变量称为离散性随机变量。(Arandomvariableisdiscreteifitcantakeonnomorethanacountablenumberofvalues.Thenumberofpossibleoutcomescanbeeitherfiniteorinfinite.)2-2.连续型(Cont

5、inuous)变量-其每次试验取值不一定是一个可数的数值,但在某个区间可取任何值,如ayb时,y可取任意值。定义:其取值可以是某一区间的任何值的变量称为连续型随机变量。(Arandomvariableiscontinuousifitcantakeanyvalueinaninterval.),分布函数(1),随机变量取值的表达1-1离散型:设X为一随机变量,x为任意实数,则(Xx)代表样本空间中一个事件,其取值的概率P确定且随x的不同取值而不同,因此P是x的函数,记为Fx(x)=P(Xx)=。P(X=xi)=Pi称为概率函数(Probabilityfunction),表示当离散型随机变量X取值x

6、时的概率。有时候又称为概率质量函数(Probabilitymassfunction)Fx(xo)=P(Xxo)称为累积概率函数(Cumulativeprobabilityfunction)Fx(xo)=例1:掷骰子,Px(x)=1/6,x=1,2,3,6a)0ifxo1Fx(xo)=b)j/6ifjxo0P(B/A)=P(B)ifP(A)0,例:南京地区48%的博士学位获得者是女性,17.5%博士学位获得者学习工科,4.7%的博士是学工科的女性。请问:“博士学位拥有者是女性”和“博士学位是学工科的”是否相互独立的事件?令A表示“女性博士”,B表示“工科博士”P(A)=.48;P(B)=.175

7、;P(AB)=.047P(A)P(B)=0.48x0.175=0.084P(AB)=0.047此两事件不是相互独立的。Quiz:请问工科博士是女性的百分比是多少?P(A/B)=,即只有26.9%的工科博士是女性。,1.全概率公式P(B)=P(A1)P(B/A1)+P(A2)P(B/A2)+P(An)P(B/An)*mutuallyexclusive(两两互斥)(Charthere)*collectivelyexhaustive(完备群),2.贝叶斯公式(BayesTheorem)*事前概率(Prior)P(B)*事后概率(Posterior)P(B/A)*第三者信息(Additionalpie

8、ceofinfo),3.几种重要的离散型分布3-1.二项分布(Binomialdistribution)伯努利试验(Bernoulliexperiment):独立重复试验,其结果是两个互斥完备群,或称01事件,如成功或失败。Px(1)=pPx(0)=1-p=q(Bernoullidistribution)若X表示在n次伯努利试验中事件A发生的次数,X=0,1,2,n,其对应的概率可表达如下:其右边表达式是二项式(p+q)n展开式的第k+1项-故称二项分布,Quiz:某中型水库,设计标准为每年出现超标洪水的概率是0.01,假定各年是否出现超标洪水是相互独立的,问:a)在建成100年内刚好只有一年

9、出现超标洪水的概率是多少?b)在100年内至少出现一次大于等于设计洪水的概率是多少?,3.几种重要的离散型概率分布3-1.泊松分布(Poissondistribution)伯努利试验(Bernoulliexperiment):独立重复试验在n次伯努利试验中事件A发生k次的概率:当n很大时,上式计算比较麻烦;有下式:-泊松分布,Exercise:求N-年设计标准的水利工程在N年中发生一次超标洪水的概率10-年:20-年:50-年:100-年:1000-年:用泊松分布:(np=1),4.连续型随机变量与分布密度4-1.1)概率分布密度函数(pdf)2)重点!3)*4),4.连续型随机变量与分布密度

10、(1)4-2.几种重要的连续型随机变量的概率密度分布2)指数分布Exercise:ServiceofcustomersatapubliclibraryreceptiondeskfollowsanExponentialDistributionwithmeanservicetimeof5-min.Whatistheprobabilitythatacustomerservicewilltakelongerthan10minutes?LetXdenoteservicetimeinmin.Thepdfisgiven:;therequiredprobabilityP(X10)is:,4.连续型随机变量与分

11、布密度(2)4-2.几种重要的连续型随机变量的概率密度分布3)正态分布均值,均方差为大于0的常数。正态分布有如下特点:(1)Symmetricaboutx=a;(2)f(x)getsmaximumvalueatx=a;(3)(4)f(x)changesitsshapewhenchangeswhilefixed;(5)f(x)movesinparalleltox-axiswhenchangeswhilefixed.,4.连续型随机变量与分布密度(2)4-2.几种重要的连续型随机变量的概率密度分布3)正态分布标准化正态变量就得到标准化正态分布:,数字特征(1),1.MeasuresofCentra

12、ltendency(中心趋势度量)1-1TheMean(Expectation数学期望)1)离散型这里pi是xi取值的概率,i=1,2,3,;对于有限的样本n,若概率pi(这里确切地讲是频率)为时,简化成这就是我们通常所熟悉的算术平均。2)连续型,数学期望的性质:1)c是常数2)3),数字特征(4),2.MeasuresofDispersion(离散度量)当观测数据很分散时,单靠中心趋度来描述其数字特征是不够的(Almostthemeasureofcentraltendencyisnotsufficienttoprovideanadequatesummaryofthecharacteristi

13、csofthesetofdata)Weneedameasuretoreflectthedegreeofthedispersioninthedata.2-1Variance(方差),数字特征(4),2.MeasuresofDispersion(离散度量)2-1Variance(方差)展开:-很有用!,数字特征(4),2.MeasuresofDispersion(离散度量)2-1Variance(方差)-方差的性质:1)c是常数2)3)Here,数字特征(4),2.MeasuresofDispersion(离散度量)2-1Variance(方差)Forpopulation:Forsample:,数

14、字特征(6),2.MeasuresofDispersion(离散度量)2-3Coefficientofvariance(Cv,离差系数、离势系数)Infact,CvistherelativeSD:,数字特征(8),4.Samplingdistribution(抽样分布)4-1样本均值的数学期望4-2样本均值的方差因此有,称作样本平均数的标准误*样本特征值的标准差称作标准误(Standarderror),数字特征(8),4.Samplingdistribution(抽样分布)4-3样本方差的数学期望(P.149)因此,用s2作为的估计值,在平均意义上是偏小,而应该用作为的估计值才合理,是故有下式

15、:作为的无偏估计。,FrequencyAnalysis,1.Whatsfrequencyanalysis-isastatisticalapproachusingsampleorsamplestoestimatethepopulationprobabilitydistribution.-频率分析是利用一个或数个样本来推求总体概率分布的一种统计方法,WhataretheEssentialIssuesofFA?,Precision(精度)2.Accuracy(准确度),WhatarethemajorproblemsofFA?,1.Theoreticaltruevalueoffrequenciesis

16、unknownforever.(100-year?)理论频率的真值永远不知道。2.Thereisnoanalyticalwaytoderiveatheoreticaldistributiontobestfitthedata.(GLOorGEVorPE3?)无法通过理论分析的途径来选择一条拟合资料最佳的分布曲线,DifficultyoftheFrequencyAnalysis,Thetruevalueoffrequenciessuchas100-yearisunknownforever.频率估计值的真值永远不知道?Somethinglikebullseyeunknown.就像靶心不知道,Theo

17、reticalDistribution,1.Atheoreticaldistributionisuniquelycharacterizedbyasetofparameters.理论频率曲线是由一组参数所唯一确定。2.3-par.distributioniswidelyused(centraltendency,dispersion,skewness)三参数的分布曲线被广泛应用在水文频率计算中(解决中心趋度,离散态势,偏态)。,FivePlausible3-parDistributions,1.GeneralizedLogistic(GLO,概化的罗技斯蒂分布)2.GeneralizedExtre

18、meValue(GEV,概化的极值分布)3.GeneralizedNormal(GNO,概化的正态分布)4.GeneralizedPareto(GPA,概化的帕雷托分布)5.PearsonTypeIII(PE3,皮尔森III型分布)*Sometimes4-parKappaand5-parWakebydistributionareused.,WhatWillWeDo?,L-MomentsMethodfocusingontheissueofprecisionintermsofparameterestimation(线性矩是解决参数估计的精度问题)RegionalAnalysisfocusingon

19、theissueofaccuracyintermsofuncertaintiesofquantiles(地区分析法是解决频率估计值的准确度问题),MethodsofParameterEstimation,1.ConventionalMomentsMethod(CMM)常规矩法2.L-MomentsMethod(LMM)线性矩法,频率计算的几个概念,设计标准(Designstandard)工程规模历史沿革-用概率来描述未来各种大小洪水出现的可能性设计频率:在设计标准中表达某一定大小洪水(降雨)出现的可能性称设计频率,记为p,如p=0.05或5%,p=0.01或1%。设计值:与设计频率相对应的值(

20、洪水或雨量)称作设计值,记为,如或。4.重现期:设计频率p的倒数(Reciprocal)称为重现期,一般记为T,有*注意:当采用年最大值系列(AMS)时,p=0.05相应于T=20(年),其表达意思为a)在一段很长的时期中,这样大的洪水(暴雨)平均20年出现一次;或b)这样大的洪水(暴雨)每年出现的概率为0.05。,P-型分布参数的估计适线法,1、适线法的基本思路2、经验频率公式3、CS-P-关系数值表(简称值表)4、适线法估计P-型分布参数E(X)、Cv、CS的一般步骤5、适线法的优缺点,2、经验频率公式,(4)期望值公式:Pm=m/(n+1)期望值公式具有较强的理论基础,而且偏于安全,被各

21、国广泛采用。复习:课本153页;课本51页顺序统计量Xm*xm*,分布密度函数fm(x),Ym*,hm(y),E(Ym*)随机变量的分布Xf(x),Y=g(X),两类水文频率计算问题:(1)已知P(设计标准),求xp=?(P(Xxp)=p)(2)已知xp,求Tp=?(P(Xxp)=p,Tp=1/p),3、CS-P-关系数值表,例:设X服从P型分布,且求解,4、适线法估计的一般步骤,例:下表为某水文站年平均流量资料,假定总体服从P-型分布,试用适线法估计参数E(X),CV,CS。表1,水文频率计算,1、线型选择2、样本问题(抽样方法)3、参数估计,根据某水文现象的统计特性,利用现有水文资料,分析

22、水文变量设计值与出现频率(或重现期)之间定量关系的过程,(2)资料审查技术,洪水资料是判别成果合理与否的前提,对其需要开展可靠性、一致性、代表性审查。,例:某车间一台自动包装机包装奶粉,标准定量每袋0.5kg,称得的奶粉重量服从正态分布,据往日统计经验知其SD=0.015kg。某天随机抽取奶粉9袋,分别重0.497,0.506,0.518,0.524,0.488,0.511,0.510,0.515,0.512kg.问这天包装机工作是否正常?解:设奶粉重量为X,已知XN(a,0.0152),问a与0.5kg是否存在显著差异?即,包装机是否工作正常?1)构造一统计量(Slide86;标准化U(0,

23、1))2)选取一临界值,当H0成立时,大于是一个小概率事件,。有,当取=0.05,由P352附表三查得=1.963)由于,说明小概率事件没有发生,就没有理由否定原假设,从而接受Ho,即认为这天包装机工作正常。,称作显著性水平(Significancelevel)称作临界值称作置信区间(ConfidenceInterval)(1-)称作置信水平(Confidencelevel)这种检验又称作显著性检验,几个概念,小概率的实际不可能原理(p=0.05;0.01?)构造一个小概率事件,然后根据“小概率事件在一次随机试验中不可能出现的原理”来否定这个事件。统计假设检验的主要目的是起否定作用所以文献中就

24、把要检测的假设H称作“虚假设”(Nullhypothesis),表示我们指望舍弃它;与它对立面的假设就称作“备择假设”(Alternativehypothesis).假设检验中接受或舍弃都有概率的含义因此,接受H并不等于证明H的真实性。舍弃H也不等于证明H的不真实。,两类错误,是故,假设检验得出结论时,可能犯两类错误:假设属真而我们舍弃了它-第一类错误,“拒真”假设不真而我们接受了它第二类错误。“纳伪”*一个好的检验犯两类错误的概率尽可能地小。在实际应用中我们要做的是:在给定第一类错误的概率下,怎样才能得到较好的一种检验,以减少第二类错误的风险。(P200图8-2),几种常用的假设检验(1),

25、一个正态总体均值的假设检验总体方差已知H0:a=a02.总体方差未知H0:a=a0,例题:设某雨量站共有16年的前汛期(4-5月)降雨量资料,其平均值=360.5毫米,均方差S=110.7毫米,假设该站前汛期降雨量服从正态分布,总体方差未知。要求检验409.0毫米(相对于),显著性水平=0.05(注:t检验的临界值2.03),例题:设某雨量站共有16年的前汛期(4-5月)降雨量资料,其平均值=360.5毫米,均方差S=110.7毫米,假设该站前汛期降雨量服从正态分布,总体方差未知。要求检验409.0毫米(相对于),显著性水平=0.05(注:t检验的临界值2.03)由于,所以接受H0,即总体均值

26、与已知常量在显著性水平0.05上没有差别。,1、一致性:若参数u0的估计量,对任给0具有性质,2、无偏性:设U是未知参数u0的估计量,如果E(U)=u0,则称U为u0的无偏估计量。3、有效性:设U1,U2都是参数的无偏估计量,若对任一n,D(U1)D(U2)成立,则称估计量U1较U2有效。4、稳健性:参数对于特大值的稳健性,MajoradvantagesoftheLMM(3),CMMplayspoorlytooutlier(10.37”/dayon7/22/1947at#2682,PA)CscannotmodelthisoutlierevenforN=500yr.Fig.3Difficultt

27、omodeltheoutlierbyCMM(常规矩很难拟合特大值),MajoradvantagesoftheLMM(4),LMMrobusttooutliers(10.37”/dayon7/22/1947at#2682,PA)L-CsmodelsthisoutlierverywellwhendataN=100yr.Fig.4RobustnesstooutlierbyLMM(线性矩具有对特大值的稳健性),1.LinearCorrelation,LetXandYbeapairofrandomvariables,withmeansandandvariancesand.Ameasuretodefine

28、theassociationbetweentheXandYisthecovarianceasshownbelow,(compare)Fig.1showsthathighvaluesofXtendtobeassociatedwithhighvaluesofYandlowXwithlowYforpositiveassociation,+r;Fig.2showsthathighvaluesofXtendtobeassociatedwithlowvaluesofYandlowXwithhighYfornegativeassociation,-r.*Acovarianceof0meansthereisn

29、olinearassociationatallbetweenXandY.,Normally,weuseadimensionless(scalefree)measuretodescribetheassociationbetweentheXandYbydividingthecovariancebytheproductoftheindividualstandarddeviations.Correlationcoefficient,(Pearsonsrho),isameasureofthestrengthoftheirlinearassociationbetweenXandY.,Samplecorre

30、lationcoefficient,Let(x1,y1),(x2,y2),(xn,yn)denotearandomsampleofnpairsofobservationsontherandomvariablesXandY.Wehavesamplecorrelationcoefficient,r,givenbelow:Practically,Hypothesisofnolinearassociation,TestforPopulationCorrelationLetrbethesamplecorrelationcoefficient,calculatedfromarandomsampleofnp

31、airsofobservationsfromajointnormaldistribution.,3.Linearregression,ItiscalledthepopulationregressionlineofYonX(称为Y依X的理论回归直线),wherearecoefficients(constants)andiserrorterm,arandomvariablewithmean0,i.e.istheslopeoftheregressionline.,对有以下假定:独立性:对于任意i和j,零均值性:共方差性:正态性:i.e.是相互独立且服从同一正态分布的随机变量。,LeastsquaresestimationandSampleregressionline(1),Let(x1,y1),(x2,y2),(xn,yn)beasampleofnpairsofobservationsonaprocesswithp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论