降水时间序列挖掘模型的建立和应用.doc_第1页
降水时间序列挖掘模型的建立和应用.doc_第2页
降水时间序列挖掘模型的建立和应用.doc_第3页
降水时间序列挖掘模型的建立和应用.doc_第4页
降水时间序列挖掘模型的建立和应用.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

降水时间序列挖掘模型的建立和应用罗耀军(柳州铁道职业技术学院,广西柳州 545007)【摘要】在广西柳州水文水资源分局收集有关的水文数据并进行相应的预处理基础上,根据时间序列分析所涉及的主要内容,将水文时间序列分解为趋势项、周期项、突发项、随机项,然后分别按照各个组成项的变化规律对这些项进行研究,找出其变化规律,并分别建立各个组成项的数学模型,最后将这些分解模型合成为水文时间序列的预测模型,并使用此模型对水文时间序列的未来值进行预测和分析。【关键词】时间序列;水文数据;模型;建立;预测【收稿日期】2010-3-5【作者简介】罗耀军 (1961-),男,广西全州人,柳州铁道职业技术学院信息工程系副教授,主要从事计算机应用技术研究。【中图分类号】TP301【文章标识码】 BEstablishment and Application of Time-series Mining ModelLuo Yao-jun(Liuzhou Railway Vocational Technical College,Liuzhou Guangxi 545007)Abstract:on the basis of data collected by Liuzhou, Guangxi Hydrology and Water Resources Branch and the corresponding pre-treatment ,the hydrology time series is broken up into trend term, periodicity term, outburst term and randomness term according to the main contents related to the time series analysis. According to the change law of each composition term, these composition term are analysed and researched respectively, their rules of variance can be discovered. A mathematic model to each composition term is also built up. Finally, these decomposition models are synthesized for hydrological time series prediction model and use this model to forecast and analyze the future of hydrological time series.Key words:time series; hydrology data; model; establish;forecast近年来,国内外科研人员和工程技术人员在水文时间序列数据挖掘方面取得了一定的研究成果,主要有传统的时间序列分析技术、随机水文理论、模糊分析方法、灰色系统方法、信息嫡分析方法、混沌理论分析方法、小波分析方法、人工神经网络方法等。丁晶与邓育仁两人,比较系统地综合了随机水文学领域的基本理论和方法以及研究成果,指出随机性、模糊性和灰色性往往共存于所研究的对象和问题中,在不确定性分析和计算时,不宜独立地采取单一方法,应将各种方法有机地结合起来1。陈南祥等将相空间重构理论与神经网络理论相结合,提出了径流时间序列预测模型2,该模型在汉江石泉水库逐月平均入库径流序列预测中有较高的预测精度。杨建平等应用Meyer小波对长江黄河源区水文和气象序列周期变化进行分析,发现天体运动直接影响降水量和气温的周期变化,进而在一定的条件下影响径流的周期变化3。王红瑞等应用混沌理论对水文时间序列进行研究,提出分形上的混沌动力系统以及混沌与神经网络相结合的方法4,这样可以为水科学问题的研究提供一些新的思路。本文主要采用时间序列分析技术对广西柳州水文水资源分局下属的柳州水文站所收集和记录的水文数据进行挖掘分析,并期望从这些数据中找出隐藏于其中的关系和规则,然后对未来的发展趋势做出预测和评估,这样可以为有关的职能部门的决策提供参考和服务。在现实中,时间序列的变化受许多因素的影响,有些因素起着长期的、决定性的作用,使时间序列的变化呈现出某种趋势和一定的规律性,有些因素则起着短期的、非决定性的作用,使时间序列的变化呈现出某种不规则性。广西柳州水文水资源分局收集有关的水文数据是对水文过程的离散记录,由于水文过程本身的复杂性和不确定性,某些外在因素对水文过程的影响途径不清、机制不明,因此水文数据具有高度的非线性特点,如果仅从线性或近似为线性问题的角度去研究水文数据,则必然具有一定的局限性。因此应将多种方法结合起来,才能开发出一种精度较高的预测模型。根据时间序列的特点和特征,在对时间序列进行分析时,其所涉及的内容一般有趋势变化、周期性、随机性和突发性。趋势项反映的是时间序列的季节性趋势或多年变化趋势;周期项反映的是时间序列的周期性变化;突发项是表示时间序列受到外部突发因素的影响而形成的变化。趋势项、周期项、突发项反映了时间序列中的确定性成分,把这三项分离出去,剩下的就是随机项。设X为时间序列,T为趋势项,P为周期项,R为随机项,B为突发项,则X可以表示为5,6: (1)或 (2)将时间序列分解为上述四个部分后,则可以分别对各个组成项进行研究,找出其变化规律,然后对未来的时刻进行外推,最后将各项合成且将其作为时间序列的预测值。1 数学模型分析1.1 水文时间序列的趋势项分析水文时间序列的趋势项分析可以采用移动平均法、加权移动平均法、指数平滑法、最小二乘法等方法进行分析。本文采用指数平滑法进行分析。指数平滑法来源于移动平均法,是移动平均法的延伸。移动平均法可以对时间序列进行修匀,并测定其长期变化趋势,当然这样的预测比较粗糙,常用的方法是将其改造为更适当的形式指数平滑法。指数平滑法的原理6:设Xt为时间t时的观测值,t为时间t时的简单移动平均数,n为移动平均时期数,一般取3或者5,为消除年周期影响,对月份资料可以取12,对季节资料可以取4,为消除日周期影响,对小时资料可以取24,其余类似。于是有:t时的简单移动平均数: t=(Xt-1+Xt-2+Xt-3+Xt-n)/nt+1时的简单移动平均数: t+1=(X t+X t-1+X t-2+X t-n+1)/n =(X t+X t-1+X t-2+X t-n+1+X t-n-X t-n)/n = t+ Xt /n- Xt-n /n在历史资料不足的情况下,远期的Xt-n值可能没有,可用t作为其最佳估计值,再用预测值t代替t,上式可以写为:t+1 =t + Xt /n-t /n以代替1/n,则得:t+1 =Xt +(1-)t (3)t+1 =t +(Xt-t) (4)上两个式子是指数平滑预测常用的两个基本公式,式中的是平滑系数。式3的意义是:新预测值=(t时观测值)+(1-)t时预测值即新预测值是t时观测值与t时预测值的加权平均数,权数分别为和1-,是小于1的系数。式4是误差校正式,其意义是:新预测值= t时预测值+(t时观测值- t时预测值) = t时预测值+(t时预测误差)其中:t时预测误差= t时观测值- t时预测值= Xt-t 从式3和式4可以看出指数平滑法的递推性质,因为这种预测可以永远地循环下去。将式3进行分解即可看出此方法的指数加权性质: t+1 =Xt +(1-)t=Xt +(1-)Xt-1+(1-)2t-1 =Xt +(1-)Xt-1+(1-)2Xt-2+(1-)3Xt-3+ +(1-)t-1X1+(1-)t 1使用指数平滑法进行预测,必须预先解决平滑系数的取值问题。如果原数列波动不大,可以取较小值(例如0.10.3),以加重旧预测值的权数;反之,如果原数列波动较大,则宜取较大值(例如0.60.8),以加重新观测值的权数。在无法做出判断时,可以分别用几个不同的值进行计算,然后进行比较,最后采用预测值误差最小的方案。1.2 水文时间序列的周期项分析从水文时间序列Xt分离出趋势项可得到新序列Zt,此时可对新序列Zt进行周期分析。在自然界中存在着各种不同时间长度的周期和准周期现象,例如一年中的季节交替,一天中的日出日落等现象,就是我们熟知的周期现象。如果某现象的某一事件出现以后,经过一定的时间长度,该事件一定重现,则称该现象具有严格的周期性。具有严格周期性的现象可以表示为: (j=1,2,3,) (5)其中T称为该现象的周期。例如正弦波和余弦波就具有严格的周期性。在现实世界中,还存在一种概率统计意义上的周期。例如广西柳州水文数据描述年4月份的降水量具有11年的周期,其仅仅表示该地在4月份的降水量每隔11年左右出现一个高值或低值的可能性比较大,而不是说该地每隔11年4月份的降水量一定会出现一个高值或低值。这类周期性通常称为准周期性。自然界中存在的周期现象,绝大多数都属于准周期现象。准周期一般都隐含在时间序列的变化中,如果把一个时间序列看成是由几个确定的谐波叠加而成的复杂波动,那么只要分析出构成时间序列的这些谐波,即可将这些谐波叠加,然后使用其进行外推,这样可对时间序列的未来值做出预测。对时间序列进行周期分析,首先要判断时间序列中是否存在显著周期,如果存在显著周期,则将其从时间序列中滤除,直到无显著周期为止。时间序列的周期分析是现代统计预测学的一个重要分支,其中最常用的方法是方差分析。u 判断时间序列中是否存在显著周期在分析周期之前,事先并不知道这一序列的周期是多少,所以要根据序列长度,列出可能存在的周期。如果时间序列总长度为n,则可能存在的周期为T(T=2,3,n/2)7。将周期为T的时间序列进行分组,对应可以分为T组数据,根据式5可知第i组的平均值为: (6)式中 i的值为1,2,3,TT周期ni不大于n/T的最大整数,即一组内的数据个数将时间序列分别按每一个可能的周期(T=2,3,n/2)进行分组,计算相应的组内离差平方和SE及组间离差平方和SA : (自由度f1=n-T) (7) (自由度f2=T-1) (8)式中 ni第i组中数据的个数i 第i组的平均值总平均值可以证明FT=(SA/f2)/(SE/f1)服从自由度为(f2,f1)的F分布。给定显著水平(例如=0.05)查F分布表可以得到F(f2,f1)的值,如果FTF,则此周期为显著周期。选择最大的显著周期为第一周期,并将其周期成份从序列中滤去,再把剩余序列重复上述步聚,直至无显著周期。最后将提取出的各个谐波叠加即可求出周期项。u 从时间序列中提取周期成份周期确定后, 周期成份Pt可用如下形式描述: (9)式中 d有效谐波数Ti第i个谐波对应的周期ai和bi为参数, 计算式为: (10) (11)1.3 水文时间序列的突发项分析突发项分析主要是从原始的资料进行详细考查,以断定有无突发项存在。如果时间序列中不含有突发项,此时就可以免去分离突发项的工作。1.4 水文时间序列的随机项分析从时间序列分离出趋势项、周期项和突发项之后,剩余的序列具有平稳随机过程的性质。随机项可以采用自回归模型进行分析。设Zt为剩余时间序列在t时的值,则回归方程为: (12)式中 Zt时刻t的时间序列值常数项p,j(j=1,2,p)自回归系数p模型阶数。自回归系数可以根据实测的水文时间序列数据,利用最小二乘法建立Yule-Walker方程组,运用递推公式求解自回归系数5,6,8,9,模型阶数p可以通过AIC准则来确定,AIC准则是由Akaike在1973年提出的。2 模型的检验完成上述趋势项、周期项和随机项的分析并建立相应的模型后,使用相应的模型进行外推,即可分别求出趋势项、周期项和随机项的未来值,然后按式1或式2将这些项进行合成,即可预测时间序列的未来值。广西柳州水文时间序列预测模型软件,前台使用Microsoft公司的Visual C+6.0,后台使用Microsoft公司的SQL Server 2000数据库管理系统,使用年降水量和年降水日数时间序列来检验该模型。2.1 数据的选择依据柳州市地处广西中部,属于典型的亚热带气候,该市的水文数据能较好地反映亚热带地区的特点,通过分析该市的水文数据并找出有关的规律和特点,不仅可以为本地的有关职能部门提供参考和服务,还可以为相邻或相似地区的水文数据分析提供参考。因此本文选择广西柳州市的水文数据进行分析,其中主要是分析降水量,因为降水量是水文数据中的基础数据,降水量的大小和降水的时空分布直接决定了水位的高低以及流量、含沙量和蒸发量的大小,对降水量的研究具有重要的应用价值和实际意义。2.2 数据的来源本文的研究得到了广西柳州水文水资源分局的大力支持和帮助,所使用的数据全部由广西柳州水文水资源分局资料室提供,这些水文数据由该分局下属的柳州水文站进行测量和记录,这些数据都是实际应用中的第一手资料,因此这些数据是可靠的、具有实用价值的数据。2.3 模型检验2.3.1 对年降水量进行预测使用本软件对广西柳州的年降水量进行分析,首先从年降水量时间序列中分离出趋势项,再从剩余序列中分离出周期项,然后分离出随机项,最后将这三项合成,并使用此模型对年降水量进行预测。有关的数据如表1所示。表中第1列为年份,第2列为该年的总降水量,第3列为使用趋势项模型计算得到的趋势项,第4列为剩余序列中求出的周期项,第5列为剩余序列中求出的随机项,第6列为预测值,第7列为误差,其中:误差=(年降水量-预测值)/年降水量。表1 年降水量预测Tab.1 annual precipitation forecast年年降水量趋势项周期项随机项预测值误差19461659.41489.685-55.5795-1434.1060.135819471688.61506.657140.2454-1646.9020.024719481811.01524.851-84.6659-1440.1850.204819491525.31553.466-55.5795-1497.8870.01819501439.61550.649140.2454-1690.895-0.174619511757.81539.545-84.6659-1454.8790.172319521678.41561.37-55.5795-1505.7910.102819531652.01573.073140.2454-1713.318-0.037119541357.31580.966-84.6659-1496.3-0.102419551319.61558.599-55.5795-1503.02-031534.699140.2454-1674.945-0.093119571689.61534.459-84.6659-1449.7930.141919581528.81549.973-55.5796-1494.3940.022519591915.21547.856140.2454-1688.1010.118619601515.11584.59-84.6659-1499.9250.0119611851.51577.641-55.5796-1522.0620.177919621305.01605.027140.2454-1745.273-0.337419631022.21575.025-84.6659-1490.359-0.45819641112.81519.742-55.5796-1464.163-0.315719651835.31479.048140.2454138.07121757.3650.042519661399.61514.673-84.6658102.10241532.11-0.094719671292.11503.166-55.5796-1.75761445.829-0.11919681731.11482.059140.245417.76211640.0670.052619691596.61506.963-84.6658146.43831568.7360.017519701406.61515.927-55.5796-37.19851423.149-0.0118197114811504.994140.2454-205.9051439.3350.028119721286.11502.595-84.6658-135.1861282.7430.002619731217.31480.945-55.5796-100.7751324.59-0.088119741708.11454.581140.245441.02831635.8550.042319751362.41479.933-84.6658-38.47871356.7880.004119761410.91468.18-55.5796-150.9961261.6040.105819771663.61462.452140.2454-74.80381527.8930.081619781275.21482.566-84.665857.07491454.976-071461.83-55.5796-74.58971331.660.029919801376.81452.917140.2454-234.4741358.6890.013219811490.61445.305-84.66585.83411366.4730.083319821424.71449.835-55.5797102.98671497.242-0.050919831928.21447.321140.2454143.38261730.9490.10231984935.01495.409-84.6658-177.0541233.69-0.319519851120.51439.368-55.5797-63.65831320.13-0.178219861401.21407.481140.2454-106.4751441.252-0.0286通过软件的运行和分析可知,柳州年降水量的自回归模型阶数p=19,且年降水量存在一个3年的周期,即每隔3年降水量一般会出现一个高值,相应的年份属于丰水年,一般不会出现干旱现象,但应做好防洪的准备工作。由表1的数据可知,使用这种模型对年降水量进行预测,对于普通的数据具有较高的精度,但对于离群数据的预测误差偏大。2.3.2 对年降水日数进行预测对柳州的年降水日数进行预测,有关的数据如表2所示。表2 年降水日数预测Tab. 2 annual precipitation date number forecast年年降水日数趋势项周期项随机项预测值误差1946113158.8780-158.878-0.4061947153154.29020-154.2902-0.00841948183154.16120-154.16120.15761949162157.04510-157.04510.03061950156157.54060-157.5406-0.00991951172157.38650-157.38650.0851952168158.84790-158.84790.05451953199159.76310-159.76310.19721954150163.68680-163.6868-0.09121955130162.31810-162.3181-0.24861956155159.08630-159.0863-0.02641957186158.67770-158.67770.14691958143161.40990-161.4099-0.12871959181159.56890-159.56890.11841960148161.7120-11.1742150.5378-0.01711961170160.340802.6683163.00910.04111962158161.306709.8623171.169-0.08331963135160.97610-13.8497147.1264-0.08981964154158.37850-12.0228146.35570.04961965158157.940606.311164.2516-0.03961966165157.94650-0.4538157.49270.04551967174158.651904.037162.68890.0651968159160.186702.0012162.1879-0.021969139160.0680-10.403149.665-0.07671970173157.961207.9286165.88980.04111971150159.46510-7.8816151.5835-0.01061972174158.518600.5367159.05530.08591973174160.066701.5989161.66560.07091974152161.46010-2.1233159.3368-0.04831975166160.514103.6085164.12260.01131976165161.062704.6502165.7129-0.00431977150161.45640-7.9773153.4791-0.02321978145160.310701.1752161.4859-0.11371979157158.77970-3.2997155.480.00971980161158.60170-5.2038153.39790.04721981164158.8415012.3201171.1616-0.04371982170159.35740-5.6529153.70450.09591983162160.42160-2.9457157.47590.02791984160160.579500.7815161.361-0.00851985152160.52150-2.041158.4805-0.04261986128159.66940-4.1282155.5412-0.215

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论