(计算机应用技术专业论文)用时序遗传神经网络预测通信网络业务指标.pdf_第1页
(计算机应用技术专业论文)用时序遗传神经网络预测通信网络业务指标.pdf_第2页
(计算机应用技术专业论文)用时序遗传神经网络预测通信网络业务指标.pdf_第3页
(计算机应用技术专业论文)用时序遗传神经网络预测通信网络业务指标.pdf_第4页
(计算机应用技术专业论文)用时序遗传神经网络预测通信网络业务指标.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用时序遗传神经网络预铡通信网络业务指标 用时序遗传神经网络预测通信网络业务指标 计算机应用技术专业 研究生。林森指导教师,李志蜀 在社会经济飞速发展的今天,数据预测有着广泛的应用前景,在各个 行业发挥着越来越重要的作用。在通信企业,通信网络数据的采集、维护、 分析、预测是日常而十分重要的工作,其话务量、c p 负荷等指标数据的 预测对于企业经营和维护具有十分重要的指导意义。本文研究的数据对象 为某通信企业的网管数据,它记录运营商管辖范围内小区、乡、县、地市、 省等各个级别的各种通信业务指标。预测部分通过挖掘历史数据内的未知 知识预测未来的业务指标,从而为企业经营提供参考。 目前,在数据预测领域,机器学习方法作为能够对任意未知的非线性 函数关系进行精确拟合的手段,披广泛地研究和应用。然而,大量研究都 集中于机器学习本身,倾向于机器学习算法技术层面的改进,没有完整地 提出一套规范的、可行的时间序列预测方案、并在此方案的指导下建立起 对现实确实有参考价值的预测模型。事实上,机器学习方法学习能力强, 却并非为数据预测而提出,要直接用于数据预测则茫然。由于其本身不提 供关于数据预测的任何理论依据,因此盲目地用它做数据预测,是不可能 收到最好效果的。 针对这样一种情况,我们研究预测业务的特点,一方面选择b p 神经 网络学习方法,研究如何针对预测业务的特点对它进行修改,研究如何将 遗传算法与改进后的b p l 神经网络相结合,进行高精度的知识学习、知 识发现工作;一方面,研究如何以这样的知识发现工具,在数据预测理论 指导下进行完整、深入的时序分析与预测工作 在数据预测领域,时间序列分析方法对时间序列的本质,特性等做了 广泛而深入的研究,构建了一套全面的理论,并提出了以a r m a 自回归 ,带动平均模型等为核心的具体计算方法,其内容覆盖了数据预测的方方面 四j f i 大学硬士学位论文 面,提供了时间序列预测的一套指导性方法。 在本文我们选择时间序列理论作为预测模型的建模依据和指导,并以 改进的遗传b p 神经网络取代时序分析方法中的学习挖掘手段,为该通信 企业的通信网络业务数据预测建立了一套预测网络模型,用于该企业各种 通信网络业务指标的分析、预测。它具有这样的一些优点:以时间序列理 论指导建模、预测的全过程,因此和单纯的机器学习方法相比,可行性、 方向的正确性得到了有力保证,必然能得到更好的预测效果;用改进的 b p l 神经网络完成时间序列分析中挖掘数据依赖关系的步骤,它由基本 的b p 神经网络修改而得,更适于数据预测领域,以它作为我们模型中使 用的机器学习工具,就预测而言速度、精确性和泛化能力都得到较大改善; 以遗传算法优化b p l 网络的初始权值,以尽可能地克服神经网络的局部 收敛问题;与绝大多数根据经验选择输入节点个数的简单机器学习预测方 法相比,它能自动实时计算最合理的预测阶数而不是去猜测:它根据业务 数据特点设计消除非平稳因素的方案,使预测效果与并行运算能力同时得 到提高:另外,它能以统计方法过滤数据,具备抗干扰性,能应用于复杂 的实际工作环境。最后用数据实测,检验模型的预测效果。 关键词;时间序列分析数据预测遗传算法人工神经网络灰色关联度分 析 用时序遗传神经网络预测通信网络业务指标 d a t ap r e d i c t i n gi nc n e t u s i n g t i m e - s e r i e s - t h e o r yb a s e dg a - b pn e t w o r k m a j o r :c o m p u t e ra p p l i c a t i o nt e c h n i q u e g r a d u a t e :l ns e n a d v i s o r :p r o f l iz h i s h u d a t a p r e d i c t i n g i s b e c o m i n gm o r ea n dm o r eu s e f u la n di m p o r t a n t i n c o m m u n i c a t i o nn e t w o r kf i e l d s ,t h ec o l l e t i n g , m a i n t a i n i n g , a n a l y z i n g , a n d e s p e c i a l l y , p r e d i c t i n go nd a t a , a r ei m p o r t a n td a l l yw o r k s i nt h i sp a p e r , t h ed a t a t op r e d i c t i n gi sc o l l e c t e d 丘o mt h ec a p a b i l i t ya n a l y z i n gs y s t e mo fam o b i l e e n t e r p r i s e ,a n di su s e dt or e f l e c tt h eb u s i n e s sc a p a b i l i t i e si nm u l t i d i m e n s i o n a l p o i n t so f v i e w t h ea n a l y s i sa n dp r e d i c t i o nf o rt h i sk i n do fd a t ac o u l d 舀v eo u t g o o da d v i s e so nt h em a n a g e m e n t a n dd e c i s i o nf o rt h ee n t e r p r i s i e t i m es e r i e sa n a l y s i st h e o r yw a sp r o p o s e d e a r l y i nt h e 扩c e n t u r y r e s e a r c h e s ,s u c ha st h en a t u r e ,t h ef e a t u r e so ft i m es e r i e sw e r ed e e p l ya n d w i d e l yd i s c u s s e d a na l l a r o u n dt h e o r yw a sp r o p o s e d ;a n daf e wm e t h o d sf o r d a t aa n a l y z i n g , s u c ha sa r m a , w e r ec r e a t e d d u r i n gp o s td e c a d e s ,t h et h e o r yo fm a c h i n el e a r n i n gw a sd e v e l o p i n ga g a i na n d a g a i n a n ds i n c et h el a s ty e a r so f2 0 a ac e n t u r y , a r t i f i c i a ln e u r a ln e t w o r ka n d s v mh a db e e nu s i n gf o rd a t ap r e d i c t i n gt o o h o w e v e r , t h er e s e a r c hf o rd a t a p r e d i c t i n gu s i n gm a c h i n el e a r n i n ga r ea l m o s tf o c u so nt h el e a r n i n ga l g o r i t h m s t h e ms e l v e s c o m p a r e dt ot u n es e r i e sa n a l y z i n g , t h em e t h o d so fm a c h i n e l e a r n i n gc o u l da n a l o ga n yn o n l i n e a rp h e n o m e n aa n dg e tap r e c i s e l yr e s u l t 四川大学硕士学位论文 t h et t m es e r i e st h e o r y , h o we v e r , h a da c c u m u l a t e da b u n d a n c eo ft h e o r i e sf o r p r e d i c t i n gf i e l d s ,s u c ha s ,w h yt h ed a t ac o u l db ep r e d i c t e da n d s oo n ;i t p r o v i d e dar e l a t i v e l yc o m p l e t e a b s t r a c t g u i d e l i n ef o r t h i sa r e a m a c h i n e l e a r n i n g m e t h o d sp r o v i d e sm a n yp o w e r f u lw a y st o s t u d ya n ye x i s t i n g r e g u l a t i o n s ;h o w e v e r , t h e yw e r en o tp r o p o s e df o rd a t ap r e d i c t i n g ;t h e yw o u l d g o tb a dr e s u l t s f o r p r e d i c t i n gw i t h o u tt h eg u i d a n c eo fac l e a r l y , c o r r e c t a n a l y z i n g a n dp r e d i c t i n gt h e o r y b a s e do nt h e s es i t u a t i o n s ,w ep r o p o s e do u rm o d a lf o rd a t ap r e d i c t i n gi nc n e t f i e l d s i tu s e da na m e n d e db pb a s e dm a c h i n el e a r n i n gm e t h o d - - b p ln e u r a l n e t w o r ka st h et o o lt of i n do u tt h er e l a t i v i f i e si n s i d e st i m es e r i e s ,g u i d e db y t i m es e r i e st h e o r y i tc o u l da u t o m a t i c a l l yf i n do u tt h em o s tp r o p e rn u m b e ro f i n p u tn o d e sf o rt h en e u r a ln e t w o r k ;c o n c u r r e u c ea b i l i t yw a sp r o p o s e db yt h e d e s i g n i n gf o ra n a l y z i n ga n de l i m i n a t i n gf o rt h eu n s t e a d yf a c t o r s g aw a su s e d t of i n do u ta p r o p e ri n i t i a lv a l u es e tf o rw e i g h to ne d g e s a b n o r m a ld a t ac o u l d b ef i l t e r e db ys t a t i s t i cm e t h o d s t h eb p ln e u r a ln e t w o r kw a sa m e n d e df r o m b p , a n dw a sm o r ep r o p e rf o rd a t ap r e d i c t i n g , r a t h e rt h a np a t t e r nr e c o g n i t i o n a n ds oo i li nd a t ap r e d i c t i n gf i e l d s ,b p lw a sf a s t e r , m o r ep r e c i s e ,a n dh a da b e t t e rg e n e r a l i z ea b i l i t y i nt h ee n d ,w eu s ea c t u a ld a t ac o l l e c t e df r o mt h i sc n e tc o m p a n y , t ot e s t c a p a b i l i t yo fo u r m o d a l k e yw o r d s :t i m es e r i e sa n a l y s i s ,d a t ap r e d i c t i n g , g e n e t i ca l g o r i s m , a r t i f i c a ln e u r a ln e t w o r k , g r a yr e l a t i o n a la n a l y s i s 四川大学硕士学位论文 1 引言 1 1 本文课题的背景 在社会经济、工程科学、自然科学等领域的研究者,都不可避免地要 和某些系统在各个时刻的观测、统计数据序列打交道,这些系统按时间顺 序产生和排列的观测数据序列就是时间序列。对时间序列进行预测则是一 个具有相当实用价值的应用研究领域。 时间序列是所研究系统的历史行为的客观记录,因而它包含了系统结 构特征及其运行规律。因此,我们可以通过对时间序列的研究来认识所研 究系统的结构特征,揭示其运行规律,进而用以预测,控制其未来行为; 修正和重新设计系统,使之按照新的结构运行。 时间序列分析理论是数据预测领域较早提出和较完善的时序分析方 法,它对时间序列的本质、特性等做了广泛而深入的研究,构建了一套全 面的理论,并提出了以a r m a 自回归滑动平均模型等为核心的具体方法, 其内容覆盖了数据预测的方方面面,包括了时间序列预测可预测性的原 理、阶数的确定、参数估计、非平稳因素的消除等各个领域,提供了时间 序列预测的一套方向性理论。 近年来机器学习理论不断发展,神经网络、支持向量机等也被应用于 数据预测机器学习方法具有对任意未知非线性函数关系进行学习的能 力比较而言,时间序列分析方法理论完善但手段较为简单,可以作为建 立预测模型的依据和指导;机器学习方法学习能力强,却并非为数据预测 而提出,直接用于数据预测具有盲目性,不一定能收到较好的效果,因此 它适合在时间序列理论指导下作为挖掘工具使用。 b p 神经网络作为一种广泛使用的机器学习方法,存在一些局限性。 一方面,b p 神经网络的连接权主要影响着网络的性能,它的获取是通过 给定一组初始权值,在训练中逐步调整,最终得到一个较好的权值分布 但是初始点选择比较盲目,很难选取具有全局性的初始点,加之实际问题 的求解空间往往是极其复杂的多维曲面,存在多个局部极值点,使得b p 用时序遗传神经网络预测通信两络业务指标 算法陷入局部极值点的可能性增大。另外网络结构的优劣对网络的处理能 力也有很大的影响。对这样的问题,可以与遗传算法相结合,通过进化的 方法进行全局性搜索得到改善。另一方面,针对数据预测业务的一些特点, 也需要对b p 算法进行一些改进,使其更适于预测运算。 本文参考现有的研究成果,针对现有研究的不足,提出了将时间序列 中的一些重要观点引入机器学习预测领域的想法,并建立起了基于时间序 列指导下的改进型遗传神经网络的预测模型,在此基础上用数据进行实际 研究,试验证明,能够获取较好的预测效果。 1 2 本文研究的主要内容 本文研究的数据对象为某通信企业的网管数据,来自该企业的三期网 管系统数据库。它记录运营商管辖范围内小区、乡、县、地市、省等各个 级别的各种业务指标。本文探讨的目的就是如何对这些指标序列进行高精 度的预测。 目前,在数据预测领域,机器学习方法作为能够对任意未知的非线性 函数关系进行精确拟合的手段,被广泛地研究和应用。然而,大量的研究 更集中于机器学习本身,倾向于机器学习算法技术层面的改进,没有完整 提出一套规范的、可行的时间序列预测构建方案、并在此方案的指导下建 立起对现实有参考价值的预测模型事实上,机器学习方法学习能力强, 却并非为数据预测而提出,要直接用于数据预测则茫然。由于其本身不提 供关于数据预测的任何理论依据,因此盲目地用它做数据预测,是不可能 收到较好的效果的。 针对这样一种情况,我们研究预测业务的特点,选择b p 神经网络学 习方法,针对预测业务的特点进行修改得到b p - l 网络,然后以它作为挖 掘工具,在数据预测理论指导下被动地由预测系统调用,实现预测。在数 据预测领域,较早提出且较完善的有时间序歹i j 分析理论,它对时间序列的 本质、特性等做了广泛而深入的研究,构建了一套全面的理论,并提出了 以a r m a 自回归滑动平均模型等为核心的具体方法,其内容覆盖了数据 预测的方方面面,包括了时间序列可预测性的原理、阶数的确定、参数估 四川大学硕士学位论文 计、非平稳因素的消除等各个领域,提供了时间序列预测的一套方向性理 论方法。 本文选择时间序列理论作为预测模型的建模依据和指导,并以改进的 遗传b p 神经网络取代时序分析方法中的学习挖掘手段,为该通信企业的 网络数据预测业务建立了一套预测网络模型,用于其各种通信网络业务指 标的分析、预测。它具有这样的一些优点: 以时间序列理论指导建模、预测的全过程,和单纯的机器学习方法 相比,可行性、研究方向的正确性得到了有力保证,必然能得到更好的预 测效果; 用改进的b p l 神经网络完成时间序列分析中挖掘数据依赖关系的 步骤,e p - l 神经网络由基本的b p 神经网络修改而得,它更适于数据预 测领域,以它作为我们模型中使用的机器学习工具,就预测而言速度、精 确性和泛化能力都得到较大改善; 。 与绝大多数根据经验选择输入节点个数的机器学习预测方法相比, 它能自动实时计算最合理的预测阶数而不是靠猜测; 它根据业务数据特点设计消除非平稳因素的方案,使预测效果与并 行运算潜力同时得到提高; 它能以统计方法过滤数据,具备抗干扰性,能应用于复杂的实际工 作环境: 以遗传算法优化网络初始权值,以尽可能地克服神经网络的局部收 敛问题。 1 3 本文安排 第2 节,简要地介绍了时间序列预测的基本概念、基本原理,介绍了 时间序列理论主要从哪些层面对数据观测值序列进行分析、研究,并简述 了时间序列分析中的a r 、a r m a 等基本模型; 第3 节,论述人工神经网络的基本概念、类型,结构,详细分析神经 网络的各种比较重要的学习规则,并对前馈型神经网络的工作原理做了简 甩时序遗传神经两络预铡通信网络业务指标 要论述,并详细论述了b p 神经网络的数学模型、学习算法;论述基本 b p 算法的不足之处,并论述了一些重要的改进算法。 第4 节,论述遗传算法的思想、原理,详细讨论了遗传算法的各个步 骤、工作过程。 第5 节,在前面的基础上,对我们的以时间序列与遗传神经网络相结 合的方法进行了详细的论述,详细探讨了预测中的各个重要环节。最后以 实际数据对模型的预测精度、泛化能力等进行验证,证明了模型的可靠性。 四川大学硕士学位论文 2 时间序列分析理论简介 2 1 时间序列的概念 2 1 1 时间序列的基本问题 从统计意义上说,时间序列是对某一指标在各个时刻分别观测,获得 采样值,并把它们按时问先后顺序排列的数列。从数学意义上来说,如果 我们对某一过程中的某一个变量或该过程中的一组变量x d ) 进行观测, 在各个观测时刻t l , t :,0 ( f 1 n ,s 为 模型参数数之差。 用它来检验假设:n 阶模型的r 个参数中有s 个为o 。 从2 阶开始建立阶数递增的模型,每步对序列建模,分离出残差序列; 若n 阶时残差在5 的水平上近似独立,并且在阶数增加到n 后,使用 f 检验证明在5 的显著性水平上,阶数的增加并未显著改善残差,此时 就认为阶数n 是合适的,以它作为本次预测使用的阶数。 5 6 非平稳因素的消除 上述模型要求时间序列必须是平稳的,因为它假定每个数据组在围绕 一个标准起伏,依赖关系不随时间起点变化,即均值与协方差与时间起点 无关。而数据周期性、长期趋势等非平稳因素会破坏这一条件对本文研 究的通信网络数据业务,预测指标的时间单位为小时或日。分析业务的特 点,对有限样本进行中、短期预测,序列本身基本没有固定的趋势;长期 的总体性趋势在序列中的微弱反应则可放在网络中学习。因此主要是考虑 用时序遗传神经网络预测通信网络业务指标 去除周期因素。 时间序列分析方法中把周期因素加入回归方程一起求解。但对我们的 业务数据,其序列均遵循弱周期性,它们大致具有以日或小时为周期的特 点,但各周期相比较,曲线的趋势走向并没有多强的相似性,这一特点从 图5 2 即可看出,用强周期方式处理效果就不好。 对这个问题,我们用灰理论中的关联度分析方法做进一步分析。灰色 系统理论提出了关联度分析的概念,其目的就是通过一定的方法理清系统 中各因素间的主要关系,找出影响最大的因素,把握矛盾的主要方面 对两个系统或两个因素之间关联性大小的量度,称为关联度。它描述 系统发展过程中因素间相对变化的情况,也就是变化大小、方向及速度等 指标的相对性。如果两者在系统发展过程中相对变化基本一致,则认为两 者关联度大;反之,两者关联度就小。可见,灰色关联度分析是对一个系 统发展变化态势的定量描述和比较。 图5 2 某网元某时间段的连续观测值 我们抽取图5 2 所示的话务量数据作为例子进行分析。从原点开始, 连续取6 个周期,共4 2 个点: 四川大学硕t = 学位论文 x = “,屯,屯,_ : ( 式5 8 a ) 设要分析前3 5 个观测值与最后7 个之问的关联关系: x 2 屯屯 工7善s 。x 3 5 x 3 6 : x 4 1 x 3 7 : x 4 2 ( 式5 8 b ) 用灰关联分析方法分析关联序,找出什么样的数据与最后7 个观测值 关联度最大。 第一步,做均值化变换。先分别求出各个序列的平均值,再用平均值 去除对应序列中的各个原始数据,所得到新的数据列,即为均值化序列。 第二步,计算关联系数k ( 七) 。关联系数反映两个被比较序列在某一 时刻的紧密( 靠近) 程度。经数据变换的母序列记为留。( f ) ) ,子序列记为 伍,( f ) ) ,则在时刻t = k 时母序列与子序列口,( f ) ) 的关联系数k ,( t ) 可由下 式计算: 焘一o i 、“,e ,一i n ( 式5 9 ) 式中- o ( 女) 表示k 时刻两比较序列的绝对差,。一和= m m 分别表示所 有比较序列各个时刻绝对差中的最大值与最小值。露称为分辨系数,其意 义是削弱最大绝对差数值太大引起的失真,提高关联系数之间的差异显著 性。 第三步,求关联度。两序列的关联度以两比较序列各个时刻的关联系 数之平均值计算,即: 厶。( | | 2 ) r 万未l 0 一 ( 式5 1 0 ) 对式5 8 a 中前3 5 数据按周期排列为7 行3 5 列,它们与最后7 个观 测值之问的关联系数如表5 5 所示: 用对序遗传神经碍络预漠l 通信碍络业务指标 表5 5 示例数据的关联系数 g ( l s t 。1 ) 0 5 3 1 g ( l s t 。2 ) 0 2 9 0 3 7 g ( l s t 。3 ) 0 2 6 7 9 7 g ( l s t 4 ) 0 3 3 5 1 4 g ( l s t 。5 ) o 2 1 1 7 0 g ( l s t 。6 ) 0 2 9 6 2 0 g ( l s t 。7 ) 0 3 8 9 1 3 g ( l s t 8 ) 0 5 2 4 7 1 g ( l s t 9 ) 0 3 3 6 1 4 g ( l s t 。1o ) o r 2 6 7 g ( 1 _ s t 1 1 ) 0 3 4 3 4 8 g ( l s t 。1 2 ) 0 2 3 0 3 6 g ( l s t ,1 3 ) o 2 7 9 0 g ( l s t ,1 4 ) 0 3 4 8 9 1 g ( l s t 1 5 ) 0 5 3 0 0 7 g ( l s t 。16 ) 0 3 0 9 5 1 g ( l s t 。1 7 ) 0 3 1 7 5 5 g ( t s t 。1 0 3 6 3 6 6 g ( l s t ,19 ) 0 2 4 1 5 8 g ( l s t ,2 0 ) 0 3 4 2 6 5 g ( l s t 2 1 ) 0 3 5 8 6 2 g ( l s t 。2 2 ) 0 5 9 0 8 9 g ( l s t 2 3 ) 0 3 2 6 4 6 g ( l s t 2 4 ) 0 3 1 1 9 6 g ( l s t 2 5 ) o 3 5 8 3 1 g 0 s t 2 6 ) o 3 2 5 6 9 g ( l s t ,2 7 ) 0 2 4 3 g ( l s t ,2 8 ) 0 ,3 7 1 8 4 g ( l s t 。2 9 ) 0 5 5 8 4 9 g ( l s t 3 0 ) 0 3 6 9 0 6 g ( l s t 。3 1 ) 0 3 1 5 7 2 g ( l s t 3 2 ) o 3 8 7 0 3 g ( l s t 。3 3 ) 0 2 8 4 1 2 g ( l s t 。3 4 ) 0 2 3 3 8 7 g ( l s t 3 5 )0 3 7 3 9 6 关联序为: g ( l s t ,2 2 ) g ( l s t ,2 9 ) g ( l s t ,1 ) g ( l s t , 15 ) g ( l s t ,8 ) g ( l s t , 7 ) 其中g 0 s t ,m ) 表示最后7 点构成的列与第m 列历史数据间的关系。 分析上述结果可知,对于任一观测值,历史数据中与其间隔为周期长 度整数倍的数据,关联关系远远大于其它数据。 基于这样的分析,我们采用这样的方法来消除周期因素,用它既可去 除周期性,还可大大提高模型的并行运算能力。即把周期为1 1 的时间序列: z - 怯,工2 ,而,靠j 分为子序列: x l - 讧l ,+ l ,工2 一“,】“, , j ,2 一仁z ,毛+ 2 ,- r 2 n + 2 x 3 , + 2 j , r、 x 。臼一,石抽,石抽,工抽,t 对各子序列分别预测这样的子序列,既消除了周期性这一非平稳因 素,又留下了关联度最强的主要历史数据,因而保留了数据依赖性。 四川大学硕十学位论文 从并行运算的角度考虑,按照这样的策略由于每个子序列是一个独立 的处理对象,独立提供历史数据,独立完成预测,这样的设计就提高了模 型的并行运算能力。在多c p u 的环境下能很好地发挥机器性能,提高求 解速度。 此外,由于原始观测值被分为若干独立的子序列,这样,即使系统中 在某子序列存在异常观测值,它也不会对其它的子序列构成任何影响,这 样就提高了系统的抗干扰能力。 5 7 异常采样值过滤 业务数据不可避免会出现异常采样值,异常值的存在一定程度上会影 响预测的准确性。在模型中我们使用区间估计识别异常点。以i t 数据序列 ( x l ,x 2 , ) 为例,其周期为7 ,将其分为( x l ,x s , ”一,( x 2 , x g , 一一,( x t x 1 4 , ”一 七个子序列对子序列,在置信水平卜口的条件下,大样本时用正态分布, 小样本时用自由度为n - 1 的t 分布求得边际误差,分别为乙,:、,: 吖n 、,n 因此,总体均值的置信区h j 为: j 乙,2 辜,n _ 3 0 v 忍 j f m 睾,n 3 0 吖,l o t l 2 、 a 1 2 分别表示标准正态分布与t 分布右侧面积为g ,2 时的z 和t 值。 为具有较强的容错性,我们以各子序列上限的最大值作水平阈线 m a x ,下限的最小值作水平阈线m i n 阈线之间以及阈线邻近的点视为正 常点,其余视为异常点。对于图钽所示的日话务量数据,其9 5 置信区 白】为( 6 9 5 0 4 5 3e r l ,8 7 2 9 4 4 0 4e r l ) 。如图5 3 所示,6 个主要的异 常点都被阂线正确隔离。 对于异常点,可用历史数据对其进行预测,以预测值修正。后面的实 用时序遗传神绎嘲络预测埔信网络业务指标 测可以看到,本文的预测方法有较强的抗干扰能力,预测精度很高,这样 做是可行的。 5 8 预测和预报 图5 3 异常采样值的过滤 在给定合适的各个参数的情况下,本文的预测网络的预测步骤可以用 图5 4 说明。历史数据经过滤、消除非平稳因素之后,分为若干平稳的子 序列,这些子序列是预测的基本单元。这时进入最主要的第三步,对子序 列使用b p - l 网络学习数据间的依赖关系对依赖关系的学习是一个反复 的过程。对第i 个子序列i = 侠1 ,) i 2 ,) ( i 。) ,当指定在阶数p 下傲学习时, 训练样本为: ( j i i ,工f 2 ,x 扣) 争j f ( p + 1 ) ( x i 2 ,x i 3 ,x i ( p + i ) ) _ x i ( p + 2 ) ( x i c m p ) ,x i ( 册一p + 1 ) ,x i ( m - 1 ) ) 毒i i ,l 四川大学硕士学位论文 使用输入层节点数为p 的5 2 节中描述的b p l 神经网络,以上述m p 组样本训练,找到合适的初始权值,拟合出数据间的依赖关系;阶数p 使 用一个试验证明较好的七层网络,在( 0 ,1 ) 内随机初始化权值,按5 5 节 异常采样值过滤 j 划分子序列,消除周期因素,各子序列用经验网络估计阶数 子序列 子序列 r 生成初始种群 个体 + + l i拳日ii il lil l t1 计算个体适应度 选择、交叉、变异 子序列的学习、建模i l 子序列预测、求置信区间 _ 广一 i 上 子序列结果汇总,给出预报结果 图5 4 本文预测模型的预测步骤 巧9 用时序遗传种纾嘲络预测通信叫络业务指标 论述的方法求解,设其值为t 。于是进入第四步,创建一个输入层节点数 为t 的b p l 神经网络,以优化的初始权值完成子序列x i 的预测任务: ( 研一,+ 1 ) ,x i ( 州一h 2 ) ,( m ) ) 置( 埘+ 1 ) ( ( 。一2 ) ,五( 。q + 3 ) ,暑( 。“) ) 墨( 。+ 2 ) 每次对各子序列单独预测下一个数据点,若原始序列周期为n ,则该 模型一步并行预测可得到n 个预测点。n 个点并入一个序列即恢复了原来 的非平稳性把预测点加入原始序列作为历史数据使用,即可迸一步预测 后面的数据点。反复执行该过程即可完成一定时间长度的中、短期预测。 一个数据点的预报由两个要素构成:预测值,预测值置信区间。预测 值总会存在一定的误差,预测值置信区间则给出预测值可能的取值范围。 预测误差受随机因素的影响,可以用正态分布近似把握分布规律。由此可 得出预测值的9 5 置信区间: ( 歹一1 9 6 x s 4 n ,歹+ 1 9 6 x s l n )( 式5 1 1 ) 其中多为预测值,s 为残差序列的样本方差。 5 9 实际测试与分析 5 9 1 系统实现 为该通信企业设计的性能综合分析系统是一套基于j a v a 的b s 系统。 图5 5 a 动态链接库中的相关接口 四川大学硕士学位论文 作为系统的一个子模块,预测子系统以动态链接库的形式提供算法接1 :3 供 服务器调用。该模块使用c + + 在w i n d o w s 平台下开发,同时提供s u n s o l a r i s 与w i n d o w s 平台下的两种编译版本供不同环境下的服务器使用。 动态链接库中与遗传神经网络算法及其调用相关的主要接口有: 图5 5 b 动态链接库中的相关接口 动态链接库中提供两种基本的类类型。 一种是数据预测业务类。该类封装时间序列数据以及对该数据进行的 操作,作为一个基本业务单元。每个业务单元有一个唯一的识别标识。 另一种是业务单元管理类该类负责为每个数据预测请求业务分配、 释放预测业务单元,按照业务单元标识把动态链按库外部的业务请求投递 给为其分配的业务单元进行处理 图5 6 动态链接库中接口的工作过程 - 6 1 用时序遗传神经网络预测通信网络业务指标 这些业务单元处理的业务,就是图5 5 中除申请、释放业务单元以外 其它功能的具体实现。申请、释放业务单元则由管理单元实现。对于跨语 言的功能调用,动态链接库与调用者的交互需要分多步完成。每个调用者 以唯一的标识申请、访问自己的业务单元,就能保证各个调用者之间相互 独立,互不干扰。 5 9 2 实例与分析 我们研究的对象按周期长度分为日数据与小时数据在各种业务指标 中我们用具有普遍代表性的话务量与交换机c p 负荷的观测数据,来分别 检验上述模型对日数据以及小时数据的适应能力。 实例1 :日数据预测 实测数据使用下辖某网元的日话务量指标,如图5 7 所示。数据采集 自2 0 0 4 年1 0 月1 4 日起;使用前7 个周期共4 9 个真实点作为历史数据, 图5 7 某网元的日话务量观测值 四川大学硕士学位论文 连续预测3 个周期共2 1 点,与真实点进行对比分析。真实值与预测值数 量比为7 :3 。预测分3 次完成,每次并行预测7 个点。预测中,第4 9 个 点以后的真实数据是不可见的,比如,预测第9 周期的数据时,使用第8 周期各点的预测值而不是真实值来作为历史数据。同时,不进行异常点处 理,保留真实数据以验证抗干扰能力。 以( 预测值一真实值) 预测值计算预测误差,如表5 6 所示;并把 预测结果汇总到e x c e l 表中,与原始数据用折线图进行对比,如图5 8 所 示。这里要注意的是,纵座标基数不为o ,这是为了把预测部分更精细地 显示出来;实际的预测结果如表5 6 所示,是非常拟合的。 由表5 6 统计,预测误差绝对值低于1 有4 个点,占1 9 ;低于2 有9 个点,占4 2 9 ;误差取绝对值,最小为0 0 6 8 ,平均仅为2 7 7 , 预测值是很准确的。 如图5 _ 7 所表明的,历史数据点总体呈现较大的无规律波动,在略有 规律性的基础上看起来有点杂乱无章,以致要目视说出哪些是异常点,哪 图5 8 日话务量预测,真实值对比 用时序遗传神经网络预测通信网络业务指标 些是正常点都有点困难,这正好用来验证模型在复杂环境下的处理能力。 模型没有进行异常剔除,保留真实数据进行预测。结果表明,预测值没有 多大误差,这说明该预测方法具有较强的抗干扰能力,能在较为恶劣的情 况下工作。 表5 6 :预测值( 单位:e r l误差分析 i d预测值误差i d预测值误差i d预测值误差 0 1 0 7 2 3 7 7- o 0 3 0 4 2 1 7 1 0 7 1 3 1 70 0 2 0 2 8 9 4 1 4 1 0 7 3 7 1 8o 0 2 7 8 4 1 9 l 1 2 3 8 7- o 1 4 7 6 8 1 0 2 5 0 3 8_ o 0 7 8 4 1 5 1 0 4 9 4 1 4_ o 0 1 1 0 5 7 2 1 0 1 5 6 9 5o 0 9 8 7 9 1 8 8 5 2m 0 1 4 6 2 9 1 6 1 0 1 7 5_ o 0 1 5 3 7 4 3 1 8 2 9 哈o 0 0 5 6 4 1 t o1 0 7 1 8 m 0 3 5 6 t 7 1 0 1 7 1 7 8o 9 3 9 41 0 黯0 2 6 o 0 2 3 2 4 9 1 1 1 0 5 0 6 8 2- 0 0 2 1 9 鹋 t 8 1 0 7 3 2o o o o b 8 3 9 5 1 0 7 7 9 0 3o 0 0 1 2 8 1 2 1 0 6 0 4由0 1 狮 1 9 1 7 2o 0 5 0 1 4 2 3 6 1 0 5 9 0 2 8旬0 4 2 3 5 8 1 3 1 1 8 7 8_ 0 0 0 1 6 2 8 2 01 0 ”5 7 2 o 0 1 5 0 3 5 7 图5 。9 试验1 的9 5 置信区间 朋川丈学硕 学位论文 本次预报的9 5 置信区间如图5 9 所示。 从中可以看出,2 1 个点有2 0 个落入9 5 置信区间,一个明显异常点 高于置信区间上限,置信区问准确率9 5 2 ,与期望的9 5 完全吻合。 实例2 :小时数据预测 使用下辖某交换机的c p 小时负荷数据,如图5 1 0 所示。数据采集自 2 0 0 5 年2 月3 日,每日2 4 个采样点使用前1 0 个周期的2 4 0 个点,连 续预测2 个周期共4 8 点,与真实点进行对比分析。真实值与预测值数量 比为5 :1 。预测分2 次完成,每次预测2 4 个点。预测中,第2 4 0 个点以 后的真实数据是不可见的。 以( 预测值一真实值) ,预测值计算预测误差,如表5 7 所示;并把 预测结果汇总到e x c e l 表中。与原始数据用折线图进行对比,如图5 1 1 所示。 在早8 点至晚8 点,这个时间段人们上班、加班、下班,联系频繁, 这个时间段内共2 6 个数据值,占4 8 个采样点的5 4 ,而其采样值之和 圈5 1 0 某交换机c p 负荷观测值 用时序遗传神经网络预测通信网络业务指标 就占据了总量的8 2 。对这个时间段的预测效果进行分析,此时的交换 机c p 负荷,误差低于1 的有1 0 个点,占总量的3 8 5 :误差低于2 的有1 5 个点,占总量的5 7 7 ;误差低于4 的有2 2 个点,占总量的8 4 6 。误差绝对值最小值0 0 4 1 ,平均为2 1 7 ,最大值8 6 。预测 是比较准确的。 表5 7 :某交换机c p 负荷预测值( 单位:百分比) 误差分析 时 预测值误差时预测值误差时预测值误差 刻刻 刻 0 1 6 9 2 7 9 4o 1 1 6 7t 65 3 9 1 8 5 - 0 0 1 舱2 8 4 1 8 7 7 7 5乱0 8 6 1 1 1 6 4 3 9 1o 0 9 4 5 9 1 1 7 5 6 2 9 3 5 1旬0 0 6 9 1 95 8 5 2 j i 柏 - o 0 1 3 3 1 2 8 8 4 8 5 7 2o 1 0 1 8 5 8 1 5 4 0 6m 0 0 1 6 5 l o7 1 柏5 6 9 o 8 9 5 3 7 4 8 6 5 0 7o 8 0 4 4 1 9 6 2 6 9 7 80 0 2 7 7 1 l 6 9 5 5 2 3 2- 0 8 9 2 4 6 8 0 3 3 2 8 0 0 9 8 珀62 05 2 4 8 2 0 9 0 0 6 9 9 6 8 1 2 6 2 3 0 7 1 20 0 2 0 8 1 8 5 8 7 6 0 9 7 4o 0 7 3 3 5 8 2 l 4 4 8 0 5 8 90 1 0 0 0 0 7 t 35 8 9 4 5 9 0 0 2 9 4 9 1 68 鹊4 9 3 9 o 1 0 9 8 8 7 2 23 3 9 1 9 0 50 1 3 3 5 9 91 4 5 7 9 3 5 0 80 0 2 2 7 4 2 7 1 8 7 1 7 1 40 0 3 7 9 1 4 2 3 t 8 6 1 9 3 50 1 2 8 1 9 2 1 5 5 4 5 4 4 2 6- 0 0 0 4 4 1 8 4 1 2 0 4 3 9o 0 3 4 2 0 1 8 8 1 1 8 4 0 2 0 3 0 2 8 1 65 3 5 7 7o 0 1 6 3 5 95 8 6 d 8 o 0 0 3 : 4 6 l 1 1 5 0 7 4 70 1 4 8 1 6 2 1 7 5 5 1 8 7 5 5- 0 0 1 6 7 1 1 07 0 6 1 5 o 0 1 4 2 7 7 26 9 1 0 6 5 90 1 3 5 0 2 51 8 5 8 1 联垮80 0 0 9 3 4 5 n6 6 3 3 7 5 7 - 0 0 4 1 8 3 37 5 9 4 3 7 1 0 1 3 6 5 3 2 1 9 6 2 9 6 6 1 40 0 3 2 2 1 8 1 2 6 0 4 2 2 9 7- 0 0 0 0 4 1 4 6 9 2 0 9 1 10 1 2 2 5 8 7 2 05 0 9 4 8 9 4 0 0 4 2 2 7 8 1 3 5 7 4 7 韶o o 1 9 5 6 8 2 3 8 0 0 7 5 6 7 42 14 1 7 6 4 9 8o o 副) 4 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论