




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于极大极小概率机的无线网络流量预测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西华大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:劭王 日期:刎,2 ,石 指导教师签名: 日期 沙1 。 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校 攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西 华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文( 保密的论文在解 密后遵守此规定) 学位论文作者签名:乙五 日期:砷以。名 尊警师始舌1 日期州彳p - 。 聋 勿6 i l l l i j f 、7胁 两华大学硕+ 学位论文 摘要 无线网络作为一种新的互联网接入方式,因其灵活方便的特点已被应用在更多的领 域。同时无线网络的安全和对网络的管理成为当前研究的热点。据资料分析,目前所取 得的研究成果大多是针对有线网络流量进行预测,而对无线网络这方面的研究还很少。 由于无线网络环境更加复杂多变,不稳定性更加明显,传统的有线网络的预测方法并不 适用,不能很好的体现无线网络特征,造成预测准确率较低,严重影响了流量异常检测 的效率。因此,本文针对无线网络流量的特征分析和流量预测做了如下几点研究: 第一,本文通过边际分布、自相似分析、分形特征分析等证明了无线网络流量数据 具有突发性和混沌多分形特征。在无线网络流量特征分析和预测算法研究的基础上,引 入了极大极小概率机( m p m r ) 建立无线网络流量预测模型。 第二,对基于m p m r 算法的预测模型分析和改进。主要包括数据集长度、核函数、 e p s i l o n 取值等m p m r 算法参数的研究;在确定最优参数的基础上,使用m p m r 算法进 行无线网络流量预测,并与s v m 算法相比较:预测模型的改进。我们在向量距离计算 上对模型进行改进,并通过残差分析及模型修正提高模型的预测精度。最后通过仿真实 验验证了该预测模型及其改进的有效性,能够更准确的进行无线网络流量预测。 关键词:无线局域网;流量预测;最大最小概率机 r 一 基。r 极人极小概率机的无线网络流量预测 a b s t r a c t a san e wn e t w o r ka c c e s st e c h n o l o g y ,t h ew i r e l e s sn e t w o r kh a sw i d e l yu s e di ne v e r y a r e a s ,a t t r i b u t i n gt o i t sf l e x i b l ea n dc o n v e n i e n t m e a n w h i l e ,t h es e c u r i t ya n dn e t w o r k m a n a g e m e n th a v eb e c o m et h ec o r es t u d i e sf o rt h ew i r e l e s sn e t w o r k a c c o r d i n gt ot h ea n a l y s i s , a tp r e s e n t ,t h er e s e a r c h e so ft h et r a f f i cf o r e c a s t i n gw e t cm a i n l ya b o u tt h ew i r e dn e t w o r k , w h i l et h e r ea r ef e ws t u d i e so nt h ew i r e l e s sn e t w o r k b e c a u s et h ew i r e l e s sn e t w o r kh a sm o r e c o m p l i c a t e da n dm o f cu n s t a b l et h a nt h ew i r e dn e t w o r k , t h et r a d i t i o n a lf o r e c a s t i n gm o d e l sa r e n o tf i t t i n gt ow i r e l e s sl o c a ln e t w o r k n o s em e t h o d sc a nn o td i s p l a yt h ec h a r a c t e r i s t i co ft h e w i r e l e s sn e t w o r k , l e a dt ot h ep o o ra c c u r a t ea n dr e s u l ti nt h ew o r s ee f f i c i e n c yo ft h et r a f f i c a n o m a l yd e t e c t i o n s o ,t h i sp a p e rd i ds o m er e s e a r c h e so nt h ew i r e l e s sn e t w o r kt r a f f i ca n a l y s i s a n dt r a f f i cf o r e c a s t i n g : f i r s t l y ,t h i sp a p e re m p l o y e dt h em a r g i n a ld i s t r i b u t i o n ,s e l f - s i m i l a r i t ya n a l y s i s ,f r a c t a l a n a l y s i sa n d s oo n t op r o v et h ew i r e l e s sn e t w o r k s t r a f f i ch a v eb u r s t l ya n dc h a o sm u l t i f r a c t a l c h a r a c t e r i z e b a s e do nt h ec h a r a c t e r so ft h en e t w o r kt r a f f i ca n a l y s i sa n dt h es t u d yo ft h e f o r e c a s t i n gt h e o r e t i c , w ei n t r o d u c e dt h em i n i m a xp r o b a b i l i t ym a c h i n e ( m p m r ) a sa f o r e c a s t i n gm e t h o df o rw i r e l e s sn e t w o r kt r a f f i c s e c o n d l y ,a n a l y z ea n di m p r o v e t h ef o r e c a s t i n gm e t h o d t h ee x p e r i m e n t sm a i n l y i n c l u d e dt h el e n g t ho fd a t as e t ,k e r n e lf u n c t i o n ,e p s i l o nv a l u e sa n do t h e rs t u d ya b o u tm p m r s p a r a m e t e r s ;u s i n gt h eb e s tp a r a m e t e r s ,f o r e c a s t e dt h et r a f f i cf o rt h ew i r e l e s sn e t w o r kb y m p m ra l g o r i t h m ,a n dc o m p a r e dw i t hs v ma l g o r i t h m ;i m p r o v e dt h ef o r e c a s t i n gm o d e l t h r o u g hs t u d i e dt h ef o r e c a s t i n gm e t h o d ,w ed i ds o m ei m p r o v e m e n t s o nt h ed i s t a n c eb e t w e e n v e c t o r , a n dt a k et h er e s i d u a la n a l y s i s ,m o d e la m e n dt oi m p r o v et h ef o r e c a s t i n ga c c u r a c y a t t h ee x p e r i m e n t w ev e r i f i e dt h em o d e la n di t si m p r o v e m e n t sw e r ee f f i c a c i o u s ,a n di tc o u l d m a k ef o r e c a s t i n go fw i r e l e s sn e t w o r k s t r a f f i cm o r ea c c u r a c y k e yw o r d s :w i r e l e s sn e t w o r k ;t r a f f i cp r e d i c t i o n ;m p m r 两华大学硕+ 学位论文 目录 摘要i a b s t r a c t i i 1l 者论l 1 1 研究背景及意义1 1 2 国内外研究现状2 1 3 主要内容。3 2 基础理论5 2 1 统计方法。5 2 2 预测建模方法6 2 2 1时间序列方法6 2 2 2 混沌时间序列分析法。1 2 2 2 3 智能算法1 2 2 3 风险结构最小化原则。1 4 2 4 向量的距离计算1 5 2 5 残差分析方法。1 8 3 无线网络流量特征分析2 0 3 1实验数据2 l 3 2 边际分布2 2 3 3自相似分析2 3 3 4 分形特征分析。2 4 3 5 本章小结。2 4 4 无线网络流量预测建模一2 5 4 1 无线网络流量预测模型分析2 5 4 2 极大极小概率机2 5 4 2 1 极大极小概率机的应用与现状2 5 4 2 2 极大极小概率机算法2 7 4 2 3 极大极小概率机算法分析2 9 4 3 基于m p m r 的无线网络流量预测建模3 0 4 4 本章小结3 0 5 仿真实验3 1 5 1 数据分析及其预处理3 1 m 3 1 3 】【 。3 2 3 4 3 5 3 6 正3 8 :;9 4 0 z 1 2 4 3 。1 4 4 8 4 9 西华火学硕十学位论文 1 绪论 1 1 研究背景及意义 随着计算机网络的发展,网络规模逐渐扩大,网络复杂性逐渐增加。网络安全和网 络管理是网络研究中的难点问题,其中如何确定流量的异常,提高网络性能一直是网络 研究的热点。d o s 攻击、d d o s 攻击、蠕虫病毒、网络配置错误、网络设备异常、p 2 p 模型的网络服务等都会导致流量异常的产生而影响网络的正常使用。网络的流量特征能 够真实的反映用户行为和信道情况【l j ,因此网络流量的特征分析和建模对于分析网络行 为特征非常重要1 2 l 。传统的网络管理系统属于事后响应,通常是根据预先设定的阈值来 报警;流量异常检测属于预先网络管理,它预测网络各种问题的发生事先采取措施来解 决问题,提高了网络的服务质量。网络流量预测可用于发现网络流量异常,为下一步确 定异常数据流位置、分析异常产生原因和确定异常类型等提供了基础,对保证网络的可 用性和可靠性具有重要意义。网络流量的预测和异常检测、分析的研究面临许多新的挑 战和新的问题,特别是对于无线网络方面。与有线网络相比,无线网络的自身特点导致 网络流量表现出不同的特征。 ( 1 ) 由于无线网络使用无线电射频( i 心) 或红外收发信号,其无线电波的传播特 性与双绞线、同轴电缆或光线等介质的传播特性有很大差别,因此无线网络与有线网络 在物理层实现上有很大区别。无线信道1 3 】具有衰减、多路径传播、隐藏终端等特性。例 如,当信号穿过物体时信号扩散产生路径损耗:传输过程中容易受到来自其它源节点的 电磁噪声干扰等等。另一方面,有线广播链路中,所有节点都能接受其他节点的信号, 而可能引起无线网络有隐藏终端和物理阻挡等问题。例如,节点a 、c 同时向节点b 发 送无线信号,当物理阻挡影响a 、c 互相听到对方,或者a 、c 的位置使得信号强度不 足以检测到对方是否正在发送信号是,它们的同时向b 发送便在b 处相互干扰。 ( 2 ) 由于无线网络物理层传输介质与有线网络的不同,链路层也采用了不同的 m a c 协议为网络层提供可靠的传输链路。i e e e8 0 2 3 采用的是多址访问协议 ( c s m c d ) ,根据电缆中的电压变换来检测冲突,如果站点之间的最大传输时延很 小,c s m a c d 的效率可以接近1 0 0 4 1 。但由于无线传输过程中无法一边接受数据信号 一边发送数据信号,感测载波和冲突检测会产生“n e a r f a r 现象,使得感测载波很困 难,因此i e e e8 0 2 1 1 采用的是冲突防止载波侦听多点接入避免冲撞协议( c s m a c a ) 来实现对网络系统的集中控制。c s m a c a 采用能量检测( e d ) 、载波检测( c s ) 和能量载 波混合检测三种检测信道空闲的方式,虽然这种显式的a c k 机制能够非常有效地解决 基于极人极小概率机的无线网络流量预测 无线问题,但同时增加了网络额外的负担,造成网络性能降低。 ( 3 ) 无线网络中存在着部分移动用户,他们可能实时改变连接进网络的接入点, 较高的比特错误率和切换丢失都会对网络流量产生影响。 ( 4 ) 传输层和应用层角度上看两个协议均采用尽力而为服务模式,即均使用t c p 和u d p ,但两个协议在实际使用时的性能有明显区别。以t c p 为例,按照协议规定在 发送方和接收方之间的路径上,一个报文段丢失或出错时t c p 都将重传。在移动用户 的情况下,丢失可能是源于网络拥塞( 如路由器缓存溢出) 或者切换。切换时重选过程 中报文段移动用户新的网络接入点会产生时延。此时a c k 仅仅表明未能收到一个完整 的报文段,却不能辨别产生原因是拥塞、切换还是检测到的比特错误而被丢弃。根据协 议规定,t c p 的拥塞控制对于所有的情况都减小其拥塞窗口,隐含地假设报文段丢失是 由于拥塞而非出错或切换导致。而在错误和切换导致的报文段丢失时路由器缓存可能完 全是空的,此时由于减少拥塞窗口,而不必要的降低了数据传输速率,进而对网络流量 产生的影响。 因此无线网络的流量数据在时间和空间领域展现更强的动态性,其流量变化的突发 性和不稳定性更加显著,规律性难以把握,因此无线网络流量数据的处理和预测具有更 大的难度。同时已有的基于预测的解决方案和检测模型不能很好的解决无线网络攻击、 网络病毒、网络故障等网络流量异常的问题。因此如何建立新的预测模型进行无线网络 流量预测是急待解决的问题,也是本文重点研究的问题。 1 2 国内外研究现状 现有的网络方面的研究通常是针对协议本身进行研刭粥】,但随着人们对网络的安 全和管理认识程度的提高,对于流量异常检测和分析的研究逐渐成为研究的热点。针对 检测所依据的不同类型的数据源,不同的检测范围等,研究者们已开始采用不同的研究 方法和技术手段进行研究【9 1 ,概括起来包括以下几种: ( 1 ) 根据网络异常流量的行为特征【1 0 l 进行分类,将数据包或网络流特征与已知异 常进行匹配,该方法仅仅适用于对已知的网络异常模型进行精确检测、确定和诊断。例 如,文献 1 l l q b 采用网络工具对网络异常行为特征进行检测。 ( 2 ) 基于数学统计的异常检测【协1 6 1 ,该方法采用统计分析技术对s n m p 流量统计 数据或网络流数据进行异常检测。常用的统计分析方法包括:指数滤波、小波分析等。 该方法不需要事先知道异常的特征,因此它既可以检测已知特征的异常流,也可以检测 未知特征的异常流。 出了基于数据挖掘的异常检测方法并应用于网络异常检测。该方法基于包追踪或网络流 数据,按数据流中的属性特征将数据流分类聚合,挖掘具有某种异常流量模式的聚合流, 检测及确定网络流量的异常行为。它的主要特点包括以下几点:既可以检测已知特征的 异常流,也可以检测未知特征的异常流;不仅可以检测异常,还可以确定异常的数据流, 比如异常数据流的源、目的地址信息;可用于实时准实时异常检测。 ( 4 ) 机器学习的研究。机器学习可以在经验学习中不断改善自身的性甜1 8 】。当前 已有研究者开展研究,包括基于系统调用的序列分析、贝叶斯网络、主成份分析p c a ”l 、 马尔可夫模型【捌。机器学习研究和发展能促进人工智能和其他科学技术的发展。 对无线网络流量的特性进行分析和研究,抓住其内在的本质和规律,是准确预测和 异常检测的前提和基础。因此对于无线网络流量的特征分析,也是无线网络中较为重要 的问题。现有对于无线网络流量特征分析的主要研究包括: ( i ) 1 9 9 9 年,t a n ga n db a k e r l 2 1 j 主要研究了城域网的无线网络用户和设备的模式。 2 0 0 0 年,他们在斯坦福大学计算机科学系的工作i 冽中主要针对网络活动和主机移动规 律进行研究。 ( 2 ) 2 0 0 1 年,k o t z 和e s s i e n 2 3 l ,将达特茅斯大学无线网络流量作为研究对象,使 用a p 的系统只志、s n m p 同志和有线监控器跟踪来描述大学无线校园网中典型的用户 和流量模式。主要针对无线用户活动,积累流量,不同区域网络使用量等进行研究。 ( 3 ) 2 0 0 2 年,b a l a c h a n d r a n 等人【2 4 j 利用s n m p 的日志和有线监控捕获无线局域网 流量特征,同时使用s n m p 同志和a p 积累错误比例来分析无线信道的特点。 ( 4 ) 2 0 0 3 年b a l a z i n s k a 和c a s t r o l 2 5 1 主要针对用户人数特征与网络流量分布关系进 行研究。 ( 5 ) 2 0 0 3 年,j i h w a n gy e o 等人1 2 6 】采用无线监控对无线网络丢包率和错误率进行 测量和研究。 ( 6 ) 2 0 0 4 年,s c h w a b 和b u n t 2 7 l 使用有线监控和思科专有l e a p 验证同志刻画和 描述无线校园网一周用户和流量的特征模式。 1 3 主要内容 本文的主要研究内容包括无线网络流量的特征分析、建立无线网络流量预测模型及 对预测模型的改进与修正。首先从边际分布、自相关分析和多分形等多个方面展开分析 3 基于极人极小概率机的无线网络流量预测 流量特征,展现了无线网络流量的突发性强、周期性不明显和混沌多分形等特征,有效 刻画无线网络流量的特征。其次,在无线网络流量特征分析和常用预测方法研究的基础 上,引入了一种智能算法一极大极小概率回归机,用此方法建立无线网络流量预测模 型。最后,我们对该预测模型进行算法分析和改进。仿真实验验证了该模型能有效的进 行无线网络流量预测,特别是改进的预测模型可以有效的提高预测的准确度,能够为低 误报率和漏报率的无线网络流量异常检测提供了有效数据,对无线网络的管理和网络安 全起到了关键作用。 本文结构如下,第二章给出了文章中用到的主要基础理论知识;第三章,通过多种 数学方法统计和分析了无线网络的流量特征;第四章,在预测模型分析的基础上引入 m p m r 建立无线网流量预测模型,详细描述了该预测模型算法;第五章,对无线网络流 量数据进行预测和改进,并通过实验验证该预测模型及其改进后的模型的效果;最后对 相关工作进行总结和展望。 4 西华大学硕十学位论文 2 基础理论 2 1 统计方法 ( 1 ) 边际分布 边际分布主要用于捕获随机变量的统计特征,例如均值、方差、偏度和峰度等。均 值表示数据的集中位置。方差是实际值与期望值之差平方的平均值,而标准差是方差平 方根。随机变量方差的意义在于描述随机变量稳定与波动、集中与分散的状况。标准差 则体现随机变量取值与其期望值的偏差。方差越小则波动越小,稳定性也越好。偏度是 刻画数据对称性的指标。而峰度表明随机变量的尾巴是否是厚尾的。四分位极差,也称 为半极差,它反映了分散性的健壮度量。根据上下截断点可以计算出原始数据的异常值 比例,即突发点的比例。 ( 2 ) 自相似 自相关函数( a c f ) 反映了同一序列在不同时刻的取值之间的相关程度。在时间轴 上,自相关是指可以通过某一时刻随机信号的统计特性对与之相关时刻的随机信号的统 计特性进行概率意义上的预测,预测的依据就是自相关函数。自相关可以表示出信号的 周期性,其中自相关极值点间的距离就是周期。对于随机信号,自相关反映了该信号的 变化快慢,如果自相关函数平滑则说明信号变化慢,相反信号变化快波动大。利用自相 关分析法可以测定时间序列的随机性、平稳性以及时间序列的季节性。 在自相关函数图上如果时间序列的自相关函数矶在k 3 时都落入置信区自j ,且逐 渐趋于零,则该时间序列具有平稳性;否则,如果时间序列的自相关函数更多地落在置 信区间外面,则该时间序列就不具有平稳性。 ( 3 ) 分形特征 分形特性【4 l 的研究主要包括自相似性、突发性和长相关性( l r d ) 。其中l r d 物理意 义是指某时刻的当前值与它的所有历史都有关。自相似模型是长相关过程的一种简单模 型,它用二阶矩性质描述长相关过程,只需要一个h u r s t 指数。 h e h u r s t ( 赫斯特) 是英国水文学家。以他名字命名的h u r s t 指数1 2 8 1 ,被广泛用 于资本市场的混沌分形分析。个具有赫斯特统计特性的系统,能够反映一长串相互联 系事件的结果,即今天发生的事将影响未来,过去的事也会影响现在。h u r s t 指数( h ) 有三个不同类型: 0 h 0 5 ,标志着所研究的序列是一个反持久性序列,即过去的增量与未来的 增量负相关,序列有突变跳跃逆转性。 基于极人极小概率机的无线网络流量预测 h = 0 5 ,标志着所研究的序列是一个随机序列,即过去的增量与未来的增量不相 关,此类序列通常采用概率统计学方法进行研究。 0 5 0 ( 2 2 ) 例如:c + l - 0 4 a t l + 0 3 a , 一2 + o 2 4 3 + 0 l 4 f 一4 。 指数平滑 石。峨+ ( 1 一口) 咀一,+ ( 1 一口) 2 a a 内+ 是过去数据的加权平均。所有的权值随着 时间的往前推移加权指数递减,且有口唯一确定,这称为指数平滑。m 与口的关系为 口。2 ( m + 1 ) 。但是如何选择a 以及如何刻画趋势和季节是指数平滑预测准确的难点。 基于极人极小概率机的无线网络流量预测 用指数平滑对数据进行平滑和预测,即e 一咀一。+ ( 1 一口) e 4 ,经进一步在整理、迭代、 开,得到f 的表达式为: e 。嘶1 + ( 1 一口) 略一2 + ( 1 一口) 2 咀- 3 + ( 2 3 ) 除了平滑时间序列外,确定型时间序列法包括拟合趋势。当数据特征符合线性趋势, 数增长趋势或二次趋势时,可以通过曲线模型进行拟合,常用模型包括季节行模型和 势模型两种。 季节性模型是指传统时间序列分析把趋势分解为四种影响因素:趋势r ,季节 s ,循环c ,不规则,。四种变动与原序列y 的关系被概括为两种模型:乘法模型 一t sxcx i ;力日法模型y - r + s + c + ,。 趋势模型包括的常见模型有:直线模型,指数曲线,幂函数曲线,对数曲线, 项式,修正指数曲线,双曲线,c o m p e r t z 曲线,l o g i s t i c 曲线等。该方法的局限性在 数据必须具有明显的趋势特征,以及曲线模型的公式和待定系数大小的取值。 时间序列的季节性会对其趋势性造成干扰,因此如果时间序列具有季节性则首先要 掉季节性,然后在对季节调整后的数据进行处理。然后对调整后的数据进行拟合和预 。其步骤主要包括:计算中心滑动平均;去掉趋势得到季节和误差项,得到季节指数; 整季节指数;去掉季节项;估计趋势;预测趋势;预测的趋势乘以季节指数。 ( 2 ) 基于短相关时间序列分析法 泊松模型 泊松过程是以发生时间定义的一种随机过程,它是在每个有界的时间区间或在某个 间中的每一个有界的区域,赋予一个随机的事件数,使得在一个时间区间或空间区域 的事件数,和另一个不重叠的时间区间或空间区域内的事件数,这两个随机变量是独 的,并且在每一个时间区间或空间区域内的事件数是一个随机变量,遵循泊松分布。 松预测曲线方程为: y ( f ) _ l + a l e - 甜 ( 2 4 ) f ,正、 其中) ,o ) 是t 时刻的预测值,a 、b 、c 均为待定系数。可利用三段计算求出泊松预 测曲线方程中的各个待定系数。三段计算法有如下两点要求:时间序列中的数据项数或 时间的期数以是3 的倍数,分为3 段后每段含刀3 - 厂项;自变量r 的时间间隔相等或时 间长短相等,前后连续,期数t - 1 , 2 ,3 ,刀。按此要求,则时间序列中各项分别为 y ( 1 ) ,y ( 2 ) ,y ( 3 ) ,y ( n ) ,并将其分为三段后计算。 8 西华人学硕士学位论文 马尔可夫( m 刮r k o v ) 模型 马尔可夫预测法,是一种预测事件发生的概率的方法。它是基于马尔可夫链,根据 事件的目前状况预测其将来各个时刻( 或时期) 变动状况的一种预测方法。马尔可夫预 测的基本方法是利用状态之间的转移概率矩阵预测事件发生的状态及其发展变化趋势。 马尔可夫模型的主要概念: 状态:指某一事件在某个时刻或时期出现的某种结果。 状念转移:事件的发展从一种状态转变为另一种状态。 马尔可夫过程:在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态有 关,而与历史的状态无关,或者说状态转移过程是无后效性的,则称该状态转移过程为 马尔可夫过程。 状态转移概率:在事件的发展变化过程中,从某一种状态出发,下一时刻转移到其 它状态的可能性,称为状态转移概率。由状态x ;转为状态e ,的状态转移概率是 p ( e - e ,) - p ( e ,e i ) 一弓 ( 2s ) 状态转移概率矩阵:假定某一个事件的发展过程有n 个可能的状态,即e ,。 记为从状态,转变 为状态e 的状态转移概率p ( e 呻e ,) ,则矩阵p 一 只。e : b ,易 只。只: 毋。 罡。 : 厶 称为状态转 移概率矩阵。 。 第k 个时刻( 时期) 的状态概率预测方法是: 根据马尔可夫过程的无后效性和b a y e s 条件概率公式,可以得到如下预测公式: ) 。善 一1 ) p o ( j - 1 2 ,刖 ( 2 6 ) 行向量f ) 暑【e ) ,f 2 ( 七) ,e ) 】可以得到逐次计算状态概率的递推公式: f o ) 一f ( o ) p ,( 2 ) i f ( 1 ) p l ,( o ) 尸1 ( 2 7 ) f ( k ) 。f ( k 一1 ) p 。- f ( o ) p 其中,( o ) 。【鼻( o ) ,最( 0 ) ,c ( q 为初始状态概率向量。 9 扰动,此时我们认为系统由扰动的线性组合决定。即使不是线性关系,也可以用线性关 系来近似,这就是线性平稳时间序列。 建立a r m a 模型,通过确定p ,q 大小定阶是关键。主要方法是:根据自相关函 数和偏自相关函数的拖尾或截尾特征来定阶。表格2 2 给出了判断标准。其中m a ( q ) 的 自相关函数特征是:如果是截尾,则有限步之后自相关系数等于0 。根据n 阶误差计算 a i c 值,即第p 个点的a i c 值最小,则为a r ( p ) 。 表2 2 使用自相关与偏自相关确定模型 t a b 2 2d e t e r m i n et h em o d e lb ya u t o c o r r e l a t i o na n dp a r t i a la u t o c o r r e l a t i o n 1 0 两华人学硕士学位论文 对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序 列,再用适当模型去拟合这个差分序列,即a r i m a 模型。在实际应用中,自回归过程 的目的是对平稳时间序列建立模型,模型必须满足惟一的随机过程。当模型随机过程的 种类不能确定时,则自回归过程将无法使用,因此要求随机过程满足平稳条件,同时满 足随机差分方程。 ( 4 ) 自相似与多分形 分形理论、混沌学和孤立子理论是当前非线性科学的三大理论前沿。自相似原则、 迭代生成原则和分维是分形理论的三个重要原则。分形在通常的几何变换下具有不变性, 即标度无关性。分形形体中的自相似性可以是完全相同,也可以是统计意义上的相似。 f a r i m a 3 2 】模型即分形自回归求和滑动平均模型。f a r i m a 过程可以看作是a r i m a ( p , d ,q ) 过程的特殊形式,其中d 是差分的阶数,p 是自回归阶数,q 是滑动平均的阶数,p 、 q 是非负整数,d 是整数。在f a r i m a 中d 可以耿分数,d ( 一0 5 ,0 5 ) 。一个f a r i m a 过程 x ,:tz ,一1 ,o ,1 ,) 可以由以下关系表示: 币( 召) 酽x ,= o ( b ) a , ( 2 9 ) 口,是一个自噪音过程,即一个均值为0 ,方差为62 的w i e n e r 的过程w n ( 0 ,62 ) ,其 中,西佃) 和0 ( b ) 是复变量多项式没有公共解,r 代表伽玛函数。 m ( 曰) = 1 一西1 b 一西2 曰2 一西口曰p ( 2 1 0 ) o w ) = 1 0 1 b 一0 2 8 2 一一日。曰鼋 ( 2 1 1 ) ? l ( 1 一曰) d 荟【:j 一曰) 七( 2 1 2 , i :i r ( d + 1 ) 【r + d r ( d k + 1 ) 】 rj( 2 1 3 ) 当d = o 时,它是普通的a r m a ( p ,q ) 过程是短相关的。当d ( 0 ,0 5 ) 时,f a r i m a 过程为长相关过程。另外,如果p = q = 0 ,即f a r i m a ( 0 ,d ,o ) ,它是f a r i m a 最简单的形 式,一般称为分数差分噪声,差分系数d 表示长相关的强度。实际上,在d ( 0 ,0 5 ) , p 0 ,q 乒0 时,一个f a r i m a ( p ,d ,q ) 过程可以被看作由一个分数差分噪声 f a r i m a ( 0 ,d ,o ) 驱动的a r m a c o ,q ) 过程。同a r m a 过程相比,f a r i m a ( p ,d ,q ) 过程的灵 活性在于可以同时对长相关过程和短相关过程进行建模。 利用f a m m a c o ,d ,q ) 过程的这一性质来生成一个f a r i m a ( p ,d ,q ) 过程。 生差分噪音z 。 基于极人极小概率机的无线网络流量预测 。 c o 。1 ; k - 罗c 七匕。4 - a 。s t c l d ; ( 2 1 4 ) 扣1 l c i 一( - 1 - d ) k ) x c i 1 给出参数d 。 d - 日一0 5 ,h 为h u r s t 系数,可以有时间序列x 取出: 通过白噪声口r 替换f a r i m a ( 0 ,d ,o ) 过程y 。 令彤t x ,则彬- 垂_ 1 ( 曰) o ( 曰) 口,。推导可得到参数p ,留,62 的值以及序 列西l ,m 2 ,西p 和0 1 ,口2 ,巳。 最后使用常用的a r m a 过程方法产生一个f a r i m a ( p ,d ,q ) 过程x 。 2 2 2 混沌时间序列分析法 7 混沌可以看作是时间上的分形,分形也可以说是空间上的混沌。混沌1 3 3 】是物理学和 数学的边缘学科,它主要涉及到系统对初值的敏感依赖性、拓扑传递性与混合性、周期 点的稠密性、随机性和遍历性、l y a p u n o v 指数、分维数和奇怪吸引因子等。混沌在许 多领域已经得到了广泛的应用。虽然混沌现象中具有固有的确定性,但它对初始值具有 敏感依赖性,因此混沌现象是短期可预测。混沌时间序列的预测方法包括:全局法、局 域法、加权零阶局域法、加权一阶局域法、基于l y a p u n o v 指数的预测方法和基于神经 网络的预测方法。 一般来说,非线性系统的相空间可能维数很高,甚至无穷。延迟坐标状态空间重构 法可以将时间序列扩展到三维甚至更高维空间中。在高维空间中混沌吸引子可以得到回 复,充分展现蕴藏的信息。重构相空间关键参数是时间延迟f 和嵌入维数m 。选取时间 延迟的方法主要有序列相关法( a c ) 、相空间扩展法、复自相关( c a c ) 、去偏自相关法, 时间窗口法,互信息法和c - c 法。估计嵌入维数m 可以选择使用g p 算法或c a o s 方 法。 2 2 3 智能算法 智能算法能一般具有自动学习的能力,能自动学习数据中隐藏的特征,快速找到数 据内在规律,适合用于多种预测研究,主要包括灰色理论、神经网络、模糊逻辑法,专 家系统,小波分析,支持向量机、极大极小概率机等。 ( 1 ) 灰色系统 灰色系统由中国学者邓聚龙教授1 9 8 2 年首先提出来,该系统内部的状态信息部分 已知,部分未知,即信息不完全的系统。灰色预测方法是一种不严格的系统方法,它并 1 2 _ 西华人学硕士学位论文 不考虑系统结构,直接采用双灰色理论进行预测。它能根据原始资料的不同特点,构造 出不同的预测模型。预测所需数据量少,所以包含的信息不如白色系统多,但通过学习 可以用于长、短期负荷预测,其灰色预测的范围广。 ( 2 ) 神经网络 神经网络法是一种区别于传统计算方法的信息处理算法,神经网络一般由多个神经 元连接,用来模拟人脑行为的网络系统,能通过自动学习获得合适的模型参数,并确定 预测模型。该方法首先对大量样本输入神经元网络进行训练拟合,并适当调整其权值和 阀值,最后建立模型并进行预测。神经网络的优点是精确度高,但是其算法复杂且需要 大量样本,运行时间较长、容易陷入局部最优的结局。 ( 3 ) 模糊逻辑法 模糊逻辑法是一种将模糊数学和控制理论相结合方法,通过模糊推理对难以建立精 确数学模型的对象进行控制。模糊预测方法是模拟人脑的工作过程,有效地刻画未知的 非线性系统的内在联系,从而非建立精确的数学模型。对于不精确的、模糊的问题,使 用模糊理论中的隶属函数来描述专家的意图,如模拟不同专家的推理和判断方式等构成 不同的专家系统。但随着模糊理论更深入的研究和广泛应用,研究者发现模糊理论也存 在着一些缺点和不足,如模糊理论的学习能力弱,当其映射输出比较粗糙、映射区域划 分不详细时,系统受主观人为因素的影响较大。 ( 4 ) 专家系统 专家系统是利用专家丰富经验和权威性进行组合并进行预测,对数据库罩存放的历 史数据进行分析。专家系统由知识库、综合数据库、推理机、解释程序和知识获取等五 部分组成,主要知识库储存专家用以解决预测问题的知识;综合数据库主要储存推理过 程中的事实,存放系统运行中所需的包括历史数据、特殊情况数据和有预测结果的数据 信息等原始数据和生成信息;推理机用以控制推理过程,据综合数据库的状态,利用知 识库知识来实现实际问题求解;解释程序用以说明求解过程,回答用户问题:知识获取 部分主要用于建立、修改编辑、补充知识库,并对其进行一致性、完整性维护。专家系 统法的优点是考虑的因素比较全面,能最大限度地利用专家的能力,并且较好地避免人 为差错,有利于得出较为正确的结论,具有领域广泛。其缺点是它不具有自学习能力, 由于数据库能存放的知识总量是有限的,因此当突发性事件发生、条件变换难以适应。 ( 5 ) 小波分析法 小波分析法是一种时域频域分析法,它设计了现代分析学中诸如泛函分析、 f o u r i e r 分析、样条分析、调和分析等众多数学分支,在时域频域同时具有良好的局部 化特点。小波变换能将各种交织在一起的不同频率的混合信号分解成不同频带上的块信 基于极大极小概率机的无线网络流量预测 号。通过对时间序列进行小波变换,可以将各子序列分别投影到不同的尺度上,子序列 分别代表了原负荷序列中不同频域的分量。因此,可对不同的子序列分别进行预测,然 后通过序列重构得到较准确的预测结果。 ( 6 ) 支持向量机 支持向量机基于统计学习理论( s l t ) 和结构风险最小化( s r m ) 。它将待解决的 问题转化为一个二次规划问题,从而克服了传统神经网络的隐层节点选择难和可能陷入 的局部极小化问题。v a p n i k 从数学理论上给出了这种做法的理论依据,并推导出了这种 方法风险性能的衡量,以及一整套求解的步骤。该方法对有限的训练集样本,可以得到 小的误差。因此能较好的解决小样本、非线性、高维数、局部极小点等实际问题,适用 于求解分类和回归问题,泛化能力强,精度高,已在模式识别、回归估计、信号处理函 数逼近和各类金融时间序列预测等领域得到了很好的应用。 2 3 风险结构最小化原则 , 误差的积累叫做风险,记为尺( 厂) 。 ( 1 ) 经验风险最小化原则 经验风险,记为r 一( 厂) ,是样本经过分类器分类的结果与样本真实值之间的差值。 以前的机器学习的方法原则是经验风险最小,但是结果表明样本训练时的j 下确率很容易 达到1 0 0 ,但真实分类时效果很差。这是由于样本只是真实文本的- d , 部分,它的准 确逼近不能保证大量的真实样本逼近的正确性,因此推广能力差,泛化能力差。 ( 2 ) 结构风险最小化原则 v a p n i k 等人发展的小样本统计学习理论指出机器学习的过程只有同时控制经验风 险和假设函数集合的容量才能得到好的预测效果,并由此提出归纳推理的一种新原则, 即结构风险最小化原则( s r m ) 。它将泛化误差界的概念引入统计学,使用经验风险 尺。( ,) 和置信风险_ b ( n h ) 两部分内容刻画真实风险。经验风险,代表了分类器在给定 样本上的误差。置信风险代表了大多程度上可以信任分类器在未知文本上分类结果。置 信风险与样本数量和维数相关,是一个估计的区间。经验风险与置信风险的和最小,即 结构风险最小,即r ( ,) s 尺御( ,) + ( 疗j 1 1 ) 。s v m 是基于努力最小化结构风险的 算法。 ( 3 ) 邻域风险最小化原则 s r m 通常使用再生模型构造概率密度函数。但是再生模型本身存在如下问题:数 据的缺失,即仅仅使用了少量标记过类型的数据,而忽略了大多数未被标记但可能含有 有用信息的数据。在提出s r m 后,v a p n i k 还提出了一种基于概率密度函数与假设函数 1 4 两华人学硕士学位论文 光滑的最小化期望风险的新原则邻域风险最小化原则( v r m ) 。相比较而言,v a r 提供了一种较为简单的算法来解决问题,这些问题原先仅仅是单纯地考虑再生模型,它 提供了s r m 与再生模型之间的桥梁。许多已知的模型都可以看作是v r m 在选择不同 损失
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 毕业论文完成的工作
- 生态工程专业毕业论文
- 大三毕业论文汽车系
- 研究生毕业论文专业课题
- 2025下半年重庆巫山县招聘社区专职工作人员9人笔试参考题库附答案解析
- 1. 服务合同(范本)
- 钢琴系硕士有毕业论文吗
- 互联网保险行业发展态势分析
- 竞争者协议的设计与规范
- 幼儿园中班《狼来了》体育教案
- 医院培训课件:《头晕临床思维》
- 中建架桥机安装拆卸专项施工方案
- 产品合格证出厂合格证A4打印模板
- 写作指南|扎根理论的三级编码及操作中的常见问题
- 话剧语言训练教程
- 数字经济学导论-全套课件
- 学习投入量表
- 电脑购销合同模板(六篇)
- 初中英语语法句型转换综合训练100题(含参考答案)
- 选题策划导论PPT完整全套教学课件
- 居家养老服务管理(社区居家养老服务课件)
评论
0/150
提交评论