




已阅读5页,还剩60页未读, 继续免费阅读
(通信与信息系统专业论文)无线通信数据业务流量预测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第l 页 摘要 随着移动通信技术的日渐成熟,数据传输速度的不断提高,尤其是3 g 技术的逐渐 普及,数据流量呈日益剧增趋势。而数据业务相关预测的空白,使通信运营商对网络 建设及调整缺乏有效指导,影响了用户的使用体验,企业效益得不到相应提升。因此, 准确的数据业务流量预测已经成为无线通信领域亟待解决的问题。本课题针对数据流 量数据的特点,着眼于研究数据流量预测的过程,使相关模型能应用于流量的预测。 本文简要的介绍了时间序列以及预测的相关基础知识。之后,详细介绍了预测模 型建立的过程,包括预测方法的选择、预测建模的阶数判断、参数估计、模型检验以 及误差分析。重点介绍的是季节时间序列模型和处理异方差的自回归异方差模型 ( a r c h ) 。同时本课题也应用了移动平均法、指数平滑法方法对数据进行拟合,以达 到拟合效果比较的目的。 本文借鉴了话务量预测的相关分析方法,先是对数据流量数据的统计特性进行了 分析,包括谱分析、季节性、平稳性和纯随机序列等。之后,根据数据相关的性质, 进行了一系列细致的预处理步骤,尝试建立经典季节时间序列模型,并选择适合模型 使预测精度最高。之后,研究发现时间序列模型的残差序列具有异方差性,于是对数 据序列拟合a r c h 模型,即s e a s o n - a r m a a r c h 模型,通过结果对比,发现此模型 具有比传统时间序列模型更高的拟合精度。 总之,本文的核心工作就是实现了数据业务流量的预测应用,重点在于预测系统 的设计,结合已知数据序列,将预测的理论转化为实践,整合应用分散的统计理论知 识完成了对实际数据的预测应用。 关键词无线通信数据量预测;季节模型;异方差 西南交通大学硕士研究生学位论文第1 i 页 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fw i r e l e s sc o m m u n i c a t i o nt e c h n o l o g y , t h ei m p r o v e m e n to f d a t at r a n s m i s s i o ns p e e d ,a n de s p e c i a l l yt h ep o p u l a r i t yo ft h e3 gt e c h n o l o g y , t h ed a t at r a f f i c i s i n c r e a s i n gd r a m a t i c a l l y h o w e v e r , t h ed e f i c i e n tt r a f f i cp r e d i c t i o n c a u s e st h el a c ko f e f f e c t i v eg u i d a n c eo nn e t w o r kc o n s t r u c t i o na n da d j u s t m e n t ,w h i c ha f f e c tt h ee x p e r i e n c eo f u s e sa n de n t e r p r i s er e v e n u e t h e r e f o r e ,t h ea c c u r a t ed a t at r a f f i cp r e d i c t i o nh a sb e c o m e u r g e n ti s s u ei nt h ew i r e l e s sc o m m u n i c a t i o nf i e l d t h i st h e s i sf o c u s e so nt h ep r e d i c t i o n p r o c e s so ft r a f f i ed a t ab a s e do nt h e c h a r a c t e r i s t i c so f t h ed a t at r a f f i c ,s ot h a tt h er e l e v a n t m o d e l sc a nb ea p p l i e dt ot h ed a t ap r e d i c t i o n t h et h e s i sb r i e f l yi n t r o d u c e st h eb a s i ck n o w l e d g eo ft i m es e r i e sa n dp r e d i c t i o n t h e n , t h ep r o c e s so fp r e d i c t i o ni sm i n u t e l ys h o w e d , i n c l u d i n gt h em o d e lc h o i c e ,o r d e ra n d p a r a m e t e r se s t i m a t i o n , m o d e lt e s ta n df m a l l ye r r o ra n a l y s i s t h ek e y o ft h et h e s i si ss e a s o n a l t i m e s e r i e sm o d e la n dt h ea r c hm o d e ld e a l tw i t hc o n d i t i o n a lv a r i a n c e a l s o ,t w oo t h e r m o d e l sa r ea p p l i e dt of i tt h ed a t a ,i no r d e rt oc o m p a r et h ef i t t i n gr e s u l t sw i t he a c ho t h e r t h et h e s i sf i r s ta n a l y z e st h es t a t i s t i c sc h a r a c t e r i s t i c sb a s e do nt h em e t h o d so fv o i c e t r a f f i cp r o c e s s i n g ,s u c ha s ,s p e c t r u ma n a l y s i s ,s e a s o n a lp r o p e r t y , s t a b i l i t ya n dp u r er a n d o m s e q u e n c e ,a n ds oo n a f t e rt h a t , a c c o r d i n gt o t h ed a t ar e l a t e dp r o p e r t i e s ,as e r i e so f m e t i c u l o u sp r e p r o c e s s i n gi sc a r r i e do u t t h e nt r yt oe s t a b l i s hc l a s s i cs e a s o n a lt i m es e r i e s m o d e la n dc h o o s et h em o s ts u i t a b l ep a r a m e t e r st om a k et h ep r e d i c t i o ne r r o ra sl i t t l ea s p o s s i b l e l a t e r , t h er e s i d u a ls e r i e so f t h et i m es e r i e sm o d e la r ef o u n dt oh a v eh e t e r o s c e d a s t i c p r o p e r t y t h e na r c hm o d e l ( a u t o r e g r e s s i v ec o n d i t i o n a lh e t e r o s k e d a s t i c i t ym o d e l ) i s a d o p t e dt of i tt h ed a t at r a f f i c ,a n dt h em o d e li sc a l l e ds e a s o n a r m a a r c h b yc o m p a r i n g t ot h er e s u l to ft r a d i t i o n a lt i m e s e r i e sm o d e l ,s e a s o n a r m a a r c hm o d e li m p r o v e dt h e p r e d i c t i o np r e c i s i o n a l li na l l ,t h ec o r eo ft h i st h e s i si st or e a l i z et h ea p p l i c a t i o no fd a t at r a f f i cp r e d i c t i o n a n dt h ek e yi st h ed e s i g no fp r e d i c t i o ns y s t e m b ys t u d y i n gt h ek n o w nd a t a , t h es c a t t e r e d p r e d i c t i o nt h e o r i e sa r ei n t e g r a t e dt oc o m p l e t et h ep r a c t i c a ld a t ap r e d i c t i o na p p l i c a t i o n k e y w o r d s :p r e d i c t i o no fw i r e l e s sc o m m u n i c a t i o nt r a f f i c ;s e a s o n a lm o d e l ; h e t e r o s k e d a s t i c i t y 西南交通大学硕士研究生学位论文第1 页 第一章绪论 1 1 无线通信数据流量预测的意义 纵观无线移动通信市场的发展趋势,近年来呈现的一个明显的特征是用户对于移 动数据业务的需求不断上升。而近几年随着移动通信市场竞争加剧,移动话务业务的 资费已呈现下降的趋势,而与话务业务收入持续下降形成鲜明对比的是数据业务正在 形成新的收入增长点【l 】,而且这一新的收益源还将保持持续增长的态势,如e - m a i l 、企 业远程接入、互联网接入和游戏等移动数据业务。究其原因无非两点:一是人们在物 质比较充足前提下的更高精神享受的追求,二是相关硬件的提升主要体现在手机智能 化和3 g 网络的建设。 从全球来看,2 0 0 3 年,v o d a f o n e ( 沃达丰,全球最大的移动通信运营商之一) 在欧 洲推广v o d a f o n el i v e ( v o d a f o n e 的一种移动数据业务) ,受到客户的积极响应,大获成 功。在2 0 0 3 年3 月3 1 日,v o d a f o n e 的移动数据业务在a r p u ( a v e r a g er e v e n u ep e r u s e r ,每个用户的平均收入) 中所占的比例为1 4 6 ,而在2 0 0 3 年9 月,这一数据就 已经上升到1 5 5 。而近几年,手机用户消费的数据一直在激增。2 0 1 1 年全年,移动 终端的总流量增长了2 倍。而从2 0 1 1 年至2 0 1 6 年间,移动数据业务流量有望每年 增长将近6 0 t 2 】【3 】。通信巨头爱立信预计,到2 0 1 6 年,智能手机产生的数据流量有 望增加1 2 倍,差不多与电脑产生的数据流量持平1 4 】。近几年,全球的移动通信数据流 量继续迅猛增长,从2 0 1 0 年的第二季度到2 0 1 1 年的第二季度,数据流量已翻了一番。 上述结论是全球第一通信设备商爱立信公司的一项最新统计结果,并在互联网现状 的报告中公布【5 1 。据i n f o r m a 公司的预测,从2 0 0 8 年到2 0 1 3 年,数据业务的收入预计 将增长18 0 ,但数据流量将增长1 7 倍1 6 j 。下图1 1 是由a b ir e s e a r c h 统计得来的平 均每个用户终端每月使用的数据流量,可以看出全球的数据流量一直处于增长过程, 尤其明显的是在新兴经济体亚太和成熟经济体西欧地区,且增长很快。下图1 2 由思 科统计得来的全球月均数据流量使用量预测图,从图中可以看出自0 9 年以来流量几乎 呈指数增长趋势,平均增长率达到1 0 0 。 西南交通大学硕士研究生学位论文第2 页 i 枷 l 瑚 l 舶o 蕾 z8 0 0 主鲫 枷 瑚 o l l 站 广 , m 广 姥竺栅 k 巴:乏二菇耋 - o - 西敢 十豪玟 + 亚太 一j c 茭 拉芰 + 中东 - o - - - 辜训 圳黼2 0 加l 瑾2 0 l 趣l 正i 旺 截撰束舞:i , b ir 髑嗣口出 图1 1 平均每个用户终端每月使用的数据流量 2 0 2 0 l ol l加1 22 0 】32 0 1 4 敌檐夹泳t 恿t i , 图1 - 2 全球月均数据流量使用量预测( e b ) 从国内来看,中国移动通信研究院院长黄晓庆在1 0 月底举行的2 0 1 1 年移动互联 网国际研讨会上的报告说,无线网络的飞速发展和智能手机的逐渐普及,带来了数据 流量的爆发式增长,中国移动2 0 1 1 年上半年无线终端上网流量同比增长了1 5 6 。而 据摩根士丹利的预测,与现在的数据流量相比,2 0 1 3 年移动通信的数据流量将增长6 6 倍。在谈到移动通信网带来的变化时,黄晓庆表示,无论用户的行为或者业务的形态 都发生了深刻的变化 7 1 。传统的门户网站如新浪、搜狐的优势已经不明显,移动用户已 经更多的将注意力转向了社交网络如人人网等。手机也已经不再是单纯的通信工具, 据调查,用户在使用手机时有超过6 0 的时间是用于基本通信之外的新应用。同时, 移动互联网也使得各行业间的界限越来越模糊,加快了行业的融合,电子阅读、移动 电视、物联网和移动支付等融合类应用正蓬勃发展哺j 。 如上所述,飞速增长的数据业务固然带来了无限商机,但也给移动通信运营商的 网络容量和优化带来了新的挑战。g p r s 、e d g e 和3 g 网络作为目前移动通信运营商 提供数据业务的主要承载网络,其网络质量的好坏直接影响了用户对移动数据业务使 用的满意度。对通信过程中用于描述当前网络运行的状态、性能的参数进行分析是无 线通信网规划扩容、维护和优化的重要参考手段。作为网络优化的一种重要手段,使 西南交通大学硕士研究生学位论文第3 页 用厂家提供的o m c r ( 无线操作维护中心) 对网络的状况、数据业务数据的提取、统 计和分析是目前移动运营商在运行、维护和优化网络工作中的重中之重p j 。 数据流量呈几何倍数增长,使运营商面临着巨大的网络扩容压力。为了能缓解流 量的压力,满足消费者的需求,经过对全球网络容量布局的发展情况分析,我们可以 看到以下几种解决方案: 1 ) 各国运营商纷纷在考虑扩容,为系统设计余量,为保证网络的质量留下足够的 空间。这往往是缓解网络压力最常见、见效最快的方法之一。一般来说,在进行网络 规划时,我们主要考虑如下两个方面: ( 1 ) 对无线通信网络扩容的规划、建设和调整 这是中国乃至全球通信网络资源都面临的一个重大的问题。如何根据无线通信业 务的发展需要,对现有的网络进行合理扩充,最大程度满足用户对网络资源的需求。 在这个前提下还要两个重要的方面:a 如何通过用户的需要进行合理的规划、建设新 的网络资源;b 如何对已存在的网络布局进行调整,以提高网络资源利用率。 ( 2 ) 特殊节假日、时间段数据流量剧增的处理 不同的国家或者地区,因其风俗人情、人文等的差异,都有各自不同的节假日。 这些节假日是会对数据流量造成一定的影响,以中国为例,在春节、中秋、五一、国 庆、元旦等特定节假日,无线通信突发数据流量会比平时突增十几倍,比如大量用户 对短信、飞信、微信等软件的使用,极易造成交换系统超载,出现网络严重堵塞甚至 出现大范围的系统瘫痪等问题,给移动通信运营商和用户都造成不可弥补的损失。另 一方面,在一天的某个时间段根据用户的作息时间也会出现数据流量的大范围波动【l 。 但是扩容也存在很多问题。首先,当某个地区基站的数目已经达到了最大值时, 如果再继续扩容,将会增加网络内部的干扰;其次是在热点地区,城市建筑密集,运 营商很难找到适合地点架设基站而不影响人们的健康; 2 ) 技术的演进是另一种常见方法。现在国内正在进行的3 g 建设就是一种扩容的 方法。但也面临着两个问题:第一,终端的发展还跟不上网络的发展,即使很多地方 已经覆盖了3 g 网络,用户因为终端的问题依然习惯于使用2 g 网络;第二,无论是3 g 终端或者3 g 网络使用的费用目前来说都是较高的,用户宁可牺牲速度也在坚持使用 2 g 网络: 3 ) w l a n 的分流。通过在出现高数据流量交换的热点区域设置w l a n 接入点来 缓解2 g 3 g 网络的流量压力也是目前国内运营商最常用的方式之一。w l a n 缓解流量 压力也是存在局限性的。w l a n 热点很难实现较全面的覆盖,而且由于一些政策的原 因,在中国用户拥有能够支持w l a n 的手机终端的也较少,使w l a n 的缓解能力大 打折扣。中国移动2 0 1 1 年显著地提高了对w l a n 的投资建设,这的确在一定程度上 缓解了网络拥堵的现状。但可以预见:随着数据使用用户的数目和数据业务的迅猛增 西南交通大学硕士研究生学位论文第4 页 长,中国移动在未来的几年中仍将受这个问题困扰【l l j ; 4 ) 提前预测网络的数据流量变化趋势,有计划的做好网络扩容和优化,对网络高 质量和低成本运营至关重要,是一种任何国家的运营商都优先选择的统筹方案1 1 2 】【1 3 】。 当今无线通信业竞争已出现新的趋势,由于技术的进步和用户的需求增多使通信 的业务多样化。电信行业已经步入了数据业务竞争的时代,因此根据数据业务流量的 统计资料对移动通信数据业务量的变化趋势进行合理预测1 14 1 ,并以此为依据来确定网 络扩容将要达到的容量,由各地设定的相应数据业务模型计算设备的有效网络容量, 以决定满足设计容量所需要的设备类型、数量和布局,这对于移动通信运营商来说是 非常重要的。为了能够充分地利用有限的频谱资源,实现成本最小化,利润最大化的 目标,运营商需要能够预测到数据流量的大致分布,以便更好地调配资源【l5 1 。这时, 数据流量的预测工作的地位不言而喻,而恰恰这方面的工作到目前为止做的很少,本 文就是致力于这样一种研究。 1 2 课题研究的流程和方案 本课题是一个关于数据流量预测的应用,注重于整个预测的过程,并将一些简单 而零散的理论整合应用于一个具体的预测过程,将理论应用于实践中,并在实践中验 证理论在具体应用中的可行性。预测的流程按如下图1 - 3 所示: 图1 - 3 数据预测过程 上图1 3 展示的是一般模型整个预测的过程,而在具体拟合某个模型时仍需要很 多步骤,无论a r m a 还是a r c h 模型都可以用如下图1 4 所示的步骤拟合模型: 西南交通大学硕士研究生学位论文第5 页 图1 - 4 模型建立过程 1 3 论文研究内容与主要结构 本课题是一个具体的关于无线移动通信数据业务流量预测的应用。主要是通过对 比话务量数据的特点,分析数据业务流量曲线的特点。结合数据业务流量的特点,通 过预处理【1 6 1 的步骤,找到适合的模型对数据进行拟合预测。本课题先是拟合传统的季 节模型,并分析所得残差数据,并进一步拟合s e a s o n a r m a - a r c h 模型,通过对比, 证明了后者的确适合拟合数据业务流量数据。 第一章是全文绪论,重点阐述了数据业务流量预测对现代移动通信的重大意义。 并通过与话务量数据的对比,初步阐述了数据业务流量的特点。数据业务流量的分析 和预测算法主要是针对容量问题,在考虑扩容和保证网络利用率的情况下提出来的, 具有较大的理论意义和现实意义。 第二章主要介绍了随机序列和时间序列的概念以及分类。并进一步介绍了预测的 定义,重点介绍了几种预测模型,比如,时间序列模型、神经网络、灰色理论等。最 后一节重点介绍了数据流量和话务量的数据特点以及二者的比较。这些内容都对本课 题起着铺垫作用。 第三章主要分析了数据流量数据的相关特性,包括自相关性、季节性、平稳性、 白噪声性等。并根据数据的特性和要拟合的时间序列模型对数据做了细致的预处理过 程。经过了详细的模型阶数的判断、参数的估计和模型检验等过程后,拟合了a r m a 模型,并验证了模型的有效性。 第四章介绍了自回归条件异方差模型( a r c h ) ,以及一些扩展的a r c h 模型,比如 e g a r c h 等。之后分析了残差序列的相关特性,发现其平方序列存在自相关性,满足 异方差模型,于是进一步对数据拟合了a r c h 模型。拟合过程包括阶数判断、参数估 西南交通大学硕士研究生学位论文 第6 页 计等过程。最终建立了s e a s o n - a r m a a r c h 模型,并通过与季节a r m a 模型的误差 进行比较,发现本章模型的精度更高。 最后,对全文工作进行了总结,并对论文下一步工作进行了展望。 第二章时间序列和预测模型 2 1 随机过程和时间序列介绍 在翼黧兹黧嚣嚣嚣然震徽鬻凳 理论璺篓型然裟黧票淼翥淼高。址 时间序歹匕翌至黑黧譬二警篆焉篇矣翼。鬟猫雀主程,另一耄 自然嚣! 三氅裟燃燃蕊赫_ 主星的匀速 盏篙篓燕蓑裂篡爱蠹黧 圆周过程,水滴的自由落体运动过程等。三置要苎曼三篇堋磊蔟翥测记录得到 磊函黧篡篡言耄:磊:_ 黧瓣茹嵩蒿鬟采同时犁竺 的凡组翌罂结嚣竺詈薹:同笔羹嚣釜了兰罘晋磊曩翟芫嘉蓁蔷茹果。,。赢得到了水竺 水位竺竺是竺譬机篆篇管篇端篡蕃磊定。而且在每年 关于时间f 的函数研。函数柳预先是不跫 的,只有遇赳犹删月眦移w “一一 ;相同时亥燮竺等量冀慧裟躲一个有序的蒯称为随舭程融一, 随机过程曼芋缨:量篥嚣:三磊篡日雾# z 篆c 磊为样 s e s , t t 薏絮黧紫s 样= o ,淼机是荔;赫中的一 本空间中的一个随机变量。对于每一个, s s ,工t s , 1 小川燃一” 次 量 献攀篡纛徽兹然燃黑篇蓑 麓薰戮一雾蒸妊袅釜 妄程轨) 对任意f 丁都是一个连续型竺随攀耄苎:一:旺意篡凳笺;蔷型随机过 如果一个随机过程瓴 对任意f 仨r 都是一个禺散削阻饥艾里剐1 q 哆。“ 程。本课题只考虑离散型的随机过程1 i i 1 。 西南交通大学硕士研究生学位论文第8 页 广连续型r 严( 强) 平稳过程 随机过程一广平稳的 l 离散型l 宽平稳过程 l 非平稳的 严平稳过程又被称为强平稳过程。如果一个随机过程中随机变量的任意一个子集的 联合分布函数都与时间是无关的,即无论对丁的任何时间子集( ,l ,2 ,岛) 以及任何 实数毛( t i + 助l 净1 ,2 ,刀都有: 尺攻r 1 ) ,双t 2 ) ,x ( t n ) ) = f ( x ( q + 助,f 2 + 助,岛+ 助) ( 2 1 ) 成立,则称该随机过程为严平稳过程( 强平稳过程) 。其中的尺) 表示片个随机变量的 联合分布函数。 严( 强) 平稳过程意味着该随机过程所有存在的若干矩都不会随时间的变化而变 化。从上述定义可知,严平稳的条件是十分苛刻的。对一个随机过程来说,随机变量 的联合分布函数是不方便得到和使用的。因此希望能有不像严平稳那样苛刻的判断条 件,可以只要求分布的主要参数是相同的。这就引出了宽平稳的概念,只要求从一阶 到有限阶的矩函数相同【2 0 1 。 如果个随机过程的刀阶以下的矩的值全部与时间f 无关,则称该过程为1 1 阶宽平 稳过程。比如 e 【x ( t ) 】= e x ( t j + 七) 】= o o , v a r x ( t , ) 】_ r a r x ( t i + j j ) 】- 盯2 x 产) x r ) 某水库一年的水位值缸l ,x 2 ,x t - i ,x 乃) ,可以看作是一个随机过程。而每一年的水 库水位纪录则是一个时间序列,表示为 x 1 1 ,x 2 1 ,x t - 1 1 ,x r l 。而在每年中相同时刻( 如 ,= t o 时) 的水位纪录是不相同的。 x 1 ,) 构成了x o 取值的样本空间。例如, 要记录某发电公司日发电量,则每日的发电量就是一个随机变量,于是得到一个日发 电量关于天数,的函数。而以年为单位的函数族构成了一个随机过程沁 ,f = 1 ,2 , 3 6 5 。因为自变量是以天为单位,是离散的,所以这个随机过程又称为离散型随机过程。 一年的日发电量的观测值序列就是一个离散的时间序列。许多的时间序列常常是平稳 的。如某地的气温变化过程,单位时间内某路口通过的车辆数,某地1 0 0 年的水文资 料等。但经济领域中大多数的宏观上的经济时间序列都是非平稳的。如年投资序列, 一个国家的g d p 序列,年进出口序列等。 西南交通大学硕士研究生学位论文第10 页 2 2 预测的定义以及分类 2 2 1 预测的定义和分类 预测是以科学的决策和现代化信息处理为基础的,也是信息研究和处理的重要内 容。在很多情况下,科学预测与信息的提取和处理是紧密相连的。因此,很大一部分 所谓的预测方法其实也是信息处理的常用方法1 2 。 目前,预测方法有很多,但还没有一个统一的、普遍认可的分类系统。大体说来, 基本可以将预测方法分为两个方向:技术分析和定量分析两个大类。预测的技术方法 指的是专家评估法或者直观判断法,这种方法的预测精度往往取决于预测者的技术水 平和经验,这种方法通常也称之为定性的方法。不过以打分等方式做出定量评估的技 术方法,其预测结果也是具有统计特性的。技术预测方法适用于宏观上的预测,虽然 也可应用于微观上的预测,但往往这不是最好的选择。技术的方法主要包括:目标预 测、专家会议、抽样调查、交叉影响和历史类推等;预测的定量方法主要是利用原始 数据序列,借助数学的方法,建立数学模型进行预测瞄】。其预测精度和可靠性,在很 大程度上取决于数据的特性和方法的科学性。预测定量方法主要包括:移动平均、指 数平滑、回归分析等i z 引。 经过不断的发展,时间序列预测方法有很多,常用的比如:a r a m ( a u t o r e g r e s s i v e a n dm o v i n ga v e r a g em o d e l ,自回归移动平均模型) 模型【2 4 j 、a r c h ( a u t o r e g r e s s i v e c o n d i t i o n a lh e t e r o s k e d a s t i c i t y ,自回归条件异方差) 模型【2 5 1 、组合预测模型【2 6 。、灰色 系统( g r e ym o d e l l 理论【2 7 1 、基于统计学习理论【2 8 】的人工神经网络( a r t i f i c i a ln e u r a l n e t w o r k ,a n n ) 模型【2 9 】和支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 模型1 3 0 。但是 以上每种方法都具有自己的特点,适用于不同特点的时间序列。 2 2 2 常见预测方法的介绍 第一,a r m a 方法是一种预测精度比较高的短期线性预测方法。其特点是训练过 程较快,但预测过程较慢,适合均值为零的平稳随机序列。这种方法比较适合较短的 时间序列,且序列必须是平稳的,如果不平稳,则需要进行相应的预处理。一般的线 性预测步骤为: 西南交通大学硕士研究生学位论文第11 页 , 图2 - 1 线性回归预测基本流程图 第二,a r c h 模型作为一种能体现波动性的预测理论,在近几十年里得到了迅猛 的发展,已经广泛地应用于金融理论中的规律描述以及对金融市场的预测。a r c h 模 型主要反映的是时间序列的波动性。当然随着对a r c h 模型的不断演变,能反映出时 间序列更多的特性,比如波动的聚集性、宽尾分布、收益率的不相关性等。对比a r 序列,a r c h 模型解除了a r 模型中自回归残差的方差为常数的限制,取而代之的是 依赖于序列的过去值【3 。 第三,神经网络预测法是目前一种常用的预测方法。它具有高度的并行性、良好 的容错性、优异的联想记忆功能、高度的非线性全局作用、十分强的可塑性和自组织、 自学习功能、自适应等方面的优点。尤其是自适应、自组织、自学习功能是传统的时 间序列模型所不具备的,是国际上十分认可的处理金融数据的预测方法之一 3 2 】。神经 网络法又可以分为趋势预测和相关预测【3 3 1 。神经网络趋势预测是通过对时间序列数据 的“训练学习来逐渐“理解 系统的运行规律【3 4 1 。而神经网络相关预测是通过对引 起时间序列数据变化的相关影响因素的“学习来逐渐“理解系统的运行规律。人 工神经网络虽然具有很高的精确度,但主要是针对大样本,而且其在理论上并不完全 成熟,还有许多亟待解决的问题p 副: 1 ) 没有成熟的理论依据指导如何处理和选取人工神经网络模型输入参数; 2 ) 没有有效的方法解决人工神经网络在训练过程中可能产生的学习不足或过拟和 现象; 3 ) 如何判定是否收敛及解决收敛速度慢且易陷入局部极小的状况; 4 ) 神经网络权值是在提供的样本趋于无穷大假设下的训练结果。但在实际的应用 中能得到的样本数据个数往往是有限的,这给神经网络模型权值的计算带来很 大困扰。 第四,灰色系统理论是我国的邓聚龙教授于1 9 8 2 年提出的,它的研究对象是“部 分信息已知,部分信息未知 的“小样木”不确定系统【3 6 】,通过对己知“部分 的信 息的开发,提取出有价值的信息,实现对系统的正确认识和有效控制。灰色模型算法 在建模时不需要计算出统计特征量,从理论上讲,该模型可以适用于任何非线性的时 西南交通大学硕士研究生学位论文第12 页 间序列预测【3 7 】。用于建立模型的数列生成方式有三种:累加生成、累减生成以及级比 生成。灰色预测法具有要求时间序列数据少、运算方便、不考虑其变化趋势、易于检 验等特点1 3 引,因此取得了令人满意的效果。但是也存在一定的局限性: 1 ) 数据越离散,就说明数据的灰度越大,则预测精度就越差; 2 ) 灰色理论微分方程的指数解比较适合于具有指数增长趋势的时间序列,对于具 有其它趋势的序列则有时候拟合的灰度太大,精确度难以达到要求。 第五,组合预测是指对某一时间序列采用各种可能适合该数据的模型分别进行拟 合,然后对通过了检验的几种模型进行组合,以提高预测的精度。组合预测有两种方 法:一是指将通过几种预测方法得的预测结果,选取适当的权重进行加权平均作为最 后的计算结果:二是通过对几种预测方法进行比较,选择拟合优度最佳的预测模型进 行预测f 3 9 】。 2 3 数据业务与话务业务的异同点分析 对于数据业务的分析及预测,国内外很少有学者做出研究,但是可以借助于分析 话务量的方法及预测的方法,结合数据业务自身的特点,建立适合数据业务的预测模 型,当然首先要分析数据业务和话务业务数据的区别: 1 ) 都依赖于一天中的时间段 虽然近几年数据业务得到了极大的发展,但是人们对数据业务的使用远不及对话 务业务的使用。数据业务的普及率是远远不如话务业务的,虽然数据业务也开始应用 在人们的工作中,但是大多数的应用来自人们的娱乐。这就决定了数据的业务的分布 与话务业务数据分布是不同的。推测数据业务的高峰将出现在人们不工作,休息的时 间;而话务业务将在工作时间和休息时间都可能出现高峰。如下图2 2 所示,一天2 4 小时的分布曲线: 纂天孔小时的话务量 ;犟豁李三# 二二二二二 二k - 孽二二二: - - - - 一,- :一 i 。,r 图2 22 4 小时话务业务数据和数据业务数据比较 西南交通大学硕士研究生学位论文第13 页 从图2 2 中我们可以发现,话务量具有以天为周期的特性。一天中有两个峰值, 分别是上午的1 0 :0 0 1 1 :0 0 和夜间的1 9 :0 0 2 0 :0 0 ,结合人们的实际生活习惯很容易理 解。而数据流量的高峰来着2 0 :0 0 2 2 :0 0 ,这个时间段是大多数人休息的时刻了,另外 在工作时间1 0 :0 0 和1 4 :0 0 左右数据流量也可以达到一个小高峰,说明数据业务也一定 程度被应用在人们工作中。可见,无论是话务量还是数据流量,它们的大小和它所在 的时间点息息相关。也就是说,这两种数据都依赖于一天中的时间段。 2 ) 数据流量呈现以月为周期性 分析数据可知,话务量和数据流量依赖于一天中的时间段的,但是否也会依赖于 一个月内的时间段呢? 通过分析数据,得到如下图2 3 ,分别代表以天为单位的话务量 曲线和数据流量曲线: 图2 - 3 每天总的话务业务数据和数据业务数据比较 从图2 3 中我们可以看出,话务量曲线在绝大多数天内,波动不大,只是在某几 天出现很大的波动,推测估计波动大的点处于节假日期间;而从数据流量曲线可分析 出数据大致呈现周期性,一个周期的天数大概为3 1 日。在数据的一个周期内,数据呈 现的基本趋势是递减的,也就是说,在月初的时候数据流量是比较大的,但随着时间 趋于月尾,流量的下降趋势比较明显,据此特性也可以推断出其原因,大致是因为移 动公司现在提供的流量包月套餐,使得月初流量充足,呈现井喷趋势,而到了月底用 户则谨慎使用流量,因为超出包月的流量的费用是普通用户难以承受的。也可以画出 数据的自相关函数曲线如下,也可以很明显看出话务数据不呈现出月周期的特性,而 数据流量曲线呈现出以月为周期的特性。但是显然这种数据都具有季节性,在构建模 型预测模型时可以考虑季节的因素。 西南交通大学硕士研究生学位论文第1 4 页 话鲁i a 相关叠最蠢 i 勺 lk ,怎。 o o , k r l气。 2 4 本章总结 蠡曩蠢量的自相关羹 瓣簪 图2 4 话务业务数据和数据业务数据自相关函数比较曲线 本章大部分对全文来说依然起着铺垫的作用。第一节主要介绍了随机序列和时间 序列的概念以及分类,明确了随机过程和时间序列的关系,讲明随机序列就是为了更 好的理解时间序列。第二节进一步介绍了预测的概念,明确了预测分析技术是建立在 科学、扎实的理论基础之上的,通过采用合理的数据分析、测算以及评估手段对未来 的数据进行合理预测。重点介绍了几种预测模型,比如,时间序列模型、神经网络、 灰色理论等。最后一节开启了本课题主要研究内容,通过数据,分析了数据流量和话 务量的数据特点以及对二者进行了比较。 西南交通大学硕士研究生学位论文第15 页 第三章基于s e a s o n a r m a 模型的数据业务流量预测, 3 1 数据流量特性分析和预处理 3 1 1 数据预处理过程概述 在拟合数据模型之前,一定要迸行必要的预处理步骤,使数据和要拟合模型相符, 否则很难得到理想的预测效果。下图3 1 展示了本文要做的预处理步骤。 图3 - 1 预处理步骤 第二步的砌处理是缩小数据的范围,原始数据的数量级为1 0 8 ,在后续的一系列处 理中很容易舍掉数据的末几位,影响数据的精度,于是最先对其进行加处理,确保数 据的精度;第三步和第四步都是为了使数据平稳化,最终得到一个平稳而非纯随机的 时间序列。 相应的,在对预处理后的数据进行数据预测之后,一定需要进行数据恢复,即数 据预处理的逆过程。 3 1 2 数据特性分析和预处理 本文的数据是从某市移动公司采集到的5 个月的数据,采集得到的若干天的数据 业务流量的数据如下图3 2 所示。数据以k b d a y 为单位,也就是说每个数据点都是该 市一天数据流量的总和,图中曲线每个月的数据是分开表示的,这样容易发现其规律 性。从下图3 2 可看出,取得的5 个月的数据,呈现出不完全的周期性和明显的趋势 性,而且每个月的数据都呈现自己的特点,下面就从几方面来分析该数据的特点。 西南交通大学硕士研究生学位论文第18 页 x o 。 一段时问的以天为单位的数据流量 32r 1 r f 1 r t 一 3 _ y i 蜒2 4 爿 18 【 o2 04 08 08 01 1 2 01 4 01 6 0 时问,蛳 图3 - 2 数据序列图 1 ) 数据的分布正态性检验 b e r a j a r q u e 检验是一种被广泛使用的检验正态分布的方法。其检验原理是通过计 算某统计量衡量序列的偏度和峰度分别偏离0 和3 的程度。因为如果是正态分布,则 其偏度应该等于0 ,峰度等于3 4 0 1 。 首先,定义序列的偏度和峰度,公式如下: 能s = 击1 喜c 孚,3刀一i s 峰度: k = 石善n ( 互) 4 ,其中,s 为序列的标准差,p 为序列样本的个数。 于是可建立j b 统计量为:胚= 旦【s 2 + 垡专笠】,其中七表示卡方分布的自由 度,这里自由度k 取2 ,置信度取1 。 检验的步骤如下: ( 1 ) 零假设为矾:样本序列为正态分布5 ( 2 ) 按照上述公式,计算出序列的标准差、偏度和峰度,最后计算出统计量胚; ( 3 ) 统计量服从z 2 ( 2 ) 分布,当零假设成立时,查分布表找出临界值,当在1 显著水平时,对应的临界值为9 2 1 ,也就是说满足:e ( x 9 2 1 ) = 0 0 1 ; ( 4 ) 如果步骤2 得到的船值大于9 2 1 ,则拒绝零假设风,样本序列为非正态分 布。否则认为该序列为正态分布【3 8 】。 西南交通大学硕士研究生学位论文第17 页 输入原始数据,取l 的显著水平,于是检验得:j b = 1 8 0 9 1 9 2 1 ,其中,峰度 k = 2 4 6 8 3 ,偏度s = 0 0 1 6 0 ,于是可以得出结论原始数据为正态分布。通过对数据的 统计分析并利用m a t l a b 画出直方图,也可以看出数据符合正态分布的特点。 原始数据舒布蹦 图3 - 3 数据分布直方图 2 ) 数据的谱分析 为了更好的分析时间序列的季节性,可用谱分析发进一步对序列进行分析。设 置o = 0 ,1 ,n - 1 ) 为离散时间序列,则称: 彳( 七) = 万1 缶n - 1 置国以,| | = 。,1 ,j 一1 ( 3 _ 1 ) 2 n i 为序列z 的有限离散傅里叶变换,其中,缈= p 一一n ,= j 则谱函数为:r ( t ) = 彳( 七) 木c o n j ( 彳( 七) ) 。 得到的谱函数如下图3 4 所示,可以从图中看出在3 1 点的位置有个最大的峰值, 说明该序列呈现出以3 1 为周期的特性。 西南交通大学硕士研究生学位论文第18 页 数据谱分析图 气l | |i 、_ _ _ j d。 厂? j j ; v y 1 02 0 3 04 05 0 7 08 0 f e u q u e n c y 图3 - 4 数据的谱分析图 3 ) 数据的自相关性 图示法:就是根据所给数据,计算出数据的自相关系数,并画出自相关系数图。 自相关系数计算公式: 珏避赛铲川出刀 2 , 其中,玎为样本的个数,t o = 1 ,2 ,刀) 为样本数据,孑为样本均值。序列的自相 关系数如图3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家俱店转让合同范本
- 财务尽职调查合同范本
- 户外泳池租售合同范本
- 黄金交易居间合同范本
- 订单蛋鸭合同范本
- 护理病人合同范本
- 勤杂工合同范本
- 房开的合同范本
- 母婴商品购销合同范本
- 城管业知识考试试题(有答案)
- 医院财务人员专业能力提升培训
- PDCA循环在医院应急管理中的应用
- 2026创新设计高考总复习生物(人教版)-限时强化练答案解析
- 2025年人资部长面试题及答案
- 《语文八下第三单元复习课》课件
- 2025年山西省公务员考试行测试卷历年真题及答案详解(名校卷)
- 2025年消除艾滋病、梅毒、乙肝母婴传播培训考试试题(含答案)
- 2025年部编版语文四年级上册全册单元、期中、期末测试题及答案(共10套)
- 患者期望与实际效果-洞察及研究
- 风力发电税务培训课件
- 2025年长沙市中考物理试卷真题(含答案)
评论
0/150
提交评论