(控制科学与工程专业论文)基于支持向量机的电信话务量预测方法.pdf_第1页
(控制科学与工程专业论文)基于支持向量机的电信话务量预测方法.pdf_第2页
(控制科学与工程专业论文)基于支持向量机的电信话务量预测方法.pdf_第3页
(控制科学与工程专业论文)基于支持向量机的电信话务量预测方法.pdf_第4页
(控制科学与工程专业论文)基于支持向量机的电信话务量预测方法.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 话务预测技术是通讯网络系统设计、规划和优化的重要手段之 一,同时也能为电信企业制定营销策略提供决策支持。虽然话务预测 的研究已有2 0 多年历史,并形成了一些话务预测方法,但是随着新 理论和新技术的发展,对话务预测新方法的研究仍在不断地深入进 行。支持向量机作为数据挖掘的一项新技术,应用于模式识别和处理 回归问题等诸多领域。本文利用支持向量机优越的非线性学习及预测 性能,针对短期话务预测的各种影响因素的非线性特性,提出基于支 持向量机的电信话务量预测新方法,以提高预测精度和时效性,该研 究具有重要的理论意义和实用价值。 由于影响话务量的因素繁多且复杂,若对输入不加适当选择处理 会导致预测精度降低,训练时间增加。考虑到话务量变化的周期性特 点,因此本文采用话务量聚类预处理技术,应用模糊聚类分析的基本 原理,依据输入样本的相似度选取训练样本,即选用同类特征数据作 为预测输入,保证了数据特征的一致性,强化了历史数据规律。在基 于支持向量机话务预测之前,先对样本进行模糊聚类分析,选取与预 测样本特征相似的样本作为支持向量机的训练样本。 本文分析了支持向量机的基本原理,支持向量机具有非线性拟 合、泛化能力强、训练收敛速度快等显著特点。数值试验结果表明, 支持向量机具有较强的学习能力。另外,本文还具体讨论了支持向量 机中高斯核函数中参数仃对支持向量机学习预测性能的影响,指出高 斯核函数具有描述样本相似程度这一性质,通过数值实验和理论分析 给出了一种选择高斯核函数的方法拐点法。进一步指出样本数据标 准化对学习预测的影响,给出了标准化后选择较优高斯核函数参数的 一个大致范围。针对话务量与各种影响因素之间的非线性关系,建立 了基于支持向量机的短期话务量预测模型,结果表明基于支持向量机 的话务量预测精度要优于神经网络方法和周期时间序列方法。 关键字:支持向量机,模糊聚类,预测模型,高斯核函数 a b s t r a c t t h f | f i cf o r e c a s t i n gt e c h n o l o g y i so n eo fi m p o r t a n tm e a n sf o r n e t w o r kc o m m u n i c a t i o ns y s t e md e s i g n i n g ,p l a n n i n ga n do p t i m i z a t i o n , a n di ta l s oc a np r o v i d ed e c i s i o ns u p p o r tf o rt e l e c o me n t e r p r i s ew h e n m a r k e t i n gs 打a t e g yd e v e l o p m e n t c u r r e n t l yt h e r eh a v eb e e nm o r es t u d i e s i nt h e o r ya n dc o m p l e m e n t e dm e t h o d so f 仃a m cf o r e c a s t i n ga n do b t a i n e d s o m ea c h i e v e m e n t n e wt h e o r ya n dn e wt e c h n o l o g yb a s e dt r a f f i c f o r e c a s t i n gr e s e a r c h e s h a v eb e e nd e v e l o p e dc o n t i n u o u s l y a sn e w t e c h n o l o g yo fd a t am i n i n g ,s u p p o r tv e c t o rm a c h i n e s ( s v m ) h a v eb e e n s u c c e s s f u l l ya p p l i e di np a a e mr e c o g n i t i o na n dr e g r e s s i o np r o b l e m ,e t a 1 1 1 1 i sp a p e rp r o p o s e st ou s ei t sa d v a n t a g e so fn o n l i n e a rp r o c e s s i n ga n d a b i l i t yp l i s h ;h o r t - t e r mt r a 一f o r e c a s t i n o ft elecomgeneratinga b i l i t yt oa c c o m p l l s l as h o r t - t e r mt r a m ci o r e c a s t l n go it e l e c o m s y s t e m ,s oa st oi m p r o v ef o r e c a s t i n gp r e c i s i o n c o n s e q u e n t l yt h es t u d y i s s i g n i f i c a n ti nt h e o r ya n di sv a l u a b l e i np r a c t i c e b e c a u s eo fn u m e r o u st r a f j f i ci n f l u e n c ef a c t o r sh a v i n gag r e a to f c o m p l e xc h a r a c t e r i s t i c s ,a n dt h ep a a e m ,w i t h o u ts e l e c t i n gi n p u tv e c t o r s , w i l l l c a dt or e d u c eo ft h ep r e c i s i o na n di n c r e a s eo ft h ec o m p u t e r i n gt i m e t h e r e f o r et h i sp a p e ra d o p t sa l le f f e c t i v ef u z z yc l u s t e r i n ga n a l y s i sa n d p r o c e s st e c h n o l o g y f o rt h et r a f f i cd a t aa n dc o m b i n e st h ec l u s t e r i n g a l g o r i t h mw i t hs v m a n e ws mm e t h o db a s e do nf c mf u z z yc l u s t i n g a l g o r i t h mf o rs h o r t - t e r mt r a f f i cf o r e c a s t i n gi sf i r s tp r e s e n t e di nt h i sp a p e n t h i sm e t h o dc h o o s e st r a i n i n gs a m p l e sb yf u z z yc l u s t e r i n ga c c o r d i n gt o s i m i l a r i t yd e g r e eo ft h ei n p u ts a m p l e si nc o n s i d e r a t i o no ft h ep e r i o d i c c h a r a c t e r i s t i co ft r a 伍cc h a n g e ,w h i c hm e a n st a k et h es a m et y p eo ft h e d a t aa st h el e a r n i n gs a m p l e sf o rf o r e c a s t i n g ,g u a r a n t e et h ec o n s i s t e n c yo f t h ed a t ac h a r a c t e r i s t i ca n de n h a n c et h eh i s t o r yd a t ar e g u l a t i o n t h i sp a p e ra n a l y s e st h eb a s i ct h e o r i e so fs v m s v mh a v et h e r e m a r k a b l e a d v a n t a g e s o fn o n l i n e a r r e g r e s s i o n ,h i 曲f o r e c a s t i n g a c c u r a c y a n ds m a l lt i m e c o m p l e x i t y t h e r e s u l t so fn u m e r i c a l e x p e r i m e n t ss h o wt h a ts v mr e a l l y h a sg r e a t p r e d i c t i o na b i l i t y i n a d d i t i o n w ed i s c u s s e so ng a u s sk e r n e ls v m a n dh o wt h ep a r a m e t e r 仃 i n f l u e n c e st h eq u a l i t yo fs v mi nt a i l w ea l s os h o wt h a tg a u s sk e m e l f u n c t i o nc a nd e s c r i b et h el i k e n e s sd e g r e eo ft h es a m p l e m o r e o v e r ,w e p r o p o s ean e wa l g o r i t h mf o rf i n d i n gag o o dp a r a m e t e ro ,w ec a l l e d i n f l e x i o nm e t h o d w h a t sm o r e ,w ep o i n to u tt h ei n f l u e n c eo fs t a n d a r d i z e t op r e d i c t ,a n dt h e ng i v em o s t l ys c o p eo ft h ee x c e l l e n tp a r a m e t e r o , w h i c hi n g a u s s k e r n e lf u n c t i o na f t e r s t a n d a r d i z e d a c c o r d i n g t h e n o n - l i n e a rr e l a t i o n s h i pb e t w e e nt h ef o r e c a s t i n gt r a f f i ca n di t si n f l u e n c e f a c t o r s ,t h i sp a p e rp r o p o s e sas h o r t - t e r mt r a f f i cf o r e c a s t i n gm o d e lb a s e d o ns v m c o m p a r e dw i t ht h e f o r e c a s t i n gm e t h o do fa r t i f i c i a ln e u r a l n e t w o r k s ( a n n ) a n dc i r c l et i m es e r i e s ,t h es i m u l a t i o nr e s u l t so ft h e p r a c t i c a la p p l i c a t i o ns h o wt h a tt h es v mm e t h o di sm u c hb e t t e rt h a n o t h e r s k e y w o r d s :s u p p o r tv e c t o rm a c h i n e s ,f u z z yc l u s t i n g ,f o r e c a s t i n g m o d e l ,g a u s sk e r n e lf u n c t i o n i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:隧虫遮 日期:逊年月上日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:敞导师签名铷日期:皇必臼上日 中南大学硕士学位论文第一章绪论 1 1 研究背景和意义 第一章绪论 伴随中国经济的稳步发展,我国的电信业也取得了长足的发展与进步。但与 此同时,各运营商之间的竞争愈加激烈,竞争的加剧迫使各运营商千方百计的挖 掘自身潜力,从技术和服务两方面入手,不断的提高客户满意度和管理决策准确 度。对各运营商而言,如何建设、优化和经营好自己的网络,如何进行更准确的 市场定位是需要考虑的首要问题。正确的决策源于科学的规划,而符合市场规律 的业务预测是进行科学规划的重要手段。 目前国内几大电信企业已完成了业务支撑系统的升级和改造工作,实现了电 信运营服务的整体自动化流程处理和管理平台。同时,业务支撑系统应用软件也 开始对运营数据进行更精细的数据分析工作,但数据挖掘的应用仍处于初级阶 段,主要表现为技术手段落后、挖掘主题不够深入、易用性差,不利于实施和推 广,难以提供有效的决策支持。 话务量是电信业务流量的简称,是反映用户通讯频繁程度和通话时间长短的 一种指标。话务预测技术是通讯网络系统设计、规划和优化的重要手段之一,同 时也能为电信企业制定营销策略提供决策支持。网络维护中心通过预测话务量来 预测将来的网络运营情况,为将来可能出现的网络问题,提前作好准备,避免出 现网络大面积拥塞,提高网络运营的服务质量;市场及营销部门通过对业务结构、 网络流量流向的分析和预测,能够了解现在和将来一段时间内不同运营商,不同 地域,不同用户之间互联互通的情况,帮助他们进行合理的资源调度和分配,并 制定有效的营销策略提高自身客户的忠诚度,有针对性的吸引竞争对手的客户。 目前,大多数运营商的网络分析优化部门对历史数据的一些指标做简单的统计工 作,通过分析历史数据,只能了解各个通信设备等通信资源过去的利用情况和运 营状况,但对未来的网络调整、优化、扩容以及将来可能发生的情况等缺少科学 的预测;即便某些较发达地区的运营商开发了话务量预测系统,但针对话务量的 预测工作仍存在明显的不足之处,从技术上主要表现为:n一 + 一 1 ) 预测精度不高 目前已建立的话务量预测系统所采用的主要预测方法为单因素周期时间序 列,基于时间序列的方法往往寄望于从历史数据中寻找到话务量变化的规律,但 影响话务量的因素众多,而历史数据中蕴含的信息毕竟有限,因此该方法难以获 得理想的预测精度。 中南大学硕士学位论文第一章绪论 2 ) 预测模型复杂,实用性不强 由于节假日与平常的话务量变化规律不一致,因此在应用时间序列方法对话 务量进行建模预测时,往往需要分别对节假日、周末以及工作日建模。然而通过 这种方式建立的模型自动化水平较低,往往需要不断的进行模型修正,而模型修 正必须依赖一定的业务经验和技术知识,这样就给使用者造成负担,实用性降低。 然而,对短期话务量预测有两个基本的要求: i ) 精确性:短期话务量预测必须具备较高的预测精确,一般要求相对误差 不超过3 - 5 ,精度越高,决策的准确度也会越高。 2 ) 时效性:为保证有充分的实施时间,短期话务量预测必须快速地得出预 测结果。时效性差会降低预测的实用价值,因此通过预测模型应尽可能迅速的得 到预测结果。 由于存在各种内、外随机因素的影响,通讯系统的话务量大小在本质上来说 是不可控的。因此了解未来话务量的可能变化的一个有效方法,就是观察话务量 的历史记录,对其从本质上去研究和分析;另外,通讯系统话务量呈现周期性特 征,给研究分析提供有利方面;此外,某些可以较容易得到的业务发展指标( 如 用户数等) 能代表业务发展的趋势,能有效的描述未来话务量的大体趋势走向。 只有密切注意到话务量具有这些重要特征,才能有针对性的提出一套实际可 行的方法,本文正是在总结了现有的话务量预测方法并分析话务量特性及预测特 点后,在话务量聚类预处理基础上,利用目前已广泛应用于预测领域的支持向量 机回归方法对话务量预测过程建模,提出基于支持向量机的电信话务量预测新方 法,以提高预测精度和时效性,该研究对于高精度和高效率的电信话务量预测具 有重要的理论意义和实用价值。 1 2 电信话务量预测研究现状 国内对于电信话务量预测的研究开始于上世纪八、九十年代,至今已形成了 几种常见的预测方法,如时间序列法、回归分析法、模糊神经网络法等。但由于 影响话务量变化的因素非线性程度极高,难以通过建立精确的数学模型来进行预 测,所以精确的话务量预测仍然相当困难。实践证明,没有一个预测方法是绝对 准确的,也没有一个方法能适应所有的电信业务预测要求。 1 ) 时间序列法 话务量数据是按照时间先后排列在一起的,因此它符合时间序列( t m a es e r i e s ) 的特点。经常被采用的时间序列模型有以下几种:自回归模型( a r ) 、动平均模型 ( m a ) 、自回归- 动平均模型( i r m a ) 和累积式自回归动平均模型( a m a ) 等【1 5 1 。 2 中南大学硕士学位论文第一章绪论 付楚胜根据线性预测理论,摒弃传统的凭经验确定系数的引力法和吸引系数 法,采用自适应时间序列算法,提出了一种依赖于历史数据的话务量统计和预测 的新方法1 6 j 。虽然预测模型需改进的地方还很多,精度不高,但仍具有一定的指 导意义。胡煜利用改进的a r 模型预测话务量,并重点阐述了话务量数据预处理 的重要性和过程。薄今纲、于敏芳等人应用带两个周期乘积的a r i m a 模型获 取话务量特性,建立季节模型描述实际的话务量序列【8 】,通过模型的多次调整使 预测相对误差保持在2 左右,但这种方法自动化程度不高,其获得高预测精度 所依赖的模型修正方法并不具有一般性,且对于节假日等特殊时段的预测方法和 结果,作者并没有作说明。电子科技大学向炳新通过一种时间序列较优周期搜寻 算法和节假日话务量自适应预测算法分别对平时和节假日的话务量进行预测【9 】。 作者通过较优周期搜寻算法得到的最优周期为7 ,但这个结论通过常识或者相关 性分析等简单的分析方法就能得到,然而通过大量的计算后得到以周为周期的结 论显然有点哗众取宠。对于节假日话务量的预测,作者巧妙的引入水平和速度分 析的思想获得了较高的预测精度。这种将平日和节假日分开预测的方法虽然建模 过程比较繁琐,但在工程实践中仍可权衡使用。黄健聪、万海等使用基于时序匹 配模型的k 近邻算法从历史话务量中寻找与待预测时刻话务量的最相似模式【l 们, 这种方法准确度较高,实现容易,缺点是算法过程和参数常常需要人工定义,主 观性较大,而且匹配实例所需的时间较长。 2 ) 回归分析法 回归分析法是研究变量与变量之间的一种数学方法,即通过对变量的观测数 据进行统计分析,确定变量之间的相互关系,从而实现预测的目的【1 1 1 。在话务量 预测中,根据历史数据和一些影响话务量变化的因素来推断将来时刻的话务量。 陶伟宜针对移动通信话务量与市场用户和相应资费政策相关的特点,采用回 归预测方法,建立了基于市场用户数及每用户收入的话务量预测模型,并对模型 进行了经济学意义上的检验【1 2 】。作者提出,话务量的变化趋势不能单纯由“时 间 因素来描述,其发展变化主要由市场用户增长和每用户收入的变化决定。这 种预测方法更接近于话务量变化的实际原因,预测结果能为电信企业制定市场营 销决策提供参考。但影响话务量变化的因素相互耦合,如何合理有效的解耦是需 要进一步解决的问题。 3 1 神经网络法 神经网络是由许多并行运算的功能简单的神经元组成,是一个非线性动力学 系统【1 3 1 6 l 。单个神经元的作用是实现输入到输出的一个非线性函数关系。它们之 间广泛的连接组合就使得整个神经网络具有了复杂的非线性特性。神经网络将大 量的信息存储在其连接权值上,根据一定的学习算法调节权值,使神经网络实现 3 中南大学硕士学位论文 第一章绪论 从m 维空间向维复杂空间的非线性映射。在理论上已证明一个多层神经网络 具有任意函数逼近能力,可实现任何复杂的函数映射。短期话务量预测的需要考 虑各种因素对话务量的影响,这些影响因素呈现的是复杂的非线性特性。而神经 网络正适于解决非线性复杂映射的问题,因此,不少的研究者已经将其应用于话 务量的预测中。 董景荣提出一种b p 神经网络对长途电话话务量进行组合预测的方法【l 刀,应 用于预测长途电话的发展前景。南京大学李千目、戚涌等利用模糊神经网络进行 移动网通讯流量预测【蝎】,为流量控制提供依据。华侨大学陈晓峰设计了基于b p 算法的话务量预测模型【1 9 1 ,并与移动时间序列法进行对比,证明了神经网络方 法的准确度更高。 除了以上几种典型的预测方法外,还有研究者提出了灰色模型预测以及多种 模型组合预测等方法。杨晓波引入灰色模型预测电信业务的发展趋势,首先通过 累加生成算法得出生成数列,并在此基础上建立灰微分方程,接着通过对模型的 检验和误差修正,获得合理有效的灰色预测模型网;然而灰色模型法较适宜近 期预测,采用灰色模型预测的误差率在5 左右,误差较大。温长洋、姚敏等将 原始数据通过回归分析模型、指数平滑模型和灰色预测模型分别产生预测值,再 将这些预测值经过加权组合,获得最后的预测值【2 l j 。而加权组合运算中的权值 则是利用人工神经网络的非线性变换能力通过学习来确定。这种方法的计算量过 大,而且组合预测的精度并不一定比单个模型预测好。 综上所述,以上的话务量预测方法在预测精度和时效性上缺点明显。随着对 话务量预测研究的深入,以及各种新预测技术的出现,必将出现更适应于电信企 业应用实际的话务量预测方法。因此,进步的研究工作应该放在深入研究电信 话务量特性及如何应用新的预测技术对话务量进行更精准的预测上,从精度和速 度两方面提高话务量预测水平。 1 3 研究内容与研究目标 本文在研究话务量的特性和当前最新预测技术的基础上,采用某省电信分公 司综合结算系统的实际话务量数据建立基于聚类预处理和支持向量机的话务量 预测模型。主要研究内容为以下几个方面: 1 ) 分析话务量特性、话务量预测的特点 在进行话务预测建模之前,深入分析话务量的特性,将话务总量进行分解, 以掌握影响话务量预测的各种不确定因素,同时分析话务量周期性的特点。在以 上工作的基础上,结合各种话务量预测方法的优点,给出本文进行话务量预测的 4 中南大学硕士学位论文第一章绪论 主要方法和过程,为本文研究工作的开展奠定重要基础。 2 ) 话务量预测的聚类预处理技术 分析电信话务量的特性和话务量预测的特点说明了进行聚类预处理的必要 性,选择具有代表性的训练样本是保证话务量预测精度的重要因素。针对话务量 变化的周期性特点,应用模糊聚类分析的基本原理,引入话务量特征量的“相似 度 概念,依据输入样本的相似度选择训练样本,保证数据特征的一致性,强化 历史数据规律。 3 ) 提出了基于支持向量机的话务量预测模型 根据了解支持向量机( s v m ) 的原理以及分析s v m 的预测能力,在聚类预处 理的基础上,首次提出将支持向量回归算法用于话务量预测,建立了基于s v m 的话务量预测模型,得到话务量的预测值。 4 ) 研究支持向量机参数优选方法,提出“拐点法一优选核参数。 通过分析s v m 的预测能力,进一步的了解了支持向量机的特点以及s v m 参数对预测能力的影响。对预测精度影响较大的核函数参数,本文提出“拐点法, 优选高斯核函数参数。 基于上述研究内容,主要是应用多种智能技术进行组合,从话务量的特性入 手,建立话务量预测模型,通过学习包含历史话务量时间序列和影响话务量变化 重要因素的输入样本,达到对未来话务量大小的计算、判断、预报的目的。本研 究可以实现以下目标: 1 ) 从话务量的特性和话务量预测的特点入手来探讨最合适的话务量预测方 法,不同于以往忽视事物的本质内在规律而只强调最新预测方法的应用,生搬硬 套的做法。 2 ) 对于支持向量机在大样本集学习中存在的固有缺点,探索一种既能提高 精度又能保证速度的方法。 3 ) 具体研究支持向量机参数对预测能力的影响,提出一种方便快捷且具有 较强指导意义的参数优选方法。 4 ) 针对话务量预测的应用要求,探讨一种简单有效的增量学习策略。 1 4 论文构成 论文以电信话务量的预测为研究对象,进行话务量特性分析,提出了在聚类 预处理的基础上基于s v m 的话务量预报策略,解决了话务量预测研究中预测精 度不高,实用性低等问题。针对电信现有业务支撑系统的实际情况,对预报模型 进行改进,研究了增量在线预测的策略。 5 中南大学硕士学位论文第一章绪论 论文的结构安排如下: 第二章首先分析了话务量的基本组成,并对具有较强规律性的典型话务分量 进行分析,给出了本文进行话务量预测的基本过程;然后在之前的基础上论述了 进行聚类预处理的必要性;最后详细描述了利用加权f c m 聚类算法进行话务量 聚类预处理的的方法和过程。 第三章首先介绍支持向量机的基本原理以及支持向量回归( s v r ) 算法;然后 研究了支持向量回归机的预测能力,主要是通过仿真实验研究s v r 的内插性能、 外推性能和抗噪声性能。 第四章主要是建立基于支持向量机的话务量预测模型,提出“拐点法 优选 s v m 的核参数,并通过仿真试验证明了该预测模型较其他传统方法的优势。根 据实际应用的需要,阐述了预测模型的增量在线学习方法和步骤,并通过一个应 用话务量预测结果进行话务流量监控的实例,说明在实际应用环境中高精度话务 预测的重要性。 第五章简要总结本论文研究成果,展望下一步的研究工作。 6 中南大学硕士学位论文第二章话务量预测的聚类预处理技术 第二章话务量预测的聚类预处理技术 话务量预测是通讯网络系统建设和制定营销策略的重要手段之一,预测精度 越高,越有利于电信企业进行合理的通讯网络规划和制定更精准的市场营销策 略。然而,话务量的走势和人们的经济、生活、工作等息息相关,同时也与电信 企业的发展密切联系,因此在进行预测之前,要充分考虑话务量的特性、分析话 务量预测的特点、理解话务量预测的基本过程,本章正是在分析话务量特性和预 测特点的基础上,提出了使用加权f c m 聚类算法对话务量原始数据进行预处理。 2 1 电信话务量 话务量是电信业务流量的简称。它既用来表示电信设备承受的负载量,也用 来表示用户对电信需求的程度。在移动电话系统中,话务量可分为流入话务量和 完成话务量。流入话务量取决于单位时间内发生的平均呼叫次数与每次呼叫平均 占用无线波道的时间。在系统流入的话务量中,完成接续的那部分话务量称作完 成话务量,未完成接续的那部分话务量称做损失话务量,损失话务量与流入话务 量之比称为呼损率。话务量的大小与用户数量、用户通信的频繁程度、每次通信 占用的时间长度以及观测的时间长度有关。单位时间内通信的次数越多,每次通 信占用的时间越长,观测的时间越长,那么话务量就越大。由于通信次数、每次通 信占用时间的长短等都是变化着的,所以话务量也是一个随时间变化的量,即是 一个“随机变量一。 2 1 1 话务量特性分析 话务预测是根据话务量的历史资料和现有信息,建立恰当的数学模型对未来 的话务量进行预测。因此分析话务量特性对掌握话务预测本质,提高话务预测的 精度有着重要的意义,尤其是对精度要求较高的短期话务量预测。电信话务量的 变化一方面有着其不确定性,如通讯线路的破坏、通讯设备的故障等造成对话务 量的随机性干扰。另一方面,在正常的条件下,话务量按一定趋势有规律的发展 变化。因此,在进行话务量的预测时,针对这些特点,既要充分分析、掌握并利 用其规律性,又要兼顾各种因素的影响。 为了深入掌握影响话务量预测的各种不确定因素,将话务量分为四种分量进 行分析。总话务量可以表示为下列形式: k d :( d + 职d 嘏f ) 十r ( f ) ( 2 一1 ) 7 中南大学硕士学位论文第二章话务量预测的聚类预处理技术 其中v ( o 为f 时刻的总话务量值,( f ) 称为f 时刻的典型话务分量值,职f ) 为 t 时刻的敏感话务分量值,s ( o 为特殊事件话务分量值,r ( o 为随机话务分量值。 ( 1 ) 典型话务分量值 ( ,) 也可称为正常话务,它与其他因素无关,具有线性变化和周期变化的特 点。线性变化描述日平均话务量变化规律,而周期变化描述以2 4 小时为周期的 变化规律。可以用线性变化模型和周期性变化模型来描述,或者以两者的合成模 型来描述。典型话务量的不同主要是由于不同的话务量组成方式所引起的。其差 异性主要体现在两方面:一是话务量种类,二是话务成分所占比重。不同组成的 话务量在这两方面的差异决定了他们的话务特性以及受影响因素的响应特性互 不相同。究其原因,不同的组成成分对各影响因素的灵敏度不同,表现出不同的 响应特性。例如,当预测某个运营商下个月的话务量时,该运营商的活跃用户数 以及对电信公司的最新资费政策就成为敏感度更高的影响因素;同理,当预测菜 台交换机下一时刻话务量时,该时刻对应的相关历史数据的敏感度更高。 ( 2 ) 敏感话务分量 职f ) 与一系列的敏感事件有关,如相对通讯资费水平、天气因素的影响等。 由于通讯竞争加剧,通信资费的调整频度越来越密、优惠措施越来越多样化,这 些都对话务量产生了持久或暂时的冲击。这种冲击类似于低阶动态系统的阶跃响 应,只是幅度和时滞有所不同。此外,天气对人们的生活习惯产生影响,间接的 影响话务量,这也是话务量季节模型的基础。根据大量的历史话务量数据和资费 数据,进行数据处理和相关性分析,在此基础上建立话务量季节变动预测模型可 以确定职力。 ( 3 ) 特殊事件话务分量 s ( o 使话务量明显偏离典型话务特性,如系统故障,线路意外破坏、重大焦 点事件或者电话投票等。由于这类事件的随机性,需要由经验丰富的统计员参与 判断。在各种话务量预测模型中这部分分量往往需要通过人工修正得以改进。 ( 4 ) 随机话务分量 r ( o 值在总话务量中提取出n ( o ,w ( o 和后剩余的残差,是话务量中不可 解释的成分,可以通过话务量预测模型和算法来考虑这些随机话务分量。例如, 在时间序列法中,将剩余的残差,即为各时刻的随机话务分量,看成是随机话务 序列。而在本文所提出的支持向量机预测中利用模型良好的非线性拟合能力,可 以较好的描述其中的随机话务因素。 电信话务量的变化是遵循一定规律的,这个规律主要体现在周期性上,究其 原因,是人们的生产、生活具有规律性,因此话务量变化也具有规律性。周期性 具体体现在话务量具有日周期性、周周期性、年周期性以及节假日特性。话务量 8 中南大学硕士学位论文 第二章话务量预测的聚类预处理技术 变化的周期性是话务预测的基础和关键。 ( 1 ) 日周期性 日周期性是指以2 4 小时为周期的话务量变化,通常根据变化规律的不同将 每日内的话务量分为峰量、谷量和腰量。如图2 1 所示,给出了某地区连续两日 的话务量曲线。从图中可以分析出每日有两个峰量,分别为中午1 2 :0 0 左右和 晚上1 9 :o o 左右,出现峰量的原因是因为正出于上下班前后,人们的交流活动 比较频繁。谷量出现在午夜凌晨时段,这时人们大都处于休息的状态。随着电信 业的发展和竞争的加剧,大部分电信企业开始实行线路空闲时的通讯优惠政策, 这种日趋成熟的电信市场发展必将对话务量的分布产生影响,这也是今后话务量 分析和预测中需要充分注意的。另外,峰值话务量的预测是话务量预测中最重要 的内容,因为这部分话务量直接影响着通讯网络系统的正常运行。 ( 2 ) 周周期性 话务量变化的周周期性主要体现在话务量7 天为变化周期的特性,如图2 2 所示。从图中可以分析出周话务量具有两类不同的变化规律:一类是从周一至周 五的工作日类型:另一类是周六、周日的双休日类型。工作日与双休日的话务量 类型具有不同之处的根本原因是受人们的生活规律所决定的话务组合结构不同。 工作日期间有大量的因工作引起的呼叫,而双休日这部分的呼叫量下降,因亲朋 联系的呼叫量上升。一般而言,因工作的呼叫量大于因亲朋联系的呼叫量,因此 双休日的话务量较工作日稍低。各时段呈现的特征主要由人们工作和休息的规律 性所决定。 ( 3 ) 年周期性 话务量的年周期性是指以一年为周期的话务量变化规律。年周期性与季节关 系密切,而季节变化对人们生产生活的影响程度也与地域有很大的关系。在四季 分明的地域,夏季的话务量相对春季和秋季有所减少,炎热的天气使得人们通话 的频度降低,直接影响了话务量的大小。 ( 4 ) 节假日特性 节假日话务量除了具有日周期性外,还具有与一般双休日不同的特性。在节 假日里,话务量的波动很大,但一天的总量比普通上班日和双休日都低。特别是 话务峰值和谷值呈现不一样的特性,峰值陡然增大,峰值过后的下降速度也很快, 而谷值则较其他时间偏高。 分析话务量的基本组成及各组成部分的特性,是进行话务量预测的基础,它 能够更深刻的触及到话务量的本质,同时为选择话务量的预测技术提供重要依 据。通过话务量的特性分析,影响话务量的一些重要因素逐渐清晰起来。下面着 重讨论话务量预测的特点,并确定进行话务量预测的主要流程。 9 中南大学硕士学位论文第二章话务量预测的聚类预处理技术 2 5 和 次2 3 2 2 2 1 2 i 9 1 8 1 1 1 l l 臣悄长皿i 1 l1 1 1 臣悄长皿1 1l 臣旧杉皿 匾犀匿匣厦匾匾匡匣匾匣匿匡匾匾匿匡匿躁厦匾 , 图2 2 话务量的周周期性一 2 1 2 话务量预测的特点 话务量预测工作的研究对象是不确定事件、随机事件,需要采用相应的预测 技术和模型来实现,推出话务量的发展趋势和可能达到的情况。话务量预测具有 如下特点: ( 1 ) 不确定性 话务量未来的发展是不确定的,它要受到不可预测的市场竞争措施、政策、 用户习惯等多方面因素的影响,而且各种因素也是变化发展的。这就决定了预测 结果的不确定性或不完全准确性。因此,其预测的结果应是一个概率值。 ( 2 ) 条件性 话务量预测的过程是一个由历史向未来递推的过程,是在一定条件下做出 的。可以把条件分为必然条件和假设条件。可靠的话务量预测往往依赖于电信话 务量交化的本质规律,这种预测条件就是必然条件。但是在大多数情况下,由于 话务量未来变化的随机性,需要设定一些假设条件,而给出的预测结果也都是在 基于假设条件的前提。如果话务量的过去和现在的发展直接延伸到未来,没有什 么重大的干扰和破坏,或完整的记录了这些突发事件,可将这些历史数据模型化 来类比现在、预测未来。但是如果在预测中发生了无法估计的重大事件( 如突发 l o 兮 q b 性期 , 周 d 日 。唰:著: 兮 褂 母 “ 图 qb,q 中南大学硕士学位论文 第二章话务量预测的聚类预处理技术 事故、国家政策变化等) ,以至于话务量变化的正常规律被破坏使预测结果大大 的偏离客观事实。这种类型的话务量预测在实际应用中时有发生,这些转折点是 难以预测的。如果历史数据含有类似的事件,则有可能通过对历史规律的学习获 取这种规律性。因此要尽量的保证用于话务量预测所需数据的完整性。 ( 3 ) 地域性 预测不同地区的话务量,情况会有所不同。这主要是因为地域不同,气候变 化、人们的生活规律都不尽相同,所以间接的影响了话务量的变化规律。因此, 在使用多变量预测法进行话务量预测时,需要衡量各变量与地域的相关性。 ( 4 ) 多方案性 话务量预测的机理是一个数学建模的过程,而不同的数学模型都有一定的使 用条件限制,没有任何一个数学模型是通用的,如果不注意各模型的限制条件, 一味的输入相应值去计算输出结果,其误差肯定会比较大。所以需要考虑不同话 务量条件下的数学模型选择。 2 1 3 话务量预测流程 电信话务量预测是根据已知的历史话务量和当前信息对未来几小时或几天 的话务量情况进行预测。要进行科学准确的预测,不但要选择合适的预测方法和 技术,建立合适的预测模型,还要注意对历史数据的选择及预处理,才能得到更 准确的预测结果。一般话务量预测的过程如下: ( 1 ) 整理历史资料,对话务量数据的预处理 预测是根据历史信息和当前信息对未来的发展趋势进行判断,因此任何预测 都需要基于原始数据,历史资料的收集和整理的效果会直接影响到预测的质量。 在历史话务量数据中,一方面,由于随机因素的影响,话务量会在某一时刻产生 不同于以往任何方式的话务点,在出现非正常话务点的情况下,话务量的规律性 将被破坏,话务量曲线的相似性降低,则话务量的可预测性被破坏了,影响预测 精度;另一方面,原始数据采集系统如果出现故障或外界信号干扰,就会出现传 输错误,导致资料不准确或数据丢失。这些都是坏数据产生的原因。对历史资料 进行数据分析预处理时,应剔除这些坏数据,保证资料的完整性。这个过程叫做 平稳化异常值和补遗缺失值。由于本文基于电信综合结算系统的话务量数据,而 该数据己通过常规预处理手段的处理,因此本文的预处理过程较为简单,用相邻 一个周期的同类型日的数据进行平均得到一个完成日话务量序列值,然后将各日 话务量与此平均话务量进行对比误差的判别分析,误差超过1 0 则进行修正,用 平均话务量值替代。 。 ( 2 ) 建立话务量预测模型 中南大学硕士学位论文第二章话务量预测的聚类预处理技术 话务量预测模型是统计资料轨迹的概括,预测模型是多种多样的,因此,对 于具体资料建立恰当的预测模型,这是预测过程中至关重要的一步。由于模型选 择不当而造成预测误差过大时,就需要改换更合适的模型,必要时还可以同时采 用几种数学模型进行运算,以便对比、选择。在选择好恰当的预测技术后,建立 话务量预测数学模型,对预测模型进行恰当的修正后即可进行预测工作。 2 1 4 预测误差分析 预测只是一种对未来趋势的估算,不可避免的与客观实际之间存在一定的差 距,这就是预测误差。研究产生预测误差的原因,计算并分析误差的大小是预测 过程中非常重要的一步。这样不仅可以认识预测结果的准确程度,在利用预测资 料作决策时具有重要的参考价值,而且它对于评价预测方法和预测模型的优劣, 改进话务量预测工作方面也有很大的帮助。产生预测误差的原因很多,但主要表 现在以下几个方面: ( 1 ) 进行话务量预测用到的数学模型大多只包括所研究对象的某些主要因 素,而省略了很多次要因素。但对于错综复杂的话务量变化来说,这样的模型只 是一种简单话的反映,仍与实际话务量之间存在差距。 ( 2 ) 话务量所受影响影响是千变万化的,进行预测的目的和要求又各种各样, 因此就要从许多预测方法中选择恰当的预测方法,选择不当将随之产生误差。 ( 3 ) 由于进行预测所需的大量资料并不能保证其准确可靠,资料的误差也必 然会带来预测误差。 ( 4 ) 意外事件的发生或情况的不可预测性变化,同样会造成预测误差。同时, 由于计算或判断上的失误,也会产生不同程度的预测误差。 在分析了预测误差产生原因后,可以对预测模型或预测技术加以改进。同时 还必须对预测误差进行计算分析,进而可以检验所选的预测模型。这里讨论的预 测误差性能指标如下: ( 1 ) 相对误差,用r e 表示,它可以描述某一时刻f 预测效果的好坏,计算公 式为:r e ( t ) = 【一勋】毛,其中薯是实际值,x ,是预测值。 ( 2 ) 平均绝对百分比误差m a p e ,它是一个综合评价整个预测过程预测性能 高低的指标,其计算公式为:m a p e - - 三e i r e ( t ) l ,其中衄) 是时刻,的相对误 刀百 差,刀是样本数。 2 2 加权f c m 聚类算法 聚类又称为群类分析或类分析,它是按照某种准则对个体进行分析的一种多 1 2 中南大学硕士学位论文 第二章话务量预测的聚类预处理技术 元统计分析方法。聚类分析首先要对进行聚类的个体定义一种能够反应个体间相 似程度的度量,一般用样本间的各种距离来度量,按照设定条件将相似程度较大 的个体聚合为一类。 2 2 1f c m 聚类算法简介 目前存在大量的聚类算法 2 2 五6 】。算法的选择取决于数据的类型、聚类的目的 和应用等。如果聚类分析被用作描述或探查的工具。则可以对同样的数据尝试多 种算法。主要的聚类算法可以划分为以下几类: ( 1 ) 划分方法( p a r t i t i o n i n gm e t h o d ) 给定 个对象或元组的数据库,一个划分方法构建数据的k 个划分,每个划 分表示一个聚簇,且k - 刀,同时满足如下条件: a ) 每个组至少包含一个对象; b ) 每个对象必须属于且只属于一个组。 给定要构建的划分数目k ,划分方法首先创建一个初始划分,然后采用一种 迭代的重定位技术,尝试通过对象在划分问的移动来改进划分。一个好的划分准 则是:在同一类中的对象尽可能相近,而不同类的对象尽可能远离。基于划分的 方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚 类,以及处理复杂形状的聚类,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论