




已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号分类号 密级密级 u d c 编号编号 中 南 大 学 central south university 硕士学位论文硕士学位论文 论 文 题 目 基于支持向量机的电信话务量 预测方法 学 科、专 业 控制科学与工程 原创性声明原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。 与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的 说明。 作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分 内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中 国科学技术信息研究所将本学位论文收录到中国学位论文全文数 据库 ,并通过网络向社会公众提供信息服务。 作者签名: 导师签名 日期: 年 月 日 1 摘摘 要要 话务预测技术是通讯网络系统设计、规划和优化的重要手段之 一,同时也能为电信企业制定营销策略提供决策支持。虽然话务预 测的研究已有 20 多年历史,并形成了一些话务预测方法,但是随着 新理论和新技术的发展,对话务预测新方法的研究仍在不断地深入 进行。支持向量机作为数据挖掘的一项新技术,应用于模式识别和 处理回归问题等诸多领域。本文利用支持向量机优越的非线性学习 及预测性能,针对短期话务预测的各种影响因素的非线性特性,提 出基于支持向量机的电信话务量预测新方法,以提高预测精度和时 效性,该研究具有重要的理论意义和实用价值。 由于影响话务量的因素繁多且复杂,若对输入不加适当选择处 理会导致预测精度降低,训练时间增加。考虑到话务量变化的周期 性特点,因此本文采用话务量聚类预处理技术,应用模糊聚类分析 的基本原理,依据输入样本的相似度选取训练样本,即选用同类特 征数据作为预测输入,保证了数据特征的一致性,强化了历史数据 规律。在基于支持向量机话务预测之前,先对样本进行模糊聚类分 析,选取与预测样本特征相似的样本作为支持向量机的训练样本。 本文分析了支持向量机的基本原理,支持向量机具有非线性拟 合、泛化能力强、训练收敛速度快等显著特点。数值试验结果表明, 支持向量机具有较强的学习能力。另外,本文还具体讨论了支持向 量机中高斯核函数中参数对支持向量机学习预测性能的影响,指 出高斯核函数具有描述样本相似程度这一性质,通过数值实验和理 论分析给出了一种选择高斯核函数的方法拐点法。进一步指出样 本数据标准化对学习预测的影响,给出了标准化后选择较优高斯核 函数参数的一个大致范围。针对话务量与各种影响因素之间的非线 性关系,建立了基于支持向量机的短期话务量预测模型,结果表明 基于支持向量机的话务量预测精度要优于神经网络方法和周期时间 序列方法。 关键字:支持向量机,模糊聚类,预测模型,高斯核函数 i abstract traffic forecasting technology is one of important means for network communication system designing, planning and optimization, and it also can provide decision support for telecom enterprise when marketing strategy development. currently there have been more studies in theory and complemented methods of traffic forecasting and obtained some achievement. new theory and new technology based traffic forecasting researches have been developed continuously. as new technology of data mining, support vector machines(svm) have been successfully applied in pattern recognition and regression problem,et al.this paper proposes to use its advantages of non-linear processing and generating ability to accomplish short-term traffic forecasting of telecom system, so as to improve forecasting precision. consequently the study is significant in theory and is valuable in practice. because of numerous traffic influence factors having a great of complex characteristics, and the pattern, without selecting input vectors, will lead to reduce of the precision and increase of the computering time. therefore this paper adopts an effective fuzzy clustering analysis and process technology for the traffic data and combines the clustering algorithm with svm. a new svm method based on fcm fuzzy clusting algorithm for short-term traffic forecasting is first presented in this paper. this method chooses training samples by fuzzy clustering according to similarity degree of the input samples in consideration of the periodic characteristic of traffic change, which means take the same type of the data as the learning samples for forecasting, guarantee the consistency of the data characteristic and enhance the history data regulation. this paper analyses the basic theories of svm. svm have the remarkable advantages of non-linear regression, high forecasting accuracy and small time complexity. the results of numerical experiments show that svm really has great prediction ability. in addition, we discusses on gauss kernel svm and how the parameter influences the quality of svm in tail. we also show that gauss kernel function can describe the likeness degree of the sample. moreover,we ii propose a new algorithm for finding a good parameter, we called inflexion method. whats more, we point out the influence of standardize to predict, and then give mostly scope of the excellent parameter, which in gauss kernel function after standardized. according the non- linear relationship between the forecasting traffic and its influence factors, this paper proposes a short-term traffic forecasting model based on svm. compared with the forecasting method of artificial neural networks (ann) and circle time series, the simulation results of the practical application show that the svm method is much better than others. key words: support vector machines, fuzzy clusting, forecasting model, gauss kernel function 1 目目 录录 摘摘 要要1 abstract i 第一章第一章 绪绪 论论1 1.1 研究背景和意义1 1.2 电信话务量预测研究现状2 1.3 研究内容与研究目标4 1.4 论文构成5 第二章第二章 话务量预测的聚类预处理技术话务量预测的聚类预处理技术7 2.1 电信话务量7 2.1.1 话务量特性分析.7 2.1.2 话务量预测的特点.10 2.1.3 话务量预测流程.11 2.1.4 预测误差分析.12 2.2 加权 fcm 聚类算法.12 2.2.1 fcm 聚类算法简介 13 2.2.2 加权 fcm 聚类算法 15 2.3 基于加权 fcm 的话务量聚类.17 2.3.1 话务量聚类的意义17 2.3.2 加权 fcm 话务量聚类流程 18 2.4 本章小结20 第三章第三章 支持向量回归机的预测能力支持向量回归机的预测能力21 3.1 支持向量机原理21 3.1.1 最优分类面.22 3.1.2 广义最优分类超平面.24 3.2 支持向量机回归算法24 3.2.1 线性支持向量回归机.24 3.2.2 非线性支持向量回归机.27 2 3.3 支持向量机的训练算法28 3.4 支持向量机的预测能力30 3.4.1 支持向量机的内插性能.30 3.4.2 支持向量机的外推性能.32 3.4.3 支持向量机的抗噪声性能.32 3.5 支持向量机用于话务量预测的优势34 3.6 本章小结34 第四章第四章 基于支持向量机的话务量预测模型基于支持向量机的话务量预测模型36 4.1 话务量预测模型36 4.1.1 模型的输入与输出.36 4.1.2 模型预测流程.38 4.1.3 模型参数优选.40 4.2 仿真实验与结果分析45 4.2.1 实验过程.45 4.2.2 实验结果.47 4.2.3 与其他预测方法比较.47 4.3 预测模型的应用50 4.3.1 增量学习.50 4.3.2 话务流量监控.51 4.4 建模与模型应用需注意的问题53 4.5 本章小结54 第五章第五章 结论与展望结论与展望56 参参 考考 文文 献献58 致致 谢谢63 攻读学位期间主要的研究成果攻读学位期间主要的研究成果64 中南大学硕士学位论文 第一章 绪论 1 第一章第一章 绪绪 论论 1.1 研究背景和意义 伴随中国经济的稳步发展,我国的电信业也取得了长足的发展与进步。但 与此同时,各运营商之间的竞争愈加激烈,竞争的加剧迫使各运营商千方百计 的挖掘自身潜力,从技术和服务两方面入手,不断的提高客户满意度和管理决 策准确度。对各运营商而言,如何建设、优化和经营好自己的网络,如何进行 更准确的市场定位是需要考虑的首要问题。正确的决策源于科学的规划,而符 合市场规律的业务预测是进行科学规划的重要手段。 目前国内几大电信企业已完成了业务支撑系统的升级和改造工作,实现了 电信运营服务的整体自动化流程处理和管理平台。同时,业务支撑系统应用软 件也开始对运营数据进行更精细的数据分析工作,但数据挖掘的应用仍处于初 级阶段,主要表现为技术手段落后、挖掘主题不够深入、易用性差,不利于实 施和推广,难以提供有效的决策支持。 话务量是电信业务流量的简称,是反映用户通讯频繁程度和通话时间长短 的一种指标。话务预测技术是通讯网络系统设计、规划和优化的重要手段之一, 同时也能为电信企业制定营销策略提供决策支持。网络维护中心通过预测话务 量来预测将来的网络运营情况,为将来可能出现的网络问题,提前作好准备, 避免出现网络大面积拥塞,提高网络运营的服务质量;市场及营销部门通过对 业务结构、网络流量流向的分析和预测,能够了解现在和将来一段时间内不同 运营商,不同地域,不同用户之间互联互通的情况,帮助他们进行合理的资源 调度和分配,并制定有效的营销策略提高自身客户的忠诚度,有针对性的吸引 竞争对手的客户。目前,大多数运营商的网络分析优化部门对历史数据的一些 指标做简单的统计工作,通过分析历史数据,只能了解各个通信设备等通信资 源过去的利用情况和运营状况,但对未来的网络调整、优化、扩容以及将来可 能发生的情况等缺少科学的预测;即便某些较发达地区的运营商开发了话务量 预测系统,但针对话务量的预测工作仍存在明显的不足之处,从技术上主要表 现为: 1) 预测精度不高 目前已建立的话务量预测系统所采用的主要预测方法为单因素周期时间序 列,基于时间序列的方法往往寄望于从历史数据中寻找到话务量变化的规律, 但影响话务量的因素众多,而历史数据中蕴含的信息毕竟有限,因此该方法难 中南大学硕士学位论文 第一章 绪论 2 以获得理想的预测精度。 2) 预测模型复杂,实用性不强 由于节假日与平常的话务量变化规律不一致,因此在应用时间序列方法对 话务量进行建模预测时,往往需要分别对节假日、周末以及工作日建模。然而 通过这种方式建立的模型自动化水平较低,往往需要不断的进行模型修正,而 模型修正必须依赖一定的业务经验和技术知识,这样就给使用者造成负担,实 用性降低。 然而,对短期话务量预测有两个基本的要求: 1) 精确性:短期话务量预测必须具备较高的预测精确,一般要求相对误差 不超过 3-5%,精度越高,决策的准确度也会越高。 2) 时效性:为保证有充分的实施时间,短期话务量预测必须快速地得出预 测结果。时效性差会降低预测的实用价值,因此通过预测模型应尽可能迅速的 得到预测结果。 由于存在各种内、外随机因素的影响,通讯系统的话务量大小在本质上来 说是不可控的。因此了解未来话务量的可能变化的一个有效方法,就是观察话 务量的历史记录,对其从本质上去研究和分析;另外,通讯系统话务量呈现周 期性特征,给研究分析提供有利方面;此外,某些可以较容易得到的业务发展 指标(如用户数等)能代表业务发展的趋势,能有效的描述未来话务量的大体 趋势走向。 只有密切注意到话务量具有这些重要特征,才能有针对性的提出一套实际 可行的方法,本文正是在总结了现有的话务量预测方法并分析话务量特性及预 测特点后,在话务量聚类预处理基础上,利用目前已广泛应用于预测领域的支 持向量机回归方法对话务量预测过程建模,提出基于支持向量机的电信话务量 预测新方法,以提高预测精度和时效性,该研究对于高精度和高效率的电信话 务量预测具有重要的理论意义和实用价值。 1.2 电信话务量预测研究现状 国内对于电信话务量预测的研究开始于上世纪八、九十年代,至今已形成 了几种常见的预测方法,如时间序列法、回归分析法、模糊神经网络法等。但 由于影响话务量变化的因素非线性程度极高,难以通过建立精确的数学模型来 进行预测,所以精确的话务量预测仍然相当困难。实践证明,没有一个预测方 法是绝对准确的,也没有一个方法能适应所有的电信业务预测要求。 1) 时间序列法 中南大学硕士学位论文 第一章 绪论 3 话务量数据是按照时间先后排列在一起的,因此它符合时间序列(time series)的特点。经常被采用的时间序列模型有以下几种:自回归模型(ar)、动 平均模型(ma)、自回归-动平均模型(arma)和累积式自回归-动平均模型 (arima)等1-5。 付楚胜根据线性预测理论,摒弃传统的凭经验确定系数的引力法和吸引系 数法,采用自适应时间序列算法,提出了一种依赖于历史数据的话务量统计和 预测的新方法6。虽然预测模型需改进的地方还很多,精度不高,但仍具有一 定的指导意义。胡煜利用改进的 ar 模型预测话务量,并重点阐述了话务量数 据预处理的重要性和过程7。薄今纲、于敏芳等人应用带两个周期乘积的 arima 模型获取话务量特性,建立季节模型描述实际的话务量序列8,通过模 型的多次调整使预测相对误差保持在 2%左右,但这种方法自动化程度不高,其 获得高预测精度所依赖的模型修正方法并不具有一般性,且对于节假日等特殊 时段的预测方法和结果,作者并没有作说明。电子科技大学向炳新通过一种时 间序列较优周期搜寻算法和节假日话务量自适应预测算法分别对平时和节假日 的话务量进行预测9。作者通过较优周期搜寻算法得到的最优周期为 7,但这个 结论通过常识或者相关性分析等简单的分析方法就能得到,然而通过大量的计 算后得到以周为周期的结论显然有点哗众取宠。对于节假日话务量的预测,作 者巧妙的引入水平和速度分析的思想获得了较高的预测精度。这种将平日和节 假日分开预测的方法虽然建模过程比较繁琐,但在工程实践中仍可权衡使用。 黄健聪、万海等使用基于时序匹配模型的 k-近邻算法从历史话务量中寻找与待 预测时刻话务量的最相似模式10,这种方法准确度较高,实现容易,缺点是算 法过程和参数常常需要人工定义,主观性较大,而且匹配实例所需的时间较长。 2) 回归分析法 回归分析法是研究变量与变量之间的一种数学方法,即通过对变量的观测 数据进行统计分析,确定变量之间的相互关系,从而实现预测的目的11。在话 务量预测中,根据历史数据和一些影响话务量变化的因素来推断将来时刻的话 务量。 陶伟宜针对移动通信话务量与市场用户和相应资费政策相关的特点,采用 回归预测方法,建立了基于市场用户数及每用户收入的话务量预测模型,并对 模型进行了经济学意义上的检验12。作者提出,话务量的变化趋势不能单纯由 “时间”因素来描述,其发展变化主要由市场用户增长和每用户收入的变化决 定。这种预测方法更接近于话务量变化的实际原因,预测结果能为电信企业制 定市场营销决策提供参考。但影响话务量变化的因素相互耦合,如何合理有效 中南大学硕士学位论文 第一章 绪论 4 的解耦是需要进一步解决的问题。 3) 神经网络法 神经网络是由许多并行运算的功能简单的神经元组成,是一个非线性动力 学系统13-16。单个神经元的作用是实现输入到输出的一个非线性函数关系。它 们之间广泛的连接组合就使得整个神经网络具有了复杂的非线性特性。神经网 络将大量的信息存储在其连接权值上,根据一定的学习算法调节权值,使神经 网络实现从 m 维空间向 n 维复杂空间的非线性映射。在理论上已证明一个多层 神经网络具有任意函数逼近能力,可实现任何复杂的函数映射。短期话务量预 测的需要考虑各种因素对话务量的影响,这些影响因素呈现的是复杂的非线性 特性。而神经网络正适于解决非线性复杂映射的问题,因此,不少的研究者已 经将其应用于话务量的预测中。 董景荣提出一种bp神经网络对长途电话话务量进行组合预测的方法17,应 用于预测长途电话的发展前景。南京大学李千目、戚涌等利用模糊神经网络进 行移动网通讯流量预测18,为流量控制提供依据。华侨大学陈晓峰设计了基于 bp算法的话务量预测模型19,并与移动时间序列法进行对比,证明了神经网络 方法的准确度更高。 除了以上几种典型的预测方法外,还有研究者提出了灰色模型预测以及多 种模型组合预测等方法。杨晓波引入灰色模型预测电信业务的发展趋势,首先 通过累加生成算法得出生成数列,并在此基础上建立灰微分方程,接着通过对 模型的检验和误差修正,获得合理有效的灰色预测模型20;然而灰色模型法较 适宜近期预测,采用灰色模型预测的误差率在 5%左右,误差较大。温长洋、姚 敏等将原始数据通过回归分析模型、指数平滑模型和灰色预测模型分别产生预 测值,再将这些预测值经过加权组合,获得最后的预测值21。而加权组合运算 中的权值则是利用人工神经网络的非线性变换能力通过学习来确定。这种方法 的计算量过大,而且组合预测的精度并不一定比单个模型预测好。 综上所述,以上的话务量预测方法在预测精度和时效性上缺点明显。随着 对话务量预测研究的深入,以及各种新预测技术的出现,必将出现更适应于电 信企业应用实际的话务量预测方法。因此,进一步的研究工作应该放在深入研 究电信话务量特性及如何应用新的预测技术对话务量进行更精准的预测上,从 精度和速度两方面提高话务量预测水平。 1.3 研究内容与研究目标 本文在研究话务量的特性和当前最新预测技术的基础上,采用某省电信分 中南大学硕士学位论文 第一章 绪论 5 公司综合结算系统的实际话务量数据建立基于聚类预处理和支持向量机的话务 量预测模型。主要研究内容为以下几个方面: 1) 分析话务量特性、话务量预测的特点 在进行话务预测建模之前,深入分析话务量的特性,将话务总量进行分解, 以掌握影响话务量预测的各种不确定因素,同时分析话务量周期性的特点。在 以上工作的基础上,结合各种话务量预测方法的优点,给出本文进行话务量预 测的主要方法和过程,为本文研究工作的开展奠定重要基础。 2) 话务量预测的聚类预处理技术 分析电信话务量的特性和话务量预测的特点说明了进行聚类预处理的必要 性,选择具有代表性的训练样本是保证话务量预测精度的重要因素。针对话务 量变化的周期性特点,应用模糊聚类分析的基本原理,引入话务量特征量的 “相似度”概念,依据输入样本的相似度选择训练样本,保证数据特征的一致 性,强化历史数据规律。 3) 提出了基于支持向量机的话务量预测模型 根据了解支持向量机(svm)的原理以及分析 svm 的预测能力,在聚类预处 理的基础上,首次提出将支持向量回归算法用于话务量预测,建立了基于 svm 的话务量预测模型,得到话务量的预测值。 4) 研究支持向量机参数优选方法,提出“拐点法” 优选核参数。 通过分析 svm 的预测能力,进一步的了解了支持向量机的特点以及 svm 参数对预测能力的影响。对预测精度影响较大的核函数参数,本文提出“拐点 法” ,优选高斯核函数参数。 基于上述研究内容,主要是应用多种智能技术进行组合,从话务量的特性 入手,建立话务量预测模型,通过学习包含历史话务量时间序列和影响话务量 变化重要因素的输入样本,达到对未来话务量大小的计算、判断、预报的目的。 本研究可以实现以下目标: 1) 从话务量的特性和话务量预测的特点入手来探讨最合适的话务量预测方 法,不同于以往忽视事物的本质内在规律而只强调最新预测方法的应用,生搬 硬套的做法。 2) 对于支持向量机在大样本集学习中存在的固有缺点,探索一种既能提高 精度又能保证速度的方法。 3) 具体研究支持向量机参数对预测能力的影响,提出一种方便快捷且具有 较强指导意义的参数优选方法。 4) 针对话务量预测的应用要求,探讨一种简单有效的增量学习策略。 中南大学硕士学位论文 第一章 绪论 6 1.4 论文构成 论文以电信话务量的预测为研究对象,进行话务量特性分析,提出了在聚 类预处理的基础上基于 svm 的话务量预报策略,解决了话务量预测研究中预 测精度不高,实用性低等问题。针对电信现有业务支撑系统的实际情况,对预 报模型进行改进,研究了增量在线预测的策略。 论文的结构安排如下: 第二章首先分析了话务量的基本组成,并对具有较强规律性的典型话务分 量进行分析,给出了本文进行话务量预测的基本过程;然后在之前的基础上论 述了进行聚类预处理的必要性;最后详细描述了利用加权 fcm 聚类算法进行 话务量聚类预处理的的方法和过程。 第三章首先介绍支持向量机的基本原理以及支持向量回归(svr)算法;然 后研究了支持向量回归机的预测能力,主要是通过仿真实验研究 svr 的内插性 能、外推性能和抗噪声性能。 第四章主要是建立基于支持向量机的话务量预测模型,提出“拐点法”优 选 svm 的核参数,并通过仿真试验证明了该预测模型较其他传统方法的优势。 根据实际应用的需要,阐述了预测模型的增量在线学习方法和步骤,并通过一 个应用话务量预测结果进行话务流量监控的实例,说明在实际应用环境中高精 度话务预测的重要性。 第五章简要总结本论文研究成果,展望下一步的研究工作。 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 7 第二章第二章 话务量预测的聚类预处理技术话务量预测的聚类预处理技术 话务量预测是通讯网络系统建设和制定营销策略的重要手段之一,预测精 度越高,越有利于电信企业进行合理的通讯网络规划和制定更精准的市场营销 策略。然而,话务量的走势和人们的经济、生活、工作等息息相关,同时也与 电信企业的发展密切联系,因此在进行预测之前,要充分考虑话务量的特性、 分析话务量预测的特点、理解话务量预测的基本过程,本章正是在分析话务量 特性和预测特点的基础上,提出了使用加权 fcm 聚类算法对话务量原始数据 进行预处理。 2.1 电信话务量 话务量是电信业务流量的简称。它既用来表示电信设备承受的负载量,也用 来表示用户对电信需求的程度。在移动电话系统中,话务量可分为流入话务量 和完成话务量。流入话务量取决于单位时间内发生的平均呼叫次数与每次呼叫 平均占用无线波道的时间。在系统流入的话务量中,完成接续的那部分话务量 称作完成话务量,未完成接续的那部分话务量称做损失话务量,损失话务量与 流入话务量之比称为呼损率。话务量的大小与用户数量、用户通信的频繁程度、 每次通信占用的时间长度以及观测的时间长度有关。单位时间内通信的次数越 多,每次通信占用的时间越长,观测的时间越长,那么话务量就越大。由于通信次 数、每次通信占用时间的长短等都是变化着的,所以话务量也是一个随时间变化 的量,即是一个“随机变量”。 2.1.1 话务量特性分析 话务预测是根据话务量的历史资料和现有信息,建立恰当的数学模型对未 来的话务量进行预测。因此分析话务量特性对掌握话务预测本质,提高话务预 测的精度有着重要的意义,尤其是对精度要求较高的短期话务量预测。电信话 务量的变化一方面有着其不确定性,如通讯线路的破坏、通讯设备的故障等造 成对话务量的随机性干扰。另一方面,在正常的条件下,话务量按一定趋势有 规律的发展变化。因此,在进行话务量的预测时,针对这些特点,既要充分分 析、掌握并利用其规律性,又要兼顾各种因素的影响。 为了深入掌握影响话务量预测的各种不确定因素,将话务量分为四种分量 进行分析。总话务量可以表示为下列形式: 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 8 y(t)=n(t)+w(t)+s(t)+r(t) (2-1) 其中 y(t)为 t 时刻的总话务量值,n(t)称为 t 时刻的典型话务分量值,w(t) 为 t 时刻的敏感话务分量值,s(t)为特殊事件话务分量值,r(t)为随机话务分量 值。 (1) 典型话务分量值 n(t)也可称为正常话务,它与其他因素无关,具有线性变化和周期变化的 特点。线性变化描述日平均话务量变化规律,而周期变化描述以 24 小时为周期 的变化规律。可以用线性变化模型和周期性变化模型来描述,或者以两者的合 成模型来描述。典型话务量的不同主要是由于不同的话务量组成方式所引起的。 其差异性主要体现在两方面:一是话务量种类,二是话务成分所占比重。不同 组成的话务量在这两方面的差异决定了他们的话务特性以及受影响因素的响应 特性互不相同。究其原因,不同的组成成分对各影响因素的灵敏度不同,表现 出不同的响应特性。例如,当预测某个运营商下个月的话务量时,该运营商的 活跃用户数以及对电信公司的最新资费政策就成为敏感度更高的影响因素;同 理,当预测某台交换机下一时刻话务量时,该时刻对应的相关历史数据的敏感 度更高。 (2) 敏感话务分量 w(t)与一系列的敏感事件有关,如相对通讯资费水平、天气因素的影响等。 由于通讯竞争加剧,通信资费的调整频度越来越密、优惠措施越来越多样化, 这些都对话务量产生了持久或暂时的冲击。这种冲击类似于低阶动态系统的阶 跃响应,只是幅度和时滞有所不同。此外,天气对人们的生活习惯产生影响, 间接的影响话务量,这也是话务量季节模型的基础。根据大量的历史话务量数 据和资费数据,进行数据处理和相关性分析,在此基础上建立话务量季节变动 预测模型可以确定 w(t)。 (3) 特殊事件话务分量 s(t)使话务量明显偏离典型话务特性,如系统故障,线路意外破坏、重大焦 点事件或者电话投票等。由于这类事件的随机性,需要由经验丰富的统计员参 与判断。在各种话务量预测模型中这部分分量往往需要通过人工修正得以改进。 (4) 随机话务分量 r(t)值在总话务量中提取出 n(t),w(t)和 s(t)后剩余的残差,是话务量中不 可解释的成分,可以通过话务量预测模型和算法来考虑这些随机话务分量。例 如,在时间序列法中,将剩余的残差,即为各时刻的随机话务分量,看成是随 机话务序列。而在本文所提出的支持向量机预测中利用模型良好的非线性拟合 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 9 能力,可以较好的描述其中的随机话务因素。 电信话务量的变化是遵循一定规律的,这个规律主要体现在周期性上,究 其原因,是人们的生产、生活具有规律性,因此话务量变化也具有规律性。周 期性具体体现在话务量具有日周期性、周周期性、年周期性以及节假日特性。 话务量变化的周期性是话务预测的基础和关键。 (1) 日周期性 日周期性是指以 24 小时为周期的话务量变化,通常根据变化规律的不同将 每日内的话务量分为峰量、谷量和腰量。如图 2-1 所示,给出了某地区连续两 日的话务量曲线。从图中可以分析出每日有两个峰量,分别为中午 12:00 左右 和晚上 19:00 左右,出现峰量的原因是因为正出于上下班前后,人们的交流活 动比较频繁。谷量出现在午夜凌晨时段,这时人们大都处于休息的状态。随着 电信业的发展和竞争的加剧,大部分电信企业开始实行线路空闲时的通讯优惠 政策,这种日趋成熟的电信市场发展必将对话务量的分布产生影响,这也是今 后话务量分析和预测中需要充分注意的。另外,峰值话务量的预测是话务量预 测中最重要的内容,因为这部分话务量直接影响着通讯网络系统的正常运行。 (2) 周周期性 话务量变化的周周期性主要体现在话务量 7 天为变化周期的特性,如图 2- 2 所示。从图中可以分析出周话务量具有两类不同的变化规律:一类是从周一 至周五的工作日类型;另一类是周六、周日的双休日类型。工作日与双休日的 话务量类型具有不同之处的根本原因是受人们的生活规律所决定的话务组合结 构不同。工作日期间有大量的因工作引起的呼叫,而双休日这部分的呼叫量下 降,因亲朋联系的呼叫量上升。一般而言,因工作的呼叫量大于因亲朋联系的 呼叫量,因此双休日的话务量较工作日稍低。各时段呈现的特征主要由人们工 作和休息的规律性所决定。 (3) 年周期性 话务量的年周期性是指以一年为周期的话务量变化规律。年周期性与季节 关系密切,而季节变化对人们生产生活的影响程度也与地域有很大的关系。在 四季分明的地域,夏季的话务量相对春季和秋季有所减少,炎热的天气使得人 们通话的频度降低,直接影响了话务量的大小。 (4) 节假日特性 节假日话务量除了具有日周期性外,还具有与一般双休日不同的特性。在 节假日里,话务量的波动很大,但一天的总量比普通上班日和双休日都低。特 别是话务峰值和谷值呈现不一样的特性,峰值陡然增大,峰值过后的下降速度 也很快,而谷值则较其他时间偏高。 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 10 分析话务量的基本组成及各组成部分的特性,是进行话务量预测的基础, 它能够更深刻的触及到话务量的本质,同时为选择话务量的预测技术提供重要 依据。通过话务量的特性分析,影响话务量的一些重要因素逐渐清晰起来。下 面着重讨论话务量预测的特点,并确定进行话务量预测的主要流程。 0 1 2 3 0 3 6 9 12 15 18 21 0 3 6 9 12 15 18 21 单位:十万 (次) 时刻(h) 呼叫次数 图 2-1 话务量的日周期性 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 周一 周二 周三 周四 周五 周六 周日 周一 周二 周三 周四 周五 周六 周日 周一 周二 周三 周四 周五 周六 周日 百 万 次 呼叫次数 图 2-2 话务量的周周期性 2.1.2 话务量预测的特点 话务量预测工作的研究对象是不确定事件、随机事件,需要采用相应的预 测技术和模型来实现,推出话务量的发展趋势和可能达到的情况。话务量预测 具有如下特点: (1) 不确定性 话务量未来的发展是不确定的,它要受到不可预测的市场竞争措施、政策、 用户习惯等多方面因素的影响,而且各种因素也是变化发展的。这就决定了预 测结果的不确定性或不完全准确性。因此,其预测的结果应是一个概率值。 (2) 条件性 话务量预测的过程是一个由历史向未来递推的过程,是在一定条件下做出 的。可以把条件分为必然条件和假设条件。可靠的话务量预测往往依赖于电信 话务量变化的本质规律,这种预测条件就是必然条件。但是在大多数情况下, 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 11 由于话务量未来变化的随机性,需要设定一些假设条件,而给出的预测结果也 都是在基于假设条件的前提。如果话务量的过去和现在的发展直接延伸到未来, 没有什么重大的干扰和破坏,或完整的记录了这些突发事件,可将这些历史数 据模型化来类比现在、预测未来。但是如果在预测中发生了无法估计的重大事 件(如突发事故、国家政策变化等),以至于话务量变化的正常规律被破坏使预 测结果大大的偏离客观事实。这种类型的话务量预测在实际应用中时有发生, 这些转折点是难以预测的。如果历史数据含有类似的事件,则有可能通过对历 史规律的学习获取这种规律性。因此要尽量的保证用于话务量预测所需数据的 完整性。 (3) 地域性 预测不同地区的话务量,情况会有所不同。这主要是因为地域不同,气候 变化、人们的生活规律都不尽相同,所以间接的影响了话务量的变化规律。因 此,在使用多变量预测法进行话务量预测时,需要衡量各变量与地域的相关性。 (4) 多方案性 话务量预测的机理是一个数学建模的过程,而不同的数学模型都有一定的 使用条件限制,没有任何一个数学模型是通用的,如果不注意各模型的限制条 件,一味的输入相应值去计算输出结果,其误差肯定会比较大。所以需要考虑 不同话务量条件下的数学模型选择。 2.1.3 话务量预测流程 电信话务量预测是根据已知的历史话务量和当前信息对未来几小时或几天 的话务量情况进行预测。要进行科学准确的预测,不但要选择合适的预测方法 和技术,建立合适的预测模型,还要注意对历史数据的选择及预处理,才能得 到更准确的预测结果。一般话务量预测的过程如下: (1) 整理历史资料,对话务量数据的预处理 预测是根据历史信息和当前信息对未来的发展趋势进行判断,因此任何预 测都需要基于原始数据,历史资料的收集和整理的效果会直接影响到预测的质 量。在历史话务量数据中,一方面,由于随机因素的影响,话务量会在某一时 刻产生不同于以往任何方式的话务点,在出现非正常话务点的情况下,话务量 的规律性将被破坏,话务量曲线的相似性降低,则话务量的可预测性被破坏了, 影响预测精度;另一方面,原始数据采集系统如果出现故障或外界信号干扰, 就会出现传输错误,导致资料不准确或数据丢失。这些都是坏数据产生的原因。 对历史资料进行数据分析预处理时,应剔除这些坏数据,保证资料的完整性。 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 12 这个过程叫做平稳化异常值和补遗缺失值。由于本文基于电信综合结算系统的 话务量数据,而该数据已通过常规预处理手段的处理,因此本文的预处理过程 较为简单,用相邻一个周期的同类型日的数据进行平均得到一个完成日话务量 序列值,然后将各日话务量与此平均话务量进行对比误差的判别分析,误差超 过 10%则进行修正,用平均话务量值替代。 (2) 建立话务量预测模型 话务量预测模型是统计资料轨迹的概括,预测模型是多种多样的,因此, 对于具体资料建立恰当的预测模型,这是预测过程中至关重要的一步。由于模 型选择不当而造成预测误差过大时,就需要改换更合适的模型,必要时还可以 同时采用几种数学模型进行运算,以便对比、选择。在选择好恰当的预测技术 后,建立话务量预测数学模型,对预测模型进行恰当的修正后即可进行预测工 作。 2.1.4 预测误差分析 预测只是一种对未来趋势的估算,不可避免的与客观实际之间存在一定的 差距,这就是预测误差。研究产生预测误差的原因,计算并分析误差的大小是 预测过程中非常重要的一步。这样不仅可以认识预测结果的准确程度,在利用 预测资料作决策时具有重要的参考价值,而且它对于评价预测方法和预测模型 的优劣,改进话务量预测工作方面也有很大的帮助。产生预测误差的原因很多, 但主要表现在以下几个方面: (1) 进行话务量预测用到的数学模型大多只包括所研究对象的某些主要因素, 而省略了很多次要因素。但对于错综复杂的话务量变化来说,这样的模型只是 一种简单话的反映,仍与实际话务量之间存在差距。 (2) 话务量所受影响影响是千变万化的,进行预测的目的和要求又各种各样, 因此就要从许多预测方法中选择恰当的预测方法,选择不当将随之产生误差。 (3) 由于进行预测所需的大量资料并不能保证其准确可靠,资料的误差也必 然会带来预测误差。 (4) 意外事件的发生或情况的不可预测性变化,同样会造成预测误差。同时, 由于计算或判断上的失误,也会产生不同程度的预测误差。 在分析了预测误差产生原因后,可以对预测模型或预测技术加以改进。同 时还必须对预测误差进行计算分析,进而可以检验所选的预测模型。这里讨论 的预测误差性能指标如下: (1) 相对误差,用 re 表示,它可以描述某一时刻 t 预测效果的好坏,计算 公式为:,其中是实际值,是预测值。( )/ t tt re txxx t x tx (2) 平均绝对百分比误差 mape,它是一个综合评价整个预测过程预测性能 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 13 高低的指标,其计算公式为:,其中 re(t)是时刻 t 的相对 1 1 ( ) n i mapere t n 误差,n 是样本数。 2.2 加权 fcm 聚类算法 聚类又称为群类分析或类分析,它是按照某种准则对个体进行分析的一种 多元统计分析方法。聚类分析首先要对进行聚类的个体定义一种能够反应个体 间相似程度的度量,一般用样本间的各种距离来度量,按照设定条件将相似程 度较大的个体聚合为一类。 2.2.1 fcm 聚类算法简介 目前存在大量的聚类算法22-26。算法的选择取决于数据的类型、聚类的目 的和应用等。如果聚类分析被用作描述或探查的工具,则可以对同样的数据尝 试多种算法。主要的聚类算法可以划分为以下几类: (1) 划分方法(partitioning method) 给定 n 个对象或元组的数据库,一个划分方法构建数据的 k 个划分,每个 划分表示一个聚簇,且 kn,同时满足如下条件: a)每个组至少包含一个对象; b) 每个对象必须属于且只属于一个组。 给定要构建的划分数目 k,划分方法首先创建一个初始划分,然后采用一 种迭代的重定位技术,尝试通过对象在划分间的移动来改进划分。一个好的划 分准则是:在同一类中的对象尽可能相近,而不同类的对象尽可能远离。基于 划分的方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据 集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。 (2) 层次方法(hierarchical method) 层次方法对给定数据对象集合进行层次的分解。根据层次分解是自底向上 还是自顶向下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。层次聚 类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤消,而 不能更正错误的决定。改进层次方法的聚类质量的一个有希望的方向是将层次 聚类和其他聚类技术进行集成,形成多阶段聚类。 (3) 基于密度的方法(density-based method) 提出基于密度的聚类方法是为了发现任意形状的聚类结果。其主要思想是: 只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤 “噪声”孤立点数据,发现任意形状的簇。 中南大学硕士学位论文 第二章 话务量预测的聚类预处理技术 14 (4) 基于网格的方法(grid-based method) 基于网格的聚类方法采用一个多分辨率的网格数据结构,把对象空间量化 为有限数目的单元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省绥江县2025年上半年事业单位公开遴选试题含答案分析
- 河北省宣化县2025年上半年事业单位公开遴选试题含答案分析
- 河北省涉县2025年上半年公开招聘城市协管员试题含答案分析
- 河北省满城县2025年上半年事业单位公开遴选试题含答案分析
- 河北省海兴县2025年上半年公开招聘城市协管员试题含答案分析
- 2025年文化广场场地租赁合同范本
- 2025版电子商务平台商标转让合同示范文本
- 2025版家具维修与专利技术合作合同下载
- 2025年度基础设施建设项目施工合作协议书
- 2025年度高科技产业园水电设施建设合同范本
- 近几年大学英语四级词汇表(完整珍藏版)
- 儿科护理学教学案
- 盐酸罂粟碱在腰背痛治疗中的应用
- 一年级硬笔书法教学计划
- 静电安全在纸浆与造纸行业中的应用
- 培养团队协调能力
- 汤小丹《计算机操作系统》官方课件 第四版
- 走近昆曲《牡丹亭》
- 3D打印混凝土材料性能试验方法
- 装饰色彩课件
- XX学校学校集体备课实施方案细则、方案、计划、制度、总结(全套资料)
评论
0/150
提交评论