




已阅读5页,还剩52页未读, 继续免费阅读
(控制理论与控制工程专业论文)时间序列数据挖掘在电信业预测系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 作为一种新的数据分析工具,数据挖掘的发展十分迅速。各种类型的数据都可以作为数据挖掘 的对象。时间序列在数据集中十分普遍。对时间序列进行数据挖掘己成为当前研究的焦点之一。 本文在国内外时间序列数据挖掘最新研究的基础上,对时间序列数据挖掘中的趋势分析、周期 分析问题和详细建模过程进行了研究分析,提出了用季节一周期时间序列模型和多变量时间序列c a r 模型共同对电信业务收入情况进行建模预测,并设计了电信行业时间序列预测系统的框架,主要包 括以下内容: 1 详细探讨了时间序列分析的建模步骤。从数据预处理、模型辨识、突变点检测、特性分析、 模型阶次判定、参数估计到模型的检验和应用均作了细致的讨论。 2 结合数据挖掘的一般流程和软件工程知识及面向对象知识,设计了电信业务收入时间序列预 测系统框架,然后根据现实可行情况,设计了具备可扩展性的并且集成了时间序列数据挖掘功能的 电信业决策系统的体系结构。 3 在深入研究季节组合模型和基于多变量的时间序列c a r 模型的基础上,根据电信业务收入 时间序列预测系统框架,利用2 0 0 2 年至2 0 0 8 年的电信业务收入数据和同定资产投资完成额、固定 长途电话通话时长等八个统计指标数据,用d p s 软件系统分别建立起了具体的季:i 了- 组合模型和多变 量时间序列c a r 模型( 建模的过程中把八个统计指标合并为了五个指标) ,并给出了未来一年的预测 值,结果表明多变量时间序列c a r 模型是一种预测精度较高的预测模型。 关键词:数据挖掘,时间序列,c a r 模型,阶次判定,参数估计 a b s t r a c t a b s t r a c t a san e wk i n d o fd a t aa n a l y s i st e c h n i q u ed a t am i n i n gd e v e l o p sf a s t m a n yk i n d so fd a t as e t sc a nb et h e o b j e c t so fd a t am i n i n g b e c a u s et i m es e r i e sa r ev e r yc o m m o ni nd a t as e t st i m es e r i e sd a t am i n i n g ( t s d m ) h a sb e e no n eo f t h ef o c u s e so f c u r r e n td a t am i n i n gr e s e a r c h b a s e do nt h er e s e a r c ha c t i v i t i e sa n dd e v e l o p m e n to ft i m es e r i e sd a t am i n i n ga th o m ea n da b r o a d ,i t s t u d i e st h e s ep r o b l e m sa sf o l l o w s :t r e n d sa n a l y s i s ,p e r i o da n a l y s i sa n dd e t a i l e dm o d e l i n gs t e p so ft i m e s e r i e sd a t am i n i n g ,t h e nt ou s es e a s o n - t h ec y c l et i m es e r i e sm o d e la n dm u l t i v a r i a t et i m es e r i e sc a r m o d e lf o rt e l e c o m m u n i c a t i o n sb u s i n e s si n c o m ep r e d i c t i o na n dt od e s i g nt h et e l e c o m m u n i c a t i o n si n d u s t r y t i m es e r i e sf o r e c a s t i n gs y s t e mf r a m e w o r k , i n c l u d i n g : 1 t od i s c u s e si nd e t a i lt h ea n a l y s i so ft i m es e r i e sm o d e l i n gs t e p s 2 。c o m b i n e dw i t ht h e g e n e r a lf l o wo fd a t am i n i n g ,s o f t w a r ee n g i n e e r i n gk n o w l e d g ea n d o b j e c t - o r i e n t e dk n o w l e d g e ,i td e s i g n st h ef r a m e w o r ko ft h et e l e c o m m u n i c a t i o n sb u s i n e s si n c o m et i m e s e r i e sp r e d i c t i o ns y s t e m ;t h e nc o m b i n i n gt h ea c t u a ls i t u a t i o n ,i td e s i g n sw i t hs c a l a b i l i t ya n di n t e g r a t i o no f t i m es e r i e sd a t am i n i n gf e a t u r e so ft h et e l e c o m m u n i c a t i o n si n d u s t r y , d e c i s i o n m a k i n gs y s t e ma r c h i t e c t u r e 3 ad e e ps t u d yo nt h es e a s o n - t h ec y c l et i m es e r i e sm o d e la n dm u l t i v a r i a t et i m es e r i e sc a rm o d e li s m a d e t h ee x p e r i m e n ts h o w e dt h a tm u l t i v a r i a t et i m es e r i e sc a rm o d e li sah i g h e rp r e d i c t i o na c c u r a c yo f p r e d i c t i o nm o d e lt h a ns e a s o n - t h ec y c l et i m es e r i e sm o d e l k e yw o r d s :d a t am i n i n g ,t i m es e r i e s ,c a rm o d e l ,o r d e rs e l e c t i o n ,p a r a m e t e re s t i m a t i o n i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 研究生签名: 日期: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:导师签名:日期: 第一章绪论 第一章绪论 近年来,随着包括电信业在内的企事业和政府事务电子化及商务贸易电子化的迅速普及以及科 学计算的日益增长,产生了大规模的数据源。计算机网络技术的长足进步也为数据的传输和远程交 互提供了技术手段,特别是互联网的迅速发展更是将全球的信息源纳入了一个共同的数据环境。如 何理解已有的历史数据并用米预测朱来的行为,如何从这些海量的数据中发现知识,这些导致了知 识发现和数据挖掘的出现。知识发现和数据挖掘是集统计学、机器学习、信息检索、并行计算、数 据库等技术的一个交义性的研究领域。 1 1 数据挖掘概念及过程 数据挖掘就是从人量数据中发现潜在的规律提取有用知识的方法和技术,又被称为数据库知 识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 。数据挖掘是一个交叉学科领域,受数据库技术、统 计学、机器学习、可视化和信息科学等多个学科影响。 数据挖掘的一般过程如图卜l 所示【i j ,它不是一个简单的线性过程,包括很多的反馈同路在内, 其中的每一个步骤都有可能回到前面的一个或者几个步骤往复执行。数据挖掘过程一般可以分为4 个步骤: 1 ) 确定目标 了解应用的范围,预先准备相关的知识,了解最终用户的目标。一股米说,目标可以是关联规 则发现,数据分类,预测,聚类,数据汇总,概念描述,相关分析建模或者误差检测等等。如果把 用户或者分析者的经验和知识结合起来,既可以减少工作量,义能使挖掘工作更有目的性,更有成 效。 图i - 1 数据挖掘流程图 l 知识 东南大学硕七学位论文 2 ) 数据准备 ( 1 ) 生成目标数据集。选择一个数据集,或者针对一个变量或数据样本的子集,在这个集合上进行 数据挖掘工作。选取同类数据,处理过程中的动态情况和变化、采样策略等; ( 2 ) 数据净化和预处理。正确去除噪卢和奇异值,解决时间序列信息和正确标准化等; ( 3 ) 数据变换和压缩。根据任务的目标,查找有用的特性来表示数据。利用空间压缩或者变换的 方法来减少要考虑的有效变量数目或者找到数据的不变表示。 3 ) 数据挖掘 ( i ) 选择数据挖掘方法。根据d m 过程的目标,选择相应的数据挖掘算法,统计分析,机器学习, 模式识别,支持向量机( s v m ) 等等。数据挖掘方法必须和目标匹配; ( 2 ) 选择数据挖掘算法。选择用来查找模式或符合数据的模型算法,确定合适的模型和参数; ( 3 ) 数据挖掘。查找感兴趣的模式。 4 ) 表达、评价和巩同挖掘结果 ( 1 ) 结果表达。尽量直观地表示挖掘结果,便于用户理解和使用,可利用可视化方法表示为图表等 方式; ( 2 ) 结果评价。筛选和评价挖掘结果中的有用部分,查找可接受的结果。可以定义兴趣度指标,考 虑结果的正确度、新颖度,把知识从输出中过滤出来。利用可视化方法帮助用户解决所提取知识的 有效性或对基本的数据和现象做出结论; ( 3 ) 知识巩同。把挖掘出的知识结合到执行系统中,了解这些知识的作用。用预先知道且可信的知 识来检查和验证新挖掘的知识,解决可能存在的矛盾或者把它报告给用户,由用户进一步分析。 在整个挖掘过程中,各个步骤的相对工作量如图1 3 所剥川。可以发现,在数据挖掘项目中,真 正采用数据挖掘算法进行分析的工作量并不大,项目目标定以及全部数据准备t 作占了绝大部分的 工作。 5 0 1 2 数据预处理技术 图1 2 数据挖掘各步骤相对t 作量 数据挖掘过程是一个和领域相关的交互过程,需要领域专家的参与。一般而言,一种数据挖掘 算法不可能完全适合各种挖掘问题的需要,一种算法可能只适合特定的问题。在数据挖掘的各个阶 段,常用的技术有数据清理、特征选择、连续属性离散化等等。 1 2 1 数据清理 现实t h = 界的数据往往是“脏”的、不完整的、不一致的。通过数据清理,以填充空缺的数据, 识别孤立点、消除噪音。对于缺失的数据,一般的做法有:忽略含有缺失数据的实例所对应的所有 2 二 篁二童堡堡 数据;人上填写缺失数据( 一般由领域专家完成) ;使用全局常量填充空缺值;用属性平均值代替缺失 数据;使用同归推导等方法计算最可能的值以代替缺失数据等。对于噪声数据,一般采用数据平滑 技术进行处理。数据平滑通常使用的方有:分箱( b i n n i n g ) 、聚类、回归等。 1 2 2 特征选择 用于数据分析的数据可能包含数以百计的属性,其中人部分属性与挖掘任务不相关。无关或者 冗余属性的存在会致使所用的数据挖掘算法无所适从,从而导致数据挖掘的结果质量下降。此外, 无关或者冗余属性的存在增加了数据量,会减缓数据挖掘的进程。特征选择是解决无关、冗余属性 问题的有效方法。特征选择是数据挖掘中的一项重要技术,在数据准备和预处理阶段发挥着重要作 用。特征选择的目的是找到满足特定标准的最小的属性子集。标准通常是错误率,不一致率,信息 熵,依赖程度等 l i ua n dm o t o d a ,1 9 9 8 。特征选择算法和后续的学习算法之间的关系可以归为两类: w r a p p e r 方法和f i l t e r 方法 k o h a v ia n dj o h n ,1 9 9 7 。在w r a p p e r 方法中,特征选择算法利片j 学习算 法评估特征选择的效果,选出具有最好学习效果的一组属性,f i l t e r 方法则不考虑学习算法,利用自 己的标准进行特征选择,选择完毕再使用学习算法。一般米说,w r a p p e r 方法的效果要好于f i l t e r 方 法,但是时间复杂度也高于f i l t e r 方法。 1 2 3 连续属性离散化 数据挖掘中很多方法要求属性是离散的,而实际数据中有很多属性是连续的,因此有必要对连 续属性进行离散化,离散化的任务是把连续属性的取值范围或取值区间划分为若干个数目不太多的 区间,用区间标号代替实际的数值。目前的离散化方法主要有归并和划分两种策略:归并策略的思 想是把初始属性的每个取值当作一个离散的属性值,然后逐个反复合并相邻的属性值,直到满足终 止条件;划分策略的思想是把连续属性的整个取值区间当作一个离散属性值,然后对该区间进行反 复的划分,直至满足终止条件。基丁这两种思想产生了许多不同的离散化方法p j 。 上述方法麻用于同样的数据集,其离散化效果各不相同;而同样的方法用不同的数据集,结果 差异也很大。评价一个离散化方法的好坏,通常以一致性、知识依赖度和冲突率作为评价的标准。 1 3 数据挖掘功能 1 3 1 分类算法 数据分类是指按照分析对象的属性、特征建立不同的组来描述事物。数据分类是数据挖掘的主 要内容之一,主要是通过分析训练数据样本,产生关丁类别的精确描述【斗j 。这种类别通常由分类规 则宝f 【成,在使用上,既可以用此模型分析已有的数据,也可以用来对朱来的数据进行分类和预测。 分类技术解决问题的关键是构造分类器。 分类规则挖掘有着广泛的应用前景。对于分类规则的挖掘通常有决策树方法、贝叶斯方法、神 经网络方法、统计学习理论、遗传算法等,不同的方法适用丁不同特点的数据。 1 3 2 聚类分析 与分类相对,聚类是一种无监督的数据挖掘方法( u n s u p e r v i s e dl e a r n i n g ) :设想要求对一个数据 对象的集合进行分析,与分类不同的是,要划分的类是未知的。聚类( c l u s t e r i n g ) 就是将数据对象分 组成为多个类或簇( c l u s t e o ,同一簇中的对象之间具有较人的相似度,而不同簇中的对象筹别较大。 3 东南人学硕士学位论文 相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。直观的说,最终形成的每 个聚类,在空间上都是一个稠密的区域。在应用中,通常将一个簇中的数据对象当作一个整体来对 待。大体上,聚类算法可以分为划分聚类、层次聚类等。 划分聚类是按照某种划分准则,将数据集划分成指定数目的k 个簇。其中全局优化方法是穷尽 所有的i - 划分空间寻求某种准则的最优划分。启发式方法是从随机k - 划分出发,通过迭代操作不断 调整对象归属,直到收敛。代表性的启发式方法有k m e a n s 和k m e d o i d s 算法。 层次聚类又分为自底向上的聚合法和白顶向下的分治法两种。聚合法把每个样本看作一个单独 的簇,然后合并这些簇为越来越大的簇,直到所有的对象都在一个簇中,或者满足某个预先设定的 条件为j :。分治的层次聚类策略和聚合法相反,它首先将所有对象置于一个簇中,然后逐渐细分为 越来越小的簇,直到每个对象白成一簇,或者某个预先设定的终止条件被满足。 1 3 3 集成学习 集成学 - ( e n s e m b l el e a r n i n g ) 起源于对神经细胞工作方式的假没:信息加上是由神经集合体共同 完成的。1 9 9 5 年,s c h a p i r e 证明一个关键定理,由此奠定了集成学习的理论基础,即:一个学习方 法可以提升为强学习方法的充要条件是其为弱可学习。这个定理证明,多个弱分类器可以集成为一 个强分类器。b a g g i n g b r e i m a n ,1 9 9 6 和b o o s t i n g f r e u n da n ds c h a p i r e ,1 9 9 7 是近米研究提高分类器 学习系统预测能力的方法,也是集成学习中最具代表性和应用前景的方法。b a g g i n g 和b o o s t i n g 都 是通过组合多个弱分类器来得到一个强分类器,二者的主要区别是取样的方式不同。b a g g i n g 采用的 是均匀取样,而b o o s t i n g 根据错误率取样,因此b o o s t i n g 的分类精度要优1 - - b a g g i n g 。近年来,集 成学习方法已得到较为广泛的实验和应用,尤其是在数据挖掘方面的前景比较好。 1 3 4 关联规则 在数据挖掘的知识模式中,关联规则是比较重要的一种。关联规则的概念由a g r a w a l 等于1 9 9 3 年提出,关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习。关联规则是形如 xjy 的蕴涵式,其中x 、】厂是项集且xny = 。关联规则的兴趣度通常用规则的支持度和置 信度两个指标来度量。关联规则的支持度是指规则为真的相关实例占所有实例的百分比:在数据库 中如果s 的实例同时包含x 和】厂( 或s 的实例包含xu 】,) 则关联规则xjy 的支持率为j 。 关联规则的置信度是指规则为真的相关实例占包含项集x 的实例的百分比:若包含项集x 的实例中 c 的实例也包含项集】厂,则关联规则xjy 的置信度为c 。同时满足最小支持度阂值( m i ns u p ) 和最小置信度阈值( m i n - c o n f ) 的关联规则成为强关联规则。具有较低支持度的规则多半是噪卢、少见 或者异常的情况。满足最小支持度的项集被称为频繁项集。 关联规则的挖掘一般可以分解为一个两步的过程: i ) 找出所有的频繁项集。2 ) 由频繁项集产生强关联规则,即找出满足最小支持度和最小置信度 的关联规则。 在上述两个步骤中,第二步最容易,挖掘关联规则的总体性能由第一个步骤决定。因此一般的 研究主要集中在找出所有频繁项集上。 a p r i o r i 算法的缺陷是可能产生人量的候选项集,需要重复扫描数据库,通过模式匹配检奄一个 很大的候选集合,这些可能性都会大大增加系统的开销。 1 3 5 时间序列数据挖掘 时间序列数据是指由随时间变化的序列值或事件组成的数据。其数值通常都是在等时间间隔测 得的数据,如电信行业每月的业务收入、股票市场的每日波动、科学实验等等。时间序列的挖掘主 4 第一章绪论 要包括趋势分析、周期分析、与时间有关数据的序列模式挖掘、相似性搜索等几个重要方面。 趋势分析一般将数据分解为长期或趋势变化、循环变化、季节性变动和非规则或随机变化这个 基本运动的分析。常用的方法有移动平均法( 义称时序平滑法) ,最小二二乘法等。通过对趋势、循环、 季节和非规则成分变动的系统分析,使人们可以在较合理的情况下,制定出长期或短期的预测。 周期分析是指对周期模式的挖掘,即在时序数据库中找出重复出现的模式。周期模式挖掘可视 为一组分片序列为持续时间的序列模式挖掘。周期模式挖掘的问题可以分为全周期模式、挖掘部分 周期模式和循环或周期关联规则等几类。全周期分析一般采用信号分析和统计分析中的一些方法。 部分周期模式和循环关联规则挖掘的大部分研究都应用了a p r i o r i 特性启发式,采用了变通的a p f i o f i 挖掘方法以及基于约束的方法 g a r o f a l a k i s ,r a s t o g ia n ds h i m ,19 9 9 】。 序列模式挖掘是指挖掘相对时间或其他模式出现频率高的模式。关联规则挖掘中采用的a p r i o r i 特性可以用于序列模式的挖掘,因为若长度为k 的序列模式是非频繁的,则其所有的超集就不可能 是频繁的。因此序列模式挖掘的大部分方法都采用了类a p r i o r i 算法的变种( a g r a w a la n ds r i k a n t , 1 9 9 5 ;s r i k a n ta n da g r a w a l ,1 9 9 6 ) 。 相似搜索是指找出与给定查询序列最接近的数据序列。对时序数据的相似性分析,通常采用欧 氏距离作为相似计算的依据。此外,大部分实际应用并不一定要求匹配的子序列在时间轴上完全一 致,若子序列对具有同样的形状,但在序列内存在间隙或在偏移和振幅中存在差异,一般也可以认 为子序列对是匹配的。 1 3 6 文本挖掘和w e b 挖掘 文本挖掘是以半结构( 如w e b 网页) 或者无结构( 如纯文本) 的自然语言文本为对象的数据挖掘。它 是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在的规律的过程 m i t c h e l l ,1 9 9 7 ) 。信息 检索和基于关键字的关联分析是文本挖掘的两大重要主题。 信息检索主要研究人量文本文档的信息组织和检索,典型的信息检索问题是基于用户的输入( 如 关键字或者样例文档) 定位相关的文档。文本检索的质量通常用查准率和查全率两个指标度量。查准 率是指所检索剑的实际文档与查询相关的文档的百分比。查全率是与查询相关的、并且实际被检索 到的文档占所有查询相关文档的白分比。信息检索的方法主要分为基于关键字的检索和基于相似性 的检索两种。 s u b r a m a n i a n ,1 9 9 8 ;k l e i n b e r ga n dt o m k i n s ,1 9 9 9 】 基于关键字的关联分析首先要收集大量文档中经常一起出现的关键字和词汇,然后找出其关联和相 互关系。此类分析通常首先对文本数据进行预处理,然后再调用关联挖掘算法 f e l d m a na n dh i g h , 1 9 9 8 】,而基于关联的分类是文档自动分类的有效方法 w a n g ,z h o ua n dl i e w ,1 9 9 9 。 w e b 挖掘和文本挖掘都有信息检索、自动分类等内容挖掘。除了内容挖掘之外,w e b 挖掘还包 括结构挖掘和使用挖掘。结构挖掘是指从w e b 文档的结构中推导知识,除了文档之间的超链接结构 外,还包括文档内部的结构、文档u r l 中的目录路径结构等。w e b 使用挖掘是从用户对网络的使用 方式和行为中挖掘有用模式,用于对网络信息的合理组织和服务质量的改进。w e b 使用挖掘的结果 通常是川户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯利模式等。 1 4 时间序列数据挖掘的发展及研究现状 时间序列数据挖掘始于2 0 世纪9 0 年代开始的数据库相似搜索的研究。r a g r a w a l 等人p j 于1 9 9 3 年发表了第一篇关于时间序列数据库相似搜索的研究论文;c f a l o u t s o s 等人于1 9 9 4 年提出了一类子 序列相似性有询的方法l o j 。这两篇文章奠定了时间序列相似性研究的基础,引起了广大时间序列数 据挖掘研究者的注意。文中提出的时间序列数据库相似性搜索算法应遵循的原则已被普遍接受。近 十年来,时间序列数据挖掘成为国际学术界研究的热点之一,国际著名的学术会议和期刊如s i g k d d 、 v l d b 、i c d e 、a c m s i g m o d 以及i e e et r a n so nk n o w l e d g ea n dd a t ae n g i n e e r i n g 等每年都有不少 5 东南大学硕七学位论文 关丁时间序列数据挖掘的研究成果报道。综合米看,时间序列数据挖掘研究的主要内容包括以下七 个方面【7 】【8 】: 错误! 未找到引用源。时间序列数据变换:由于时间序列的数据量庞大且数据类型及为复杂, 直接在原始时间序列上进行数据挖掘不但效率低下,而且往往难以获得满意的结果。时间序列的拟 合表示方法是对时间序列进行抽象和概括的特征表示方法,是在更高层次上对时间序列的重新描述。 时间序列的拟合表示不但能够对时间序列数据进行压缩,而且突出了时间序列的模式变化特征。 错误l 未找到引用源。时间序列聚类分类分析:给定一个包含1 1 个时间点的时间序列q ,构 建一个模型,将q 分为k 个部分( k n ) 近似表示q 。分割有两个主要的应用,可以用于检测生成时 间序列的系统发生的变化,即变化点检测;也可以用于创建时间序列的高级表示以便索引、聚类和 分类。 错误! 未找到引用源。时间序列的相似性( 不相似性) 查询:给定一个时间查询序列q 以及某个 相似性不相似性度量d ( q ,c ) ,发现时间序列数据库d b 中与q 最匹配的那些时间序列。判断两个时 间序列的相似程度需要一个测量时间序列相似性的距离度晕方法。目前时间序列数据挖掘中用到的 距离度量大致可以分为两火类:欧几里德距离和非欧几里德距离。 错误! 未找到引用源。时间序列的模式挖掘:模式挖掘是时间序列数据挖掘的重要研究内容之 一,近年来相关研究成果不断涌现。针对不同的应用目的,人们试图从时间序列数据库中发现的模 式也各不相同,如特定模式、频繁模式、周期模式、异常模式等。 错误! 未找到引用源。时间序列的可视化:时间序列可视化是时间序列数据挖掘中一个应用前 景广阔的研究方向。一般来说,人们比较难于理解复杂的时间序列数据,而形象化了的数据则非常 容易理解。冈此有关这方面的研究近几年米也逐渐被时间序列数据挖掘研究领域的研究者们关注 【9 】 错误l 未找到引用源。时间序列预测:时间序列预测一直是众多科学领域感兴趣的问题。由于 研究对象的高度一致性,t s d m 研究中关心的时间序列预测问题与时间序列分析理论中关心的时间序 列预测问题在许多方面是相同的。时间序列预测根据时间序列型数据,由历史的和当前的数据推测未 来的数据,也可以认为是以时间为关键属性的关联知识。时间序列预测技术大体可分为: a ) 线性时间序列预测技术。1 9 6 8 年b o x 和j e n k i n s 提出了一套比较完善的时间序列建模理论和 分析方法。这些经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型,求和自回 归滑动平均模型和季一1 了调整模型等进行时间序列的预测。 b ) 非线性时间序列预测技术。这类方法主要采用嵌入空间法或神经网络等方法,特别是混沌时间 序列预测tl o l 和基于神经网络的时间序列预测i “j 。时间序列预测的神经网络模型包括模糊神经网 络、径向基函数( r b f ) 网络、小波神经网络以及积单元神经网络l j 驯等。 c ) 其他技术,如滑动窗口二二次自回归模型【i 引、基于云模型的时间序列预测l d j 等。 错误l 未找到引用源。时间序列的应用研究:时间序列数据广泛存在丁现实世界的各个领域, 冈此时间序列数据挖掘的应用领域十分广泛。典型的廊用包括;机电系统诊断l jo 1 7 1 、生物信息学 1 1 8 - 2 0 】、运动图像分析【2 1 , 2 2 】、生产过程监测【2 3 , 2 4 】、基于规则的时间序列预报【2 5 】以及时间序列概括【2 6 】 等。 1 5 本文研究内容 原有的时间序列分析方法有很多不足,例如很难用纯数学模型精确的表达非线性系统、针对某 些系统还需要多种手段的综合等,为了克服这些不足,作为数据挖掘的一个重要分支,把数据挖掘 的思想运用到时间序列分析中,对时间序列数据进行适当的挖掘,从中找到蕴含的规律,并且将其 运川在时间序列系统中进行分析和预测,便可以很好的弥补原有方法的一些问题,也给时间序列问 题的研究提供了一种新的思路。 本文的研究目标是利用数据挖掘t 具,并结合时间序列分析对电信业务收入演化的趋势做出合 6 第一章绪论 理的预测和分析。具体结果有: ( 1 ) 分析了现有单变量时间序列模型,指出各种模型的局限性。 ( 2 ) 详细介绍了季节周期组合模型和多变量时间序列c a r 模型数据挖掘,并作出分析,阐 述了这两种模型的现实用途与意义。详细介绍了时间序列方法的建模步骤,从数据的预处理、模型 的辨识、突变点检测、特性分析、模型的阶次判定、参数估计到模型检验和应用。 ( 3 ) 运用面向对象知识,设计了电信业务收入时序预测系统框架和具备时间序列数据挖掘功能 的可扩展的电信业决策系统的体系结构。 ( 4 ) 对本文中的季节周期组合模型和多变量时间序列模型进行了实验分析。建立了适合电信 业务收入预测的两种模型,论证了算法的有效性并分析了关键参数对算法性能和效果的影响。 1 6 本文的组织结构 全文共分为六章,简单介绍如下: 第一章:绪论 介绍了数据挖掘的一般过程、数据挖掘的主要技术以及时间序列挖掘的有关研究背景和研究进 展,并简要介绍了本文主要的研究内容和成果。 第二章:时间序列分析理论基础 介绍了时间序列分析的方法,并简要回顾了几种单变量时间序列预测模型,重点介绍了季节- 周 期组合模型和多变量时间序列模型。 第三章:时间序列模型研究 研究了时间序列模型的建模步骤,具体包括:根据建模目的和理论分析,确定模型的基本形式, 进行模式辨识,对时间序列的突变点检测、特性分析,对时间序列模型的阶次进行判定并对时间序 列模型的参数进行估计。 第四章电信业务处理信息系统设计 首先设计电信业务收入数据预测系统的体系结构,接着设计具备数据挖掘功能的电信决策信息 系统总体框架,把时间序列理论运用到实际系统中,以期发挥更大作用。 第五章时间序列预测模型在电信业务收入中的应用 基于电信业务收入时序预测系统框架,根据2 0 0 2 年1 月至2 0 0 8 年1 2 月的我国电信业务的收入 数据,运用季节组合模型进行分析预测,给出未来1 2 个月的电信业务收入预测值;并根据2 0 0 2 年 至2 0 0 8 年的电信业务收入数据和同定资产投资完成额、剐定长途电话通话时间等八个统计指标数 据,用d p s 系统建立起多变量时间序列模型( 建模的过程中把八个统计指标合并为了五个指标) 。 第人章总结与展望 对本文所做的工作做了总结,并指出进一步需要研究的方向与工作。 7 东南大学顾十学位论文 第二章时间序列分析理论基础 在工程、经济、自然科学和社会科学等领域的实际工作者和研究人员经常要和一系列的数据打 交道。我们把按时间顺序产生和排列的观测数据数列称为时间序列。一般来说,时间序列很难用一 个完全确定的数学函数来表述,它们大都具有统计规律性。我们通过对时间序列的分析,达到认识 事物、了解事物变化的目的。 2 1 时间序列分析的方法 由一串随机变量,x l ,x 2 ,x 3 ,构成的序列叫随机序列,用o = ,1 , 2 ,3 ,) 或扛, 表示。 如果下标t 代表着等间隔的时刻增长量,我们就称这种随机序列为时间序列,而整型变量f 指某时刻。 对气象工作者,时间序列而,x 2 ,x 3 ,x 可能是一串月降雨量数据;而对医师来讲,可能是一 串脑电波数据。这些数据的顺序与大小反映了数据包含的信息,反映了数据内部的相互联系,即观 测值之问的依赖关系或相关关系,正是这种相关性表征了产生这些数据的现象、过程、系统的动态 或记忆。这种相关性一旦被定量地描述出来,就可以从系统的过去值推测其将来值。不同系统的相 关性或动态也彼此不同,因而用某种数学模型米表达这种相关性是很重要的。 传统的时间序列分析方法是在时域上估计观测数据 的自相关函数,或在频率域上估计它的 功率谱。 现代的时间序列分析方法是通过另外一种途径模型法来实现。它的主要思路是把时间序列 看成是随机系统对于不相关的或独立的“白噪声”输入响应的一个实现。也就是将时间序列看成是 动态系统的输出,而系统的输入是白噪声( 见图2 ) 。这样,动态系统的数学模型就可以把不独立或 相关的时间序列输出转化为独立的或不相关的输入。所以现代的时间序列分析方法就归结为寻求这 样一种模型,它能实现把不独立数据变换成独立数据的转化j 。然后利用对独立观测值的统计方法 进行估计、预测和控制。 白噪声时间序列 2 2 单变量时间序列预测模型 图2 1 动态系统 现代的时间序列分析方法是指对观测数据拟合一个参数模型,再利用这个模型对观测数据及产 生这一数据的系统进行分析,以便更本质地了解数据的内在结构和系统的动态特征,从而可以利用 过去的观测数据对未来值进行预测与控制【2 7 1 。在介绍时间序列的几个模型之前,先给出如下定义: 定义2 1 ( 向后推移算子) :对任何时间序列扛,) 和无穷级数 5 f ,( z ) = 屯z 。“ 8 第二章时间序列分析理论基础 只要级数 b j x t 一 j = 在某种意义下收敛( 例如依概率收敛,均方收敛) ,就定义 沙( b ) = b b 7 = 1 y ( b ) t = b ,b 7 i t = b ,x t 一_ , = j = - - 。 并称b 是时间t 的向后推移算子,简称为推移算子。 2 2 1 自回归( a u t o - r e g r e s s i o n ) 模型a r ( p ) ( 2 1 ) 定义2 2 ( p 阶自回归模型a r ( p ) ) :如果p ,) 是白噪w u ( o ,仃2 ) ,实数q ,口2 ,口p ( 口p o ) 使得多项式a ( z ) 的零点都在单位圆外: p 妒( z ) = 1 - 口j z 7 0 , j 一1 就称p 阶差分方程 h 1 p x t = a j x t 一,- i - o e t ,f z2 乙一 ,f = l ( 2 2 ) ( 2 3 ) 是一个p 阶自回归模型,简称为a r ( p ) 模型。满足a r ( p ) 模型( 2 3 ) 的平稳时间序列扛, 称为平 稳解或a r ( p ) 序列。称口= ( 口i ,a 2 , - - - , a 。) 7 是a r ( p ) 模型的自回归系数。称条件( 2 2 ) 是稳定条 件或最小相位条件。 定义2 2 中的a r 是a u t o r e g r e s s i o n 的缩写。通常把由( 2 2 ) 定义的矽( z ) 称模型( 2 3 ) 的特征 多项式。利用时间t 的向后推移算子可以将a r ( p ) 模型( 2 3 ) 改写成: 矽( b ) x ,= 占, f z ( 2 4 ) 设多项式矽( z ) 的互异根是z l ,z 2 ,z ,则对1 p m i n z j ,矽一1q ) = 1 ( z ) 是 z :h p ) 内 的解析函数。从而有t a y l o r 级数: 定义 ( z ) = z 。, j = o ( b ) = b 7 j = o 从( 2 4 ) 得到下面的形式运算 h 户 9 ( 2 5 ) 东南大学硕上学位论文 x t = 矽- 1 ( b ) 矽( 曰) 薯= 妒- 1 ( b ) q ,f z 有上式可得: x t = 。1 ( b ) q = 毛一, f z j = 0 由上式决定的平稳序列是a r ( p ) 序列。下面定理证明了这个结论,( 2 6 ) 中的系数 缈,) 称为平稳序列扛, 的w o l d 系数。 定理2 1 : ( 1 ) 由( 2 6 ) 定义的时间序列扛, 是h r ( p ) 模型( 2 3 ) 的唯一平稳解; ( 2 ) a r ( p ) 模型的通解有如下的形式 k ,( ,) 一l z = y 毛一+ 7 2 7 , f z j = o j = li = o 其中 u , 是随机变量。 2 2 2 滑动平均( m o v i n ga v e r a g e ) 模型m a ( p ) 使得 就称 定义2 3 ( m h ( p ) 模型:设p , 是白噪w n ( o ,盯2 ) ,如果实数6 l ,6 2 ,b q ( 6 9 o ) 9 ( z ) = l + z b z 7 0 , d j = l h q 并且有谱密度: ( = 丢阮所) 1 2 = 去奎儿p ,名卜万州 下面证明,任何一个零均值平稳序列,如果它的白协方差函数是q 后截尾的,则这个平稳序列 一定是m a ( q ) 序列。为了证明这个结果,我们需要下面的引理,引理的证明需要较多复变函数的 知识,这里从略。 引理2 1 设实常数 c ,) 使得c 。o 和 g ( 允) = 1 z 乃妻一。c j e _ o a _ 9 ,五 一万,万】 则有唯一的实系数多项式: 9 秒( z ) = 1 + 乃z 7 0 ,l z | q ( 2 1 2 ) 2 2 3 自回归滑动平均( a r m a ) 模型 和 定义2 3 :设扛,) 是w n o ,仃2 ) 实系数多项式矽( z ) 和p ( z ) 没有公共根,满足6 0 = 1 ,a p b 口0 东南人学硕士学位论文 p ( z ) = i - 口z 7 0 , 一l h i 口 口( z ) = 屯z 0 ,h d( 2 2 1 ) 伊( b ) v d = o ( b ) a , , d( 2 2 2 ) 因此,非平稳序列可以将其进行d 次差分后用平稳模型式( 2 2 2 ) 来描述。这样的t 序列我们 称之为a r m a 序列的d 阶求和序列,描述x ,序列的模型式( 2 2 2 ) 成为( p ,d ,q ) 阶的白同归求和 滑动平均模型a r i m a ( p ,d ,q ) 。其中d 为求和阶数,p 和g 为新的平稳序列彬= v d x ,的白同归与 滑动平均阶数。 2 2 5 季节一周期组合模型 上面介绍的平稳时间序列分析,其基本形式是m = 鸬+ x t ,通常称鸬为序列的确定性部分, 而称一为零均值的平稳随机部分,a r i m a 模型是采用一些办法剔除,的部分作用,这里要介绍的 1 3 东南人学硕士学位论文 组合模型不仅要将趋势性和周期性分量分离出来,而且要给出,的确定性的表达式,因此最后建立 起既有确定性又有随机性部分的组合模型,由这两部分的组合来共同描述某些类型的非平稳过程, 常常能达到比较好的效果。 建立组合模型的方法是选用最小二乘法按照某类函数拟合数据序列的确定部分,从低阶开始, 逐渐增加阶数,直到模型无明显改进为止。然后对消除了确定趋势的残量序列建立合适的 a r i m a ( n ,m ) 模型。最后,用前述得剑的两部分参数估计值作为初值,对确定性部分和a r i m a 部 分的所有参数,用非线性最小二乘方法重新估计,得出组合模型的最终估计。 我们对各种组合模型,从简单情形到一般情形分别叙述如下: ( 1 ) 线性趋势。数据序列含有线性趋势,即观察数据在某一直线附近散布,这是组合模型中最 简单的一种情形。我们可以先用熟知的统计方法拟合回归直线,然后对残差建立a r i m a ( n ,m ) 模型, 最后把分别估计得到的两部分参数作为初值,用非线性最小二乘法估计出组合模型的最终参数。 与此类似,对于含有多项式趋势的序列,我们采用适当阶数的多项式和a r i m a 模型叠加所构 成的组合模型米拟合。 ( 2 ) 指数趋势。数据序列有时呈现指数增k 或衰减趋势,这里所讨论的是实指数的情形。我们 可以用组合模型拟合 y t - e a + x t j = l 其中,k ,a 为实数, ) 为a r i m a 序列。建模的步骤与( 1 ) 基本相同。对于, 1 ,即多个 指数趋势混合的情形,求和阶数,的判别比较麻烦。我们要么根据实际物理背景决定应用有若干加 项,要么采用使r = 1 , 2 ,3 ,由低到高的拟合办法,使,增加到组合模型的残差平方和无显著改进为 止。 ( 3 ) 周期趋势。若随机序列不仅含有指数衰减或增长趋势,而且还呈现出某种规律的周期性起 伏,则可用如下形式的组合模型去拟合: i。x y 。= r e 川j + b p js i n ( j w t + 呼a j ) + x , ( 2 2 3 ) = l= l 其中, t ) 为a r i m a 序列,l 为序列所含有的指数趋势项的项数,k 是周期趋势项的项数,t o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度新型环保外墙真石漆施工技术服务合同
- 2025版汽车土石方运输与可持续发展战略合同
- 2025年度农业项目反担保抵押合同
- 2025年度土地居间交易全程服务合同细则
- 2025版高级离婚协议范文9A专项法律咨询合同
- 2025年环保型二手房按揭买卖合同示范文本
- 2025年财务共享服务中心聘请合同
- 2025版聘请专利法律顾问合同
- 聚焦建筑行业:农民工权益保障与2025年用工模式变革下的企业文化建设与创新报告
- 2025版委托保密协议(新材料研发)
- 习惯性违章讲课件
- 人寿财产面试题及答案
- 《民营经济促进法》全文学习解读
- 华为交付流程管理制度
- 第二单元(单元解读)-六年级语文上册(统编版)
- T/CIE 161-2023工业软件成熟度分级与评估指南
- T/CECS 10198-2022防水保温一体化板
- GB/T 45524-2025公共安全易燃易爆气体探测报警装置
- 关联公司转租协议书
- 小学阶段奥数知识点
- 校园文化建设中心
评论
0/150
提交评论