(计算机应用技术专业论文)基于时间序列的数据挖掘方法在电力负荷预测中的应用研究.pdf_第1页
(计算机应用技术专业论文)基于时间序列的数据挖掘方法在电力负荷预测中的应用研究.pdf_第2页
(计算机应用技术专业论文)基于时间序列的数据挖掘方法在电力负荷预测中的应用研究.pdf_第3页
(计算机应用技术专业论文)基于时间序列的数据挖掘方法在电力负荷预测中的应用研究.pdf_第4页
(计算机应用技术专业论文)基于时间序列的数据挖掘方法在电力负荷预测中的应用研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机应用技术专业论文)基于时间序列的数据挖掘方法在电力负荷预测中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

辽宁工枵技术人学硕士学位论文 摘要 时间序列在数据集中十分普遍,对时间序列进行数据挖掘已 成为当前研究的焦点之一,对于时间序列数据挖掘的研究目前主 要集中在相似性搜索和模式挖掘上。在模式挖掘方面,趋势预测 是一个比较新的思路,它从时间序列数据中挖掘规则,以对行为 发展趋势做出预测。本文将时序分析技术与数据挖掘理论相结合, 研究了一种新的基于时间序列的数据挖掘方法用于对未来数据的 预测。该方法在挖掘过程中结合时序分析技术,建立起适合于数 据挖掘中b p 神经网络的输入样本模型,通过反复学习从时序中发 现其背后系统的规律,并将其用于未来趋势的分析和预测。同时, 针对原有的b p 算法的不足,对其做了进一步改进。本文以电力系 统的实时数据为主要的时间序列研究对象,针对阜新地区电网运 行实际,开发了相应的电力负荷预测应用软件。通过仿真试验, 结果表明本文建立的模型合理,大大提高了电力负荷预测的准确 度,对基于时序的数据挖掘理论的推广和应用做了有益的探索。 关键字:时间序列,数据挖掘,b p 神经网络,负荷预测,a r m a a r i m a 辽r 丁程技术大学硕+ 学位论文i i a b s t r a c t t i m es e r i e sa r ev e r yc o m m o ni nd a t a s e t s t i m es e r i e sd a t am i n i n gh a s b e e no n eo ft h ef o c u s e so fc u r r e n td a t am i n i n gr e s e a r c h r e c e n t l yt h es t u d yo n t i m es e r i e sd a t am i n i n gm a i n l yc o n c e n t r a t e so nb o t ht h es i m i l a r i t ys e a r c hi n at i m es e r i e sd a t a b a s ea n dt h ep a t t e r nm i n i n gf r o mat i m es e r i e s i nt h ep a t t e r n m i n i n g ,t h et r e n dp r e d i c t i o ni san e wd o m a i n i tm i n e st h er u l e sf r o mt i m e s e r i e sd a t aa n dm a k e su s eo ft h er u l e si np r e d i c t i n gw h a tw i l lh a p p e ni nt h e f u t u r e t h i s d i s s e r t a t i o nc o m b i n e st i m es e r i e sa n a l y s i st e c h n o l o g yw i t hd a t a m i n i n gt h e o r y ,r e s e a r c h e s an e wd a t am i n i n gm e t h o db a s e do nt i m es e r i e s a n a l y s i st e c h n o l o g yw h i c hc a nb eu s e do nf o r e c a s t i n gt h ef u t u r ed a t a t h i s m e t h o dc a nb u i l da n i n p u ts a m p l ep a t t e r nw h i c his s u i tf o rt h eb pn e u r a l n e t w o r k so fd a t am i n i n ga n df i n a l l yf i n dt h el a wo ft h es y s t e mb ys t u d y i n g f r o mt i m es e r i e sa g a i na n da g a i n a tt h es a m et i m e ,t oc o u n t e rt h eo r i g i n a lb p a l g o r i t h md e f i c i e n c y ,t h ew r i t e rm a d eaf u r t h e ri m p r o v eo nt h a t t h ee l e c t r i c p o w e rs y s t e m sl i v er e c o r d i n gd a t ai st h er e s e a r c ho b j e c to ft h i st e x t p r o c e e d f r o mt h el o c a la c t u a lc o n d i t i o n so ff u x i ne l e c t r i f i e dw i r en e t t i n gi nm o t i o n , t h i st e x td e v e l o p e dt h er e l e v a n ta p p l i c a t i o ns o f t w a r eo fe l e c t r i cp o w e rl o a d f o r e c a s t i n g t h e s i m u l a t e dt e s tr e s u l ti n d i c a t e st h er a t i o n a l i z a t i o no ft h e p a t t e r nb u i l d e di nt h i sd i s s e r t a t i o na n di tc a ng r e a t l yr a i s et h ea c c u r a c yd e g r e e o fe l e c t r i cp o w e rl o a df o r e c a s t i n g t h i sd i s s e r t a t i o nh a v e d o n eh e l p f u l e x p l o r a t i o no np o p u l a r i z i n gd a t am i n i n gt h e o r yb a s e do nt i m es e r i e sa n a l y s i s t e c h n o l o g y k e yw o r d s :t i m es e r i e s ,d a t am i n i n g ,b pn e u r a ln e t w o r k s ,l o a df o r e c a s t , a r m a ,a r i m a 创新点声明 本人声明所呈交的学位论文是我个人在导师指导下进行 的研究工作及取得的研究成果:本文将时序分析技术与数据挖掘 理论相结合,研究一种新的基于时间序列的数据挖掘方法用于对电力 负荷数据的预测。该方法在挖掘过程中结合时序分析建模理论,建立 起适于b p 神经网络的输入样本的模型,通过神经网络的学习得到较 为精确的预测结果。 尽我所知,到目前国内外文献未见报道。 作者: i 筮亟整日期:迎簋1 9 丝旦 辽宁工程按米大学硕士学位论文 l 绪论 1 1 选题的背景与研究意义 自二十世纪八十年代开始,数据挖掘技术逐步发展起泉,并因为 目前全世界所拥有了巨大数据资源以及将这些数据资源转换为信息 莘曩知识浚源的巨大嚣求两迅速发展。数掇挖掘难怒在对数掘进行了全 露丽深刻认识翡錾础上,辩箕内在豹本质避嚣胬度 鑫象与概括魏邋 程,同时也是对数据从理性认识到感性认识的升华。数据挖掘能为决 策者提供非常重要的、极有价值的信息和知识,从而可以产生不可估 量熬效藏。 而从系统的角度出发对时间序列的分析则魑自上个世纪6 0 年 代就开始了,至上世纪8 0 年代趋于成熟。本文是从数据挖掘的角度 窭发夏重时阀彦列遂褥分毒厅,觚薅阕津列数据集中获褥正确豹、瞻含静、 有潜在斑用价值和最终可理解的模式觌则。相对于数据挖搦较成熟的 部分而畜( 如关系数据库中关联规则和分类规则的挖掘等) ,针对于时 阕序列数据挖掘的研究是数攥挖握疆炎壤域中比较耘的一个分支。蝣 闻序列数据存在予裢会的各个领域,翔科学磅究记录:雹捂天文观测 结果、气象图像等。病历记激:包括病人的每次精病的病情记录以及 心电图簿扫描仪器的数据记录等。金融和商业交易l 已录:如股市每天 豹交翕徐穰及交荔燕、超缀市场每耱蔼晶静销售情况等。时阕_ | 事弼数 据几乎无处不在,随着科学技术的不断发展,计簿机以及存储设备的 存储容擞r 益增大,时间序列数据库也越来越犬,因此对于时间序列 数据疼麓数攥挖熬繇衮显雩萼惫菱必要。嚣 l 誊数攒挖疆款大耧分磺究都 集中在关联规则挖掘上,有必时间序列挖掘方面的研究尚礁待开展, 本文的选题方向正是在这种髓景下确定的。同时,本文还结合实际, 穆基予嗣。闻序歹i 瓣数挺挖攘方法引入到瞧力系统中来,应罔到阜瓤发 电厂的魄力负荷鞭测中,以便为电力行业服务,对时闽序捌数据挖掘 的应用进行了有益的探索。 1 ,2 时阕痔裂数据挖握酶磷究迸曩及评述 辽宁工稳技术大学硕士学能论文2 葬季阂淳歹l 数攒挖掘技术囊2 0 超筑9 0 年代以来有了快速的 发展,由最初的相似性的分析到目前的人工智能的多学科交叉研 究,时间序列的数据挖掘技术已经有了多个研究方向,下面就对国 内、羚在我领域熬骚突媾撬终麓要奔缮。 1 2 1 国外研究概况 1 9 9 9 年l2 是,茭国藏麓潦簦矮m a r u e e t te 大学静r ieh a r dj p 0 v i n e l li 在他的博士论文中,提出了一种基于时间序列的数据挖 掘的框架,他将提出的数据挖掘称之为时间序列数据挖掘( t i m e s e r i esd a t am i 班i 1 1 9 ) 。其实p o v in e l li 溪揍豹仪仗是时阉搴到数 据挖掘中的一种。 同数据挖掘中的关联规则挖掘等相比,对时删序列数据挖掘相 关斡磅究莘鞋探讨在文献中并不多冤。 弑ich a e lt r 08 en s te in 等人提出了一静瓤辩闻序确中发现“概 念”( c 0e lce p t ) 的方法,这可以算得上一种时间序列数据挖掘的雏 形。这里“概念”鼹基于预测意义上的,概念就是模式的预测内容。 在磅究遥程中,r 0s e ns t e in 鞠焉了嚣寸翊穿餮数爨鹜嚣霹力学系统 的性质,酋先对时间序列进行了延迟嵌入,然后对延迟后的数据进 行了动态聚类。他们的实验袭明,通过这种方式形成的数掘分类, 露鞋缀磐蟪对应耱瀵意义上熬壤念。恁们将其震予蕊器人懿囊学习 过程中,取得了不错的效果。 m g as 等人提出了一种从时间序列中发现规则的方法。这里他 们采用了嚣瘸酶港褰技术对瓣序进萼亍设处理,然嚣对形成戆塞强向 量集合进行聚类,褥用这些类对原来豹时序进行纛构。这样在完成 了对时序离散化和符号化的过程之后,辩对于重构后的时序进行规 则发现。鹾g a s 的方法只是生硬遣将数据挖掘的方法应用子时序分 橱中去,并没有考虑嚣尊旁藏蘧豹背景稻誊灵,蠢盈对往翻的工作龟没 有给出合理的理论懈释。 h a l l l jia w ei 等人采用数据挖掘技术对时间序列数据库中的时 穿进行蠲麓片薮黧部分霜麓片断磷突。蘩予关联疑粥挖捐努法上, 目的是发现周期性模式( 指按固定时间间隔规律性出现的模式) 。 辽宁工程技术人学硕士学位论文 3 he ik k im ar l n il a 等人在对无线通讯网络故障管理数据库进行 处理时提出了从事件序列中进行模式发现的问题。当给定一个输入 的事件序列、一类偏序事件集合模板时,事件模式发现的目的是从 序列中发现满足频度阈值的符和偏序模板的模式。其中的串行模板 是一种序列模式,但是他们的算法并不适用于时间序列。 如前所述,r ich ardj p 0 v ine l li 提出了一种时间序列数据 挖掘框架。这种数据挖掘的处理对象可以是一个时i 刨序列或多个时 间序列:在他的研究中,他并没有将整个时间序列作为预测和分析 的目标,而是仅对时序中事件( eve n t ) 的出现加以模式发现和预 测。首先,要定义事件标志函数( e v e n tch a w a c ter iz a ti0 n f u l lc ti0 n ) ,然后在其基础之上定义数据挖掘的目标函数,进行数 据挖掘。其中事件标志函数标志着对应时间予序列属于某事件的程 度。通过挖掘所得的模式,可以用来预测事件的“发生”。 1 2 2 国内研究概况 通过以上的各类研究情况可以看出,国外已经逐渐开始将数据 挖掘的思想运用到时间序列研究中去,作为一种新的时序问题处理 方法。国内相关领域的文献对时间序列的数据挖掘研究尚不多见, 比较重要的工作有19 9 8 年欧阳为民、蔡庆生在计算机科学上 发表的数据库中的时态数据发掘研究,他们从理论框架的角度 对时态数据挖掘做过介绍和分析。2 0 0 2 年张保稳等人提出了一种 模糊时序数据挖掘的框架,即将模糊集理论与时间序列数据挖掘结 合起来,应用模糊集对挖掘过程中的不确定性进行处理。 1 3 时间序列数据挖掘的主要研究方向 时间序列的数据挖掘技术已经有了多个研究方向,但主要集中 在以下两个方面。 1 3 1 相似性搜索 给定一个时序数据序列,相似性搜索问题就是发现所有与要查 辽宁上程技术人学硕士学位论文 3 he ik k im a n n i la 等人在刘无线通讯网络故障管理数据库进行 处理时提出了从事件序列中进行模式发现的问题。当给定一个输入 的事件序列、一类偏序事件集合模板时,事件模式发现的目的是从 序列中发现满足频度闽值的符和偏序模板的模式。其中的串行模板 是种序列模式,但是他们的算法并不适用于时间序列。 如前所述,r ich ardj p o v ine lli 提出了一种时问序列数据 挖掘框架。这种数据挖掘的处理对象可以是一个时恻序列或多个时 f 序列:在他的研究中,他并没有将整个时l 训序列作为预测和分析 的目标,而是仅对时序中事件( e ve n t ) 的山现加以模式发现和预 测。首先,要定义事件标志函数( e v e n t ch a r a c ter iz a z i0 1 2 f un c t ion ) ,然后在其基础之上定义数据挖掘的目标函数,进行数 据挖掘。其中事件标志函数标志着对应时间子序列属于某事件的程 度。通过挖掘所得的模式,可以用柬预测事件的“发生”。 1 2 2 国内研究概况 通过以上的各类研究情况可以看出,国外已经逐渐丌始将数据 挖掘的思想运用到时间序列研究中去,作为一种新的时序问题处理 方法。国内相关领域的文献对时间序列的数据挖掘研究尚不多见, 比较重要的工作有l99 8 年欧阳为民、蔡庆生在计算机科学上 发表的数据库中的时态数据发掘研究,他们从理论框架的角度 对时态数据挖掘做过介绍和分析。2 0 0 2 年张保稳等人提卅了一种 模糊时序数据挖掘的框架,即将模糊集理论与时间序列数据挖掘结 合起来,应用模糊集对挖掘过程中的不确定性进行处理。 1 3 时间序列数据挖掘的主要研究方向 时问序列的数据挖掘技术已经有了多个研究方向,但主要集中 在以下两个方面。 1 3 1 相似性搜索 给定一个时序数据序列,相似性搜索问题就是发现所有与要查 给定一个时序数据序列,相似性搜索问题就是发现所有与要查 辽宁工程技术人学硕士学位论文 3 he ik k im ar l n il a 等人在对无线通讯网络故障管理数据库进行 处理时提出了从事件序列中进行模式发现的问题。当给定一个输入 的事件序列、一类偏序事件集合模板时,事件模式发现的目的是从 序列中发现满足频度阈值的符和偏序模板的模式。其中的串行模板 是一种序列模式,但是他们的算法并不适用于时间序列。 如前所述,r ich ardj p 0 v ine l li 提出了一种时间序列数据 挖掘框架。这种数据挖掘的处理对象可以是一个时i 刨序列或多个时 间序列:在他的研究中,他并没有将整个时间序列作为预测和分析 的目标,而是仅对时序中事件( eve n t ) 的出现加以模式发现和预 测。首先,要定义事件标志函数( e v e n tch a w a c ter iz a ti0 n f u l lc ti0 n ) ,然后在其基础之上定义数据挖掘的目标函数,进行数 据挖掘。其中事件标志函数标志着对应时间予序列属于某事件的程 度。通过挖掘所得的模式,可以用来预测事件的“发生”。 1 2 2 国内研究概况 通过以上的各类研究情况可以看出,国外已经逐渐开始将数据 挖掘的思想运用到时间序列研究中去,作为一种新的时序问题处理 方法。国内相关领域的文献对时间序列的数据挖掘研究尚不多见, 比较重要的工作有19 9 8 年欧阳为民、蔡庆生在计算机科学上 发表的数据库中的时态数据发掘研究,他们从理论框架的角度 对时态数据挖掘做过介绍和分析。2 0 0 2 年张保稳等人提出了一种 模糊时序数据挖掘的框架,即将模糊集理论与时间序列数据挖掘结 合起来,应用模糊集对挖掘过程中的不确定性进行处理。 1 3 时间序列数据挖掘的主要研究方向 时间序列的数据挖掘技术已经有了多个研究方向,但主要集中 在以下两个方面。 1 3 1 相似性搜索 给定一个时序数据序列,相似性搜索问题就是发现所有与要查 辽宁j 二稃技术人学硕士学位论文4 询序列相似的数据序列( 称为子序列匹配) ,或彼此相似的序列( 称 为全序列匹配) 。相似搜索在时序数据分析中是非常有用的。如在 金融市场分析中可以在股市中找到有相似波动的股票;在医疗诊断 分析中心脏病专家通过查看患者的心电图来诊断是否心率异常。 1 3 2 模式挖掘 模式挖掘的研究,其中主要包括时态模式挖掘和趋势预测。 时态模式挖掘的一个主要技术是关联规则的挖掘。趋势预测采 用的主要是分类规则的挖掘技术,即l as t ,m 提出的首先对时间序 列进行预处理,然后从中抽取关键的预测属性( p red ic ting a t t r ib u tes ) ,这些属性对时间序列的发展趋势影响较大,将其组 成属性集,这些预测属性表征了时间序列的某种特性,这种特性与 时间没有关系,因此可以采用普通的静态的数据挖掘工具对时间序 列进行行为趋势的分类预测。 在模式挖掘方面,趋势预测是一个比较新的思路,也是本文研 究的重点,是指通过挖掘静态模式从而对时间序列的行为发展趋势 进行预测。首先从时间序列中抽取静态属性,这些静态属性往往决 定了时间序列的发展趋势,将时间序列的这些属性组成数据库,可 以用来进行分类预测。这种预测方法从动态的时问序列数据库中得 到静态的模式,用静态模式的特征组成静态数据库,从而解决了时 间序列数据库难于用普通的数据挖掘工具进行知识发现的问题。 1 4 本文的创新点 本章首先从数据挖掘的角度出发简要回顾了时间序列的发展, 然后重点介绍时间序列数据挖掘技术及当前国内、外的研究现状。 同时介绍了有关时间序列数据挖掘的各个研究方向,并对此做出评 述,指出今后的研究方向。普通的分类技术将不再适用于时变数据 的挖掘。因此提出一种针对于时变数据的分类技术显然是很必要 的,但迄今研究的人并不多,本文的创新点在于基于时间序列分析 理论上建立起一种新颖的适合于数据挖掘算法的数学模型,通过此 模型来获得b p 神经网络的输入样本,通过神经网络的反复学习和 辽宁工程技术大学硕士学位论文5 训练得到较准确的期望预测值。同时,将本文研究的方法应用于阜 新电网的短期负荷预测实际之中,验证了此方法的可行性和优越 性。本文的研究将成为以时变数据为挖掘对象的数据挖掘方法的一 次有益探索。 1 5 本论文的主要研究内容和结构安排 本论文在总结前人研究理论的基础上,提出了一个新的基于时 间序列的数据挖掘方法,并在此基础上重点展开如何建立能够进行 电力负荷预测的模型与方法的研究。基于研究内容,本文结构安排 如下: 第一章绪论,主要介绍选题的背景及国内、外的研究概况及本 论文的研究内容与结构安排。 第二章介绍总结时间序列分析和数据挖掘的一些基本理论,为 之后的研究工作做好理论准备。 第三章阐述了神经网络进行预测的原理及可行性,提出了一种 新的基于时间序列数据挖掘实现电力负荷预测的有效方法。描述了 具体的算法,并针对b p 算法存在的局限性,提出了一些改进方法。 第四章完成了基于时间序列b p 神经网络预测挖掘系统的设计 工作,其中主要包括具体的建模过程和神经网络结构的设计。 第五章用m a t1a b 进行了仿真试验,得出了试验结果并验证了 本论文所提出方法的正确性。 第六章用de 1 p h i 完成了系统的设计和实现。 论文最后对全文所开展的研究工作进行了总结,并指明了未来 的研究方向。 辽宁j :程技术大学硕士学位论文 2 时间序列数据挖掘基本理论 2 1 时序分析技术 2 1 1 时间序列分析定义 定义2 1 时间序列( t i m es e r ie s ) :是指被观测到的观测值 依时间次序排列而成的数据序列,其中每令观测值是在一特定的时 刻记录下来的。离散时间序列记录观测值的时间集合是一个离散 集:连续时间序列是当其观测值在某一时间间隔上连续汜录下来的 时间序列。 定义2 2 时间序列数据库:是指由随时间变化的序列值或事 件组成的数据库。 从经济到工程技术,从天文到地理和气象,几乎在各种领域中 都会遇到时间序列。例如,记录某地区各小时的用电平均负荷量, 得到一串数据序列,就是一个时间序列。 定义2 3 时间序列分析( t im eser iesa n a lysis ) :是概率统 计学科的一个比较新的分支,它是运用概率统计的理论和方法来分 析随机数据序列( 或称动态数据序列) ,并对其建立数学模型,进 行参数估计,对模型定阶,以及进一步应用于预报、预测、自适应 控制、最佳滤波等诸多方面。 当前时间序列分析技术主要是根据概率统计理论对时序进行 分析,所以也称为随机时序分析。从数学角度看,时间序列分析既 涉及了随机过程知识,又涉及到数理统计知识。 时间序列分析方法与随机过程理论有所区别,前者是先对实测 数据建立数学模型,并在此基础上进一步分析随机数据的统计特 性;后者是在对实测数据统计所得的先验概率知识基础上柬分析其 统计特性。 2 1 2 几种主要的时序分析技术 当前的时序分析技术主要包括随机时序分析和状态空侧重构 等。下面,我们将对这两种主要的时序分析技术加以详细的介绍和 辽j t 程技术大学硕士学能论文 7 分搴厅。 ( 1 )随机时序分析 对时间序列数搬进行分析,扶中获墩所蕴含的关于生成时间序 列静系统戆滨铯纛箨,敬完袋对系统戆筑溅及葜泰来雩亍为瓣颓溅, 这在工程应用中具商重要的价值和意义。时间序歹h 的分析技术就起 源于对市场经济的预测。当前时间序列分析技术主强是根据概率统 计理论对融序进行分据,称为夔极霹廖努摄。 随枫时序分祈技术,就麓传统意义上的辩净分析技术。常用的 a r m a 建模就是随机时序分析技术中的一部分。随机时序分析以随 枫过程理论终为其数学基础,试图通过对时序数据送行分援,完成 对醇痔系统豹预测、建模帮控制。凌方法的基本爨怒是将掰观l 溪麴 时序作为系统的一维或多维输出,同时把模型所描述的等价系统视 为与输出网维的臼噪声驱动下产生该输出的系统。随机时序分析处 理夔对象怒线淫系统和嗣囊 线性系绫( 帮可臣转亿为凌羧系统豹 非线性系统) 的时序数据。 下面悬三种比较常用的线性时序横裂: 溪动平均模麓( m a ) ; 在m a 中,时序 溉 是由白噪声序列 8 ,) 和带有系数b o ,轨,b o 的 n 一除滤波器生成( 卷援滤波器) 其侮公式如下: x ,= b 。e 。= 6 。e ,+ 6 1 e 。+ + 6 。e ,一。( 2 一1 ) n = o 这令式子说明序列 x 0 懿当蔫 妻出窿列 e ; 觚当蠡蕊魏终长整 为n 的窗口内序列假决定。 自回归模型( a r ) : 蕺= a 。x 。+ 最( 2 2 ) m - 1 在a r 模型中,_ i 睾列 x ,) 的当前值由序列 e , 的当前值和序列 x , 的懿一令长度为赫瓣塞蜀蠹澎魏篷决是。 自阐归一滑动平均模型( a r m a ) : 辽1 j 。1 _ 程技术大学硕士学位论文8 a r m a 由a r 和m a 两个部分组成,形式如下: m x ,= a 。) c 。+ b ,g 。( 2 3 ) m - 1n = o 在a r m a 模型中,序列 x f 的当前值由序列 舀 的当前值从当前 值前推长度为n 的窗口内序列值及序列 x , 前一个长度为m 的窗口 内序列值一起决定。 经典的时序分析有以下特点: 预测内容为系统未来的全部行为: 系统模型的形式由数学表达式表达; 假定随机性为时序数据的基本特征; 以线性假设为时序分析的前提。 在一些比较简单的情况下。随机时序分析可以取得比较好的效 果。但是出于在实际应用中时间序列具有不规则、混沌等非线性特 征,使得预测系统未来的全部行为几乎不可能,对系统行为的精确 预测效果也难以令人满意,很难完成对系统的真正理想预测。 ( 2 )状态空间重构 19 8 0 年提出的时间延迟嵌入理论( t i me d e laye m bed d i i 1 9 ) 是在时间分析研究的一次突破。时间延迟嵌入理论基于微分拓扑和 动力学系统的一些思想提出,用于辨识由确定性系统产生的时序数 据,并抽取蕴含在观察数据下的系统几何特征。它由r u l 1e 和 p ack a r d 等人于i98 0 年提出,然后r a kens 在19 81 年证明了它的 第一引理,接下来由s a u ce r 等人对其进行了深化和加强。其中 t a ke ns 定理是其核心部分。他证明,在给定条件下,一个未知系 统的状态空间可以按一种特定的方式重建。 2 1 。3 时间序列分析的应用 在工农业生产中,在自然科学和社会科学的各个领域中,我们 会遇到许许多多的时间序列。对于这样诸多的时间序列进行分析, 其目的也是多种多样的。我们将时间序列分析的应用归纳为以下几 类: 辽宁1 :程技术大学硕士学位论文9 ( 1 ) 预报分析:根据对某个变化量的一段观测数据,预报该量 在未来时刻的取值,这便是预报问题。例如,人们希望通过总结 1980 年到2 00 0 年实际用电负荷量的发展规律,预报2 0 0 0 年以后 的用电量。将时间序列分析方法用于预报,是在时间序列分析的应 用中最广泛的一类应用。 ( 2 )控制分析:根据对一个量( 或若干个量) 的一段观测结 果的分析,寻求对某些量的控制措施,以达到某种最优化的目的, 这属于控制分析,或称最佳控制设计。例如我们记录了过去若小时 伺服位置控制系统的输出数据,其目的在于通过对这些数据的分 析,为系统提供某种最优化的控制方法。在近代的最佳控制设计中, 使用时间序列分析中的有限参数模型的统计分析方法,是比较常用 的方法。 ( 3 )诊断分析:根据两个不同时间序列的记录值,分析判 断它们是否具有相同属性,或者根据一个时间序列的记录值,分析 判断它是否具有某些指定的属性,这类分析称为诊断分析,也称为 识别诊断。比如,我们分析地下水位的数据序列时,如果以预报地 震为目的,则希望判断该序列是否出现异常现象。 ( 4 ) 频谱分析:根据时间序列的记录值,分析出此序列中 的周期谐波分量,或者对此序列的频率特性进行统计分析,都称为 频谱分析。比如,工作状态下机器会产生振动,由于振动的成因与 轴承或传动装置有关,因此,在振动的记录中可能包含有周期分量。 找出每个周期分量的频率及其相应的振幅,则要用到时间序列分析 中的谱分析方法。 2 1 4 时间序列问题的本质及存在的问题 从哲学意义上讲,进行预测所依据的原理有两类:基于演绎和 基于归纳。 从系统论的观点出发,时间序列可以视为系统输出的一部分, 而大部分系统内部的动力学机制是未知的,或所知信息是有限的。 因而本质上来说,时序分析是基于归纳的。时间序列分析就是对可 以获得的部分的系统输出数据进行分析,提取其蕴含的系统特性, 辽宁上程技术人学硕士学位论文 l0 构造对应的等价系统,从而完成对该系统的功能刻画,并依据相应 的模型完成对系统未来行为预测的过程。从本质上讲,时序分析仍 然是发现规律和运用规律的过程。 虽然时间序列分析技术经过近一个世纪的发展已经耿得长足 的成果,但是面对着工程中越来越复杂的情形,它仍然显现出自身 的不足。尤其是在面对复杂的应用情形时,当前时序分析技术中还 存在着不少问题。 线性时序模型的建立需要满足两个基本的假设:系统是线性的 和静态的。但是如果研究对象是现实中稍稍复杂一些的系统,这两 个假设就常常难以满足。 神经网络技术使得人们可以对一些非线性系统的行为作出预 测,这在一定程度上弥补了随机时序分析技术的不足。但是用神经 网络技术对时序进行预测时,性能还不十分稳定。另外,系统的模 型由神经网络结构及其参数隐式表达,具有透明性,因而我们对时 序系统的内部情况一无所知。还有,用神经网络进行预测存在着训 练不足和训练过度的问题。 另外,在对时间序列的预测上,无论是随机模型、相空间重构 还是神经网络,当前它们都是通过全局或者局部的拟合来进行点预 测( p o in tp red ic tio n ) 的,一般预测的结果以数据点的形式来表 示。然而,通过以后的分析我们可以看出,在面对复杂系统时,对 系统的未来状态作出基于区域的预测更合理。 2 2 数据挖掘技术 定义2 4 数据挖掘( d a t am inin g ) :就是从数据中识别出有 效的、新颖的、潜在有用的、以及最终可理解的模式的高级过程。 其中: 数据:是指一个有关事实f 的集合,它是用来描述事物有关方 面的信息,是我们进一步发现知识的原材料。 新颖:经过数据挖掘提取出的模式必须是新颖的,至少对系统 来说应该如此。模式是否新颖可以通过两个途径来衡量:其一是得 到的数据,通过对比当前得到的数据和以前的数据或期望得到的数 辽宁工程技术大学硕士学位论文 1 i 据之间的比较来判断该模式的新颖程度:其二是通过其内部所包含 的知识,通过对比发现的模式与已有的模式的关系来判断。通常我 们可以用一个函数来表示模式的新颖程度n ( e ,f ) ,该函数的返回 值是逻辑值或是对模式e 的新颖程度的一个判断数值。 潜在有用:提取出的模式应该是有意义的,这可以通过某些函 数的值来衡量。用u 表示模式e 的有作用程度,u = u ( e ,f ) 。 可被人理解:数据挖掘的一个目标就是将数据中隐含的模式以 容易被人理解的形式表现出来,从而帮助人们更好地了解数据中所 包含的信息。数据挖掘不同于以往知识获取技术的一个特点是发现 的知识是人们( 至少是领域专家) 可以理解的,如“i f then ” 的形式,因此挖掘过程也是一个人机交互、螺旋上升的过程。而以 往的方法,如人工神经网络,不论是知识发现过程还是知识应用过 程,内部都是一个近“黑箱”过程。 模式:对于集合中的数据,可以用语言来描述其中数据的特性。 只有当表达式彼列举所有中元素的描述方法简单时,我们才可称之 为模式。如:“如果股票涨幅在5 lo 之间,则认为涨幅很大” 可称为一个模式,而“如果股票涨幅为5 、6 、7 、8 、9 、 1o ,则认为涨幅很大”就不能称之为一个模式。 高级过程:数据挖掘是对数据进行更深层处理的过程,而不是 仅仅对数据进行加减求和等简单运算或查询,因此说它是一个高级 的过程。 2 2 1 数据挖掘的分类 从不同的角度出发,对数据挖掘系统术有几种分类,主要是根 据挖掘的数据库的种类、根据得到的知识分类和所使用的技术分 类。 ( 1 ) 根据数据库分类 数据挖掘所基于的数据库类型有:关系型、事务型、面向对象 型、推论型( dedec tiv e ) 、空间型、时序型、多媒体型、异质型 ( he te r p g e ne o us ) 、主动型( a c tive ) 、遗留型( 1e g acy ) 、文本挖掘 和基于网络信息的挖掘等。 辽宁一j j 程技术大学硕士学位论文 12 ( 2 ) 根据得到的知识分类 包括关联规则、特征规则、分类规则、判别( d isc rim in a n t ) 规则等的挖掘和聚类、演变( e vo lu tio n ) 分析、偏差( de via tio n ) 分析、孤立点分析和相似性分析等,此外根据所挖掘的知识的抽象 层次进行划分,可以包括原始层知识( 在原始数掘层) 、多层次知识 和高层次知识的数据挖掘。 ( 3 ) 根据所采用的技术分类 常用的数据挖掘技术有:人工神经网络、决策树、遗传算法、 粗集理论、模糊逻辑、最近邻技术和可视化。 2 2 2 数据挖掘过程 数据挖掘系统的体系结构如图2 一i 所示 数 图2 一i 数据挖掘体系结构图 数据挖掘是一个高级的处理过程,它从大量的数据集中识别出以模式 来表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之问 相互影响、反复调整。形成一种螺旋式上升过程,如图2 2 所示。数据挖 掘的过程主要包括以下四个步骤: 1 数据采集 数据挖掘的处理对象是大量的数据,这些数据般存储在数据库系统 中,是长期积累的结果。这些数据不仅是本系统的内部数据,同时也包括 辽。j 1 。i :程技术大学硕十学位论文 相关的外部数据,数据越是全面,挖掘的效果越好,可信度也越大。 2 数据预处理 数据采集的数据往往不适合直接进行知识挖掘,因为这些数据实际上 是一些“脏数据”,这些“脏数据”有以下几个特点: ( 1 ) 杂乱性:因为各个系统的数据缺乏统一的标准和定义,数据结构 差异较大。 ( 2 ) 重复性:对同一客观事物在数据库中存在其两个或两个以上完全 相同的物理描述,有信息冗余的情况。 ( 3 ) 不完整性:由于实际系统设计时存在的缺陷以及一些使用过程中 人为因素所造成的影响,数据记录中可能会出现有些数据属性的值丢失或 不确定的情况。因此,一个完整的数据挖掘系统必须包含数据预处理阶段, 它以发现任务作为目标,以领域知识作为指导,用全新的“业务模型”来 组织原来的业务数据,丢弃一些与数据挖掘目标不相关的属性,为数据挖 掘内核算法提供干净、准确、更有针对性的数据,从而减少数据挖掘内核 的数据处理量,提高了挖掘的效率,提高了知识发现的起点和知识的准确 度。 3 数据采掘 数据采掘是数据挖掘过程最关键的步骤,也是技术难点所在。研究d m 的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、 聚类、粗糙集、关联规则等等。数据挖掘根据知识发现的目标,选取相应 的算法和合适的参数,分析数据,得到可能形成知识的模式模型。 4 解释评估模式模型 采掘过程得到的模式模型,有可能是没有实际意义或没有实用价值的, 也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实 相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据 用户多年的经验,有些模式也可以直接用数据来检验其准确性。这个步骤 还包括把模式以易于理解的方式呈现给用户,因此和可视化技术相结合。 用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时 还要注意对知识做一致性检查,解决与以前得到的知识互相冲突、矛盾的 地方,使知识得到巩固。发现知识是为了运用,如何使知识能被运用也是 k d d 的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的 堑! ! :堡垫查奎堂堡主堂堕丝苎! ! 关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识 由此可能产生新的问题,而需要对知识做进步的优化。 图2 2 数据挖掘的基本过稃步骤图 以上的数据挖掘过程是一个交互式的迭代的过程,其中需由用户作出许 多选择每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整, 重新执行。 2 2 3 数据挖掘的技术和算法概述 数据挖掘的方法通常可以分为两大类:一类是统计型,常用的 技术有概率分析、相关性、聚类分析和判别分析等;另一类是人工 智能中的机器学习型,通过训练和学习大量的样品集得出需要的模 式或参数。由于各种方法都有自身的功能特点以及应用领域,数据 挖掘技术的选择将影响最后结果的质量和效果,通常是将多种技术 结合使用,形成优势互补。下面对数据挖掘中常用的决策树和神经 网络等几种技术方法进行深入讨论,包括技术的基本思想、优势与 缺点和主要应用领域。 决策树:决策树主要是基于数据的属性值进行归纳分类,常用 于分类的层次方法有“if the n ”规则。决策树方法的最大优点就 是可理解性,比较直观。其缺点是处理复杂性的数据时,分支数非 常多,管理起来难度很大。同时,还存在数据的缺值处理问题。其 算法有id 3 ,c 4 5 ,c a r t 和c h a id 等,目前出现的两种新算法s l i q 和s p r i n t 可以由非常大韵训练集进行决策树归纳,可以处理分类 属性和连续性属性。 遗传算法:遗传算法是一种全新的最佳化空间搜寻法,其最初 概念是由j o h l - 1h o l la 1 3d 于197 5 年提出,是一种基于生物进化理论 辽宁工程技术大学硕士学位论文 15 的技术,其基本观点是“适者生存”,在数据挖掘中,常把任务表 示成一种搜索问题,利用遗传算法强大的搜索能力找到最优解。具 体是模仿生物进化的过程,通过进行选择、交叉和变异遗传操作, 直至满足最优解。遗传算法已在优化计算和分类机器学习方面显示 出了明显的优势。 贝叶斯网络:贝叶斯网络基于后验概率的贝叶斯定理,是建立 在对数掘进行统计处理基础上的方法。将不确定事件通过网络连接 起来,可以对与其他事件相关的事件的结果进行预测,其网络变量 可以是可见的,也可以隐藏在训练样本中。贝叶斯网络具有分类、 聚类、预测和因果关系分析的功能,其优点是易于理解,预测效果 较好,缺点是对发生频率很低的事件预测效果不好。在医学和制造 业等领域的应用具有较好的效果。 粗糙集:该理论是波兰p a w la k 教授在19 8 2 年提出的,它是一 种新的数学工具。这一方法在数据挖掘中具有重要的作用,常用于 处理含糊性和不确定性的问题,发现不准确数据或噪声数据内在的 结构联系,也可以用于特征归约和相关分析。其主要优点就是不需 要任何关于数据的初始的或附加的信息,因此广泛应用于不确定、 不完整的信息分类和信息获取。 神经网络:神经网络是最常用的数据挖掘技术之一,最早由心 理学家和神经生物学家提出的,旨在寻求开发和测试神经的计算模 拟。它类似于人类大脑重复学习的方法,先给出一系列的样本,进 行学习和训练,从而产生区别各种样品之间的不同特征和模式。样 本集应该尽量体现代表性,为了精确地拟合各种样本数据,通过上 百次,甚至上千次的训练和学习,系统最后得出潜在的模式。当它 遇到新的样品数据时,系统就会根据训练结果自动进行预测和分 类。最大的特点是难于理解,即无法解释如何得出结果和使用了什 么规则。它需要很长的训练时间,需要大量的参数,而且解释性较 差。该算法的优点是对复杂问题能进行很好的预测,对噪声数据的 承受能力比较高,以及它对未经训练的数据分类模式的能力。神经 网络可细分为前馈式、反馈式和自组织神经网络,具有优化计算、 聚类和预测等功能,在商业界得到广泛的应用。金融市场采用神经 辽宁t 程技术大学硕士学位论文 网络建立信用卡和货币交易模型,用于识别信贷客户、股票预测和 证券市场分析等方面。 统计分析:统计分析的理论基础主要是统计学和概率沦的原 理,是一种较为精确的数据挖掘技术。它是一种基于模型的方法, 包括回归分析、因子分析和判别分析等,该方法的优点是容易理解, 对结果描述精确。统计分析在时际应用中较为广泛,著名的统计产 品供应商s p s s 公司开发了s p ss 和s ys t a t 统计软件包,同时,s a s 公司也开发出相应的产品s a s 和j m p ,这些产品都占有一定的应用 市场。 2 2 4 数据挖掘与其他技术的关系 f 1 ) 数据挖掘与机器学习 数据挖掘和机器学习都是从数据中提取知识。机器学习主要针 对特定模式的数据进行学习,数据挖掘则是从实际的海量数据源 ( 如数据仓库) 中抽取知识。由于数据挖掘处理的数据量非常巨大, 数据的完整性、一致性及正确性都难以保证,因此数据挖掘算法的 效率、有效性和可扩充性都很重要。目前开发的很多挖掘系统还属 于机器学习的范畴,在数据规模上还不能满足要求。 ( 2 ) 数据挖掘与传统的数据分析工具 传统数据分析工具主要使用基于验证的方法,而数据挖掘不但 使用基于验证的方法,还使用基于发现的方法,运用模式匹配和其 他算法决定数据之间的重要联系。验证型的数据挖掘是指用户自己 对于数据库中可能包含的知识提出假设,然后由数据挖掘系统进行 验证。发现型的数据挖掘是指由挖掘系统为用户产生假设。传统的 决策支持系统中,知识库中的知识和规则是由专家或程序人员建立 的,是由外部输入的,而数据挖掘的任务是发现大量数据中尚未被 发现的知识,是从系统内部自动获取知识的过程。对于那些决策者 明确了的信息,可以用查询、0 l a p 或其他工具直接获取,而另外 一些隐藏在大量数据中的关系趋势可以用数据挖掘实现。 ( 3 ) 数据挖掘与数据仓库 数据挖掘和数据仓库作为决策支持新技术,在近十年来得到迅 辽宁工程技术大学硕士学位论文j7 速发展。作为数据挖掘对象,数据仓库技术的产生和发展为数据挖 掘技术丌辟了新的战场,同时也提出了新的要求和挑战。数据仓库 和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促 进的,具体可概括为以下几点: 数据仓库为数据挖掘提供了更好的、更广泛的数据源。 数据仓库为数据挖掘提供了新的支持平台,数据仓库的发 展不仅仅是为数据挖掘开辟了新的空间,更对数据挖掘技术提出了 更高的要求。 数据仓库为更好地使用数据挖掘工具提供了方便。 数据挖掘为数据仓库提供了更好的决策支持,数据挖掘的 数据仓库中的数据进行模式抽取和发现知识,这些正是数据仓库所 不能提供的。 数据挖掘对数据仓库的数据组织提出了更高的要求。 数据挖掘还为数据仓库提供了广泛的技术支持。 2 3 时间序列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论