(计算机软件与理论专业论文)多相关时间序列异常模式挖掘框架的研究.pdf_第1页
(计算机软件与理论专业论文)多相关时间序列异常模式挖掘框架的研究.pdf_第2页
(计算机软件与理论专业论文)多相关时间序列异常模式挖掘框架的研究.pdf_第3页
(计算机软件与理论专业论文)多相关时间序列异常模式挖掘框架的研究.pdf_第4页
(计算机软件与理论专业论文)多相关时间序列异常模式挖掘框架的研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机软件与理论专业论文)多相关时间序列异常模式挖掘框架的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j一:-_1 at h e s i sf o rt h ed e g r e eo fm a s t e ri n c o m p u t e rs o f t w a r ea n dt h e o r y r e s e a r c ho nt h ef r a m e w o r ko fm i n i n ga b n o r m a lp a t t e r n o nm u l t i p l ec o r r e l a t i v et i m es e r i e s b yc h e ns h u o s u p e r v i s o r :a s s o c i a t e p r o f e s s o rb a oy u b i n n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 39 舢躬 伽8 枷1舢y 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 二也 思。 学位论文作者签名: 日期: 细占6 。加 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年口一年半衫两年口 学位论文作者签名:呷垫顽 签字日期:c 2 神7 午 导师龆加彩1 签字日期:加移孑7 牛 0 , 东北大学硕士学位论文 摘要 多相关时间序列异常模式挖掘框架的研究 摘要 由于数据采集、计算机技术和万维网技术的迅速发展与应用,企业或组织已建立起 来了很多整套的实时监测系统。因此企业或组织收集了大量的生产实绩数据( 可以认为 是时间序列数据) ,如何利用这些数据为企业和组织实现实时决策支持成为学术界和业 界关注的热点。实时数据仓库的提出为解决这个热点问题开辟了一条道路,主动决策又 正是实时数据仓库的直接动机。然而,主动决策面临的主要问题就是如何能够在实时地 发现异常的同时,触发报警并分析处理实现下一步预测。这与通常的异常诊断方法存在 很多差异,它是一个系统的分析方法,包括异常模式发现、异常模式分析和异常原因分 析三个部分。 因此,本文在这三部分研究的基础上提出了多相关时间序列上异常模式挖掘框架。 这对实际生产、牛活都具有相当重要的现实意义。本文以热轧工艺流程中产生的时间序 列实绩数据作为时间序列数据库的数据实例,利用统计过程控n ( s p c ) 理论在单个时间 序列上发现异常模式;然后,根据已发现的异常模式序列,运用数据挖掘中的序列模式 挖掘和关联规则分析技术挖掘己发现的这些异常模式间的关系,进而为异常模式的预测 提供依据。因此,本文主要研究了传统基于时间序列的异常诊断和分析方法,结合数据 挖掘和统计过程分析技术,给出了个分析异常模式的过程框架。其中包括基于统计过 程分析的单时间序列异常模式发现方法,和利用频繁序列模式以及关联规则发现方法, 在多相关时间序列上异常序列模式序列间的频繁模式和模式间关联关系的挖掘发现。实 验发现,该框架是可行的,并能够发现异常模式间的关系,异常模式的诊断分析提供了 依据。 该框架的一个特点就是能够分析和处理多相关的时间序列数据。而它们关注的焦点 主要集中在时间序列数据库中找到感兴趣的模式,如异常模式等。同时通过大量感兴趣 的模式数据来揭示这些时间序列数据所具有的规律,并能准确地描述数据不断衍变的趋 势。在实时数据仓库环境下,该框架可以实现主动决策。 关键词:实时数据仓库:丰动决策;统计过程控制;序列模式挖掘;关联规则;时 间序列 i i l r e s e a r c ho nt h ef r a m e w o r ko fm i n i n ga b n o r m a lp a t t e r n o nm u l t i p l ec o r r e l a t i v et i m es e r i e s a bs t r a c t a st h er a p i dd e v e l o p m e n to fd a t ac o l l e c t i n ga n dt e c h n i q u eo fw o r l d - - w i d e - w e ba n d c o m p u t e r ,m a n yc o r p o r a t i o n s a n d o r g a n i z a t i o n s h a v eb u i l tr e a l t i m es u r v e i l l a n c e s y s t e m s t h e r ec o m e i n t ob e i n gs om a n yd a t a ( c a nb er e g a r d e da st i m es e r i e s ) b yt h e m h o wt o m a k eu s eo ft h e s ed a t at oa c h i e v er e a l - - t i m ed e c i s i o n m a k i n gf o rc o r p o r a t i o n s a n d o r g a n i z a t i o n sh a sb e c o m eah o t s p o ti n a c a d e m i ca n di n d u s t i a lc o m m u n i t y t h ep u t t i n g f o r w a r do ft h er e a l t i m ed a t aw a r e h o u s i n gh a sp o i n t e do u tan e ww a y t os o l v et h eh o tp r o b l e m b r o u g h ta b o v e a c t i v ed e c i s i o n m a k i n gi sj u s ta b o u tt h ed i r e c tm o t i v e h o w e v e r , t h em a i n p r o b l e mw h e nt om a k ea c t i v ed e c i s i o n m a k i n gi sh o w t og i v ea na l a r ma n dc a l t yo u tt h en e x t f o r e c a s t i n gw h e nd i s c o v e r i n gt h ea b n o r m i t y i ti sv e r yd i f f e r e n tf r o mt h et r a d i t i o n a lw a y sf o r d i a g n o s i n gt h ea b n o r m i t y , a n di t i sa ns y s t e m i ca n a l y s i sm e t h o d i tc o n t a i n st h r e ep a r t s , n a m e l yt i d i n ga b n o r m a lp a t t e r n s ,a n a l y z i n ga b n o r m a lp a t t e r n s ,a n dt h er e a s o n s c a u s et h e a b n o r m i t y t h e r e f o r e ,t h i st h e s i sp r e s e n t sa nf r a m e w o r ko fm i n i n ga b n o r m a lp a t t e r n so nm u l t i p l e c o r r e l a t i v et i m es e r i e sw h i c hi sb a s e do nt h er e a s e r c ho nt h et h r e ep a r t sm e n t i o n e da b o v e t h e f r a m e w o r kp l a y sa ni m p o r t a n tr o l ei nt h ea c t u a lp r o d u c t i o na n dl i v e s t h i st h e s i sd e a l sw i t h t h ed a t ap r o d u c e df r o mt e c h n i c a lf l o wi 矗n o tr o l l i n ga st i m es e r i e s a n du s e st h em e a no f s t a t i s t i c a lp r o c e s sc o n t r o lt o f i n da b n o r m a lp a t t e r n si ns i n g l et i m es e r i e s ( o ri nas i n g l e 卜 东北大学硕士学位论文 a b s t l a c t c o r r e l a t i v et i m es e r i e s i tm a i n l yf o c u s e so nf i n d i n gi n t e r e s t e dp a t t e r n so v e rt i m es e r i e s ,s u c h a sa b n o r m a lp a t t e r n s ,f r e q u e n ts e q u e n t i a la b n o r m a lp a t t e r n s ,a b n o r m a lp a t t e r na s s o c i a t i o n r u l e s a tt h es a m et i m e s o ,t oa c h i e v et h ea b o v eg o a l s ,w ep r e s e n tt h ef r a m e w o r ko fm i n i n g a b n o r m a lp a t t e r n so nm u l t i p l ec o r r e l a t i v et i m es e r i e s t h ef r a m e w o r kc a nc a r r yo u ta c t i v e d e c i s i o n - m a k i n gi nr e a l t i m ed a t aw a r e h o u s i n g k e y w o r d s :r e a l t i m ed a t aw a r e h o u s i n g ;a c t i v ed e c i s i o n - m a k i n g ;d t a t i s t i c a lp r o c e s s c o n t r o l ;s e q u e n t i a lp a t t e r nm i n i n g ;a s s o c i a t i o nr u l e ;t i m es e r i e s i v 。 东北大学硕士学位论文 目录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第一章绪论l 1 1 课题研究的背景与意义1 1 2 问题提出2 1 3 解决方法3 1 4 论文组织结构4 1 5 本章小结4 第二章相关理论与技术5 2 1 实时数据仓库中的主动决策5 2 1 1 实时数据仓库的直接动机5 2 1 2 主动实时数据仓库简介6 2 1 3 主动决策的实现过程7 2 1 4 有待解决的问题8 2 2 序列模式挖掘8 2 2 1 时间序列数据概述8 2 2 2 序列模式挖掘的产生9 2 3 关联规则挖掘1 0 2 3 1 数据挖掘概述1 0 2 3 2 关联规则发现概述1 1 2 4 本章小结1 2 第三章多相关时间序列上异常模式挖掘框架1 3 3 1 领域背景1 3 3 1 1 质量数据库服务器1 3 3 1 2 质量诊断过程1 4 3 2 框架的提出15 3 2 1 框架的意义1 5 3 2 2 异常模式挖掘框架15 3 3 框架实现目标1 7 3 3 1 异常模式发现1 8 3 3 2 异常模式挖掘1 8 3 3 3 异常原因分析1 9 3 4 异常模式分析相关方法介绍及比较1 9 v 东北大学硕士学位论文目录 1 1 3 5 本章小结2 0 第四章异常模式发现2 1 4 1 传统的异常发现方法2 1 4 1 1 傅立叶建模2 1 4 1 2 异常发现方法2 1 4 1 3 相关度计算2 3 4 2s p c 算法原理2 3 4 2 1 统计过程控$ 1 j ( s p c ) 分析方法2 3 1 4 2 2 控制图原理2 4 。 4 2 3 控制图判断准则2 5 , 4 3 基于s p c 的异常模式发现算法。2 5 4 3 1 异常模式发现过程2 5 4 3 2 发现算法描述2 6 4 4 本章小结2 8 第五章异常序列模式挖掘及关联规则分析2 9 5 1 相关算法介绍及比较2 9 5 1 1g s p 算法2 9 5 1 2p r e f i x s p a n 算法2 9 5 1 3a p r i o r i 算法3 0 5 1 4 算法间比较。3 0 5 1 5 频繁模式发现3 2 5 2 基于数据挖掘技术的分析算法研究3 4 5 2 1 异常模式及原因分析过程3 4 5 2 2 单时间序列异常模式挖掘3 6 5 2 3 多相关时间序列异常模式挖掘3 8 5 3 本章小结3 8 第六章框架实现及结果分析3 9 6 1 框架实现背景3 9 6 1 1 实验的硬件条件3 9 1 6 1 2 数据准备与预处理3 9 6 2 异常模式诊断的具体实现4 0 6 2 1 改进后常规异常诊断4 0 6 2 2 基于s p c 的异常模式发现4 2 6 3 异常模式预测的具体实现4 3 6 3 1a l p h a m i n e r 数据挖掘平台简介4 3 6 3 2 异常模式预测的实现过程4 4 v i 东北大学硕士学位论文 目录 6 4 结果评价4 5 6 4 1 框架诊断结果的评价指标4 5 6 4 - 2 异常模式发现的异常结果4 5 6 4 3 异常模式挖掘结果4 8 6 5 本章小结4 8 第七章结束语4 9 7 1 工作总结4 9 7 2 未来研究方向5 0 参考文献5 3 致 射5 7 攻硕期间参加的项目及发表的论文5 9 v i i 东北大学硕士学位论文 第一章绪论 第一章绪论帚一早珀了匕 随着企业和组织的信息化建设的不断深入,企业或组织已收集了大量的数据,利用 数据仓库技术( d a t aw a r e h o u s i n g ) 和联机分析处理技术以及数据挖掘技术为决策者提 供了定量化的决策依据。数据仓库系统已经成为企业和组织生产经营决策不可或缺的辅 助工具。数据仓库经过多年的发展,其技术也日趋成熟,己在商务活动中发挥重要的作 用。数据仓库不是为了存储数据,而是为决策支持及更好地组织企业内所有可能收集到 的数据。 1 1 课题研究的背景与意义 实时数据仓库【1 1 是主动的、动态的数据仓库,它整合了数据仓库和业务系统,提 供随需应变的业务。实时数据仓库为诸多企业业务处理过程带来好处,例如:收益管理、 反欺诈、商务活动监控、业务流程管理等。研究实时数据仓库的最直接的动机就是辅助 进行实时决策。t d w h 系统中,是用户触发分析应用,或者是在更新批处理完成后触 发报警分析处理。例如,如果库存量小于最低的警戒库存域值,则以某种方式( 如e m a i l ) 向用户报警。在实时数据仓库中,数据连续地到达或者以更短的周期进行更新,因此可 以进行实时或近实时地监控事件的发生。需要研究实施监控的触发机制、触发规则管理、 触发时机选择等。 时间序列【4 1 数据是实时数据仓库中最常见的数据形式之一,对时间序列数据进行分 析,可以揭示事物运动、变化和发展的内在规律,对于人们正确认识事物并据此作出科 学的决策具有重要的现实意义。在对热轧控制领域的多个数据流( 如各种温度数据和指 标数据) 进行分析时,经常希望能够发现不同变量时间序列间可能存在的关联关系,这 种关联关系一般表现为不同流中频繁地同时或依次出现的变化模式。发现这种多时间序 列中的频繁结构模式对于人们认识热轧控制系统内在的相互影响并据此作出合理的决 策具有重要的参考价值。时间序列是由某个物理量在不同时间点的采样值按照时间次序 排列而组成的序列。如钢厂每天的精轧出口温度数据、每天的卷曲温度数据、以及每天 的宽度与厚度数据等都是数据流。对时间序列的发展趋势进行预测,在实际应用中具有 极为重要的意义。对这一问题的研究,已经有了许多类似的方法,如应用于时间序列的 回归方法、神经网络方法、机器学习方法等等。基于关联规则分析的方法是一种近年来 发展起来的新方法。对于时间序列的分析往往涉及到多个变量。关联知识反映一个事件 东北大学硕士学位论文第一章绪论 和其它事件之间的依赖或关联。数据库中的数据一般都存在着关联关系,也就是说,两 个或多个变量的取值之间存在某种规律性。数据库中的数据关联是现实世界中事物联系 的表现。多变量时间序列的关联规则挖掘问题,可以分为以下两类: ( 1 ) 多相关时间序列的事务内序列模式挖掘; ( 2 ) 多相关时间序列的跨事务序列模式挖掘。 此外,序列模式挖掘( s e q u e n t i a lp a t t e r n sm i n i n g ) t s 是a g r a w a lr a k e s h 等人首先提出 的一种重要的数据挖掘方法,有着广泛的应用,如顾客购物习惯、w e b 访问模式、科学 实验过程分析、自然灾害预测、疾病治疗、药物检验以及d n a 分析等。序列模式挖掘 的基本算法及早期算法都是基于关联规则挖掘的a p f i o d 性质的,即频繁模式的非空子 模式都必须是频繁的。a p r i o r i a l l ,a p r i o r i s o m e ,d y n a m i c s o m e ,g s p 以及s p a d e 等一 系列算法都是基于a p r i o r i 算法提出来的;此后,基于数据投影( d a t a p r o j e c t i o n ) 的算法由 于它的高效率而广为流行,如f r e e s p a n 和p r e f i x s p a n ;s p a d e 是一种基于格的算法,而 m e m i s p 是基于内存索引的方法;s p i r i t 使用正则表达式综合了挖掘中的各种约束 ( c o n s t r a i n t s ) 条件。 1 2 问题提出 多变量时间序列上的异常模式挖掘归属数据挖掘的范畴。对于该问题的研究主要包 括:( 1 ) 通过对数据进行分段线性表示来压缩元模式种类,再根据斜率、总体偏差等提 取异常模式,最后利用模式匹配算法来对异常模式集进行更新实现实时性。( 2 ) 通过支 持向量的理论来对数据进行多维映射,实现聚类,将相似的数据归结于一个模式,然后 再对这些模式进行分析找出异常模式。( 3 ) 通过滑动窗口来控制检测数据的周期,对每 个周期内的数据进行分析,按照定义好的各项指标来提取异常模式,为下面找出相邻滑 动窗口模式之间的关联规则作准备。( 4 ) 运用序列模式挖掘的方法,即挖掘频繁出现的 有序事件或子序列。序列模式挖掘问题是由a g r a w a l 和s f i k a n t 在1 9 9 5 年 a s 9 5 基于对 消费者的购买序列首先提出的。使用序列模式挖掘方法需要首先定义好异常模式挖掘的 算法,然后再通过g s p 、s p a d e 、p r e f i x s p a n 等序列模式挖掘算法进行序列模式挖掘。 热轧控制中传统的异常诊断方法就是通过对热轧过程中产生的精轧出口温度、卷曲 温度、宽度、厚度等数据分析,通过计算获取这些数据的各种统计数据,如公差范围、 命中率、相关系数等,并将这些统计数据作为异常的判断准则。此外,还将控制模型作 为指导,根据实际生产情况来改变各项控制参数以实现更加准确地诊断出异常,这些异 常代表着不同方面的影响,如操作原因、设备原因、控制原因等。在以往轧制过程中, 一2 东北大学硕士学位论文 第一章绪论 异常原因诊断的准确性受到传统诊断方法的局限,传统诊断方法严格地定义了不同方面 异常的规则,通过对不同类型数据进行分析,判断每种类型数据是否异常,从而得出究 竟是操作、设备、控制中哪个方面异常的结论。然而,传统的异常诊断方法忽略了异常 原因的不确定性和复杂性。实际上,在轧制过程中很多异常情况大都由多个原因引起, 每个原因之间存在着相互关联的关系,它们的这些关联关系大都由生产流程和控制模型 所决定。因此,如何能更加准确地找出异常模式、预测未来可能发生的异常模式并能更 加全面地分析出导致异常的原因具有重大的现实意义。 1 3 解决方法 热轧工艺流程产生的精轧出口温度数据及卷曲温度数据等都是时间序列型数据,这 些数据所体现出来的特点,如公差范围、递增或递减趋势、半公差范围内连续点数目等 都可以作为异常模式的判断准则。此外,还可将领域知识作为指导,运用序列模式挖掘 的方法来抽取异常模式序列,这些异常模式序列中包含着不同方面的影响,如操作原因、。 设备原因、控制原因等。同时,序列模式挖掘方法能够充分考虑到时间序列型数据的时 序性。所以,通过序列模式挖掘我们可以得出各个异常模式之间的时序关联关系,从而 实现对异常模式【6 7 】的预测。 由于s p c ( 统计过程控制) 理论被诸多专家证实在控制领域有着得天独厚的优势。因 为控制数据变化过于频繁,而且数据量很大,很难找到周期性的规律,而s p c 理论并不 强调数据的规律性,它从控制稳定的角度来进行统计从而找到异常模式。通过序列模式掣 找出这些异常模式之间的关联关系可以帮助现场工程师在查出出错原因的同时还能对 接下来可能出现的异常进行预测,从而保证决策的准确性。根据抽取出来的这些序列模 式可以帮助现场工程师发现那些潜在的错误原因,尽量地降低损失。然而,对于单变量 时间序列来说,序列模式挖掘方法能够很好地实现异常模式的预测。但是对于多变量间 时间序列异常模式预测,如将精轧出口温度、卷曲温度、宽度、厚度等指标放在一起进 行预测时,序列模式挖掘方法将耗费很多时间,这就违背了实时性,无法有效地实现实 是数据仓库的主动决策。因此需要运用关联规则【8 9 】的方法来实现多变量时间序列异常模 式预测。 除了异常模式的诊断和预测,我们还要更加全面地分析造成这些异常模式的原因。 首先可以通过领域知识来确定一些分析异常原因的规则,这些规则可以作为分析原因的 依据。此外,我们还可以利用前面异常模式预测的结果更加深入地确定异常原因。 - 3 东北大学硕士学位论文第一章绪论 1 4 论文组织结构 全文通过七个章节围绕着所提出的多相关时间序列上异常模式挖掘框架来展开,主 要集中介绍框架的意义,内容和实现目标,此外还着重介绍了统计过程控制,序列模式 挖掘和关联规则分析等相关理论在框架中的应用,最后结合相关理论方法对框架进行实 现并进行结果分析。具体结构如下: 第一章,绪论。主要介绍时间序列异常模式挖掘研究的背景、意义和现状,问题提 出以及解决方法。 第二章,论文的相关理论与技术。本章首先介绍了实时数据仓库中主动决策的相关 知识,将实时数据仓库的直接动机与课题目标相结合。然后介绍了本框架当前研究的一 些理论成果,即时间序列上异常模式挖掘的一些热门方法,如序列模式挖掘和关联规则。 第三章,多相关时间序列上异常模式挖掘框架。本章首先介绍了课题的背景支持, 之后结合研究背景提出了多相关时间序列上异常模式挖掘的框架,介绍了框架的意义和 基本内容。最后提出了本框架所要实现的目标,并将该框架与一个典型的方法进行比较。 第四章,异常模式发现。本章首先介绍了传统的缺陷诊断方法,之后讲解了s p c 控制图原理及其在异常诊断方面的应用。之后详细介绍了基于s p c 的异常模式发现算 法。 第五章,异常模式挖掘及关联分析。本章在基于s p c 异常模式发现的结果之上来对 这些异常模式进行分析。首先运用序列模式发现方法分析单个时间序列,之后运用关联 规则分析多相关时间序列间的关系。 第六章,框架实现及结果分析。本章首先介绍框架的实现背景,之后结合背景知识 来对异常模式诊断、异常模式预测的具体实现过程进行详细说明。在本章最后给出了异 常模式诊断、异常模式预测和异常原因分析的结果评估。 第七章,结束语。总结本文的主要工作,并对未来研究方向作出展望。 最后是参考文献、致谢以及研究生期间参与项目和发表论文情况。 1 5 本章小结 在这一章中,我们对课题的研究背景与意义进行介绍,提出了需要解决的问题。通 过对问题的叙述,我们又给出了相应的解决方法。最后介绍了本文后续章节的组织结构, 第二章介绍了论文的相关理论与技术,第三章提出了多相关时间序列异常模式挖掘框 架,第四章阐述异常模式发现。第五章叙述异常模式挖掘及关联分析。第六章展示框架 实现及结果分析。第七章是结束语,总结全文。 4 东北大学硕士学位论文第二章相关理论与技术 第二章相关理论与技术 本章将讨论多时间序列上异常模式的相关的理论和技术,主要包括实时数据仓库技 术,序列模式挖掘技术,关联规则挖掘方法等。 2 1 实时数据仓库中的主动决策 2 1 1 实时数据仓库的直接动机 数据仓库【lo 】经过多年的发展,其技术日趋成熟,在当今信息社会中发挥着重要作用。 但在应用中也暴露出一些问题,主要体现在两方面:( 1 ) 数据的更新问题。首先是缺乏 实时性。其次是数据更新的主动性问题。( 2 ) 数据仓库的使用范围和应用领域狭窄。针 对传统数据仓库的以上不足,现在开始提出了实时数据仓库的有关理论和技术。 实时数据仓库( r e a l t i m ed w ) l 】是数据仓库技术的一个新的发展方向。其理论还未 成熟,也没有公认的严格定义。本质上实时数据仓库仍然是数据仓库,它的最大特征是实 时性,主要体现在数据仓库中数据的实时性变化上。我们可以这样理解实时数据仓库是这 样一个系统只要系统中的事件如超市中商品的销售行为完成产生了数据,这些数据就可 以立即被实时数据仓库捕获,并变得可用。与传统数据仓库的“快照”形式不同,实时数据 仓库中的数据能够同步的反映业务系统中数据的变化,从而及时做出相关分析和决策。 显然这非常有利于企业抓住瞬息万变的市场变化,在竞争中处于有利地位。除了实时数 据仓库这一概念外,目前还有一些近似的概念,如动态数据仓库、主动数据仓库等。主 动数据仓库主要强调了新一代数据仓库中数据更新和决策支持方面的主动性动态数据 东北大学硕士学位论文 第二章相关理论与技术 图2 1 所示为丰动实时数据仓库的框架模型。虽然,在实时数据仓库中关键技术在 于实现数据的实时更新,然而研究实时数据仓库的最直接的动机就是辅助进行实时决 策。因此在所有t d w h 系统中,都是用户触发分析应用,或者是在更新批处理完成后 触发报警分析处理。例如,如果库存量小于最低的警戒库存域值,则以某种方式( 如 e m a i l ) 向用户报警。在实时数据仓库中,数据连续地到达或者以更短的周期进行更新, 因此可以进行实时或近实时地监控事件的发生。需要研究实施监控的触发机制、触发规 则管理、触发时机选择等。 2 1 2 主动实时数据仓库简介 对于数据仓库的定义,许多人提出了不同的看法,目前,大家公认的数据仓库创始 人w h i n m o n 在他所著建立数据仓库一书中对数据仓库所下的定义为:数据仓库 就是面向丰题的、集成的、不可更新的、随时间不断变化的数据集合,用以支持经营管 理中的决策支持制定过程。数据仓库具有下面四个特征。 ( 1 ) 数据仓库是面向主题的; ( 2 ) 数据仓库的数据是集成的; ( 3 ) 数据仓库的数据是不可更新的; ( 4 ) 数据仓库的数据是随时间不断变化的。 数据仓库不同于数据库,它并非一个现成的产品,而是一个综合的解决方案。它是 对原始的操作数据进行各种处理并转换成有用信息的处理过程,主要用来帮助有关主管 部门做出更符合业务发展规律的决策。 然而主动实时数据仓库【1 2 1 中所说的“实时是指减少数据产生到数据可用之间的延 迟,传统的以批处理方式周期性更新的数据仓库系统的数据可用性延迟最少是2 4 小时 ( 即以一天作为更新周期) ,而实时数据仓库中尽可能减少这种延迟,但是做到零延迟 是不可能的。因此,实时数据仓库是一种近实时( n e a rr e a l t i m e ) 系统【1 3 】。即在用户 发出分析查询时,在其之前发生的行为产生的数据应该可用,这样一次查询分析可以利 用到目前为止最新的数据。 传统的数据仓库( t r a d i t i o n a ld a t a w a r e h o u s e ,t d w h ) 定义认为数据仓库是面向主 题的、集成、持久的、随时间而改变的,只追加新记录和归档过时的数据,而不会频繁 地更新记录。传统的数据仓库假设: ( 1 ) 数据仓库中的数据除了在夜间加载更新时是静态的不变的; ( 2 ) 其中的e t l 工具是在给定的时间窗内( 如凌晨0 :0 0 6 :0 0 点) 执行更新处理, 而不必担心破坏用户的主动查询会话,因为假设这期间用户不会执行查询分析操作: - 6 东北大学硕士学位论文 第二章相关理论与技术 ( 3 ) 前端的查询工具假设在运行一个需要执行多次s q l 语句的复杂查询时,数据 仓库中的数据是不会在其执行到中间时发生变化的,因此前端查询工具可以采用缓冲技 术提高查询执行效率。 按照对反应时间的要求,所谓的实时可以分为真正实时和近似实时两种。这里所说 的反应时间是指业务系统中事件的完成时间和该事件的数据在数据仓库中可利用时间 之间的延迟。真正实时情况下,反应时间以秒甚至毫秒为单位,然而当可以忽略不计在 近似实时情况下,反应时间是一段时间,以分钟为单位。根据数据实时性要求的不同, 可采用不同的更新策略。 ( 1 ) 以传统的e t l 为基础,只是把周期尽量缩短。这并非真正的实时更新技术, 只是模拟了实时效果。这种方法的缺点是消耗时间和资源的代价很大。适用于实时性要 求比较低或业务系统不太繁忙的情况。 ( 2 ) 对第一种策略进行改进,每次只更新上次更新后发牛变化的数据。这种增量 更新使每次更新的数量大大减少,更新周期可以进一步缩短而不至于严重影响系统的性 能。实时性比第一种策略高。 ( 3 ) 程序监控在应用程序中编写专门的线程,监控源数据库中的数据变化,一旦捕 获到感兴趣的数据变化,就启动数据仓库的更新操作。 ( 4 ) 建立触发机制。当某一业务事件完成,数据源中的数据发牛变化时,触发器 立刻负责数据仓库中有关数据的更新。这种方法也可以称为事件驱动机制。 ( 5 ) 通过源数据库上的应用程序来实现数据仓库的实时数据更新。 1 2 1 3 主动决策的实现过程 主动实时数据仓库模型,如图2 1 所示。其中主要的模块如下: ( 1 )实时监控模块:体现系统实时性的关键模块,主要通过e a i 平台提供的实时 数据交换,通常以事件触发的形式来主动获取数据,即一旦有事务发生并产生操作型数 据,该模块立即将新增的操作数据传送到o d s 中。 ( 2 )数据集成模块:数据集成模块是该体系架构的核心模块,o d s 贝j j 是它功能的 核心体现。它介于操作数据存储和数据仓库存储之间的一个过渡性存储区域,通常用于 存放从数据源中抽取出的操作数据,并对操作数据进行整合、转换等清洗工作,因此可 看作数据仓库的数据准备区。分析工作可在增强功能的o d s 直接进行,这样不仅节省了 数据进入数据仓库的传输时间,同时还省略了数据转换等复杂步骤。 ( 3 )数据存储模块:指常规意义的数据仓库系统,主要用于存放历史数据来进行 常规分析,同时该模块也负责接收实时数据,并将其与已有历史数据进行归档保存。 - 7 一 东北大学硕士学位论文第二章相关理论与技术 实时分析模块:该模块主要包括各种分析工具和展现工具,如o l a p 工具、数据挖 掘工具等。 2 1 4 有待解决的问题 然而,实时数据仓库技术打破了这些潜在的规则,并挑战上述假设。所以实时数据 仓库的实现面临下面的几个挑战: ( 1 ) 数据的捕获和传递加载。t d w h 中的e t l i 具不论是购买的工具还是自编程 实现的,都是在前端分析停止时以批处理的方式运行的,通常是以天或周为周期。 r t d w h 中认为的实时是,在不中断用户对系统的访问的情况下,一天内对所有或部分 数据进行了更新、加载或刷新。 ( 2 ) 数据建模问题。例如,数据仓库中的数据一般在时间维上进行了不同粒度的 聚集。这样可能产生聚集数据与实时数据不同步的情况。数据建模的最丰要的问题是实 时数据是否需要存储,并且如何将实时数据与数据模型的其它部分连接。 ( 3 ) 实时性对前端分析工具的影响,造成分析结果的不一致。在一个复杂的需要 执行多个s q l 语句的运行过程中更新了数据,致使分析的开始和中间乃至结束时针对 的基本数据不一致。 ( 4 ) 查询竞争( q u e r yc o n t e n t i o n ) 和可扩展性问题。在r t d w h 中,前端分析工 具对数据表的读和后端更新部件对相同数据表的写操作导致对同一个数据表的操作竞 争问题。 ( 5 ) 按需报警。t d w h 中只有在晚上数据仓库更新结束之后,才通过e m a i l 发布报 警信息,而在r t d w h 中有了可用的实时数据后,就需要及时报警。 针对上述的挑战和问题,许多学者和公司已经关注实时数据仓库构建中的相关问 题,但是不够系统。因此,针对实时数据仓库构建中需要解决的问题,以及现有研究的 不足提出本课题研究计划。本课题将深入研究实时数据仓库构建中的主要技术问题,主 要包括:实时数据仓库系统的服务质量( s e r v i c eo f q u a l i t y ,q o s ) 的衡量、r t d w h 的 体系结构、r t d w h 的建模方法、变化数据的捕获与集成机制、数据仓库端更新机制和 策略、查询竞争协调和前端分析结果的一致性、以及主动决策支持等。 2 2 序列模式挖掘 2 2 1 时间序列数据概述 所谓时间序列( t i m es e r i e s ) 数据就是按照时间的先后顺序,排列各个观测记录的 - 8 - 东北大学硕士学位论文第二章相关理论与技术 数据集。时间序列数据库是指由随时间变化的时间序列值或事件组成的数据库。时间序 列数据挖掘问题,就是判断所给定的两个数据时间序列的变化趋势是否相似,或者是指 从一个较长的源时序数据时间序列中,寻找出其中有意义的时序数据模式。 本文丰要论述时间序列数据的模式挖掘问题,我们可以把时间序列数据模式看作是 关联规则考虑时间因素后衍生出的,时间序列在社会生活的各个领域中都大量广泛存 在,如控制模型中每天控制参数的变化,某一地区的每天气温与气压的计数以及在牛物 医学中,某一症状病人在每个时刻的心跳变化等等。不仅如此,时间序列也是反映事物 运动、发展、变化的一种最常见的图形化描述方式。然而我们应该注意到时间序列不仪 仪是对历史事件的记录,展现事物变化的方式。随着时间推移和时间序列数据的大规模 增长,如何对这些海量的时间序列进行分析处理,挖掘其背后内涵的价值信息,这对于 我们揭承事物发展变化的内部规律,发现不同的事物之间的相互作用关系,为人们正确 认识事物和科学决策提供依据等等具有重要的实际意义。因此有关时间序列分析的研究 一直以来就受到了许多研究人员的广泛重视,成为一个具有重要理论和实用价值的热点 研究课题。 2 2 2 序列模式挖掘的产生 序列模式的挖掘就是在一个序列数据库中挖掘频繁出现的有序事件或子序列,这是 一个重要的数据挖掘问题,在很多领域都有广泛的应用,包括顾客购买模式或w e b 访 问模式分析,有先后次序或与时间相关的过程如科学实验,天气预报,网络入侵检测, d n a 序列的分析等等。 序列模式挖掘【1 4 1 问题最先是由a g r a w a l 和s r i k a n t 在1 9 9 5 年,基于对顾客购买序列 的研究提出的,这个问题可以简单描述如下:给定一个序列的集合,其中每个序列由事 件( 或元素) 的一个有序列表组成,而每个事件都由一个项集组成,给定用户指定的最小 支持度阂值r a i ns u p ,序列模式的挖掘就是找出所有的频繁子序列,即,在序列集合中 出现频率不小于m i ns u p 的子序列。 。 序列模式的挖掘算法可分为两大类: ( 1 ) 候选产生测试的方法; (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论