(模式识别与智能系统专业论文)基于互信息网络模型的冰雹回波时间序列知识发现.pdf_第1页
(模式识别与智能系统专业论文)基于互信息网络模型的冰雹回波时间序列知识发现.pdf_第2页
(模式识别与智能系统专业论文)基于互信息网络模型的冰雹回波时间序列知识发现.pdf_第3页
(模式识别与智能系统专业论文)基于互信息网络模型的冰雹回波时间序列知识发现.pdf_第4页
(模式识别与智能系统专业论文)基于互信息网络模型的冰雹回波时间序列知识发现.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 冰雹是影响人类生产生活的主要气象灾害之一,由于其具有突发性强、移动 迅速、生命时期短等特点,给人工预报带来了很大困难。因此,实现基于多普勒 雷达图像的冰雹回波预警系统,可以有效的预防冰雹灾害,最大限度地减轻冰雹 给工农业生产带来的损失。 本文在构建雷达回波时序特征数据库的基础上,将互信息网络模型首次进行 了冰雹回波时间序列的知识发现,获取了潜在的有用的知识,并利用知识发现的 结果规则,预测了冰雹回波时间序列的未来行为,实现对冰雹回波的预报, 达到了警示效果。 本文主要涉及以下几方面工作: ( 1 ) 构建雷达回波时间序列数据库。利用数字图像处理技术,提取、计算雷 达图像中感兴趣回波的颜色、纹理和形状特征,保存到传统数据库中,讨论并分 析了专门数据库的不同构建方法,在此基础上,把现有的数据库重组成时间序列 数据库,为冰雹回波的预测研究提供了底层数据源。 ( 2 ) 实现了基于多层次互信息网络模型的知识发现方法。利用信息论中互信 息的概念和意义,以雷达回波时间序列数据库为数据基础,计算事件集的先验熵 ( 独立事件集信息量) 和后验熵( 条件信息量) 之间的差( 即互信息) ,以此来检测输 入属性和目标属性之间的关联程度,逐层构造和控制网络的结构,从而挖掘出冰 雹产生、发展过程的关联规则。 ( 3 ) 对挖掘的结果进行优化,获取简约规则,形成知识库,并利用知识库实 现了对冰雹回波的预测。实验结果及理论分析表明,该算法能有效地标识出雷达 图像中冰雹回波区域的发展过程。 综上所述,本文的研究可以有效的预测、识别出冰雹回波的产生过程,并能 在一定程度上满足实际应用的需求,为多普勒雷达冰雹回波预警作出了贡献。 关键词:时间序列数据库互信息知识发现冰雹回波预报 a b s t r a c t h a i l s t o n ei sam a i nd i s a s t e ri nt h em e t e o r o l o g i c a la r e a ,w h i c ht h r e a t st ol i f ea n d p r o p e r t y b e c a u s et h eh a i le c h o e sa r i s e ss u d d e n l y ,m o v e sf - a s ta n dd i s s i p a t e sv e 巧 q u i c k l y ,i ti sd i m c u l tt of o r e c a s t s ot h er e s e a r c ho nh a i l s t o n ee c h oa u t o m a t i cf o r e c a s t s y s t e mc a ne f f e c t i v e l yr e d u c et h ed a m a g eo ft h eh a i l s t o n e t h i sp a p e ri n 仃i d d u c e dt h ea p p r o a c ht ok n o w l e d g ed i s c o v e 巧i nt i m es e r i e s d a t a b a s e ( t s d b ) ,w h i c hb a s e do nm u t u a li n f o r n l a t i o no fs h a n n o n si n f o m a t i o n t h e o 巧a n dt h er a d a re c h o e st s d b t h er e s u l t so fi m o w i e d g ed i s c o v e 叫i nt s d bc a n b eu s e dt op r e d i c tt i m es e r i e sb e h a v i o ri nt h ef u t u r e ,a n dw a sp r e s e n t e dt ot h ef o r e c a s t o f h a i le c h o t h em a i nw o r ko ft h e p a p e ri n c l u d e d : ( 1 ) 1 1 1 er a d a re c h o e st s d bw a sc o n s t r u c t e d a c c o r d i n g t 0 d i g i t a li m a g e p r o c e s s i n gt e c h n i q u e s ,t h ef e a t u r e so fc o l o r ,t e x t u r ea n ds h a p ew e r ee x t r a c t e da n d c a l c u j a t e df 而mt h er a d a ri m a g e ,a n dt h e nt h ef e a t u r e sw e r es t o r e di f lt h eg e n e r a t e d a 胁b a s e o nd i s c u s s i n ga n d a n a l y z i n gt h ed i 行:r e n tc o n s t r u c t i o no fs p e c i a ld a t a b a s e , t i m e - s e r i e sd a t a b a s ef 而mg e n e r a ld a t a b a s ew a sr e m o d e l e d ,w h i c hp r o v i d e st h ed a t a r e s o u r c et ot h er e s e a r c ho ft h eh a i je c h of - 0 r e c a s t ( 2 ) t h ec o n s t m c t i o no fm i n mw a sd e t a i l e d ,w h i c hi su s e dt od i s c o v e rk n o w l e d g e u s i n gt h ec o n c e p to fi n f o n n a t i o nt h e o ua n dm u t u a li n f o m l a t i o n ,c a l c u l a t e dt h e d i 琢:r e n c eb e t 、e e np r i o r ia n dp o s te n t r o p yt od e t e c tt h ea s s o c i a t i n gd e g r e eb e t w e e n i n p u ta t t r i b u t e sa n dt a 唱e ta t t r i b u t e s ,w h i c hc o n t r o l st h en e t w o r kc o n n g u r a t i o n t h e n e 觚o r kc a nb eu s e dt od e d u c ta s s o c i a t i n gm l e so f p r o c e s so fh a i l s t o n e ( 3 ) w i t ht h eo p t i m i z a t i o no fr u l e sw h i c hw e r eo b t a i n e df i r o m ( 1 a t am i n i n g ,a n 印p r o a c ho fa u t o m a t i ch a i le c h of o r e c a s tw a sp r o p o s e da n di m p l e t t l e n t e d t h e o r e t i c a l a n a l y s i sa n de x p e r i m e n ts h o w e dt h a tt h i sm e t h o dw a sa b l et of o r e c a s tt h eh a i le c h oo n t h er a d a ri m a g ee f r e c t i v e l y i nc o n c l u s i o n ,t h er e s e a r c ho ft h i sp a p e rc a nb ea p p l i e dt ot h ep r a c t i c a is i t u a t i o n s , a n dh a sm a d eg r e a tc o n t r i b u t i o nt ot h eh a i l s t o n ea u t o m a t i cf o r e c a s ts y s t e m k e yw o r d s :t i m es e r i e sd a t a b a s e ,m u t u a l i n f o 册a t i o n ,k n o w l e d g ed i s c o v e 巧, h a i le c h of o r e c a s t 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他入已经发表 或撰写过的研究成果,也不包含为获得苤盗盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 1 磊 签字日期:加艿年f ;月多日 学位论文作者签名: l 馏 签字日期: 秒6 年多月乡日 学位论文版权使用授权书 本学位论文作者完全了解墨鲞盘堂有关保留、使用学位论文的规定。 特授权:叁盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: l 兹 签字日期:2 8 年占月么日 导师签名:耖荔 签字日期:埘年月石日 第一章绪论 1 1 课题意义及选题背景 第一章绪论 信息技术的发展使收集、存储数据的能力迅速增长。数据管理技术的进步, 促进了现代化的社会生产和科学研究搜集大量数据和重要信息,特别是i n t e r n e t 兴起后,互联网上的信息更是按指数速度增长。为了管理这些数据,大型数据库 正在被广泛应用于商业和科学工程领域。而这些存储在数据库中的海量历史数 据蕴藏着大量未知的有价值的信息,这些重要的信息可以很好地支持人们的决策 2 o 数据库技术的进步使数据的收集和存储变得越来越容易,但是数据规模的爆 炸性增长,远远超出了人们的直观理解能力。同时,许多政府部门和企业都保存 了带有时间标识的数据( 即时间序列数据) ,这些数据通常属于高维、非结构化 数据,并可能受到噪声污染。目前,数据库系统对时间序列数据所能做到的只是 存储,通过这些复杂的存储数据所获得的信息量仅仅是整个数据库所包含的信息 量的一部分,隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的 描述和对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值 船1 。因此,研究如何有效地从这些海量时间序列中自动抽取隐含的和潜在有用的 重要信息,具有重要的理论价值和现实意义。 数据挖掘是知识发现过程中的重要步骤,是从大量的历史数据中提取和挖掘 知识的过程。数据挖掘被定义为从大型数据库中提取未知的、有效的和可操作的 知识,并为企业决策提供支持。数据挖掘能够发现未知的知识,这是与那些先 提出假设再进行验证的数据处理方法的主要区别。数据挖掘技术正日益得到各界 的重视并被广泛应用于各个领域睁 ,涉及生物医学、d n a 分析、金融数据的分析、 零售业和客户关系管理等。 时间序列数据是按照时间顺序取得的一系列观测值。在诸如经济、商业、自 然科学和社会科学等领域中,很多数据都是以时间序列的形式存在的。时间序列 数据库随3 是一种专门的数据库,它能够实现对时间序列数据的存储和操作,包括 对序列的选择、投影、连接以及对序列的各种查询操作。时序数据库使得对序列 数据的管理更加高效,对数据的操纵和查询变得更加容易。 时间序列数据挖掘曲3 是发现时间序列模式的过程,旨在研究时间序列中所隐 含的变化模式,包括序列的趋势分析、序列模式挖掘、周期模式挖掘以及时间序 第一章绪论 列的相似性查询等。 本文为与天津市气象局合作项目“京津冀冰雹雷达回波自动识别 的重要组 成部分,利用时间序列分析方法,对时序数据进行处理,在普通数据库的基础上 构建时间序列数据库,并用时间序列数据库挖掘技术对冰雹回波特征属性进行数 据挖掘,发现潜在的隐含的冰雹回波特征与冰雹回波的形成规律,从而形成判断、 预测冰雹回波的规则。这既可以自动识别冰雹回波,也为冰雹回波的预测提供了 方法,从而达到警示的作用,是一项具有挑战性和有发展前途的工作。 1 2 国内外研究现状 1 2 1 知识发现和数据库技术现状 一般来说,知识发现的目标就是为了支持决策,数据库的进一步发展目标也 是为了提供支持决策。这几年,随着数据库技术的飞速发展,用来支持决策的大 型数据库已经成功地应用到许多行业中,如制造业、零售业、金融业、运输业、 电信业等等。 用于知识发现的时间序列数据库应该具有如下特点:有目的的,随时间变化 的和稳定的,并提供在线分析和决策支持n0 儿1 。数据库应该长期保存历史的、多 粒度的和经过加工整理的数据,这样就使数据库的容量可能达到上百g ,相应的, 需要提供浏览、连接、聚集等更加复杂的存取和搜索方法。这些功能大部分都能 由现有的数据仓库实现,但是,在对时间序列进行知识发现中很重要的一个步骤 数据过滤和滤波,数据仓库并不能提供很好的、与知识发现目标相一致的方 法h 2 1 。因此,我们选用专门时间序列数据库,它通过对一般的关系数据库的重新 组织很容易实现,这将在第三章看到。 知识发现工具是对数据库进行查询分析的前端工具。从数据库中发现信息和 知识并不是个新的领域,己经被许多公司所接受和认定为对于管理、决策成功的 重要领域u 3 。1 5 1 。 随着数据库中数据的急剧增长,其中隐藏着越来越多的能够为用户提供参考 的知识,然而,这些隐藏的信息并不能由传统的统计方法解决。其有效的解决办 法就是知识发现。数据库知识发现技术揭示隐藏在数据库中的信息,这些信息( 如 趋势、关联规则n 6 1 ) 可以用来提高决策的有效性。因此,知识发现已经成为一个 越来越重要的研究领域。 2 第一章绪论 1 2 2 时间序列分析研究现状 传统的时间序列分析方法,主要集中于时间序列数据的建模、滤波和预测等 问题,并取得了许多重要的成果,这在实际应用中发挥了重要的作用。但是,面 对时间序列数据库的充分应用以及知识发现提出的新需求,传统的时间序列分析 方法还是远远不能满足要求,存在着如下种种不足口 : 1 、缺乏对时间序列数据蕴含的相似性分析 数据挖掘关注的一个重要问题是发现不同数据源之间或者相同数据源在不 同时间区间的相似性( 或者差异性) ,从而从中提取关联规则,发现知识。 2 、无法对海量时间序列数据做基于相似性查询 传统的时间序列数据库通常是按照数据来源或时间关系进行索引的,这样的 索引结构在基于相似查询场合,其效率极其低下,尤其是对海量时间序列数据库。 3 、不能为用户提供个性化的关于时间序列形态的信息 人们通常更容易理解模糊化、形象化的描述,而不是单纯的数值结果。因此, 新型的搜索系统需要为用户提供个性化的关于时间序列形态的信息。同时,对时 间序列的数据挖掘也需要搜索系统能够提供关于时间序列形态的信息。 4 、难以实现多时间粒度的数据挖掘与知识发现 不同时间尺度研究系统或现象的行为,有助于加深人们对该系统或现象的认 识,因此,多时间粒度的数据挖掘与知识发现是目前研究的热点问题,在现实世 界也有重要的应用。 由于传统的时间序列分析技术不能完全满足新的数据库应用,如数据仓库以 及知识发现等领域的需求,因此,从1 9 9 0 年代早期开始,时间序列数据挖掘作为 一个新的研究领域应运而生,成为数据库知识发现与数据挖掘领域的一个重要的 分支。 1 2 3 时间序列数据挖掘及预测现状 时间序列数据挖掘就是要从大量的时间序列数据中提取人们事先不知道的、 与时间属性相关的有用信息和知识,用于指导人们的社会、经济、军事和生活等 活动。时间序列挖掘对人类社会、科技和经济的发展具有重大意义,正逐渐成为 数据挖掘的研究热点之一。 在国际上,由美国人工智能协会主办的k d d 国际研讨会,及国际统计学年会 每年都有最新的时序数据挖掘方面的学术研究报告。在软件研发方面美国哈佛大 学为大型计算机研制的时间序列软件包t s p ( t i m es e r i e sp r o g r a m ) ,后由i b m 公司移植到p c 机上,发展成为m i c r 0t s p 软件包。其主要功能有:时序数据的输 第一章绪论 入与编辑、图形分析、回归分析、相关分析、统计描述等。一向以数理统计工具 和可视化计算闻名的美国s a s 公司,也宣布进入时序数据库知识发现行列。但是 在国内还没有成熟的时序数据库挖掘工具软件出现。 将现有的数据挖掘算法应用到时序数据中,以及研究新的适合时序数据库挖 掘技术是目前的研究重点。 时间序列预测n 础是预测领域内的一个重要研究方向,在过去的半个多世纪里 得到了迅速的发展,特别是对线性时间序列分析的研究,己取得了系统的、丰富 的成果n 引。但是,对于非线性时间序列分析的研究,仅在近二十年里才逐渐被重 视起来。综观国内外在这一方向上的研究概况,前期工作大多局限于对几类典型 非线性时间序列模型的参数辨识算法和建模方法等进行研究,然而,由于现实系 统的复杂性,人们在挖掘时存在着正确选择模型的困难,因此这些方法的应用受 到很大的限制心。于是,人们把目光转向了近年来兴起的人工神经网络模型。作 为人工神经网络一个重要部分的支持向量机乜,由于其优良的性质,使其在分类 中的应用受到了特别的重视,是非线性分类中最常用的方法。许多人在这方面作 了重要的工作,取得了很多成果。但是,将支持向量机技术应用到知识发现的研 究还比较少,有许多不尽如人意的地方,还有待深入研究。另外,对于现实世界 中表现出的非线性时间序列,人们试图用支持向量机进行预测,但相关理论成果 零星分散,且存在许多不足口引。 1 3 本课题的研究内容及主体框架 1 3 1 研究的主要内容 本文首先完善了实验室前期构建的雷达图像特征库位剁,在此基础上建立了雷 达图像时间序列数据库( 包括颜色、纹理、形状等数据特征) ,为冰雹回波的预 测提供底层数据源。 然后对数据库中的数据进行过滤预处理,并以过滤后的数据作为数据基础, 构建互信息网络模型,利用数据挖掘技术,对雷达图像特征库进行挖掘,寻找出 了隐含的冰雹回波单体发展过程的特征规则。 最后,构建了基于上述规则的冰雹回波自动识别、预测系统,并对结果进行 了测试。 实验结果表明,该方法可以对雷达回波图像中的冰雹回波发展过程有效地进 行识别。 4 第一章绪论 1 3 2 本文的主体框架 本文各章的安排如下: 第一章为概述部分,主要介绍课题的应用背景、选题意义及国内外研究现状。 第二章是雷达图像时间序列数据库设计、实现过程。利用雷达图像回波单体 的颜色特征、纹理特征和形状特征等数据组成时间序列数据库,为后续的挖掘、 发现提供充足的数据源。 第三章是主要介绍了信息论基本理论知识,引入互信息网络模型的一些基本 概念,说明互信息网络模型的结构、工作方式,为后期的挖掘工作提供理论支持。 第四章是时间序列数据库的知识发现过程的实现。首先对时序数据库的数据 进行处理并提取特征属性,接着建立互信息网络模型,利用其挖掘算法对冰雹回 波单体特征库的时序数据进行挖掘,最后利用所得到的规则和知识,实现冰雹回 波的预测分析方法。 第五章是整个系统的实现以及总结和展望部分。主要描述了系统的整体框 架、主要模块、软件实现,并对全文工作进行总结和下一步研究展望。 第二章时间序列数据库的构建 第二章时间序列数据库的构建 2 1 时间序列数据库概述 2 1 1 时间序列数据库特点 一个规范的、静态的数据库包含若干记录的集合,每个记录又由若干个属性 组成。记录的顺序在静态数据库中没有多大的意义,至少从数据挖掘的角度来说 是无关的。而一个时间序列数据库( t i m es e r i e sd a t a b a s e ) 包含的记录集中的部分 属性跟时间戳相关联,例如,本文所构建的时间序列数据库是一个包含雷达图像 信息的数据库,其中的每条记录不仅包含静态的属性,如图像名称等,还包含一 些动态的属性,如各单体特征值,这些动态数据是与某一时刻相关联的。还有一 些类型的时间序列数据库可能存在在线监测系统瞳副,如网页浏览数据。 普通的静态数据库和时间序列数据库的一个主要区别在于每个属性所载的 信息不同。在静态数据库中,一条记录的每个属性与其它记录的属性是互相独立 的,也就是说一条记录属性值的改变不会影响到其它记录的属性值。而在时间序 列数据库中,一些属性只有在特定的时间段下才有意义。例如,一个冰雹回波过 程中,同一单体不同时刻的特征值为动态属性值,存入时间序列数据库中;而同 一时刻的不同单体的特征值则为静态属性,保存在普通数据库中。 从上述讨论中可以知道时间序列数据库是多条记录的集合 ) 江l ,2 , 每条记录均包含若干个属性和一个时间属性= 溉,口2 ,口。,f ,) 。每个属性可以 是实数值,也可以是离散值,可以跟一个时间属性相关联( 动态) ,也可以不相 关( 静态) 。其中时间属性f 是按照应用的目标不同来确定其时间范围的。 2 1 2 专业数据库的构建方法 时间序列数据库是一种专业的数据库。构建一个专业数据库可以有多种方法 【2 4 j 1 、按照客户的情况重新构建客户化数据库。 地理信息系统就是以该方法构建的专业数据库,其依赖于特殊的数据结构, 比如栅格数据,向量数据等,这些数据结构都不能存储在普通的数据库中。为了 重新建立数据库,可以应用专门的存储机制实现一个更加优化的系统。当然,这 种方法花费很大,并且缺少现有数据库管理系统( d b m s ) 的支持。 6 第二章时间序列数据库的构建 2 、用一个数据库管理系统工具包或发生器( d b m st o o l k i t g e n e r a t o r ) 组织数 据。 数据库引擎用的是扩展数据库管理系统( e d b m s :e x t e n s i b l ed b m s ) ,设计成 工具包或发生器的形式。这样的e d b m s 通常是建立在存储层上面的。d b m s t o o l k i t g e n e r a t o r 把d s m s 分成不同的几个模块,如数据模块,事务处理模块, 查询语言模块和分布式模块。应用t o o l k i t 方法,我们只需重新实现部分模块,而 其它模块可以对现有模块加以扩展或修改。这些t 0 0 1 k i t s 提供了数据库工程师所 需要的数据库机制,比如专门的程序语言和各种独立的库。当用到g e n e r a t o r 方 法时,需要用公布的语言详细说明各模块,其目标是对数据模型、事务模型和完 整性限制进行详细说明。 3 、在现有的普通关系数据库上重新组织数据。 这种方法依赖于现有的完备的数据库管理系统。在重组数据过程中,可以只 对研究领域所要用到的数据进行重新组织,以达到加快数据存取的目的;也可以 在数据存入数据库的同时,对数据进行相应的处理,并以指定的形式存储。这对 数据库知识发现效率有很大的作用。 本文采取第三种方法进行时间序列数据库的构建。 2 1 3 时间序列数据库的属性 时间序列数据库中的属性可分为两种:应用属性( a p p l i c a t i o na t t r i b u t e ) 和统计 属性f s t a t i s t i c a la 仕r i b u t e ) 。应用属性是指与对象相关的一些特有的属性,即普通 关系数据库中的各记录所包含的属性。例如,在一个降水量的时序数据库中,地 区名称、地区所属气候带等都属于应用属性。而统计属性是指根据普通数据库中 的应用属性计算出来的属性,比如: 在上述数据库中,年度降水量总和、最高 气温等均属于统计属性。 2 2 时间序列分析 2 2 1 时间序列的变动因素 时间序列是对某一统计指标,按照相等时间间隔的顺序,搜集整理其指标值 而形成的一组统计数据。一般认为,一个时间序列中包含四种变动因烈2 引:长期 趋势变动、季节性变动、周期性变动和不规则变动。 1 、长期趋势变动( t :s e c u l a rt r e n d ) 第二章时间序列数据库的构建 长期趋势变动是指变量值在一个长时期内的增或减的一般趋势,可通过时序 图( 即描述在较长时间间隔上的数据变化的曲线或折线) 表示。依变量不同,长 期变动趋势可能呈现为直线型变动趋势,也可能呈现曲线型变动趋势。确定趋势 线、趋势曲线的方法有:加权移动平均方法和展小二乘法。 2 、季节性变动f s :s e a s o m l 、a t l o n ) 季节性变动是指变量的时间序列值因受季节变化而产生的变动。季节变动是 一种年年重复出现的一年内的季节性周期变动,即每年随季节替换,时间序列值 呈周期变化。 3 、周期性变动( c :c y c l i c a lv a r i 甜i o n ) 周期性变动又称循环变动,它是指变量的时间序列值相隔数年后所呈现 的周期变动。在一个时间序列中,循环变动的周期可以长短不一,变动的幅度也 可大可小,其趋势线、趋势曲线在长期时间内呈现摆动现象, 4 、不规则变动( i :i m g u h rv a r l 娟o n ) 不规则变动是指变量的时间序列值受突发事件、偶然因素或不明原因影响引 起的非趋势性、非季节性、非周期性的随机变动,因此,不规则变动是一种无法 预测的波动。 时间序列通常是由上述四种变动因素综合作用的结果,但不是所有的时间序 列都含有这四种变动因素。在本文中,时序变量y ,表示雷达图像的特征值,它 可虬表示为时间f 的函数,即r = h n 。此函数可以图示为一个时序图,用它描 述某一个特征随时问变化的情况,如图2 - i 所示: 图2 】冰雹回波不同过程的特征时序图 图2 - 】描述的是4 个冰雹回波发展过程的特征量熵的变化过程,l 、2 、3 、4 分别表示四个不同过程。 第二章时间序列数据库的构建 2 2 2 时间序列的分析模型 一个时间序列通常包括上述的四种或其中几种变动因素,因此分析时间序列 的基本思路就是将其中的变动因素一一分解出来,测定其变动规律,然后再综合 反映它们的变动对时间序列变动的影响。 采用何种方法分析和测定时间序列中各因素的变动规律或变动特征取决于 对四种变动因素之间相互关系的假设。一般可对时间序列各变动因素关系做二种 不同的假设,即加法关系假设或乘法关系假设,由此形成了相应的加法模型或乘 法模型凹引。 l 、加法模型 加法模型假设时间序列中四个变动因素之间是相互独立的,且其数值可依次 相加,即 z = z + s + c ,+ ,( 2 1 ) 其中:e 表示变量在f 时刻的取值;乃、s 、c r 和五分别表示变量在f 时刻的 长期趋势值,及季节变动、周期变动和不规则变动与长期趋势值的变动率。 显然,加法模型假设季节因素,周期因素和不规则因素的变动均围绕长期趋 势值上下波动,它们可表现为正值或负值,以此测定其在长期趋势值的基础上增 加或减少若干个单位,反映了它们各自对时间序列值的影响和作用。 2 、乘法模型 乘法模型假设时间序列中四个变动因素之间为相乘关系,即变量的时间序列 值是各因素的连乘积。以公式表示 r = 互s ,c , ( 2 2 ) 显然,乘法模型也假设季节因素,周期因素和不规则因素的变动围绕长期趋 势值上下波动,但这种波动表现为一个大于l 或小于1 的系数或百分比,以此测 定其在f 时刻的长期趋势值的基础上增加或减少的相对程度,反映了它们各自对 时间序列值的影垧和作用。 , 2 2 3 时间序列的分析步骤 时间序列通常存在长期趋势变动、季节变动、周期变动和不规则变动因素。 时间序列分析的目的就是逐一分解和测定时间序列中各项因素的变动程度和变 动规律,然后将其重新综合起来,预测统计指标今后综合的变化和发展情况船 。 时间序列的综合分析步骤如下: 1 、确定时间序列的变动因素和变动类型; 2 、计算调整月( 季) 指数,以测定季节变动因素的影响程度; 第二章时间序列数据库的构建 3 、调整时间序列的原始指标值,以消除季节变动因素的影响; 4 、根据调整后的时间序列的指标值( 简称调整值) 拟合长期趋势模型; 5 、计算趋势比率或周期余数比率,以度量周期波动幅度和周期长度; 6 、预测统计指标今后的数值。 2 3 时间序列知识发现的目标 2 3 1 相似性搜索 相似性搜索扭8 t 2 钔是找出与给定查询序列最接近的数据序列。它在金融市场、 医疗诊断分析和科学与工程数据库分析等方面都有很多的用处。对相似性搜索涉 及以下几个方面: l 、数据变换时域到频域的变换。许多时序数据的相似分析要求数据来 自频域。两个常用到的数据变换方法是离散傅立叶变换拈仉3 盯矩阵和离散小波变换 口2 1 。对时序数据的相似分析,通常采用欧氏距离作为计算的依据。 2 、增强相似搜索方法,处理偏移和振幅中的间隙和差异。大部分实际应用 并不一定要求匹配的子序列在时间轴上完全一致,而只要求两个序列具有相同的 形状,但在序列内存在间隙和在偏移或振幅中存在差异。一种改进的相似模型, 是允许用户或专家说明一些参数,如滑动移动窗口尺寸,最大间隙、匹配片断等 等。 3 、相似搜索的索引方法:为在大型数据库中改进相似搜索的效率,人们提 出了各种索引的方法,例如:r 树,r 树用于存储最小边界矩形以加速相似搜 索等。 4 、有关时间序列的查询语言:用来查询相似序列和其它更加复杂的查询。 2 3 2 时间序列挖掘模式 在这里,我们重点讨论与本文相关较大的序列模式方面的挖掘。 时间序列模式知识发现是指在动态数据库( 即记录随时间属性变化而改变的 状态) 中,发现相对时间或其它模式出现频率高的模式。 对时间序列模式的挖掘b 刘,存在一些参数,其取值如何,将严重影响挖掘效 果。 第一个参数是时间序列的持续时间t ,持续时间可以是数据库中的整个序列, 也可以由用户选择一个子序列。因此,时间序列模式挖掘是限定在特定的持续时 第二章时间序列数据库的构建 间内的挖掘。持续时间还可定义为一组分割的序列,如每个产生冰雹的过程,或 暴雨前后的时刻等。在这些情形中,可以发现周期模式 第二个参数是事件重叠窗口w 。在指定的时间周期内出现的一组事件,可以 视为某一分析中一齐出现的事件。若w 取值与持续时间t 取值相同,则找出的 是与时间无关的模式,即一些基本的相关模式;若w 取值为0 ( 即没有时间序列 重叠) ,则找出的序列模式中的每个时间出现在不同的时刻。若0 咖 2 ) 个记录 d a t a s e t rc c 表示候选属性集; d a t a s e t ro 0 表示目标属性集; d a t a s e t ri威示输入属性,是候选属性c 的简约属性集。 r 【k 】a i 】用珞m 】表示,样本集,中第阶记录中第f 个属性 互信息网络的目标是通过输入属性预测目标属性的值,本文构建的互信息网 络模型中,三为输入属性,o 为预测目标属性。 其中,假设: v f :,n d = 矽( 输入属性和目标属性互斥) ; vf :八jd 尺( 其中一些属性可能既不是输入属性,也不是目标属性) 。 2 l 第三章互信息网络模型 3 2 2 属性域离散化 通过将取值连续的属性域离散化,即属性值分区,可以减少给定的连续属性 值的个数,而且可以进行概念生成,在结果分析时提高结果的解释性。离散化后 的区间可以用标号替代实际的数据值。 对于给定的数值属性,概念分层也就定义了一个离散化。对于不同的聚集数 据,概念分层可以用来收集不同属性值。比如某个年级某门学科的考试成绩属性 g r a d e ,可以分为高层的概念:优( 9 0 ) ,良( 7 5 9 0 ) ,合格( 6 0 7 5 ) ,不合格( o ,则属幽,b 之间是正关联,也就是说若彳增加,b 也增加; 匕。值越大,说明属幽,b 正关联关系越密。若有,。= o ,就有属幽,b 相互独 立,两者之间没有关系。最后若有,。 七) 的时间序列r 。存在多种 方法限定拟合方法: ( 1 ) 给定一时间序列r ,只用七条线段拟合,使得拟合效果最好; ( 2 ) 给定一时间序列l 对每个线段误差限定在二个用户设定的阀值之内, 找出最好的拟合线; ( 3 ) 给定一时间序列乃找出最好的拟合方法,使得总体的拟合误差小于用 户设定的阀值。 2 、信噪比。 时间序列中另外一个重要的特征参数是信噪比。信噪比表明了序列数据的波 动程度。信噪比高表明序列不平稳,受各种因素的影响。相反,低的信噪比,表 明该序列是平稳的,受较少的因素影响。 4 3 7 属性离散化 将上述属性组成信息表用于互信息理论抽取规则时,要求属性值必须用离散 数据表达,如整型、字符串型或枚举型,因此,必须对上述连续属性值进行离散 化处理。本文采用等宽均值过滤离散方法,将连续属性分为五个离散区间。 4 4 互信息网络模型提取规则 4 4 1 构造互信息网络模型 在所有需要的属性准备好后,接下来构造互信息网络模型h 翮。m i n m 能够依 次自动找出与目标属性最大互信息的候选属性,构造当前输入属性层。直到最后 一个候选属性或候选属性与目标属性最大互信息为o ,其它的输入属性则被认为 是与目标属性不相关,被丢弃。按照上一章的方法,构造步骤如图4 2 所示: 第四章互信息网络模型时序数据知识发现 图4 2m i n m 流程图 1 计算给定时间序列数据库需要的特征属性,把所有属性分为目标属性和 , 候选属性( 也有可能两者都不是) 。 2 设定互信息显著等级,用来确定是否分裂当前层的节点。 3 用候选属性重复构造候选属性层直到最大层数: 3 2 第四章互信息网络模型时序数据知识发现 ( 1 ) 对于每个候选属性,在给定当前层的情况下,计算候选属性和目标属性 的条件互信。如果一个节点与目标属性的条件互信息大于给定的互信息显著程 度,则设置为终节点,不可分裂,其它节点为非终节点,继续分裂。选取下一个 候选属性。 ( 2 ) 找到与目标属性互信息最大的候选属性。 ( 3 ) 如果该最大互信息大于0 ,选取这个候选属性,构造一个新的输入属性 层;否则,重复3 。 4 4 2 规则提取 终节点在m 烈m 中表示其与目标属性具有显著的互信息,因此,在构造完互 信息网络后,就可以利用该网络中的终节点( 不可分裂节点) 和目标节点的连接权 来提取规则m 3 。规则的形式为:矿( 联合输入属性) 历p 胛( 目标属性域) 。一个终节 点z 和目标属性值k 之间规则的连接权表示为: w 兰孵力l o g :掣 ( 4 5 ) ,= l1 、7 , 其中,尸( y ,z ) 表示终节点z 和目标属性值巧之间的联合概率; p ( y ,iz ) 表示在终节点z 条件下,目标属性值巧的条件概率; p ( ) 目标属性值巧的无条件概率。 连接权w ! 表示输入属性在该节点对目标属性的贡献。如果权值为正,说明在 该节点目标属性的条件概率大于无条件概率;否则,权值为负。权值为o ,则表 明目标属性与在该节点的输入属性的联合方式是相互独立的。因此,每个为正的 连接权可以解释为:规则矿( 节点z ) 历p 刀( 目标属性域) 的信息含量。同理,为负 的连接权可以解释为:规则矿( 节点力历p 刀( ! 目标属性域) 的信息含量。 由于互信息网络中的节点表示输入属性不同的联合方式,因此,数据库中的 每条记录只能与网络中的一个终节点相匹配,而与其它的终节点不匹配。所以, 在用来预测时,对每个终节点测式它对目标属性的条件概率,最大的节点与目标 节点连接权最大的目标节点所代表的属性值即为预测的目标属性值。一个测试记 录中的目标属性值可以用下式来预测: y = a 唱( m a x ) 尸( y ,iz )( 4 6 ) , 。 , 4 5 结果处理 结果处理是指使用数据挖掘产生的结果,用有效的方法来解释。利用m n m 产生的规则代表了数据集中所有输入属性值和目标属性值的结合。规则的数目是 第四章互信息网络模型时序数据知识发现 网络中所有终节点和目标节点的乘积,规模相当大,而且这么多的规则很难被用 户分析和理解。因此,提高规则的可解释性,不仅可以表达人们自然的概念,而 且可以简约规则的数目。 4 5 1 冲突处理 由于从互信息网络中提取出来的规则是输入属性和可能的目标属性的组合, 可能存在几个规则有相同的条件部分,结果部分却不相同。而且,有些规则可能 属性值不同,但语义相同。这意味着,在这些模糊规则中还存在相互冲突h 钉。这 里解决冲突的办法是找出相互冲突的规则,选择确定性程度最大的规则,忽略其 它规则。 在处理过程中,不区分确定性为正和为负的规则。例如,”和f 加玎和”砌 砌p ”o 丁,有相同的目标属性,被认为是同一类的规则;同时,它们的确定 性程度按照其绝对值确定,得出的结论b 或们r b 。 4 5 2 简约规则 如果有两个规则如下: 矿似l & 彳2 ) 砌p 刀( b ) ; 矿似3 & 么4 ) 砌p 门( b ) ; 一般的,可以合并为以下形式: 矿凹1 & 彳2l 彳3 & 彳4 ) t h e n ( 功; 用上述方法,可以限制由目标属性值生成的最小规则数目,但这种方法可能 生成少数几个又长又难用的规则( 就像上面的合并规则) 。因此,这里采用合并条 件部分,假定每个规则的输入顺序都是按照规定的顺序表达的。合并后的规则的 确定性程度由“并”运算( 取最大值) 计算。例如: 如果有两个规则如下: 矿口l & 彳2 ) t h e n ( b ) ; 矿似3 & 4 4 ) t h e n ( b ) ; 一般的,可以合并为以下形式: l f 口l & 似2l 彳3 ) 彳4 ) 砌p 刀( b ) 第四章互信息网络模型时序数据知识发现 4 6 知识发现结果及分析 4 6 1 知识发现产生规则 本文对雷达回波图像时序数据库知识发现实验的部分挖掘结果表4 1 所示: 表4 1 部分规则结果 规则 i f e n t r o p y = ( 3 4 1 9 1 7 l ,3 6 4 1 9 4 7 ) 扑dm e 锄2 ( 5 7 0 8 9 3 5 5 ,7 2 7 4 0 2 8 8 ) t h e ns t a n h a i l ; m l = 0 9 5 8 3 3 3 i f e n 廿o p y = ( 3 4 1 9 1 7 l ,3 6 4 1 9 4 7 ) 锄dm e a n 。( 5 7 0 8 9 3 5 5 ,7 2 7 4 0 2 8 8 ) t h e nh a i l s t o n e ; m i = 0 8 5 9 3 7 5 i f i n e r t i a = ( 0 9 7 0 9 8 8 ,1 3 2 2 4 7 1 ) a n dv a r i a n t :( 2 3 0 0 5 0 6 0 5 4 7 ,3 0 9 9 6 7 9 8 0 9 6 ) m e ns t a n h a i l ; m i = 0 8 3 7 5 0 0 i f a v e r a g e l 啪= ( 7 - 3 8 5 7 5 l ,8 2 8 4 1 4 5 ) a n de n e f 影2 ( 0 0 2 0 9 6 5 ,0 0 3 3 1 6 9 ) 廿l e nh a i l s t o n e ; m j = o 712 5 0 0 i f a v e r a g e l 啪= ( 8 2 8 4 1 4 5 ,9 1 8 2 5 3 9 ) a n de n e 嚼f ( o 0 2 0 9 6 5 ,0 0 3 31 6 9 ) t h e nh a i l s t o n e ; m i = 0 7 9 0 6 2 5 i f l o c a l c a l m = ( o 7 1 8 2 9 0 ,0 7 6 2 3 3 5 ) 锄dh p e r c e n t 2 ( 3 7 8 3 7 1 0 ,5 6 3 3 7 8 9 ) 吐l e ns t a n 】h a i l ; m i = o 8 5 8 3 3 3 i f l o c a l c a l m = ( 0 6 7 4 2 4 6 ,0 7 1 8 2 9 0 ) a i l dh p e r c e n t = ( 5 6 3 3 7 8 9 ,7 4 8 3 8 6 9 ) t h e i lh a i l s t o n e ; m i = 0 7 9 0 6 2 5 1 f c o 鹏l a t i o n = ( 0 0 1 9 0 5 0 ,0 0 2 2 5 9 4 ) 柚dv 耐a n 卢( 2 3 0 0 5 0 6 0 5 4 7 ,3 0 9 9 6 7 9 8 0 9 6 ) t h e ns t a n h a i l ; m i = o 8 3 7 5 0 0 i fc o r r e l a t i o n = ( o ol9 0 5 0 ,0 0 2 2 5 9 4 ) a 1 1 da v e r a g e l 啪= ( 7 38 5 7 5l ,8 2 8 4l4 5 ) t h e ns t a n h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论