已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)基于粗糙集的时序数据挖掘及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西华大学硕士学位论文 基于粗糙集的时序数据挖掘及其应用 计算机软件与理论专业 研究生郝飞指导教师裴峥 时间序列数据挖掘是从大量的时间序列数据集中提取潜在、有用的知识、 据此预测时间序列的未来。时间序列数据挖掘的研究也越来越受到人们的关注, 现己成为数据挖掘领域的一个新的研究热点。当前时间序列数据挖掘的研究主 要集中在,趋势分析、相似性搜索、序列模式和规则发现上。本文结合导师的 研究课题,首先针对时序数据预测的常用典型的预测模型做了深入探讨和研究, 然后结合粗糙集( r o u g hs e t s ) 这一强有力的知识获取工具,提出了基于粗糙集的 时序数据挖掘模型及其挖掘方法,进行了时序挖掘方法用于股票预测的研究。 本文的主要研究成果及核心部分归纳如下: 1 在二次指数平滑预测模型中,鉴于其平滑参数的确定难题,本文给出一 种基于o w a 聚合算子的确定方法,该方法有别于人工指定和机器自动产生, 它是一种同时考虑了历史误差和预测误差的生成方法,它继承了上述方法的优 点后,在此基础上,用o w a 算子进行聚合得到一个适合特定预测系统的优化 的平滑参数值,从而达到更好的预测效果。 2 作者结合趋势结构序列( t r e n d i n gs t m c t u r es e q u e n c e ) 定义了时间序列 的趋势变化率结构序y j j ( t r e n d i n gv a r i a t i o nr a t i os t r u c t u r es e q u e n c e ) ,最近时间 子序列,作者认为最近时间子序列是时间序列的信息聚集器,在此基础上,对 不同的趋势变化率给出了相应的模糊语言值描述,即上升很快,上升平缓,上 升很慢,持平,下降很快,下降平缓,下降很慢。 3 提出了基于粗糙集和趋势变化率结构序列的时序挖掘方法。该方法先将 时间序列转换成相应的趋势变化率序列并对其做模糊离散化处理,利用滑动窗 口方法将趋势变化率结构序列转换成标准化的时序数据样本集,然后构造了适 合于粗糙集处理的决策表。其中,决策表最后一个对象由趋势变化率结构序列 西华大学硕士学位论文 的最近时间子序列后加预测目标组成,预测目标放在决策属性位置上,且条件 属性集的基数等于趋势变化率结构序列的最近时间子序列的长度。然后借鉴模 糊推理和模式匹配的方法,对预测目标进行了预测推理。 关键词:时序数据挖掘,时序趋势结构序列,时序趋势变化率结构序列, 粗糙集,股票预测 i i 西华大学硕士学位论文 t i m es e d a t a e - s e n e s m i n i n g b a s e do n i t sa p p l i c a t i o n s c o m p u t e rs o f t w a r e t h e o r y m d c a n d i d a t e :f e ih a o r o u g h s e t sa n d s u p e r v i s o r :z h e n gp e i t i m es e r i e sd a t am i n i n gi st h es e a r c hf o ru n d e r l y i n ga n du s e f u li n f o r m a t i o ni n l a r g ev o l u m e so f t i m e s e r i e sd a t as e ta n du s i n gt h ei n f o r m a t i o nt op r e d i c tt h e t i m e - s e r i e sf u t u r e f u r t h e r m o r e ,m o r ea n dm o r ep e o p l eb e g a nt op a ym o r ea t t e n t i o n t ot i m es e r i e sd a t am i n i n g ,i ti san e wr e s e a r c hh o t s p o ta m o n gd a t am i n i n gf i e l d n o w a d a y s ,t h es t u d y a b o u tt i m e s e r i e s m i n i n gm a i n l y f o c u so n t r e n d a n a l y s i s ,s i m i l a r i t ys e r c h i n g ,t i m es e q u e n c eq u e r ya n dr u l e sd i s c o v e r y i nt h i s d i s s e r t a t i o n ,t h er e s e a r c ho ft h et i m es e r i e sd a t am i n i n gt e c h n i q u ea n di t sa p p l i c a t i o n i nf o r e c a s t i n gt h es t o c km a r k e t t a k e na sa p a r to ft h ep r o j c c t i o n so fa d v i s o r i nt h i s t h e s i s ,c l a s s i cf o r e c a s tm o d e l sa r ef i r s t l yd e v o t e dt od i s c u s s i n ga n dr e s e a r c h i n g f u t h e r m o r e ,t m e s e r i e sd a t am i n i n gm o d e la n dt e c h n i q u eb a s e do nr o u g hs e t s w h i c hi sas t r o n gk n o w l e d g er e t r i e v et o o l sa r ep r o p o s e d t h ea p p l i c a t i o no f t i m e - s e r i e sm i n i n gt e c h n i q u ei ns t o c kc l o s i n gp r i c ep r e d i c t i o ni sr e s e r c h e d t h em a i n w o r ka n dt h ep r i m a r yr e s u l t sa n dh a r dc o r eo ft h i sd i s s e r t a t i o na r es u m m a r i z e da s f o l l o w i n g : 1 i nt h er e s e a r c ho fs e c o n d a r ye x p o n e n t i a ls m o o t h i n gm o d l ef o r e c a s tm o d e l ,d u e t od e t e r m i n i n gp r o b l e mo fs m o o t h i n gp a r a m e t e r , am e t h o do fd e t e r m i n gt h e s e c o n d a r ye x p o n e n t i a ls m o o t h i n gp a r a m e t e rb a s e do no w ai sp r o p o s e d i ti s d i f f e r e n tf r o m a r t i f i c i a l d e t e r m i n a t i o n sa n d a u t o m a t i c a l l ya s s i g n a t i o n w h i c h c o n s i d e r e dh i s t o r i c a le r r o ra n dp r e d i c t i o ne r r o r i ti n h e r i t sm e r i t so f a b o v em e n t i o n e d m e t h o d s o p t i m a ls m o o t h i n gp a r a m e t e rv a l u ew h i c hs u i t a b l et oac e r t a i np r e d i c t i o n s y s t e mi so b t a i n e da c c o r d i n gt oo w aa g g r e a t i o no p e r a t o rt h e r e b yr e a c ht h eb e a e r i l i p r e d i c t i o nr e s u l t s 2 。t r e n d i n gv a d a t i o nr a t i os t r u c t u r es e q u e n c ei sd e f i n e db y a u t h o rb a s e do n t r e n d i n gs t l l l c t u r es e q u e n c e t h ea u t h o rr e g a r d st h e l a t e s tt i m es u b 。s e n e s2 l s t n e i n f 0 册a t i o nc o l l e c t i o no ft h et i m es e r i e s b a s i n g o nt h i sp o i n to fv 1 e w f u z z y l i n g u i s t i c v a l u ed i s c r i p t i o n o nv a r i o u st r e n d i n gv a r i a t i o n r a t l oa r e 昏v e n ,e g 口s c e n dr a p i d ,n s c e n d m o d e r a t e a s c e n d j o w ,d e s c e n d ? q p t d ,e q u a i , d e s c e n d _ m o d e r a t e ,d e s c e n d _ l o w 3 t i m e s c r i e sm i n i n ga p p r o a c hb a s e do nr o u g hs e t sa n dt r e n d i n gv a r i a t l o n r a t i o 蚴k t u r es e q u e n c ei sb r o u g hf o r w a r d t h ea p p r o a c h i st h a tt h et 蚰es e n e ss e t w a i t i n gf o rm i n i n gi sf i r s tc o n v e r t e di n t oi t st r e n d i n gv a r i a t i o nr a t i os t r u c t u r es e n e s s e t t 1 1 e nt h et r e n d i n gv a r i a t i o nr a t i os t r u c t u r es e r i e s s e ti sp r e 。p r o c e s s e d b yf u z z y d i s c r e t em e t h o d ,a n dt h e nt h et r e n d i n g v a r i a t i o nr a t i os t r u c t u r es e r i e s s e t l s t r a n s f o r m e di n t oar 岣m “t i m e s e r i e ss a m p l es e tw i t ht h e “m o b i l ew i n d o w m t h o d ” f i n a l l v t h er l o r m a l t 妇e s e r i e ss a m p l es e ti si m p o r t e di n t oa s p e c i a ld e c i s l o nt a b l e w h e r et h el a s to b j e c to ft h ed e c i s i o nt a b l ei st h el a t e s tt i m es u b s e r i e si m m e d i a t e l y f o i l o w i n gt h ef o r e c a s t i n gg o a lo fw h i c h i sp l a c e di nt h ed e c i s i o na t t r i b u t ep o s i o n , a n d m ec a r d i n a in u m b e ro ft h ec o n d i t i o na t t r i b u t es e t i se q u a lt ot h el e n g t h eo ft h el a t e s t t i m es u b s e t i e s a n dt h ef o r e c a s t i n gg o a li sp r e d i c t e da n dr e a s o n e do u tw i t hf u z z y r e a s o n i n ga n dp a t t e r nm a t c hm e t h o d s k e y w o r d s :t i m e s e r i e sd a t am i n i n g ,t r e n d i n g s t r u c t t t r es e q u e n c e ,t r e n d i n g v a r i a t i o nr a t i os t r u c t u r es e q u e n c e ,r o u g hs e t s ,s t o c kp r e d i c t i o n i v 西华大学硕士学位论文 声明 本人声明所里交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示谢意。 本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文成 果归西华大学所有,特此声明。 作者签名: 导师签名: 6 2 七够钙月却日 铲9 ,汐 ,仂卜rc,奄彩 西华大学硕士学位论文 1 绪论 1 1 论文选题背景 1 1 1 数据挖掘背景 随着计算机技术的快速发展,尤其是近几年的网络技术和并行处理技术的 发展,使人们拥有计算能力更强、运行速度更快的计算机。以前要消耗大量的 人力和时间的工作,现在只需要少量的时间和人力就可以做到了。这使得管理 人员得以将自己的精力从繁重的日常信息处理工作中摆脱出来、有时间和精力 对大量的数据进行高层次的分析,从中寻找那些对企业战略发展具有重要意义 的商业规律和市场趋势。其次,随着计算机技术的飞速发展和信息技术的广泛 使用,人们可依靠计算机自动收集各种业务处理数据,使大量的业务处理数据 和市场变化数据被存放在大规模数据库或数据仓库里,日积月累,人们便拥有 了海量的数据信息。这也使得人们面临这样的局面:一方面,历史的数据是一笔 宝贵的财富,这些数据不只是对历史事件或研究的简单记录,而且在其背后隐 藏着很多有用的信息,这些信息在决策的制定中具有非常重要的参考价值 1 ,2 】。 进入二十世纪九十年代后期,全球经济一体化的进程日益加快,企业所面临的 市场竞争压力日趋严重,企业经营管理者希望能从企业积累的大量的历史数据 中吸取隐藏在这些数据后面的有用知识,找到应对日趋严重的竞争压力良方, 希望能够从这些数据中找到经营管理中问题的根本原因,希望能够快速地从大 量数据中挖掘出对经营管理有用的信息,以应对瞬息万变的市场压力。因此, 在当今世界里,从历史数据中吸取有用的知识并利用这些知识变得愈来愈重要 3 】。例如,股票经纪人需要从日积月累的大量股票行情变化的历史记录中发现 其变化规律,以预测未来趋势;地质学家想通过分析地球资源卫星发回的大量数 据和照片来发现有开采价值的矿物资源等。而另一方面,数据的丰富带来了对 强有力的数据分析工具的需求,目前能有效地从这些大量的数据中提取或挖掘 有用“知识”的工具却不是很多,这使得收集在大型数据库中的数据变成了“数 据坟墓 1 ,2 】。面对这一问题,一个新的挑战提了出来:如何从海量的数据中提 取有用的“知识”,为决策者提供重要的、极有价值的信息或知识,充分发挥这 西华大学硕士学位论文 些信息在决策制定中的重要作用呢? 自二十世纪七十年代以来,数据库系统的研 究和开发已经从层次和网状数据库系统发展到开发关系数据库系统、数据建模 工具、索引和数据组织技术;用户通过查询语言、用户界面、优化的查询处理和 事务管理,可以方便、灵活地访问数据 1 ,2 】。但数据库系统所能做到的只是对 数据库中已有的数据进行存取和简单的操作,人们通过这些数据所获得的信息 量仅仅是整个数据库所包含的信息量的很少一部分,隐藏在这些数据背后的更 重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测。这些数 据库技术均无法发现数据中存在的关系和规则,更无法根据现有的数据预测未 来的发展趋势。面对大型的、复杂的数据集,人们希望找到强有力的工具来挖 掘这些数据内部所隐藏的知识或信息。在这样的背景下,数据挖掘( d a t am i n i n g ) 和知识发现( k n o w l e d g ed i s c o v e r y ) 技术也就应运而生,并在近几年得到了迅猛 地发展,现已成为计算机行业中发展最快的领域之一。数据挖掘技术是- f q 交 叉学科,数据挖掘技术已经吸收了数据库技术、统计学、人工智能、机器学习、 神经网络、模式识别等学科领域的最新研究成果。运用基于计算机的方法,包 括新技术,从大型的、复杂的数据集中获得有用的知识的整个过程,就是数据 挖掘 3 。 1 1 2 时序数据挖掘背景 从经济到工程技术,从气象、环保到天文地理,几乎在各个领域都会遇到 时间序y l j ( t i m es e r i e s ) 数据。例如环保监测站的环境监测数据记录、医学工作者 研究人在不同状态下脑电波的变化情况记录、股票市场的每日波动记录、动态 产品加工过程记录、科学实验记录、空间遥感图像等等,把记录结果按发生时 间的先后顺序或空间的前后顺序排列,便得到时间序列。时间序列是指按时间 顺序取得的一系列观测值 4 。这里的“时间 具有广义坐标轴的含义,既可以 按时间的先后顺序排列的数据,也可以指按空间的前后顺序排列的随机数据 【1 】。时间序列通常分为广义时间序列和狭义时间序列。狭义时间序列的序列元 素均为数值型,而广义时间序列可以是任何按时间顺序排列的一组数据。 时间序列数据在环境、商业、金融、工程、医学和社会科学数据库中占相 2 西华大学硕士学位论文 当大的比重。在计算机技术快速发展和应用普及的今天,大量的时间序列数据 被存储在计算机上,使得我们拥有海量的时间序列数据。面对这些时间序列数 据,人们想找到有效的方法或技术来揭示这些时间序列数据集中所隐藏的知识 或信息,例如,股票购买用户企图通过衡量股票收盘价的某些指标的历史观测 时间序列数据集中找出其变化规律,以预测未来几天股票收盘价的变化趋势等 等。人们不断地研究和探索新技术、新方法,把历史时序数据转化为对人类有 用的知识和信息。这就使得时间序列数据挖掘的研究得到了空前的发展,并己 发展成为数据挖掘的一个重要的研究方向。由于自然界里的事物之间是相互联 系和相互影响的,事物的变化和发展有其内在的必然性,因而已经发生的历史 时间序列与将来发生的时间序列之间必然有其内在的联系。因此,我们通过分 析和研究反映事物过去的运动、变化和发展的历史时间序列数据,在很大程度 上是可以发现事物变化发展的内在规律的。这就能为决策者制定决策提供重要 的参考信息或知识。 1 2 国内外研究现状 1 2 1 时序数据挖掘研究现状和发展趋势 时间序列数据挖掘是数据挖掘的重要内容。时间序列数据挖掘是从大量的 时间序列数据中提取潜在的、有用的知识,据此预测时间序列未来的趋势。 时间序列数据挖掘的研究越来越受到人们的关注,现已成为数据挖掘领域 的一个新的研究热点 5 ,6 ,8 - 1 5 。当前时间序列数据挖掘的研究主要集中在, 趋势分析和相似性挖掘上 8 15 。 时间序列数据挖掘主要集中在如下三方面: 趋势分析 所谓的趋势分析就是发现时序数据的发展趋势。 相似性搜索 相似搜索问题就是发现所有与要查询的序列相似的数据序列( 子序列匹配) ( s u b s e q u e n c em a t c h i n g ) ,或彼此相似的序列( 全序列匹配) ( w h o l e s e q u e n c e m a t c h i n g ) 。它与通常的数据库查询不同,数据库查询是要找出符合查询的精确 西华大学硕士学位论文 数据,而相似搜索是找出与给定查询序列最接近的数据序列。 序列模式发现,时序规则挖掘 该技术是先把待挖掘的时间序列转换成子时间序列数据,然后利用子时间 序列所隐藏的知识,来指导对原时间序列的挖掘,从中提取模式或规则。 m i c h a e lt r o s e a s t e i n 7 1 等人于1 9 9 8 年提出了从时间序列中发现概念 ( c o n c e p t ) 的方法,这可以说是时间序列数据挖掘研究的起步。这里的“概念 是基于预测意义上的,概念就是模式的预测内容。在研究过程中,r o s e n s t e i n 利用了时间序列数据背后动力学系统的性质,首先对时间序列进行了延迟嵌入, 然后对延迟后的数据进行了动态聚类。他们的实验表明,通过这种方式形成的 数据分类,可以很好地对应物理意义上的概念。他们将其用于机器人的自学习 过程中,取得了不错的效果。r i c h a r dj p o v i n e l l i 6 等人于1 9 9 9 年依据t a k e n s 1 6 】 理论,提出了基于时间序列的数据挖掘框架( t s d m ,t i m es e r i e s d a t am i n i n g f r a m e w o r k ) ,他称之为时间序列数据挖掘( t i m es e r i e sd a t am i n i n g ) 。这种数据挖 掘的处理对象可以是一个时间序列或多个时间序列。在他的研究中,他并没有 将整个时间序列作为预测和分析的目标,而是仅对时间序列中的事件( e v e n t ) 的 出现加以模式发现和预测。该技术先定义事件特征函数( e v e n tc h a r a c t e r i z a t i o n f u n c t i o n ) ,然后在此基础之上定义数据挖掘的目标函数,并据此进行数据挖掘。 其中事件特征函数反映了对应时间子序列属于某“事件 的程度。通过挖掘所 得的模式,可用来预测事件的发生。张保稳 1 7 1 也是基于t a k e n s 理论,提出了 面向单一时序状态演化模式挖掘的框架。d g a s 1 8 等人则提出了一种从时间序 列中发现规则的方法。d g a s 首先采用b a l t z e r s e n 1 9 提出的滑动窗口方法 ( m o b i l ew i n d o w sm e t h o d ) 对时序数据进行标准化预处理,把时间序列转换为时 间序列样本,完成了对时序数据的离散化和符号化处理过程;其次,对标准化 的时间序列数据样本集进行聚类:再次,用得到的这些类对原来的时序数据进 行重构;最后对重构后的时序数据集进行规则挖掘。但该方法只是将数据挖掘 处理方法生搬硬套地应用于时序分析中去,没有考虑时间序列的时间特征和知 识背景问题,也没有给出合理的理论解释。j h a n 2 0 等人则采用数据挖掘技术 对时间序列数据库中的时序进行周期片段和部分周期片段研究,目的是发现周 期性模式( 指按固定时间间隔规律性出现的模式) 等等。 综上所述,从事数据挖掘研究的国内外学者已经开始把数据挖掘技术或方 4 西华大学硕士学位论文 法应用到时间序列数据的挖掘中去了。从笔者所能搜集到的文献资料来看,时 间序列数据挖掘作为新的时序数据处理技术,目前国内外关于这一方面的研究 成果的文献报道还不是很多,并且关于这一方面的研究基本上还处于起步阶段, 还比较零散也不完整,还没有形成完整的挖掘理论。他们的研究大部分是把已 形成的数据挖掘技术或理论方法不加区别地、直接地用来分析和处理时序数据: 他们很少考虑时间序列数据本身“时间”的特性和作用,对有“时间 限制的 数据集与没有“时间”限制的数据集的处理不加区分;他们没有讨论其研究成 果或规律对时间序列是否具有普遍适用性:在他们的研究成果的文献报道中关 于“基于粗糙集时间序列数据挖掘技术”的研究还很少。j k b a l t z e r s e n 1 9 1 在 他的博士论文中试图用粗糙集的方法对股票数据进行预测。王勇【2 1 采用 b a l t z e r s e n 提出的滑动窗口方法对时序数据进行了转换,定义了时序趋势序列结 构,并将其转化到粗糙集中的决策信息系统中,利用粗糙推理因子,得到预测 规则,进而提出了基于粗糙集和时序趋势序列结构的一步前向预测和多步前向 预测的方法。马志锋 2 2 1 等人提出了一种基于粗糙集的时序数据挖掘模型。王 晓晔 2 3 1 等人认为知识发现的过程包括时间序列数据预处理、属性约简和规则 抽取三部分。其中数据预处理主要用信号处理技术清洗数据,然后将清洗后的 时间序列按照某个变量的变化趋势进行分割,分割后每个时间段内的变化趋势 不变,从而将时间序列转换成为一系列静态模式( 每种模式代表一种行为趋势) , 从而去掉其时闻依赖性。把决定各种模式的相关属性抽取出来组成一个适用于 粗糙集理论的信息表,然后采用粗集理论对信息表进行属性约简和规则抽取, 所得到的规则可以用于预测时间序列在未来的行为。最后将该方法应用于股票 的趋势预测,取得了良好效果。 1 2 2 粗糙集研究现状及成功案例 粗糙集( r o u g hs e t s ) n 论是一种处理含糊和不精确性问题的新型数学工具, 对于当今现代计算机的应用来说,这种理论无疑是最有挑战性的领域之一。它 自问世以来,无论是在理论还是应用上都是一个新的,重要的并且是迅速发展 的研究领域,尤其是在机器学习,知识获取,决策分析,数据的知识发现,专 西华大学硕士学位论文 家系统,决策支持系统,归纳推理,矛盾归结,模式识别,模糊控制及其各个 方面的应用,粗糙集理论都为之提供了一种很有效的新的数学方法。 粗糙集研究主要集中在以下两方面: 1 ) 理论研究:r o u g h 集代数,r o u g h 集拓扑及其性质,r o u g h 集逻辑及处理 近似推理的逻辑工具等等。 2 ) 逻辑研究:r o u g h 集方法的函数,r o u g h 数及r o u g h 隶属函数,r o u g h 离 散化。 经过许多学者的大量的研究和实践粗糙集在许多领域取得了巨大的成功: ( 1 ) 在经济领域,应用粗糙集理论分析了股票的历史数据,研究了股票价格与 经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可。 ( 2 ) 在交通领域,应用粗糙集方法实施城市通道控制,将铁路沿线固定站点的 交通控制看作一个决策属性表,通过粗糙集从现有数据中抽简行驶方案的决策 规则。 ( 3 ) 在航天领域,应用粗糙集方法设计了逼近时间的粗糙控制器对卫星角 度控制系统中的仰角进行控制。现在一种新的模糊粗糙控制正在引起人们的关 注。 ( 4 ) 在医疗诊断方面,用粗糙集方法根据以往病例归纳出诊断规则,用来指 导新的病例人工预测早产准确率只有1 7 3 8 ,应用粗糙集理论可提高到 6 8 9 0 。 ( 5 ) 在决策分析方面,粗糙集理论的决策规则是在分析以往经验数据的基础 上得到的,它允许决策对象存在一些不太明确的属性,希腊发展银行e ,r e v a 应用粗糙集理论协助制订信贷政策,是粗糙集理论多准则决策方法的一个成功 范例。 氆 ( 6 ) 由于人工神经网络训练时间较长,是制约神经网络实用化的因素之一, 所以应用粗糙集理论化简神经网络训练样本集,在保留重要信息前提下,消除 多余的数据,科学家对此作了大量的研究,对脑肿瘤的显微图进行分类,用粗 糙集预处理数据,收敛速度提高了4 7 2 倍。 6 西华大学硕士学位论文 1 3 本论文主要研究内容 本论文的工作主要有: ( 1 ) 查阅相关的资料,了解国内外关于粗糙集理论的研究现状和发展趋势 深入研究了粗糙集理论以及粗糙集理论解决问题的方法,特别是粗糙集理论在 时序数据挖掘领域中的应用。 ( 2 ) 研究了时序数据预测的常用典型的预测模型:二次指数平滑模型 ( s e s m ) 和马尔科夫模型( m a r k o vm o d e l ) ;进一步了解时序数据挖掘在实际中的 应用。在研究s e s m 模型中,鉴于平滑参数的确定难题,提出一种基于o w a 聚合算子的确定方法。 ( 3 ) 结合滑动窗口方法( m o b i l ew i n d o w sm e t h o d ) ,趋势结构序y l j ( t r e n d i n g s t r u c t u r es e q u e n c e ) ,定义了趋势变化率结构序y l j ( t r e n d i n gv a r i a t i o nr a t i os t r u c t u r e s e q u e n c e ) ,然后将时间序列转换为趋势变化率结构序列后,并构造为适合粗糙 集知识表示的决策信息系信息表,进而提出一种基于粗糙集的时序数据挖掘新 技术和挖掘模型。 ( 4 ) 结合实例,实现新挖掘技术的应用,给出本论文结论。 1 4 本文的组织结构 西华大学硕士学位论文 绪论 1 1 u 时序数据挖掘方法概述 u 经典时序数据预测模型及其应用 u 基于粗糙集的时序数据挖掘 u 基于粗糙集的时序数据挖掘方 法在股市预测中的应用 13 总结与展望 f i g1 1 t h et h e s i sf r a m e 图1 1 。论文内容结构框图 8 西华大学硕士学位论文 2 时序数据挖掘方法概述 数据库知识发现( k n o w l e d g ed i s a o v e r yi nd a t a b a s e ( k d d ) ) 就是从大型数 据库、数据仓库中提取人们感兴趣的有用的知识。这些知识通常是隐含在数据 之中的,提取的知识可以表示为概念、规则、规律、模式等形式。数据库知识 发现过程通常包括问题定义、数据选择、数据清理、数据变换、数据集成、知 识提取、知识评估以及知识表示等。目前比较常用的k d d 方法有统计分析方法、 机器学习方法、面向数据库的方法、决策树方法、最近邻搜索技术、多层次数 据汇总归纳、人工神经网络方法、演化计算、粗糙集方法、模糊技术等 2 4 。 到目前为止,k d d 已经取得了可喜的进展,出现了许多知识发现系统与数据挖掘 系统,有的已经在某些领域得到了初步成功的应用。 时序数据挖掘( 简记t s d m ) 是k d d 中的重要分支之一。t s d m 的对象是时序数 据库。时序数据库就是指由随时间变化的序列值或事件组成的数据库。本章主 要介绍和讨论时序数据挖掘的主要技术与方法,包括趋势分析与相似搜索。 2 1 趋势分析 所谓趋势分析就是发现时序数据的发展趋势。图2 1 表示了某公司或企业 的股票收盘价变化情况,该数据可用于预测未来几天股票收盘价的变化趋势, 给股票购买用户提供一种辅助决策信息。 t j , t , t j 囊5 捌“ 擎5 u f i 薛1 t i m e - s e r i e sg r a p ho fs t u c kc l o s i n gp r i c e 图2 1 ,股票收盘价格时序图 9 西华大学硕士学位论文 时序数据的趋势分析可以分为如下4 类: 2 1 1 趋势变化 趋势变化用于反映一般化的变化方向,其时序图是在较长时间间隔上的数 据变化。对于给定的一组时序数据( y 。,y :,y 。) 其趋势可以用最小二乘法来确 定。 以最好的拟合曲线c 作为最小二乘曲线,即曲线具有最小y d ,2 ,其中d , 的偏差或误差是指时序数据y i 与对应曲线c 的值之间的差值。9 采用最小二乘法的优点是拟合多项式形式简单,序列中的所有数据都参与计算, 不会受一些极端数据的影响。趋势线的确定还可采用加权移动平均法。加权移 动平均法的好处就是在一段时间内减少了偶然性因素对曲线的影响,使曲线变 得圆滑了,决策者容易理解曲线变动趋势。 2 1 2 季节性变化 季节性变化反映的是每年都重复出现的事件。对于季节性波动的趋势确定, 需要采用季节指数来处理,即用一组数字表示一年中某些月份某变量的相关值。 例如,某产品1 月、2 月和3 月的产量分别是全年平均月产量的1 1 0 、1 1 5 、1 5 0 ,那么1 1 0 、1 1 5 、1 5 0 就是本年度的季度指数。如果原始的每月数据由对应的 季节指数去除,结果数据就是反季节变化的。利用反季节变化数据可对趋势做 进一步的调整,即按照对应的趋势值去除这些数据。 2 1 3 循环变化 循环变化是指趋势曲线所表现出的一种长期振荡。这种循环不一定是周期 变化的,也就是说它们在相同的时间间隔,不一定具有相似的变化模式。 1 0 西华大学硕士学位论文 2 1 4 无规律变化 随机变化反映的是由于随机或偶然事件引起的数据时序变化。如山洪瀑发 对市场的一个较长时间的影响。随机变化的趋势可以针对趋势、季节、循环变 化的数据调整加以估计,一般情况下,小偏差出现的频率较高,大偏差出现的 频率较低,通常服从正态分布。在时序数据挖掘中,通过对趋势变化、季节性 变化、循环变化和随机变化的综合而系统的分析,就可制定出比较合理的长期 或短期预测,从而为科学决策提供有效依据。 2 2 相似搜索 相似搜索与通常的数据库查询不同,数据库查询是要找出符合查询的精确 数据,而相似搜索是找出与给定查询序列最接近的数据序列。相似搜索可以分 为两类:整体序列匹配和子序列匹配。整体序列匹配是查询序列与数据库中的 序列具有相同的长度。给定序列闽值占( s 是一个固定值,可由用户或专家指 定) ,目标是找出数据库中所有与给 定查询序列的距离小于s 的序列;子序列匹配是查询序列比数据库中的序列要 短。在这种情况下,要先找出数据库中所有序列的子序列。这些子序列与给定 查询序列的距离小于s 。实现相似搜索的主要技术有数据变换、模糊匹配等。 2 2 1 数据变换 时序的相似搜索需经过数据变换,将时序数据从时间域转换到频率域。两 个常见的独立于数据的变换是离散傅里叶变换( d f t ) 和离散小波变换( d w t ) ,由 于在时间域中两个信号的距离与频率域中的欧氏距离类似,所以d f t 可以出色发 挥,在开头几个系数中表现突出。通过保持d f t 的头几个( 即“最强的”) 系数, 可以计算出实际距离的下界。 给定一组数据序列、一个查询序列和一个距离阈值s ,如何有效地找出所 有与给定查询序列的距离小于占的序列? 一种可能的方法是扫描数据库,取出每 西华大学硕士学位论文 一个数据序列,并且计算它与给定查询序列的距离,尽管这个算法非常简单, 但是它要求存取每一个序列。这里考虑的是完全匹配的问题,所以所有的数据 序列和查询序列都具有相同的长度。这个相似搜索可以看做是一个高维索引问 题。每一个数据序列 和查询序列都被看做是一个k 一维空间中的一个点。这样,如果将所有的序列插 入到一个多维索引中,就能够通过查询索引来找出所有与给定查询序列恰好匹 配的数据序列。由于不仅要找出所有正好匹配的序列,而且还要找出所有与给 定序列距离小于s 的序列,所以不能使用点查询作为查询序列定义的范围。而 应该以给定的查询序列为中心,使用边长为2 占的超矩形来查询索引,然后检索 所有在这个超矩形中的序列。通过计算时间域序列和未满足查询的序列间的实 际距离,可以进行必要的后处理。 使用索引可以大大减少所要考虑的序列的个数,同时大大降低了计算相似 查询的时间。 2 2 2 模糊匹配 在大部分实际应用过程中,若子序列对具有同样的形状,但在序列内存在 偏移或振幅中存在差异,我们也可以认为它们是匹配的。对于这种存在差异的 子序列对,可以利用模糊数学方法,进行模糊匹配,其过程如下:建立标准 时间序列库:根据待分析的时间序列数据集的实际情况,抽出能反映序列特征 的子序列,形成分类标准时间序列库;定义隶属函数:分类标准时间序列库 中的类别可以看成模糊子集。由于模糊子集是完全由隶属函数来刻画的。因此, 我们可以根据每种时间序列的特点,为其定义一个隶属函数来描述它:建立 模糊匹配函数;执行匹配,即计算待分类时间序列与分类标准时间序列库中 序列的模糊匹配函数值来确定其匹配情况。将待分类时间序列划分到与其模糊 匹配值最大的那一类中去。模糊匹配符合人脑思维特性,因而更合理、更有效。 1 2 西华大学硕士学位论文 2 2 3 相似搜索中的索引方法 为实现在大规模数据库中的相似搜索,已提出了许多索引方法,例如:r t r e e 和r ,c t r e e 就被用来存放最小约束矩形( m b r ) 以提高相似搜索的速度。此外还提 出了可用于相似性搜索的前缀树方法。 2 2 4 时序数据的查询语言 设计和开发功能强大的查询语言,以便实现时间序列的相似查询,是一件 很重要的事情。时间序列查询语言不仅要能够描述简单的相似查询,如“找出 与给定序列q 相似的所有序列”,而且还能描述复杂的查询,如“找出与类a 中 某序列相似,但与类b 中的任一序列不相似的所有序列”。而且,它应能够支持 各种类型的查询,如范围查询、所有对查询和最邻近查询等。形态定义语言就 是一种很有趣的时间序列查询语言,它允许用户以人类可读的序列串或宏的形 式定义或查询时间序列的总体形状,其中忽略一些细节。如模式u p ,u p ,u p 可 用于说明坡度上升的程度。宏,如s p i k e 可用于表示一个序列( s t e e p u p s ( 上陡) , f l a t ( 平坦) ,s t e e p d o w n ( 下陡) ) ,其c p s t e e p u p s 定义为( u p ,u p ) , u p ,u p ) , u p ,u p ) ) ,其含义是一个s t e e p u p s 由3 个陡峭的斜坡组成,每一个或对应u p 或 u p s t e e p d o w n 的定义与s t e e p u p s 的定义类似。 此外,模糊查询语言是一种具有友好用户接口的时间序列查询语言,它允 许用户以人们在日常生活中交流信息的自然语言进行查询,从而适合广大用户 使用。 2 3 本章小结 本章主要介绍和讨论时序数据挖掘的主要技术与方法,包括趋势分析与相 似搜索。 西华大学硕士学位论文 3 经典时序数据预测模型及其应用 经典时序数据预测主要集中在两方面:时间序列的值预测;时间序列 的趋势变化预测,即预测新数据在将来的发展行为。本章针对以上两方面,分 别对基于时间序列值预测的二次指数平滑模型( s e c o n d a r ye x p o n e n t i a l s m o o t h i n gm o d e l ) ( s e s m ) 和基于时间序列趋势预测的马尔科夫模型( m a r k o v m o d e l ) 进行讨论。特别是针对s e s m 中的平滑参数的确定,提出了一种基于0 w a 聚合算子的二次指数平滑参数的确定方法。 3 1 二次指数平滑模型( s e s m ) 时间序列值预测包括单步预测和多步预测,而这里的二次指数平滑模型就 是将时间序列视为一个动力系统,认为在其过去的波动中蕴涵有可用于预测未 来的信息,并以此为基础进行下一步或多步的值预n 2 5 。 3 1 1 模型描述 指数平滑是一种重要的时间序列预测法,它的基本思想是先对原始数据进 行处理,处理后的数据称为平滑值,然后再根据平滑值经过计算构成预测模型, 用于预测未来预测值。二次指数平滑法实质上是将历史数据进行加权平均作为 未来时刻的预测结果它具有计算简单、样本要求量较少、适瞄性较强、结果 较稳定等优点,可用于短期预测【2 6 二次平滑法还可以完成一次平滑法不能 解决的带趋势变动的市场现象的预测。同时也可用于一期以上预测值的计算, 具有贮存数据少的优点,给预测者带来很大方便。 计算方法:设i ,e ,一r 为原始序列数据,则,时刻的一次平滑值s p , 二次平滑值g 舶,分别为 由一次指数平滑公式: g ”= 口z + ( 1 一口) s : 再进行一次平滑得: 1 4 西华大学硕士学位论文 s ;2 = 嬲+ ( 1 一口) s 2 7 式中:研1 为一次指数平滑值;s ;2 为二次指数平滑值;口为平滑常数。 用两个平滑值可以计算二次指数平滑模型的两个参数: s :”=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年清远辅警招聘考试题库及答案详解(有一套)
- 2025年黔西南州辅警招聘考试题库含答案详解
- 2025年铜川辅警招聘考试题库附答案详解(轻巧夺冠)
- 2025年连云港辅警招聘考试真题含答案详解(b卷)
- 2025年辖县辅警协警招聘考试真题含答案详解(a卷)
- 2025年运城辅警协警招聘考试备考题库有完整答案详解
- 2025年漯河辅警招聘考试题库及参考答案详解一套
- 2025年辽源辅警招聘考试真题及答案详解(必刷)
- 2025年辽阳辅警招聘考试真题含答案详解(培优b卷)
- 2025年濮阳辅警协警招聘考试备考题库及一套完整答案详解
- 2025至2030全球及中国船舶保险行业发展趋势分析与未来投资战略咨询研究报告
- 肉羊高效养殖技术-成教学院
- 绵阳市促进低空经济高质量发展行动方案
- 心房颤动诊疗中国专家共识
- 物业管理耗材采购清单及限价
- 华润物业住宅管理办法
- 契税法宣传课件
- 2025至2030年中国煤矿机器人行业市场现状分析及发展前景研判报告
- 电商公司客服部管理制度
- 2025年国际注册内部审计师(CIA)考试《内部审计基础》新版真题卷
- 借款合同标准文本pdf
评论
0/150
提交评论