(计算机应用技术专业论文)时间序列数据挖掘方法的研究及其应用.pdf_第1页
(计算机应用技术专业论文)时间序列数据挖掘方法的研究及其应用.pdf_第2页
(计算机应用技术专业论文)时间序列数据挖掘方法的研究及其应用.pdf_第3页
(计算机应用技术专业论文)时间序列数据挖掘方法的研究及其应用.pdf_第4页
(计算机应用技术专业论文)时间序列数据挖掘方法的研究及其应用.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机应用技术专业论文)时间序列数据挖掘方法的研究及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着数据库技术的飞速发展及数据库管理系统的广泛应用,数据库 不仅在数量上快速增长,规模也越来越大。激增的数据背后隐藏着许多 重要的信息,对其进行更高层次的分析,能促进信息的传递。现实中的 数据常常与时间有关,按时间顺序取得的一系列观测值被称为时间序列 数据,它在社会生活中的各个领域广泛存在。对时间序列数据进行更深 一步的分析和处理,对人类社会、科技和经济的发展有重大意义。目前 时间序列的数据挖掘是数据挖掘的重要研究热点之一。 本文首先介绍了数据挖掘的相关理论及主要技术、发展状况等。围 绕着数据挖掘技术,探讨了时间序列数据挖掘的研究现状,包括研究内 容、常用挖掘技术、发展前景及应用状况。 其次,研究了三种主要的时序数据趋势分析技术和算法,即线性回 归分析模型、指数平滑模型、灰色预测模型。对它们的推理过程和适用 性进行了详细的阐述,同时针对现有方法的缺陷提出了一些改进。通过 分析和比较,验证了模型的精度和可靠性。 然后,给出了一种新的组合预测方法。探讨了该组合预测方法的研 究价值及具体预测流程,通过实例与前面三种时序数据挖掘方法进行了 分析比较,讨论了其可行性和适用性。主要使用了m a p e 、m s e 、m a e 三 个评价指标对各算法进行了衡量。 最后,结合实际系统,将上述时序数据挖掘方法应用到电能计量管 理系统的预测分析系统中。分析了该系统的设计思想、目标和总体设计 框架。在此基础上对历史数据库进行数据挖掘,分析比较各种预测方法, 找出精度最佳的一种模型对未来的发展趋势进行预测。通过一个实际时 间序列的分析,给出了实验结果,验证了该系统的有效性和可行性。 关键词:数据挖掘,时间序列,趋势分析,预测 武汉_ 程大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fd a t a b a s et e c h n o l o g ya n dt h ew i d e l y u s e dm a n a g i n gs y s t e mo fd a t a b a s e s ,t h ed a t a b a s e sh a v ei n c r e a s e ds h a r p l y n o to n l yi n q u a n t i t i e s b u ta l s oi ns c a l e s t h e r ea r em a n yi m p o r t a m i n f o r m a t i o nh i d d e nb e h i n dt h er a p i d l yi n c r e a s e dd a t a b a s e s ,t oi m p l e m e n ta m o r ea d v a n c e d a n a l y s i s ,d i s c o v e r t h e p o t e n t i a lr e l a t i o n s h i pa m o n g s t d a t a b a s e s ,c a ne n h a n c et h eg a n s f e ro fi n f o r m a t i o n t i m es e r i e sd a t ai sa s e r i e so fo b s e r v a t i o n a ld a t aa c c o r d i n gt ot e m p o r a ls e q u e n c e i tw i d e l ye x i s t s i na l lk i n d so fa r e a si nt h es o c i a ll i f e t i m es e r i e sd a t am i n i n gi so fg r e a t i m p o r t a n c et ot h ed e v e l o p m e n to ft h eh u m a ns o c i e t y , t e c h n o l o g ya n d e c o n o m y r e s e a r c ho nt i m es e r i e sd a t am i n i n gi so n eo f t h em o s ti m p o r t a n t a n dp o p u l a ra r e ao fd a t am i n i n g f i r s t l y , t h er e l a t e dt h e o r y , p r i m a r ys k i l l sa n dd e v e l o p m e n tp r o s p e c to f d a t am i n i n ga r ed i s c u s s e di nt h i sp a p e r i nt e r m so ft h et i m es e r i e sd a t a m i n i n gt e c h n o l o g y , t h er e s e a r c hs t a t u so ft i m es e r i e si sd i s c u s s e d ,i n c l u d i n g r e s e a r c h c o n t e n t ,c o m m o nw a y s ,c u r r e n t r e s e a r c h e m p h a s e s a n d d e v e l o p m e n t t r e n d s e c o n d l y , t h r e el e a d i n ga n a l y z i n gm e t h o d so ft i m es e r i e sd a t aa r e i n t r o d u c e d ,i n c l u d i n g l i n e a r r e g r e s s i o na n a l y s i sm o d e l ,e x p o n e n t i a l s m o o t h i n gm o d e la n dg m ( 1 ,1 ) m o d e l i nt h em e a n w h i l e ,t h e i r i l l a t i v e p r o c e s sa n da p p l i c a b i l i t ya r e a l s oe x p a t i a t e d s o m es h o r t c o m i n g so ft h e e x i s t i n gw a y sa r ep o i n t e do u ta n ds o m ei m p r o v e dm e t h o d sa lep u tf o r w a r d a f t e ra n a l y z i n ga n dc o m p a r i n g ,t h ep r e c i s i o na n d r e l i a b i l i t ya r ev a l i d a t e d t h i r d l y , an e wm e t h o do ft h ec o m b i n a t i o nf o r e c a s t i n gm o d e lb a s e do n i i a b s t r a c t a b o v et h r e ef o r e c a s t i n gt h e o r i e si s p r e s e n t e d t h eb a s i cc o n c e p t sa n d c a l c u l m i n gs t e p so ft h ec o m b i n a t i o nf o r e c a s t i n gm o d e la r ee x p m i m e dw i t h s o m ep r a c t i c a le x a m p l e s c o m p a r i n gt ot h et h r e ef o r e g o i n gm e t h o d s ,i t s f e a s i b i l i t ya n da p p l i c a b i l i t ya r ed i s c u s s e d i no r d e rt oe v a l u a t ea l la l g o r i t h m s , t h r e es t a n d a r d s ,m a p ea n dm s ea n dm a e ,a r ea p p l i e d l a s t l y , a b o v em e t h o d sa r ea p p l i e dt ow u h a ni r o ns t e e lp l a n tw i r e l e s s t r a n s m i s s i o ns y s t e m t h ed e s i g nm e t h o da n dg o a lo ft h i ss y s t e ma r e a n a l y z e d b a s e do no r i g i n a ld a t a b a s e ,t h eb e s tf o r e c a s t i n gm e t h o do fa b o v e a l lm o d e l si sa p p l i e dt oal o a df o r e c a s ts y s t e mv i ac o m p a r i n ga l lm e t h o d s a t t h ee n d ,v a l i d i t ya n df e a s i b i l i t yo ft h i ss y s t e ma r ep r o v e db yt h ea n a l y s i so f a na c t u a lt i m es e r i e sd a t aa n dt h ee x p e r i m e n t a lr e s u l ts h o w st h em o d e li s e f f i c i e n ta n d p r a c t i c a l k e y w o r d s :d a t am i n i n g ,t i m es e r i e s ,t r e n da n a l y s i s ,f o r e c a s t i n g i i i 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对 本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 一 , 学位论文作者签名:f 争摔 可咖石年r 月砑日 学位论文版权使用授权书 本学位论文作者完全了解我院有关保留、使用学位论文的规定, 即:我院有权保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅。本人授权武汉工程大学研究生处可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存和汇编本学位论文。 保密o 、, 在 墨年解密后适用本授权书。 本论文属于 不保密0 。 ( 请在以上方框内打“ ) 学位论文作者签名:2 童茼 硼6 年r 月习日 指导教师签名:蒙你 2 曲年s 月) 7 日 第1 章绪论 第l 章绪论 1 1 数据挖掘概述 1 1 1 数据挖掘的产生和发展 近年来,随着计算机技术的飞速发展和应用的普及,人类社会已经 进入了一个信息化的时代,人们利用信息技术产生和搜集数据的能力大 幅度提高。数以千万计的数据库被用于商业管理、政府办公、科学研究 和工程开发等方面。特别是在一些采用集中或者分布式数据库存储技术 的领域,比如:金融投资、卫生保健、制造生产、通信网络、科学领域、 万维网( w w w ) 等n 1 。 收集工具的进步使我们拥有了数量庞大的数据。面对浩如烟海的数 据,急需一些新的工具和技术,能够将这些数据转化为有用的信息和知 识,从而解决“信息爆炸所带来的问题数据丰富,信息贫乏瞳1 。 过去对于数据的分析主要依赖人类分析员来进行,从而对数据的分析工 作也就变成了简单的根据专家知识从数据库进行查询和获取数据,并呈 现给分析人员做出决策。这种对收集数据进行传统的数理统计和数据管 理工具进行的分析不再适用。如何从海量数据中及时发现有用的知识, 提高信息利用率,并将这些有用的信息和知识运用到实际工作中去成为 一个迫切需要解决的问题,而数据挖掘就是一种从海量数据库中挖掘信 息的技术。4 1 。因此,数据挖掘( d a t am i n i n g ,d m ) ,通常又称为数据库 知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) ,越来越受到人们 的重视。 各项技术的发展也激发了数据挖掘的开发、应用和研究的兴趣, f r i e d m a n 列举了四个主要的技术理由: 1 超大规模数据库的出现,例如商业数据仓库和计算机自动收集 武汉工程大学硕士学位论文 数据记录; 2 先进的计算机技术,例如更快和更大的计算能力和并行体系结 构; 3 对巨大量数据的快速访问; 4 对这些数据应用精深的统计方法计算的能力。 因此,数据挖掘和知识发现可以说是数据库技术与信息技术发展的 一个必然趋势。当人们不再为获取数据而烦恼时,如何分析、理解并利 用这些数据就成为必然的要求。 知识发现瞄娟3 与数据挖掘是人工智能、机器学习与数据库技术相结 合的产物。k d d 一词首选出现在1 9 8 9 年8 月在美国底特律召开的第1 i 届国际人工智能联合会议的专题讨论会上。随后在1 9 9 1 年、1 9 9 3 年和 1 9 9 4 年都举行k d d 专题讨论会,汇集来自各个领域的研究人员和应用开 发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等 问题。随着参与人员的不断增多,k d d 国际会议发展成为年会。1 9 9 8 年 在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行 了学术讨论,并且有3 0 多家软件公司展示了他们的数据挖掘软件产品, 不少软件己在北美、欧洲等地得到应用。1 9 9 9 年在美国圣地亚哥举行的 第五界k d d 国际学术大会,参加人数近千人,投稿2 8 0 多篇。近年来的 国际会议涉及的范围更广,如数据挖掘与知识发现的基础理论、新的发 现算法、数据挖掘与数据仓库o l a p 的结合、可视化技术、知识表示方 法、w e b 中的数据挖掘等。此外,i e e e ,a c m ,i f i s ,v l d b ,s i g m o d 等 其他学会、学刊也纷纷把数据挖掘与知识发现列为会议议题或出版专 刊,成为当前国际上的一个研究热点。 1 1 2 数据挖掘的定义 到目前为止数据挖掘还没有一个严格的定义,从1 9 8 9 年到现在, d m 定义随着人们研究的不断深入也在不断完善,与数据挖掘类似名词还 第l 章绪论 有信息挖掘( i n f o r m a t i o nm i n e r ) ,知识获取( k n o w l e d g ee x t r a c t i o n ) , k d d 等。h a n d 认为数据挖掘是指从大量数据中获取有趣的或者有价值信 息的过程,s i m o u d i s 用d m 来代表由大数据库中抽取正确的、前所未知 的、可理解的并具有可操作性、能用来进行决策的信息的过程。在各种 文献中都有不完全一致的d m 定义。许多人认为广义上d m 是k d d 的同义 词,也有人认为数据挖掘仅仅是k d d 中的一个步骤。 数据挖掘没有一个完全统一的精确定义,一个比较公认的定义是 w j f r a w l e y ,g p i a t e t s k y s h a p i r o 等人提出的:数据挖掘,就是从大 型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未 知的潜在的有用信息,提取的知识表示为概念( c o n c e p t s ) 、规则( r u l e ) 、 规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式口1 。这里所说的知识并 不是指崭新的科学定理和数学公式,更不需要什么定理来证明。实际上, 所有发现的知识都是相对的,是有特定的前提和约束条件,并面向特定 的领域。数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数 据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观 的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间 的相互关联,甚至利用己有的数据对未来的活动进行预测。 从数据挖掘的定义上看,它与传统数据分析最重要的区别在于,是 否存在明确的前提下挖掘信息并发现知识。数据挖掘所得到的信息应具 有先前未知、有效性和可使用三个特征。 1 1 3 数据挖掘一般过程 数据挖掘的一般过程如图卜1 所示碡1 。一般来说,数据挖掘是一个 需要经过多次反复的,包括许多处理阶段的复杂处理过程,它不是一个 简单的线性过程,其中的每一个步骤都有可能回到前面的一个或者几个 步骤往复执行。数据挖掘过程一般可以分为4 个步骤: 1 确定目标 武汉t 程大学硕士学位论文 了解相关领域的有关情况,熟悉有关的背景知识,了解最终用户的 目标。一般来说,目标可以是关联规则发现、数据分类、回归、聚类、 数据汇总、概念描述、相关分析建模或者误差检测等等。如果把用户或 分析者的经验和知识结合起来,既可以减少工作量,又能使挖掘工作更 有目的性,更有成效。 皇迓笪b 黪断譬 譬冒宁馘 : 刈l :j 回穿i 压基i 。颦目一预骠的| 肭蝴l| 。 目标数据: ; 数据 l 上j 一i 一喜 l j j 一- ,r 2 数据准备 首先,生成目标数据集。选择一个数据集,或者针对一个变量或数 据样本的子集,在这个集合上进行数据挖掘工作。选取同类数据,处理 过程中的动态情况和变化、采样策略等; 其次,数据净化和预处理。正确处理噪声和奇异值,解决时间序列 信息和正确标准化等; 最后,数据变换和压缩。根据任务的目标,查找有用的特性来表示 数据。利用空间压缩或者变换的方法来减少要考虑的有效变量数目或者 找到数据的不变表示。 3 数据挖掘 第一、数据挖掘方法确定。根据挖掘的目标和用户的要求,确定所 第1 章绪论 发现的具体知识模式和类型,为选择或开发适合用户要求的数据挖掘算 法提供模式或模版; 第二、数据挖掘算法确定。根据所确定的模式,选择合适的数据挖 掘算法,这包括选择合适的参数、知识表示方式,并保证数据挖掘算法 与整个k d d 的评价标准相一致; 第三、数据挖掘。根据选定的算法,从数据中提取出用户所需要的 知识,查找感兴趣的模式。 4 表达、评价和巩固挖掘结果 第一、结果表达。尽量直观地表示挖掘结果,便于用户理解和使用, 可利用可视化方法表示为图表等方式; 第二、结果评价。筛选和评价挖掘结果中的有用部分,查找可接受 的结果。可以定义兴趣度指标,考虑结果的正确度、新颖度,把知识从 输出中过滤出来。利用可视化方法帮助用户解决所提取知识的有效性或 对基本的数据和现象做出结论; 第三、知识巩固。把挖掘出的知识结合到执行系统中,了解这些知 识的作用。用预先知道且可信的知识来检查和验证新挖掘的知识,解决 可能存在的矛盾或者把它报告给用户,由用户进一步分析。 一般在整个挖掘过程中,约2 0 的时间用于挖掘目标,约6 0 的时 间用于数据准备,数据挖掘和知识分析都为约1 0 内1 。可见,在一个数 据挖掘项目中,真正采用数据挖掘算法进行分析的工作量并不大,项目 目标确定以及全部数据准备工作占了绝大部分的工作。 1 1 。4 数据挖掘发展趋势 前面讨论数据挖掘的一般性原理和方法,但要对海量数据实施有效 的数据挖掘,还要与特定的数据挖掘应用领域相结合,例如针对生物医 学与d n a 数据分析的数据挖掘,针对金融数据分析的数据挖掘,针对商 业零售业数据分析的数据挖掘等等。只有将数据挖掘一般技术与特定领 武汉j r 程人学硕七学位论文 域知识相结合,才能设计出合适的数据挖掘方案。由于数据本身、数据 挖掘任务及技术的多样性,数据挖掘领域还存在许多挑战性课题。数据 挖掘语言设计,高效而有用的数据挖掘方法和系统的开发,交互何集成 的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都 是目前数据挖掘研究人员、系统和开发人员所面临的问题。数据挖掘的 发展趋势是: ( 1 ) 应用的探索。早起的数据挖掘应用主要集中在帮助企业提升 竞争力,随着数据挖掘的日益普及,数据挖掘也日益探索其他应用范围, 例如生物医学、金融欺诈、客户分析等等。此外,随着电子商务和电子 市场逐渐成为零售业的主流因素,数据挖掘也在不断扩展其在商业领域 的应用。通用数据挖掘系统在处理特定应用问题时有其局限性,因此目 前的一种趋势是开发针对特定应用的数据挖掘系统。 ( 2 ) 可伸缩的数据挖掘算法。与传统的数据分析方法相比,数据 挖掘必须能够有效处理大量数据,而且尽可能是交互式的。由于数据量 是在不断的激增,因此针对单独的和集成的数据挖掘功能的可伸缩算法 显得十分重要。一个重要的方向是所谓基于约束的挖掘。它致力于增加 用户交互的同时如何改进挖掘处理的总体效率。它提供了额外的控制方 法,允许用户说明和使用约束,引导数据挖掘系统对感兴趣的模式进行 挖掘搜索。 ( 3 ) 数据挖掘和数据库系统、数据仓库系统及w e b 数据库系统的 集成。数据库系统、数据仓库系统和w w w 已经成为信息处理的主流。保 证数据挖掘作为基本的数据分析模块能够顺利的集成到此类信息处理 环境中是十分重要的。数据挖掘系统的理想体系结构是与数据库和数据 仓库系统的紧耦合方式,事务管理、查询处理、联机分析处理和联机分 析挖掘应集成在一个统一的框架内。这样可以保证数据的可获得性,数 据挖掘的可移植性、可伸缩性以及对多维数据分析和探察的集成信息处 理环境。 6 第1 章绪论 ( 4 ) 数据挖掘语言的标准化。标准的数据挖掘语言或者其他方面 的标准化工作将有助于数据挖掘系统开发,改进多个数据挖掘系统和功 能间的互操作,促进数据挖掘系统在企业和社会中的教育和使用。 ( 5 ) 可视化数据挖掘。可视化数据挖掘是从大量数据中发现知识 的有效途径。系统研究和开发可视化数据挖掘技术将有助于推进数据挖 掘作为数据分析的基本工具。 ( 6 ) 复杂数据类型挖掘的新方法。复杂数据类型挖掘是数据挖掘 中一项重要的前沿研究课题。虽然在地理空间挖掘、多媒体挖掘、时间 序列挖掘以及文本挖掘方面取得一些进展,但他们与实际应用的需要仍 旧存在很大的距离。对此需要进一步的研究,尤其是把针对上述数据类 型的现存数据分析技术与数据挖掘方法集成起来的研究。 ( 7 ) w e b 挖掘。w e b 在当今社会扮演着越来越重要的角色,因此有 关w e b 内容挖掘、日志挖掘和i n t e r n e t 上的数据挖掘服务将成为数据 挖掘中一个最重要和繁荣的子领域。 ( 8 ) 数据挖掘的隐私保护与信息安全。随着数据挖掘工具和电信 与计算机网络的日益普及,数据挖掘要面对的一个重要问题就是隐私保 护和信息安全,需要进一步开发相关方法。 1 2 数据挖掘主要技术 1 2 1 聚类分析 聚类就是将数据对象分组成为多个类或簇,划分的原则是在同一个 簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类 操作中要划分的类是事先未知的,类的形成完全是数据驱动的,属于一 种无指导的学习方法。对于一个很大的多维数据集,在数据空间中数据 点通常不会均匀分布。数据聚类方法可以找出稀疏和稠密的位置,进而 发现数据集的整个分布模式。当要分析的数据缺乏描述信息,或者无法 武汉工程大学硕士学位论文 组织成任何分类模式时,利用聚类可以自动找到合适的分类。聚类方法 包括统计方法,机器学习和神经网络方法等。根据聚类分析算法的主要 思路,它可以被归纳为如下几种:( 1 ) 划分法:试图找到一个最优划分 从而把数据分成指定数量聚类的方法;( 2 ) 层次法:试图发现聚类机构 的层次方法;( 3 ) 基于密度的方法:判断数据对象是否属于相连的密度 域,属于相连密度域的数据对象归为一类;( 4 ) 基于网格的方法:将数 据空间划分为有限个单元( c e l l ) 的网格结构,所有的处理都是以单个 单元为对象的;( 5 ) 基于模型的方法:给每一个簇假定一个模型,然后 去寻找能够很好地满足这个模型的数据集。 1 2 2 分类和预测 分类和预测是数据挖掘中一个十分重要的研究领域,有着几乎最广 泛的应用范围,在商务领域中普遍存在。有很多成功的应用案例,如客 户购买行为分析、信用评级、畅销商品分类、医疗诊断、客户忠诚度分 析、股票预测、客户关系管理等等。目前对分类和预测的研究比较集中 于挖掘算法的研究,己出现许多的挖掘算法,包括来自机器学习、专家 系统、统计学和神经生物学方面的各种技术,每种算法各有其优缺点, 在理论上还没有发现有一种方法对所有数据都优于其他方法。 分类的目的是学会一个分类函数或者分类模型( 也常称为分类器) , 该模型能把数据库中的数据项根据其共同属性,映射到给定类别中的某 一个。分类和回归都可以用于预测。预测的目的是利用历史数据记录自 动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归 方法不同,分类的输出是离散的类别值,而回归的输出则是连续值。要 构造分类器,需要有一个训练样本数据( 训练集) 作为输入。训练集由 一组数据库记录或者元组数据构成,每个元组数据是一个关键字段( 又 称为属性或特征) 值组成的特征向量,这些字段和大数据库( 测试集) 中的记录字段相同。另外,每个训练样本还有一个类标记。一个具体样 8 第1 章绪论 本的形式可以表示为:( v l ,v 2 ,v n ;c ) ,其中,v i 表示字段值,c 表示类别。 分类器的构造有统计方法、机器学习方法和神经网络方法等等。统 计方法包括贝叶斯法和非参数法( 近邻学习或基于事例学习: i n s t a n c e 扎a s e dl e a r n i n g ,i b l ) ,对应的知识表示为判别函数和原型 事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决 策树或判别树,后者则一般为产生式规则。神经网络方法主要是b p 算 法,它的模型表示是前向反馈神经网络模型( 由代表神经元的节点和代 表联接权值的边组成的一种体系结构) ,b p 算法本质上是一种非线性判 别函数。粗糙集( r o u g h s e t ) 和支持向量机( s u p p o r tv e c t o rm a c h i n e ) 是最近兴起的新方法。下面介绍几个主要的分类方法。 ( 1 ) 贝叶斯分类法 贝叶斯分类是统计分类方法,可预测类成员关系的可能性。贝叶斯 分类的基础是贝叶斯定理。当类条件独立假设成立时,即假定一个属性 值对给定类的影响独立与其他属性值,称为朴素贝叶斯分类算法。朴素 贝叶斯分类算法性能可以和决策树与神经网络算法相媲美,而对于大型 数据库,具有高准确率和高速度的特点。 ( 2 ) 决策树分类法 决策树( d e c i s i o nt r e e ) 模型的基本原理是以一种递归方式来划 分变量。其树状结构内部每一个节点表示在一个属性上的测试,每个分 支代表一个测试输出,最终每个叶子节点表示了类或类分布。 ( 3 ) 支持向量机( s v m ) 支持向量机是统计学习理论的一个实现方法。统计学习理论是目前 针对小样本统计估计和预测学习的最佳理论,它从理论上系统地研究了 经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关 系及如何利用这些理论找到新的学习原则和方法等问题。 不同的分类器有不同的特点。有三种分类器评价或比较尺度:( 1 ) 9 武汉工程大学硕士学位论文 预测准确度;( 2 ) 计算复杂度;( 3 ) 模型描述的简洁度。预测准确度是 用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方 法是1 0 番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件 环境,在数据挖掘中,由于操作对象是巨量的数据库,因此空间和时间 的复杂度问题将是非常重要的一个环节。 1 2 3 关联规则 关联规则挖掘是用于发现大量数据中项集之间“有趣的关系或相 关联系。典型的关联规则形式是购物篮分析,用于发现交易数据库中不 同商品( 项) 之间的联系,通过这些规则找出顾客购买行为模式,如购 买了某一商品对购买其他商品的影响。最初关联规则挖掘是对事物数据 库来进行的。 给定一个交易集d ,挖掘关联规则问题就是产生支持度和可信度分 别大于用户给定最小支持闭值m i ns u p 和最小置信域值m i nc o n f 的规 则,也称为强规则。包含k 个项的项集称为k 一项集;项集出现的频率是 包含项集的事物数,又称为项集的频率或计数;项集满足最小支持度m i n s u p ,即项集的出项频率大于等于m i ns u p 于d 中事物的总数的乘积; 如果项集满足最小支持度,则称为频繁项集( f r e q u e n ti t e m s e t ) 。 a g r a w a l n 们等在1 9 9 3 年设计了一个基本算法,提出了挖掘关联规则 的一个重要方法。这是一个基于两阶段频集思想的方法,将关联规则挖 掘算法的设计可以分解为两个子问题:( 1 ) 找到所有支持度大于最小支 持度频繁相集;( 2 ) 使用第1 步找到的频集产生期望的强关联规则。 为进一步提高a p r i o r i 算法效率,已经有许多改进算法,所采用的 主要技术如下: ( 1 ) 基于划分的方法。s a v a s e r e 等n 把数据库从逻辑上分成几个 互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把 产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持 第l 章绪论 度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只 需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分 块中是频集保证的。最后再对数据库进行一次扫描来确定哪些局部频集 是真正的全局频繁相集。上面所讨论的算法是可以高度并行的。更多的 关于生成频集的并行化方法可以在文献中找到。 ( 2 ) 基于h a s h 的方法。该算法由p a r k n 2 3 等在1 9 9 5 年提出。通过 实验发现寻找频繁项集的主要计算是在生成频繁2 项集l 2 上,p a r k 就 是利用这个性质引入散列技术来改进产生频繁2 项集的方法。 其基本思想是:当扫描数据库中每个事务,由c 1 中的候选1 项集 产生频繁1 项集l 1 时,对每个事务产生所有的2 项集,将它们散列到 散列表结构的不同桶中,并增加对应的桶计数,在散列表中对应的桶计 数低于支持度阈值的2 项集不可能是频繁2 项集,可从候选2 项集中删 除,这样就可大大压缩了要考虑的2 项集。 ( 3 ) 基于采样的方法。其基本思想是在给定数据的一个子集挖掘。 对前一遍扫描得到的信息,仔细地组合分析,可以得到一个改进的算法, m a n n i l a 等n 3 1 先考虑了这一点,他们认为采样是发现规则的一个有效途 径。随后又由t o i v o n e n n 4 1 进一步发展了这个思想,先使用从数据库中抽 取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库 的剩余部分验证这个结果。t o i v o n e n 的算法相当简单并显著地减少了 i o 代价,但是一个很大的缺点就是产生的结果不精确,即存在所谓的 数据扭曲( d a t as k e w ) 。分布在同一页面上的数据时常是高度相关的, 可能不能表示整个数据库中模式的分布,由此而导致的是采样5 的交易 数据所花费的代价可能同扫描一遍数据库相近。 ( 4 ) 动态项集计数。b r i n n 5 1 等人给出该算法。动态项集计数技术 将数据库划分为标记开始点的块。不象a p r i o r i 仅在每次完整的数据库 扫描之前确定新的候选,在这种变形中,可以在任何开始点添加新的候 选项集。该技术动态地评估以被计数的所有项集的支持度,如果一个项 武汉工程大学硕七学位论文 集的所有子集以被确定为频繁的,则添加它作为新的候选。结果算法需 要的数据库扫描比k p r i o r i 少。 1 3 时间序列数据挖掘 1 3 1 基本概念 时序数据( t i m es e r i e s ) 是指一些在相同时间间隔下获得的,并且 随时间变化的序列值整数或实数。时间序列就是按时间顺序取得的一系 列的观测值n 7 i 。而一个时间序列数据库则是包含时序数据的数据库。 在时序数据的挖掘研究中,时序数据一般可以分为以下几类n 8 l : 1 数值型序列。即传统意义上狭义的时间序列。构成序列的元素 是数值型的。如:股票价格的历史数据,网站的点击率等。如果不加特 殊说明,本文以后的时间序列专指这种狭义的时间序列。对时间序列而 言,单个或多个时间序列都可以作为挖掘对象。 2 事务型序列。构成序列的元素是事务型( t r a n s a c t i o n a l ) 的。 我们称这种序列为事务序列。比如,顾客在某一时间段内购买商品的记 录序列。对事务序列而言,一般都是一组这类序列的集合构成挖掘的对 象。 3 事件型序列。构成序列的元素是事件( e v e n t s ) 。这种序列称为 事件序列( e v e n t ss e q u e n c e s ) 。比如无线通信网中的故障序列,用户 的界面交互行为序列。大多数事件序列的挖掘研究是对单个事件序列进 行的。 时间序列数据是广泛存在的,包括在线监视系统数据,流程工业如 电力和化工,通讯业实时呼叫数据,医学数据,统计数据,商务数据, 网络数据,天文数据等等。人们希望通过对时间序列的分析,从大量的 数据中发现和揭示某一现象的发展变化规律或从动态的角度刻画某一 现象与其他现象之间的内在数量关系,以掌握和控制未来行为。时间序 第1 章绪论 列挖掘通过对过去历史行为的客观记录分析,揭示其内在规律( 如波动 的周期、振幅、趋势的种类等) ,进而完成预测未来行为等决策性工作。 简言之,时间序列数据挖掘就是要从大量的时间序列数据中提取人 们事先不知道的,但又是潜在有用的、与时间属性相关的信息和知识, 并用于短期、中期或长期预测,指导人们的社会、经济、军事和生活等 行为。 1 3 2 研究现状 将现有的数据挖掘算法应用到时序数据中,以及研究新的适合时序 数据挖掘的技术是目前的研究重点。通过各类研究情况可以看出,国外 已经逐渐开始将数据挖掘的思想运用到时间序列研究中去,作为一种新 的时序问题处理方法。国内相关领域的文献对时间序列的数据挖掘少有 提及。 当前对时间序列的数据挖掘的研究基本上还处于起步阶段。研究工 作比较零散、不系统。大部分工作都是比较生硬地将数据挖掘的方法应 用到时序数据分析处理上,或是很少考虑时序问题本身的背景知识,或 是发现的规律不具有一般性。从时间序列问题的本质出发,对时序进行 数据挖掘,从中发现一般性的确定性规律的研究还有待进行。 1 3 3 目前问题的分析 数据挖掘的任务就是发现隐藏在数据中的模式。其可以发现的模式 一般分为两大类:描述型( d e s c r i p t i v e ) 模式和预测型( p r e d i c t i v e ) 模式。描述型模式是对当前数据中存在的规则作一种描述,刻画当前数 据的一般特性;预测型模式则是以时间为关键参数,对于时间序列型数 据,根据其历史和当前的值去预测其未来的值。 时序数据的数据记录的数目一般都很大,数据挖掘算法在典型应用 中不是非常有效,必须要对数据进行有效的抽象和概化。有许多方法包 武汉t 程大学硕士学位论文 括傅立叶转换、关系树、r + 数,这些方法有一些成功,但是有很多缺陷, 包括对噪声敏感,需要调整各种参数等等。此外,时序数据的处理还要 考虑不同的数据格式,不同的取样率,噪声数据,不完整的数据等。 近年来,数据挖掘技术得到广泛应用,它的目的在于从数据中发现 隐含的重要信息,挖掘出这些信息可以帮助人们的决策。常规的数据挖 掘技术被广泛应用于各种类型的数据中,但是对于加入时间特性的数据 时序数据而言,用常规的方法进行挖掘和知识发现存在新的困难。 如何扩展传统的数据挖掘算法,并提出新的挖掘算法,以适合时序数据 的挖掘,是一个研究热点。 1 3 4 时序数据的挖掘技术 时间序列数据挖掘是复杂类型数据挖掘中的一个重要分支,这类数 据是与时间相关的。它们的研究主要有:趋势分析、相似性搜索、与时 间有关数据的序列模式挖掘和周期模式挖掘n 蚪。 现有的数据挖掘技术种类极为繁多,随着越来越多的技术、模型、 思想被应用到数据挖掘领域内,数据挖掘包含的内容也将越来越丰富。 在时序数据挖掘中比较常用的方法有统计学,遗传学,决策树和神经网 络。近几年来,时序数据的挖掘技术又有了新的进展,如对b a y e s 方法 和b o o s t i n g 方法的研究、数据挖掘中传统统计回归方法的应用、数据 挖掘技术与数据库技术的紧密结合等。许多挖掘任务都是综合应用了多 种数据挖掘技术。此外,应用于商业的数据挖掘工具也不断产生和完善, 如i b m 公司a l m a d e n 研究中心开发的q u e s t 系统,加拿大s i m o nf r a s e r 大学开发的d b m i n e r 系统都是可以运用多种技术进行挖掘的通用数据挖 掘软件。 时间序列预测方法在各种基于时态数据库的计算中具有广泛的应 用前景,如股票市场和商业市场的行情预测等晗2 1 。时间序列心3 屯4 1 预测方 法的基本思想是:预测一个现象的未来变化时,用该现象的过去行为来 第1 章绪论 预测未来,即通过时间序列的历史数据揭示现象随时间变化的规律,建 立适当的预测模型,再根据惯性原则,假定预测对象以往的变化趋势会 延续到将来,从而对该现象的未来做出预测。 1 3 5 时序数据的趋势分析 时序数据的趋势分析模式挖掘就是通过对趋势、循环、季节和非规 则成分的变动的系统分析,使人们可以在比较合理的情况下,制定出长 期或短期的预测( 即预报时序) 。一个时序变量y 值,比如表示股票市 场中l 股的每日收盘价,它可以表示为时间为t 的函数,即y :,( f ) 。 目前有四种主要的变化或成分用于特化的时序数据: 1 长期或趋势变化:它用于反映一般的变化方向,其时序图是在 较长时间间隔上的数据变化。这种变化反映为一种趋势或趋势曲线。 2 循环变动或循环变化:主要指循环性,即趋势线或曲线在长时 间内呈摆动迹象,它也可以不是周期性的。即在等时间间隔之间,循环 不需要沿着同样的模式前进。 3 季节变动或季节性变化:它反映的是每年都重复出现的事件。 换句话说,季节性变动是指在同一或近似同一的模式,在连续几年的有 关月份都重复出现。 4 非规则或随机变化:它反映的是偶然事件引起的零星时序变化, 如劳工纠纷、洪水或企业内发生的人事变动等。 以上有关趋势时序数据的趋势的、循环的、季节的和非规则的变动, 可以分别用变量t ,s ,c ,i 表示,时序分析也可以将时序分解为以上 四个基本运动的分析。时序变量y 通常可以分解为4 个变量的积( 即y - t c s i ) ,或4 个变量的和( 即y = t + c + s + i ) 。其选择通常是凭经 验的。 武汉工程大学硕士学位论文 1 4 课题的研究价值和意义 在许多现实的数据库中,数据常常与时间有关。按时间序列取得的 一系列观测值称为时序数据。从经济到工程、从天文到地理,几乎在各 个领域都会有时序数据,心电图,气象数据,地矿信息等。时序数据中 包含着许多很有用的信息,蕴藏着许多潜在的事物发展规律。如何从海 量的时序数据中发掘隐含的、先前未知的、潜在有用的信息,以掌握事 物发展的规律与趋势,就是时序数据挖掘的任务。 预测是时间序列分析的一个重要应用。对时间序列数据进行分析, 从中获取所蕴含的关于生成时间序列的系统的演化规律,以完成对系统 的观测及其未来行为的预测,这在工程应用中具有重要的价值和意义。 电力负荷数据是一种典型的时序数据。在电力系统中,各种数据构 成了一个极其庞大的信息存储体系。然而在实际运作中,大量的有用数 据并没有得到充分开发和利用,但这些信息在决策生成的过程中却具有 重要的参考价值。对电力数据的分析意义重大,例如对负荷数据的短期 分析可以帮助了解设备综合运转状况,而对它的长期分析可以获得需 求,电网约束等信息。 在实际的电能计量管理系统中引入时序数据挖掘方法,对电力负荷 进行预测,能够提高生产的高效性,利用历史数据进行分析、挖掘、预 测,提高竞争力。 1 5 本文的研究目标和内容 本课题是以钢铁企业的某分公司的电能计量管理系统的项目为背 景进行的研究与应用。 时间序列挖掘方法主要是通过分析对象( 包括总类和细类) 的历史 数据,预测该对象在将来一段时间内的可能数据,并分析数据的未来发 展趋势等等。本文主要围绕数据挖掘技术,探讨了基于时间序列数据的 1 6 第1 章绪论 挖掘技术及改进方法,并结合实际系统,将数据挖掘技术应用到原有系 统中,以期从大量的业务数据中,分析并挖掘数据间潜在的有用信息, 为企业的经营决策提供依据。 文中详细讨论了线性回归模型、指数平滑模型、灰色预测模型三种 时间序列数据挖掘方法。包括对各种方法的建模原理及流程进行研究与 探讨,并对各种方法现存的各种缺陷进行分析,提出了一些改进措施, 主要是针对各模型参数的优化与改进。另外还详细介绍各模型的检验方 法,并通过两个时间数据序列的实例进行编程计算分析,验证各模型的 精度和可靠性。 此外,基于有效利用各种模型的优点,克服单一模型的缺陷,建立 组合模型来弥补各个模型的缺点。组合预测的基本思想,就是采用某种 恰当的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论