(计算机应用技术专业论文)神经网络预测及其在科学数据挖掘中的应用.pdf_第1页
(计算机应用技术专业论文)神经网络预测及其在科学数据挖掘中的应用.pdf_第2页
(计算机应用技术专业论文)神经网络预测及其在科学数据挖掘中的应用.pdf_第3页
(计算机应用技术专业论文)神经网络预测及其在科学数据挖掘中的应用.pdf_第4页
(计算机应用技术专业论文)神经网络预测及其在科学数据挖掘中的应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)神经网络预测及其在科学数据挖掘中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 预测是根据过去和现在的情况,对未来的发展做出预见性的判断。预测对于 科学研究有着重要的意义。预测的基础就在于对历史数据的处理。计算机技术的 出现,为迅速收集和处理历史数据提供了有力的工具。但是,人们也遇到了极大 的难题,那就是面对成百上千兆的数据,人们无从下手。9 0 年代初人们提出数据 挖掘技术来处理海量的数据,提取信息,数据挖掘得到了越来越广泛的应用。数 据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分有两大类:预测 型模式和描述型模式:预测型模式是可以根据数据项的值精确确定某种结果的模 式;描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数 据分组。因此,数据挖掘的功能大致可以分为两类:对现在的描述和对未来的预 测。而对现在准确的描述,正是对未来精确预测的基础,甚至可以说,数据挖掘 的功能就是预测。当前,数据挖掘的研究已经形成了热点,在数据挖掘中综合运 用了各学科的技术,它不仅涉及统计学原理,而且包括数据库管理,人工智能, 机器学习,模式识别,以及数据可视化等学科。在对大规模科学数据进行处理时, 往往会因为其具有规模大、特征复杂的特点,使得理解、分析这些科学数据,并 从中获取知识变得十分困难,由此科学数据挖掘势在必行。 本文从理论、算法及应用三个层面讨论了神经网络预测理论在科学数据挖掘 中的应用。在科学计算领域中,随着高性能计算机的发展和并行计算方法的实现, 科学仿真程序产生了海量的数值模拟计算数据,很容易突破g b 级的规模,达到 t b 甚至p b 级,其存储是个亟待解决的问题。本文针对项目中的强激光与等离子 体相互作用的三维数值模拟程序的数据输出瓶颈问题,选用专业的科学数据管理 软件h d f 5 进行数据的管理,并且通过h d f 5 提供的a p i 接口调用压缩库z l i b ,在 输出数据的同时选用合适的压缩算法进行实时的压缩存储。如何在可用的几种压 缩算法中选择能使当前时间步输出数据达到最好压缩比的算法进行压缩,从而获 得较好的空间存储效率。本文使用神经网络技术来预测,并编制相应的软件,实 现对科学仿真程序的压缩比预测。 关键词:神经网络,数据挖掘,科学数据,压缩比预测,软件设计 a b s t r a c t a b s t r a c t p r e d i c t i o nc a nm a k eaj u d g m e n tf o rt h ed e v e l o p m e n to ft h ef u t u r ea c c o r d i n gt o t h ep a s ta n dp r e s e n ts i t u a t i o n s b a s e do nt h e p r o c e s s i n go fh i s t o r i c a ld a t a ,i t i s i m p o r t a n tf o rs c i e n c er e s e a r c h t h ec o m p u t e rt e c h n o l o g yc o m i n gi sap o w e r f u lt o o lf o r c o l l e c t i n ga n dp r o c e s s i n gh i s t o r i c a ld a t ar a p i d l y b u th o wt od e a lw i t ht h o u s a n d so f m e g a b y t e s o fd a t ae f f i c i e n t l yi sa g r e a tp r o b l e mf o ra l lp e o p l e ,a tt h eb e g i n n i n go f9 0 s , p e o p l eb e g a nt oe x t r a c ti n f o r m a t i o nf r o ms e a so fd a t au s i n gd a t am i n i n gt e c h n o l o g y a n dt h e ni th a sg o tw i d e r a p p l i c a t i o n t h et a s ko fd a t am i n i n gi sf i n d i n gp a t t e r n sf r o m d a t a t h ep a t t e r nc a nb ed i v i d e di n t ot w o c a t e g o r i e s :p r e d i c t i v ea n dd e s c r i p t i v ep a t t e r n t h ep r e d i c t i v ep a t t e r nc a ng e tc e r t a i nr e s u l tp a t t e r np r e c i s e l yf r o md a t aa n dt h e d e s c r i p t i v ep a t t e r ni s t h ed e s c r i p t i o na b o u tar u l ee x i s t i n gi nd a t a s e t so rg r o u p i n gd a t a b yt h e i rs i m i l a r i t i e s s ot h ef u n c t i o no fd a t am i n i n gc a nb ec l a s s i f i e di n t ot w oc l a s s e s t h a ta r ed e s c r i p t i o np r e s e n ta n dp r e d i c t i o nf o rf u t u r e e x a c td e s c r i p t i o np r e s e n ti st h e f o u n d a t i o no ft h ep r e c i s ep r e d i c t i o nf o rf u t u r ee v e nw ec a ns a yt h a tt h ef u n c t i o no fd a t a m i n i n gi sj u s tp r e d i c t i n gf u t u r e t h ed a t am i n i n gr e s e a r c hh a sc o m i n gi n t oah o ti s s u e n o wa n di n v o l v e dv a r i o u ss u b j e c t sm a i n l yi n c l u d i n gt h ep r i n c i p l eo fs t a t i s t i c s ,d a t a b a s e m a n a g e m e n t ,a r t i f i c i a li n t e l l i g e n c e ,m a c h i n el e a r n i n g ,p a t t e r nr e c o g n i t i o n ,d a t a v i s u a l i z a t i o na n ds oo n s c i e n t i f i cd a t aw i t hc o m p l e xf e a t u r em a k e si tv e r yd i f f i c u l tt o u n d e r s t a n d ,a n a l y z ea n de x t r a c tk n o w l e d g ef r o mt h e m s ow en e e dm o r ep o w e r f u l s c i e n t i f i cd a t aa n a l y z i n gt o o l :s c i e n t i f i cd a t am i n i n g t h i st h e s i sf o c u s e so nt h ea p p l i c a t i o no fn e u r a ln e t w o r kp r e d i c t i o nt h e o r yi n s c i e n t i f i cd a t am i n i n gf r o mt h r e ea s p e c t s :t h e o r y , a l g o r i t h ma n da p p l i c a t i o n w i t ht h e d e v e l o p m e n to fh i 曲p e r f o r m a n c ec o m p u t e ra n di m p l e m e n t a t i o no fp a r a l l e lc o m p u t i n g m e t h o di ns c i e n c ec o m p u t i n gf i e l d s ,s c i e n t i f i cs i m u l a t i o np r o g r a mp r o d u c e ss e a so f n u m e r i c a lc o m p u t i n gd a t aw h i c hc a nb r e a kt h r o u g ht h es c a l eo fg be a s i l y ,a m o u n t i n g t ot bo re v e np bl e v e l s oh o wt os t o r et h e s ed a t ae f f e c t i v e l yi sap r o b l e mw h i c h n e e d st ob es o l v e ds o o n w eu s ep r o f e s s i o n a ls c i e n t i f i cd a t am a n a g e m e n ts o f t w a r e h d f 5t om a n a g eo u t p u td a t a o fat h r e e - d i m e n s i o n a le l e c t r o m a g n e t i cp r o g r a mf o r l a s e r - p l a s m ai n t e r a c t i o na n dc a l lc o m p r e s s i o nl i b r a r yz l i bp r o v i d e db yh d f 5 t os e l e c t s u i t a b l ec o m p r e s s i o na l g o r i t h m h o wt os e l e c tt h em o s te f f i c i e n ta l g o r i t h ma m o n g i i a b s t r a c t s e v e r a la v a i l a b l ec o m p r e s s i o na l g o r i t h m sw h i c ha c h i e v e sb e s td a t ac o m p r e s s i o nr a t i o t oi m p r o v et h ed a t as t o r i n ge f f i c i e n c y t h et h e s i sp r e s e n t sa na p p r o a c hb a s e do nn e u r a l n e t w o r kt e c h n o l o g yt op r e d i c ts c i e n t i f i cd a t ac o m p r e s s i o nr a t i oa n di t si m p l e m e n t a t i o n k e y w o r d s :n e u r a ln e t w o r k ,d a t am i n i n g ,s c i e n t i f i cd a t a ,c o m p r e s s i o nr a t i o p r e d i c t i o n ,s o f t w a r ed e s i g n 1 1 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:茔拯日期:z 0 0 6 年r 月2 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:簪丝导师签名: 日期:加- 年r 月z 日 第一章引言 1 1 选题意义 第一章引言 本项目来源于国家自然科学基金项目基于神经网络的大规模数值模拟数据 分析技术研究( 项目编号1 0 4 7 6 0 0 6 a 0 6 ) ,目标是形成一个实用的科学数据挖掘 工具,使其能适用于科学数据分析,从而指导科学家的科研工作。 随着高性能计算机的发展、并行计算方法的改进与应用实现,尤其随着计算 规模的增大和计算精度的提高,产生了大量的、复杂的数值模拟计算数据。数据 量规模已达t b ,当一个模拟产生具有上千个时间步和几十亿个网格上t b 规模的 数据场时,采用传统的可视化工具和以往的数据存储及管理方法,分析和解释这 些数据是非常困难的,因此,计算数据管理问题解决的任何滞后,将会严重制约 科学家对结果数据的分析、理解、评估和挖掘能力,更谈不上实时数据分析了。 本项目相关的三维数值模拟程序主要研究激光在等离子体传播过程中的激 光吸收和能量分配,它采用了粒子云网格法,在m p i 平台上对离散时间步进行并 行计算,按照一定时间步间隔将物理量数据写到磁盘上。但是随着计算规模和计 算精度的提高,程序产生数据的规模也越来越大,一个时间步的单物理量数据就 达到了2 4 g b 。而为了得到一个真实的三维模拟过程,往往需要上百个甚至上千个 时间步的数据,整个数据量规模已达t b ( 1 0 ”) 字节。现有的计算环境无法满足数 据存储的要求,因此在实际应用中,只能减少网格规模,减少输出时间步,甚至 有时只能输出二维切片数据,无法得到真实的三维数据。 “3 针对该仿真程序的数据输出瓶颈问题,这里选用h d f 5 ( h i e r a r c h i c a ld a t a f o r m a t ) 软件构建科学数据管理系统。h d f 5 作为专业存储科学数据的软件库及文 件格式,能存储不同种类的科学数据,比如图像、矢量数组、结构网格、非结构 网格等,并且通过h d f 5 提供的a p i 接口调用压缩库z l i b ,可在输出数据的同时 选用合适的压缩算法进行压缩后存储。 如何针对仿真程序输出数据块的特征选用最适合的压缩算法,本文使用神经 网络技术,预测选择当前时间输出数据流最适合的压缩算法进行实时压缩,并从 实验的角度验证了此设想。 电子科技大学硕士学位论文 1 2 论文的研究背景 预测是根据过去和现在的情况,对未来的发展做出预见性的判断。预测的最 大作用在于为决策服务,可以说没有正确的预测也就没有科学的决策,同样预测 对于科学研究也有着重要的意义。预测作为一门科学,是根据事物发展的历史, 运用定性和定量的方法,对其进行分析,揭示事物内在的规律,对未来发展做出 科学的判断和预见。 预测的基础就在于对历史数据的处理。计算机技术的出现,为迅速收集和处 理历史数据提供了有力的工具。但是,人们也遇到了极大的难题,那就是面对成 白j 二干兆的数据,人们无从下手。9 0 年代初人们提出数据挖掘技术米处理海量的 数据,提取信息,数据挖掘得到了越来越广泛的应用。1 9 9 5 年,在加拿大蒙特利 尔召开了第一届知识发现和数据挖掘国际会议,使得数据挖掘获得了极大的关注, 有力地椎动了数据挖掘的发展。到目前为止,人们提出了形形色色的数据挖掘定 义,普遍为人接受的定义是:数据挖掘就是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的,人们事先不知道的,但是又有潜在价值 的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识 ( k d d ) 、数据分析、数据融合( d a t af u s i o r l ) 以及决策支持等。原始数据可以是结 构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据, 甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数 学的:可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询 优化、决策支持、过程控制等,还可以用于数据自身的维护。 当前,数据挖掘的研究已经形成了热点,在数据挖掘中综合运用了各学科的 技术,它不仅涉及统计学原理,而且包括数据库管理,人工智能,机器学习,模 式识别,以及数据可视化等学科。因此,数据挖掘是一门广义的交叉学科,它汇聚 了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等 方面的学者和工程技术人员。特别要指出的是,数据挖掘技术从一开始就是面向应 用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微 观、中观乃至宏观的统计、分析、综合、推理、学习和评估,以指导实际问题的求 解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。 数据挖掘主要有以下步骤组成: ( 1 ) 数据预处理( 数据清洗、数据选择、数据变换、特征提取等步骤) ( 2 ) 作知识发现( 分类分析、聚类分析、关联分析等) 第一章引言 ( 3 ) 模式评估( 识别表示知识的真正有趣的模式) “) 知识表示和预测( 使用可视化和知识表示技术,向用户提供挖掘的知识) 数据挖掘自动在大量数据中寻找预测性信息,以往需要领域专家和分析人员 进行大量人工分析的问题,如今可以直接由数据本身迅速得出给予知识的决策。 数据挖掘的任务是从数据中发现模式。模式是一个用语言z 来表示的一个表 达式e 它可用来描述数据集f 中数据的特性,f 所描述的数据是集合,的一个子 集f e oe 作为一个模式要求它比列举数据子集甩中所有元素的描述方法简单。例 如,“如果成绩在8 1 - - 9 0 之间,则成绩优良”可称为一个模式,而“如果成绩为 8 l 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称之为一个模 式。 模式有很多种,按功能可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型 ( d e s c r i p t i v e ) 模式:预测型模式是可以根据数据项的值精确确定某种结果的模 式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。例如,根据各种 动物的资料,可以建立这样的模式:凡是胎生的动物都是哺乳类动物。当有新的 动物资料时,就可以根据这个模式判别此动物是否是哺乳动物:描述型模式是对 数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式 不能直接用于预测。例如,在地球上,7 0 的表面被水覆盖,3 0 是土地。 因此,数掘挖掘的功能大致可以分为两类:对现在的描述和对未来的预测。 而对现在准确的描述,正是对未来精确预测的基础。甚至可以说,数据挖掘的功 能就是预测。此外,在后面的叙述中,我们会发现,在数据挖掘中进行预测的方 法和工具,正是对传统预测方法的继承和发展。 在科学研究领域,随着科学仿真实验数据的越来越多,且不同实验采集的数 据分散于不同的计算机中。科学家们几乎不可能通过手工的方式来发现各数据源 之间的内在联系。这迫切需要研究出与此对应的新的数据挖掘技术及其挖掘工具 来解决此类问题。目前,国外对数据挖掘技术的研究比较多,但专门针对科学数 据的研究非常少。国内此领域的研究处于初步的起始阶段,成熟的研究成果基本 空白。 技术的革新使科学家能够以不断增加的步速,从试验、仿真和观测中收集数 据,数据容量从近来的十亿字节到现在的千兆字节,并且不久就将达到万亿字节。 我们产生数据的能力已经远远超过了我们对它们的研究、分析和理解的能力,而 且所收集到的可利用的复杂数据其表示都是图像或者时间序列。为了实现我们的 科学目标,我们需要从这些数据中提取有用的信息来充分的对它们进行知识开采。 电子科技大学硕士学位论文 可不幸的是,由于在许多科学领域中数据的尺度范围如此之大、复杂度如此之高, 以至于使用人工来对它们进行分析、研究和理解完全是不切实际的。这导致的结 果是,有用的信息经常被忽视掉,并且增强了的计算能力和数据搜集能力的潜在 优势只能部分发挥出来。 本课题着重讨论科学数据挖掘中的预测问题及实现技术。 1 3 作者所做工作及本文内容安排 1 31 作者所做的工作 本人目前主要研究基于神经网络技术的科学数据压缩率预测问题及其实现。 这一题目涉及到了当前科学界的研究热点,具有极高的科学意义和应用价值。本 人的研究工作可概括为以下几个方面: 1 作者通过收集查阅国内外大量丰h 关技术文献,在了解各种数据挖掘预测技 术的基础上,针对大规模科学数据集的特点,初步确定了使用神经网络技术对科 学数据的压缩率进行预测。 2 在对神经网络预测理论学习与研究的基础上,结合科学数据的特性,提出 了将b p 神经网络用于神经网络预测建模的算法,使用v c + + 编程工具和l _ i a t l a b 科 学计算软件,编制和测试了神经网络预测软件,并以我们的科学数据进q i t 具体 的实验和研究,该软件应用效果良好。另外对其中改进的神经网络算法也进行了 实验。 1 3 2 本文的内容安排 第一章 第二章 箔三章 第四章 第五章 第六章 介绍了本课题的研究背景、研究内容以及论文章节安排 介绍了数据挖掘中常用的非线性预测方法 介绍了神经网络非线性预测理论及技术 神经网络预测在科学数据挖掘中的应用 神经网络预测模型的软件实现 总结与展望 第二章数据挖掘中的预测技术介绍 第二章数据挖掘中的预测技术介绍 2 1 数据挖掘技术简介 当今数据库的容量已经达到上万亿的水平( t ) l ,0 0 0 ,0 0 0 ,0 0 0 ,0 0 0 个字 节。在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些 “知识”呢? 也就是怎样通过一颗颗的树木了解到整个森林的情况? 】 计算机科学对这个问题给出的最新回答就是:数据挖掘,在“数据矿山”中 找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报。数据挖 掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司 都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产 品推广策略( 把产品推广给最需要他们的人) ,以用最小的花费得到最好的销售。 数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通 过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习 的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过 学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决 某一类的问题。随后,随着神经网络技术的形成和发展,人们的注意力转向知识 工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是 直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些 问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不 足。8 0 年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上, 并将其成果应用于处理大型商业数据库。随着在8 0 年代末一个新的术语,它就是 数据库中的知识发现,简称k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。它泛指所 有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用k d d 来描述整 个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖 掘( d a t am i n i n g ) 来描述使用挖掘算法进行数据挖掘的子过程。但最近人们却逐 渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是 将统计方法与数据挖掘有机的结合起来。 数据挖掘( d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。 电子科技大学硕士学位论文 与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包 括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣 的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的 知识,仅支持特定的发现问题。 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把 概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉, 好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数 据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异 构型数据。发现知识的方法可以是数学的,也可以是非数学的:可以是演绎的, 也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程 控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人 们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。 在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技 术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数 据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发 现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有 发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要 能够易于被用户理解。最好能用自然语言表达所发现的结果。 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数 据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信 息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未 曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违 背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 数据挖掘中的工作流程大体内容如下: 1 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。 2 数据准备 ( 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据 第二章数据挖掘中的预测技术介绍 挖掘应用的数据。 ( 2 ) 数据的预处理 研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类 型。 ( 3 ) 数据的转换 将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一 个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外, 其余一切工作都能自动地完成。 4 结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用 到可视化技术。 5 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。 由于数据挖掘带来的显著的经济效益,使数据挖掘越来越普及。目前国际上 数据挖掘技术在科学研究、金融投资、市场营销、保险、医疗卫生、产品制 造业和通信网络管理等行业己得到广泛应用:电讯公司和信用卡公司是用数据 挖掘检测欺诈行为的先行者;保险公司和证券公司也开始采用数据挖掘来减少欺 诈;医疗应用是另一个前景广阔的产业:数据挖掘可以用来预测外科手术、医疗 试验和药物治疗的效果;零销商更多的使用数据挖掘来决定每种商品在不同地点 的库存,通过数据挖掘更灵活的使用促销和优惠卷手段;制药公司通过挖掘巨大 的化学物质和基因对疾病的影响的数据库来判断哪些物质可能对治疗某种疾病产 生效果。现在我国的研究人员正在加紧研制有关领域的数据挖掘工具,国内 在数据挖掘方面也有成功的应用,例如宝钢已应用数据挖掘系统辅助生产决 策,每年能节省近千万元资金。 数据挖掘技术的应用领域正不断扩大,主要如下: 1 科学研究 在信息量极为庞大的天文、气象、生物技术等领域中,由于所获得的大 量实验和观测数据靠传统的数据分析工具已难以应付,因此对功能强大的智 能化自动分析工具有迫切的需求,这种需求推动了数据挖掘技术在科学研究 领域的应用发展,并且已获得一些重要的应用成果,例如,美国加州理工学 电子科技大学硕士学位论文 院喷气推进实验室与天文学家合作开发的s k i c a t 系统通过对几百万个天 体进行分类,已帮助天文学家发现了1 6 个新的类星体。 2 金融投资 由于金融投资的风险很大,因此在进行投资决策时,需要对各种投资方 向的有关数据进行分析,以选择最佳的投资方问。数据挖掘可以通过对己有 数据进行处理,并利用学习得到的模式进行市场预测,例如,国内开发的指 南针、神光、r m r 等智能股票分析系统可以对股票行情进行分析预测。 3 市场营销 在市场营销领域中,数据挖掘可以辅助制定市场策略,分析购物模式, 还可以用来预测销售行情,例如,i b m 公司开发的q u e s t 和i n t e l l i g e n tm i n e r 系统就可以挖掘顾客的购物行为模式。 4 保险业 保险是一项风险业务,保险公司的一个重要工作就是进行风险评估。研 究证明,可以利用数据挖掘来进行风险分析,在保险公司建立的保单及索赔 信息数据库的基础上,寻找保单中风险较大的领域,从而得出一些实用的控 制风险的规则,以指导保险公司的工作,例如,利用s g i 公司的m i n s e t 系 统提供的分类器就可以预测投保人在将来的索赔概率。 5 制造业 制造业应用数据挖掘技术来进行零件故障诊断、资源优化和生产过程分 析等。例如,a c k n o s o f t 公司开发的c a s s i o p e e 系统已用于诊断和预测在波 音飞机制造过程中可能出现的问题。 6 通信网络管理 在通信网络运行过程中可能产生一系列警告,虽然有的警告可以置之不 理,但是有的警告如果不及时采取措施,则会带来不可挽回的损失。哪些警 告可以不予理睬,哪些警告必须迅速处理,这往往很难判断,一般需要由人 工根据经验来进行处理,因此效率不高。数据挖掘则可以通过分析已有的警 告信息的正确处理方法以及警告之间的前后关系获得警告之间的关联规则。 这些有价值的信息可用于网络故障的定位检测和严重故障的预测,例如,芬 兰h e l s i n k i 大学开发了一个基于通信网络中警报数据库的知识发现系统 t a s a ,它可用于寻找通信网络中警报序列规则,以便进行故障预测。 第二章数据挖掘中的预测技术介绍 2 2 数据挖掘中预测的特点及其意义 预测是对尚未发生或目前还不明确的事物进行预先的估计和推测。它是在一 定的理论指导下,从事物的历史和现状出发,以调查研究资料和统计数据为依据, 在对事物发展过程进行深刻的原理分析和严格的计算基础上,研究并认识事物的 发展规律,进而对事物发展的未来变化预先做出科学的推测。 预测的原理模型如下图2 - 1 所示: 图2 - 1 预测的原理模型 在预测的过程中,预测信息,即调查收集得的背景资料、统计数据、动态情 报等,它是预测的基础:预测规律是刻划研究对象的特征和趋势演变的规律;根 据预测信息和预测规律可建立相当的预测规律进而可获得预测结果,将其与实测 结果比较的差异进行反馈,可对预测规律和模型进行进一步的修正。预测的关键 是寻找预测规律,而预测的目的在于指导人们的实际活动以谋取更大的效益。 在数据挖掘领域,一般来讲,预测具有以下三个特点: 1 科学性预测是根据过去的统计资料和经验等信息,运用一定的程序、方 法和模型,分析预测对象与有关因素的相互关系,从而揭示和总结出预测对象的 特征性及变化规律。因而预测具有科学性。 2 近似性预测是在事件发生之前对其状态的估计和推测的,然而事物的发 展不是简单的重复,总要受各种不断变化的因素的影响。因而事前的预测与实际 结果往往会出现一定的偏差,只能是一个近似值。 3 局限性由于掌握的资料和统计数据不够准确和完善,或建立模型时简化 了一些因素,导致预测的分析不够全面。因而预测结果又具有一定的局限性。 预测是一门实用性很强的科学,从不同的角度,有许多分类方法。在数据挖 掘中,根据预测方法的特性,可分为: 电子科技大学硕士学位论文 1 定性预测依靠预测者的观察能力,借助于经验和判断能力进行预测。 2 定量预测主要根据机械设备的历史统计数据,运用数学方法构找数学模 型进行预测。根据预测方法的原理,定量预测又可分为:因果型预测方法:这类 方法以相关原理来分析预测对象与有关因素的相互关系,并以此关系构造模型进 行预测。回归分析即属于该类方法。趋势外推法:这类方法依据惯性原理,通过 研究对象过去和现在的统计数据等资料,寻找其变化趋势,并以趋势外延来推测 其未来状态。时间序列分析、曲线拟合外推等都属于这类方法。 预测学是七十年代末才逐渐形成的一门综合性学科。它既是一门研究客观事 物的特征和发展规律以估计其未来状态的学科,也是建立在实践基础上的学科。 现代预测大量地运用观察,归纳,演绎,推理等分析方法,运用数学模型和实验 方法,根据客观的资料,主观的经验和教训,探索客观事物发展变化的趋势和量 变的程度,并在技术上力求提高预测的可靠性和精确度。这门新兴的学科由于具 备科学的理论基础和科学的预测方法,因而有很强的社会功能。为了更好地发挥 预测学的社会功能,各国的未来学家和科研工作者都在积极从事预测学的研究工 作,并已在许多领域取得了引人注目的成果。 随着预测科学的发展,预测方法也越来越多,预测技术的水平也日益提高。 回归分析技术( 包括简单回归模型,多变量回归模型等) ,时间序列方法( 包括指 数平滑模型,自回归一移动平均模型( a r m a 等) 都已成为应用广泛的预测方法。 八十年代以来,随着神经网络研究的再度兴起,神经网络所具有的高度非线 性,较强的自学能力,适应能力和容错能力引起了预测科学研究者的重视,1 9 8 7 年l a p e d e s 和f a r b e r 首先应用神经网络进行预测。m l i 和k m o h a n 等人用神经 网络成功地预报了太阳黑子数目的变化情况,为神经网络在预测领域的研究和应 用做了开创性的广阔的研究领域。 2 3 数据挖掘中常用的预测算法 随着社会和科技的进步,人们所能收集到的数据量变得越来越大,对这些数 据进行处理做预测的难度也因此变的非常大。而新兴的门处理海量数据的技术一 一一数据挖掘为解决预测的这一难题提供了新的机遇。本文试对数据挖掘中的预 测及其相关的方法和应用做一综合性的介绍【“。 数据挖掘中的预测模型: 预测是根据过去和现在的情况,对未来的发展做出预见性的判断。预测的最 第二章数据挖掘中的预测技术介绍 大作用在于为决策服务,可以说没有正确的预测也就没有科学的决策,同样预测 对于科学研究也有着重要的意义。预测作为一门科学,是根据事物发展的历史, 运用定性和定量的方法,对其进行分析,揭示事物内在的规律,对未来发展做出 科学的判断和预见。 预测的基础就在于对历史数据的处理。计算机技术的出现,为迅速收集和处 理历史数据提供了有力的工具。但是,人们也遇到了极大的难题,那就是面对成 白上千兆的数据,人们无从下手。9 0 年代初人们提出数据挖掘技术来处理海量的 数据,提取信息,数据挖掘得到了越来越广泛的应用。1 9 9 5 年,在加拿大蒙特利 尔召开了第一届知识发现和数据挖掘国际会议,使得数据挖掘获得了极大的关注, 有力地椎动了数据挖掘的发展。到目前为止,人们提出了形形色色的数据挖掘定 义,普遍为0 人接受的定义是:数据挖掘就是从大量的、不完全的、有噪声的、模 糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但是又有潜在价 值的信息和知识的过程。 数据挖掘主要有以下步骤组成: ( i ) 数据预处理( 数据清洗、数据选择、数据变换、特征提取等步骤) ( 2 ) 作知识发现( 分类分析、聚类分析、关联分析等) ( 3 ) 模式评估( 识别表示知识的真正有趣的模式) ( 4 ) 知识表示和预测( 使用可视化和知识表示技术,向用户提供挖掘的知识) 数据挖掘自动在大量数据中寻找预测性信息,以往需要领域专家和分析人员 进行大量人工分析的问题,如今可以直接由数据本身迅速得出给予知识的决策。 当前,数据挖掘的研究已经形成了热点,在数据挖掘中综合运用了各学科的 技术,它不仅涉及统计学原理,而且包括数据库管理,人工智能,机器学习,模 式识别,以及数据可视化等学科。 以下是常见的在数据挖掘中用于预测的方法和模型: 1 传统的统计学方法 数据挖掘是统计分析方法学的延伸和扩展。数据挖掘是揭示存在于数据里的 模式及数据间的关系的学科,它强调对大量的数据的处理及数据和知识之间的联 系;统计学是- - i 7 关于数据资料的收集,整理,分析和推理的科学。数据挖掘和 统计分析之间有明显的联系,它们有着相似的目标,即发现数据间隐藏的关系, 但也存在一些不同之处:统计学局限于小样本,以分析连续性和线性关系为主, 数据挖掘则以处理海量数据,复杂数据为目标,将连续肚和非连续性,线性和非 线性融为一体,在海量数据和众多变量中寻找潜在的模式和关系。 电子科技大学硕士学位论文 传统的统计方法,如回归分析、时间序列分析、主成份分析等分析方法,建 立在一套严密的理论之上,是预测所使用的重要方法,无疑在数据挖掘中的预测 也必会有广泛的应用。 回归分析试图从实际数据中寻找某种规律的方法,回归分析确立和分析某种 响应y ( 因变量) 和重要因数( 对响应有影响的自变量( x t ,x 一,x 。) ) 之间的函 数关系。回归值代表任意一个条件期望值,在数据建模中,经常是给定条件变量 下因变量的条件期望值。将预测属性视为自变量,预测目标是为因变量,则可使 用回归技术进行预测。 主成份分析也称主分量分析。主成份分析的工作对象是样本点定量变量类型 的数据表,其目标就是对多变量的平面数据表进行最佳综合。也就是说,要在力 保数据信息丢失最小的原则下对高维变量空间进行降维出理。主成份分析是无导 师型线性分析方法。使用主成份分析是无导师型线性分析方法。使用主成份分析, 可以减少用回归分析、分群和其他的分析方法时多元数据的变量数。 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间 的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的曰子如 节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如 时间前后的相关性( 过去的事情对将来有多大的影响力) 等。只有充分考虑时间 因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。 2 人工神经网络 人工神经网络通过模拟人的神经元功能,从输入层获得影响预测量的变量值, 通过隐藏层,用权数对数据进行调整,计算,最后在输出层进行处理得到预测结 果。人工神经网络可以用于分类和预测。人工神经网络具有强大的非线性处理能 力和并行处理能力。人工神经网络的计算要结合计算机进行,甚至可以在不同的 c p u 上同时计算,运行效率非常高。而这正是处理海量数据的关键因素之一。 人工神经网络模拟人脑神经元结构,以m p 模型和h e b b 学习规则为基础,建 立三大类多种神经网络模型。( 1 ) 前馈式网络:它以感知机、反向传播模型、函 数型网络为代表,可用于预测、模式识别等方面。( 2 ) 反馈式网络:它以h o p f i e l d 的离散模型和连续模型为代表,分别用于联想记忆和优化计算。( 3 ) 自组织网络: 它以a r t 模型、k o h o l o n 模型为代表,用于聚类。神经网络的知识体现在网络连 接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐 步计算上( 包括反复迭代或累加计算) 。 3 聚类 第二章数据挖掘中的预测技术介绍 聚类( c l u s t e r i n g ) 是一个将数据集划分为若干组( c l a s s ) 或类( c l u s t e r ) 的过 程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则 是不相似的。相似或不相似的度量是基于数据对象描述的取值来确定的。通常就 是利用( 各对象间) 距离来进行描述的。 在机器学习中,聚类分析属于一种无( 教师) 监督的学习方法。聚类结果主要 基于当前所处理的数据,我们事先并不知道其结构及每个对象所属的类别。另外, 数据聚类计算量巨大,其时间复杂度也要比数据分类大得多。目前,数据聚类己 有很多不同的方法和技术,常见的算法有p a m ,c l a r a ,c l a r a n s ,b i r c h ,k - m e a n s 等。 作为统计学的一个分支,聚类分析已有多年的历史,这些研究主要集中在基 于距离的聚类分析方面。许多统计软件包,诸如:s p l u s ,s p s s 和s a s ,都包含基 于k 一均值、k 一中心等诸多聚类分析方法。 数据聚类分析是一个正在蓬勃发展的领域。聚类分析所涉及的领域包括:数据 挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等,由于各应用数 据库所包含的数据量越来越大,聚类分析已成为数据挖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论