(系统工程专业论文)基于MATLAB与数据仓库的水质预测决策支持系统研究.pdf_第1页
(系统工程专业论文)基于MATLAB与数据仓库的水质预测决策支持系统研究.pdf_第2页
(系统工程专业论文)基于MATLAB与数据仓库的水质预测决策支持系统研究.pdf_第3页
(系统工程专业论文)基于MATLAB与数据仓库的水质预测决策支持系统研究.pdf_第4页
(系统工程专业论文)基于MATLAB与数据仓库的水质预测决策支持系统研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(系统工程专业论文)基于MATLAB与数据仓库的水质预测决策支持系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 决策支持系统作为计算机在经济管理应用方面最引人注目的领域之一,目前 己成为各项工作管理决策的最佳途径和方法,它在区域水质管理方面的应用,可 使领导层决策更加系统化、科学化、简单化、具有较大的推广应用价值。 基于数据仓库的决策支持系统以数据仓库技术为核心,以联机分析处理技术 和数据挖掘技术为手段,通过对数据信息资源进行广泛的收集、汇聚、整合、处 理分析和挖掘,把信息知识化,为决策者在做决策时提供帮助和支持,使其做出 科学的、正确的、有效的决策。 本文的研究内容主要包括三个部分:基于m a t l a b 数据仓库的实现,基于 m a t l a b 的o l a p 的实现,基于b p 算法的水质预测。 将a c c e s s 水质数据库转换成s q ls e v e r2 0 0 0 水质数据仓库,并实现了在 m a t l a b 下对水质数据仓库中数据的调用。 以该水质数据仓库为基础,实现了o l a p 的分析与展现,并通过e x c e l 将 m a t l a b 与o l a p 连接起来,从而成功实现了在m a t l a bg u i 下的o l a p 展现, 功能包括:切片、切块、上钻下钻、旋转等。 通过对改进b p 算法与标准b p 算法的比较,给出了相应的训练与仿真结果, 验证了l e v e n b e r g m a r q u a r d tb p 算法的有效性,最后基于l m b p 算法实现了水质 数据的预测。 在论文最后部分,对全文进行了总结,并给出对未来工作的展望。 关键词:水质管理;水质预测模型;联机分析处理;人工神经网络;决策支持系 统 广东工业大学工学硕士学位论文 a b s t r a c t a so n eo ft h em o s ta t t r a c t i v ef i e l do ft h ea p p l i c a t i o no fc o m p u t e rs c i e n c ei ne c o n o m i c m a n a g e m e n t ,d ss ( d e c i s i o ns u p p o r ts y s t e m ) ,h a sc u r r e n t l yb e c o m et h eo p t i m i z e ds o l u t i o n a n dm e t h o d w h e na p p l i e dt om a n a g i n ga n df o r e c a s t i n gt h er e g i o n a lw a t e rq u a l i t y , d s sc a n l e a dt oam u c hm o r es y s t e m i z e d 、s c i e n t i f i ca n ds i m p l i f i e dd e c i s i o nf r o mc a t e g o r i e s o ft h e w a t e rq u a l i t ym a n a g e m e n tb u r e a u ,s oi tp o s s e s se x p a n s i v ea n db o o m i n gp r o s p e c t sa n db i g a p p l i c a t i o nm e r i t c e n t r a l i z e dt h et e c h n o l o g yo fd w ( d a t aw a r e h o u s e ) ,w i t ht h em e t h o do fo l a p ( o n - l i n e a n a l y t i c a lp r o c e s s ) a n dd m ( d a t am i n i n g ) t e c h n o l o g y , t h ed s sb a s e do nd ws u p p l y a s s i s t a n c ea n ds u p p o r tf o rt h ed e c i d e rd u r i n gd e c i s i o nm a k i n g ,t h r o u g hc o l l e c t i n g 、g a t h e r i n g 、 c o n f o r m i n g 、p r o c e s s i n ga n da n a l y s i n gt h er e s o u r c eo fd a t ai n f o r m a t i o n , r e s u l ti nt h e s c i e n t i f i c 、c o r r e c ta n de f f e c t i v ed e c i s i o n m a i n l yt h e r ea r et h r e ep a r t so fr e s e a r c hi n c l u d e di nt h i st h e s i s :r e a l i z a t i o no fd wb a s e d o nm a t l a b ,r e a l i z a t i o no fo l a pb a s e do nm a t l a b ,w a t e rq u a l i t yf o r e c a s t i n gb a s e do n t h eb pa l g o r i t h m t h ea c c e s sw a t e rq u a l i t yd a t ab a s ew a st r a n s f o r m e di n t os q ls e v e r2 0 0 0w a t e r q u a l i t yd a t aw a r e h o u s e ,a n dt h ec a l lo ft h ew a t e rq u a l i t yd a t af r o md wv i am a t l a bw a s a c c o m p l i s h e d w ea c c o m p l i s h e dt h ea n a l y s i sa n de x h i b i t i o no fo l a pb a s e do nt h ew a t e rq u a l i t yd w , u s i n ge x c e lt ol i n km a t l a ba n do l a pt o g e t h e r , t h u se x h i b i t e dt h eo l a pr e s u l tw i t h m a t l a bs u c c e s s f u l l y ,m a i nf u n c t i o n :s l i c e 、d i c e 、r o l lu po rd r i l ld o w n 、p i v o t i n ga n de t c t h r o u g ht h ec o m p a r a t i o no ft h ea m e l i o r a t e db pa l g o r i t h ma n ds t a n d a r db pa l g o r i t h m ( t h er e l e v a n tr e s u l to ft r a i n i n ga n ds i m u l a t i o nw a se x h i b i t e d ) ,t e s t i f i e dt h ev a l i d i t yo f l e v e n b e r g m a r q u a r d tb pa l g o r i t h m ,a n df i n a l l ya c c o m p l i s h e dt h ep r e d i c t i o no fw a t e rq u a l i t y d a t ab a s e do nl m b p i nt h el a s tp a r t ,s u m m a r i z e dt h ew h o l et h e s i sa n dp r o s p e c t e dt h ef u t u r ew o r k k e y w o r d s :w a t e rq u a l i t yf o r e c a s t ;o l a p ;b pn e u r a ln e t w o r k ;d s s i i 广东工业大学工学硕士学位论文 独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所呈交的论文是我个人在 导师的指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以 标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,不包 含本人或其他用途使用过的成果。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明,并表示了谢意。 本学位论文成果是本人在广东工业大学读书期i b - j 在导师的指导下取得的,论 文成果归广东工业大学所有。 申请学位论文与资料若有不实之处,本人承担一切相关责任,特此声明。 论文储酶交兄纭越 舯剖谧氧极耘呔 力川卢( 1 粥日 第一章绪论 第一章绪论 1 1 引言 人类生存环境的退化是新世纪全球可持续发展所面临的重大问题,保护水资 源,改善水环境己成为当前各级政府所面临的一项重要工作。随着社会、经济的 不断发展,水污染与水资源短缺日趋严重,成为制约经济社会可持续发展的重要 因素【1 l 。我国各级水环境保护部门已逐渐认识到及时、准确、高效地获取与预测 水质信息以及在水环境保护工作中应用信息技术的重要性。促进国民经济持续协 调发展,加强水资源保护,需要将水质监测、预测工作与信息化紧密结合,作为 水资源保护有效手段的水质预测决策支持技术就显得十分重要【2 】。目前水质信息 预测主要依附于各级水环境监测实验室,但水环境监测、管理部门间信息的传递、 处理和管理大部分为人工方式,信息处理速度慢,管理水平和工作效率低,很难 对未来水质信息的变化作出预测,远远满足不了多方位、多信息、高速度、高水 平的管理要求。随着电子技术、通信技术及计算机技术的广泛应用,为实现水质 管理及预测现代化与智能化提供了强有力支持,在区域水质管理中应用计算机管 理系统进行水质管理,建立区域水质预测决策支持系统已成为水质管理的重要研 究方向。 1 2 国内外研究现状 1 2 1 决策支持系统在国内外的应用 决策支持系统d s s ( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 是一个融计算机技术、 信息技术、人工智能、管理科学、决策科学、心理学、行为科学和组织理论于一 体的技术集成系统;是面向复杂决策问题,辅助中、高层决策者决策、具有一定 智能行为的人机交互系统。 2 0 世纪7 0 年代初,美国m i c h a e ls s c o t tm o r t o n 教授提出了决策支持系统的 概念 3 1 。1 9 8 0 年s p r a g u e 提出了决策支持系统三部件结构,即对话部件、数据部 件( 数据库d b 和数据库管理系统d b m s ) 、模型部件( 模型库m b 和模型库管理 系统m b m s ) 。1 9 8 1 年b o n c z a k 等提出了d s s 三系统结构【。】,即语言系统( l s ) , 问题处理系统( p p s ) ,知识系统( k s ) 。1 9 8 3 年,博齐克成功研制了决策支持系 广东工业大学工学硕士学位论文 统的开发系统( d s s d s ) ,决策支持系统与人工智能相结合,出现了智能决策支 持系统( i d s s ) 。1 9 8 4 年,决策支持系统与计算机网络相结合,出现了群体决策 支持系统( g d s s ) 【5 】。随着d s s 应用的逐步深入,人们意识到数据是决策支持系 统的重要基础之一,只有良好的数据管理系统才能使决策支持系统发挥最大的功 效,传统的数据库管理系统己无法满足决策支持系统对数据组织和结构的要求【酣。 1 9 9 3 年,w h i n m o n 博士在其专著建立数据仓库一书中正式提出数据仓 库的概念r ,】,主张对现有业务处理系统的数据进行重新组织和构造,使其成为满 足决策支持系统需要的数据组织结构。作为一个有极大应用前景的新兴研究领域, 数据仓库发展的很快,许多大学和公司都在这个领域内进行着广泛深入的研究, 其中以斯坦福大学、i b m a l m a d e n 研究中心、威斯康新大学、微软和a t & t 的研 究最具代表性【8 】【,】。随着数据仓库、数据挖掘以及联机分析处理技术的兴起,为 d s s 研究和开发提供了一条新的途径,出现了以数据仓库技术为核心、以联机分 析处理技术和数据挖掘技术为手段的d s s 解决方案d o u h 。根据国外m e t a 集团的 调查研究,数据仓库技术在金融业、制造业、商贸业以及社会服务等方面的应用 前景非常广泛【1 2 】。 我国决策支持系统的研究始于8 0 年代中期,尤其是1 9 8 5 年以后。近年来, 我国在将数据仓库技术应用于决策支持方面也取得了长足的进步 13 1 。目前成功的 数据仓库案例比较多,例如中国工商银行数据仓库系统,基于s y b a s e 数据仓库解 决方案开发的广东电信数据仓库决策支持系统已成功实施 1 4 1 。 本课题研究的基于m a t l a bg u i 的水质预测系统是以数据仓库( d w ) 技术为 基础,o l a p 和数据挖掘( d m ) 工具为手段进行实施的一整套解决方案。 1 2 2 人工神经网络研究现状 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) ,至今已开发出h o p f i e l d 网络、误 差反向传播( b p ) 网络、对向传播网络( c p n ) 、k o h o n e n 网络、径向基函数( r b f ) 网络、自组织映射( s o m ) 模型等3 0 多种典型模型,其中以b p 网络模型应用最 广【1 5 - l7 】。 我国于19 9 1 年在南京成立了中国n n 学会,由国内15 个一级学会共同发起 “携手探智能,联盟攻大关 的“8 6 3 高科技研究计划;自然科学基金、国防科 技预研基金也都列入了n n 研究内容d 8 。 2 第一章绪论 1 2 3 水质预测的进展 水环境管理与决策支持系统本身是一项复杂的系统工程,其中一个比较重要 的功能是水质预n , 9 1 。下面简单介绍水质预测在国内外的进展情况。 在国外,最早发展的是利用简单的氧平衡原理来进行水质预测。1 9 5 2 年,美 国的工程师s t r e e t e r 和p h e l p s 在对o h i o 河流污染源及生活污水造成可度影响的研 究中,提出氧平衡模型的最初形式【:们。s t e w a r t 和b a t e s 提出洪泛区污染物迁移仿 真研究的分布模型 2 h 。f r a s e r 和b a r t e n 等人在迁徙模型的基础上建立了一个用来 预测河流内病原体指数的地理信息系统 2 2 1 。国外一些在五六十年代曾经严重污染 的河流,例如芝加哥河、泰晤士河以及莱茵河等,利用所建立的水质预测模型来 进行水质规划和管理c :,使水质得到大幅度的改善。 国内在水质预测方面研究起步较晚,对河流和河网的水质预测研究基本上是 在“六五 期间才正式开始,并在“七五”期间得到了进一步的发展和深化【2 4 】。 针对水流域在广义上属于动态不确定非线性系统,河流污染扩散中存在时滞特性, 张新政教授将时滞大系统理论引入东江惠州段的水质建模和水污染控制研究中, 利用了多组多滞后分析方法并取得了良好的效果【:s 】【2 s 】。目前,利用这些理论方法 对水环境污染控制和综合治理进行深入研究 2 7 】 2 盯。李莹基于神经网络理论对东江 惠州段水质预测研究方面进行了有益的探讨【:,】【3 们。 1 3 本论文的主要工作 决策支持系统是比较复杂和庞大的系统。本课题的研究内容主要集中在 m a t l a b 下实现水质预测功能,以提供决策支持。 在m a t l a bg u i 下建立数据仓库,以水质信息的管理数据库为基础实现从水 质数据库到水质数据仓库的转换 3 h 。数据仓库软件选用s q ls e r v e r2 0 0 0 的a n a l y s i s s e r v i c e 数据仓库组件,该产品在数据仓库的建设阶段提供了简捷且功能强大的可 视化工具;在数据仓库的数据展示方面,采用a d o 接口对数据仓库进行访问,通 过m a t l a bg u i 展示。利用m i c r o s o f t 的数据转换工具d t s 作为e t l 工具,将源数据 中的数据抽取、转换、装载到s q ls e r v e r2 0 0 0 ,数据抽取源是我们课题组的水质 历史数据。 具体研究内容主要包括以下几个方面: ( 1 ) 在m a t l a bg u i 环境下访问数据库,把水质数据库内的水质数据转化为水 广东工业大学工学硕士学位论文 质数据仓库。 ( 2 ) 建立以星型模型为基础的多维数据模型的水质仓库 3 2 1 ,在m a t l a bg u i 下对水质数据仓库管理的实现,包括了抽取、汇总和集成等功能。 ( 3 ) 在m a t l a bg u i 下实现o l a f 功能。对多维结构数据切片,显示其中的某一 平面。采用旋转、上钻下钻、切片和切块等多维数据分析方法。采用m a t l a bg u i 在平面上展示多维视图的结构,使用户能直观地理解和分析数据 3 3 1 。 ( 4 ) 在m a t l a bg u i 下使用神经网络算法实现水质信息的预i 贝 j 3 4 1 。重点研究 了反向传播学习算法( b f 算法) ,并研究了其存在的不足和改进方法,最后基于 l e v e n b e r g m a r q u a r d tb p 算法实现了水质数据的预测。 本论文是对以广东省科技计划项目“水环境治理复杂系统的监测与总量控制 和广东省自然科学基金项目“水质预测复杂大系统的模拟与控制及其算法研究” 为依托,以水质信息数据仓库为对象,水质预测模型为核心的,针对广东市黄州 水厂的决策支持系统的研究和开发。本文具体内容共分六章。 第一章为绪论,介绍了课题来源、研究背景以及决策支持系统和人工神经网 络在国内外研究的现状和水平,并概述了本论文的主要工作。 第二章介绍了d s s 的组成和其体系结构,并在此基础上给出了水质预测决策支 持系统结构的整体框架。论述了d s s 相关技术,并对b p 神经网络相关内容做了重 点介绍,为下面章节的研究工作打好了理论基础。 第三章介绍了m a t l a bg u i 的相关概念和数据仓库的层次结构,阐明了实现 水质数据仓库的主要技术手段,最后给出了m a t l a b 与水质数据仓库的连接方 法,即如何在m a t l a bg u i 下调用水质数据仓库中的数据。 第四章首先介绍了基于s q ls e r v e r2 0 0 0 水质数据仓库的o l a f 实现过程, 重点说明了o l a p 在e x c e l 中前端展示的实现,通过m a t l a b 调用e x c e l ,从而 成功实现了在m a t l a bg u i 下的o l a f 展现。 第五章首先选取其中二种改进b p 算法与标准b p 算法进行比较,给出了相应 的训练与仿真结果,验证了l e v e n b e r g m a r q u a r d tb p 算法的有效性,最后基于 l m b p 算法实现了对水质数据的预测。 在文章最后对全文进行了总结,并给出对未来工作的展望。 4 第二章水质管理决策支持系统的理论基础 第二章水质管理决策支持系统的理论基础 2 1 d s s 的组成和体系结构 2 1 1d s s 的组成 d s s 的组成【,5 】【,s 】主要包括以下几个部分。 ( 1 ) 接口输入输出的界面,是人机交互的窗口。 ( 2 ) 模型管理系统根据用户提出的问题调出已有的基本模型。目前,其实现 是通过模型库系统完成的。 ( 3 ) 知识管理集中管理决策问题领域的知识( 规则和事实) ,包括知识的获取、 表达、管理等功能。 ( 4 ) 数据库管理和存储与决策问题有关的数据。 ( 5 ) 推理识别并解答用户提出的问题,分为确定性推理和不确定性推理两大 类。 ( 6 ) 分析比较对方案、模型和运行结果进行综合分析比较,得出用户最满意 的方案。 ( 7 ) 问题处理根据交互式会话识别管理者提出的问题,构造出求解问题的模 型和方案,并匹配算法、变量和数据等,运行求解系统。 ( 8 ) 控制连接协调系统各部分,规定和控制各部分的运行程序,维护和保护 系统。 2 1 2d s s 体系结构 2 1 2 1 传统的决策支持系统体系结构d s s 最基本的逻辑结构包括有数据库、模 型库、知识库及相关的管理系统【3 7 】【3 s 】。d s s 的运行过程可简单描述如下:用户通过 界面输入要解决的问题,界面管理系统收集数据,处理信息,根据知识库中已有 的知识,与用户交互,直到决策问题明确,然后系统选用适用的模型,通过调用 模型计算出分析结果,最终提交用户。传统d s s 几个部分关系如图2 1 。 5 广东工业大学工学硕上学位论文 图2 1 传统d s s 各部分之间的关系 f i g 2 - 1r e l a t i o nb e t w e e ne v e r yp a r to ft h et r a d i t i o n a ld s s ( 1 ) 数据管理系统d s s 的数据通常包含在数据库中。 ( 2 ) 模型管理系统是一个包含有定量模型的软件包,能够提供系统的分析能 力和合适的软件管理能力。 ( 3 ) 知识管理系统许多非结构化和半结构化的问题很是复杂,需要特别的专 业知识,可由专家系统或其他智能系统提供。因此d s s 应包括知识管理软件。 ( 4 ) 用户界面子系统是实现用户和d s s 之间的交流。 ( 5 ) 用户d s s 的用户主要是企业各层次的管理者和专业人士。 2 1 2 2 基于数据仓库的决策支持系统体系结构基于数据仓库的决策支持系统 是d s s 新的形式,结构如图2 2 所示1 3 9 : 图2 2 基于数据仓库的决策支持系统 f i g 2 - 2d s sb a s e do nd w 6 第二章水质管理决策支持系统的理论基础 在以数据仓库为基础的决策支持系统中,数据仓库、o l a p 和数据挖掘形成了 整个系统的核心技术。系统分为以下几个部分: 数据源:数据仓库系统的基础,通常包括企业组织内部信息和外部信息。 数据的存储和管理:这是整个数据仓库系统的核心。在现有各业务系统的基 础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定 数据仓库的物理存储结构。 数据挖掘服务器:对分析需要的数据按照多维数据模型进行再次重组,以支 持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为r o l a p 、 m o l a p 和h l o a p ,其中r o l a p 基本数据和聚合数据均存放在关系数据库管理系 统中,m o l a p 基本数据和聚合数据均存放在多维数据库中,而h o l a p 是r o l a p 与m o l a p 的综合,基本数据存放于关系数据库中,聚合数据存放于多维数据库中。 r o l a p 和m o l a p 的建模方式也有所不同,r o l a p 采用星型模型或者雪花型模型 建立多维数据而m o l a p 采用多维数组来表示数据立方体。 前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工 具、数据挖掘工具以及各种基于数据仓库或者数据集市开发的应用。其中数据分 析工具主要针对o l a p 服务器,报表工具、数据挖掘工具既是针对数据仓库,同时 也是针对o l a p 服务器。 以上四个部分构成一个完整的d s s 整体,这种d s s 目的是将传统数据库中的数 据经数据仓库整理,再经联机分析处理与数据挖掘分析后得到更高层次的数据和 规则( 知识) 。这种新的d s s 结构具有一定的优越性: ( 1 ) 新的结构方式能较好地反映d s s 对数据的真实要求。 ( 2 ) 新的结构方式能较深刻地构建分析模型。 ( 3 ) 新的结构方式能充分使用d s s 的有效展示能力。 ( 4 ) 新的结构方式具有多种学科的集成性,将数据库技术、人工智能技术、网 络技术及多媒体技术等多种学科集成于一体,构成一门具有蓬勃生命力的新学科。 ( 5 ) 新的结构方式具有更为广泛的应用性与适用性,使d s s 成为当代最具活力 的学科之一。 根据前面的分析获得图2 3 所示的水质预测决策支持系统结构,并将以其为 基础在下面各章节中展开研究。 7 广东工业大学工学硕士学位论文 g u i 用户界面 、 水质数据库 。 ( 抽取源) 图2 3 水质预测决策支持系统结构 f i g 2 - 3s t r u c t u r eo fw a t e rq u a l i t yf o r e c a s td s s 2 2 数据仓库 2 2 1 数据仓库概述 数据仓库的最初提出是为了解决企业经营中数据多而信息匮乏的问题,辅助 企业管理者决策。它建立在数据库基础上,但与传统数据库又有较大的不同【柏】。 数据仓库的重要特点是“面向主题”、“集成”、“随时间变化和“非易失 【 。 它把分布在不同数据库中的数据集成起来,并把转换后的数据存储成为一种面向 分析的数据集合,为d s s 应用提供了一种分析处理环境【引】。 2 2 2 数据仓库中的模型 建立数据仓库的最终目的,是要实现对决策的支持,数据仓库的构建是一个 非常复杂的过程。在构建过程中需要使用三种模型:概念模型( c o n c e p tm o d e l ) 、 逻辑模型( l o g i c a lm o d e l ) 和物理模型( p h y s i c a lm o d e l ) 1 1 4 1 。 设计概念模型的目的,是对数据仓库所涉及的现实世界中所有客观实体进行 科学、全面的分析和抽象,为数据仓库的构建制定出“蓝图”。其设计关键是要保 证所有与数据仓库相关的客观实体( 即业务内容) 均能得到准确的理解,并被完 8 第二章水质管理决策支持系统的理论基础 整的包含在模型当中。目前,常见的概念数据模型有以下三种:星形模型、雪花 模型和事实星座模型。 其设计的主要内容包括:数据存储结构的确定、索引策略的确定、数据存放 位置的确定和存储分配参数的确定1 4 2 1 。 2 3 联机分析处理 关系数据库之父e f c o d d 于1 9 9 3 年首次提出o l a p ( o n l i n ea n a l y t i c a l p r o c e s s ) 概念【4 3 】,其基本思想是使管理者能够通过各种角度操作企业数据。c o d d 提出多维数据库和多维分析的概念,即o l a p ,它是针对多维数据集的数据处理 过程,目标是为满足决策支持和多维特定环境的查询和报表需求。 c o d d 在提出o l a p 概念同时,也提出了关于o l a p 的1 2 条准则,e f c o d d 的1 2 条准则如下: 透明性准则、存取能力准则、稳定的报表性能、客户服务器体系结构、维的 等同性原则、动态稀疏矩阵处理准则、多用户支持能力准则、不受限的跨维操作、 直观的数据处理、灵活的报表生成、多维概念视图、非受限的维与维之间的层次。 这些准则反映了o l a p 的特点,o l a p 具有如下特点【4 4 】: ( 1 ) 快速性用户对o l a p 的快速反应能力有很高的要求,系统应能在短时间 内对用户大部分分析要求做出反应。 ( 2 ) 可分析性o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 ( 3 ) 多维性是o l a p 的关键属性,系统必须提供对数据分析的多维视图和分 析,包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据 最有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性不论数据量有多大,也不管数据存储在何处,0 l a p 系统应能及时 获得信息,并能管理大容量信息。 ( 5 ) 共享性在大量用户间实现潜在地共享秘密数据所必需的安全性需求。 o l a p 技术是与数据仓库技术相伴而发展起来的,它以数据仓库为应用平台, 根据决策者的需求,迅速而灵活地对数据仓库中的海量数据进行复杂、有效的分 析处理,采用切片、切块、旋转、钻探等基本操作手段,对以多维形式组织的数 据进行深入研究,并将结果以直观的形式提供给决策分析人员,从而实现对决策 的支持】。 9 广东工业大学工学硕士学位论文 下面对o l a p 中的基本概念做一个说明,它们是维( d i m e n s i o n ) 、度量 ( m e a s u r e ) 、层次( h i e r a r c h y ) 、级别( 1 e v e l ) 、立方体( c u b e ) 。维和度量实际上 是互相定义的,它们表示两种数据的互补用法;“度量”是我们希望分析的那些数 据,而“维”则定义了这些度量的组织方式,是o l a p 的核心技术【4 5 1 ;我们可在 维的不同层次上分析度量,称为维的级别;立方体是维集合与度量集合之间的一 种关联,也叫多维数据集。每个o l a p 多维数据集对应唯一的包含分析对象字段 的事实数据表,而每个事实数据表根据用户需求对应多个维度表。事实表和维度 表之间一般通过星形模型或雪花模型存储。o l a p 的分析方法有切片和切块法 ( s l i c ea n dd i c e ) 、钻取法( d i l l ) 、旋转法( r o t a t e ) 【4 6 】。 从o l a p 数据的存储方式和o l a p 操作处理的地点,o l a p 可以分为以下类 型,如图2 4 所示: 图2 4 在线分析处理分类 f i g 2 4d e v i s i o no fo l a p 从存储方式看,r o l a p 的数据基于关系数据库,可以充分利用成熟的关系数 据库理论如现有关系型数据库已经对o l a p 做了很多优化,包括并行存储、并行 查询、并行数据管理、基于成本的查询优化、位图索引、s q l 的o l a p 扩展等大 大提高r o l a p 的速度,但速度相对较慢;而m o l a p 基于多维数据,专门为多 维操作而设计的,因此能提供高性能的决策支持运算如复杂的跨维计算等,但处 理的数据量小、无相关的数据模型标准支持;h o l a p 综合了两种的优点,是一 种混合的o l a p 。从处理地点看,s e v e rs q l 在服务器端处理o l a p 操作,而c l i e n t o l a p 在客户端处理客户的o l a p 操作请求。 1 0 第二章水质管理决策支持系统的理论基础 2 4b p 神经网络简介 2 4 1b p 网络结构 b p 网络是一种多层前馈神经网络,名字源于网络权值的调整规则,采用的是 后向传播学习算法,即b p 学习算法。 b p 网络是一种单向传播的多层前向网络【一 ,其结构如图2 5 所示。 x 1 x 2 y 1 y 2 图2 5b p 网络结构 f i g 2 5s t r u c t u r eo fb p n e t w o r k 由图可见,b p 网络是一种具有三层或三层以上的神经网络,包括输入层、中 间层( 隐层) 和输出层。当一对学习样本提供给网络后,神经元的激活值从输入 层经各中间层向输出层传播,在输出层的各神经元获得网络的输入响应,接下来, 按照减少目标输出与实际值的误差方向,从输出层经过各中间层逐层修正各连接 权值,最后回到输入层,这种算法称为“误差逆传播算法”即b p 算法。随着这 种误差逆传播修正不断进行,网络对输入模式响应的正确率也不断上升。 2 4 2b p 网络的设计 2 4 2 1 输入和输出层的设计输入的神经元可以根据需要求解的问题和数据表 示方式确定。输出层的维数可根据使用者的要求确定。 2 4 2 2 隐层的设计根据k o s m a g o r o 定理:在合理的结构和恰当权值的条件下, 三层前馈网络可以逼近任意的连续函数。 隐层的神经元数目选择是一个十分复杂的问题,不存在一个理想的解析式来 表达。隐层单元的数目与问题的要求、输入、输出单元的数目都有着直接关系, 因此一定存在一个最佳的隐单元数c 。引。以下三个公式可作为选择最佳隐单元的参 考: 嘉 广东工业大学工学硕上学位论文 ( 1 ) c 血1 k ,k 为样本,n l 为隐单元数,n 为输入单元数,如果i n l , t = 0 d ,= o 。 ( 2 ) n l = ( n + m ) 1 7 2 + a ,m 为输出神经元数,n 为输入单元数,a 为 1 ,1 0 之间 的常数。 ( 3 ) n l = l 0 9 2 n ,其中n 为输入单元数。 2 4 2 3 初始权值的选取( 1 ) 初始权值的选取b p 算法先给予初始权值,经过反 复学习获得稳定的权值。初始权值不能取一组完全相同的值,在网络的初始学习 时,用一些小的随机数作为网络的初始权值,这样可以让网络中各种神经元,在 开始阶段避开饱和状态的可能性增大,也可以加快网络的学习速度。在网络连续 学习时,前次网络学习的权值可以作为后续学习的初始值。 ( 2 ) 学习系数q 的调整网络中影响收敛速度的关键因素是学习系数,学习系 数a 实质上是一个沿着负梯度方向的步长因子,它控制着沿负梯度方向移动速度 的快慢,由公式决定: v j t = - qd t k b j ( 2 1 ) r t = qd t k ( 2 2 ) 其中t = l ,2 ,q ,j = 1 ,2 ,p ,o q 1 由上式可知,当q 取值较大时,权值和阈值的修正量就较大,有时可能不收 敛,网络结构变得不稳定;当a 偏小时,收敛速度慢,误差相对大。对于一个特 定问题学习速度的选择,下面的方法可作参考: 1 稳定的学习速率 q 2 入m 。x ( 其中入m 。x 为赫森矩阵的最大特征值) 最大的稳定学习速度与函数的最大曲率成反比,而曲率说明梯度变化的快慢。 2 沿直线最小化选择学习速率的另一种方式是用qk 使每次迭代的性能指 数最小化,即选择a k 使得f ( x k + akbk ) 最小化。 2 5 改进的b p 算法 2 5 1 b p 算法的启发式改进 2 5 1 1 动量方法基于b p 算法的神经网络在学习过程中权值的改变与权值的误 1 2 第二章水质管理决策支持系统的理论基础 差成正比,但真正的梯度下降法要求所取的空间无限小,这就导致其收敛速度慢。 标准的b p 神经网络的参数更新为 w i i l c ( n + i ) = w 矿( n ) be j k a t k ( 2 3 ) 0j k ( n + 1 ) = 0i k ( n ) be j k ( 2 4 ) 附加动量项就是使网络在修正其权值时,在每一权值的变化上加上一项正比 于上次权值修正量的值,它的实质就是将最后一次权值变化的影响通过一个动量 因子来传递,它使权值的调节向底部的平均方向变化,不会产生大的摆动,即动 量因子起到缓冲平滑的作用【,】。带有附加动量因子的权值调节公式为: w i j l 【( n + i ) = 入w i j l ( ( n ) ( 1 入) 1 3e j 。a t k ( 2 5 ) oi k ( n + 1 ) = 入0i k ( n ) ( 1 入) be i k ( 2 6 ) 其中入是动量系数,满足0 入1 ,当入增加时,通过实验可以验证,由于 使用了动量项,可以在维持算法稳定的前提下使用更高的学习速度。使用动量的 另一特征是当轨迹进入某一个一致方向后,它可以加速收敛。 2 5 1 2 可变的学习速度为了提高收敛速度,可以在较平坦的曲面提高学习速 度,而在斜率增大时减小学习速度。多层网络的误差曲面不是二次函数,曲面的 形状随着参数空间区域的不同而不同,这对于我们何时改变学习速度和怎样去改 变学习速度,是一个必须要考虑的问题。在这里介绍一种非常直观的批处理过程, 它的学习速度是根据算法的性能改变的,即可变学习速度反向传播算法( v a r i a b l e l e a r n i n gr a t eb a c kp r o p a g a t i o n ,v l b p ) ,基本规则如下: 1 如果平方误差( 在整个的训练集上) 权值在更新后增加了,且超过了某 个设置的百分数e ( 典型值为1 5 ) ,则权值更新被取消,学习速度被乘以一 个因子乏( o o i a x i j ( t ) = + a i j ( t ) 如果qe ( t ) qx i j o ( 2 7 ) i l 0其他 x t i ( t + 1 ) = x t i ( t ) + a x 0 ( t ) 其中qe ( t ) qx 0 表示在模式集的所有模式上求和的梯度信息。 由此看来,r p r o p 算法是有弹性的修改权值或阈值的,其学习规律简单、清 楚,和误差反传算法比较,计算量小,内存消耗少,对于复杂神经网络有较好的 效果,适合于模式分类系统中。但是其性能会随网络训练误差的减小而变差。 2 5 2 数值优化技术 2 5 2 1 共轭梯度法以上三种算法都是沿着梯度的负方向来计算网络参数的更 新值,虽然性能指标函数在此方向上下降最快,但并不意味着相应的收敛最快。 共轭梯度法是沿着共轭方向进行计算,其收敛速度快于最陡下降法。m a t l a b 中 提供了四种共轭梯度算法:f l e t c h e r r e e v e s 、p o l a k r i b i e r e 、p w e l l b e a l es c a l e d 以 及c o n i u g a t eg r a d i e n t ( s c g ) 算法。 下面以f l e t c h e r r e e v e s 算法为例介绍共轭梯度法的基本原理1 4 7 。 第一次迭代时,搜索方向为最陡下降方向( 即梯度的负方向) 。接下来的迭代 工程就会沿着新的方向寻优,公式为: x k + l = x k + qk p k ( 2 8 ) p k = 一g k + 1 5k 木p k 1 ( 2 9 ) 1 4 第二章水质管理决策支持系统的理论基础 其中p k 是搜索方向,g k 为梯度方向,参数qk 用以减少搜索方向的梯度。参 数t 3k 可以通过多种方式定义,此方法中1 3k 定义为: 1 3k = g k h g k g k 1 1 木g k( 2 1 0 ) 由于此法改变了寻优方向,其训练速度加快,内存占用很少,所以对于权重 和阈值很多的网络或是模式分类系统中,它是一种不错的方法。注意s c g 算法与 前三种共轭梯度算法的区别。前三种在每次迭代时都需要进行行搜索,而s c g 算 法把共轭梯度算法与l e v e n b e r y m a r q u a r d t 算法中的模型置信区间方法结合起来, 避免了行搜索,从而提高了网络的训练速度,占用内存相对较少,所以很适合于 大规模的神经网络。 2 5 2 2i e v e n b e r y m a r q u a r d l :算法l e v e n b e r y m a r q u a r d t 算法不需要计算海森矩 阵就可以达到2 阶训练速度。当性能指标函数具有平方和的形式时,海森矩阵可 由下式估出:h = j t 木j ,且梯度为:g = j t e ,其中j 是雅可比矩阵( 包含了由权重和 阈值引起的网络误差的一阶导数) ,e 是网络误差向量。其权重和阈值的迭代公式 为: x k + 1 = x k j t j + ui 】- 1 j t e ( 2 1 1 ) “为一个标量,当l a = 0 时,迭代公式符合牛顿算法,当u 很大时,则近似为 小步长的梯度下降法。这样,综合两种算法的优点,同时计算雅可比矩整比求海 森矩阵更容易实现,因此l e v e n b e r y m a r q u a r d t 算法的收敛速度非常快,但需要很 多的内存。对于小型的数据拟合问题和要求误差较小的网络,此法该是首先。事 实上,m a t l a b 中,训练函数的默认算法就是l e v e n b e r y m a r q u a r d t 算法。 2 6 小结 本章重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论