(计算机软件与理论专业论文)drp决策支持系统及小波网络在其中的应用研究.pdf_第1页
(计算机软件与理论专业论文)drp决策支持系统及小波网络在其中的应用研究.pdf_第2页
(计算机软件与理论专业论文)drp决策支持系统及小波网络在其中的应用研究.pdf_第3页
(计算机软件与理论专业论文)drp决策支持系统及小波网络在其中的应用研究.pdf_第4页
(计算机软件与理论专业论文)drp决策支持系统及小波网络在其中的应用研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机软件与理论专业论文)drp决策支持系统及小波网络在其中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四j i i 大学硕士学位论文d r p 决策支持系统及小波网络在其中的应用研究 d r p 决策支持系统及小波网络在其中的应用研究 专业:计算机软件与理论 研究生:张波指导教师:张洪伟教授 摘要:随着企业的不断发展,企业积累了大量的数据。面对海量数据,企业 决策者需要了解隐藏在这些数据背后的重要知识以辅助企业的决策制定。传统 的决策支持系统存在数据缺乏组织性和数据的利用率低等缺点,数据仓库和数 据挖掘技术的出现为决策支持系统的开发提供了一条新的途径,数据仓库可作 为决策支持的底层数据源,数据挖掘是获取知识的工具,它们都是决策支持的 有效技术。使用数据仓库和数据挖掘技术来构建决策支持系统,必将大大提高 企业的决策质量和水平。 本文介绍了数据仓库和数据挖掘技术理论与相关技术,探讨了基于数据仓 库和数据挖掘技术的决策支持系统。在分析了国内d r p 系统决策支持功能不足及 作者读研期问参与的为宁夏夏进乳业公司开发的d r p 系统的基础上,设计了一个 基于数据仓库的d r p 决策支持系统,建立了面向销售主题的多维数据集,利用数 据挖掘技术中的分类小波网络模型对该公司的经销商进行资信评估及用预测小 波网络模型为该公司进行销售预测,为该公司在经销商的选择及生产销售上提 供有力的支持和参考。本文对神经网络的b p 学习算法进行了分析,针对b p 学习 算法存在收敛速度慢和极易陷入局部极小值等缺点,实现了两种改进算法:最 速下降法和共轭梯度法相结合的混合算法及基于遗传算法优化的b p 算法,并对 改进算法进行了实验分析,实验结果表明改进的算法优于b p 算法。将改进的算 法分别用于本文中分类小波网络和预n d , 波网络的学习训练,取得了良好的效 果。 。 关键词:数据挖掘;数据仓库:决策支持系统:小波网络;b p 算法;共轭梯 度法;遗传算法;混合算法;d r p 四川大学硕士学位论文d r p 决策支持系统及小波同络在其中的应用研究 d r pd e c i s i o ns u p p o r ts y s t e ma n dv q n n sa p p l i c a t i o ni ni t m a j o r :c o m p u t e r s o f t w a r ea n dt h e o r y p o s t g r a d u a t e :z h a n gb os u p e r v i s o r :p r o lz h a n gh o n g - w e i 舳s t r a c hw i t h h ec o n t i n u o u sd e v e l o p i n go f c o r p o r a t i n n t h ea m o u n to f a c c u m u l a t e dd a t aw a sv e r yl a r g e f a c i n gt h i ss i t u a t i o n , d e c i s i o n - m a k e rn e e dt ok n o w t h ei m p o r t a n tk n o w l e d g eh i d i n gb e h i n dt h ed a t at oh e l pd e c i s i o ns u p p o r t i n g t r a d i t i o n a ld s sh a ss o m es h o r t c o m i n g ss u c ha sl a c ko f o r g a n i z i n ga n dl o wu s i n g r a t eo fd a t a d a t aw a r e h o u s ea n dd a t am i n i n gp r o v i d ean e w w a y f o rd s s d a t a w a r e h o u s ec a nb et h eb a s i cd a t as o u r c e o fd e c i s i o ns u p p o r t i n g , a n dd a t am i n i n gi s o u eo ft h et o o l so fo b t a i n i n gk n o w l e d g e t h e ya r eb e t he f f e c t i v et e c h n i q u ei n d e c i s i o ns u p p o r t i n g i tw i l lg r e a t l yi m p r o v et h eq u a l i t ya n dl e v e lo fm a k i n gd e c i s i o n o f c o r p o r a t i o nt ob u i l da d e c i s i o ns u p p o r ts y s t e mu s i n gd a t aw a r e h o u s ea n dd a t a m i n i n gt e c h n i q u e t h i sp a p e rf i r s ti n t r o d u c e st h et h e o r yo fd a t aw a r e h o u s ea n d d a t am i n i n ga s w e l la so t h e rr e l a t i v et e c h n i q u e ,t h e nd i s c u s s e st h ed e c i s i o ns u p p o r ts y s t e mb a s e do n d a t aw a r e h o u s ea n dd a t am i n i n gt e c h n i q u e o nt h eb a s i so fa n a l y s i n gt h es h o r t a g e o f d o m e s t i cd r p s y s t e ma n da n a l y s i n gn i n g x i ax i a j i nd a i r yp r o d u c ec o r p o r a t i o n s d r p s y s t e m ,t h i sp a p e rd e s i g n sa d r pd e c i s i o ns u p p o r ts y s t e m ,e s t a b l i s h e sa s a l e - o r i e n t e dm u l t i d i m e n s i o n a ld a t a , e v a l u a t e st h ed e a l e r so ft h i sc o m p a n yu s i n g c l a s s i f y i n gw a v e l e tn e u r a ln e t w o r km o d e la n dp r e d i c t st h es a l eo fi tu s i n gp r e d i c t i n g w a v e l e tn e u r a ln e t w o r km o d e l i tp r o v i d e ss t r o n gs u p p o r ta n dr e f e r e n c eo nt h e s e l e c t i o no fd e a l e ra n dp r o d u c t i o na n ds a l ef o rt h i sc o m p a n y t h i sp a p e ra n a l y s e st h e b p a l g o r i t h m t oo v e r c o m ed i s a d v a n t a g e so ft h et r a d i t i o n a lb pa l g o r i t h ms u c h a s s l o wc o n v e r g e n c es p e e da n de a s i l yr u n n i n gi n t ol o c a lo p t i m u m , t w oi m p r o v e d a l g o r i t h m sa r ei m p l e m e n t e d :am i x e da l g o r i t h mw h i c hc o m b i n e sr a p i d l yd e s c e n t m e t h o dw i t hc o n j u g a t eg r a d i e n ta n dab pa l g o r i t h mb a s e do ng e n e t i c a l g o r i t h m e x p e r i m e n tr e s u l t ss h o w t h a tt h ei m p r o v e da l g o r i t h m sa r eb e t t e rt h a nb p a l g o r i t h m t h et w oi m p r o v e da l g o r i t h m ss h o wg o o de f f e c t i v e n e s sw h e n u s e dt ot r a i n 、 四川大学硕士学位论文 d r p 决策支持系统及小波两络在其中的应用研究 w a v e l e tn e u r a ln e t w o r k k e yw o r d s :d a t am i n i n g ;d a t aw a r e h o u s e ;d e c i s i o ns u p p o ns y s t e m ;w a v e l e t n e u r a ln e t w o r k ;b p a l g o r i t h m ;c o n j u g a t eg r a d i e n tm e t h o d ;g e n e t i c a l g o r i t h m ;m i x e d a l g o r i t h m ;d r p 四川大学硕士学位论文d r p 决镱支持系统及小波网络在其中的应用研究 1 前言 1 1 现代企业决策的挑战 在过去,管理者制定决策源于创造力、判断力、直觉和经验,而不是建 立在科学方法基础上的系统化定量分析方法。但是,今天管理所面临的外部 环境正在发生迅速变化。商业及其本身的环境也比以往更加复杂,而且这种 复杂性日益增加。这些都对现代企业的管理决策带来了新的挑战,决不仅仅 是凭直觉和经验所能完全驾驭的,而是决策本身的特性决定的例。 、 1 1 决策要求更高的质量 随着科学技术的迅速发展,客户获得产品和服务的渠道更为畅通,客户 选择的余地更大同时大规模生产使得产品出现了供过于求的状态,客户成 为最稀缺的资源。这迫使企业必须采取“以客户为中心”的经营策略,努力 提高产品和服务的质量。因此客户信息的收集显得尤为重要,且客户信息的 收集必须是实时的、广泛的、有针对性的。 2 ) 决策时要考虑的因素更复杂 随着经济全球化的趋势,无论是否愿意,企业都将面对全球的竞争者和 全球范围的消费市场;随着环境的恶化、消费者权益意识的增强等,政府颁 布了更详尽的法令和制度来约束企业的经营行为。企业管理者在进行决策时 需要考虑更多、更复杂的制约因素。 3 ) 决策速度要求更快 随着通信方式的发展、交通的便利以及金融体系的完善,企业更难长久 维持自己的竞争优势。企业必须不断地创新,从以规模取胜转变到以速度取 胜。这些都要求管理者能够迅速做出正确的决策 决策失败的代价更高 企业中采购、生产、销售和服务等方面的联系日益紧密,企业的整个运 作系统更加复杂和精密。某一环节的判断失误将产生连锁反应,造成企业重 大的损失。 面对这些趋势和变化,管理者必须变得更加精明。他们需要新的工具和 四川大学硕士学位论文 d r p 决簧支持系统及小波网络在其中的应用研究 技术来帮助他们制定有效的决策。而传统的企业信息管理系统却不具备这样 强大的分析功能。这体现在【冽: ( 1 ) 分析工作量大 、 企业通常的运营系统只能提供面向交易的数据。因此,许多管理者要花 费8 0 的时间进行数据的分析,真正用于决策的时间只有2 0 而且对于许 多大型企业,还必须为之配备庞大的专业分析队伍。 ( 2 ) 分析结果滞后 由于分析时间过长,经理们经常无法及时拿到所需的报表,因此贻误了 许多商业机会,而且企业的信息无法准确地综合。 ( 3 ) 无法按照商业习惯进行分析。 传统的报表只能进行简单的汇总。管理者有时为了分析一个关键的商业 因素,不得不在大量打印的报表中前后翻阅,极不方便 ( 4 ) 无法进行复杂的分析。 管理者经常希望能够综合多种因素来分析问题。如石油价格的上涨、物 价指数的波动对企业各方面的影响;如果现在采取降价措施,本年度末公司 的市场份额、销售额和赢利是否有所增长;哪些客户对企业最关键,他们有 什么特征,如何增加他们对企业的忠诚度等。 ( 5 ) 无法提供关键问题的解决方案。 现代企业需要决策支持系统能解决如:对于大型零售企业,为了实现最 高的效率,如何在一个区域内设立自己的连锁店? 如何制定有效的预算计划 和现金流计划? 如何防止客户的流失? 传统的信息技术都无法提供这些关键 性问题的解决方案。 ( 6 ) 缺乏量化的恒定指标。 随着企业规模的扩大和机构的日益复杂,管理者不能只依赖经验和直觉 来评价企业的整体表现,必须借助一些关键的、量化的指标。但通常的管理 信息系统无法做到这一点。 计算机信息系统的广泛应用与网络技术的迅速普及,使辅助人类决策的 信息系统变成可能,而且越来越受到人们的重视。数据仓库、数据挖掘是2 0 世界9 0 年代中期在国外兴起的决策支持技术,数据仓库是在数据库的基础上 发展起来的,数据库用于事务处理,而数据仓库可用于决策分析,而且主要 2 四川大学硕士学位论文d r y 决策支持系统及小波网络在其中的应用研究 用于决策分析。数据挖掘( 或称数据开采) 则是在人工智能学习中发展起来 的,它是从多个数据库中发现知识( k d d ) 的过程的核心。数据仓库和数据 挖掘技术的结合开创了决策支持系统的新方向,而数据仓库则是数据挖掘技 术的主体和基础,没有基本的数据支撑,就不可能有科学的决策。 决策支持系统作为- - f 7 新兴的信息技术,能够为企业提供各种决策信息 支持以及许多商业问题的解决方案,从而减轻管理者从事低层次信息处理和 分析的负担,使得他们专注于最需要决策智慧和经验的工作,从而提高决策 的质量和效率。 1 2 本研究工作的意义 随着经济的发展,越来越多的企业购买或自己开发了d r p 系统。d r p 系统 的实施很大程度上帮助企业解决了异地生产、异地销售、异地物流及异地资 金流管理等方面的问题。但是,还有很多d r p 不能解决的问题,比如:如何 确定仓库的安全库存? 如何选择优秀的经销商以帮助企业快速提高市场占有 率? 如何确定未来一段时间市场的变化情况和走势? d r p 的长期运行为企业 积累了大量的业务数据,可以通过对这些数据进行分析和挖掘来帮助企业解 决这些问题。 , 本文正是基于此,在分析了作者在读研期间参加的为宁夏夏进乳业公司 定制的d r p 系统的基础上,设计了一个基于数据仓库和数据挖掘技术的d r p 决策支持系统。在该决策支持系统中包含了采购决策支持、销售决策支持、 库存决策支持、费用管理决策支持等子模块。通过该决策支持系统,公司可 以对未来几周、几个月、几年的销售进行预测以辅助公司的采购计划、生产 计划、销售计划等的制定,可以对公司的经销商进行评估来帮助公司进行经 销商的选择,对公司的费用情况进行分析以降低公司的费用,对仓库库存进 行预测使库存达到最合理状态使用该决策支持系统可以提高公司决策的效 率和准确性,增加公司的经济效益。 一 1 3 本文所做的工作 本文所做的具体工作如下: 3 四川大学硕士学位论文 d r y 决策支持系统及小波网络在其中的应用研究 分析了数据仓库、数据挖掘等决策支持系统相关开发技术。 。 分析了决策支持系统的发展,传统决策支持系统的缺点,及基于数据仓 库和数据挖掘技术的决策支持系统的优势。 、 分析了当前d r p 决策支持的现状及构建d r p 决策支持系统的必要性。 在宁夏夏迸乳业公司d r p 系统的基础上,设计了一个基于数据仓库和数 据挖掘技术的d r p 决策支持系统框架和其决策支持的主要功能。 针对传统b p 算法存在收敛速度慢和极易陷入局部极小值等缺点,实现了 一种将最速下降法和共轭梯度法相结合的混合算法及一种将遗传算法和b p 算法结合起来,利用遗传算法的全局优化搜索能力对小波网络的网络参数 进行优化,交替使用b p 网络训练算法和遗传算法对小波网络进行训练的算 法。 建立了基于分类小波网络的经销商评估模型和基于预测小波网络的销售 预测模型,并使用它们对宁夏夏进乳业公司的经销商进行评估及进行销售 预测,取得了良好的效果。 4 四川大学硕士学位论文d r p 决策支持系统及小渡网络在其中的应用研究 2 决策支持系统及其开发技术 2 1 决策支持系统综述 2 1 1 决策支持系统的产生 当今社会生产的规模越来越大,现代化程度很高。随着企业规模的日益 扩大,企业生产经营活动中,外部联系越来越复杂。因而信息量也急剧增大。 决策支持系统就是在这种客观需要下应运而生,主要向企业各部门、生产环 节和企业的外部提供信息,并根据企业经营决策的需要,对原始数据进行采 集、存贮、检索,将数据转交为信息,帮助决策者明确决策目标,提供各种 备选方案,并对各种方案进行评审和择优,辅助决策者制定出科学的决策。 随着生产的进一步发展,企业是否建立决策支持系统将关系到企业是否具有 活力及发展前途,决策支持系统对企业来说是至关重要的。 2 1 2 决策支持系统的概念 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 是支持决策过程的 一个管理信息系统t 1 9 1 它允许决策者在决策过程中存取资料并控制方案。决 策支持系统重在决策支持,而非决策自动化。决策支持系统支持任何层次的 管理决策,如战略计划、管理控制和运行控制中出现的决策问题。 决策支持系统支持的主要对象是半结构化决策问题,这类问题的结构化 部分可交由计算机来完成,而决策部分需要决策者的监视与决断;决策支持 系统采用人机交互方式来有效地解决决策中出现的问题,这种对话式的参与 方式可以使决策者利用自己的经验、判断、创造性思维及系统所提供的信息 和分析能力来揭示问题的状况。决策支持系统对决策者起支持作用而非越俎 代庖。因此,决策支持系统是指计算机系统支持决策而非使制定决策。 目前没有普遍接受的决策支持系统的定义。一个经典的定义是【捌: 决策支持系统通过结合个人的智力资源和计算机的能力来改进决策的质量。 它是一个基于计算机的系统,服务于处理半结构化和非结构化问题的管理决 策制定者。 5 四川大学硕士学位论文d r p 决策支持系统及小波网络在其中的应用研究 2 1 3 决策支持系统的发展 决策支持系统是在管理信息系统的基础上发展起来的,其发展过程i 驯如 图2 - 1 3 所示。 应 用 深 度 过去现在 未来 图2 - 1 3 决策支持系统的发展图 2 1 4 决策支持系统的组件 时间 一个决策支持系统将包括如下典型的组件【捌,如图2 - 1 - 4 所示。 1 1 数据管理子系统 决策支持系统的数据库通常包括在数据仓库中。数据仓库是集成的、面 向主题的数据库集合,它是用来支持决策支持功能的,其中每个数据单元都 不随时间改变。数据仓库的数据通常从内部和外部的数据源中抽取。内部数 据主要来自于组织的交易处理系统。外部数据包括行业数据、市场调查数据、 人口普查数据、国家经济数据等。 2 ) 模型管理子系统 6 四川大学硕士学位论文d r p 决策支持系统及小波网络在其中的应用研究 一个包含有财务、统计、运筹和其他定量模型的软件包,能够提供系统 的分析能力和合适的软件管理能力在模型库中的模型可以分为战略性的、 策略性的、营运性的等。 、 图2 1 - 4 决策支持系统的组件图 3 1 知识管理子系统 许多非结构化和半结构化的问题是如此复杂,以至于超出了通常的 决策支持系统能力,它们还需要特别的专业知识。这些知识可以由专家系统 或者其它智能系统提供。因此,高级的决策支持系统系统还包含成为知识管 理的组件。 钔用户界面子系统 企业决策者通过用户界面存取信息并制定决策者所需的分析模型。它是 决策支持系统不可或缺的重要组成部分,是连接人与系统的中间纽带。通过 用户界面,一方面人向系统提供信息、提出任务要求;另一方面系统向人提 供解决方案和各种辅助决策的信息,也可能向人索取为完成任务所需要的补 充信息。用户界面的好坏很大程度上决定了一个决策支持系统系统的成功与 7 四川大学硕士学位论文 d r p 决簟支持系统及小波网络在其中的应用研究 失败。 。 2 2 数据仓库综述 2 , 2 1 数据仓库的概念与特点 数据仓库通常是一个专用的数据库系统,它独立于这个组织中的联机事 务处理系统。w h i n m o n 给数据仓库作出如下定义:“数据仓库就是面向主题 的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制订 过程。”概括地说数据仓库具有以下特点【4 2 】: ( 1 ) 数据仓库的数据是面向主题的。 传统数据库是面向应用而设计的,它的数据为了处理具体应用而组织在 一起,即按照业务处理流程来组织数据,反映的是企业内数据的动态特征, 目的在于提高数据处理的速度主题是一个在较高层次将数据进行归类的标 准,每个主题基本对应一个宏观的分析领域,满足该领域分析决策的需要。 因此,主题的抽取是按照分析的要求来确定的。数据在进入数据仓库之前必 须要经历加工与集成,将原始数据结构做一个从面向应用到面向主题的大转 变。 ( 2 ) 数据仓库是集成性的。 数据仓库中的数据主要用于进行分析决策,要对细节数据进行归纳、整 理、综合。数据仓库中的数据多来自与多个应用系统,但并不是对这些数据 的简单汇总或拷贝,因为我们不仅要统一原始数据中的所有矛盾和同名异义、 异名同义、单位不统一等,而且要将这些数据统一到数据仓库的数据模式上 来,还要监视数据源的变化,以便扩充和更新数据仓库。应该说数据仓库是 对源数据的增值和统一数据集成是数据仓库技术中非常关键且非常复杂的 内容。 ( 3 ) 数据仓库的数据具有时间特征 数据仓库随着时间变化要不断增加新的内容,即不断跟踪事务处理系统、 将业务数据库中的数据变化追加到数据仓库中去,同时也要随着时间变化删 去陈旧的数据内容。由于数据仓库常用作趋势预测分析,所以需要保留足够 长时间的历史数据。时间是数据仓库中所有数据必备的属性,以标明数据的 8 四川大学硕士学位论文 d r p 决簧支持系统及小波网络在其中的应用研究 历史时期。 ( 4 ) 数据仓库的数据是相对稳定的 数据仓库是随时间而变化的,但是又是相对稳定的数据仓库的这种稳 、 定性指的是数据仓库中数据主要供企业决策分析之用,决策人员所涉及的数 据操作主要是数据查询,一般情况下并不进行数据修改。数据仓库的数据反 映的是相当长时间内的数据内容,是不同时间点数据库快照的集合,以及基 于这些快照进行集成、综合而导出的数据,而不是事务型数据尽管源数据 库内的具体事务处理过程是变化的,但进入数据仓库的数据是相对稳定的 另外,数据仓库还具有以下特点:、 ( 1 ) 数据库中的数据量非常大 ( 2 ) 数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓 库还是应用数据库管理系统来管理其中的数据。 ( 3 ) 数据仓库的使用人员较少。数据仓库是为决策分析的需要而产生的, 其使用人员为经理、专业分析人员等,而不是记帐员,库管员等业务人员, 因此数据仓库的使用人员相对较少,且使用频率不是很高。 2 2 2 数据仓库的体系结构 关于数据仓库系统的体系结构,存在着各种不同的说法和建议,但大多 包括了w h i n m o n 所区分的3 个部分: 九数据获取。这个部分负责从外部数据源获取数据,数据被区分出来, 进行拷贝或重新定义格式等处理后,准备装入数据仓库。 b 数据存储管理。这个部分负责数据仓库的内部维护和管理,提供的服 务包括数据存储的组织、数据的维护、数据的分发及数据仓库的例行维护等, 这些工作需要数据库管理系统的功能。 c 信息访问。这个部分属于数据仓库的前端,面向不同种类的最终用户。 主要由查询工具、多维分析工具和数据挖掘工具等工具组成,以实现决策支 持系统的各种要求 数据仓库系统的基本体系结构【矧如图2 - 2 2 所示 9 四川大学硕士学位论文 d r p 决策支持系统及小渡同络在其中的应用研究 图2 - 2 2 数据仓库系统结构图 2 2 3 数据仓库的数据组织 2 2 3 1 数据仓库的数据组织结构 数据仓库中数据的组织结构与数据库不同,通常采用分级的方式进行组 织。一般包括早期数据、当前细节数据、轻度综合数据、高度综合数据以及 元数据五部分例。典型的数据组织结构如图2 - 2 3 - 1 所示 早期细节数据 早期细节数据指存储过去的详细数据,它反映了真实的历史情况。这类 数据随着时间的增加,数据量也变得很大,但使用频度低,一般存储在转换 介质中( 如磁带) 当前细节数据 当前细节数据指最近期的业务数据,它反映了当前业务的情况,数据量 ,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据 仓库的时间控制机制转为早期细节数据。 轻度综合数据 1 0 四川大学硕士学位论文 d r f 决簧支持系统及小波网络在其中的应用研究 轻度综合数据指从当前基本数据中提取出来,以较小的时间段( 粒度) 统计而形成的数据。这类数据较细节数据量小得多 、 高度综合数据 这一层的数据十分精炼,是一种难决策数据 元数据 整个数据的组织结构由元数据来统一组织,它不包含任何业务数据库中 的实际数据信息。元数据在数据仓库中起到辅助决策分析过程中定位数据仓 库的目录作用,指导从近期基本数据到轻度综合数据和到高度综合数据的综 合算法选择。元数据至少包括一下一些信息;数据结构,用于综合的算法, 从业务环境到数据仓库的规划。 高度综合数据 轻度综合数据 当前细节数据 早期细节数据 图2 - 2 - 3 1 数据仓库数据组织示意图 元数据在经过综合后,首先进入当前细节级,并根据具体需要进一步的 综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。 2 2 。3 2 数据仓库的数据组织形式 数据仓库中有如下几种常见的数据组织形式p 4 】。 1 1 简单堆积文件 它将每日有数据库中提取并加工的数据逐天积累并存储起来。 l l 四川大学硕士学位论文d r p 决策支持系统及小波同络在其中的应用研究 轮转综合文件 数据存储单位被分为日、周、月、年等几个级别。在一个星期的7 天中, 数据被逐一记录在每日数据集中;然后,7 天的数据被综合并记录在周数据集 中:接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数 据集达到5 个后,数据再一次被综合并记录在月数据集。以此类推。轮转综 合结构十分简洁,数据量较简单堆积结构大大减少。当然,它是以损失数据 细节为代价的,越久远的数据,细节损失越多。 3 ) 简化直接文件 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔 一星期或一个月作一次。 4 ) 连续文件 通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比 较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件 也可以生成新的连续文件。对于各种文件结构的最终实现,在关系数据库中 仍然要依靠。表”这种最基本的结构。 2 2 4 数据仓库的关键技术 1 ) 数据的抽取 数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数 据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱 机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复 制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机 事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操 作的执行时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 由于数据抽取是与实际应用密切相关的部分,因此它是非常复杂的 2 ) 数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库需要解决如下几个 主要问题:对大量数据的存储和管理。并行处理。在数据仓库中,用户 访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率 四川大学硕士学位论文d r p 决策支持系统及小波网络在其中的应用研究 并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的 查询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以 往更加重要。针对决策支持查询的优化。、支持多维分析的查询模式 3 ) 数据表现 数据表现是仓库的门面。数据表现主要集中在多维分析、数理统计和数 据挖掘方面。 4 1 数据仓库设计的技术咨询 数据仓库不是简单的产品堆砌,它是综合性的解决方案和系统工程。在 数据仓库的实施过程中,技术咨询服务至关重要 2 2 5 数据仓库的开发 按照项目开发生命周期法可将数据仓库开发应用的全过程分成:数据仓 库规划分析、数据仓库的设计实施和数据仓库的维护使用三个阶段1 1 刀 1 ) 数据仓库规划分析阶段 在该阶段的工作内容主要包括: 分析数据仓库应用环境,调查数据仓库开发需求,完成数据仓库的开 发规划。 建立包括实体关系图、星型模型、雪花模型、元数据模型以及数据源 分析的主题区数据模型,并根据主题区数据模型开发数据仓库逻辑的模型 数据仓库的设计实施阶段 在该阶段的工作内容主要包括: 按照数据仓库的逻辑模型设计数据仓库的体系结构。 设计数据仓库的物理数据库。 用物理数据库元数据填充面向最终用户的元数据库 对数据仓库中每个目标字段确认其在业务系统或外部数据源中的数据 来源。 开发( 或购买) 用于抽取、清洁,交换和合并数据等中间件的程序。 将数据从现有系统中传送到仓库中。 3 ) 数据仓库的使用维护阶段 四川大学硕士学位论文d r p 决策支持系统及小波网络在其中的应用研究 在该阶段的工作内容主要包括: 将数据仓库投入实际使用,并在应用中改进和维护数据仓库。 对数据仓库进行效益评价。 7 2 3 数据挖掘技术 2 3 1 数据挖掘的概念 数据挖掘( d a t a m i n i n g ) 是指从大量的数据( 结构化和非结构化) 中提 、 取有用的信息和知识的过程【矧。在这个定义中,要求数据源应该是大量的、 真实的、含有噪音的;所发现的信息是潜在的并隐藏在大量数据背后的,是 用户感兴趣的、可理解的、可运用的知识。所以,数据挖掘有时也被人们称 为知识挖掘、知识提取、知识发现等。 数据挖掘也可视为一类深层次的新型数据分析方法。它与传统数据分析 ( 查询、报表、联机应用分析) 的本质区别在于:数据挖掘是在没有明确假 设的前提下去挖掘信息、发现知识,所得到的信息通常是预先未知的、也是 很难预料到的,甚至与人的直觉是相违背的,但又是非常有用的;而传统的 数据分析得到的信息则是浮在表面的、人的直觉能够感受到的、或与人的直 觉较为相近的。 从商业角度出发,数据挖掘可理解为一种商业信息处理技术,其主要目 的是对大量的商业数据进行抽取、转换、分析和其他模型化处理,从中提取 辅助商业决策的关键性数据。由于在商业运作过程中,无时不在产生数据, 对企业来说,这种数据是大量的,收集这些数据不再是单纯的以分析研究为 目的,更主要的是通过对这些数据进行深入挖掘,提供真正又价值的商业决 策信息,从而获得更多利润。 2 3 2 数据挖掘的过程 数据挖掘项目生命周期的六个阶段【4 3 】分别是:业务理解、数据理解、数 据准备、建立模型、评价和实施。如图2 - 3 2 所示。 1 4 四川大学硕士学位论文 d r p 决策支持系统及小波网络在其中的应用研究 图2 - 3 2 数据挖掘过程模型 业务理解:是从业务角度理解项目的目标和需求。它的主要目的是把项 目的目标和需求转化为一个数据挖掘问题的定义和一个实现这些目标的初步 计划。这一阶段包含的一般性任务为确定业务目标、评估环境、确定数据挖 掘目标、产生项目计划。 数据理解:是对数据挖掘所需数据的全面调查。它的第一步是原始数据 的收集,然后是熟悉这些数据,以便鉴别数据的质量问题,产生对数据的洞 察力,形成对数据中隐含信息售勺假想。 数据准备:包括了所有把原始数据转化为适合数据挖掘工具处理的最终 目标数据的活动( 任务) 。这些任务往往要执行多次,而且也不一定按照固定 的次序操作。主要包括数据选择、数据清洗、数据转换,数据集成等 建立模型:这个阶段,将选择和应用多种不同的建模技术( 数据挖掘技 术) ,并且校准它们的参数,使其达到最优值。 评价:在进入下一步实施这个模型之前,必须对这个模型进行全面 、 四川大学硕士学位论文d r p 决镱支持系统及小波网络在其中的应用研究 地评价,并回顾构建这个模型的步骤,以确定它是否完全达到了业务目标。 另一方面,希望在评价的过程中,能够发现是否有一些重要的业务问题尚未 得到充分的考虑。在这个阶段中,必须做出是否应用数据挖掘结果的决策。 实施:建立一个模型通常并不是一个数据挖掘项目的结束。即使这 个模型的目的是增加关于数据的知识,但这些知识也需要被组织和表现,以 便用户可以使用它们。根据实际需要,实施可以使简单的,即产生一份报告。 2 3 3 数据挖掘的主要功能 、 一般而言,数据挖掘的功能与挖掘的目标数据类型是相关的。某些功能 只能应用在某种特定的数据类型上,而某些功能则可以应用在多个不同类型 的数据上。对于数据挖掘任务的确定,必须综合考虑数据挖掘功能、要挖掘 的数据类型和用户的兴趣。 数据挖掘功能主要包括以下几个方面【拈】:概念描述、关联分析、分类、 聚类、偏差检测、时序演变分析、信息摘要、概念分析和元数据挖掘。数据 挖掘功能一般可以分析描述和预测两类。描述性挖掘分析主要用来刻画数据 集合的一般特性;预测挖掘则是根据当前数据进行分析推算,从而达到预测 的目的。 ( 1 ) 概念描述 概念描述就是通过对与某类对象关联数据的汇总、分析和比较,对此类 对象的内涵进行描述,并概括这类对象的有关特征。这类描述是汇总的、简 洁的和精确的,也是非常有用的知识。例如:关系数据库中的一个关系( 即 一个表) 代表了一个对象集,其中每个元组可以看作一个对象,每个对象有 一个唯一标示和数个属性值。在一个或一组属性上取值现同的对象构成一个 对象类。 概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征, 后者描述不同类对象之间的区别生成一个类的特征性描述只涉及该类对象 中所又对象的共性;生成区别性描述则涉及目标类和对比类中对象的共性。 特征性描述是目标数据类数据的一般特征或特性的汇总基本方法有两 种:基于数据立方体的o l a p 方法和面向属性的归纳方法a o i ( a t t r i b u t e 四川大学硕士学位论文d r p 决策支持系统及小波网络在其中的应用研究 o r i e n t e di n d u c t i o n ) 。 区别性描述是将目标类数据的一般特性与一个或多个对比类数据的一般 特性进行比较。而这种比较必须是在具备可比性的两个或多个类之间进行的 区别性描述所采用的方法与特征性描述相似。 ( 2 ) 关联分析 关联分析就是从大量的数据中发现项集之间有趣的关联、相关关系或因 果结构以及项集的频繁模式。数据关联是数据库中存在的一类重要的可被发 现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。通 常的数据挖掘系统使用最小置信度和最小支持度作为阈值来筛选有价值或有 兴趣的关联规则,用户可以自行设定阈值,以调整挖掘结果。 。 ( 3 ) 分类与聚类 信息分类是信息处理的重要组成部分。事实上,它是人们对信息最自然 而然的处理。信息分类将信息和数据有序地聚合在一起,有助于人们对事物 的全面和深入了解。根据处理对象的不同,信息分类可以分为结构化数据分 类和文本数据分类两种。分类不仅可以预测数据对象的类标记,还可以用来 预测某些空缺或未知的数据值。 聚类是一种特殊的分类,与分类分析法不同,聚类分析是在与新不知道 欲划定类的情况下( 如没有预定的分类表,没有预定的类目) ,根据信息相似 度原则进行信息集聚的一种方法。聚类的目的是根据最大化类内的相似性、 最小化类间的相似性这一原则合理的划分数据集合,并用显式或隐式的方法 描述不同的类别。通过聚类,人们能够识别密集和稀疏的区域,因而发现全 局的分布模式,以及数据属性间的有趣的关系聚类也分为结构化数据聚类 和文本数据聚类两种。聚类的主要方法有:单遍聚类、逆中心距聚类、自上 而下精分法、密度测试法以及图聚类法等。 ( 4 ) 偏差检测 偏差检测就是对数据库中的偏差数据进行检测和分析数据库中的数据 常有一些异常记录,它们与其他数据的一般行为或模型不一致。这些数据记 录就是偏差,也叫孤立点。偏差的产生可能是某种数据错误造成的,也可能 是数据变异所固有的结果从数据库中检测这些偏差很有意义,例如,偏差 检测可以发现信用卡欺骗。通过检测一个给定帐号的支付记录,如果发现存 1 7 四川大学硕士学位论文 d r p 决镱支持系统及小波网络在其中的应用研究 在着某个支付款数额比一般的付款数额高出很多的付费记录,则可能是信用 卡欺诈。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 基于计算机的偏差检测算法大致有三类:统计学方法,基于距离的方法和基 于偏移的方法。 ( 5 ) 时序演变分析 数据的时序演变分析是针对事件或对象行为随时间变化的规律或趋势, 并以此来建立模型。它主要包括时间序列数据分析、序列或周期模式匹配和 基于类似性的数据分析。 ( 6 ) 信息摘要 、 信息摘要是一种自动编制文摘的技术,即利用计算机将一篇文章浓缩成 一篇短文的过程。目前比较实用的自动文摘方法都是基于词频统计思想,再 结合模仿人工编制文摘的方法。 ( 7 ) 信息抽取 信息抽取就是根据一个事先定义好的、描述所需信息规格的模板,从非 结构化的文本中抽取相关信息的过程。这个模板通常说明了某些事件、实体 或关系的类型。 ( 8 ) 元数据挖掘 。元数据是指对元数据进行的挖掘。例如,对文本数据的挖掘,对于w e b 站点结构等非内容性的数据挖掘。 2 3 4 数据挖掘的常用方法 数据挖掘的方法有许多,每种方法都有各自的特点和应用领域【4 9 j 。 ( 1 ) 决策树 决策树是一种用来表示人们为了做出某个决策而进行的一系列判断过程 的树形图。它的主要优点是描述简单,分类速度快,特别适合大规模的数据 处理。在机器学习领域中,人们开发了决策树方法来进行知识的自动学习。 该方法的思想就是从训练集数据中,自动地构造决策树,从而可以根据这个 决策树对任意实例进行判定。决策树方法的起源是概念学习系统c l s ,然后 发展到i d 3 方法,最后又演化为能处理连续属性的c 4 5 。著名的决策树方法 1 8 四川大学硕士学位论文d r p 决策支持系统及小皱同络在其中的应用研究 还有c a r t 和a s s i s t a n t 目前,决策树方法还主要用于分类 ( 2 ) 神经网络 神经网络是“一个以有向图为拓扑结构的动态系统,通过对连续或断续 方式的输入作状态响应而进行处理”神经网络是仿生学的一大成果。神经网 络的主要部分是神经元,它具有以下生物特征:是一个多输入、单输出的元 件;是具有非线性的元件;具有可塑性,传递强度可变的特征:其输出是每 个输入综合的结果在神经网络中,知识与信息的存储表现为神经元之间分 布式的物理联系。每个神经元及其连线只表示一部分信息,而不是一个完整 具体概念。只有通过各神经元的分布式综合效果才能表达出特定的概念和知 识。由于人工神经网络中神经元个数众多以及整个网络存储信息量的巨大, 使得它具有很强的不确定性信息处理能力。即使输入的信息不完全、不准确 或模糊不清,神经网络仍然嫩构通过联想思维,展示存在于记忆中事务的完 整图像。只要输入的模式接近于训练样本,系统就能给出正确的推理结论。 同时神经元的处理输出不是随意的,只有当神经元对所有的输入信息的综合 处理结果超过某一阈值后才输出一个新的信息。 ( 3 ) 粗糙集 租糙集理论是一种研究不精确、不确定性知识的数据工具粗糙集有以 下几个优点:无需提供除问题所需处理的数据集合之外的任何先验信息,如 统计中要求的先验概率和模糊集中要求的隶属度:算法简单、易于操作。租 集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统 和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。 但粗集的数学基础是集合论,难以直接处理连续的属性而现实信息表中连 续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。 ( 4 ) 遗传算法 遗传算法是进化算法的一种,它主要是对生物界自然选择和自然遗传机 制进化过程的模拟。遗传算法将问题的求解过程看成一个在候选解空间寻找 满足问题要求的解或最优近似解的搜索过程,其重点在适应规划和适应度量 方面。遗传算法的适应规划用于指导算法怎么样在空间进行搜索,一般采用 遗传算自诸如交叉和变异等,以及模拟自然过程的选择机制,而适应度量采 用计算适应值的方法来评估一个候选解的优劣 四j l i 大学硕士学位论文d r p 决策支持系统及小波网络在其中的应用研究 ( 5 ) 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定 性关系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们 的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。 可进行常用统计( 求大量数据中的最大值、最小值、总和、平均值等) 、回归分 析( 用回归方程来表示变量间的数量关系) 、相关分析(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论