(企业管理专业论文)数据仓库和数据挖掘技术在企业管理中的一个应用.pdf_第1页
(企业管理专业论文)数据仓库和数据挖掘技术在企业管理中的一个应用.pdf_第2页
(企业管理专业论文)数据仓库和数据挖掘技术在企业管理中的一个应用.pdf_第3页
(企业管理专业论文)数据仓库和数据挖掘技术在企业管理中的一个应用.pdf_第4页
(企业管理专业论文)数据仓库和数据挖掘技术在企业管理中的一个应用.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(企业管理专业论文)数据仓库和数据挖掘技术在企业管理中的一个应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江人学硕j 一学位论数据仓库和数据挖掘技术在企业管理中的一个应用 数据仓库和数据挖掘技术在企业管理中的一个应用 张圣阳 yi 2 3 7 2 3 浙江大学管理学院 摘要 本文总结了数据仓库和数据挖掘技术的研究及其在企业管理决策支持系统 中的应用,在此基础上提出了杭州市自来水公司生产和销售两大主题的数据仓库 概要设计。 为了解决自来水公司的供销差异和客户服务问题,研究中结合地理信息系统 提出了管网计算模型和求解方法,为生产、销售两大主题数据挖掘分析提供解决 途径。本研究对公用事业领域数据仓库和数掘挖掘技术的应用有一定的参考价 值。研究中得到的结论有: u ,数据仓库和数掘挖掘技术正在被越来越多的需要处理海量数据的企业所 应用,数据仓库尤其是数据挖掘技术成了支持企业决策分析和改善企业管理的重 要工具。 2 数据仓库在推动数据库技术创新的同时为企业管理决策支持系统提出了 新的思路,基于数据仓库的管理决策支持系统实现了数据的多维分析处理,通过 联机分析处理和数据挖掘技术进行知识发现、提供决策信息。 3 主题数据仓库的应用给出了数掘仓库“自下而上”开发策略的可行性。 4 数据仓库和数掘挖掘技术的应用领域可以进一步拓宽。自来水公司、煤气 管道公司、电力公司等城市公用事业领域可以在原有计算机信息系统的基础上构 建数掘仓库,提高企业数掘存储、操作、分析应用的能力。 5 城市公用事业领域数据仓库的集成需要地理信息系统的支持,地理维是数 据仓库维设计中除了产品维、时间维和用户维的关键维度,地理维的设计与企业 地理信息系统是一致的。 6 管网计算模型结合地理信息系统的数据挖掘应用能分析任一区域的生产 和销售两大主题的数掘差异并定位,为企业掌握经营状况和改善客户服务捕捉有 效、及叫的信息,提高企业竞争力。) 【关键词】数据仓库数掘挖掘决策支持系统地理信息系统管网模型 浙江人学硕j 学位论数据仓库和数据挖掘技术在企业管理中的一个应用 a n a p p l i c a t i o ns t u d y o fd a t aw a r e h o u s ea n dd a t a m i n i n g i nt h eb u s i n e s sm a n a g e m e n t s h e n g y a n gz h a n g m a n a g e m e n ls c h o o l ,z h e j i a n gu n i v e r s i t y a b s t r a c t t h i sp a d e rc o n c l u d et h er e s e a r c h e so nt h ed a t aw a r e h o u s ea n dd a t am i n i n g a n d t h ea p p l i c a t i o n so fw h i c ho nt h eb u s i n e s sd e c i s i o ns u p p o r ts y s t e m s u p o nt h i s ,t h e g e n e r a ld a t aw a r e h o u s ed e s i g no fh a n g z h o uw a t e rb r i n g sf o r w a r d ,w h i c hf o c u s e so n t w o t h e m e s :p r o d u c t i o na n d s a l e s t o w a r d st h ed i f i e r e n c eb e t w e e ns u p p l ya n dm a r k e t i n ga n dt h ec l i e n t s s e r v i c e , w eg i v eap i p en e t w o r km o d e la n di t ss o l u t i o nc o m b i n i n gg i s t h i sp r o v i d e st h e s o l u t i o n sf o rt h et w ot h e m e s d a t am i n i n ga n da n a l y s i st h i sp a d e rd o e ss o m e r e f e r e n c e so nt h ea p p l i c a t i o no fd a t aw a r e h o u s ea n dd a t am i n i n gi np u b l i cu t i l i t i e s t h ec o n c l u s i o n ss h o w sa sf o l l o w s : 1 m o r ea n dm o r ec o m p a n i e sh a v eb e e na p p l y i n gd a t aw a r e h o u s ea n dd a t am i n i n g t h a tm a g n i t u d eo fd a t an e e db ed e a l tw i t h d a t aw a r e h o u s e ,e s p e c i a l l yd a t am i n i n g ,i s b e c o m i n g t h e i m p o r t a n t t o o lt o s u p p o r td e c i s i o n - m a k i n g a n di m p r o v eb u s i n e s s m a n a g e m e n t 2 d a t aw a r e h o u s ep r o m o t e sd a t a b a s et e c h n o l o g yi n n o v a t i o na n dn e w l yi d e a sf o r d s s t h ed s sb a s e du p o nd a t aw a r e h o u s ea c h i e v e sm u l t i d i m e n s i o n sa n a l y s i sa n d p r o c e d u r eo fd a t a b y o l a pa n dd a t am i n i n g w ed ok n o w l e d g ed i s c o v e r ya n d d e c i s i o ni n f o r m a t i o na t t a i n i n g 3 d a t aw a r e h o u s ea p p l i c a t i o no nt h e m e ss h o w sf e a s i b i l i t ya b o u tt h e ”d o w n u p ” p o l i c yo fd e s i g n 4 t h ef i e l do fd wa n dd m a p p l i c a t i o n sc a nb ew i d e n e d p u b l i cu t i l i t i e ss u c ha s w a t e rc o m p a n y 、e l e c t r i cp o w e re t c a r er e a d yt oi n t e g r a t ed a t aw a r e h o u s eb a s e do n t h ei n f o r m a t i o ns y s t e m sf o r m e r l y s ot h ea b i l i t i e st os t o r e 、o p e r a t e 、a n a l y z ed a t ac a n b ee n h a n c e d 5 g i ss u p p o r t sd a t aw a r e h o u s ei n t e g r a t i o no f p u b l i cu t i l i t i e s g e o - d i m e n s i o ni s t h ec r i t i c a ld i m e n s i o nb e s i d e st h e p r o d u c t i o n d i m e n s i o n 、t i m e d i m e n s i o n a n d u s e r d i m e n s i o n t h ed e s i g no fg e o d i m e n s i o ns h o u l db ec o n s i s t e n tw i t hg i s 6 c o m b i n i n gg 1 sw i t hp i p en e t w o r km o d e l d a t am i n i n gc a nd oa n a l y z et h et w o t h e m e s d i f f e r e n c eo fp r o d u c t i o na n ds a l e si na n yr e g i o n sa n dt h e nd ol o c a t i o n s o e n t e r p r i s e sg a i n e f f e c t i v ei n f o r m a t i o ni nt i m et oh o l d e n t e r p r i s eo p e r a t i o n s a n d i m p r o v es e r v i c e s ,a n de n t e r p r i s ec o m p e t i t i o n b o o s t u p k e y w o r d s :d a t aw a r e h o u s e d a t am i n i n g d s s ,g i s ,p i p en e t w o r km o d e l 浙江人学螂11 + 学位论文 数据仓库和数据挖掘技术柱企业管理中的一个应用 1 引言 以计算机技术为核心的信息技术的发展,及其在经济发展中的广泛应用为全 球经济提供了新的增长点。美国从9 0 年代以来,持续8 0 多个月的经济增长,打 破了美国经济增长、失业率和通货膨胀联动的关系,并出现了“两高一低”现象, 即高增长、高就业、低通胀。亚洲经济也开始从东南亚金融危机中全面复苏。信 息技术对经济的贡献是巨大的。一方面,信息技术产业在国民经济中的份额不断 增加( 如图o 一1 ) ,质量不断提高,价格却在不断下降。另一方面,信息技术产业 对经济的拉动作用不仅比传统技术和产业大,而且比其他高技术产业的作用也 大。 图0 - 1 信息技术产业在经济中所占的份额。 信息技术的革新掀起了新经济时代的数字革命。信息技术环境下的一个重要 特征是数字化。数字是信息的基本单元,同时也作为信息的载体,数字的规则组 合、排列并结合其他符号形成数据。在信息爆炸的社会里数据急剧膨胀,数据的 筛选、产生、存储、使用成了信息社会的一大主题。 自从计算机进入企业以来,企业处理数据的工具和方式都发生了巨大的变 化。尤其在i n t e m e t 出现以后,网上冲浪现在已经不再是一种时尚,人们的生活 方式f 在改变,消费者习惯的变化迫使企业调整业务处理方式。同时,新游戏规 则对企业获取核心能力,保持竞争优势提出了新的要求,信息社会信息流成了企 业的生命线。无纸化作业和数字神经系统正被越来越多的企业所应用。而所有这 一切都要借助于计算机技术,尤其是数掘库技术的运用。 资 * 柬源:e s a1 古计数j 来源十绛济分析局和1 9 9 3 1 9 9 6 年的普查数据,1 9 9 7 1 9 9 9 年的e s a 估计数字 源白商锊部的1 9 9 9 年t 业和贸易展掣 第l 贝共6 4 页 浙江人学顿1 。学位论文 数据仓库和数据挖掘技术在企业管理中的一个应用 传统数据库技术的应用通常着重跟踪当前发生的事件,当需要历史数据时, 应用程序则难以实现。数据库应用程序在应对客户业务需求的同时又给用户带来 新的限制:对集成数据和历史数据的分析处理。数据仓库的研究为上述问题的解 决提出了新的解决方案。数据仓库能从事务型数据库大量的数据中提取出有用的 数据,通过数据集成,形成统一的决策支持数据库的存储格式,为企业管理者和 决策者提供所需的数据( d a v i dh o l s e n c o o n e y ,2 0 0 0 ) 。这些数据通过数据挖掘 和数据展现技术,根据用户不同的分析要求表现出来,为决策者提供分析其业务 信息的能力。 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,辅助数据 挖掘技术为企业的管理决策服务。数据仓库技术对海量数据的处理显示了巨大的 效用,一项来自美国m e t ag r o u p 的市场分析指出,9 2 的企业将在今后的3 年 内使用数据仓库,到2 0 0 0 年底,全球数据仓库的使用者达到了1 0 0 0 万。而据英 国一家调研机构的资料表明,数据仓库三年内的平均投资回报率为4 0 1 ,最高 可达1 0 0 0 。我国比较成功地运用了数据仓库系统的有宝钢集团、上海证券交易 所和中国银行等,基本上处于应用的起步阶段。 公用事业单位对数据的处理需求是巨大的,特别是对历史数据的分析,而一 般的信息系统平台对数据的处理显得力不从心。本文以杭州市自来水公司为背 景,对公用事业单位的数据仓库设计做了尝试性的研究,并结合地理信息系统, 运用模型化的处理方法作了数据挖掘的应用分析。 笫2 负共6 4 页 澌江人学硕1 学位论文 数据仓库和数据挖掘技术枉企业管理中的一个应用 2 研究背景综述 2 1 决策支持系统与数据仓库 2 1 1 决策支持系统的概念 决策支持系统( d e c i s i o ns u p p o r ts y s t e m s ,d s s ) 是在传统的管理信息系统 ( m a n a g e m e n t i n f o r m a t i o ns y s t e m s ,m i s ) 理论的基础上发展起来的一门适用于不 同领域的、概念和技术都是全新的信息系统发展分支,也是目前发展十分迅速的 一个分支。美国的m s s c o t t m o r t o n 于2 0 世纪7 0 年代初最早在管理决策系统 中提出概念:基于计算机的交互式系统,用以帮助决策者使用数据和模型去解决 结构化较差的问题。当时人们称其为人机决策系统或管理决策系统。后来k e e n 和m o r t o n 对管理决策系统的定义做了修正并正式提出决策支持系统:d s s 把个 人的智能资源和计算机的能力结合在一块以改善决策的质量,它是基于计算机的 支持系统,用以帮助管理决策者处理半结构化问题。l i t t l e 、a l t e r 、m o o r e 、b o n c z e k 、 t u r b a n 等在关于决策支持系统的研究中,对d s s 的定义不断加以扩展和完善, 现在把决策支持系统归纳为:以管理科学、运筹学、控制论和行为科学为基础, 以计算机技术、模拟技术和信息技术为手段,面对半结构化的决策问题,支持决 策活动的具有智能作用的人机计算机系统。它为决策者提供决策所需要的数据、 信息和背景资料,帮助明确决策目标和进行问题的识别,建立或修改决策模型, 提供各种备选方案,并对各种方案进行综合评价和选优,通过人机对话进行分析、 比较和判断,为正确决策提供有益帮助。 决策支持系统的重点在于决策支持而不是决策工作的自动化,要求能让决策 者在问题的求解过程中对信息进行检索并对一些各选方案进行择优。决策支持系 统所追求的目标是:不断研究和吸收信息处理其他领域的发展成果,研究决策分 析和决策制定过程中所特有的某些问题,并不断将其形式化、规范化,逐步用系 统柬取代人的部分工作,以全面支持进行更高层次的研究和更进一步的决策。其 主要目标是提高决策的有效性。它利用计算机进行信息的收集、存储、加工和处 理,做出科学的判定,提供给决策者,努力创造一个好的决策环境和决策支持工 具,支持并按决策者的意图去处理问题,在决策过程的不同阶段提供不同形式的 支持,从而提高决策者的决策能力和决策的科学性。 决策支持系统的主要特点有( k e e np gw s c o t t m o r t o n m ,1 9 7 8 ) : ( 1 ) 面向决策者:d s s 的输入和输出、起源和归宿都是决策者。 ( 2 ) 支持半结构化决策问题的解决:这些问题确实从来就很少或得不到电 子数据处理( e d p ) 和管理信息系统( m i s ) 的支持,而d s s 可以解决一部分分 析工作系统化问题。 第3 负共6 4 页 浙江火学硕。i 二学位论文 数据仓库和数据挖掘技术在企业管理中的一个应用 ( 3 ) 强调支持的概念:d s s 支持决策全过程的各个阶段,但并不是替代决 策者。 ( 4 ) 模型和用户共同驱动:决策过程是动态的,是根据决策的不同层次、 周围环境、用户要求以及现阶段人们对于决策问题的理解和已获得的知识等动态 确定的。 ( 5 ) 结合其他事务处理系统进行交互式处理。 2 1 2 决策支持系统的体系结构 决策支持系统逻辑地分为数据、模型和会话三个部件( a l b e r t ,t a w f i k j e l a s s i ,1 9 9 4 ) ,即数据库管理系统( d b m s ) 、模型库管理系统( m b m s ) 、以及 用来管理人机交互使用的接口软件,即对话和管理软件( d g m s ) 。其体系结构 如图1 1 所示。 图1 1 决策支持系统体系结构图 ( 1 ) 决策支持系统的数据库。利用数据获取和数据提炼的过程,综合多种 数据源的数据;能快捷的增加或删减数据源,善于利用决策者的语言来描述数据 的逻辑结构,以便于决策者知道什么是合适的,从而进行必要的操作;能处理个 人和非t f = 式的数据,决策者可以在个人判断的基础上进行不同方案的试验,具有 管理j 。泛数掘的能力。 ( 2 ) 决策支持系统的模型库。具有快捷的产生新模型的能力;能存取和集 成“积木式”的能力,或称之为存取和集成模型“建造块”的能力;支持各级决 策者广泛的利用模型进行分类和维护能力,通过数据库适当的联结相互关联的模 型:具有存储、建造、修改、联结和调用模型的机构。 ( 3 ) 决策支持系统的对话系统。具有处理不同类型的对话方式的能力:能 第4 页共“页 浙江人学硕十学位论文 数据仓库和数据挖掘技术在企业管理中的一个虚用 利用多种输入设备,便于提高接纳决策者的不同输入方式的能力;具有以多种格 式和输出设备表示数据,针对决策者的知识基础提供灵活支持的能力。 2 1 3 决策支持系统的研究领域 1 、群体决策支持系统( g r o u p d e c i s i o ns u p p o r ts y s t e m ,g d s s ) 。g d s s 是一种 基于计算机和通信的人机交互系统,它将计算机软、硬设备和群体成员融合为一 体,通过对为了一个共同工作目标的决策群体提供决策支持,来求解半结构化和 非结构化的问题。g d s s 将通信、计算机和决策支持技术结合起来,使问题的求 解条理化。而各种技术的进步,如电子会议、局域网、远距离电话会议以及决策 支持软件的研究成果,推动了这一领域的发展。g d s s 中需要用到通信技术( 包 括电子信息、局部或大区域网、电话会议、存储和交换设备) 、计算机技术( 包 括多用户系统、第四代语言、数据库、数据分析、数据存储和修改能力等) 、决 策支持技术( 包括议程设置、人工智能和自动推理技术) 、决策模型方法( 决策 树、风险分析、预测方法) 、结构化的群体决策方法( 德尔菲法等) 。 2 、智能决策支持系统( 1 d s s ) 。i d s s 是在d s s 的基础上集成人工智能中专 家系统( e s ) 而形成的。决策支持系统主要是以人机交互系统( 由语言系统和 问题处理系统组成) 、模型库系统( 由模型库管理系统和模型库组成) 、数据库系 统( 由数据库管理系统和数据库组成) 组成。专家系统主要由知识库、推理机和 动态数据库组成。决策支持系统和专家系统集成为智能决策支持系统。 3 、分布式决策支持系统( d d s s ) 。随着d s s 的迅速发展,人们很自然的希 望在更高的决策层次和更复杂的决策环境下得到计算机的支持。许多大规模的管 理决策活动已不可能或不便于用集中方式进行,这些活动涉及到许多决策人。决 策过程必须的信息资源或某些重要的决策因素分散在较大的活动范围,是一类组 织决策或分布决策,这就是分布式决策支持系统。 2 1 4 基于数据仓库的决策支持系统 8 0 年代初期关系数据库技术的目益成熟,出现了基于关系数据库的“三库” ( 模型库、知识库、方法库) 结构的决策支持系统。8 0 年代后期,决策支持系 统与专家系统结合,出现了智能决策支持系统的研究热潮。然而,决策支持系统 的应用存在很大的障碍,主要是: 1 决策支持涉及大量历史数据和半结构化问题,在传统数据库管理系统基 础上建立决策支持系统只能提供辅助决策过程中的数据级支持,难以求解复杂的 半结构化决策问题。 2 决策支持系统以集成数据为基础,然而现实中的数据分散管理且大多数 分如于异构的数掘平台,数据集成不易。 3 决策支持系统的建立需要对数据、模型、知识和接口进行集成,数据库 第5 页共“页 浙江人学硕十学位论文 数据仓库和数据挖掘技术在企业管理中的一个应用 语言数值计算能力较低,因而采用数据库管理技术建立决策支持系统的知识表达 和知识综合能力较差,难以满足同益提高的决策要求。 直至9 0 年代,数据仓库技术的发展给上述问题的解决提供了有力的工具。 数据仓库将来自各个数据库的数掘进行集成,从事物历史和发展的角度来组织和 存储数据,供用户进行数据分析,并辅助决策支持( a g r a w a l ,1 9 9 3 ) ,成为决策 支持的新的应用领域。 基于数据仓库的决策支持系统由数据库、数据仓库、数据仓库管理模块、数 据挖掘工具、知识库、知识发现模块、人机交互模块组成。系统的主要输入是数 据库中的数据以及知识库中的知识和经验。数据仓库管理模块完成数据仓库的创 建以及数据仓库中的数据的综合、提取等操作,负责整个系统的运转。数据挖掘 工具用于完成实际决策问题中的各种查询、多维数据分析和数据开采等。知识发 现模块控制并管理知识发现过程,将数据的输入和知识库中的信息用于驱动数据 选择过程、知识发现引擎过程和发现的评价过程。人机交互模块则通过自然语言 处理和语义查询在用户和系统之间提供相互联系的集成界面。基于数据仓库的决 策支持系统框架如图1 2 所示( 谢榕,2 0 0 0 ) 。 人机交互模块 r u 竞x 】,口 ,毫火。粤齐l jk 式 于 f、 知识管j w 数据知识发现 评价卜 模头选择引擎 乔询1 分析 1 开采1 数至簧掘 组装l 综合 1 提取l 蓍篓葚鬟 煞上 图1 2 基于数掘仓库的决策支持系统的基本框架 第6 负共6 4 页 浙江人学硕 一学位论文 数据仓库和数据挖掘技术在企业管理中的一个应用 2 2 数据仓库技术 2 2 1 体系化习0 晚 传统的数据库技术是以单一的数据资源,即以数据库为中心,进行从事务处 理、批处理到决策分析等各种类型的数据处理工作。然而,不同类型的数据处理 有着不同的处理特点,以单一的数掘组织方式进行组织的数据库并不能反映这种 差异,满足不了数据处理多样化的要求。随着计算机技术的飞速发展和企业不断 提出新的要求,特别是数据库应用的广泛普及,人们对数据处理的这种多层次特 点有了更清晰的认识。当前数据处理可以归结为两类:操作型处理和分析型处理 ( 或信息型处理) 。操作型处理也叫事务处理,是指对数据库联机的日常操作, 通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们 关心的是响应时间,数掘的安全性和完整性。分析型处理则用于管理人员的决策 分析,如d s s 、e i s 和多维分析等,经常要访问大量的历史数据。两者之间的巨 大差异使得操作型处理和分析型处理的分离成为必然。这种分离划清了数据处理 的分析型环境与操作型环境之问的界限,从而由原来的以单一数据库为中心的数 据环境发展为一种新环境:体系化环境。 体系化环境下数据处理的整体思想发生了变化,其核心是意识到了数据存在 的两种基本形式:原始数据和导出数据。表1 1 列出了两者之间的主要区别。原 始数据是企业每天操作运营所用的细节性数据,导出数据是统计或计算出来的满 足企业管理者需要的数据,是为决策支持服务的。 表1 1 原始数据与导出数据的差异性 原始数据操作型数据 面向应用 详细的 在存取瞬间是准确的 为同常工作服务 可更新 重复运行 处理需求事先可知 生命周期符合s d l c + 对性能要求高 一个时刻存取一个单元 事务处理驱动 更新控制主要涉及所有权 高可用性 整体管理 非冗余性 静态结构 第7 页共6 4 页 导出数据仍s s 数据 一面向主题 一综合的 一代表过去的数据 一为管理者服务 一不可更新 一启发式运行 一处理需求事先不知 一完全不同的生命周期 一对性能要求宽松 一一个时刻存取一个集合 一分析处理驱动 一无更新控制问题 一松弛的可用性 一子集管理 一时常有冗余 一结构灵活 浙江人学硕十学位论文 数据仓库和数据挖掘技术在企业管理中的一个应用 一次数据处理量小 支持日常操作 访问的高可能性 一一次数据处理量大 一支持管理需求 一访问的低或适度可能性 * s y s e mb e v e l o d m e ml j f ec y t l e ( 系统生命刷期法) 数据库体系化环境是在一个企业或组织内,由各面向应用的联机事务处理 ( o l t p ,o n l i n et r a n s a c t i o np r o c e s s i n g ) 数据库及各级面向主题的数据仓库所 组成的完整的数据环境,在这个数据环境上建立和进行一个企业或部门的从联机 事务处理到企业管理决策的所有应用。数据库体系化环境的构成是广泛的,要建 设一个企业的数据库体系化环境,不仅要求建立起各级数据库和数据仓库,还要 求对各面向应用的数据库之间、各级数据仓库之间及数据库与数据仓库之间的界 限和相互联系作出合理划分和明确描述,对在不同的数据库或数据仓库上的数据 处理和应用要进行明确的定义和划分,对软硬件资源及其人员的配贾作出明确规 定,以使这个体系化环境真正成为一个结构清晰、层次分明、联系明确、可有序 运行的有机的整体。 2 2 2 数据仓库 数据仓库( d w ,d a t aw a r e h o u s e ) 作为新的概念在数据库体系化环境中被 提出来,并成为决策支持系统的关键数据库技术。数据仓库思想的萌芽出现在 8 0 年代中后期,数据仓库不是数据的简单堆积,而是从大量的事务型数据库中 抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种 特殊的格式中。数据仓库之父w h i n m o n 在建立数据仓库一书中将其定义 为:“数据仓库是支持管理决策过程的面向主题的、集成的、非易失的且随时间 变化的数据集合。”( w h i n m o n ,1 9 9 3 ) 定义中给出了数据仓库的四个特征: ( 1 ) 面向主题。数据根据不同的主题汇集,如把跟销售有关的数据源汇集 在销售主题中。 ( 2 ) 集成性。不同数据源的数据都按统的格式进行存储,进入数据仓库 的数据通过净化形成一致的字段名称和属性。 ( 3 ) 随时间变动性。数据仓库中存储的是历史数据,随着时间的推移,数 据综合的时间跨度在变化。数据仓库不断捕捉o l t p 中的新数据。 ( 4 ) 非易失性。数掘一旦进入数据仓库,数据的属性就被保存下来,数据 仓库本身是只读的,用户不能写回数据。但是数据仓库的数据不可更新是相对 o l t p 的操作型数据频繁变化而言的,当数据仓库存储的数据超过存储期限时将 会把这些数据清除出去( 陶再平,陈奇,2 0 0 0 ) 。 数掘仓库的构建是一项复杂的系统工程,需要很多具体的步骤和技术的支持 ( d a n i e lrd o l k ,2 0 0 0 ) ,包括数据格式转换、元数据管理、数据库引擎、联机分 析处理和数掘挖掘工具、信息呈现系统和数据仓库管理。 数据格式转换是通过数据项的标准化、数据净化、格式一致化处理和聚合操 第8 页共“页 浙江人学坝 。学位论文 数据仓库和数据挖掘技术在企业管理中的一个应用 作把操作型数据往数据仓库中移植的过程,数据仓库的数据质量取决于这一步, 也就决定了数据仓库质量( d w q ) ( p a n o s v a s s i l i a d i s ,m o k m n e b o u z e g h o u b ,2 0 0 0 ) 。 元数据管理包括数据仓库内数据和源数据的逻辑结构的跟踪以及数据移植 规则的控制,源数据库的动态变化要求能在元数据管理中捕捉到并放映出来。 数据仓库系统要求有关系数据库管理系统( r d b m s ) 的一般引擎外要求提 供强大的数据安全和数据备份、恢复功能。 联机分析处理和数据挖掘是数据仓库应用的关键技术,从数据仓库的概念和 特点可以发现数据仓库的主要目的是为管理决策提供有效支持,而联机分析处理 ( o l a p ,o n l i n ea n a l y s i sp r o c e s s i n g ) 和数据挖掘为决策提供了重要信息。其中 数据挖掘运用统计分析、模糊理论和神经网络等数学方法在海量数据中抽取管理 者需要的支持决策的信息,这些信息可以通过数据挖掘得到并为企业获取竞争优 势服务( l e i d ac h e n ,s a k a g u c h i ,2 0 0 0 ) 。在数据仓库中对海量数据从感兴趣的视 角、抽象层次上进行概括,便形成了针对不同目标的多维数据视图。与大量普通、 关联度较低的数据不一样,多维数据视图是对决策目标意义较为完整的描述,能 精确地为用户提出的问题进行分析处理服务。多维数据视图一般包括一组对分析 感兴趣的量度,比如量度可以是销售、利润、投资回报率等等。每个量度包含一 组具体化其内容的维。对销售而言,其相关维可以是中间商、产品名、时间等, 这组维可唯一确定量度的值。每个维由组属性描述,如产品这个维可包括多个 属性:类别、所属企业、生产时间。以彩电为例,它属于家电类、生产企业、生 产时间1 9 9 8 年。维的各属性一般存在相关联系。 2 2 3 数据仓库体系结构 数据仓库系统可基本分为三个组成部分( i n m o n ) : ( 1 ) 数据源:提供数据和元数据( 数据的数据,用于描述数据仓库中数据 的结构和内容) 。 ( 2 ) 后端加工处理:包括来自数据源数据的接收、析取、汇总、变换、打 包和存储等。 ( 3 ) 前端服务:面向用户的数据需求,完成数据的提取、查询和计算分析 等功能。 数据仓库系统的开发纵向可划分为三个层次( 马洪杰、曲晓飞,2 0 0 0 ) :数 扼层、设计层和应用层,其基本体系结构如图1 3 所示。 根据主题的需要,数据获取从其他数据库中获取数据并进行必要的加工, 使其符合数据仓库系统中可以管理的数据格式和语义规范,所以数据获取功能也 被成为数据泵( k r i v d a h ,c h e r y l d ,1 9 9 5 ) 。其中所需的运算包括:( 1 ) 数据类型 变换与域的变换;( 2 ) 数据提炼及误差修正;( 3 ) 按数据仓库中数据的语义规范 进行代数计算和推理计算;( 4 ) 采用数据平滑、插值计算和外推计算等进行数据 第9 页共6 4 页 浙江入学坝l 学位论文 数据仓库和数据挖掘技术在企业管理中的一个应用 整理;( 5 ) 对数据仓库中数据库数据的完整性和相容性进行检查并修正。 信息目录用来描述系统中数据的定义和组织,通过信息目录,用户或开发 人员可以了解数据仓库中存放的数据,以及如何访问、使用和管理它们。按数据 仓库数据管理与应用的要求,信息目录可分为:技术目录、业务目录和信息导航 器。 信息包图放映用户需求的集中需求( u k k a k o r p e l a , 1 9 9 9 ) ,它能在适当的时 间将适当的信息传递给希望理解这些信息的人,是公共的、一致的和紧凑的设计 和通讯工具。 星形图定义了用户访问信息包图中信息包的途径,星形图包括三种逻辑实 体: ( 1 ) 指标实体:用矩形表示,位于星形图的中心,是用户查询活动的中心, 一个指标实体代表一系列相关的事实,通常与一个现实世界的事务或事件有关。 ( 2 ) 维度实体:用菱形表示,往往被用在指标实体内过滤和组织数据时提 供指导性的帮助,它的作用在于限制用户查询活动反馈回来的结果,在数据仓库 中建立联系。用户可利用维度实体来访问指标实体,最终获得需要的商业智能。 ( 3 ) 详细类别实体:一般的详细类别实体通常转化为一个物理数据库表。 它与现实世界的实体对应,这些实体通常与对应的事务数据库结构产生映射。 l 数据的提取和净化发行和访问数据 上t i 信息包幽星形幽_ 物理数据模型 上f 1 日9 + 萋曩川信息目录 应用层 设计层 数据层 图1 3 数据仓库系统的三层开发结构 2 2 4 联机分析处理 联机分析处理( o l a p ,o n l i n ea n a l y s i sp r o c e s s i n g ) 是一类软件技术( a n i n d y a d a t t a ,h e l e nt h o m a s ,1 9 9 9 ) ,它使分析人员、管理人员通过对信息的多种可能的 观察角度进行快速、一致和交互性的存取以获得对信息的深入理解。 为了实现数据仓库,需要相应的底层数据结构的支持,数据仓库存储的数 据是面向决策、经过提炼的数据集( d a t a m a r t s ) ,其存储方式各有特点。其中主 要有两种:基于多维数掘库的存储结构和基于关系数据库的存储结构,相应的 o l a p 也有基于多维数据库的o l a p ( m o l a p ) 和基于关系数据库的o l a p ( r o l a p ) 模型。 浙江大学碗j 学位论文 数据仓库和数据挖掘技术在企业管理中的个应用 以多维数据库为核心的m o l a p 使用多维数据库管理方式。“维”是一种层 次化的数据类型定义,是用户头脑中对数据仓库中形成的概念层次。多维数据库 ( m d d ) 依靠“维”来形成超立方体结构而产生切片( s l i c e ) 、切块( d i c e ) 、 下钻( d r i l l d o w n ) 、上翻( r o l l u p ) 和旋转( r o t a t e ) 操作。m o l a p 具有很快 的响应速度( 杨光、张雷,2 0 0 0 ) 。多维数据库用多维数据立方体( d a t a c u b e ) 实现多维数据视图,用户可根据不同条件对数据立方体通过纵向、横向等方向进 行计算和统计分析。利用m d d 存储的数据立方体,对每一维添加一个合计属性, 并可获得汇总信息,可以方便直接地实现钻取、分片和透视操作( a n i n d y ad a t t a h e l e nt h o m a s 1 9 9 9 ) 。 基于关系数据库的r o l a p 以关系数据库为核心,以关系型结构进行多维 数据的表示和存储。r o l a p 建立在技术相当成熟的关系型数据库基础上,完全 可以满足数据仓库的需要,但r o l a p 的预处理程度较底,容易产生较大的冗余。 它是对传统的r d b m s 进行扩充以实现对数据仓库的联机分析处理,与m o l a p 使用数据立方直接实现多维数据视图不同,r o l a p 将对视图相应操作映射到关 系表与s q l 查询上。r o l a p 中一般采用星形或雪花模型( s t a rm o d e lo r s n o w f l a k em o d e l ) 表达多维数据视图。星形模式由一个事实表和多个维表组成。 维表存放相关属性,事实表以指针与各维表联系,并存储各维的量度。因而访问 事实表即可获得要查询的信息,避免了复杂的表链接。但星形模式不能显示支持 属性层次关系。因此雪花模型对维表进行了扩展,提供层次的显示表达,即维表 若有多于个的层次,则添加子维表来表示。雪花模型简化了维表的维护,使层 次更加清晰。如:某系统的星形模型如图1 4 所示,下划线字段为关键字段。 维表订货事实表维表产品1 图l 一4 星形模型多维数据视图( 事实表与维表) 在很多数据仓库系统中既有成串的多维数据( 密集区域) 也有分散的数据, 这时m o l a p 处理多维数据,而r o l a p 处理分散数据具有较高的效率,m o l a p 和r o l a p 集成建立基于密集区域的o l a p 系统可以充分利用两者的优点,克服 蒋1 i 页共“页 浙江人学硕l 学位论文数据仓库和数据挖掘技术在企业管理中的一个应用 不足( d a v i dw c h e u n g ,2 0 0 1 ) 。 2 2 5 数据挖掘 数据挖掘( d m ,d a t am i n i n g ) 也叫数据采掘,是从海量数据中提取人们感 兴趣的知识和规则,这些知识和规则是隐含的、先前未知的、对决策有潜在价值 的有用信息( w j f r a w l e y , 1 9 9 3 ) 。通过数据挖掘,有价值的知识、规则或高层次 的信息就能从数据库的相关集合中抽取出来,为决策提供依据,从而使数据库作 为丰富可靠的资源为知识归纳服务。 数据挖掘和知识发现( k d d ) 有密切的联系。知识发现是识别有效的、不 平常的、具有潜在用处的数据并构造或验证可理解的数据模型的过程。这里所谓 的模型是数据的一个子集的抽象表示,它可以用人工的方式或自动的方式建立。 简单的讲,知识发现表示了从低层数据抽象高层知识的整个过程。知识发现包括 数据选择、预处理、数据转换、数据挖掘、模式解释和知识评价等多个步骤,是 应用特定数据挖掘算法和评价解释模型的一个反复循环过程。数据挖掘是知识发 现中过程的一个关键步骤,它利用特定的算法从数据中抽取模式( a g r a w a l r ,1 9 9 3 ) 。模式是用语言l 来表示的一个表达式e ,它可以用来描述数据集f 中 数据的特性,e 所描述的数据是集合f 的一个子集。e 称为一个模式,要求它比 列举数据子集中所有元素的描述方法简单( 邹先霞,王淑礼,2 0 0 0 ) 。例如:“如 果成绩在8 l 一9 0 之间,则成绩优良”可称为一个模式,而“如果成绩为8 1 、8 2 、 8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 、9 0 ,则成绩优良”不能称为一个模式。数据挖掘 过程一般由三个主要的阶段组成:数据准备、挖掘操作、结果表达和解释。 数据挖掘有以下特点: ( 1 ) 处理的数据规模十分巨大; ( 2 ) 由于用户不能形成精确的查询要求,因此需要靠数据挖掘技术来寻找 其可能感兴趣的东西; ( 3 ) 数据挖掘对数据的迅速变化应做出快速响应,以提供决策支持信息; 数据挖掘既要发现潜在的规则,还要管理和维护规则,随着新数据的不断加入, 规则需要随之更新( o w e np ,2 0 0 1 ) ; ( 4 ) 数据挖掘中的许多规则的发现基于统计规律,发现的规则不必适合于 所有数掘,而且当达到某一阀值时,便认为有此规则,因此利用数据挖掘可能会 发现大量规则。 根据采掘的数据库类型、知识类型和采用的技术类型,数据挖掘有不同的 分类方法。 一、根据采掘的数据库类型分类:如果基于关系数据库的数据挖掘,称为 关系数据挖掘:如果基于面向对象数据库的数据挖掘,称为面向对象数据挖掘; 此外,还有基于事务数据库、文本数据库、多媒体数据库等数据挖掘。 第1 2 页共“页 浙江人学地1 学位论史数据仓库和数据挖掘技术孔企业管理中的一个m 用 二、根据采掘的知识类型分类:分为总结规则( 模式) 、关联规则、特征规 则、分类规则、偏差规则、聚类规则及f 寸序规则等数据挖掘。 三、根据采用的技术类型分类:常用的数据挖掘技术有: ( 1 ) 决策树方法:利用信息论中的互信息寻找数据库中具有最大信息量的 字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,在每个分 支的子集中,重复建立树的下层结点和分支的过程,即可建立决策树,最早和最 具影响的决策树方法是i d 3 方法( q u i n l a n jr ,1 9 8 6 ) 。 ( 2 ) 规则归纳方法:通过统计方法归纳,提取有价值的i f - t h e n 规则。规则 归纳的技术在数据挖掘中被广泛使用,其中以关联规则采掘的研究开展的较为积 极和深入( a g r a w a lr ,1 9 9 3 ;a s h o ks ,1 9 9 5 ) 。 ( 3 ) 神经网络方法:从结构上模拟生物神经网络,建立三大类多种神经网 络模型:前馈式网络、反馈式网络和自组织网络。神经网络的学习体现在神经网 络权值的逐步计算上,这是一种通过训练束学习的非线性预测模型,可以完成分 类、聚类、特征采掘等多种数据采掘任务。 ( 4 ) 糯糙集方法:洋h 糙集理论是一种处理含糊和不确定性问题的新型数学 工具。它特别适合于数掘简化、数掘相关性发现、发现数据意义、发现数据的相 似或差别、数据的近似分类等,近年来己被成功应用于数据挖掘和知识发现研究 领域中( z i a r k ow 1 9 9 4 ) 。 ( 5 ) k 最邻近技术:这种技术通过k 个最与之相近的历史记录的组合来 辨别新的 己录,这种技术可以作为聚类、偏差分析等采掘任务。 ( 6 ) 可视化技术:将信息模式、数据的关联或趋势等以直观的图形方式表 示,决策者可以通过可视化技术交互的分析数据关系,使用户对数据的剖析更清 楚。 ( 7 ) 地理信息系统( g i s ) :地理可视化系统中的不同物理位置直至地理表 示都与数据仓库中的数据有关。根据地理环境描述这些数据,并比较相同产品在 不同地域的差异或相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论