




已阅读5页,还剩87页未读, 继续免费阅读
(通信与信息系统专业论文)数据仓库和数据挖掘技术在智能网管系统中的应用与研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 数据仓库和数据挖掘在智能网管中如何应用是一个实际而有意义的课 题。本文以数据仓库和数据挖掘的技术为背景,内容涉及如何利用实体关系 建模、维度建模技术实现智能网管运维系统和报表系统的设计。 具体的谎,本文的主要内容包括: ( 1 ) 论述了数据仓库和数据集市发展的过程,从数据仓库的产生到全企业 的集成,再到企业级数据仓库、部门级数据仓库。在总结数据仓库发 展过程的基础上,总结了数据仓库的基本概念。 ( 2 ) 论述数据仓库涉及到的重点技术( 管理大量数据,管理各种各样介质 上的数据,方便的索引和监视数据,大量接口技术,允许程序员将数 据直接存放在物理存储设备上,数据的并行存储和访问,数据仓库的 元数据控制等) 以及在实际工程中如何解决这些重点技术,提供了这 些技术的解决方案。 3 ) 分析联机事务处理的应用技术以及解决方案,分析数据挖掘的过程以 及常用方法。 ( 4 ) 针对海南电信的需求,通过对系统的分析,利用实体关系建模建立资 源管理系统、配置管理系统、人员管理系统、事务管理系统、故障管 理系统的实体关系模型,实现海南电信网管运维系统; ( 5 ) 在网管运维系统的基础上,使用维度建模技术,实现智能网管的数据 集市。在数据集市的基础上,实现网管的综合报表系统。该章给出实 际工程中实现综合报表系统的过程以及系统架构。该系统机构采用的 是b s 架构,该系统架构对研究如何把数据仓库技术应用到实际工程 中有实际的指导意义。 本文对于如何在智能网管系统中应用数据仓库和数据挖掘技术有一定的 借鉴意义。 关键词数据仓库;数据挖掘:联机事务处理; 联机分析处理:实体关系建模:维度建模; 哈尔滨工程大学硕士学位论文 a b s t r a c t i t i ss i g n i f i c a n tt or e s e a r c ha n da p p l yt h et e c h n o l o g yo ft h e d a t a w a r e h o u s ea n dd a t a m i n i n gi nt h ei n t e l l i g e n tn e t w o r km a n a g e m e n t s y s t e m t h e c o n t e n t si nt h ed i s s e r t a t i o no r i g i n a t e f r o mt h e a p p li c a t i o no ft h et e c h n o l o g yo ft h ed a t a w a r e h o u s ea n dd a t a m i n i n g h o w t o a p p l y e rm o d e l i n ga n dd i m e n s i o n a lm o d e l i n gi nt h ep r o c e s so f b u i l d i n gi n t e l l i g e n c en e t w o r km a n a g e m e n ts y s t e m i si n c l u d e di nt h e d i s s e r t a t i o n t h em a j o rc o n t e n t sa r ea sf o l l o w si ng e n e r a l ( 1 ) t h e a u t h o rg i v e st h ed e v e l o p m e n to ft h ed a t aw a r e h o u s e a n dd a t am a r ta n ds u m m a r i z e st h ed e f i n i t i o no ft h e d a t a w a r e h o u s e ( 2 ) t h e a u t h o rg i v e sv a r i o u st e c h n o l o g i e si n c l u d e db yt h e d a t a w a r e h o u s ea n do l a pa n dd i s c u s s e sh o wt or e s o l v et h e m i nt h er e a le n g i n e e r i n g ( 3 ) t h e a u t h o rd i s c u s s e st h ep r o c e s so ft h ed a t a m i n i n ga n d ( 4 ) ( 5 ) t h ev a r i o u sa p p l i e da r i t h m e t i ci nt h ep r o c e s so ft h e d a t a m i n i n g o nt h eb a s eo ft h en e e do fh a i n a nt e l e c o ms y s t e m ,t h e a u t h o rd e s i g n s s o m eo l t ps y s t e m s ,s u c ha st h es t a f f m a n a g e m e n ts y s t e m ,t h er e s o u r c em a n a g e m e n ts y s t e m ,t h e t r a n s a c t i o nm a n a g e m e n ts y s t e ma n dt h ec o n f i g u r a t i o n m a n a g e m e n ts y s t e mt h r o u g hs y s t e m sa n a l y s i s ,i no r d e rt o i m p l e m e n tt h ei n t e l l i g e n tn e t w o r km a n a g e m e n to p e r a t i o n s y s t e m o nt h eb a s eo fh a i n a nn e t w o r km a n a g e m e n to p e r a t i o n s y s t e m ,t h ea u t h o rd e s i g n st h er e p o r t in gs y s t e mt h r o u g h t h et e c h n o l o g yo fd i m e n s i o nm o d e i i n g i t i ss h o w nt h a tt h ea l g o r i t h m sa n da p p r o a c h e sp r o v i d i n gi nt h e t h e s i sa r ee f f e c t i v ea n da p p l i c a b l e ,a n dc a l lb eu s e df o rr e f e r e n c eo f i i 哈尔滨工程大学硕士学位论文 t h er e s e a r c ha n da p p l i c a t i o no fd a t aw a r e h o u s ea n dd a t am a r t m yw o r d s :d a t aw a r e h o u s e ( d w ) :d a t am i n i n g ( d m ) o n l i n et r a n s a c t i o np r o c e s s ( o l t p ) : o n l i n ea n a l y s i sp r o c e s s ( o l a p ) : e rm o d e l i n g :d i m e n s i o n a lm o d e l i n g i i i 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引 用已在文中指出,并与参考文献相对应。除文中已注明引用 的内容外,本论文不包含任何其他个人或集体己经公开发表 的作品成果。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律结 果由本人承担。 作者( 签字) : 日期:2 0 0 4 年0 2 月1 5 日 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 引言 大多数机构和公司都积累了大量的数据,数据主要存储在关系型数据库 中。这些系统中,大量的数据和数据模型,反映了公司以往的措施和业绩。 机构一旦拥有了完整的数据采集和存储过程,新的需要就产生了:怎样使用 数据库中有价值的信息? 如何从这些数据中分析自己需要的数据? 如何利用 这些数据提出对企业发展有利的决策等等。 数据仓库和数据挖掘,是一个很好的数据管理解决方案,2 0 0 0 年全球前 5 0 0 个大企业中有5 0 的企业已经实施数据仓库或部门级数据集市,所以说, 这是构建数据仓库是实施信息化进程中必不可少的一步。与以往许多数据管 理领域的技术和解决方案所不同的是,数据仓库本身不仅仅是产品和技术, 数据仓库的建立是一个决策分析系统实施的过程,其中包括了数据仓库所存 储的数据以及将要提供的分析模型和功能。 目前,应用数据仓库技术,改善企业决策支持模式,并取得最大的投资 回报,已经成为大多数成功企业的共识。作为当今发展最快,吸收新技术最 快的电信企业,原始数据正在快速地积累和膨胀,如何保存并利用好这些珍 贵的资源,将其中蕴藏的信息转化为生产力,将成为业内人士所关注的又一 个技术热点。 1 2 本研究的意义和工程应用价值 近些年,电信市场内的竞争加剧,电信运营企业有电信、联通、移动、 网通、吉通、铁通等,在各个业务领域内己初步形成多元化的竞争局面。同 时,随着中国加入w t o ,国外的电信公司也会进入中国市场。在这样的形势 下,如何正确及时的决策将是企业生存与发展最重要的环节,而要作好决策 工作,就要更好地利用网络技术,利用最近几年才快速发展起来的数据仓库 技术以及基于此技术的商业智能,深层次、多角度地挖掘,分析当前和历史 的生产业务数据,客户信息,竞争对手的信息等相关环境的多种数据,发现 其内在的规律,从而得到宝贵的决策支持信息,才能快速、准确地分析商业 问题,并且对企业未来的生产计划和长远规划提供理论指导。唯有这样,企 哈尔滨工程大学硕士学位论文 业才能在激烈的竞争中,高瞻远瞩,永不出局。 但是现阶段而随着网络的不断建设扩充,网络管理的重要性越来越突出; 网络设备的复杂化使网管变得日益复杂,网络的经济效益越发依赖于对网络 的有效管理与控制。网络承载业务的重要性和不间断性要求网络必须得到更 为精细的维护。本论文正是从这方面要求出发,通过整合网络运维系统中的 资源管理系统、人员管理系统、配置管理系统、事务管理系统、故障管理系 统中的各种有效数据,最终形成完整的、统一的网络管理体系。 1 3 本论文的主要工作 本文从数据仓库和数据挖掘技术发展入手,介绍了数据仓库和数据挖掘 发展过程以及趋势,然后分析了数据仓库和数据集市的区别与联系,进而根 据海南电信网络运维系统的现状论述了选择数据集市开发运维系统的原因, 最后通过多个系统之间的整合建立网络运维系统数据集市。在本系统开发的 过程中,借鉴了现在比较成熟的技术和产品,取长补短,开发了海南电信网 络运维系统和海南电信网管综合报表系统。这两个系统统称为海南电信智能 网管。该系统可实现以下一些功能: 整合后的网管系统具有自动化、智能化、制度化的特点; 及时、全面地掌握数据网上的故障、性能、配置等信息; 实现对数据网事件的分析、定位,提供历史记录和统计功能。 共享运行维护经验,尤其是排障经验,并逐步建立和完善故障处理知识库。 实现对操作维护人员的权限鉴别、值班工作日志化管理。 统一形成海南电信网管系统的报表,完成对i p 网络,d d n 网络的统一报 表; 为形成海南电信互联网业务的运行维护支撑体系提供接口。 为网管系统的可持续发展打下基础。 下面介绍一下本论文的主要内容: 第l 章介绍了本论文的研究背景、内容以及目的,并给出了海南电信网 络运维系统实现的功能及本论文的基本结构。 第2 章介绍了数据仓库的基本概念以及数据仓库数据集市发展的历程。 第3 章介绍了数据仓库涉及到的重点技术以及解决方案。 第4 章分析联机事务处理的应用技术以及解决方案,分析数据挖掘的过 2 哈尔滨工程大学硕士学位论文 程以及常用方法。 第5 章针对海南电信的需求,通过对系统的分析,利用实体关系建模技 术建立资源管理系统、配置管理系统、人员管理系统、事务管理系统、故障 管理系统的实体关系模型,并在此基础上实现海南电信网管运维系统。 第6 章重点讲述了如何利用维度建模在资源管理系统、配置管理系统、 人员管理系统、事务管理系统、故障管理系统基础上使用维度建模技术构建 综合报表系统的数据仓库模型,并在此基础上讨论如何实现海南电信网管综 合报表系统。 由于本人水平有限,论文中的错误和不足之处,望各位老师批评指正。 哈尔滨工程大学硕士学位论文 第2 章数据仓库的发展历程及相关概念 2 1 概述 数据仓库的概念产生的时间并不晚,但是中间经历了比较曲折的过程。 从最初的目标是为了实现全企业的集成,到在发展过程中却退而求其次:建 立部门级的数据集市。并且到目前为止,还有很多分歧、论争,很多概念模 棱两可甚至是彻底的让人迷惑。本章试图从数据仓库的发展历史中看到一些 发展的脉络,阐明什么是数据仓库以及数据仓库的未来方向发展。 同时,由于新应用的不断出现,出现了很多新的概念和新的应用,这些 新的应用如何统一现成的完整的企业b i ( b u s i n e s si n t e l l i g e n c e ) 应用方 案还存在很多争论。 2 2 数据仓库产生的必要性 市场需求是技术发展的源动力。在数据库应用的早期,计算机系统处理 的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、 电信的计费系统,它们都属于典型的联机事务处理系统( o l t p ) 。在当时,一 个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞 争力。在8 0 年代末,当北京工商银行率先推出了全市个人储蓄通存通兑业务, 广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行。这 便是通过联机事务处理系统而获得市场优势的案例。其次,当时单位容量的 联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务 数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系 统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。 此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分 析。从而,联机事务处理成为整个8 0 年代直到9 0 年代初数据库应用的主流。 然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候, 企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优 势。企业需要对其自身业务的运作以及整个市场相关行业的态势进行分析, 从而做出有利的决策。例如北京各银行的储蓄业务,各家都拥有了联网的储 蓄系统,再要获得市场竞争的优势,就需要在决策上下功夫,例如在业务密 4 哈尔滨工程大学硕士学位论文 集地区增设自助网点、推出有针对性( 如:某类职业圈、某年龄段) 的储蓄服 务计划。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得 到,而这种基于业务数据的决策分析,称之为联机分析处理( o l a p ) 。如果说 传统联机事务处理强调的是更新数据库一向数据库中添加信息,那么联机分 析处理就是要从数据库中获取信息、利用信息。 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自 然的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那 么容易: 1 所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关 心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同 一个数据库在理论上难以做到两全; 2 业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还 有大量的历史数据处于脱机状态,形同虚设; 3 业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式 并不适合非计算机专业人员进行业务上的分析和统计。 在海量数据面前遇到这样的难题:查询不到数据是因为数据太多了。针 对这一问题,技术人员专门为业务的统计分析建立一个数据中心,它的数据 可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得 到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可 满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。 数据仓库所要研究和解决的问题就是从数据库中获取信息。 2 3 数据仓库发展历程 2 3 1 开始阶段 数据仓库起源于2 0 世纪7 0 年代m i t 的一项研究,该研究致力于开发一 种优化的技术架构并提出这些架构的指导性意见。第一次,m i t 的研究员将 业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采用 单独的数据存储和完全不同的设计准则。 同时,m i t 的研究成果与8 0 年代提出的信息中心相吻合:即把那些新出 现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离 哈尔滨工程大学硕士学位论文 出来。但是限于当时的信息处理和数据存储能力,该研究只是确立了一个论 点:这两种信息处理的方式差别如此之大,以至于它们只能采用完全不同的 架构和设计方法。 之后,在8 0 年代中后期,d e c 公司已经开始采用分布式网络架构来支 持其业务应用,并且d e c 公司首先将业务系统移植到其自身的关系型数据库 系统( i m b m s ) 产品:r d b 。并且,d e c 公司从工程部、销售部、财务部 以及信息技术部抽调了不同的人员组建了新的小组,不仅研究新的分析系统 架构,并要求将其应用到其全球的财务系统中。该小组结合m i t 的研究结论, 建立了t a 2 ( t e c h n i c a la r c h i t e c t u r e2 ) 规范,该规范定义了分析系统的四个 组成部分 1 1 : 1 数据获取 2 数据访问 3 目录 4 用户服务 数据获取和数据访问类似于传统d b m 8 ,目录服务是用于帮助用户在网络 中找到他们想要的信息,类似于业务元数据管理:用户服务用以支持对数据 的直接交互,包含了其他服务的所有人机交互界面,这是系统架构的一个非 常大的转变,第一次将交互界面作为单独的组件提出来。 2 ,3 2 全企业集成 1 9 8 8 年,为解决企业中信息孤岛,实现全企业集成,i b m 爱尔兰公司的 b a r r yd e v l i n 和p a u lm u r p h y 第一次提出了“信息仓库”的概念,将其定义 为:“一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技 术部门保证数据质量”,并在1 9 9 1 年在d e ct a2 的基础上把信息仓库的概念 包含进去,并称之为v i t a l 规范( v i r t u a l l yi n t e g r a t e d t e c h n i c a l a r c h i t e c t u r el i f ec y c l e ) ,将p c 、图形化界面、面向对象的组件以及局域 网都包含在v i t a l 里,并定义了8 5 种信息仓库的组件,包括数据抽取、转换、 有效性验证、加载、c u b e 开发和图形化查询工具等。 在9 0 年代初期,数据仓库的基本原理、框架架构,以及分析系统的主要 原则都己经确定,主要的技术,包括关系型数据存取、网络、c s 架构和图 形化界面均已具备。 6 哈尔滨工程大学硕士学位论文 同时,在1 9 8 8 年一1 9 9 1 年,一些前沿的公司已经开始建立数据仓库。 2 3 。3 企业级数据仓库 1 9 9 1 年,i n m o n 出版了其有关数据仓库的第一本书,这本书不仅仅说明为 什么要建数据仓库、数据仓库能给你带来什么,更重要的是,i n m o n 第一次 提供了如何建设数据仓库的指导性意见,该书定义了数据仓库非常具体的原 则。包括1 1 】: 数据仓库是面向主题的( s u b j e c t o r i e n t e d ) 集成的( i n t e g r a t e d ) 包含历史的( t i m e v a r i a n t ) 不可更新的( n o n v o l a t i l e ) 面向决策支持的( d e c i s i o ns u p p o r t ) 面向全企业的( e n t e r p r i s es c o p e ) 最明细的数据存储( a t o m i cd e t a i l ) 数据快照式的数据获取( s n a ps h o tc a p t u r e ) 这些原则到现在仍然是指导数据仓库建设的最基本原则,虽然中间的一 些原则引发一些争论,并导致一些分歧和数据仓库变体的产生。但是,b i l l i n m o n 凭借这本书奠定了其在数据仓库建设的位置,被称之为“数据仓库之 父”。 2 3 4 数据集市 由于企业级数据仓库的设计、实施很困难,使得最早实施数据仓库的公 司遭到大面积的失败,因此数据仓库的建设者和分析师开始考虑只建设企业 级数据仓库的一部分,然后再逐步添加,但是这有背于b i i ii n m o n 的原则: 各个实施部分的数据抽取、清洗、转换和加载是独立,导致了数据的混乱与 不一致性。而且部分实施的项目也有很多失败,除了常见的业务需求定义不 清、项目执行不力之外,很重要的原因是因为其数据模型设计,在企业级数 据仓库中,i n m o n 推荐采用第三范式进行数据建模,但是i n m o n 的追随者固 守联机事务处理( o l t p ) 系统的第三范式设计,从而无法支持d s s 系统的性 能和数据易访问性的要求。 在这种技术需求的基础上,r a l p hk i m b a l l 的t h ed a t a w a r e h o u s e t o o l k i t ) 提供了如何进行数据模型优化的详细指导意见,从而维度建模代替 哈尔滨工程大学硕士学位论文 实体关系建模应用于数据仓库领域,也为传统的关系型数据模型和多维联机 分析处理之间建立了很好的桥梁。根据k i m b a l l 的指导原则,很多企业公司 开始实施数据集市并获得很大成功,而企业级数据仓库已逐渐被人所淡忘。 2 3 ,5 争吵与混乱 企业级数据仓库还是部门级数据集市? 关系型还是多维? i n m o n 和 k i m b a l l 一开始就争论不休,其各自的追随者也唇舌相向,形成相对立的两 派:i n m o n 派和k i m b a l l 派。 在初期,数据集市的快速实施和较高的成功率赢得了很大得市场份额, 但是很快,他们也发现自己陷入了某种困境:企业中存在6 7 个不同的数据 集市,分别有不同的e t l ,相互之间的数据也不完全一致。同时,各个项目 实施中也任意侵犯了i n m o n 开始定下的准则:把数据集市当成众多o l t p 系统 之后的一个系统,而不是一个基础性的、集成性的东西。为保证数据的准确 性和实时性,有的甚至可以由o l t p 系统直接修改数据集市里面的数据,为了 保证系统的性能,有的数据集市删除了历史数据等等,不一而足。当然,这 导致了一些新的应用的出现,例如o d s ( t h eo p e r a t i o n a ld a t as t o r e :运营 数据存储) ,但是人们对数据仓库、数据集市的概念还是非常模糊经常混为 一谈。不能简单将联机分析处理( o l a p ) 认为成就是数据仓库,而o d s 和数 据集市,数据仓库之间也有本质区别。 2 3 6 合并 经过多番争吵,证明o n e s i z e f i t s a l l 是不可能的,企业需要不同的 b i 架构来满足不同的业务需求。b i l li n m o n 也推出了新的b i 架构c i f ( c o r p o r a t i o ni n f o r m a t i o nf a c t o r y ) ,把k i m b a l l 的数据集市也包容进来 了。但是仍然还有很多人在争论是自顶向下,还是自底向上。 c i f 的核心思想是把整个架构分成不同的层次以满足不同的需求,把数 据仓库( d w - - d a t a w a r e h o u s e ) 、数据挖掘( d m - - d a t am i n i n g ) 、o d s 进行详 细的描述。现在c i f 已经成为建设数据仓库的框架指南。 哈尔滨工程大学硕士学位论文 图2 1 数据仓库c i f 架构 在图2 1 中相关含义如下: e t l :e x t r a c t ,t r a n s f o r m ,l o a d 一数据抽取、转换、装载; e r p :e n t e r p r i s er e s o u r c ep l a n 一企业资源计划; d s s :d e c i s i o ns u p p o r t e ds y s t e m - - 决策支持系统; c r m :c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t - - 客户关系管理: e d w :e n t e r p r i s ed a t aw a r e h o u s e - - 企业数据仓库; 2 4 数据仓库概念及未来 从数据仓库产生的必要性到数据仓库的发展,然后到企业级数据仓库新 的动态,可以看出数据仓库的基本核心概念没有发生变化一对企业决策支持 提供有利的支持。 9 哈尔滨工程大学硕士学位论文 2 4 1 数据仓库概念 目前,“数据仓库”一词还没有一个统一的定义,著名的数据仓库专家 w h i n m o n 在其著作b u i i d i n gd a t aw a r e h o u s e 一书中给出了如下描述: 数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集 合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理 解; 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有 的操作型数据库: 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了 重组,并包含历史数据,而且存放在数据仓库中的数据一般不再做修改。 根据数据仓库的定义,数据仓库拥有以下的四个特点: i 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系 统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。 主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重 点方面,一个主题通常与多个操作型信息系统相关。 2 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关。数 据库之间相互独立,并且往往是异构的。而数据仓库的数据是在对原有 分散的数据库数据抽取、清理的基础上经过系统加工的、汇总和整理得 到的,必须消除数据中的不一致性,以保证数据仓库内的信息是关于整 个企业的一致的全局信息。 3 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时 发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操 作主要是数据查询,一旦数据进入数据仓库以后,一般情况下将被长期 保留,也就是数据仓库中一般大量的查询操作,但修改和删除操作很少, 通常只需要定期的加载、刷新。 4 反映历史变化。操作型数据库主要关心当前某一时间段内的数据,而数 据仓库中的数据通常包含历史信息。系统记录了企业从过去某一时点 ( 如开始应用数据仓库的时点) 到目前的各个阶段信息,通过这些信息, 可以对企业的发展历程和未来趋势做出定量分析和预测。 以辨证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是 哈尔滨工程大学硕士学位论文 螺旋式上升。今天的数据库就好比当年层次的数据库和网型数据库,它们面 向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。 所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技 术的专业化,它可更专心于联机分析领域的发展和探索。 2 4 2 数据仓库未来瞻望 随着应用不断的进步,数据仓库的技术为了满足应用的需求。肯定在其 进一步完善的道路上有所改进。但是从其历史发展过程来看,几个趋势是比 较明显的: 从决策支持系统的发展:这对d w 的实时性和可获得性有更高的要求,甚 至要求7 2 4 3 6 5 ; 需求更加多样化,要求有不同的架构和应用层次以适应不同的需求; 数据量膨胀,对数据建模、数据组织和层次划分提出更高的要求: 从全企业集成到数据集市,又有实时数据仓库等等,同时新的应用层出 不穷,d w b i 的未来注定不会向单一化方向发展。 2 5 本章小结 本章从数据仓库的产生的必要性入手,通过讲述数据仓库的发展历程, 最后得出数据仓库的总结性概念,指出数据仓库的主要特点以及未来的发展 方向。信息世界每天都在发生着变化,决策支持系统的要求决定着对数据仓 库的发展方向。如何实现决策支持系统的要求? 数据仓库的技术决定了能够 满足什么样的要求,下一章讲述使用那些技术满足决策支持系统的要求以及 数据仓库系统与一般关系数据库管理系统的区剐。 哈尔滨工程大学硕士学位论文 第3 章数据仓库技术 3 1 概述 数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数 据集合,用于支持管理决策。本章在数据仓库概念的基础上讲述数据仓库跟 普通数据库的区别,数据仓库中所涉及到的各种技术,以及对应各种技术难 点所提出的解决方案。 数据仓库是近年来兴起的一种新的数据库应用,各种数据库厂商纷纷宣 布自己产品支持数据仓库并提出一整套用于建立和使用数据仓库的产品,比 如i n f o r i d i x 公司的数据仓库解决方案、o r a c l e 公司的数据仓库解决方案、 s y b a s e 公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大 兴趣,国际上许多重要的学术会议,如超大型数据库国际会议,数据工程国 际会议等,都出现了专门研究数据仓库、联机分析处理、数据挖掘的论文。 对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题: 怎样建立数据仓库? 数据仓库对企业都有那些方面需求等等。本章将介绍一 下用到的数据仓库技术背景,更深一步阐述数据仓库技术在现实中的重大意 义。 联机分析处理专门用于支持复杂的决策分析,是支持信息管理和业务管 理人员决策活动的一种决策分析工具。它可以根据分析人员的要求,迅速、 灵活地对大量数据进行复杂的查询处理,并且以真观的、容易理解的形式将 查询结果提供给各种决策人员,使他们迅速、准确地掌握企业的运营情况, 了解市场的需求。而作为联机分析处理基础一数据仓库的架构以及使用的各 种技术必然会影响联机分析处理。 3 2 数据仓库数据组织结构 数据仓库是面向主题的、集成的、不可更新的( 稳定性) 、随时间不断变 化( 不同时间) 的数据集合,用以支持经营管理中的决策制定过程、数据仓 库中的数据面向主题,与传统数据库面向应用相对应。数据仓库存储哪些数 据呢? 数据如何组织,存储? 组织形式有那些等等。 3 2 1 数据仓库的数据组织结构概述 一个典型的数据仓库数据组织结构如图3 1 所示: 哈尔滨工程大学硕士学位论文 操 图3 1 数据仓库的数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合 级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需 要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将 进入早期细节级。由此可见,数据仓库中存在着不同的综合级别,一般称之 为”粒度”。粒度越大,表示细节程度越低,综合程度越高。 数据仓库中还有一种重要的数据一元数据( m e t a d a t a ) 。元数据是”关于 数据的数据”,如在传统数据库中的数据字典就是一种元数据。在数据仓库环 境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建 立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二 种元数据在数据仓库中是用来和终端用户的多维商业模型前端工具之间建 立映射,此种元数据称之为d s s 元数据,常用来开发更先进的决策支持工具。 3 2 2 粒度与分割 3 2 2 1 粒度 粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对 数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据 量的多少,也影响数据仓库所能回答询问的种类【4 】。在数据仓库中,多维粒 度是必不可少的。由于数据仓库的主要作用是决策支持系统分析,因而绝大 多数查询都基于一定程度的综合数据之上,只有极少数查询涉及到细节。所 以应该将大粒度数据存储予快速设备如磁盘上,小粒度数据存于低速设备如 磁带上。 哈尔滨工程大学硕士学位论文 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库 中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来 划分的,而是由采样率的高低来划分,采样粒度不同的样本数据库可以具有 相同的数据综合程度。 3 2 2 2 分割 分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是 将数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的 标准可供参考:如日期、地域、业务领域等等,也可以是其组合。一般而言, 分割标准总应包括日期项,它十分自然而且分割均匀。 3 2 3 数据仓库数据组织形式 数据仓库中常见的数据组织形式如下: 1 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存 储起来。 2 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一 个星期的七天中,数据被逐一记录在每日数据集中:然后,七天的数据 被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使 用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并 记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆 积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数 据,细节损失越多。 3 简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库 快照,比如每隔一星期或一个月作一次。 4 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件, 它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同 新的简单直接文件也可生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠”表”这种最 基本的结构。 3 2 4 数据仓库的数据追加 如何定期向数据仓库追加数据也是一个十分重要的技术。数据仓库的数 据是来自o l t p 的数据库中,问题是如何知道究竟哪些数据是在上一次追加过 哈尔滨工程大学硕士学位论文 程之后新生成的。常用的技术和方法有: 1 时标方法:如果数据含有时标,对新插入或更新的数据记录,在记录中 加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库 中的数据都含有时标。 2 d e l t a 文件:它是由应用生成的,记录了应用所改变的所有内容。利用 d e l t a 文件效率很高,它避免了扫描整个数据库,但同样的问题是生 成d e l t a 文件的应用并不普遍。此外,还有更改应用代码的方法,使 得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且 修改代码十分繁琐,这种方法很难实现。 3 前后映像文件的方法:在抽取数据前后对数据库各作一次快照,然后比 较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极 大,因此并无多大实际意义。 4 日志文件:最可取的技术是利用日志文件了,因为它是数据库的固有 机制,不会影响o l t p 的性能。同时,它还具有d e l t a 文件的优越性质, 提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日 志文件的格式是依据d b 系统的要求而确定的,它包含的数据对于数据 仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件 将全部变化过程都记录下来;面对于数据仓库,只需要最终结果。但 比较而言,曰志文件仍然是最可行的一种选择。 3 ,3 数据仓库中的关键技术 1 1 p 1 1 3 1 m i m l 在许多方面,数据仓库比数据库需要一系列更简单的技术。数据仓库中 没有联机的数据更新、只有非常少的一些锁定需要、而且对于远程处理接口 的需要也只是最基本的等等。然而,数据仓库有许多技术上的需求。 3 3 1 管理大量的数据 对于数据仓库,第一个也是最重要的技术需求就是能够管理大量的数据, 如下图所示: 哈尔滨工程大学硕士学位论文 第二个技术需求:能够管 理多种介质 第三个技术需求:能够轻 松容易地索引和管理数 第四个技术需求:对于接 口用各种不同的技术接 受和传送数据 索 报 图3 2 数据仓库中的基本技术需求 有多种管理大量数据的方法通过寻址,通过索引,通过数据的外延, 通过有效的溢出管理,等等。管理大量的数据有两方面一能够管理大量数据 的能力和管理好的能力。任何生成支持数据仓库的技术一定要满足能力与效 率的要求。 数据仓库开发者建造数据仓库时候,在理想的情况下是假定其能够满足 处理大量数据的需求的。在开发和实现数据仓库的时候,如果开发者不得不 对技术扩展以适应数据仓库,那么所用的基本技术就存在一定的问题。 3 3 2 管理多介质 在处理大量数据时,为了满足高效率和合理的费用,应用在数据仓库中 的基本技术应该能够解决多种存储介质的问题。仅仅在d a s d ( d i r e c ta c c e s s 1 6 哈尔滨工程大学硕士学位论文 s t o r a g ed e v i c e ) 上管理一个成熟的数据仓库是不够的。考虑到访问速度和存 储费用,对数据的存储要分层次。层次的区分如下: 主存非常快 一非常贵 扩展内存非常快贵 高速缓存非常快 一贵 d a s d快 一适中 光盘不慢不贵 缩微胶片慢便宜 3 3 3 索引监视数据 数据仓库的灵魂就在于灵活性和对数据的不可预测的访问。这一点也就 是要求能够对数据进行快速和方便的访问。数据仓库中的数据如果不能方便 和有效地检索,那么建立数据仓库这项工作就不是成功的。当然,设计者可 以利用许多方法来使数据尽可能地灵活,例如利用双重粒度级和数据分割。 但这些技术一定要支持方便的索引,一些索引技术常常是有用的,如二级索 引、稀疏索引、动态索引、临时索引等等。而且,建立和应用索引的费用不 能太高。 数据仓库中的数据也应能随意地被监视。监视数据的费用也不能太高, 过程不能太复杂,监视程序在需要时应能随时运行。有很多理由要监视数据 仓库中的数据,包括: 1 决定是否应数据重组; 2 决定索引是否建立得不恰当; 3 决定是否有太多数据溢出; 4 决定数据的统计成份; 5 决定剩余的可用空间: 如果数据仓库技术不支持对数据的方便和高效地监视的话,那么它就不 适用。 3 3 。4 程序员设计者对数据存放位置的控制 为了对数据进行高效地访问和更新,程序员设计者需要在物理的块页 的一级上对数据的存放进行特殊的控制,如图3 2 所示。 哈尔滨工程大学硕士学位论文 第五个技术需求:允许设计者,开 发者在块,页的级别上一种最佳的 第六个技术需求:能 够并行管理数据 第七个技术需求:有很好的原数据管 理 第八个技术需求;数据仓库 要有多种语言接口 语言 图3 3 数据仓库的另外一些技术需求 某项技术将数据放到它认为合适的地方是完全可以的,只要该项技术能 在需要时被明确地管制。如果某项技术非要将数据存放在某一物理地址而不 允许程序员管制,那么它就犯了严重的错误。程序员设计者时常对数据的物 理位置进行整理来使之适合其用途。这样做可以使数据的访问更加经济。 3 3 5 数据的并行存储管理 数据仓库中数据管理的最重要的特征之一是数据的并行存储管理。当数 据被并行存储和管理时,性能上会提高很多。通常,假定对数据的访问都是 等概率的话,性能的提高与数据所分布的物理设备的多少成反比。整个数据 的并行存储管理是非常复杂和重要的。 3 3 6 元数据管理 由于各种各样的原因,数据仓库中元数据比在传统操作型的数据库中更重 l g 啥尔滨工程大学硕士学位论文 要。元数据之所以重要是由于与数据仓库相关的开发生命周期是完全不同的, 数据仓库是在一种启发式的、反复的开发生命周期上运作的。为了更加有效, 数据仓库的用户应该能够对准确和实时的元数据进行访问。没有个好的元 数据来源来运作的话,dss 分析员的工作就非常困难。典型的元数据包括: 数据仓库表的结构; 数据仓库表的属性; 数据仓库的源数据( 记录系统) ; 从记录系统到数据仓库的映射; 数据模型的规格说明: 抽取臼志; 访问数据的公用例行程序; 3 3 7 语言接口 数据仓库需要有非常丰富的语言规定。没有一种健壮的语言。数据仓库 中进入接口和访问数据就非常困难。而且,访问数据仓库的语言一定要是高 效的。典型的数据仓库语言接口需要: 能够一次访问一组数据: 能够一次访问一条记录; 特别要保证,为了满足某个访问要求能够支持一个或多个索引; 有sql 接口; 能够插入、删除、更新数据; 3 3 8 数据的高效装入 数据仓库的一个重要的技术能力就是要能够高效地装入数据,如图3 4 所示。有好多种装入数据的方法:通过一个语言接口一次一条记录或者一起 使用一个程序一次全都装入。另外,在装入数据的同时,索引也要高效地装 入。在有些时候,为了平衡工作负载,数据索引的装入可以推迟。如果数据 仓库中数据的装入有不可克服的困难,那么这个数据仓库就没有用处了。 3 3 9 高效索引的利用 数据仓库技术不仅必须能够方便地支持新索引的创建和装入,而且要能 够高效地访问这些索引。有多种方法能够高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训课安全知识课件
- 培训课件标准化意义
- 培训讲课理论知识课件
- 2025年企业食堂食品安全责任保险租赁服务协议
- 2025年新型生物材料研发与质量检测服务合同
- 2025年生物制品生产技术引进保密及知识产权共享合同
- 第209号汽车个人租赁合同书
- 2025年石油勘探钻机设备租赁及资深操作员派遣服务合同
- 2025年冰箱行业渠道建设与品牌合作采购合同
- KTV消防安全风险评估与责任落实合同
- 班主任培训:家校共育
- 《数据安全法》考试参考题库100题(含答案)
- 档案管理服务承诺书
- 胶原蛋白对皮肤的重要性
- 2025年绵阳燃气集团有限公司招聘笔试参考题库含答案解析
- 《石膏的护理》课件
- 护理法律相关案例分析
- 2025版《折弯机安全操作规程》全
- 2024版标准性二手车贷款合同模板(含车况鉴定)3篇
- 孕期阴道炎的健康宣教
- DB32-T 4467-2023 南美白对虾小棚养殖尾水生态化处理技术规程
评论
0/150
提交评论