(计算机应用技术专业论文)面向领域的数据仓库构建技术研究及应用.pdf_第1页
(计算机应用技术专业论文)面向领域的数据仓库构建技术研究及应用.pdf_第2页
(计算机应用技术专业论文)面向领域的数据仓库构建技术研究及应用.pdf_第3页
(计算机应用技术专业论文)面向领域的数据仓库构建技术研究及应用.pdf_第4页
(计算机应用技术专业论文)面向领域的数据仓库构建技术研究及应用.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据仓库是决策支持系统的基础,它为分析与决策提供数据支持。数据仓库的意义 是要建立一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中 分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息。企业内不同部门 的成员都可以在此单一的环境之下,通过运用其中的数据与信息发现全新的视野、新的 问题、新的分析与想法,进而发展出制度化的决策系统,并获取更多的经营效益。但是, 由于数据仓库系统包含了众多的关键技术,因此开发过程中存在很多困难,比较显著的 问题有:软件复杂度高、软件复用率低、系统结构灵活性差、可扩展性差、不能快速适 应变化、系统之间的有机集成难以实现等难题。为了解决上述难题,本文提出在领域工 程理论和软件构件技术的基础上来构建面向制造领域的数据仓库系统。 领域工程将关于领域的知识转化为领域中应用系统共同的规约、设计和构架,使得 可以被复用的信息的范围扩大到了抽象级别较高的分析和设计阶段。由于通过领域工程 产生的可复用构件来源于领域中现有的系统,体现了领域中系统的本质需求,因此这些 构件具有较高的可复用性。具体方法是先构造出面向制造领域的数据仓库模型,接着依 据领域模型产生出领域中的应用系统共同具有的体系结构或生成过程,然后以此为基础 来识别、开发和组织可复用构件。这样,当开发同一制造领域中的不同的数据仓库系统 时,可以根据领域模型和特定应用系统的需求分析来进行特征选取;根据领域的软件体 系结构形成应用系统的设计;并以此为基础从领域构件库中选择可复用构件进行组装, 从而形成新系统。 由此可见,领域工程有助于产生具有较高可复用性的构件。本文将上述面向领域的 数据仓库构建方法与技术应用于某钢铁公司的数据仓库系统的建设中,实践表明:建立 面向领域的数据仓库,为数据仓库系统的设计和丌发提供了一种新的思路,有利于提高 软件复用度,降低软件复杂度,提高软件生产率,并能降低现代企业数据仓库系统软件 开发与维护的成本。 关键词:数据仓库;领域工程;软件构件;软件复用 大连交通大学t 学硕十学位论文 a b s t r a c t d a t aw a r e h o u s e ,a st h eb a s i sf o rd e c i s i o ns u p p o r ts y s t e m ,m a i n l yp r o v i d e ss u p p o r tf o r d e c i s i o n m a k i n g t h es i g n i f i c a n c eo ft h ed a t aw a r e h o u s ei st oe s t a b l i s has y s t e mo fd a t a s t o r a g ee n v i r o n m e n t ,w h i c hi s o l a t et h el a r g ea m o u n t so fd a t an e e d e df o rd e c i s i o n - m a k i n g f r o mt r a d i t i o n a lo p e r a t i n ge n v i r o n m e n ta n dt r a n s f o r ms c a t t e r e da n di n c o n s i s t e n to p e r a t i o n d a t ai n t oi n t e g r a t e d ,u n i f i e di n f o r m a t i o n d i f f e r e n td e p a r t m e n t so ft h ee n t e r p r i s ew i t h i nt h i s s i n g l ee n v i r o n m e n tc a nf i n dn e wv i s i o n ,n e wp r o b l e m s ,n e wi d e a sa n da n a l y s i st od e v e l o pa s y s t e m a t i cd e c i s i o n - m a k i n gs y s t e ma n dg a i nm o r eo p e r a t i n ge f f i c i e n c y h o w e v e r ,t h e r ea r e m a n yd i f f i c u l t i e si nt h ed e v e l o p m e n tp r o c e s sa st h ed a t aw a r e h o u s es y s t e mi n c l u d e sm a n yk e y t e c h n o l o g i e s t h e s er e l a t i v e l ys i g n i f i c a n ti s s u e sc a nb ed e s c r i b e da sf o l l o w :h i 曲s o f t w a r e c o m p l e x i t y ,l o ws o f t w a r er e u s e ,p o o rs y s t e ma r c h i t e c t u r ef l e x i b i l i t y ,p o o rs c a l a b i l i t y ,n o t q u i c k l ya d a p t i n gt on e we n v i r o n m e n t ,d i f f i c u l t yo f t h eo r g a n i ci n t e g r a t i o nb e t w e e nd i f f e r e n t s y s t e m sa n ds oo n i no r d e rt os o l v et h ep r o b l e m sa b o v e ,t h i sp a p e rp r e s e n t st ob u i l dad a t a w a r e h o u s es y s t e mo fm a n u f a c t u r i n g o r i e n t e do nt h eb a s i so ft h ed o m a i ne n g i n e e r i n gt h e o r y a n ds o f t w a r ec o m p o n e n tt e c h n o l o g y i nd o m a i ne n g i n e e r i n g ,s e v e r a l s y s t e m s i nad o m a i na r e a n a l y z e d ,a n d t h e i r c o m m o n a l i t i e sa n dv a r i a b i l i t i e s a r e i d e n t i f i e d t h r o u g hd e v e l o p m e n t f o r r e u s e , d o m a i n - s p e c i f i cc o m p o n e n t sa n dt h ea r c h i t e c t u r ea lep r o d u c e d d o m a i ne n g i n e e r i n ga p p r o a c h h e l p ss u c c e s s f u l l yf o rs o f t w a r er e u s e t h es p e c i f i c m e t h o di sf i r s tt oc o n s t r u c tad a t a w a r e h o u s em o d e lf o rt h em a n u f a c t u r ed o m a i n ,a n dt h e ng e n e r a t eac o m m o na r c h i t e c t u r eo r f o r m a t i o np r o c e s sf o ra p p l i c a t i o ns y s t e m si nt h i sd o m a i nu s i n gb yt h ed o m a i nm o d e l f i n a l l y , o nt h i sb a s i st h er e u s a b l ec o m p o n e n t sc a nb ei d e n t i f i e d ,d e v e l o p e da n do r g a n i z e d i nt h i sw a y , w h e nd e v e l o p i n gd i f f e r e n td a t aw a r e h o u s es y s t e m si nt h es a m em a n u f a c t u r ed o m a i n ,t h e d e v e l o p e r sc a ns e l e c tt h ef e a t u r eu n d e rt h ed o m a i nm o d e la n dt h er e q u i r e m e n t sa n a l y s i so f a p p l i c a t i o n s p e c i f i cs y s t e m s t h e n ,t h ed e v e l o p e rd e s i g n st h ea p p l i c a t i o ns y s t e m sa c c o r d i n g s o f t w a r ea r c h i t e c t u r eo ft h ed o m a i n f i n a l l y ,t h ed e v e l o p e rc a ns e l e c tr e u s a b l ec o m p o n e n t f r o mc o m p o n e n tl i b r a r yo fd o m a i nt oa s s e m b l et h es y s t e ma n dc r e a t et h en e ws y s t e m t h i sp a p e ra p p l i e st h ec o n s t r u c t i o nt e c h n o l o g yf o rd o m a i no r i e n t e d d a t aw a r e h o u s et o t h ed a t aw a r e h o u s es y s t e mo fs t e e lc o m p a n y t h ef a c ts h o w st h a ti tp r o v i d e san e wa p p r o a c h t os u c c e s si nd e v e l o p i n gd a t aw a r e h o u s es y s t e m si nm a n u f a c t u r ed o m a i n i na d d i t i o n ,i t c o n t r i b u t et oi m p r o v es o f t w a r er e u s e ,r e d u c es o f t w a r ec o m p l e x i t y ,i m p r o v es o f t w a r e p r o d u c t i v i t ya n dr e d u c es o f t w a r ed e v e l o p m e n ta n dm a i n t e n a n c ec o s t so fd a t aw a r e h o u s e s y s t e mi nt h em o d e me n t e r p r i s e k e yw o r d s :d 叠匕w a r e h o u s e ;d o m a i ne n g i n e e r i n g ;s o f t w a r ec o m p o n e n t ;s o f t w a r er e u s e 第一章绪论 第一章绪论 1 1 数据仓库的起因 从2 0 世纪6 0 年代开始,由于计算机领域中事务处理应用的出现而引起了数据库技 术( d b ,d a t ab a s e ) 的发展;同时数据库的出现也推动了事务处理的发展。随着数据库应 用的发展,数据积累越来越丰富,使得数据成为社会的信息财富,它为社会的发展和进 步提供了有力的支持;但是,最初的信息利用仅限于简单的信息检索,这种应用通常称 为联机事务处理( o l t p ,o nl i n et r a n s a c t i o np r o c e s s i n g ) 。 在过去几十年中,数据库技术,特别是联机事务处理,主要是为自动化生产、精简 工作任务和高速采集数据服务的。它是事务驱动的、面向应用的。它的根本任务就是及 时地、安全地将当前事务所产生的记录保存下来。这些用途准确地说只能归之为数据操 作。随着社会的发展,人们已不满足于简单的数据操作,人们进一步产生了使用现有数 据的需求,也就是利用现有的数据进行分析和推理,从而为决策提供依据。这样的需求 导致了决策支持系统( d s s ,d e c i s i o ns u p p o r ts y s t e m ) 的产生。人们最初在构建d s s 时, 自然而然地想到建立在数据库的基础上。因为,数据库技术正日趋成熟,特别是关系数 据库技术的飞速发展,使数据库的整体性能得到了迅速提高。因此,建立了不少基于传 统数据库的决策支持系统,并且在许多领域中发挥了一定的作用。这些决策单靠拥有联 机事务处理系统做不到的,需要对大量的业务数据包括历史业务数据进行分析才能得 到,而这种基于业务数据的决策分析,称之为联机分析处理( o l a p o nl i n ea n a l y t i c a l p r o c e s s i n g ) 。联机事务处理强调的是向数据库中添加信息,而联机分析处理就是要从数 据库中获取信息、利用信息。 因此,数据处理的方法也可相应的分为两大类:操作型处理和分析型处理。事务处 理属于操作型处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和 修改,主要是为企业的特定业务处理服务的,人们关心的是响应时间、数据的安全性和 完整性。而用于管理与决策人员的决策分析属于分析型处理,需要跨越多种业务过程访 问大量的历史数据,而且,数据常常分散在各个相对独立的操作型数据库系统中。 尽管将大量的业务数据应用于分析看起来非常简单的工作,但实际上并非想象的那 么容易。随着数据量越来越大,查询越来越复杂,逐渐出现了许多难以克服的问题。具 体表现为:缺乏组织性:效率极为低下,数据难以转化为有用的信息。人们丌始尝试对 数据库中的原始数据进行再加工,形成一个综合的、面向分析的环境以支持决策的产生。 因此,需要为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、 大连交通大学丁学硕十学位论文 异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为统计分 析和决策支持应用服务,它为决策支持和联机分析应用提供数据。这个数据中心就是数 据仓库( d w ,d a t aw a r e h o u s e ) ,可以把它看作一个作为决策支持系统和联机分析应用数 据源的结构化数据环境。由此,数据仓库的思想逐渐形成。 因此,我们说数据仓库技术是数据库技术发展的必然,是一种数据库概念的延伸与 推广,以适应决策支持需要的一种数据集合体【1 , 2 , 3 】。 1 2 数据仓库的研究现状及面临的主要问题 2 0 0 6 年在美国举行的第九届a c m 数据仓库和联机分析国际会议以及2 0 0 4 年 在德国举行的数据仓库展望研讨会对数据仓库研究现状及其面临的主要问题做了广 泛而又深入地讨论1 4 ,5 1 。 1 2 1 建模和设计 数据仓库的目标是决策支持而不是于事务支持,因而他们普遍具有联机分析的特 征。传统上,o l a p 应用是基于多维模型的,这有两个好处:一方面,多维模型接近人 们对数据进行分析的思维方式,因此,它可以帮助用户对数据的理解;另一方面,由于 多维模型结构简单,允许设计者能够预测用户的意愿,因此它使得数据仓库容易进行改 进。 多维建模以及非事务处理的工作方式需要特殊的设计技术。虽然有很多文献对数据 仓库的设计进行了研究,然而数据仓库的设计方法论却没能达成一致。 ( 1 ) 概念建模 概念建模为数据仓库的设计提供了一个高层次的抽象,从各个方面描述了数据仓库 的过程和体系结构,从而完成数据仓库的实施。通常,借助于图形表示能让设计者和商 业用户更方便地对概念模式进行表达、理解和管理。 目前的技术文献中,人们处理数据仓库的概念建模问题主要从以下两点进行考虑: 事实建模:现有的方法可以分为三类:扩展e r 模型;扩展u m l 模型;特殊的模型。 e t l 建模:e t l 是指数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、清洗( c l e a n i n g ) 、 装载( l o a d ) 的过程。e t l 建模主要包括以下三个方面:功能建模;动态建模;静态建 模。 很明显人们在这个领域已经做了很多工作,但是仍然存在一些非常重要的问题: 缺乏标准:虽然人们提出了几种概念模型,但是直到现在仍没有哪种模型被公 认为是一种标准。我们认为主要原因可以总结如下:在研究界和工业界,人 们对哪些是与建模相关的多维性仍然没有达成一致意见;虽然概念模型语义 2 第一章绪论 表达丰富,但是某些属性不能表示成为目标逻辑模型,因此,从概念模型到逻 辑模型的转换是不完整的;设计者能利用商业c a s e 工具直接画出逻辑模 型,因此工业界没有开发概念模型的动力。另一方面,我们相信,研究界和工 业界将会大力支持建立个统一的数据仓库概念模型,并且将在传统的c a s e 工具里面进行实施。这种统一的数据仓库概念模型应该是合理的,同时便于设 计者的使用与理解;它应支持综合建模,包括数据仓库的体系结构、部署、数 据源、映射、e t l 、事实、工作流的建模。最后,它应该具有足够的扩充性和 灵活性,不仅满足传统企业领域的需要,而且还能解决商业领域应用的一些特 殊的问题。 建模的安全性问题:在软件工程中,信息安全是一个必须要认真考虑的问题。 这个问题贯穿于数据仓库开发生命周期的所有阶段,从需求分析到实施再到维 护。在数据仓库中,信息安全是一个及其重要的问题,因为人们常常利用数据 仓库来发现关键的商业信息从而做出战略决策。此外,类似于常见的统计数据 库,多维性和聚集也带来了安全问题,因为他们隐含不合理的数据推论。尽管 有一些办法可以用来保障数据仓库的安全,如文献 6 ,7 ,8 ,9 中研究了诸如访 问控制、多层次安全等问题,但是他们都没有在数据仓库的开发周期的各个阶 段考虑其安全问题。更糟的是,实际数据仓库项目安全方面的实施,通常由数 据库管理员在设计阶段的后期进行。相反,我们认为安全问题应在数据仓库项 目的早期阶段就应认真地加以考虑并通过一个合适的概念形式来进行安全建 模,概念形式应考虑到决策支持应用的特殊性。据我们所知,只有文献【l o 】提出 的u m l 扩展模型在多维建模的概念层方面提出了一些具体的安全约束。 数据挖掘方面的设计:一些厂商如i b m 、微软已经在商业工具罩面融合了联 机分析和数据挖掘。然而,除了一些极个别的例外( 例如文献【1 1 】) ,大多数研 究者尤其是数据仓库的研究者没有考虑将其作为热点问题进行研究。到目i ; 为 止,数据仓库的设计工作主要考虑的是设计o l a p 立方体,没有在早期的设计 中注意考虑数据挖掘的要求。相反,我们认为策划数据挖掘方面的设计技术、 接口和模型带来了许多值得注意的研究课题:例如,如何将数据挖掘的结果很 好地整合到数据仓库中去? 虽然有些文献 1 2 ,1 3 】提出试图在数据库中建立数据 挖掘模型,但是我们知道还没有办法对其进行多维建模。怎样提供大量的、干 净的、综合的数据? d w 和o l a p 技术怎样支持数据挖掘算法? 正如文献 1 4 】 给出的建议,这可能要大力加强数据分析的伸缩性。如何让这两种分析技术相 辅相成? 在文献 1 5 】或文献【1 6 】中可以找到一些建议。 大连交通大学1 :学硕十学位论文 ( 2 ) 逻辑建模 逻辑建模的总体任务是将概念模型转换成逻辑模型从而实现选定的目标系统。在数 据仓库领域,目标数据库系统通常要么是关系型的,要么是多维的。对于关系型的而言, 人们普遍采用所谓的星型、星座和雪花模型来处理数据立方体,并且各个厂商也对这些 模型提供支持。关于多维模型的实施,人们提出几种有效的多维数据结构,如浓缩数据 立方体( c o n d e n s e dc u b e s ) ,d w a r f s 和q c t r e e s 来管理数据立方体。 然而,在高级的概念数据模型与关系型或者多维数据立方体之间,还存在有语义差 距。举例来说,没有任何商业解决方案可以处理o l a p 中的一般化与具体化之间的关系。 此外,如何描述维度约束或者减少上下文的依赖性是一个公开的问题,他们用来解答维 度和逻辑实现中存在的空值。因此,今后的研究方向是要弥补这一语义差距,例如,在 逻辑实现过程中保存高级多维概念模型所捕获的所有的信息。为此,研究工作在保证良 好的查询性能的同时,还要探讨如何丰富元数据的内容并为系统化的方法提供工具支 持,或者更理想的是能寻找到表达能力更强的逻辑模型。显然,没有这种表达能力更强 的逻辑模型的支持,我们就难以简化设计过程,而设计过程应该能够保证质量标准( 例 如,避免数据不一致、控制空值、减少缺失值) ,并且充分考虑安全问题。 ( 3 ) 设计方法 针对数据仓库设计的各个阶段,许多文献提出了一些自动化的设计技术。例如,文 献【6 4 】为概念设计,文献【1 7 】为逻辑设计,文献【1 8 】为物理设计,文献 1 9 l 为e t l 过程设 计。另一方面,尽管发挥基础性作用的配置合理的方法框架确保数据仓库的设计能够充 分满足用户的期望,但是到目前为止却只提出了极少数的综合设计方法。 总之,我们认为一些与之相关的设计问题也没有得到足够充分的研究: 需求分析:数据仓库项目中的大部分时间和资源被用来从数据源中抽取数据。 然而,数据仓库中有相当高比例的数据并没有使用,这样就导致了资金的浪费。原因之 一通常是由于忽略了实际项目中的需求分析。数据仓库项目的周期很长,而且大多数的 需求在项目初期并不能加以陈述。此外,尽管一些技术文献【2 0 ,2 l ,2 2 ,2 3 】涉及到这方 面的问题而且也开发出了一些工具,但是迄今为止在数据仓库领域中需求分析的重要性 仍然没有得到足够的重视。我们认为设计者需要新的方法来收集信息和服务质量方面的 需求并且将这些需求转化为在i t 人员和决策者之问能达成共识的概念模型( 至少在某些 特定领域应该是这样的1 。 演变:随着一些成熟的数据仓库系统工具在大中型环境下的全面运作,应用领 域的不断发展将动态描述方面的研究推向了最前沿,比如描述数据仓库中的数据是如何 4 第一章绪 论 随着时间而变化的。关于变化的数据值的问题,已经有一些文献 2 4 ,2 5 ,2 6 基于外延或 者内涵的观点提出了一些方法来处理,另外一些商业系统可以跟踪这些变化,并能在不 同的情况下有效地查询数据立方体。相反,如何处理数据模式更新的问题( 引起这些问 题的原因是业务的改变、用户需求的改变或者数据源的改变) 却只得到部分的探讨,同 时也没有专门的商业工具或重构的方法提供给设计者。数据仓库模式更新的处理方法可 以分为两大类,即演变和版本管理。虽然两类都支持模式更新,但只有后者可以追查先 前的版本。总之,我们认为版本管理方法特别适合于分析数据仓库用户复杂的需求。因 此,这个领域研究工作的挑战是如何提供版本和数据迁移机制,从而支持灵活的可以跨 越版本的数据查询。考虑到e t l 过程的复杂性,另外一个与之相关的问题是要提供一 种开发技术将数据源模式的更新传递到e t l 过程中去。在实现这些目标方面一个明显 的好处就是能保持数据仓库与业务需求的同步,从而避免了数据的老化问题。 质量度量:由于战略上的重要性,对于数据仓库的组织者来说,从项目的早期 阶段就开始确保数据质量是绝对关键的。虽然人们进行了数据质量方面的相关研究工 作,但是关于加强设计过程的质量观念及其对制定决策的影响还没有达成一致。衡量设 计质量最重要的方法,可拟定如下: 概念层:人们曾经试图对度量进行定义,用形式化和量化措施取代直观的、概 念化的质量观念以减少工作中对设计者评价和指导的主观性。 逻辑层和物理层:除了文献 2 7 】和【2 8 】给出了建议和主观评价,一些研究侧 重于评价多维模型的复杂性。其他的研究包括d w 的范式和质量驱动试图选择。 总之,我们认为有必要为数据仓库系统制定全面的质量度量标准,包括模式质量( 例 如改善模型的应用需求以确保良好的查询性能) 和数据质量( 例如满足e t l 的最小临 界值、确保及时的信息、考虑数据老化问题) 。这些度量不仅有助于数据仓库的设计, 而且还能提高数据仓库项目的规划,例如预测后期阶段的设计成本和复杂性。此外,在 d w 整个生命周期都需要监控标准和偏差以便更好地处理扩展和演化。 新的体系结构、应用与数据类型的设计:显然,为商务智能而设计的先进的体 系结构正在兴起,用以支持新型的应用,可能涉及新的和更复杂的数据类型。当前用户 需要处理w e b 数据仓库( 其中一部分数据来自于w e b ) 、时空数据仓库( 必须要处理复杂的 时间和空间数据) 、分布式数据仓库( 例如提供点对点架构) 和实时数据仓库( 其中一部分 数据由数据流构成) 。因此,我们不可避免的将要开发出新的、更广泛的技术来满足这 些需要。举例来说,文献 2 9 】着重研究了面向商务性能管理与商务活动监控的商务智能 体系结构的相关问题。 ( 4 ) 互操作性和元数据 大连交通大学工学硕十学位论文 数据仓库概念模型与逻辑模型的互操作性以及市场上各种各样的工具和软件产品, 为元数据建模提供了广泛的途径。实际上,异构元数据工具可以通过建立复杂的元数据 桥的基础上集成得到;遗憾的是,当元数据从一种形式转换成另一种形式的时候,某些 信息丢失了。因此,为了支持数据仓库的互操作性与集成性,有必要对元数据标准进行 定义。 近年来,多供应商组织( m u l t i v e n d o ro r g a n i z a t i o n s ) 提出了两个工业标准,这些在以 下的文献里面也有所体现:开放信息模型:t h eo p e ni n f o r m a t i o nm o d e l ( o i m ) b yt h e m e t ad a t ac o a l i t i o n ( m d c ) ;公共数据仓库元模型:t h ec o m m o nw a r e h o u s e m e t a m o d e l ( c w m ) b yt h eo m g i n2 0 0 0 m d c 联合o m g 提出了c w m 作为标准的元数据模型,文献【3 0 】对这两个标准进行 了比较:c w m 是一个跨平台的元模型定义用于实现不同的平台和工具之间的规范的交 换。c w m 基于u m l ,x m l 标准的基础上,为数据仓库提供了一个完整的建模标准,包 括数据源、e t l 、多维数据立方体、关系实现等。这些元模型具有通用、共享元数据的 外部特征等特点,它为数据交换提供了一个框架,并不是为数据仓库集成提供框架。 另一个相关的问题是常常发生在企业并购的过程中需要整合( 集成) 不同的数据仓库 的问题。关于这个方面的问题,文献【3 1 】描述了一个方法,即针对自治、联邦数据集市 的交叉查询问题,基于信息的一致性提出了维度兼容性的概念。我们认为另外一个要引 起注意的方法就是利用领域( 本体) 知识在不同的数据集市之问建立语义视图。 1 2 2 体系结构 下面我们回顾一下传统的以及其他文献中提出的数据仓库的体系结构。文献 3 2 ,3 3 , 3 4 ,3 5 1 提出了一种经典的三层体系结构:相对于传统的数据库管理系统来说,数据仓库 系统要更为复杂,其中包括从数据源抽取数据、在数据仓库中管理数据以及为最终用户 提供决策所必需的处理、工具、和技术。因此,它可以被描述成为一个对来自于企业中 的局域网或者互联网的信息数据进行管理的企业框架。j a r k e 等人在文献【3 6 】提出的通用 数据仓库体系结构:数据源;数据仓库( 包括o d s ) ;信息目录( 用于元数据管理) ;数据 集市( 不包括客户端) 。h a b e r l i 和t o m b r o s 在文献 3 7 】中指出:操作数据源不仅给数据仓 库提供数据,而且也为短期分析数据库提供数据。s a m o s 等在文献【3 8 】提出了一种替代 数据仓库的体系结构:由若干个数据集市来建立一个数据仓库。b h e n d 在文献 3 9 】中提 出了一个偏离标准的数据仓库的体系结构,允许业务应用程序改变所谓的业务数据集市 中的数据,业务数据集市再和中央数据仓库同步。c a b i b b o 和t o r l o n e 在文献 4 0 】中指 出:在中央数据仓库和数据集市之间设置一个多维数据库,其基本原理是隐藏应用程序 的物理存贮结构。在文献1 4 1 】中,a r a q u e 考虑到数据仓库体系结构的实时需求,提出在 6 第一章绪论 数据仓库体系结构中增加一个实时f e e d e r s 来扩充传统的e t l 。这种结构将中央数据仓 库一分为二:一个静态部分,一个实时部分。实时f e e d e r s 由事态约束进行配置管理。 1 2 3e t l ( 1 ) 传统e t l 尽管数据仓库的前台设计引起了研究者的足够的重视,但是研究者却往往忽略了后 台设计的作用。数据仓库的后台包括以下几个软件活动:数据源端相关信息的识别;信 息的抽取;将来自于多数据源的信息定制和集成为统一的形式;基于数据仓库和业务规 则对生成的数据集进行清洗;将数据传输给数据仓库或数据集市。这些活动通常按e t l 的任务进行分类。这些任务按照一定的规律不断的进行重复而且大多数情况下是同步 的。 到目前为止,研究者仅仅解决了e t l 过程的一部分设计问题和管理问题。尤其应 该关注的问题是: 孤立环境下的单机问题( 例如检测重复的问题) ; w e b 数据问题。 形式化定义问题:刚开始的一个基本的研究问题就是e t l 过程的形式化描述的 规范,尤其强调的是用数学理论( 为了优化的目的) 和形式说明语言来进行描述。 e t l 的优化问题:既可以在逻辑层也可以在物理层对e t l 工作流进行优化。另 外一个观点是将整个e t l 过程当作一个工作流在整体上进行优化或者为每一个转换工 作寻找一个最优化方法( 例如,代理键的设置、文本信息的转换等等) 。e t l 工作流的并 行处理也是一个有待研究的领域。 回熔( b a c k f u s i n g ) :回熔是指数据传输任务一旦发生了改变,数据就要退回到 数据源中,例如数据清洗过程中。这个研究工作可以检测发生在最终用户层潜在的数 据质量问题,又可以对退回到数据源中的数据重新进行清洗,这样就可以避免在以后的 e t l 过程中存在重复的任务。 e t l 过程中基于标准的元数据:目前e t l 过程还没有一个通用的元数据模型。 在我们看来,适合于数据仓库的最普遍的元数据标准c w m 并不十分适合于e t l ,而且 对于具体的实际应用来讲它过于复杂了。 e t l 功能与范围的扩展:除了目前的e t l 工具所提供的标准功能,还有两个办 法来对e t l 进行功能上的扩展:将e t l 工具与运行在其他环境中的引擎进行集成,例 如企业应用集成工具或者定制的数据质量软件;考虑新颖、非传统的数据形式,例如 x m l h t m l ,空问数据、生物医学数据。尤其是针对w e b 数据定制的e t l ,由于w e b 7 大连交通大学t 学硕+ 学位论文 数据源超出了系统的边界而且数据结构以复杂、难以控制的方式进行更新,因此这项研 究给人们提出了真正意义上的挑战。关于这个问题的详细讨论请参考后面的章节按 需e t l 。 安全问题:安全管理是目前大多数应用领域的正交服务。由于数据源和传输中 的数据存在着安全风险,因此e t l 环境也存在安全问题。 ( 2 ) 实时e t l 没有实时e t l 就没有实时数据仓库。传统e t l 技术在系统离线时集中批量处理输 入数据,然而实时e t l 必须要处理更新数据流的问题。遗憾的是,数据流处理的最新 研究( 例如查询中的o n t h e f l y 计算问题) 需要研究各种各样的问题,而不仅仅是转换 和清洗输入记录的问题。 由于大规模的数据流不便于永久存贮在数据仓库中,因此这又是一个有意义的挑 战。为了处理数据流,实时e t l 可能涉及到过滤、值转换以及将数据流信息转换成恰 当的形式等问题。无论何时查询这些信息,一定要避免重复进行e t l 活动。 开发e t l 过程中由流数据带来的若干挑战有: 工作量管理:重载的数据仓库环境要在性能和正确性之间取得权衡。在实时数 据更新的情况下,这个问题显得更加紧迫,因为实时e t l 要求在线处理以及在线查询。 然而,e t l 过程不应该影响查询性能而且应提供质量约束,例如保证正确性或者刷新截 止期。 优化:处理流数据的e t l 的优化任务自然不同于传统e t l 。举一个简单的例子, 数据流的流查询经常涉及到窗口的构建。因此,我们需要成本模型来调整特殊时间窗口 的输入流。 审核:另外一个和流e t l 有关的研究问题是对输入流约束和业务规则的审核, 同时也和存贮的数据有关,例如主键冲突等。 ( 3 ) 按需( 随需应变) e t l 按需e t l 是指按照用户的需要丌始进行e t l 的处理。主要负责:获取外部数据; 进行适当的转换;将数据装载到数据仓库中去。比如,根据用户的要求将w e b 数据纳入 到数据仓库中去。一般来说,数据仓库管理员或者程序员是这样来安排e t l 过程的: 从特点的站点抽取数据;转换数据;最终将数据存贮到数据仓库中的某个区域。这个过 程中要引起注意的地方是,在将来的任意时刻,当用户需要查看某些最新的数据的时候, 这个按需e t l 应该能提供相应的信息。 下面列出这类e t l 面临的主要问题: 8 第一章绪论 计算问题:除了标准e t l 计算,尤其是因为要处理w e b 数据,可能还需要进一 步定制算子。 复杂度:这个过程的构建是一项艰巨的工作,特别是因为外部数据结构上的复 杂性和未知性需要逆向工程。因此很明显,算法描述面临的一个挑战就是对工作量、时 间和资源进行优化配置。 维护:一旦构建完成,负责这项任务的软件的生命周期相对较短,因为w e b 数 据的结构在频繁的改变,应有意识地防止w e b 服务器的超载。由此带来的研究问题就是 要提高软件对外部数据结构的快速适用性。 效率:最后,由于这个e t l 过程是由用户开始的,因此迫切需要提高算法的效 率以尽早来实现这个任务。 1 2 4 数据仓库新的应用和新型数据仓库 ( 1 ) 移动业务分析( m o b i l eo l a p ) :决策者能在任何可以在移动入网的设备( 如掌上 电脑、手机) 上进行操作,从而方便决策者随时随地获取决策所需要的信息。 ( 2 ) 企业绩效管理( b p m ,b u s i n e s sp e r f o r m a n c em a n a g e m e n t ) :旨在促进商业策略的沟 通和执行。它是对o l a p 的一种补充,与数据仓库在很多方面都有所不同。特别是,作 为一种底层决策,必须强调快速响应。传统的数据仓库体系结构在b p m 上的缺点有: 不能及时的从业务数据库、数据仓库、企业应用综合系统和实时数据流中集成数据,从 而难以为决策提供有用的信息;传统数据仓库没有用来贮存短期数据和快速存取能为 b m p 用户提供支持的储存库。 ( 3 ) 实时数据仓库( r e a l t i m ed a t aw a r e h o u s e ) 实时数据仓库是两种事物的组合:实 时行为和数据仓库。实时行为是一种即时发生的行为。行为可以是任何事情,如超市中 小商品的销售行为。一旦行为完成,就有关于它的数据。数据仓库捕获有关商业行为的 数据,而实时数据仓库在商业行为发生时就捕获数据。当商业行为完成时,相关数据就 已经进入到数据仓库并且能立即使用。换句话说,实时数据仓库是这样一个系统,只要 行为发生、数据变得可用时,就能从中获得信息。 ( 4 ) 主动数据仓库( a c t i v ed a t aw a r e h o u s e ) :常规的数据仓库应用中,分析和决策较 多地依赖于用户参与。为了在自动决策以及实时性等方面对常规的数据仓库进行改进, 文献【4 2 】设计了一种主动数据仓库( a c t i v ed a t aw a r e h o u s e ) 体系结构。它在常规的数据仓 库的基础上引进了分析规则。通过对主动规则的改进而设计的分析规则能满足主动数据 仓库的特性。相应地还对数据仓库的元数据进行了扩展。 9 人连交通人学_ 丁学硕士学位论文 ( 5 ) w e b 数据仓库:数据仓库是存储供查询和决策分析用的集成化信息仓库,它的 数据来源于数据库或其他信息源( 如日志文件) 。基于w e b 的数据仓库主要是指它的数据 来源于w w w 站点。目前,通过w e b 方式可以充分地共享应用和信息,利用w e b 技术 进行原有业务增值己成为信息技术的趋势。因此在进行数据仓库系统设计时,人们一直 在追求最大限度地取得决策所需的各种信息,共享各种应用,因此组建基于w e b 方式 的数据仓库的方案得以提出。 w e b 中有大量丰富的数据:文本、图片、声音、图像等,这些数据大多存在于h t m l 文件中,没有严格的结构及类型定义,被称为半结构化的( s e m i s t r u c t u r e d ) 数据。在 w e b 中主要存在两种结构。一种是超文本结构,依据此结构,逻辑上相关联的结构信息 在物理上被链接,利用标签能够将文件以及图像的区域链接到本地计算机或i n t e m e t 其 它地方的文档中去。另一种是由h t m l 文本特点决定的文本组织结构,通过h t m l 语 言,用不同的方法将数据组织在文本中。例如,给定一个h t m l 页,通过h t m l 标签 容易识别该页的标题或一些复杂的结构,如表格、项目列表等。w e b 数据仓库用户感兴 趣的往往是这些半结构化的数据。 1 3 本文研究背景及意义 数据仓库是d s s 的基础,它为分析与决策提供数据支持。数据仓库的意义是要建 立一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出 来,使分散的、不一致的操作数据转换成集成的、统一的信息。企业内不同单位的成员 都可以在此单一的环境之下,通过运用其中的数据与信息发现全新的视野、新的问题、 新的分析与想法,进而发展出制度化的决策系统,并获取更多的经营效益。但是,由于 数据仓库系统包含了众多的关键技术,因此开发过程中存在很多困难,比较显著的问题 有:软件复杂度高、软件复用率低、系统结构灵活性差、可扩展性差、不能快速适应变 化、系统之间的有机集成难以实现等难题。为了解决上述难题,本文提出在领域工程理 论和软件构件技术的基础上来构建面向领域的数据仓库系统。 领域工程将关于领域的知识转化为领域中应用系统共同的规约、设计和构架,使得 可以被复用的信息的范围,扩大到了抽象级别较高的分析和设计阶段。由于通过领域工 程产生的可复用构件来源于领域中现有的系统,体现了领域中系统的本质需求,因此这 些构件具有较高的可复用性。具体方法是先构造出面向制造领域的数据仓库模型,接 着依据领域模型产生出领域中应用共同具有的体系结构( 即特定领域的软件构架,缩写 为d s s a ) 或生成过程,然后以此为基础识别、开发和组织可复用构件。这样,当丌发同 一制造领域中的不同的数据仓库系统时,可以根据领域模型和特定应用系统的需求分析 l o 第一章绪论 来进行特征选取;根据领域的软件体系结构形成应用系统的设计;并以此为基础从领域 构件库中选择可复用构件进行组装,从而形成新系统。 由此可见,领域工程有助于产生具有较高可复用性的构件。将上述面向领域的数据 仓库构建方法与技术应用于某钢铁公司的数据仓库系统的建设中,实践表明:建立面向 特定领域的数据仓库,为数据仓库系统的设计和开发提供一种新的思路,有利于提高软 件复用度,降低软件复杂度,提高软件生产率,并能降低现代企业数据仓库系统软件开 发与维护的成本h 引。 1 4 本文拟解决的问题 ( 1 ) 基于领域工程理论,提出了一种面向制造领域数据仓库系统的软件开发过程。 开发过程分成两个步骤:数据仓库领域工程的开发和数据仓库应用工程的开发。这两种 开发过程是一种协作的关系。 ( 2 ) 本文运用领域分析方法建立起面向制造领域数据仓库系统的领域模型。采用面 向特征的需求分析方法进行需求建模。面向特征的领域模型中的“特征”是与构件相对 应的实体。 ( 3 ) 借鉴当前的软件构件技术,针对数据仓库系统,抽象出一种基于业务构件和服 务构件的“横切竖割、构件编织 的软件体系结构,并讨论了该体系结构的构件模型。 ( 4 ) 将上述面向领域的数据仓库构建方法与技术应用于某钢铁公司的数据仓库系统 的建设中。 1 5 本文的组织 第一章是绪论,主要介绍数据仓库的起因,数据仓库的研究现状及面临的主要问题, 本文的研究背景及意义,本文要解决的问题和本文的组织结构。 第二章

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论