(计算机应用技术专业论文)基于web技术的数据仓库研究与设计.pdf_第1页
(计算机应用技术专业论文)基于web技术的数据仓库研究与设计.pdf_第2页
(计算机应用技术专业论文)基于web技术的数据仓库研究与设计.pdf_第3页
(计算机应用技术专业论文)基于web技术的数据仓库研究与设计.pdf_第4页
(计算机应用技术专业论文)基于web技术的数据仓库研究与设计.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于web技术的数据仓库研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 随着数据仓库和w e b 技术的迅猛发展,人们对数据仓库和w e b 技术的研究越 来越广泛,数据仓库系统设计得是否合理,将直接关系到整个数据仓库系统的成 败。在分析w e b 技术与数据仓库体系结构的基础上,将x m l 、w e b 挖掘技术引入 到数据仓库中,构建了一种基于w e b 方式的分布式数据仓库体系结构。 基于w e b 的分布式数据仓库系统的创建是一项既具有挑战性又有益的工作, 与传统的数据仓库相比,具有界面友好、使用方便的优点,并且还可将企业分布在 各地甚至全球的子公司、客户及企业外的数据库资源合理的引入到数据仓库中, 为企业提供更有力的决策支持,大大提高企业的经济效益。 本文在对数据仓库和w e b 技术相结合研究的基础上,重点从应用角度设计和 开发基于w e b 方式的数据仓库中的关键问题。在此基础上提出了一种基于w e b 方式的分布式数据仓库体系结构。本文构建的基于w e b 的分布式数据仓库体系 结构可大大减少数据传输过程中网络流量,合理实现异构数据源的数据集成,为 数据仓库的开发起到一定的抛砖引玉的作用,文中详细分析了w e b 数据的特点, 以及x m l 、w e b 挖掘技术,并且将数学方法应用于数据挖掘,建立了一种模型,改 进了一种数据挖掘算法,提出了一种混合策略,并实现了部分算法。 本文是按以下顺序组织的:第2 部分简要介绍了数据仓库技术。第3 部分 说明了基于w e b 方式的数据仓库系统的组成并讨论了该数据仓库特点和实现方 式。本文的第4 部分与第5 部分讨论了数据仓库系统的设计和系统实现过程中 的关键技术,这是本文的重点。最后一章是对本文的总结并提出了对基于w e b 方式的数据仓库需要进一步讨论的问题。 关键词:数据仓库,数据挖掘,分布式,w e b 挖掘 武汉理_ 亡大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fd a t aw a r e h o u s ea n dw e b t e c h n o l o g y , r e s e a r c hi ni tg e t s g r a d u a l l ye x t e n s i v e 砧ef e a s i b i l i 押o ft h es y s t e m sd e s i g nb e c o m e sa l lt h em o r e e s s e n t i a lf o ri tt of u n c t i o np r o p e r l y b a s e do nt h ea n a l y s i so f w e b t e c h n o l o g ya n d d a t a w a r e h o u s es y s t e m ,x m l w e b m i n i n gt e c h n o l o g yi si n t r o d u c e di n t od a t aw a r e h o u s e , t h u sf o r m i n gad i s t r i b u t i o n a ld a t a b a s es y s t e m c h a l l e n g i n ga n db e n e f i c i a lw o r k ,t h ee s t a b l i s h m e n to ft h ed i s t r i b u t i o n a ld a t a w a r e h o u s e s y s t e mb a s e d o nw e bf e a t u r e s f r i e n d l y i n t e r f a c ea n dc o n v e n i e n c e c o m p a r e dw i 血t h et r a d i t i o n a ld a t a b a s e i ta l s od r a w st h ed a t a b a s er e s o u r c e sf r o m a f f i l i a t e dc o m p a n i e s ,c u s t o m e r si n t od a t aw a r e h o u s e ,p r o v i d i n gf o r c e f u ls t r a t e g i e sa n d g r e a t l yp r o m o t i n g t h ee c o n o m i c p r o f i t so f e n t e r p r i s e s w i t ht h e i n c o r p o r a t i o n o fd a t aw a r e h o u s ea n dw e bt e c h n o l o g y , t h ea r t i c l e e m p h a s i z e so nt h ek e yi s s u e si nt h ed e s i g na n dd e v e l o p m e n to fd a t aw a r e h o u s eo n w e bs y s t e mf r o mt h ea n g l eo fa p p l i c a t i o n t h ef o r m a t i o no fd i s t r i b u t i o n a ld a t a w a r e h o u s es y s t e mo nw e be l a b o r a t e di nt h ea r t i c l ec a n d r a m a t i c a l l yr e d u c et h ef l o w o fn e t w o r ki nd a t at r a n s m i s s i o n ,r a t i o n a l l ya c h i e v et h ed a t at r a n s m i s s i o no f i s o m e r s d a t as o u r c e t h ea r t i c l ea i m st oo f f e raf e w c o m m o n p l a c er e m a r k s o nd a t a d e v e l o p m e n tb yw a yo fi n 廿o d u c f i o ns ot h a to t h e r sm a yc o m eu pw i t hv a l u a b l e o p i n i o n s i ta n a l y z e st h ef e a t u r e so fw e bd a t a & ) ( m l w e bm i n i n gt e c h n o l o g yi n d e t a i la n da p p l i e sm a t h e m a t i c a la p p r o a c hi nd a t am i n i n gt h u s s t r u c t u r i n gam o d e l , i m p r o v i n ga na l g o r i t h m ,a n dp u r i n gf o r w a r da ni n t e g r a t e ds t r a t e g y i ta l s oc o m p l e t e s s o m eo f t h ea l g o r i t h m 、 t h ea r t i c l e ss t r u c t u r ei sa sf o l l o w s :p a r tt w o b r i e f l yi n t r o d u c e sd a t aw a r e h o u s e t e c h n o l o g y p a r tt h i n ee x p l a i n st h es t r u c t u r eo f d a t aw a r e h o u s e s y s t e mb a s e do nw e b s y s t e ma n dd i s c u s s e st h ec h a r a c t e r i s t i c sa n dw a yo fm a l i z i n g p a r tf o u r & f i v e c e n t e r so nt h e d e s i g n o fd a t aw a r e h o u s e s y s t e ma n dk e yt e c h n o l o 西e si n t h e a c h i e v e m e n to fs u c has y s t e m ,w h i c hi st h ei m p o r t a n tp o i n to ft h ea r t i c l e t h el a s t p a r td r a w sac o n c l u s i o na n ds u g g e s t sf u r t h e rd i s c u s s i o no nt h ed a t aw a r e h o u s eo n w e b k e y w o r d s :d a t aw a r e h o u s e ,d a t a m i n i n g ,d i s 订i b u t i o n ,w e bm i n i n g i i 武汉理工人学硕士学位论文 第1 章绪论 随着i n t e m e t 的迅猛发展,以及数据库技术与数据库管理系统的广泛应用, 人们需要处理的数据日益增多,更重要的是在激增的数据背后隐藏着许多可以 利用的重要信息,人们希望能够对其进行更高层次的分析与利用,因此如何更 好地管理和利用这些数据信息已经成为当前人们迫切需要并亟待解决的问题。 而目前的数据库系统虽然可以实现数据的录入、查询、统计等功能,但由于它 是一种单一的数据组织方式的数据库系统,不能解决异构类型的数据处理的多 样化要求;并且,这种单一系统无法发现数据中隐藏的关系和规则,更不能根 据现有的数据预测未来的发展趋势。因此,导致了“数据爆炸但知识贫乏”的 现象。对于一个企业来说,构建一个用于商业活动的数据仓库决策支持系统, 可以极大地改善企业的经营效率,从而扩大市场,提高企业在市场竞争中的潜力。 1 1 研究现状 随着信息化进程在我国的不断推进,“数据库”对大多数企业来说已经是个 耳熟能详的词了,而且数据库技术的信息系统已经不断融入到了企业的各个部 门。但是在企业信息化的过程中,一方面,由于企业各个子系统的开发厂商、 开发平台的不同,造成各个子系统间相对独立,形成一个个信息孤岛;另一方 面,企业拥有的数据随着时间的积累也在不断膨胀。在这个”数据就意味着财富” 的信息时代,如何合理、高效地利用这些数据进行分析与决策,使其转化为真 正的财富,是现代企业提高竞争力的一个有效手段。 数据仓库概念是1 9 9 0 年i n l t l o n 首次根据传统的i b m 结合h d b ( h i s t o r i c a l d a t ab a s e ) 技术提出的,以( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书为标志1 5 j 。 作为一个新兴领域,数据仓库发展很快,目前许多大学、公司,特别是数 据库厂家和决策信息服务公司根据自己的需要已经开发出了许多的数据仓库解 决方案。数据仓库技术的应用也已十分广泛,尤其在金融、保险、通讯、销售 等领域和政府部门大都采用数据仓库加上联机分析处理( o l a p ) 做市场分析和 决策分析。许多国内外大型企业和公司追于市场竞争的巨大压力纷纷采用数据 仓库技术进行数据采掘和信息分析,取得了很好的经济效益和社会效益。m e t a g r o u p 的研究报告表明,在其调查的2 0 0 0 家企业中,9 0 以上的企业计划在今 后两三年内采用数据仓库和数据采掘技术,大约8 0 已投资于数据仓库的公司 武汉理工大学硕士学位论文 都认为获得了巨大成功。但是数据仓库技术目前在应用上还不是很普及,面对 那些海量的历史数据我们如何分析、利用,从中抽取出对我们有价值的数据, 为我们的决策提供帮助。另一方面把数据仓库技术与w e b 技术相结合,将其从 单方式推向i n t e r n e t h n t r a n e t 方式,但是我们没有可以参考的系统与成熟的理 论。这些都表明其在理论和实践方面尚有许多问题需要更深入的研究与解决。 1 2 研究内容 数据仓库就是从不同的源数据中抽取数据,将其整理转换成新的存储格式, 为决策目的将数据聚合在种特殊的格式中,这种支持管理决策过程的、面向主 题的、集成的、稳定的、不同时的数据聚合称为数据仓库( d a t aw a r e h o u s e ) 。 数据仓库中数据的组织方式有虚拟存储、基于关系表的存储和多维数据库 存储3 种存储方式。整个仓库系统可分为数据源、数据存储与管理、分析处理 3 个功能部分。由于数据仓库是集成信息的存储中心,由数据存储管理器收集整 理源信息的数据成为仓库系统使用的数据格式和数据模型,并自动监测数据源中 数据的变化,反映到存储中心,对数据仓库进行更新维护【l j 。 w e b 技术的飞速发展对数据仓库产生了巨大的影响。数据仓库提供了自由 使用存储信息的途径,而利用w e b 技术可以方便、经济有效地获得有关信息。这 两者技术的充分结合,产生了使信息分布和处理更加经济、更加高效的w e b 方式 的数据仓库系统。基于w e b 方式的数据仓库技术改变了用户对数据仓库的使用 模式。数据仓库是存储供查询和决策分析用的集成化信息仓库,它的数据来源 于数据库或其他信息源( 如日志文件) 。基于w e b 方式的数据仓库主要是指它的数 据来源于w w w 站点。目前,通过w e b 方式可以充分地共享应用和信息,利 用w e b 技术进行原有业务增值己成为信息技术的趋势。因此在进行数据仓库系 统设计时,人们一直在追求最大限度地取得决策所需的各种信息,共享各种应 用,因此组建基于w e b 方式的数据仓库的方案得以提出。 鉴于目前数据仓库、数据挖掘和w e b 技术在我国的发展情况,并经过大量 资料的查阅和调研,我选择了“基于w e b 技术的数据仓库研究与设计”作为研 究课题。 所设计的软件系统包含了构建一个数据仓库的几乎所有的系统模块,主要 有以下几个部分: 建立相应的软硬件技术支撑环境 选择实现数据仓库的软硬件资源,包括开发平台、d b m s 、网络通信、开发工 具、终端访问工具及建立服务水平目标( 关于可用性、装载、维护及查询性能) 等。 2 武汉理工大学硕士学位论文 研究和分析w e b 数据的特点并进行数据建模 根据决策需求确定主题,进行数据提取、转换、加载( e x t r a c t i o n t r a n s f o r m a t i o n l o a d ) 。选择数据源,对数据仓库的数据模型进行逻辑设计。这个模块主要完成 从源系统的数据到数据仓库中的目标数据的转移。这里要解决跨平台的异构数 据源之间的数据转换,数据的集成和数据仓库的建立。 构建基于w e b 方式的数据仓库系统,以及查询、维护和管理功能 ( 1 ) 数据存储与管理 数据的存储可选用多维数据库,也可以选用关系型数据库或其它特殊的存储方 式,要保证数据的完整性、安全性、一致性,同时还要具有复杂分析查询的高校性。 这里我们主要采用星型模式来实现数据的存储,并要正确划分数据粒度。 ( 2 ) 移动o l a p 与数据挖掘( d a t am i n i n g ) 数据挖掘是一种决策支持过程,它从大量的数据中提取隐含的,潜在的以 前未知的有用信息或模式。数据挖掘通过分析大量的原始数据,做出归纳性的 推理,挖掘出潜在的模式并预测客户的行为,帮助企业的决策者调整市场策略, 减少风险,做出正确地投资决策。辅助决策子系统的后台为数据仓库,前台由 移动联机分析工具( o l a p ) 、数据挖掘工具、报表生成工具等构成,完成统计分 析预测功能,实现对决策的支持。 ( 3 ) 元数据的管理 在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人 员非常方便地找到他们所关心的数据:元数据是描述数据仓库内数据的结构和 建立方法的数据,可将其按用途的不同分为两类:技术元数据( t e c h n i c a l m e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) 。 元数据几乎可以称为是数据仓库系统的“血液”,主要有以下用途: ( 1 ) 描述哪些数据存放在数据仓库中; ( 2 ) 定义数据抽取和转换,涉及到对操作型环境和数据仓库环境之间的映 射的管理; ( 3 ) 描述数据同步需求; ( 4 ) 记录数据仓库中的数据结构发生的变化: ( 5 ) 衡量数据质量; ( 6 ) 数据仓库通过元数据来实现对外部数据的注册、访问和管理: ( 7 ) 与元数据有关的另一种数据类型是“通知”数据。 数据仓库的直接价值体现在可以满足用户全面了解企业内部和夕 部环境的 短期需要,同时减少现有系统的维护负担;长期价值则体现在通过业务数据使 武汉理工大学硕士学位论文 得企业能够从历史系统中转移到适应企业高速变化的半结构化环境之中。构建 一个基于电子商务的数据仓库决策支持系统,可以极大地提高电子商务企业的 商业智能,帮助企业占有更大的市场,提高市场竞争力。 本文讨论了w e b 环境下的数据仓库系统设计和实现,包括需求分析、逻辑 设计和物理设计和物理实现等,特别讨论了实现中应注意的若干关键问题。 武汉理工大学硕士学位论文 第2 章数据仓库技术概述 数据仓库是近几年来国内外才发展起来的一项新型数据库应用技术【j 。传 统的数据库技术是以单一的数据库资源数据库为中心,进行从事务处理、 批处理至决策分析等各种类型的数据处理工作。然而,不同类型的数据处理有 着其不同的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这 种差异,满足不了数据处理多样化的要求。而且随着计算机技术的飞速发展, 人们对计算机应用的要求也变得越来越多样化,已经不再满足于计算机只能处 理具体业务,他们更迫切需要的是从大量的业务数据中探索业务活动的规律性、 预测市场的发展动向和趋势,从而更好地把握机遇,成为市场竞争中的优胜者。 这种要求不是传统的数据库技术所能实现的,这是因为传统的数据库技术以单 一的数据库资源数据库为中心,虽能进行从事务处理、批处理至决策分析 等各种类型的数据处理工作,但它的重点在于处理日常事务,即所谓的事务处 理,而信息处理一般应包括以下三个内容:事务处理批处理分析处理。 为了满足人们对后两者( 特别是分析处理) 的需求,于是出现了一种复杂的服 务于信息或分析处理的数据库应用系统数据仓库。应该说数据仓库是数据 库发展到一定阶段的产物,二者有一定的联系,但也存在着很大的差异。数据 仓库的产生标志着数据库应用正在由事务处理阶段上升到信息分析处理、辅助 管理决策阶段。数据仓库的产生经过不同阶段的发展,各种相关的技术不断成 熟,并在市场中逐步显示出它强大的优势。 2 1 数据仓库的概念及特点【4 7 】 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家 w h i n m o n 在其著作( b u i l d i n g t h ed a t aw a r e h o u s e ) ) 一书中给予如下描述:数据 仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e ) 、 相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于 支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数 据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据 库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了 重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统 武汉理工大学硕士学位论文 之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。 2 、集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的 基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以 保证数据仓库内的信息是关于整个企业的一致的全局信息。 3 、相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据 操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期 保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通 常只需要定期的加载、刷新。 4 、反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业 从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这 些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 2 2 数据仓库的体系结构5 l 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者, 供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把 信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的 根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。 整个数据仓库系统是一个包含四个层次的体系结构,具体由图2 1 表示。 ; : 日 帽关披培 日 业务戴培 e j 遘叠戴攮 日 外部敦摇 披据漾 r 罟相曰e j 日l l 罗 披触市 o l a p 量务: 曾靖工 口囡 口圆 匝圜 匦囹 图2 1 数据仓库系统体系结构 1 、数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类 文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等: 2 、数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键 武汉理工大学硕士学位论文 是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库, 同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据 仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据, 进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围 可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 3 、o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织, 以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中; m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于 r d b m s 之中,聚合数据存放于多维数据库中。 4 、前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖 掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具 主要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 3元数据的设计与生成州 5 】【6 】 4 5 】 在事务处理系统中的数据,主要用于记录和查询业务情况。随着数据仓库 ( d w ) 技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中 的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数 据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。 要做出一个好的业务决策,就必须掌握有效的数据。事实上,在当今电子 商务环境中,数据已变成各企业所特有的少数资产之一,它可作为竞争中与其 它公司相区别的主要因素,虽然使用数据的工具、流程和服务每个企业都有, 但数据却是独一无二的。实践证明,利用数据的一般流程为: 首先获取高质量的原始数据; 其次通过合并和集成将数据变成有用的信息: 最后对数据进行分析和可视化处理,帮助制定高质量决策。 要理解数据就必须管理数据。在数据仓库和数据挖掘中,这一点尤为重要, 因为他们的主要目的是为w e b 交互提供知识,为信息利用和洞察提供坚实的基 础。解决这一问题的关键是对元数据进行科学有效的管理。 2 3 1 元数据的概念 按照传统的定义,元数据( m e t a d a t a ) 是关于数据的数据。在数据仓库系统 中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他 武汉理工大学硕十学位论文 们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可 将其按用途的不同分为两类:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据 ( b u s i n e s sm e t a d a t a ) 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理 数据仓库使用的数据。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和 实际系统之问的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据 仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数 据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析 方法以及公式和报表的信息。 2 3 2 元数据的作用 与其说数据仓库是软件开发项目,还不如说是系统集成项目,因为它的主 要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载, o l a p 分析和数据挖掘等。如图2 2 所示,它的典型结构由操作环境层、数据仓 库层和业务层等组成。 图2 2 元数据在数据仓库系统的作用 其中,第一层( 操作环境层) 是指整个企业内有关业务的o l t p 系统和一些 外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数 据仓库层:第三层是为了完成对业务数据的分析而由各种工具组成的业务层。 图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几 个方面: ( 1 ) 元数据是进行数据集成所必需的数据 武汉理工大学硕士学位论文 一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中, 这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库 中:另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费 力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市, 然后在各个数据集市的基础上再建设数据仓库。 ( 2 ) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据 最终用户不可能像数据仓库系统管理员或开发人员那样熟悉数据库技术, 因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含义。 元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要 的方式“翻译”出来,从而帮助最终用户理解和使用数据。 ( 3 ) 元数据是保证数据质量的关键 数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数 据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使 用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个 数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然 会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国终有 学者还在元数据模型的基础上引入质量维,从更高的角度上来解决这一问题。 ( 4 ) 元数据可以支持需求变化 由以上我们了解到元数据几乎可以被称为是数据仓库系统的“灵魂”,正是 由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库 解决方案都提到了关于对元数据的管理。但遗憾的是对于元数据的管理,各解 决方案都没有明确提出一个完整的管理模式,它们提供的仅仅是对特定的局部 元数据的管理。 2 3 3 元数据管理系统的设计原则 数据仓库环境下的元数据管理系统的建设是十分困难的。但是在实际项目 的实施过程中,这个环节又是非常重要的。目前o m g 组织的c w m 标准已成为 数据仓库元数据领域事实上的标准,在元数据管理系统的建立过程中应尽量参 考这个标准,这样使系统的可扩展性增强。我们在建立元数据管理系统的时候, 绝对不能盲目追求大而全,要坚持目标驱动的原则,在实施的时候要采取增量 式、渐进式的建设原则。具体的建设步骤如下: 1 如果是在建设数据仓库系统的初期,那么首先要确定系统的边界范围, 系统范围确定的原则是首先保障重点,不求大,只求精。 9 武汉理工大学硕士学位论文 2 系统边界确定以后,把现有系统的元数据整理出来,加入语义层的对应。 然后存到一个数据库中,这个数据库可以采用专用的元数据知识库,也可以采 用一般的关系型数据库。 3 确定元数据管理的范围。比如,我们只想通过元数据来管理数据仓库中 数据的转换过程,以及有关数据的抽取规则,以使数据仓库开发和使用人员明 白仓库中数据的整个历史过程。 4 确定元数据管理的工具,采用一定的工具可以完成相应的工作。当前相 关工具有微软的r e p o s i t o r y ,它带有相应的编程接口,可以借助于它来完成元模 型出入库的功能;与之相似的还有p l a t i n u m 的o e e 、s y b a s e 的w c c 。 总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原 则,建立符合自身目标的元数据管理系统。 2 4 数据仓库数据模型 6 】 2 4 1 数据模型 数据模型是数据仓库的核心问题之一。在数据仓库中,可以有两种数据建 模方式:关系型的或多维型的。关系模型能够满足数据仓库给定的所有主要需 求,最适合用于反映企业的业务规则。关系模型可以被构造成面向主题的,并 且能提供支持未来集合的结构。同时,还可以将时间元素添加到实体键中,从 而轻松地处理历史信息。而且,关系型结构能够中立地为所有类型的数据集市 提供数据源,而不仅仅是支持o l t p 数据集市。 另一方面,多维模型是利用预先定义的关系来构造的。很多研究表明,传 统的数据模型( 如实体模型) 不能有效的表示数据仓库中的数据结构和语义, 也难以支持o l a p 应用。因为o l a p 具有多维特征,从此多维数据模型和多维 建模技术越来越受到研究人员的关注。在多维模型中,一个表和关系的模型是 根据关系数据库中的优化策略性能的目的来建立的,与正在被建模的商业过程 的成果的一种度量或度量集是相对应的。 多维模型有两种基本的结构,星型模型和雪花模型。星型模型是多维模型中的种 典型结构,之所以称为星型模型,是因为它组织实体的方式是把一个事实表放在中间, 周围有各个维表与这个事实表相连。星型结构的核心是事实表,它是查询的焦点,那里 存储了真正的数据( 事实) 。事实是数量属性,能被统计、求和、求平均值、最大值和 最小值,能根据各种统计操作来聚类。维度属性提供了事实表中的每一行的描述信息, 这些属性用来提供事实表和相关的维表之间的联系。时间是数据仓库模型的关键组成部 0 武汉理工大学硕士学位论文 分。o l t p 系统处理的是当前数据,d s s 环境允许我们分析数据及其随时间的变化。 雪花模型则是在维表上增加层次结构,在这种模型中能够定义多个父类维 表来描述某些特殊的维表。雪花模型是星型模型的变种,其中星型维表是规范 化的,因而把数据进一步分解到附加的表中。 2 5 联机分析处t - 里( o l a p l 当今的数据处理大致可以分成两大类:联机事务处理o l t p 和联机分析处理 o l a p 。o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理, 例如银行交易。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决 策支持,并且提供直观易懂的查询结果。下表列出了o l t p 与o l a p 之间的比较。 表2 1 0 l t p 和o l a p 的区别 o l t p 数据o l a p 数据 原始数据导出数据 细节性数据综合性和提炼性数据 当前值数据历史数据 可更新不可更新,但周期性刷新 一次处理的数据量小一次处理的数据量大 面向应用,事务驱动面向分析,分析驱动 面向操作人员,支持日常操作面向决策人员,支持管理需要 2 5 1 o l a p ( 联机分析处理) 技术概述 1 定义 o l a p ( 联机分析处理1 :是使分析人员、管理人员或执行人员能够从多种角 度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维 特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一 类软件技术。 o l a p 的目标:是满足决策支持或多维环境特定的查询和报表需求,它的技 术核心是“维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合。 2 o l a p 相关基本概念: ( 1 ) 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合 构成一个维( 时间维、地理维等) 。 ( 2 ) 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细节程 度不同的各个描述方面( 时间维:日期、月份、季度、年) 。 ( 3 ) 维的成员:维的一个取值。是数据项在某维度中位置的描述。r 某年某 武汉理工大学硕士学位论文 月某日”是在时间维度上位置的描述) ( 4 ) 多维数组:维和变量的组合表示。一个多维数组可以表示为:( 维1 ,维 2 ,维n ,变量) 。( 时间,地区,产品,销售额) ( 5 ) 数据单元( 单元格) :多维数组的取值。 3 o l a p 多维数据结构 ( 1 ) 超立方结构( h y p e r c u b e ) :超立方结构指用三维或更多的维数来描述一个 对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分 都有相同的维属性。( 收缩超立方结构。这种结构的数据密度更大,数据的维数更 少,并可加入额外的分析维) 。 ( 2 ) 多立方结构( m u l t ic u b e ) :日p 将超立方结构变为子立方结构。面向某特定 应用对维进行分割,它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 2 5 2o l a p 多维数据分析 ( 1 ) 切片和切块( s l i c e a n d d i c e ) :在多维数据结构中,按二维进行切片,按三维 进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行 切块和切片,可得到各城市、各产品的销售情况。 ( 2 ) 钻取( d m l ) :钻取包含向下钻取m 1 一d o w n ) 和向上钻取( d r i l l u p ) & 卷 ( r o l l - u p ) 操作,钻取的深度与维所划分的层次相对应。 ( 3 ) 旋转( r o t a t e ) 转轴( p i v o t ) :通过旋转可以得到不同视角的数据。 o l t p 是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。o l a p 的目 标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心 是维这个概念。 维是人们观察客观世界的角度,是一种高层次的类型划分。维一般包含着层 次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义 为多个维( d i m e n s i o n ) ,使用户能对不同维上的数据进行比较。因此o l a p 也可以 说是多维数据分析工具的集合。 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、 m o l a p 、h o l a p 。 m o l a p m o l a p 利用一个专有的多维数据库来存储o l a p 分析所需的数据,数据以 多维方式存储,并以多维视图方式显示。 r 0 1 a p 武汉理工大学硕士学位论文 r o l a p 在功能上类似于m o l a p ,但是它的底层数据库是关系型数据库, 而不是多维数据库。用户通过客户端工具提交多维分析请求给o l a p 服务器, 后者动态将这些请求转换成s q l 语句执行,分析的结果经多维处理转化为多维 视图返回给用户。 h o l a p 迄今为止,对h o l a p 还没有个正式的定义。很明显,h o l a p 结构不应 该是m o l a p 与r o l a p 结构的简单组合,而是这两种结构技术优点的有机结合, 能满足用户各种复杂的分析请求。实现h o l a p 的方法一般有以下几种: 1 同时提供m d d b 和i b m s ,让开发人员选择。 2 在运行时把对关系型数据库的查询结果存入多维数据库。在这种方法中 h o l a p 系统按一定的先后顺序使用m d d b 和r d b m s 。h o l a p 系统利用开发 人员定义一个静态结构的多维模型来保存运行时检索出的数据。 3 利用一个多维数据库存储高级别的综合数据,同时用r d b m s 存储细节 数据。这种方法是如今被认为实现h o l a p 结构较理想的方法,它结合了m o l a p 和r o l a p 的优点。 根据以上分析,我们可以得出r o l a p 与m o l a p 性能对比的相关对照表。 表2 2r o l a p 与m o l a p 的性能对比 r 阻胛珊 没有丈小限制 可以沿用现有的关系数据库的技术性能好、响应速度快 可以通过s o i l 实现详细数据与概要专为o l a p 所设计 优势数据的存储支持高性能的决策支持计算 现有关系型数据库已经对c l a p 做了复杂的跨堆计算 很多优化包括并行存储、并行查询、多用户的读写操作n 行缓的计算 并行数据管理、基于成本的查询忧化、 位图索引、s o l 的0 l a p 扩展 ( c u b 岛r o l l 坤) 等大大提高r o a l p 的速度 一般比m d 响应遂度慢增加系统复杂度,增加系统培训与维护 不支持有关预计算的读写操作费用 s 。l 无法完成部分计算受操作系统平台中文件大小的限制,难 缺点无法完成多行的计算 以达到_ i b 缓( 只能1 0 2 0 6 ) 无法完成维之间的计算需要进行预计算,可能导致数据爆炸 无法支持雄的动态变化 缺乏数据棋型和数据访问的标准 2 6 数据集市 数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段:而 数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以 武汉理工大学硕士学位论文 及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服 务,因此也称之为部门级数据仓库。 数据集市有两种,即独立的数据集市( i n d e p e n d e n td a t am a r t ) 和从属的数 据集市( d e p e n d e n td a t am a r t ) 。所谓从属,是指它的数据直接来自于中央数据 仓库。显然,从属的数据集市的这种结构仍能保持数据的一致性。一般为那些 访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地 提高查询的反应速度。独立数据集市,它的数据直接来源于各生产系统。许多 企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是这种 结构的独立数据集市,用来解决个别部门比较迫切的决策问题。下表显示了数 据仓库和数据集市的差别。 表2 3 数据仓库和数据集市的区别 数据仓库数据集市 数据源从多源中抽取数据 应用焦点一般应用 数据类型详细的、非概括的数据 平台大型的、高度可扩展的、企业级的平台 最终用户数据集市是数据仓库的最终用户 从数据仓库中抽取数据 指定应用 高度概括的数据 较小的部门级平台 部门工作者是最终用户 2 7 数据挖掘 数据挖掘并不是一项全新的技术,它的出现和发展有其自身的必然性。无 论是商业企业、科研机构、工程或者政府部门,在过去的若干年里都积累了大 量的、不同存储形式的数据资料,这些数据十分庞大繁杂,要从中发现有价值的 信息和模式,以达到预测发展和决策支持,将是非常艰巨和复杂的过程。特别是 随着数据仓库的出现,原有的数据库工具已无法满足用户的需求,因此也就导致 了数据的极大丰富而有用的知识或信息却非常贫乏这种矛盾现象的产生。 2 7 1 数据挖掘的定义及特点 数据挖掘是从大规模数据中发现有价值的知识和信息的过程,这些信息和 数据存储在数据库、数据仓库或其它的信息存储介质中。数据挖掘是在大量的 数据的集合中发掘信息和知识的决策支持过程发掘的知识可以表示为概念 ( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式。 通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关 集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的 1 4 武汉理工大学硕士学位论文 资源为知识归纳服务。数据挖掘的特点: 1 数据挖掘过程处理的数据规模十分巨大。 2 对数据的查询一般是用户提出的即时随机查询,往往不能形成精确的查 询要求,需要靠数据挖掘技术寻找其可能有价值的东西。 3 在一些应用中,由于数据变化迅速导致“数据老化”,因此要求数据挖 掘能快速做出反应以提供决策支持。数据挖掘既要发现潜在的规则,还要管理 和维护规则。而规则是动态的,当前的规则只能反映当前状态的数据库特征, 随着数据的不断更新,规则也需要随之更新。 4 数据挖掘中规则的发现主要基于大样本的统计规律,发现的规则不必适 用于所有数据,当达到某一阈值时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论