(计算机应用技术专业论文)商业智能关键技术的研究与实现.pdf_第1页
(计算机应用技术专业论文)商业智能关键技术的研究与实现.pdf_第2页
(计算机应用技术专业论文)商业智能关键技术的研究与实现.pdf_第3页
(计算机应用技术专业论文)商业智能关键技术的研究与实现.pdf_第4页
(计算机应用技术专业论文)商业智能关键技术的研究与实现.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机应用技术专业论文)商业智能关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着商业竞争的不断加剧,商业智能系统在各种商业领域的运行中扮演着越 来越重要的角色。商业智能是基于数据仓库、e t l 、o l 心和数据挖掘等技术发 展起来的,其实质是从大量的历史数据中有效地提取信息,进而从这些信息中发 现潜在的、有用的知识,为企业指导业务行为并进行辅助决策,以便在激烈的商 业竞争中赢得主动和更多的商机。 本文首先简要介绍了商业智能相关技术基础,包括数据仓库,e t l ,o l 廿, 和数据挖掘技术的相关概念,特征。接着围绕如何提高商业智能系统的查询效率, 减少数据占用的存储空间,以及如何建立关联规则挖掘模型开展了商业智能相关 关键技术的研究。主要包括: 1 、遗传算法在物化视图中的应用研究。物化视图是提高数据仓库执行效率的 有力方法,但是物化视图的保存会占用存储空间。本文把查询需要扫描的物化视 图或事实表的空间大小作为查询时间开销,设计了基于遗传算法的物化视图优化 算法。目的是使系统在物化视图方面的存储开销和查询时间开销的和最小。 2 、多维数据存储结构的研究。多维数据的逻辑组织方式是o l a p 实现的关键 之一。本文对这个问题进行了深入的研究,总结了多维数据的两种组织方式 关系方式和数组方式,重点研究了在数组方式中多维数据的存储结构、多维数组 的建立方法、稀疏数组的压缩方法、数组分块的原则和分块数组访问方法,并在 以上的理论分析的基础上提出了一个数组方式存储的方法。 3 、基于a p r i or i 算法的关联规则挖掘模型研究。o l a p 技术是共享多维数据 的快速查询和分析技术。本文通过分析a 研o r i 算法的特点,提出一种有针对性的 o l a p 关联规则挖掘模型。该模型在数据立方体维度和度量值设计上充分考虑 a p r i o r i 算法的特点,使数据立方体物化更多算法所需要的中间数据;同时适当改 进算法使之适应所设计的数据立方体。研究表明该设计方法在灵活性和效率方面 较传统算法具有较好的表现。 本论文以商业智能应用为背景,以优化商业智能中的关键算法作为研究目标, 提出了一些创新的技术方法,最后对研究工作进行了总结并对进一步的研究工作 提出了展望。 关键词:商业智能,数据仓库,o l 廿,数据挖掘,关联规则 a b s t r a c t a sc o n u i l e r c i a lc o m p e t i t i o n si i l t e n s i 矽,b u s i n e s si 1 1 t e l l i g e n ts y s t 锄sa r cp l 舭n ga m o r ea 1 1 dm o r ec m c i a lr o l ei nm er u n n j n go fc o m m e r c i a la f i a i r s b u s i l l e s si n t e l l i g m c e h a sb e e nd e v e l o p e do n 也et e c h l l i q u eb a s i ss u c ha sd a t aw 犯h o u s e ,o n l 试ea n a l y z i n g a n dp r o e c s s i n gs y s t 锄趾dd a t am 砬n gt e c m q u e , e t c i t se s s e n t i a ld e l l l o n s 仃a t e st 1 1 e e 疏c t i v ei n f o m i i l i l l g 舶mh i s t o r i c a ld a t ai i l 黟e a t 锄o u n t 锄ds u b s e q u 铋t l y m e 仃a c l ( i n go fk 1 1 0 w i e d g e 舶ml l s e 觚i n f o ,f o rw i l l i n gi n i t i a t i v ea i l dm o r ec o m m e 彻a l o p p o m l i l i t yi 1 1 觚o l l sm a r k e t ,b u s i n e s si n t e l l i g e n c e i sn e e d e dt og u i d a n c eb u s m e s s b c h a v i o ra n dt oa s s i s td e c i s i o n m a b n g t 1 1 i sp a p e fi n 仃d d u c e st l l eb a s eo fb u s i n e s sm t e l l i g e i l c e st e c h n o l o g yb r i e n ya tf i r s t , a i l dt 1 1 e i ld o e st 1 1 er e s e a r c ho fc o r r e l a t i v ek e yt e c h n o l o g yo fb u 咖e s si n t e l l i g e l l c e a r o u n dh o wt o 蛳r o v em eq u e r y i n ge 伍c i 朗c yo fb is y s t e m ,r e d u c e 廿1 ep o s s e s s l v e m e m 。r ys p a c e 觚dh o w t ob u i l dt h ea s s o c i a t i o nn l l e sm i n i n gm o d d m o s t l yi n c l u d i n g : 1 、r e s e a r c ho nm a t 甜a l i z e d 、,i e w so p t i m i z i n ga l g o r i t _ i nm ed 如w a r e h o u s e t h e m a t 商a l i z e d 访e wi sa ni m p o r t a n tm e a n so fi n c r e a s 证g 也ee x e c u t i o n 鲥i c i e n c yo fa d a t aw 卸e h o u s e ,b u tm es t o r a g eo f 蟛m a t 甜a j i z e dv i e w c o s t ss p a c e t h e s t e s t 曲a t i o nm o d e lw h i c hi t sm e a s 渤e 芏l ts t a n d a r di s 也e 虹m ec o s to fq u e 叮c o m p o s e d o f t h em a t e r i a l i z e dv i e ww 1 1 i c hh a st ob es c a n n e d 蛐g 廿l eq u e 叮o r m es p a c es l z eo t f a c tt a b l e sa i l dm es t o l a g ec o s to ft h em a t e r i a l i z e d 访e wi sb u i l ta n dm eo p t i m i z a t i o n a l g o r i t l l i n so f l em a t 甜a l i z e dv i e wb a s e dg e i l e t i ca l g o r i t l l 】 1 1 s i sd e s i 萨e d ,i l lo r d e rt o m i 曲越z em es u mo f 也es 幻r a g ec o s to f t h em a t 舒a l i z e d 啊e wa n d 廿l e 幽ec o s to f t l l e q l l 觇y 2 、r e s e 删lo ns t m c t u r eo fm u l t i d i m e n s i o n a ld a t as t o r a g e 1 1 1 el o 百co r g a l l i z a t i o n m o d eo fm u l t i d i m e n s i o n a ld a t ai so n eo fm ek e y so fo l a pi m p l e m e n t a t i o n ,也i st h e s i s s 1 1 m m 撕z e sm e 铆oo r g 1 1 1 i z i l l gw a y so f 彻1 1 t i d i i n e n s i o n a ld a 协r e l a t i o n a lm o d ea n d a f r a ym o d em o r 0 1 】鲥y a n dp l a c e se m 】,h a s e s o nm er e s e a r c h e s0 fa r r a ym o d e , m c l u d i n gm es t o r a g cs 廿u 咖r eo fm u l t i d 妇e n s i o n a ld a t a ,m ec o n 咖e t i o n m e m o d so f a b s t r a c t m u l t i d i m e n s i o n a la r r a y s ,m ec o m p r e s s i n gm e t l l o d so fs p a r s ea m l y s ,1 ep r i n c i p l e so f d i v i d i n ga r r a y si n t oc h u n k s 髓dm ea c c e s sm e m o d so fc h u n ka r r a y s ,a 1 1 da l s o “s 廿1 e s i sr e a l i z e sas t o r a g ei n s t a l l c eo fa r r a ym o d eb a s e do n 也ea b o v e 也e o r e t i c 吼a l y s e s 3 、r e s e a r c ho nm ea s s o c i a t i o nr u l e sm i n i n gm o d e lw i l ic _ hb a s e do nm ea p r i o r i a l g o r i m m o l 廿i saf a s tq u e 巧a 1 1 da i l a l ) ,z et e c h n o l o g yo fs h a r a b l em u l t i d i m e n s i o n a l d a t a t h i sp 印e ra l l a l y s e st 1 1 ec h a r a c t 甜s t i c so ft h ea p 订耐a l g o r i m ma n d 1 吼p r o p o s e s ad e s i 朗m e m o do fo l a pm i l l i n gm o d e la c c 0 r dt om ea l g o r i t l l m 7 1 1 l ed e s i 盟o fm e ( i i m e l l s i o n sa i l dm e a s u r e si nd a t a 饥【b e 丘l l l yc o n s i d e r 也ec h a r a c t e r i s t i c so fn l ea p n o r i a l g o r i m mt 0m a l ( em ei i a t ac u b em a t e r i a l i z em o r em i d d l ed a t am ea l g o r i m mn e e d e d s t u d ys h o w sm a tt h j sm e t l l o dp r e s e i 】临w e l lo nf l e x i b i l i t ya n de m c i e n c y u s i n gm e 印p l i c a t i o no fb u s i n e s si n t e l l i g 饥t a sm eb a c k g r o u i l da 1 1 dt h ek e y a l g o r i m mo fb u s i i l e s si i l t e l l i g e n t 嬲m er e s e a r c ha i mt 1 1 i sp 印e ra r r a y ss o m en e w t e c l l i l o l o g ym e m o d s ,a tm ee 1 1 do f 衄sm e s i s ,m er e s e 砌e sa r es u m m 撕z e da n dt 1 1 e 向胝w o r ki sp r e s e l l t l 耐 k e yw o r d s :b u s m e s si n t e l l i g 就l c e ,d a t a 协d l o u s e ,o l a p ,d a t am i i l i n g ,a s s o c i a t i o n r u l e s i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其缝入已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说嚷并表示谢意。 签名: 弱军盈 臼期:年月日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:j 雄导师签名: 蜀期:年月冒 第一章引言 1 1 课题背景及意义 第一章引言弟一早ji 石 随着企业信息化进程的不断推进,多数企业已经积累了大量的业务数据。但 其中大多数应用仍处于联机事务处理( o l t p ) 阶段,这些业务数据的商业价值没 有得到充分的挖掘和利用。同时随着市场经济建设的不断深入,市场竞争加剧, 企业需要商业智能指导业务行为并进行辅助决策,从而为企业在激烈的市场竞争 中赢得主动和更多的商机。为了实现这些目标,使企业在激烈的市场竞争中处于 有利地位,必须充分利用先进的商业智能技术。因此本论文的研究工作具有较高 的学术意义和实用价值。 1 2 课题的来源和主要工作 本论文以商业智能应用为背景,以优化商业智能中的关键算法作为研究目标, 结合信息产业部信息产业生产发展基金“n p e 触一新一代企业应用系统构建平台 项目的研究,从物化视图算法、多维数据的存储和a 研o r i 算法的关联规则3 个方 面入手,为实现商业企业的商业智能应用探索一条有效的途径。 本论文所要解决的问题主要分为3 个方面:首先是如何提高数据查询效率。 各种企业管理平台都可能面临数据量庞大,查询效率低的情况,如何解决这种情 况将是商业智能系统必然面临的问题。在论文第三章中研究了遗传算法在物化视 图中的应用,该算法可使系统在物化视图方面的存储开销和查询时间开销的和最 小,即在物化视图尽量小地占用存储空间的情况下尽量大地提高查询的速度;其 次是如何解决多维数据的存储问题。现阶段主要有关系和数组两种多维数据组织 方式,基于关系数据库的多维数据存储方式已有很多解决途径,本文不再进行研 究,第四章主要针对基于多维数据库的存储方式进行了深入的研究,提出了改进 的多维数组的压缩算法以节省存储空间,并对其进行了性能分析;最后是如何建 立方便、高效的关联规则挖掘引擎。这也是商业智能系统所需应用到的关键技术 1 电子科技大学硕士学位论文 之一。论文第五章将a p r i o r i 算法与联机分析处理技术结合起来,提出了一种新型 的关联规则挖掘引擎,大大节省了算法的计算时间,提高了整体运行效率。 1 3 国内外研究现状 由于商业智能b i 已经不仅仅是软件产品和工具,而是整体应用的解决方案。 是数据仓库、o l 垤和数据挖掘等技术在商业上的综合运用,故而我们从国内外 的商业市场和商业智能的支撑技术发展两方面来阐述商业智能的发展状况。 1 3 1 国内外市场发展状况 在商业智能的国际市场上,全球已有3 0 的用户企业都引进了商业智能产品。 据i d c 估计,商业智能软件全球市场价值己逾7 0 亿美元,预计到2 0 0 6 年会增 长一倍。此外,f o r r e s t e rr e s e 鲫c h 还指出4 4 以上的公司将在今年采用商业智能 软件。而在国内方面,伴随着国内商用企业管理软件逐渐成熟,商业智能成为日 益升温的领域,据i d c 数据调查,2 0 0 3 年中国大陆b i 市场软件授权费用总量为 2 3 0 0 万美元,2 0 0 4 年预估将达3 0 0 0 万美元,增幅达3 0 【。但商业智能可以 通过数据仓库、联机分析、数据挖掘等技术,对企业数据进行集中存储,通过业 务模型寻找出数据间的关系,以及这些数据关系所反映的管理问题。对于规模较 大,或者管理要求较高的企业,应用效果非常明显。相反,小型和微型企业应用 效果不明显。因此,b i 在国内主要的应用是在金融和证券行业,未来几年内电信 和零售业中的百货公司及图书批发公司也会成为一个热点。 根据美国著名权威i t 顾问咨询公司g 椭e r 的报创2 1 ,b o 、c o 盟o s 、h y p 舐o n 、 m i c r o s t r a t e g y 、s a s 是经过市场的不断淘汰而筛选出来的少数几家b i 代表厂商。 在这几家国际厂商中,c o 驴o s 与m i c r o s 仃a t a 斟属于同一阵营,都属于产品线较齐 全,既有前端展示功能,又有后端数据分析与挖掘功能,二者都能够提供比较集 成化的方案。c o g n o s 数据处理速度更快一些,且在预算与规划方面造诣颇深,而 m i c r o s 缸a t a g y 由于其在o l 廿s e r v e r 上的优势在处理大数据量数据方面更出色。 除c o 舻o s 仍然沿用c s 架构外,其他几家主流厂商都基于b s 架构。b o 与b r i o 都是在前端展现方面比较突出,用户接受程度较高。但二者均无o l a ps e r v e r , 导致数据监控功能较弱,虽然也可以与微软或o r a c l e 的o l 心s e r v e r 挂接,但这 样毕竟受制于人,给客户提供的方案也不是最集成的。正是因为这个原因, 2 第一章引言 h y p 舐0 n 对b 订。的收购达到了前端与后端的完美的结合,不过由于缺少数据挖掘 这部分功能,他们所谓的完美似乎也有些牵强。而b o 斥资8 2 3 亿美元收购c r y s t a l 并没有使其产品线得到更有效的扩充。 国内商业智能市场上,比较成熟的商业智能软件产品和解决方案大多都是来 自于国际厂商,国内商业智能提供商大多在代理国外产品或者只是开发简单的商 业智能工具。国内企业还是应该选择本地化的产品和服务。然而,全球b i 工业的 发展日益显示出集中的特征,市场集中度和全球化程度不断提高,少数几家b i 公司掌握了越来越多国家的市场份额。2 0 0 3 年,世界前3 大b i 企业已控制了世 界b i 市场的3 0 以上的份额。国内的高端市场己被国际大的厂商所占据,低端 市场是国内的b i 厂商、行业的i s v ( 独立软件开发商) 和集成商在竞争,目前在 中国的b i 市场上缺乏一个真正的领导者。在低端市场上,未来中国可能出现如用 友、金蝶在财务套装软件那样的格局即几个大的国内b i 厂商,凭借本地化和 销售网络占据市场4 0 以上的市场份额;而在大的行业市场里,b i 将会与解决 方案融合在一起,市场被行业的i s v 所把持。 1 3 2 国内外商业智能技术发展状况 随着数据仓库、o “心和数据挖掘软件产品的不断发展,支撑起了b i 这一新 的应用。其中,数据仓库是b i 的基础,联机分析处理和数据挖掘是数据仓库上的 两类不同目的的数据增殖操作。联机分析工具是数据汇总聚集工具,它提供切片、 切块、下钻、上卷和旋转等数据分析操作,简化用户的数据分析工作。数据挖掘 支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测, 并用可视化工具提供挖掘结果。数据分析工具和数据挖掘工具可以配合使用,由 数据分析为数据挖掘提供预期的挖掘对象和目标,避免挖掘的盲目性。可以说, 数据仓库、o l a p 和数据挖掘技术是企业b i 的三大支柱【3 】。 在这三大支柱支撑起来的商业智能b i 技术层面包括了b i 工具和应用这两个 方面。 根据b i 的智能化程度可以将b 1 分为两个阶段的应用,初级应用是o l 廿分 析,这个阶段就是,提供用户一个工具,通过多种手段,例如多角度、钻取、切 片、切块、旋转等,可以便于用户理解数据中的内容,来发现有用的信息,或者 得出有用的结论,例如销售分析;而b i 的高级应用就是,通过一些方法如,分类, 聚类,关联分析、预测等,由系统自动根得出一些有用的结论或者信息,例如, 电子科技大学硕士学位论文 “8 0 购买啤酒的用户同时也购买尿布”。 在b i 工具市场上,我们分为企业b i 套件( e n t e 印r i s eb is u i t e s ,e b i s ) 和b i 平台。e b i s 工具包含了标准的功能。一旦一个或多个数据源被映射到e b i s 工具, 相关的功能也就快出现了。虽然一些工具包括了脚本工具,创建定制应用仍然很 困难。e b i s 的长处是标准的功能。e b i s 的缺点是它们不具备分析能力,而且不 能够被随意裁剪。当用户比较多、只有特定的报告和调查需求,并且不需要太多 分析的情况下( 比如管理报告和简单的分析) ,企业应该考虑e b i s 。b i 平台是使 用多个应用软件界面( a p p l i c a t i o np r o g r a m m i n gm t e r :f a c e ,a p i ) 的应用环境。优点 包括有定制和成熟的分析功能。缺点是b i 平台比e b i s 项目实施难度要更大,并 且维护也要复杂。在需要复杂分析应用的场合( 比如基于行动的费用和产品的利 益率) ,或者要为偶尔使用的用户提供友好的应用,就应该考虑b i 平台工具。 综合以上对商业智能技术的阐述,国内外在商业智能技术方面都有着从分隔 到融合的趋势。e b i s 和b i 平台将逐渐融合在一起。诸如m i c r o s t a t e g y 和o r a l e 都已有这两种功能,这样的厂商也正逐渐增加起来。而应用方面,在企业信息化 的过程中,e i 冲、c 砌、s c m 等信息系统扮演了举足轻重地角色。同时,由于这 些信息系统的存在,使商业智能的实施过程变得更加简单。因此,e i 冲、c l w 、 s c m 等信息系统与b i 的融合将是一个必然的趋势,这种情况在国内体现的尤为 明显。 1 4 论文组织结构 本论文内容安排如下: 第一章,引言,介绍课题的背景、研究的内容和意义,作者的主要工作以及 国内外研究现状。 第二章,商业智能概述,包括商业智能的概念与定义,商业智能核心技术, 商业智能的体系结构和应用领域与前景。 第三章,对数据仓库中物化视图优化算法的研究,将遗传算法应用到物化视 图算法中并进行仿真试验与分析。 第四章,对多维数据存储结构的研究,在已存在的多维数据存储结构的基础 上提出改进,实现多维数组的压缩算法,改进并对其进行性能分析。 第五章,将a p r or 算法与o l a p 结合,提出新型的关联规则挖掘模型。 第六章,结论与展望 4 第二章商业智能概述 第二章商业智能概述 2 1 商业智能概念与定义 商业智能b i ( b l l s i n e s si n t e l l i g e i l c e ) 的概念最早是g a m l e rg r o u p 【4 】于19 9 6 年 提出来的。当时将商业智能定义为一类由数据仓库( 或数据集市) 、查询报表、数 据分析、数据挖掘、数据备份和恢复等部分组成的,以帮助企业决策为目的的技 术及其应用。商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的 各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。 从系统的观点来看,商业智能的过程是从不同的数据源收集的数据中提取有 用的数据,对数据进行清理以保证数据的正确性,将数据经转换、重构后存入数 据仓库( 这时数据变为信息) ,然后寻找合适的查询和分析工具,数据挖掘工具, o l a p 工具对信息进行处理( 这时信息变为辅助决策的知识) ,最后将知识呈现于 用户面前,转变为决策。可以看出,企业信息化是商业智能应用的基础,商业智 能最大限度地利用了企业信息化中的数据,将企业数据整理为信息,再升华为知 识,从而对用户提供最大程度的支持。 2 2 商业智能核心技术 2 2 1 数据仓库技术 2 2 1 1 数据仓库的概念及特点 随着计算机技术的飞速发展和企业界不断提出新的需要,数据仓库技术应运 而生。传统数据库技术是以单一的数据资源,即以数据库为中心,进行从事务处 理、批处理到决策分析等各种类型的数据处理工作。然而,不同类型的数据处理 有着不同的处理特点,单一的数据组织方式进行组织的数据库并不能反映这种差 异,满足不了数据处理多样化的要求。近年来,随着计算机的应用,人们对数据 处理的这种多层次特点有了更清晰的认识。 当前的数据处理可以大致地划分为两大类:操作型处理和分析型处理。操作 型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录 5 电子科技大学硕士学位论文 的查询和修改,主要是为企业特定应用服务的。人们关心的是响应时间,数据的 安全性和完整性。分柝型处理也酬信息型处理,剿用于管理入员的决策分析。两 者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。这种分离划清 了数据处理的操作型环境与分析型环境之间的界限,从而由原来的以单一数据库 为中心的数据环境发展为一种新环境数据仓库体系化环境。 在数据仓库的发展过程中,许多入对此做出了贡献。其中,d v c l 越和m 嘲砷y 于1 9 8 8 年发表了一篇关于数据仓库论述的最早文章。而p r i s m o s l u t i o n s 公司副总 裁w i i i i a mh i n m o n 在1 9 9 2 年所写的论著建立数据仓库则首先系统地阐述了 关予数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。为此。健将数 据仓库定义为:数据仓库是一个面向主题的、集成的、不可更新的、随时间变化 的用来支持管理人员决策的数据集合【5 】。这个定义概括了数据仓库最主要的四个 特征: 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据仓库豹数据是随时闯交纯的 数据仓库的目的是要建立一种体系化的数据存储环境。将分析决策所需的大 量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成 的、统一的信息。与传统的面向事务处理的数据库比较,它表现为以下几个方面 的不同闷:数据管理机制不同、数据的逻辑模型不同、数据的使用不同、数据的 粒度不同、数据的类型不同、数据的范围不同。 数据仓库的建立并不是要取代数据库,它要建立在一个教全面和完善的信息 应用的基础上,用于支持高层决策分析,并且数据仓痒往往应用数据库管理系统 来管理数据仓库中的数据。 2 2 1 。2 数据仓库的体系架构 6 第二章商业智能概述 数据仓库数据数据集市终端用户查询 刃n 曰 刽一 图2 1 数据仓库的体系架构 图2 1 所示是带有一数据准备区和数据集市的数据仓库体系结构。从图中可 以看出数据仓库体系结构由数据源、数据准备区、数据仓库数据库、数据集市、 终端用户查询组成。这是一种广义的数据仓库观点。 1 、数据源 数据仓库用于为决策者提供信息。为此,数据仓库必须将来自企业不同的源 的数据聚集和合并成一致的数据集,以准确地反映企业的业务运作情况和历史记 录。然而数据仓库要从数据源中提取数据而成为一致的数据集,是十分费时的一 件事。关系数据库中的数据转换服务( d t s ) 提供功能强大的工具,可从多种不 同的数据源中析取和转换数据。 2 、数据准备区 数据准备区有时称为数据中间存储区,它是关系数据库,在这里从数据源中 析取数据,将数据转换为常用格式,检查一致性和引用完整性,并准备装入数据 仓库数据库。在某些数据仓库实施方案中,数据准备区和数据仓库数据库可以组 合在一起,只要清理和转换操作不影响为数据仓库数据的最终用户提供服务的性 能和操作。 3 、数据仓库数据库( 狭义的数据仓库) 关系数据库用于数据仓库系统,其作用是在数据准备数据库中临时存储、清 理和转换传入的数据,容纳和管理数据仓库数据库中的大量数据,并支持数据集 市。数据仓库存储、管理和操作巨大的数据量,这些数据常由大量历史信息组成。 关系数据库必须提供快速的数据传输和灵活高效的索引,以及先进高效的查询能 力,以便组织和检索数据仓库的数据。 4 、数据集市 n 、 源、文 据一面件一 致平 一 电子科技大学硕士学位论文 在有些数据仓库版本中,数据集市是微型的数据仓库,而在有些版本中,数 据集市仅仅是数据仓库的一段。数据集市通常用于为单位的职能部门提供信息。 数据集市还可用于将数据仓库数据分段以反映按地理划分的业务,其中的每个地 区都是相对自治的。数据仓库的数据在中央数据仓库中维护,数据首先装入中央 位置的数据仓库中,然后分发到各数据集市。关系数据库的数据转换服务( d t s ) 可用于调度和执行数据转换,包括筛选出适合数据集市的数据和更新数据集市中 适当的表。某些数据仓库分发方案还可以通过复制来协调和维护数据集市的数据。 5 、终端用户查询 终端用户查询主要包括报表生成、0 l 廿分析、数据挖掘等方面。 应当指出是广义的数据仓库更接近商业智能系统。商业智能系统的数据仓库 仅仅指存储数据仓库数据的数据库,即数据仓库的数据库区。 2 2 1 3 数据仓库的模型设计 1 、数据仓库建模的基本原则 数据仓库的设计目标是为企业提供一个全局的面向主题的分析型环境,系统 需求通常不太明确,其项目往往需要完成一个初步的系统,然后向用户展示系统 功能,使用户对数据仓库和商业智能系统有个比较直观的认识后提出比较准确的 需求。因此,在数据仓库项目的整个生命周期中,需求是不断变化的,所以数据 仓库的设计和建模需要具有柔韧性和可伸缩性。与数据库系统相比,数据仓库系 统的目标和需要解决的问题都是不同的,因此数据仓库的建模通常采用数据驱动 的设计方法。 2 、逻辑模型 数据仓库中的逻辑模型包括关系模型、多维模型、星型模型和雪花模型。关 系模型是关系数据库所使用的实际模型。在关系模式中,用二维表表示实体及实 体的所有属性。关系模型中的每个属性必须满足一定的范式,按照属性间的联系, 可以将这些关系按严格程度分为若干等级,这种划分称为关系的规范化。在决策 分析中,用户经常需要从不同的角度分析数据。人们观察数据的角度通常称为维。 在数据仓库设计中,可以将数据按照多维模型进行组织,数据仓库用多维数据库 结构建模。多维数据有多种不同的逻辑模型,最常见的逻辑数据库模型是星型连 接( s t a r - j o i ns c h e i i l a ) 模式,简称星型模式。星型模式包括事实表和维表。事实 表描述度量的内容和连接每张维表的关键字,维表则描述了度量的方式,通过连 接操作( j o i l l ) ,可以将事实表和维表连接起来,进行多维查询。一个星型结构通 第二章商业智能概述 常有多张维表,但只能有一张事实表。此外,雪花模型( s n o w f l a l ( es c h e m a ) 和 事实星座( 萎娃n 蹦l 撕潍) 是星型模式的主要变种,事实星座也称为星系模式 ( g a l a x ys c h e m a ) 。 3 、物理模型 在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数 据的存储策略、数据的存储优化分配等。在采取关系存储时,主要技术有簇集设 计、索引设计、分区设计和r a m 配置等等。限于本文的研究方向不在此做详细 描述。 2 2 2e t l 技术 e t l 过程包括数据抽取( e ) ,数据传输、转换与清洗( t ) ,数据加载与调度 ( l ) 。广义说来,酚l 系统将贯穿整个商监智熊系统的全过程,从源数据系统到 前端展示系统的整个商业智能系统各个组件之间,都存在e 孔过程。但通常情况 下,e t l 指的是从抽取源数据到载入数据仓库这期间对数据的加工处理过程。 2 。2 。2 。 数据抽取 在数据仓库中,必须从不同的操作型数据库系统以及其它形式外部数据源中 有选择地抽取数据,而不应该将所有源数据全部塞入数据仓库。在具体的抽取过 程中,还必须根据是增量装载工作还是初始完全装载等不同情况的变化规划抽取 任务。 有效的数据抽取对于数据仓库的成功非常关键,需要合理细致地制订数据抽 取策略。数据抽取的要点主要有: 数据源确认:确认数据的源系统( 或文件) 和结构; 抽取方法:针对每个数据源,定义抽取过程是人工抽取还是基于工具抽取; 抽取频率:对于每个数据源,确定数据抽取的频率,每天、每星期、每季度, 等等; 时闻窗口:对于每个数据源,表示出抽取过程进行的时闻窗离; 工作顺序:决定抽取任务中某项工作是否必须等到前面的工作成功完成,才 能开始; 异常处理:决定如何处理无法抽取的输入纪录。 2 2 2 2 数据转换 9 电子科技大学硕士学位论文 抽取得到的数据是没有经过加工的数据,不能直接应用于数据仓库。首先, 所有抽取的数据必须转换为数据仓库可以使用的数据。拥有可以用来进行战略决 策的信息,是数据仓库最根本的原则,而操作型系统的数据不能满足这个要求; 其次,抽取得到的数据其质量可能还达不到数据仓库的要求,所以必须在数据仓 库之前提高数据的质量。所以在将抽取的数据载入数据仓库之前,不可避免地要 执行各种类型的数据转换。必须保证在所有的数据整合到一起之后,数据的组合 不能违反任何商业规则。这期间需要考虑数据仓库中需要的数据结构和数据元素, 结合源数据格式、数据取值和质量要求可以知道如何综合采用多种类型的转换工 作来适应数据仓库的要求。实施数据转换的过程中,要结合使用转换工具和手工 技术。 2 2 2 3 数据装载 向数据仓库数据库中转移数据的过程中存在多种情况,一般存在三种类型的 数据装载。初始装载:第一次对所有的数据仓库表进行迁移;增量装载:根据需 要定期装载应用运行过程中发生的变化;完全刷新:完全刷新是指完全刷新一个 或多个表的内容,并重新装载新的数据。 在装载过程中,一般会用到四种方式:装载,追加,破坏性合并,建设性合 并。 2 2 3o l a p 技术 2 2 3 10 l a p 的概念和特征 o l a p 是指联机分析系统【5 】( o m i n ea n a l 舛c a lp r o e e s s i n g ) ,它被o l a p 委员会 定义为:o l 廿是一类软件技术,它使分析人员、经理和主管人员通过快速的、 一致的和交互式的访问来获取并理解各种可能的信息视图的数据,这些信息由原 始数据转换而成,用来反映一个企业实际的维度。 o l a p 主要针对特定问题的联机数据查询和分析。在查询分析中,系统首先 要对原始数据按照用户的观点进行转换处理,使这些数据真正反映用户眼中的问 题某个真实方面( 维) 然后以各种可能的方式对这些数据进行快速、稳定、一致 和交互式的存取,并且允许用户对这些数据按照需要进行深入的观察。 根据o l a p 产品的实际应用情况和用户对o l a p 产品的需求,人们提出了对 o l 心更简单明确的定义,即共享多维信息的快速分析。它具有以下特征【7 】:快 速性,可分析性,多维性,信息性。 1 0 第二章商业智能概述 2 2 3 2 维与多维分析 在o l a p 系统中,多维性是指系统必须提供对数据分析的多维视图和分析, 包括对层次维和多层次维的完全支持。 1 、维的层次关系 与数据的颗粒度相对应,维度具有不同的层次,即不同的抽象级别。数据的 属性按归类方式进行抽象,形成概念层次结构。维层次是o l 钟操作中的上卷和 下钻操作的基石。 2 、维的类关系 o l a p 中,需要定义“类”,所谓类,就是按照一定的划分准则对维的所有取 值集合进行一个分类的划分。 3 、多维数据库和多维视图 多维数据库专门用于多维数据的处理,如多维数据的存储和检索。多维数据 库中,使用经过优化处理的多维数组存储数据,数据为多维分析进行了优化,降 低了分析处理的开销,提高了查询的相应速度。 多维视图针对不同的报表或分析要求,可以从不同的角度查看数据,每种选 择对应一个视图。多维视图反映了实际的业务模型的本质特征,通过对信息的灵 活访问提供了分析处理的基础。 4 、立方体和超立方体 数据立方体既描述了一个语义结构又描述了底层结构的实现。数据立方体并 不一定限于三维,因此又称为超立方体。数据立方体中,点可以表示聚集数据, 它是o l a p 数据管理中的特定结构,用于存储数据。在立方体的实现中,立方体 对应一个多维数组。通常,立方体可以转换成星型模型,而星型模型也是可以转 换为立方体。 数据立方体的方法的基本思想是实现某些常用的代价较高的聚集函数的计 算,诸如计数、求和、平均、最大值等,并将这些实现视图存贮在多维数据库中。 5 、下钴和上卷 下钻( “nd o 、v n ) 是一种具体的分析技术,用户可以从维度的最高层的汇总 数据逐层往下看,直到最细节的数据。 上卷( r 0 1 lp u l l ) 是于下钻相反方向的分析技术,用户可以沿着某一维度从最 细节的数据逐层向上看,直至最高层的汇总数据。 无论是下钻还是上卷,都不一定仅沿着一个维度。用户在下钻或上卷分析中, 电子科技大学硕士学位论文 可以在多个维度间动态选择,变换维度进行分析。 6 、切片和切块 在多维分析中,可对数据在某一特定维度上进行分割。分割有切片( s l i c e ) 和切块( d i c e ) 两类。切片是沿着一个维度,将数据进行特定的分割,即将数据 立方体切成多“片”。切块则是对两个或多个维执行选择,对数进行分割,即立方 体被切成更小的立方体。切片和切块使得用户能够从多个维度、多个侧面、多种 粒度对数据进行分析。 7 、旋转 数据旋转( r o u t e ) 也成数据转轴( p i v o t ) ,就是改变维度的位置关系,将数据 集中不同维度进行交换显示,使得最终用户可以从其他角度来观察多维数据。例 如,将报表的行列交换,或者将某一行维移动到列维中去等等。 2 2 3 3o l a p 的实现技术 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l 心、m o l a p 、 h o l a p 【8 1 。 r o l 垤表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) 。以关系数据 库为核心,以关系型结构进行多维数据的表示和存储。r o l 心将多维数据库的 多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维 表,即对每个维至少使用一个表来存放维的层次、成员类别等维描述信息。维表 和事实表通过主关键字和外关键字联系在一起,形成了星型模式”。对于层次复 杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星 型模式的扩展称为 雪花模式。 m o l 钟表示基于多维数据组织的o l 实现( m u l t i d i i n e n s i o n a lo l 心) ,以 多维数据组织方式为核心,使用多维数组存储数据。多维数据在存储中将形成“超 立方体( c u b e ) 的结构,在m o l 垤中对“超立方体 的“旋转”、“切块 、“切 片 是产生多维数据报表的主要技术。 h o l a p 表示基于混合数据组织的o u 心实现( h y b 矾o l a p ) ,如低层是关 系型的,高层是多维矩阵型的,这种方式具有更好的灵活性。 物理配置上,o l a p 系统既可以和主数据仓库放在同一个平台上,也可以一 开始就把它放到一个单独的平台上。这取决于主数据仓库和o “奸系统的容量和 增长情况,以及它们的增长模式对企业决策分析的影响。 另外,m m 商业智能专家m i c h a e ll g o n z a l e s 提出了如图2 2 所示的b 1 技能 1 2 第二章商业智能概述 域【9 】o 系统分析员观点 商业分析员观点 7 r _ 、 、一商蚴析 确i s 痧“ o 越域 丕磐贫堑厂 企业基础设旒 k e o l a p 弼h 量 阿 ebd、l, 图2 2b i 技能域 这种观点认为没有必要对r o l 廿和m o l a p 做出严格的区别和定义,图2 2 描述了观察b i 的一些视角。系统分析师的视角和商务分析师的视角是截然分开 的,左边对应的学术名称来自计算机科学,而右边的则取自商务科学。那些关键 的商务性能指标驱使商务分析师,而系统分析师数据构架设计师关心的则是系统 的应用性能。左图的视图本质是系统结构,而右图则是商业逻辑。总而言之,看 待o l a p 的观点依赖分析师从分析空间的哪一方面入手。方面不同,导致了不同 的“r o l a p ,h o l a p ,m o l a p 的出现。 2 2 3 40 l a p 与数据仓库的关系 在数据仓库中,0 l 廿和数据仓库是密不可分的,但是两者具有不同的概念。 数据仓库是一个包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论