(计算机应用技术专业论文)数据仓库中查询优化研究.pdf_第1页
(计算机应用技术专业论文)数据仓库中查询优化研究.pdf_第2页
(计算机应用技术专业论文)数据仓库中查询优化研究.pdf_第3页
(计算机应用技术专业论文)数据仓库中查询优化研究.pdf_第4页
(计算机应用技术专业论文)数据仓库中查询优化研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘耍 摘要 数据仓库存储着用于查询和分析的集成信息,它包含大量历史数据,需重视存储空间的节约;同时, 数据仓库要支持即席的、复杂的查询,这些查询需要访问大量记录,进行复杂的连接和聚合运算,用时 很多。为了提高查询效率,需要一些技术上的支持,考虑采用一定的空间为代价提高查询速度。本文围 绕提高查询速度和节约存储空间作为查询技术评价关键性指标,对物化视图、维表模式和聚簇索引的优 化进行了研究。 物化视图是提高数据仓库执行效率的有力方法,但是物化视图的保存会占用存储空间。本文把查询需 要扫描的物化视图或事实表的空间大小作为查询时间开销,以查询的时间开销和物化视图的存储开销作 为衡量标准建立代价估算模型,设计了基于遗传算法的物化视图优化算法。目的是使系统在物化视图方 面的存储开销和查询时问开销的和虽小。 针对数据仓库使用雪花模式组织维表而带来的太多连接开销,以查询的时问开销和维表的存储开销 作为衡量标准建立代价估算模型,设计了基于遗传算法的维表模式优化算法。目的是实现维表模式自动 地调整使系统的维表存储开销和查询时间开销的和最小,也就是以最小的空间代价换取最大的查询速 度。 o l a p 查询中,利用好聚簇索引可以大大加快训算聚集函数的速度。要做到这点可以按数据访问 量确定建立聚簇索引时聚簇索引键中列的顺序。根据数据仓库运行过程中查询的执行情况,计算出聚簇 索引键中各列合理的顺序,并按该顺序重建聚簇索引,以减少查询时的磁盘i o 次数,提高系统的查询 速度。 关健词:数据仓库、遗传算法、物化视图、维表、聚簇索g 东南大学硕士学位论文 a b s t r a c t i ts h o u l db ea t t a c h e di m p o r t a n c et ot h es t o r a g es p a c es a v i n go fad a t aw a r e h o u s ew h e r et h ei n t e g r a t i o n i n f o r m a t i o nu s e df o rq u e r ya n da n a l y s i si ss t o r e db e c a u s ei ti n c l u d e sm a n yh i s t o r i c a ld a t a i nt h em e a n t i m e ,t h e u n p r e p a r e da n dc o m p l i c a t e dq u e r yn e e d st ob es u p p o r t e di nad a t aw a r e h o u s e ,al o to fr e c o r d ss h o u l db e a c c e s s e da n dt h ec o m p l i c a t e dc o n n e c t i o na n da g g r e g a t eo p e r a t i o ns h o u l db ep r o c e s s e d ,s oi tt a k e sal o n gt i m e t h et e c h n i c a ls u p p o r ti sn e c e s s a r yi no r d e rt oi n c r e a s et h ee f f i c i e n c yo fq u e r y , a n dt h ew a yt oi n c r e a s et h eq u e r y s p e e db yc o s t i n gs t o r a g es p a c es h o u l db ec o n s i d e r e d t h eo p d m i z a f i o no ft h em a t e r i a l i z e dv i e wa n dt h e d i m e n s i o nt a b l es c h e m aa n dt h ec l u s t e r i n gi n d e xi sr e s e a r c h e dt oi n c r e a s et h ek e yi n d e xt oa p p r a i s eq u e r y t e c h n o l o g ys u c ha sq u e r ys p e e da n ds t o r a g es p a c e l em a t e r i a l i z e dv i e wi sa l li m p o r t a n tm e a u so fi n c r e a s i n gt h ee x e c u t i o ne f f i c i e n c yo fad a t aw a r e h o u s e b u tt h es t o r a g eo ft h er n a m r i a l i z e dv i e wc o s t ss p a c e t h ec o s te s t i m a t i o nm o d e l w h i c hi t sm e a s u r e m e n ts t a n d a r d i st h et i m ec o s to fq u e r yc o m p o s e do ft h em a t e r i a l i z e dv i e ww h i c hh a st ob es c a n n e dd u r i n gt h eq u e r yo rt h e s p a c es i z eo ff a c tt a b l e sa n dt h es t o r a g ec o s to ft h em a t e r i a l i z e dv i e wi sb u i l ta n dt h eo p t i m i z a t i o na l g o r i t h m so f t h em a t e r i a l i z e dv i e wb a s e dg e n e t i ca l g o r i t h m si sd e s i g n e d ,i no r d e rt om i n i m i z et h es u mo ft h es t o r a g ec o s to f t h em a t e r i a l i z e dv i e wa n dt h et i m ec o s to ft h eq u e r y i tb r i n g so nm u c hc o m l e c t i o nc o s tt ou s es n o w f l a k es c h e m ai nad a t aw a r e h o u s e t h ec o s te s t i m a t i o n m o d e lw h i c hi t sm e a s u r e m e n ts t a n d a r di st h et i m ec o s to ft h eq u e r ya n dt h es t o r a g ec o s to fd i m e n s i o nt a b l e si s b u i l ta n dt h eo p t i m i z a l i o qa l g o r i t h m so fd i m e n s i o nt a b l e ss c h e m ab a s e dg e n e t i ca l g o r i t h m si sd e s i g n e d ,i no r d e r t oa d j u s tt h ed i m e n s i o nt a b l e ss c h e r n an o n d e s t r u c t i v e l ya n da u t o m a f i c l ya n dt om i n i m i z et h es u u lo ft h es t o r a g e c o s to fd i m e n s i o nt a b l e sa n dt h et i m ec o s to ft h eq u e r y , t h a ti st os a y , t oe x c h a n g et h em i n i m u ms p a c ec o s tf o r t h em a x i m u mq u e r ys p e e d t b es p e e do fc o m p u t i n gc l u s t e rf u n c t i o n sc a nb ei n c r e a s e dg r e a t l yb ya s i n gt h ec l u s t e r e di n d e xr e a s o n a b l y d u r i n go l a pq u e r y , i no r d e rt od oi t ,t h es e q u e n c eo fc l u s t e r e di n d e xk e y sc a nh ed e t e r m i n e da c c o r d i n gt ot h e d a t aa c c e s s i n gq u a n t i t yw h e nt h ec l u s t e ri n d e xi sb u i l d i n g a c c o r d i n gt ot h ee x e c u t i v es i t u a t i o no ft h eq u e r y d u r i n gt h em r m i n gp r o c e d u r eo fad a t aw a r e h o u s e ,t h er e a s o n a b l er o ws e q u e n c eo fc l u s t e ri n d e xk e y si s c o m p u t e da n d t h ec l u s t e ri n d e xi sr e b u i l ta c c o r d i n gt ot h i ss e q u e n c ei no r d e rt od e c r e a s et h ei of r e q u e n c yo f t h ed i s ka n dt oi n c r e a s et h eq u e r ys p e e do ft h es y s t e m k e yw o r d s = d a t aw a r e h o u s e ,g e n e t i ca l g o r i t h m s ,m a t e r i a l i z e dv i e w , d i m e n s i o nt a b l e ,c l u s t e r e di n d e x i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别力以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书丽使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 研究生签名: 彩鞋日 期: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸 质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包 括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:量堡垄 跏签名 汽玖炎 髓强2 卵。# 第l 章前言 1 1 研究背景 第1 章前言 随着国际国内市场竞争的日益加剧,企、l k 为了在激烈的市场竞争中求得生存和发展,为了把握 稍纵即逝的商机,就必须在决策支持方面努力。面i 临竞争的全球化发展,企业也面临巨大的压力, 它们采用各种先进技术来提高自己的竞争能力。在激烈的市场竞争中,信息对于企业的生存和发展 发挥着越来越重要的作用。 山于计算机技术的普及应用,承载信息的数据随着时间的推移而不断增长。能否从纷繁复杂、 大量沉淀的数据环境中得到有用的决策信息,及时做出正确的分析与决策,已成为企业生存与发展 至关重要的环节。自从2 0 世纪7 0 年代提出决策支持的概念以来,人们在决策支持( d e c i s i o n s u p p o r t s y s t e l n , d s s ) 理 论及应用上做了大量的硎究:【:作,并在企业决策中发挥了积极的作用。随着企业数据 量的1 i 断增加,需要对原有的信息进行提炼和加工,需要为企业领导提供集成化和历史化的数据, 需要为企业全局的战略决策和长期趋势分析提供更有效的支持。 数据仓库( d a t a w a r e h o u s e ,d w ) 就是在企业中为提高决策支持能力、充分利用企业内外信息的情 况下适时地发展起来的技术。数据仓库是用于帮助知识工作者( 包括企业执行经理、部门经理、分析 师等) 更好、更快地做出正确决策的一整套决策支持技术的总称。数据仓库中,使用o l a p ( o n l i n e a n a l y t i c a lp r o c e s s i n g ,在线分析处理或联机分析处理) 技术进行分析和决策。o l a p 应用主要由各种 特殊的和复杂的查询组成,在s q l 术语中o l a p 查询就是包含分组和聚集操作的查询。本文中如果 没有特殊说明所有查询都是指这种o l a p 查询,所有视图是指这种查询所对应的视图。 数据仓库中的数据量非常大,并且在逐年增大。通常的数据仓库的数据量为i o g b 级,相当于 一般数据库1 ( 1 0 m b 的1 0 0 倍,人型数据仓库的数据量可以达到t b 级( 1 0 0 0 g b ) 。数据中索引和综台 数据占2 3 ,原始数据占1 3 j 。另一方面,o l a p 应具有快速的反应能力,系统应能在几秒钟、至 多几分钟内对用户的大部分分析要求做出反应。对于大量的数据分析来讲,要达到这个速度并不是 很容易,因此就需要一些技术上的支持,如数据仓库的数据模型设计、专门的数据存储格式、大量 的事先计算汇总等。 总之,数据仓库存储着用于奁询和分析的集成信息,它包含大量历史数据,需重视存储空间的 节约;同时,数据仓库要支持即席的、复杂的查询,这些查询需要访问大量记录,进行复杂的连接 与聚合运算,用时很多,系统的性能是个严重的问题。所以在数据仓库系统中节约存储空间和提高 查询速度都需要特别重视,要平衡查询速度和空间占用。 1 2 研究的内容 本文研究的主要目的是以尽量小的存储空间代价来换取尽量大的查询速度的提高,围绕提高查 询速度研究了对物化视图( m a t e r i a l i z e dv i e w ) 、维表( d i m e n s i o nt a b l e ) 模式和聚簇索引( c l u s t e r e di n d e x ) 的优化,咀提供灵活有效的数据仓库动态设计方法。 1 物化视图优化 把查询需要扫描的物化视图或事实表的空间大小作为查询时间开销,提出以查询的时间开销和 物化视图的存储开销作为衡量标准的代价估算模型,设计基于开销估算和遗传算法相结合的物化视 图优化算法,使系统在物化视图方面的存储开销和查询时间开销的和最小。 2 维表模式优化 针对数据仓库使用雪花模式组织维表而带来的太多连接开销,给出了数据仓库中以查询的时问 开销和维表的存储开销作为衡量标准的具体的代价估算模型,设计了基于开销估算和遗传算法相结 合的维表模式优化算法。目的是实现维表模式自动地调整,使系统在维表模式方面的维表存储开销 1 一 东南大学硕士学位论文 和查询时间开销的和最小,也就是以最小的空间代价换取最大的查询速度。 3 聚簇索引优化 分析了聚簇索引在数据仓库中的作用,根据数据仓库运行过程中查询的执行情况,计算出聚簇 索引键中各列合理的顺序,并按该顺序重建聚簇索引,使聚簇索引产生最大效益,以减少查询时的 磁盘i ,o 次数,提高系统的查询速度。 1 3 本文的内容组织 第2 章主要介绍数据仓库的基本概念以及o l a p 技术;第3 章介绍物化视图的概念、遗传算法, 提出了物化视图优化模型,并给出优化算法;第4 章介绍了雪花模式的优缺点,提出了维表模式优 化模型,并给出优化算法;第5 章介绍聚簇索引的概念及在数据仓库中的使用,给冉了聚簇索引优 化的算法:第6 章总结全文及f 一步研究j 二作。 第2 章数据仓庠概述 第2 章数据仓库概述 2 1 数据仓库技术的产生和发展 传统的数据库系统应用中,联机事务处理系统一直是应用的主流。这种系统的目的是提供对于 数据处理任务的计算机支持,以达到t 作的自动化,减轻手丁的重复劳动量,这些系统包括购买、 库存、制造、银行、工资等等。此类系统包含着大量简单和重复的任务,并且需要执行许多小的、 原子的、隔离的事务,这些事务要求细节的、实时的数据,要求读写一部分记录,这部分记录往往 不是很多并且常常通过记录的若键字进行存取。操作型的数据库可以达到数百m 到g 不等的批模, 一致性和可恢复性的要求很严格,追求事务吞叶量的最大化足联机事务处理系统的主要性能测量标 准。为了追求事务吞吐量的最大化和数据库性能的最优化,存关系数据库方面已经进行了大量的研 究工作,文献 2 | 中介绍了在数据库领域所作的优化工作,联机事务处理系统的数据库设计要求能够 反映所应用领域的语义要求,并且能够减少并发冲突。 当联机事务处理系统应削到一定阶段后,用户便发现仅拥有联机事务处理系统已小足以获得市 场竞争的优势,他们需要对其自身业务的运作阻及整个市场相关行业进行分析,从而做出有利的决 策。这种决策需要对大量的业务数据包括历史业务数据和各种相关的业务数据进行分析。数据仓库 专家r a l p hk i m b a l l 写道:”我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的 时候了。” 新的应用需求促使了数据仓库技术的发展和研究。数据仓库系统在数据分析和决策方面为用户 提供服务,这种系统可以用不同的格式输出数据,以便满足不同用户的各种不同需求,这种系统称 为联机分析处理系统。数据仓库的设计月标是提供决策支持,在数据仓库中,历史的、总结的、概 括的和集成的数据比细节的和单个记录的数摒更重要。由于数据仓库中存放着集成的数据,这些数 据很有可能来自于多个数据源,并且是长时问的数据积累,凶此数据仓库的规模可能达到数百g 或 者更大。在数据仓库上进行即席的和复杂的查询,往往需要访问数臼万的记录,需要执行大量的扫 描连接和聚集运算,查询响应时间比事务吞吐量更为重要。 对数据仓库的研究一直是数据苹领域的热点,已有大量文献3 ,4 ,5 ,6 】。在过去的几年,数据仓库 技术经历了突飞猛进的发展,在大量的行业中得到了应用,包括零售业、金融服务业、交通、电信、 公用事业等。同i t 十数据仓库的研究也有了迅速的发展,表现在数据仓库数据模型、数据仓库设计、 数据仓库体系结构、数据仓库管理、主动数据仓库、数据仓库巾的数据操作以及查询优化等方面。 2 2 数据仓库的含义 “数据仓库之父”w h n i n o n 将数据仓库的描述为:“数据仓库足面向主题的、集成的、随时间 变化的、非易失的数据集合,用以支持经营管理中的决策制定过程。”。1从这一权威性定义可以 得到数据仓库最重要的如下四个特征。 面向主题的( s u b j e c t _ o r i e 吮d ) :数据仓库围绕一些主题,如顾客、供应商、产品、销售组织等 数据。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理( 这 些是o l t p 系统的任务) 。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。 集成的( i n t e g r a t e d ) :通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联 机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量 等的一致性。 随时间变化( t i m e v a r i a n t ) :数据仓库的数据从历史的角度( 例如过去5 1 0 年) 提供信息。数 据仓库中的关键结构,隐式或显式的包含时间元素。 非易失的( n o n v o l a t i l e ) :数据仓库总是物理的分离存放数据;这些数据源自操作环境下的应用 一3 一 系南大学硕士学位论文 数据。数据仓库中的数据只在初始建市和更新的时候修改,其它时间数据仓库只提供数据的只读访 问。其更新也是定时的。 数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战 略决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而 构造,支持结构化的和专门的查询、分析报告和决策制定。数据仓库能够很好的支持决策支持系统 和联机分析系统,这与传统的数据库系统在功能和性能要求上完全不同,数据仓库技术的发展对于 数据库管理系统提出了许多特殊的要求。 简单地讲,数据仓库就是企业内部一个专门的、大型统一的数据存储,支持更快速、更灵活、 更有效的分析型数据查询。数据仓库是进行分析决策的基础,但还必须有强有力的工具进行分析和 决策,这一工具就是联机分析处理系统。 数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库一般还是应用数据库管理 系统来管理其中的数据。当前数据仓库的核心仍足关系型数据库管理系统管理下的爪数据库系统 1 。但数据仓库不同于操作型数据库系统,它提供的是综合的、经过提炼的信息,并且要保存历史 数据以分析未来的发展趋势。 2 3 数据仓库的数据模式 多维结构是决策支持的支柱。多维数据建模以直观的方式组织数据,并支持高性能的数据访问。 每个多维数据模型由多个多维数据模式( d i m e n s i o n a ld a t as c h e m a ) 表示,每一个多维数据模式 都是由一个事实表( f a c t t a b l e ) 和一组维表( d i m e a s h i o n t a b l e ) 组成的1 1 。 一个企业级的数据仓库可能包含几十个简单的“星形连接”形式的多维数据模式。在整个多维 数据模型中可能包含4 到1 5 个维,各个维之问是相互独立的。更多的维数或更少的维数一般都很少 见,有可能是由于设计时考虑不周全。如果维的数目过多,那么可能足存在着菜些维需要进行合并。 事实表包含的是业务数据信息,这些信息用于分析型查询。 多维数据模型适用于数据仓库这样的分析型系统的设计和应用,j :且直观,易于理解,具有良 好的扩展性能和快速查询能力。多维数据模型普遍采用的种非常重要的模式就足星形模式( s t a r s c h e m a ) 。 数据的组织是数据仓库的一个关键的问题,直接影响到数据仓库的效率。数据模式的设计要便 于进一步处理,要有利于提高处理效率。目前大多数的数据仓库产品都是基于星型模式,星型模式 是由于模式图中的实体像星星那样排列而得名。 星型模式是由事实表和维表通过星型方式连接而成的。事实表中的数据取值通常是可度量的、 具有可加性的,数据量可达到几百万甚至上亿条记录。事实表中的业务数据信息可阻从多个维度查 看,每一个维度对应一张维表,维表中包含的是相应维度的描述性信息,这些信息用作查询的约束 条件,不具可加性。下面以简化的银行数据为例分析星型模式。 银行卡业务主要的决策是分析卡经营情况,确定其经营策略。决策所需的主要数据是各种卡在 交易所的交易量。其数据模式可用如图2 i 所示的星型模式表示。 交易流水表表示交易的基本情况,称为事实表。其中的卡标识符、交易所标识符、日期标识符 三个属性是分析交易表的三因素,称为维( d i m e n s i o n ) ;借方发生额、贷方发生额等属性表示交易 量,称为量( m e a s u r e ) 。维是量取值的条件,目的是把维的细节移到其他表中,以简化事实表。表 示维的各种表为维表( d i m e n s i o nt a b l e ) 。以事实表为中心,加上若干维表,便形成星型模式( s t a r s c h e m a ) 。分析交易情况,以事实表为基础,涉及维表中的细节时,可将事实表与有关的维表连接。 星型模式是最常用的数据仓库设计结构的实现模式,它使数据仓库形成了一个集成系统,为最 终用户提供报表服务,为用户提供分析服务对象。星型模式可以采用关系型数据库结构,模式的核 心是事实表。通过事实表将各种不同的维表连接起来,各个维表都连接到事实表。每个维表通过一 个主键与事实表连接起米。通过对星形模式的维表进一步标准化可形成雪花模式。关于雪花模式将 4 第2 章数据仓库概述 在第4 章分析。 卡表 卡标识符 卡种标识 卡种名称 客,o 号 客户资料 日期表 口期标识符 日 月 季 年 交易袁 卡标识符 交易所标识符 日期标识符 借方发生额 贷方发生额 图2 - 1 星型模式 交易所表 交易所标识符 交易所名 市名 省名 国名 。般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中。每一个维表 利用维度关键字通过事实表中的外键约束于事实表中的莱行,实现与事实表的关联。这种结构使 用户能够很容易地从维表中的数据分析开始,获得维度关键字,以便连接到事实表进行查询,这样 就可以减少在事实表中扫描的数据量,以提高查询性能。 2 4 0 l a p 技术 2 4 1o l a p 的含义与特征 数据仓库是管理决簟分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的t 具对 数据仓库中的信息进行分析决策。在o l a p 就是一个应用广泛的数据仓库使用技术。它可以根据分 析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并以直观的、容易理解的形式将查 询结果提供给各种决策人员,使他们能够迅速、准确地掌握企业的运营情况,了解市场的需求。 o l a p 技术主要有两个特点:是在线( o n _ h e ) ,表现为对用户请求的快速响应和交互式操作, 它的实现是由客户机,服务器体系结构完成的;二是多维分析( m u l t i _ a n a l y s i s ) ,这也是o l a p 技术 的核心所在。 o l a p 主要是针对特定问题的联机数据查询和分析。在查询分析中,系统首先要对原始数据按 照用户的观点进行转换处理,使这些数据能够真正反映用户问题的某一真实方面( “维”) ,然后以各 种可能的方式对这些数据进行快速、稳定、一致和交互式的存取,并允许用户对这些数据按照需要 进行深入的观察。 对o l a p 简单明确的定义是,共享多维信息的快速分析。o l a p 应该具有以下几个方面的特性: ( 1 ) 快速性。用户对o l a p 的快速反映能力有很高的要求。要求系统能在数秒内对用户的多数 分析要求作出反应。如果用户在3 0 秒内没有得到系统的i 向应就会变得不耐烦,因而可能失去分析的 主线索,影响分析的质量。大量的数据分析要达到这个速度并不容易。这就需要一些技术上的支持, 如专门的数据存储格式、大量的事先运算、特别的硬件设计等。 ( 2 ) 可分析性。o l a p 系统应能处理与应用有关的逻辑及统计分析。尽管系统可以实现编稃, 5 东南大学硕士学位论文 但并不意味着系统已定义好了所有的应用。在应用o l a p 的过程中,用户无需编程就可以定义新的 专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告。用户可以在o l a p 平台上进 行数据分析,也可以连接到其他外部分析工具上进行数据分析。 ( 3 ) 多维性。多维性是o l a p 的关键属性。系统能够提供对数据分析的多维视图和多维分析, 包括对层次维和多重层次维的支持。事实上,多维分析是分析企业数据最有效的方法,是o l a p 的 灵魂。 ( 4 ) 信息性。不论数据量有多人,也不管数据存储存何处,o l a p 系统应能及时获得信息,并 且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、o l a p 产 品的性能以及与数据仓库的结合度等。 2 4 2o l a p 与数据仓库的关系 数据仓库是一个包括了企业历史数据的大规模数据库,这些历史数据主要为用户对企业的经营 决策提供分析和支持;而o l a p 技术在利用数据仓库中的数据进行联机分析,将分析查询结果快速 地返回给用户。o l a p 利用多维数据集和数据聚集技术埘数据仓库中的数据进行组织和汇总,然后 雕联机分析和可视化工具对这些数据进行评价。o l a p 技术使数据仓库能够快速响应重复而复杂的 分析查询,从而使数据仓库能有效地用于联机分析。o l a p 系统可以快速灵活地为分析人员提供实 时支持。 o l a p 用多维结构来表示数据仓库中的数据,创建组织和汇总数据的立方体,这样才能满足用 户的复杂查询要求。数据仓库的结构将直接影响到立方体的设计和构造,也就影响到o l a p 的_ _ l 作 效率。凼此,从o l a p 使用效率的角度考虑,在设计数据仓库时应该考虑这样一些因索: 尽可能使用星形结构,有限弗4 地使用雪花结构。 为用户设计维表这些维表应该包含有意义的、用户希望了解的信息。 维表的设计应该符合通常意义上的范式约束,维表中不要出现无关的数据。 事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应该具有必要的粒度, 这些数据应该是i 刮一层次的数据。 对事实表和维表中的关键字必须创建索引,同一种数据尽可能使用一个事实表。 保证数据的参考完整性,使事实表中的所有数据都出现在所有的维表中,避免事实表巾的某 些数据行在立方体进行聚集运算时没有参加进米。 2 4 3o l a p 的基本操作 o l a p 的多维分析是对多维数据集中的数据用切片、切块和旋转等方式分析数据,使用户能够 多角度、多侧面地去观察数据仓库中的数据,这样才能深入地了解数据仓库中所蕴涵的信息。 1 切片( s l i c i n g ) 切片是在某个或某些维上选定一个属性成员,而在某两个维上取定区间的属性成员或全部属 性成员。 2 切块( d i c i n g ) 切块是在立方体中的三个维上取一定区间的属性成员或全部属性成员。从另一个角度讲,切块 可以看成是在切片的基础k ,进一步确定各个属性成员的区间得到的片段体,也即由多个切片叠起 来。 3 上钻( r o l l i n gu p ) n 下钻( d r i l l i n gd o w n ) 钻取包括上钴和下钻两种操作。从高级别数据到明细数据视图称为下钻;从明细级向上到高级 来观察数据,称为上钻。数据库的设计以及数据的粒度级别将决定下钻和t 钻的能力。 第2 章数据仓库概述 用户可能从一个较高的聚集级别米分析数据,然后下钻到较低级别以从多个角度分析。钻取深 度与维所划分的层次相对应。 4 菔转( p i v o t i n g ) 旋转是改变一个报告或页面显示的维方向。通过旋转司以得到不同视角的数据。 关于这些操作更详细介绍参见文献 1 1 ,1 2 ,1 3 1 。 2 4 4o l a p 的实现 在数据仓库实现方面【1 4 l ,现在绝大部分都在数据库锋理系统上实现数据仓库。数据仓库的实 现主要有多维型和关系型两种方式,目前大多数数据仓库系统的实现都是阻关系模型为基础的,包 括i n f o r m i x 、o r a c l e 、s y b a s e 等关系数据库商家的数据仓库产品。多维模型能够清晰的表达数据仓 库中数据的特点,逻辑视图同数据立方体有着严密的对应关系,并且它足随着数据仓库的诞生而出 现的,在实现数据仓库方面有着不可替代的优势。但是由于多维数据库的发展很不成熟,目前采用 多维数据库突现数据仓库的系统很少。关系模型概念单一,其所有的联系都用关系来表示,它的数 据结构简单、清晰;而且因为当前数据库的主流技术足关系数据库,采用这种模型的数据仓库跟源 数据库可以很容易的做到平稳的连接,多数关系数据库的技术也可以直接使用。因此数据仓库的实 现多采用关系型实现,同时以多维模型的逻辑形式呈现给用户。 在关系数据库管理系统的基础上实现的o l a p 称为r o l a p ( r e l a t i o n a lo l a ps e r v e r s ) ,这些系 统认为数据存储在关系数据库中,支持扩展的s q l 语句和特殊的访问和实现方法以有效的实现多维 数据模型和各种数据操作。使用多维数据库实现的o l a p 称为m o l a p ( m u l t i d i m e n s i o n a lo l a p s e r v e r ) ,它以特殊的数据结构( 比如多维数组) 直接存储多维的数据,在这些特殊的数据结构的基 础上实现o l a p 操作。 2 4 5o l a p 查询优化 o l a p 中的大量的计算是多维聚集函数的计算。无论物化视图的生成,还是o l a p 的查询,都 要进行这类计算。其计算速度不仅影响查询的响应时间,也影响刷新的速度,从而影响刷新频率和 数据的质量。因此,对多维聚集函数计算的优化在o l a p 中很重要。 计算聚集函数摄费时的部分是执行g r o u pb y 子句,一般要用排序方法实现。例如g r o u pb ya ,b ,c 子旬,首先将有关表按属性a 排序,然后对具有相同a 值的元组再按属性b 排序,最后对具有相 同a ,b 值的元组按属性c 排序。而排序是开销很大的操作,并且随着参与排序的元组数的增加,开 销也随之增加,一般超过线性增长速度。在数据仓库中,基表总是很大的。而随着聚集程度的提高, 物化视图的元组数逐步减少。与其他数据库操作一样,i o 也是计算聚集函数的主要开销,减少i o 是优化的努力方向之一。在计算聚集函数时可阻灵活地利用以下三个原则”1 。 1 利用最小物化视图。在查询或生成物化视图时,常由已有的物化视图导出。但可供选择的物 化视图有多个应选择其中元组最少的。 2 尽量减少i o 。从磁盘中取出的内容,如果以后的处理中还会再用,应尽量保存在内存中,以 减少i ,o 。 3 共享排序结果。排序是开销很大的操作,+ 旦排好,就要充分共享,避免重复排序。 一般地 讲,如果某个表已按g r o u pb ya ,b ,c ,d 次序排序,则a b c d 前缀a b c ,a b ,a b ,a 所表示的视图都可 共享排序结果。 7 东南大学硕_ 上学位论文 2 5 实验环境及数据 实验所用环境为联想p 4 ,2 5 6m b 内存,w i n d o w s2 0 0 0s e r v e r ,s 虬s e r v e r2 0 0 0 ,用某商n k 银 行信用卡业务数据进行了模拟测试,编成工具使用v i s u a lb a s i c 。 使用银行数据测试主要是考虑银行的、眦务数据量大,适于作为数据仓库的实验数据,另一方而 银行系统现在应该建立起数据仓库系统为业务决策服务。本文完成以后准备向银行系统介绍论文成 果建泌它们建立自己的数据仓库系统,并用本文的查询优化方法提高系统性能。 2 5 1 银行卡业务现状 随着对w t 0 大门的逐渐敞开和中国金融体制改革的逐渐深入,中国银行业面临着前所未有的竞 争压力。各银行既通过开发新的产品和服务,来提高自身的竞争力,也希望能够发挥口身的竞争优 势满足客户需求,提高客户信誉度、提高决策水平和效率。 银行卡足集消费、结算、信贷、理财等功能于一体的现代化支付工具。货币的电子化发展趋势 使银行书成为商业银行所提供的重要金融工具,在银行业务量中占有越来越大的比重。银行卡、j k 务 的开发、应用、服务、管理的水准直接关系到银行的经济收益。 国内金融机构在入世后,世界级外资银行必然进入中国市场。外资银行为扩大存中国的市场份 额,会采用以客户为中心的决策支持系统,推出更加多样化的金融业务来争取客户。这就要求国内 商业银行能够基于对客户、l k 务的科学分析,充分了解客户需求以及客户对银行的利润贡献度在适 当的时机对客户进行销售或提供服务。要想把握市场机会,开发并保留高信用、低风险的客户,继 1 i :i 相应的决策,应该乖j 用好数据仓库技术。经过十几年的发展,银行昔业务经历了从市场培育到树 立品牌形象、从重视系统与网络建设到追求发卡数量和规模效应的过程,现在已经到了从粗放经营 到集约经营,从单纯的数量扩张到提i 苛爿! i 卡质量的重大转变的时候了。如何实现这一转变,更加及 时地掌握各项业务指标,更加深入地研究客户信息和市场信息,从而为各敛管理人员达成竞争目标、 风险控制目标等各种业务目标提供强有力的支持,成了银行的当务之急,而数据仓库技术则在其中 扮演着一个极为重要的角色。 银行的竞争优势主要体现在对每一个客户提供个性化的服务,只有建立以客户为叶1 心的决策支 持系统,通过大量信息的分析,才能真正进行以客户为中心的管理,帮助找出客户消费的行为和规 律,筛选优秀的客户群体,进而预测客户的个性化需求,及时响应每一位客户现在和未来的需要, 设计出更加符合客户需要的产晶和服务,来提i 每客户的满意度,增强银行在激烈竞争中的实力。 随着国内银行卡业务的逐步完善,部分银行的卡业务逐渐体现出发行数量大、客户众多、交易 频繁、交易信息全面等特点,积累了大量的业务数据,客观上具备了进行多维数据分析和数据挖掘 的条件。通过对银行卡业务数据的分析,能够为业务管理人员和决策者动态地制作各类报表,可以 有效地为银行进行银行卡业务的客户关系管理、风险管理和绩效评估等服务。从而可以为银行识别 不同的客户群体,按照收益和风险对客户分类,确定目标市场,实现差异化服务,并为银行卡经营 管理决策分析提供准确的信息。银行卡决策支持系统正是为了适应银行目前的这种需求面研发的。 金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能 发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。银行业务的利 润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进 行信用评估。 数据仓库技术己在美国等国家银行金融领域应用广泛。中国招商银行于1 9 9 8 年就开始对其包括 银行卡( 一卡通) 在内的所有业务的数据采用数据仓库技术管理,完成了异构数据库集成、数据高 效加载存储和查询、特色分析等功能在国内率先建成了银行数据仓库系统。尤其在客户关系管理 的分析系统富有特色,专题应用的特点是所有建模、分析都围绕明确的预先设定好的一组主题进行, 第2 章数据仓库概述 主要应用于某个或某些专门领域,有着普通决策支持应用所没有的专业性。数据仓库系统可以对那 些带来重要收益的客户进行专门分析还可以给出潜在有价值客户的特征和争取的手段。对于那些 为银行带来重大收益的客户,可以给出最合适的保持和提高信誉度的方法,提供更好的服务,从而 确保客户群体的稳定性。中国工商银行上海分行也于2 0 0 1 年采用了专门针对银行卡开发的基于i b m 的数据仓库技术银行卡业务数据仓库应用系统。该数据仓库解决方案包括了风险管理、商户管理、 统计分析、客户关系管理、内部业务管理( 会计、核算、业务管理和事后监督) 、日常业务、信息服 务等几大功能,其中统计分析模块可以对持卡人静态分析、持卡人交易分析、持卡人交易明细分析、 商户交易分析、透支分析、客户动态分析等,成功实现了以客户为中心的个性化服务的数据仓库决 策支持系统。 目前国内大部分银行现在依然没有建立起数据仓库,原有银行卡信息管理系统属于业务处理系 统,是一个孤立的信息系统没有和其它的系统,如存贷款系统、中间业务系统很好地集成,使得客 户的信息被分割存储,缺乏信息的综合分析、决策支持功能;有关客户资料、交易记录等有价值的 摹础信息资源没有得到充分利用,导致对市场反映不敏捷,决策依据不足,市场营销、市场细分缺 少有力的信息系统支持,对客户状况缺乏全丽和动态的了解,难以进行市场细分和界定h 标客户群 体,风险控制缺乏预警机制等。 2 5 2 银行卡业务介绍 1 银行卡的曩:缸及分类 银行卡是指由商业银行( 含邮政金融机构) 向社会发行的具有消费信用、转账结算、存取现金 等全部或部分功能的信用支付工具。银行譬主要包括信用卡和借记卡。 信用卡是银行签发给那些资信状况良好的人士,用于在指定的商家购物和消费或在指定银行 机构存取现金的特制卡片,是一种特殊的信用凭证。信用昔按是否向发卡银行交存备用金分为贷记 卡和准贷记卡两类。贷记卡是指发卡银行给予持卡人一定的信用额度,持卡人可在信用额度内先消 费、后还款的信用卡。准贷记卡是指持卡人须先按发卡银行要求交存一定金额的备用金,当备用金 账户余额度不足支付时,可在发卡银行规定的信用额内透支的信用忙。 借记卡足指先存款后消费( 或取现) ,没有透支功能的信用 。借记卡按功能不同分为转账卡( 含 储蓄卡) 、专用卡、储值卡。转账卡是实时扣账的借记卡,其具有转账结算、存取现金和消费功能。 专用卡是具有专门用途,在特定区域使用的借记卡,具有转账结算、存取现金和消费功能。储值卡 是发卡银行根据持卡人要求,将其资金转至卡内储存,交易时直接从卡内扣款的预付钱方式借记卡。 2 银行卡业务蠢程 银行卡业务的基本流程如下:银行卡业务流程包括从发卡、建立特约商户、交易与授权、清算、 风险控制、客户服务到业务管理的全过程。这一过程主要是围绕发卡银行、收单银行、持卡人和特 约商户四个基本当事人之间的债权债务的发生与清偿关系进行的。 1 、银行卡的申领与发行 银行对符合申请条件并提供了申请材料的申请人批准发卡,发卡行将银行卡发给申请人,申领 银行乍的申请人成为银行卡的持卡人。据此确立了彼此的信用关系。 2 、建立特约商户 发卡行同时作为收单行时应在注重发展持卡人的同时,发展受理银行卡的饭店、酒家、旅馆 和商店等消费场所,这些受理银行卡的消费场所统称为银行卡的特约商户。 3 、交易与授权 持卡人以银行卡为支付手段,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论