




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)olap中智能化的操作符和cube压缩技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东托走擎硕士论文 摘要 o l a p 是数据仓库中麓要的分析决策工具之一,它利用独特的多维分析方法, 可以有效解决具有多因素、多层次的数据分析问题。垦藏o l a p 技术已经墨趋成 熟,并得到了广溅的应用。但是,对于日益庞大酌数据鬃柬说,柯两个问题亟待 解决。一怒用户靠手工寻找信息的难度很大,o l a p 系统需要能够自动地、智能地 发现菜些模式,傻弼户的撩作更麴准确轻松:二蔗翔褥设诗曼有效豹c u b e 存储、 访问方式,使o l a p 技术能够推向特大型数据集的应用。o l a p 技术的智能化和 数据立方傣戆压缭润蘧是瓣决这令海霆懿露效手段之一。 本文器在探讨如何设计和威用o l a p 中智能化的操作符以及如何应用 c o n d e n s e dc u b e 嚣缩e 潞e 数褥鬃。蓄宠,我嚣j 磷究了警艟证0 l a p 研究蕊软, 详细讨论了几种智能化操作符的功能和实现,并应用m d x 技术在a n a l y s i ss e r v i c e s 下实魂了一个餐纯o l a p 蔻端分撰王其一- - s o l a p 。该琴统不投缝够哥援恁逡 支持o l a p 已有的基本操作,如上卷、下钻、旋转、切片等,而版还支持我们自 行设计款t o p n 秘m a i n d i f f 罄毙操作楚,用户只瑟篾单遗按一个按键或尝输入几 个参数,即可获猖查询结果中最火或最小的数据翠元,我别两个数据单元的底层 细尊数据的主要麓别。 然后,我们研究了基于b s t 教术的c u b e 压缩技术- - c o n d e n s e dc u b e 。该方 法通过识别数据嶷中各个维缝会上雏纂个元组分组,把其毒提惩度量馕的多个 c u b e 元组压缩成为一个基本b s t 元组。我们不但实现了c o n d e n s e dc u b e 中的 m i n c u b e 葶b u b s t 算法,而且还设计了颛的用于产生最小c o n d e n s e dc u b e 的算 法一- s q c u b e 。s q c u b e 算法采髑两个阶段,在b u c u b e 算法豹簇础上避行后娃 璁,大大加快了最小c o m e m e dc u b e 的生成过程,从而为c o n d e n s e dc u b e 的实用化 带来了疆淹。试验表弱,s q c u k 簿法可戳获褥c o n d e n s e dc u b e 酌激高压缭率,著 且压缩速度很快,远远快于原作者给出的m i n c u b e 算法。 关键字:数据仓库,o l a p ,智能化操作符,c u b e 压缩,c o n d e n s e d c u b e “ 查i ! 垄堂婴主垒查 垒! ! 坚型 a b s t r a c t o l a pi sa ni m p o r t a n tt o o lt h a ti sw i d e l yu s e di nd e c i s i o n m a k i n gs y s t e m sb a s e d o nd a t aw a r e h o u s e s i tt a k e sa d v a n t a g eo ft h em u l t i - d i m e n s i o n a lv i e w so f d a t a ,a n dc a n e f f e c t i v e l ys o l v et h o s ep r o b l e m sw i t hm u l t i - f a c t o r sa n dm u l t i h i e r a r c h i e s t h eo l a p t e c h n o l o g yi sb e c o m i n gp r a c t i c a la n dw i d e l yu s e dn o w a d a y s b u tt h e r ea r es t i l lm a n y q u e s t i o n sl e f tf o rt h o s ev e r yl a r g ed a t a s e t s n l ef i r s to n ei st h a ti ti sh a r df o rau s e rt o e x p l o r e al a r g ec u b e - - t h eo l a ps y s t e mm u s tp r o v i d e i n t e l l i g e n to p e r a t o r st o f i n d p a t t e r n sa u t o m a t i c a l l ys ot h a tt h eu s e rc a nf i n ds u r p r i s i n gi n f o r m a t i o nw i t he a s e t h e s e c o n do n ei st os t o r ea n da c c e s st h ec u b ed a t ae f f i c i e n t l ya n dm a k et h eo l a p s y s t e m s s c a l a b l ew i t h v e r yl a r g ed a t a s e t s w e t h i n kt h a tt h e s et w o q u e s t i o n s a r es i g n i f i c a n tt o p i c s i no l a p t e c h n o l o g y t h i st h e s i sa i m sa th o wt od e s i g na n da p p l yt h ei n t e u i g e n to d e r a t o r si na l l0 l a p s y s t e ma n dh o wt oc o m p r e s sac u b eb yu s i n gc o n d e n s e dc u b et e c h n i q u e f i r s t ,w e s t u d i e dt h ei s s u e si n v o l v e di ni n t e l l i g e n t0 l a p - a n dd i s c u s s e dt h ef u n c t i o n a l i t i e sa n d i m p l e m e n t a t i o n s o fs e v e r a l i n t e l l i g e n to p e r a t o r s a t l e n g t h ,a n dt h e nd e v e l o p e da n i n t e l l i g e n t0 l a p f r o n t - e n da n a l y t i c a lt o o l _ 一s o l a p t h es o l a pn o to n l yc a r ld o ,m o s t o ft h ee x i s t i n go l a p o p e r a t i o n ss u c ha sd r i l l - d o w n ,r o l l u p ,p i v o t ,s l i c e ,e t c ,b u ta l s o s u p p o r t so u ro w nd e s i g n e di n t e l l i g e n to p e r a t o r s 脚na n d m a i n d i f f t h eu s e rc a ng e t u s e f u li n f o r m a t i o ns u c ha sm a x i m a lo rm i n i m a lc e l l sa n dt h e i rd i f f e :r e n c ei nt h e u n d e r l y i n gd e t a i l e dc e l l sb ys i m p l yp r e s s i n ga b u t t o na n d e n t e r i n gs o m ep a r a m e t e r s s e c o n d l y , w es t u d i e do n eo ft h ec u b ec o m p r e s s i o nt e c h n i q u e s - - t h ec o n d e n s e d c u b e i ti d e n t i f i e st h es i n g l et u p l e so nc e r t a i nd i m e n s i o n sa n dc o n d e n s e st h o s ec u b e t u p l e si n t oo n eb a s es i n g l et u p l e ( b s n w e n o to n l yi m p l e m e n t e dt w o a l g o r i t h m su s e d i nc o n d e n s e dc u b e t h em i n c u b ea n db u - b st - b u ta l s o d e s i g n e d an o v c l a l g o r i t h m - - t h es q u e e z e dc u b e ( s q c u b e ) t h es q c u b ei s at w o - p h a s ea l g o r i t h m i t p o s t p r o c e s s e st h eb u c u b ea n dc a ns p e e du p t h eg e n e r a t i o no f m i n i m a lc o n d e n s e dc u b e s i g n i f i c a n t l y , a n dt h u sc a ng r e a t l ya c c e l e r a t et h ea p p l i c a t i o no f t h ec o n d e n s e dc u b e 0 u r e x p e r i m e n t sa l s os h o w t h a tt h es q c u b ec a ng e n e r a t eam a x i m a lc o n d e n s e dc u b ea n d o u t p e r f o r i l l st h em i n c u b ea l g o r i t h ms i g n i f i c a n t l y k e yw o r d s :d a t aw a r e h o u s e ,0 l a p i n t e l l i g e n to l a p , c u b ec o m p r e s s i o n ,c o n d e n s e d c u b e m 声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其它人已经发表或 撰写过的研究成果,也不包括本人为获得其它学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了感谢。 本人签名:1 彬 日期:沪甲门 东北大学硕士学位论文第一章引言 第一章引言 我从事本论文给出的两个研究课题绝非拍脑门式的偶然选择,而是经历一个 曲折的探索历程。令人高兴的是两个课题均取得了一定的研究成果。 起初,我参加了国家科技部资助中小企业创新基金项目一一“支持决策分析 的综合数据挖掘系统( s c o p e m i n e r ) ”,我的任务是负责其中智能o l a p 模块的开 发工作。按计划,该模块应该实现由印度学者s a r a w a g i 等人提出的r e l a x 操作符, 即o l a p 系统能够智能地发现与给定模式( 升高、降低、比率、变化趋势) 匹配 的不同聚集层次上的模式。但是该论文提出的r e l a x 操作符是该作者提出的一系列 操作符之一。经过探宗溯源,我们发现首先应该在我们的系统上实现d i f f 操作符。 d i f f 操作符用于发现造成两个聚合层次上的单元的差别的底层细节数据。我们首先 基于m d x 技术,利用a d o m d 组件开发了一个基本的o l a p 前端分析工具一一 s o l a p 。该系统基于s q l s e r v e r2 0 0 0 的a n a l y s i ss e r v i c e s 作为后台服务器,利用 方便的维度选择界面,实现用户“傻瓜式”地分析c u b e 中的数据。为了实现所 谓的“智能分析”,我们设计并实现了两个简单的操作符一一t o p n 和m a i n d i f f 。 t o p n 用于在给定的查询结果中找到度量值最大或者最小的n 个单元,并用不同深 度的颜色标记这些单元,使用户能够快速直观地发现那些“不同寻常”的值。t 0p _ n 虽然简单,但是取得的效果很令人满意。然后,我们又仿照d i f f 操作符的功能, 设计了一个相对简单,但是功能不同的m a i n d i f f 操作符。d i f f 操作符侧重于概括 地发现底层的细节数据,其查询结果能够反映大多数单元的变化趋势,而m a i n d i f f 则侧重于发现那些极大或极小的单元对两个聚合单元整体差异的影响。m a i n d i f f 通过搜索不同维级别组合上的单元,发现那些具有极值的单元,并保留前n 个进 行输出。正当我们开始反复研究并准备实现d i f f 算法的时候,坏消息传来了:原 文作者说他们也曾经在s q ls e r v e r 上开发了一个d i f f 操作符的版本,可是速度实 在太慢,他们放弃了这个版本的开发。而我们当时没有o r a c l e 或者d b 2 的开发环 境和技术积累,所以放弃这个项目的研究实在是迫不得己。 于是,我选择了c u b e 压缩技术的研究工作。时间紧,任务重。还好,我们 很快和原文作者取得了联系,并获得了他们的指导和建议。我很快实现了他们设 计的算法,虽然当时很多实现并不完善。 到了我们自己发明创造的时候了。 东北大学硕士学位论文第一章引言 我们起初打算设计一种高效的用于c o n d e n s e dc u b e 上的索引,使用该索引可 以迅速在c u b e 中实现点查询和范围查询。正当我仔细地研究b u b s t 的输出结 果时,我诧异地发现:原文作者忽略了一个很有价值地信息一一他们把后来发现 的b s t 元组一概简单地扔掉了。我把他们扔掉的元组一一拾回,发现他们可以完 备地重建其所有s d s e t 。当然,你也许对这些名词术语感到迷惑,没关系,几乎 所有的引言都是这样的,我后面要详细阐述这些概念的含义。这样我们就可以利 用这些元组重建一个最小的c o n d e n s e dc u b e 。后来我们得知。构建最小的 c o n d e n s e dc u b e 一直是原文作者一直在苦苦追寻的问题,并且他们认为这很困难, 以很小的代价获得最小c o n d e n s e dc u b e 几乎是不可能的事。 我们找到了解决问题的钥匙。我很快设计了一个后处理算法;在b u b s t 算 法输出一个非最小的c o n d e n s e dc u b e 之后,我们按照元组的度量值分组,对于每 个分组,我们按着某种规则合并所有的元组,最后构成一个最小的c o n d e n s e d c u b e , 实验结果不但证实了我们确实能够产生一个最小的c o n d e n s e dc u b e ,而且速度比 原m i n c u b e 算法有大幅度提高。 “实践出真知”。我深深地体会到了这个道理。 如前所述,本论文的贡献有两个:一是尝试了智能o l a p 系统的开发,设计、 实现了两个智能化的o l a p 操作符;二是提出了快速产生最小c o n d e n s e dc u b e 的 算法。当然,由于时间有限,很多相关问题还没有研究。这些问题只有交给后来 者。 论文的后续部分是这样安排的:在第二章我们介绍数据仓库和o l a p 的基本 知识,探讨相关技术的应用和现状。第三章我们讨论( ? l a p 系统中的智能化操作 符的研究现状和功能,并介绍我们开发的s o l a p 系统的设计思路,关键技术等。 第四章我们讨论c o n d e n s e dc u b e 的基本原理、算法,并着重介绍我们的s q c u b e 算法,以及实验结果,简单介绍了所有算法的测试系统功能。第五章结束语总结 全文。 东北大学硕士学位论文第二章数据仓库和0 l a p 技术概述 第二章数据仓库和o l a p 技术概述 2 1 数据仓库的概念和现状 数据仓库( d a t aw a r e h o u s e ) 是随着人们对决策支持系统的需求而产生的一门 技术,它是数据库技术发展到一定程度后的必然产物。随着企业计算机应用的发 展,企业逐渐积累了大量的历史业务数据,这些数据对企业的经营决策具有很高 的指导价值。而目前的基于业务流程设计的数据库应用系统产生的数据,无法满 足用于决策分析目的进行的复杂的数据查询要求。所以,数据仓库技术应运而生。 数据仓库的概念诞生于2 0 世纪8 0 年代中期。最早提出“数据仓库”概念的 w i l l i a m h i n m o n 在其著作建立数据仓库中,比较系统地回答了数据仓库的结 构、设计、管理等问题。i n m o n 从而被公认为“数据仓库之父”。在该书中,i n m o n 给出了数据仓库的如下定义:数据仓库是面向主题的、集成的、不同时间的、稳 定的数据集合,用于支持经营管理中的决策支持过程 1 4 1 。 从这个定义中,我们可以看到数据仓库的四个基本特征: ( 1 ) 面向主题的 在传统的数据库,数据的组织是面向应用的,随着应用的需求变化而变化,其 目的是快速支持业务数据的录入、更新、查询等。而数据仓库中的数据则是按主 题组织的,其主要目的是支持决策分析。 ( 2 ) 集成的 数据仓库中的数据必须是正确有效的,来自不同数据源的数据必须经过统一命 名规定、度量、物理属性和语义,才能够装入数据仓库中。这个过程成为e t l ( 抽 取、转换、加载) 过程。 ( 3 ) 不同时间的 企业的数据仓库通常都记载着多年的历史数据,同时新产生的数据也会源源不 断地进入数据仓库。因此数据仓库是大量历史数据的集台,时间跨度很大。 ( 4 ) 稳定的 数据仓库的数据经过处理后,应该是正确的不再变化的事实数据,很少需要 更新操作。但是并不排除少量的、偶然的更新操作。 1 东北大学硕士学位论文 第二章数据仓库和o l a p 技术概述 数据仓库技术自提出以来,得到了迅速的发展。许多公司建立了自己的数据仓 库。许多大的数据库公司如o r a c l e ,d b 2 ,s q ls e r v e r 2 0 0 0 等都提供了数据仓库的 解决方案。市场上也出现个很多数据仓库支持产品,如s a s 等。目前在国内,数 据仓库主要用于银行、电信等大型企业。但是随着企业对决策分析的需求的不断 增加,数据仓库技术必将得到更广泛的应用。 2 2 数据仓库的体系结构 图2 1 一种数据仓厍的组织结构图 f i g 2 1o n ep o s s i b l eo r g a n i z a t i o n a ls t r u c t u r eo f d a m w a r e h o u s e 数据仓库不是一个软件产品,而是体系结构。体系结构意味着数据仓库必须 根据不同企业的实际情况设计出满足要求的数据仓库系统。图2 。1 是一个典型的数 据仓库的组织结构,企业各个部门现有的o l t p 系统产生的数据经过e t l 系统装 载到数仓库中,然后由数据仓库按着主题产生适合各个部门的数据集市( d a m m a r t ) ,然后建立超适合决策分析的数据立方体( c u b e ) 结构。对于数据立方体,可以 进行o l a p 分析和数据挖掘。由于数据仓库是一个庞大的数据集合,所以这些数 据本身也需要进行管理,所以管理数据的数据被称为“元数据( m e t a d a t a ) ”。 也有一种观点认为,应该首先建立企业的各个部门的数据集市,然后再由数 d 盈蜀 东北大学硕士学位论文第二幸数据仓库和o l a p 技术概迷 据集市生成数据仓库。其好处是,由于企业在首次建立数据仓库是缺乏经验,一 个数据仓库项目很可能失败,这种方法很容易从一个小的部门级数据集市逐步产 生一个企业级的数据仓库。这种方法的问题是,由各个部门产生的数据集市彼此 容易冲突,难以集成,随着企业的数据量的增加,数据仓库的管理工作日益加剧。 2 3 数据仓库的组织 数据仓库中的数据组织不同于基于事务处理的数据库系统。为了便于分析和 维护,数据仓库的数据一般被组织成便于查询、加载的形式。星型模式是目前广 泛采用的数据结构,除此之外,雪花模式、星座模式也可以采用。 图2 2 星型模式 f i g 2 2t h e s t a rs c h e m a ( 1 ) 星型模式( s t a rs c h e m a ) 星型模式通过使用一个包含主题的事实表和多个维表来描述。每个事实表包含 了指向维表的指针( 外键) 和若干个度量( m e a s u r e ) 每个维表有一个主键,以及 东北大学硕士学位论文 第二章数据仓库和o l a p 技术概述 该主键的相关信息。这种结构构成了基于关系表的多维数据结构。如图2 2 所示。 ( 2 ) 雪花模式( s n o w f l a k es c h e m a ) 星型模式不直接支持维的层次化结构,雪花模式通过正规化的维表可以支持 层次化的维结构。如图2 3 所示。在这种结构中,父维表可以与子维表通过关键字 域相关联,以便消除维表的冗余,并可以进一步表示维的层次结构。 ( 3 ) 星座模式( c o n s t e l l a t i o ns c h e m a ) 星座模式是指多个事实表共享一个或多个维表而产生的复杂的结构。比如, 计划消费和实际消费这两个事实表可以共享大部分维表,因为他们除了度量值不 同外其他大部分数据均相同。 0 r d c r n 0 卜 n 。t t a b k p r o d n 0 c a t e 2 0 r v n a m o 0 r d e r d a t e 、o r d e r n 0 f p r o d n :l r f l c c a t e g o r y d e s c r p r o d d e s c r j c u s t o m e r n o c a t e g o r y s a l e s v e r s o r , d u n i t p r i c e , p r o d n o q o h c u s t o m e r d a t e k e v c u s t o m e rn o c i t y n a l n e d a t em o a t hy e a r c u s t o m e r n a t t i c q u a a t i t y n a t p w 鲫i l - 1m o 矗l hi t o t a l p r i c e 。声“h 地 c u s t o m e r a d d r e s s d a t e c i t y 7m o n t h 汕幽。 c 。罴。兰。 s a l e s d e 雎o n i d 繁i 厣岫 s a l e s n e r g o n n a m e c i t y q u o t a 2 4 数据仓库的管理 图2 ,3 雪花模式 f i g 2 31 1 1 es n o w n a k e s c h e m a 由于数据仓库反映了企业的业务模型,数据仓库体系结构的一个基本要素就 一6 一 东北大学硕士学位论文第二章数据仓库和o l a p 技术概述 是元数据的管理。有许多种不同的元数据需要管理,这些元数据包括所有建立和 使用数据仓库的必要的信息。其中管理元数据( a d m i n i s t r a t o r m e t a d a t a ) 包括:源数据 的描述、后端和前端工具、数据仓库模式的定义、派生的数据、维和维层次、预 先定义的查询和报表、数据集市的位置和内容、数据分区的物理组织、数据抽取、 清洗和转换的规则、数据更新和清除的策略、用户的情况、用户授权、存取控制 策略等。业务元数据( b u s i n e s sm e t a d a t a ) 包括:业务术语和定义、数据所有者、数据 管理策略。操作元数据( o p e r a t i o n a lm e t a d a t a ) 包括在数据仓库操作中收集到的所有 信息:迁移和转换的数据的渊源、数据在仓库中的状态( 活动的、归档的、清除的) 和监控信息( 如使用统计、错误报告和审查遗迹) 。 一般地,使用元数据库( m e t a d a t ar e p o s i t o r y ) 来存储和管理和数据仓库相关的所 有元数据。元数据库可以使各种工具和处理过程共享元数据,以便进行数据仓库 的设计、建立、使用、操作和管理。 创建和管理数据仓库是非常困难的一件事。有许多工具可以用于构造数据仓库 的每个过程中。开发工具可以用于设计和修改模式、视图、脚本、规则、查询和 报表,计划和分析工具可以用于w h a t i f 分析,数据仓库管理工具用来监测数据仓 库,报告统计信息,并向管理员提出建议。 2 5o l a p 技术 传统的数据库应用是o l t p ( o n l i n e t r a n s a c t i o n p r o c e s s i n g ) 的,主要用于联机事 务处理,一般数据量较小,反映数据的短期状态,要求系统响应速度快,这种数 据便于数据快速查询、更新,但是不便于决策分析。为了进行决策分析,必须对 各个时期的数据进行统一处理,并且被组织成便于分析的数据结构,这种处理方 法叫o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) e “。o l a p 是数据仓库中数据分析的强有 力的工具之一。 o l a p 分析方法的主要原理是利用多维结构表示和观察数据。数据立方体 f c u b e l 是o l a p 建立起来的多维分析模型。c u b e 中包含一个或多个度量,通常为 数值类型,表示分析的对象。比如度量可能是销售额、预算额、收益额、投资回 报额等。每个度量的值取决于一系列维的集合。比如,销售额相关的维可能是城 市、产品、生产日期等。各个维的取值唯一地决定一个度量值。这样,多维数据 集把数据看成是多维空间中的一个度量值。 东北大学硕士学位论文 第二章数据仓库和0 l a p 技术概述 每个维有系列属性组成。比如产品维,可能包含四个属性;产品目录,生 产厂家,生产日期和利润。维的各个属性按着包含关系构成了维层次。 l23456 d a t e 图2 4 多维数据模型 f i g 2 4t h e m u l t i - d i m e n s i o n a ld a t am o d a l o l a p 另外一个重要的特性是可以按着一个或多个维对度量进行聚集 f a g g r e g a t i o n ) 操作。在o l a p 上可以进行许多分析操作:旋转( p i v o t ) ,上卷( r o l l u p ) 和下钻( d r i l l d o w n ) ,切片( s l i c e ) 和切块( d i c e ) 等操作。下面分别介绍如下: ( 1 ) 旋转:从c u b e 的维中选取某些维作为查看的分析维,切换各个维的显 示状态。该操作可以方便地从多个角度观察数据。 ( 2 ) 上卷:从一个较低的级别向较高的级别上察看汇总数据的结果。比如, 目前察看的是各个市的数据,现在要察看各个省的数据。 ( 3 ) 下钻:从一个较高的级别上向较低的级别上浏览数据,比如目前显示的 是各个省的数据,现在要察看各个市的数据。 ( 4 ) 切片:从某特定维选择满足某种条件的数据。该操作的作用是限制c u b e 中参与计算的单元的范围。 ( 5 ) 切块:对检索到的数据按照某种标准限制选取数据或者维的成员。该操 作是对c u b e 查询结果的进一步修剪。 近年来,在o l a p 数据集上进行数据挖掘工作得到广泛的研究和应用。数据 挖掘和o l a p 的结合被称作是o l a m 。 n 黜幽恤眦舭唧:裟嚣 n 东北大学硕士学位论文第二章数据仓库和0 l a p 技术概述 2 6 本章小结 本章简要介绍了数据仓库技术概况,数据仓库的体系结构、组织方式,管理 维护等问题。数据仓库是数据库系统不断发展所导致的必然产物,它能够很好地 支持企业的经营决策问题。数据仓库中数据有三种组织方式:星型结构、雪花结 构和星座结构。o l a p 是用于分析多维数据的决策分析工具,o l a p 常见的基本操 作有上卷、下钻、旋转、切片、切块等。 东北大学硕士学位论文第三章智能化的0 l a p 操作符及其实现 第三章智能化的o l a p 操作符及其实现 3 1 智能o l a p 的研究现状 现有的o l a p 系统能够很好地支持数据的查询、表格化和图形化的展示。但 是由于o l a p 数据集通常都十分庞大,利用现有的o l a p 操作符( o p e r a t o r ) 如上 卷、下钻、切片、旋转等,用户很难在浩如烟海的查询结果中找到并分析自己需 要的东西。目前基于o l a p 技术的智能化研究和应用已经取得了丰硕的成果,我 们将智能o l a p 分为三大类。 ( i ) 在o l a p 上的数据挖掘 该方法主要是在现有的o l a p 平台上进行数据挖掘,使数据挖掘集成于 o l a p 中,即所谓的o l a m 。由于o l a p 上的多维数据集一般都是经过清洗、转 换的正确数据,且一般都比较庞大,所以直接利用这些多维数据集进行数据挖掘 尤为方便。目前应用的挖掘算法有决策树、关联规则、聚类、分类、时间序列分 析等。o l a m 意味着数据挖掘可以象o l a p 一样,在多维数据集中交互地在不同 的维层次、不同的数据子集中进行。 m i c r o s o f ts q ls e r v e r2 0 0 0 中的a n a l y s i ss e r v i c e s 中的o l a p 服务就提供了在 c u b e 上的数据挖掘操作。另外,韩家炜等人开发的d b m i n c r l 2 提供了更多的o l a m 功能,并可以将数据集扩展到空间数据库、多媒体数据库、文本挖掘、w e b 挖掘 等。 ( 2 ) 在o l a p 上的智能化操作符 智能化o l a p 操作符就是使用户能够自动地、交互地、准确地、完备地实现 对o l a p 数据的查询,能够帮助用户迅速地定位到他她所感兴趣的数据的位置, 并获得查询结果的自动分析或提示。显然这项功能对于提高o l a p 系统的可用性、 减轻用户的工作负担、减少用户操作失误、建立友好的人机界面等都具有重要的 意义。其实现主要是利用统计学、信息论和数学模型方法。 印度孟买工学院的s u n i t as a r a w a g i 主持研究的1 3 工程( t h e1 3p r o j e c o l 3 j 在智 能o l a p 研究中取得了重要成果。该工程是在现有的o l a p 系统上加入附加的智 能o l a p 操作符,这些操作符包括e x p l o r e 、d i f f 、i n f o r m 、r e l a x 等操作, 1 0 东北大学硕士学位论文第三章智能化的0 l a p 操作符及其实现 这些操作符不仅功能强大,而且能够作为一个附件安装在现有o l a p 系统中,实 现了无缝连接。其研究的方法是:根据现有的o l a p 用户查询数据时遇到的问题 ( 如乏味的下钻、上卷操作,盲目的寻找异常数据,不完整的查询结果等) ,开发 一些自动化的操作符来代替手工操作,这种智能化的o l a p 操作被称作“第二代 o l a p ”系统。其具体实现我们将在下一节详细叙述。 ( 3 ) 在o l a p 上的商业智能( b u s i n e s si n t e l f i g e n c e ) 该方法主要是将人工智能理论应用到o l a p 具体应用中,提供商业决策、预 测、报表等智能化操作。比如k x e n 公司的i o l a p 产品利用了“统计学习理论”, 可以自动地搜索与用户相关的信息。用户只需要输入一个给定商业问题,系统可 以识别并展示一个相关度参数,根据这些参数知道用户进行下钻数据操作,从而 大大方便数据管理员、分析员、统计员多复杂问题作出快速可靠的分析。 3 2 常用的智能化o l a p 操作符 这一节我们介绍5 种智能o l a p 操作符:t o p n 、e x p l o r e 、d i f f 、i n f o r m 、 r e l a x 。 ( 1 ) t o p n 操作符 t o p n 操作符是一种简单而实用的操作符。用户在得到一个比较大的多维数据 集查询结果后,可能只关心其中比较大( 或小) 的数据,或者想从这些数据进一步下 钻。这时可以对结果集进行t o p n 操作,自动找到结果集中最大( 或小) 的n 个数据。 ( 2 ) e x p l o r e 操作符 传统的o l a p 操作都是基于用户假设驱动( h y p o t h e s i s - d r i v e n ) 方式的数据探查, 它使用基本的o l a p 操作,如下钻、上卷、切片、旋转等,用这种方式发现异常 ( 这里的异常的含义不光是错误的数据,也可以是用户感兴趣的数据) 有许多缺 点,如果数据集很大,探查是很辛苦乏味的。有时候由于不同聚合层次下数据的 相互抵消,一些隐藏的异常很难被发现。基于这种问题,出现了基于发现驱动 ( d i s c o v e r y d r i v e n ) 方式【4 l 的数据探查,这种方式预先计算数据立方( d a t ac u b e ) 各个层 次的数据单元( d a t ac e l l ) 的异常度,然后据此引导用户进入异常数据单元,这种探 查准确而且轻松。 在基于发现驱动的数据探查中,要求一个c u b e 在所有可能的聚合上的每一 个c e l l 都有三个表示这个c e l l 的异常程度的值。它们是: 东j o 二! 堂硕堂堡鱼妻第三章智能化的o l a f 操作符及其实现 s e l f e x p :表示在同一聚合层次下的与其他c e l l 之间的异常程度。 i n e x p :表示如果对这个c e l l 进行下钻后将产生的异常程度。 p a t h e x p :表示从这个c e l l 开始沿着每个下钻路径的异常程度。 这样用户在进行数据探查时,就可以利用这些预先计算好的信息指导用户快速找 到异常数据的位置。下面给出一个例子。 假定个c u b e 有3 个维:p r o d u c t 维、m a r k e t 维、t i m e 维。其中m a r k e t 维层 次为:m a r k e t - r e g i o n - a l l 。该c u b e 的数据存储了各种产品在不同的市场上本月 比上个月销售量的增长率。 图3 1 用户按日期下钴的结果( 注:引自【4 】) f i g 31t h eq u e r yr e s u l tw h e nt h ec u b ei sd r i l l e dd o w nf r o md a t e 圈3 2 用尸沿着p r o d u c t 维f 钻后的结果( 注:引自 4 】) f i g ,3 2t h eq u e r yr e s u l tw h e nt h ec u b ei sd r i l l e dd o w nf r o mp r o d u c t 图3 1 显示了一个具有辅助探查信息的一个c u b e 探查结果。用户获得下钻结 果后,调用一个 h i g h l i g h te x c e p t i o n s ”按钮,系统自动根据每个c e l l 的s e l f e x p 的值 给每个c e l l 加入背景,根据i n e x p 的值给每个c e l l 加框。用户调用“p a t he x c e p t i o n s ” 按钮,系统自动根据每个切片维下面含有的c e l l 的p a t h e x p 的值给切片维加入背景 颜色。颜色越深,说明越异常。利用这个分析结果,用户很容易决定下一次如何 操作。比如,由于p r o d u c t 维的颜色较深,说明按着p r o d u c t 维进行下钻更容易发 现异常。同理,8 、9 、1 0 、1 2 月份存在的异常也很大,用户应该按着t o t a l ( 即所有 1 2 东北大学硕士学位论文第三章智能化的o l a p 操作符及其实现 数据) 进行下钻。用户沿着p r o d u c t 维进行下钻,将得到图3 2 所示的结果。这个图 中,我们可以看到一些c e l l 具有背景,说明他们是异常的,颜色表明了它们异常 的程度。另外一些c e i l 也具有边框,说明这些c e l l 对应的产品还可以进一步下钻。 ( 3 ) d i f f 操作符 d i f f i 5 l 操作符用于解释造成两个在某个聚合层次下的c e l l 的差值的原因。比如 用户可能发现一个c e l l 和另一个c e l l 的值明显偏差( 这种偏差与其他c e l l 相比可能 是反向变化或者虽然是同向变化,但是数量偏大) ,用户可能要找到造成这种变化 的原因:哪些数据造成了这些变化。利用d i f f 操作符,用户可以返回一个经过汇 总的、层次性的、便于用户理解的、反映主要数据变化的汇总表格。看一个例子。 图3 3 一个c u b e 的维层次结构( 注:引自【5 】) f i g 3 3t h em u l t i - d i m e n s i o n a ls t r u c t u r eo f ac u b e 图3 4 用户发现了两个异常的c e l l ,需要找到异常的原因( 注:引自【5 】) f i g 3 4t w oa b n o r m a lc e l l sw e r em a r k e d ,a n dt h eu s e rn e e d st ok n o w t h er e a s o nw h yt h e yw e r es o d i 脏r e n t 图3 3 是一个c u b e 的维层次信息,这是由i d c 提供的从1 9 9 0 年到1 9 9 4 年 各种软件产品的总的年收益( 百万美元) 的真实的数据集。图3 4 表示用户发现在 g e o g r a p h y 为”r e s to f w o r l d 时,只有1 9 9 0 到1 9 9 1 年的产品销售额在降低,而其他 全部为增加。用户希望知道到底是什么软件产品、什么平台类型的记录造成了这 种结果。而图3 5 就是对这个问题的回答。从这个图中我们可以发现,除了在“( a 1 1 ) 一” 1 3 东北大学硕士学位论文第三章智能化的o l a p 操作符及其实现 ( 这里的“- ”号表示除了下面列出的记录外的所有记录) 下面的行所对应的数据 以外,“r e s to fw o r l d ”在1 9 9 0 年到1 9 9 1 年产品销售量增加了1 2 ,而造成降低 的主要原因在于以下4 行:“o p e r a t i n gs y s t e m s ”产品“m u l t i ”平台除了在“f a l l ) ” 下面所列的数据外,销售额降低了2 2 ,“o p e r a t i n gs y s t e m s ”产品“m u l t i u s e r m a i n f r a m ei b m ”平台的销售量降低了9 8 ,“o p e r a t i n gs y s t e m s ”产品“w n l 6 ” 平台的销售额降低了8 9 ,“m i d d l e w a r e & o t h ”产品“m u l t i u s e r m a i n f r a m ei b m ” 平台销售额下降了9 1 。图的最后3 行给出了销售额不降反升的3 种产品和平台。 由于返回的结果包含了许多聚合的记录( 这些聚合的记录包含的元组是具有相近 比率的,比率由r a t i o 一列给出) ,所以结果比较紧凑,包含了大量的信息,同 时由于合并的结果,也带来了一些合并误差,这些误差由最后一列e r r o r 给出。 当然用户希望e r r o r 越小越好,但是e r r o r 越小,返回的结果行数就越多,不 便于用户的理解,所以需要做出权衡。用户可以指定返回结果的行数。 p r u c t p u i tup i a t _ 1p l a t f o r m y e r 9 y 队r 1 鹎。r t i oe r r o r a 1 1 ) - a 1 1 ) 洲d( a 1 1 ) 1 6 2 0 0 21 8 2 0 0 51 1 23 4 0 7 0 1 m l l n gs y s t e m sm u l t i l i ) -洲 ) 2 5 3 5 21 9 7 踮o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 先秦诸子散文论语课件
- 18棉花姑娘 公开课一等奖创新教学设计(2课时)
- 化学公司安全培训总结课件
- 化学仓库安全培训内容课件
- 汉语拼音8 zhchshr +公开课一等奖创新教学设计
- 统编版语文二年级上册第三单元语文园地 +公开课一等奖创新教学设计
- 数字版权确权与溯源-洞察及研究
- 麻醉药品和第一类精神药品培训
- 母婴数字健康平台-洞察及研究
- 元音和韵母课件
- 科普:农药毒性分类
- 药事管理与法规
- YC/Z 550-2016卷烟制造过程质量风险评估指南
- 工程水文第3章课件
- GB/T 4032-2013具有摆轮游丝振荡系统的精密手表
- GB/T 34875-2017离心泵和转子泵用轴封系统
- GB/T 21063.4-2007政务信息资源目录体系第4部分:政务信息资源分类
- GA/T 1081-2020安全防范系统维护保养规范
- 02药物不良反应adr课件
- 施工项目成本管理课件
- 文物建筑保护修缮专项方案
评论
0/150
提交评论