




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)提高联机分析处理(olap)性能若干关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文摘要 数据仓库技术的土要目的在丁更蚶地为用户提供决策支持。联机分析处理( o n l i n ea n a l y t i c a l p r o c e s s i n g o l a p ) 是数据仓库提供的重要服务之一也是用户获得决策支持的主要手段。o l a p 系 统川户能对数据进行多方何的深入的分析,这种使川方式对赍询响应速度提出了很高的要求,使 得提高o l a p 卉洵年| 1 分析操竹效率成为数据仓库麻川中的关键问题之一。 本文是在参与一个数据仓_ 芊技术研究课题的基础上着重对提高o l a p 查询分析效率的索引技 术、聚集c u b e 及o l a p 弃询优化苫o l a p 若干艾键技术进行了系统深入的研究。本文的主要研究 一1t r 及其所取得的创造性成栗有: ( 1 ) 研究了d a t ac u b e 的索引技术提出一种能够处理复杂维层次结构情况的维层次编码。维 层次编码充分利h j 了d a t ac u b e 中维的层次性及其语义特性,结合二进制编码与维层次结 构编码对维成员值进行编码。通过二进制操作,可以快速检索出与杏淘关键字相匹配的维 层次编码。同时,墓丁维层次编码定义的层次链掩码,层次掩码及检索函数能够充分利用 多维数据中的语义信息,实现基于语义的检索,减少了i o 开销,提高了o l a p 奁询效率。 ( 2 ) 根据d a t a c u b e 的语义特性及模式中维的层次性提出了多维数据之间的等价关系= - - h c o ,对 d a t ac u b e 进行层次聚类。层次聚类c u b e 用等价类保存聚集记录,同时定义了等价类之间 的 大系。以保存聚集记录之间的层次信息。这样不但节省了存储空间,而且利用聚类 信息及层次信息,可高效的进行各种o l a p 查询,支持多维数据集上的上钻下钻、旋转等 c u b e 诰义操作。同时。为o l a p 奇询导航、o l a p 查询行为分析的实现提供了可能。 ( 3 ) 提山了一种o l a p 脊淘的c a c h e 方案。以层次聚类c u b e 中的等价类作为c a c h e 的基本单 付,冈而c a c h e 的单何人小i 叫定易丁分配空间及进行替换,具有极高的效率与灵活性; 通过定义o l a p 查询中的并种返算,可以使朋不同的方式利h jc a c h e 中的等价类,大大提 高了c a c h e 的性能。 ( 4 ) 提出了一种o l a p 有询集的优化方案。首先提出了一种单o l a p 齐询集的优化方案,然 后在单卉词集优化的基础上,对丁给定的多个o l a p 奄询集,识别公共布询,根据各奄询 之间的) 之系进行帮体优化,产生一个全局晟优执行计划,从而减少了对磁盘的访问次数, 缩短了斋淘执行时间。 关键字:联机分析处理;维层次编码;层次聚类c u b e ;o l a pc a c h e ;o l a p 查询优化 i v a b s t r a c t d a t aw a r e h o u s i n gi s i m p o r t a n c ea s p e c to f d a t a b a s et e c h n o l o g i e s a n di ti su s e dt op r o v i d ed e c i s i o n s u p p o r tf o rb u s i n e s se x e c u t i v e s 0 l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) i s o n eo f t h em o s ti m p o r t a n ts e r v i c e s p r o v i d e db yd a t aw a r e h o u r s i n g a n di tj st h em a i nw a yf o ru s e r st oo b t a i nd e c i s i o ns u p p o r tf r o mt h ed a t a w a r e h o u s e s t h eo l a pt e c h n o l o g ye n a b l e su s e r st og a i ni n s i g h ti n t i od a t at h r o u g lf a s t ,s t e a d y , i n t e r a c t i v ea c c e s st oaw i d ev a r i e t yo fp o s s i b l ev i e w so fi n f o r m a t i o na n dm a k eq u e r yr e s p o n s et i m ea n d a n a l y t i c a le 币c i e o c ya si m p o r t a n ti s s u e si nd a t aw a r e h o u s e , i n t h i sp a p e r i ti se m p h a s i z e dh o wt oi m p r o v et h ee 衔c i e n e yo fo l a pq u e r i e sw i t hs o m ek e y t e c h n o l o g i e so fo l a ps u c ha si n d e xt e c h n o l o g y , a g g r e g a t ec u b ea n do l a pq u e r yo p t i m i z a t i o n t h e r e s e a r c hi sp a r to f t h ep r o j e c tt oi m p l e m e n tap r o t ot y p eo f d a t aw a r e h o u s es y s t e m t h em a i ne o n t r i b u t i o u s a n di n n o v a t i o n so ft h i sd i s s e r t a t i o na r ea sf o i l o w s : ( 1 ) t h t sp a p e rs t u d yt h ei n d e xt e c h n o l o g yf o rd a t ac u b ea n dp r o p o s e st h ed i m e n s i o nh i e r a r c h i c a l e n c o d m “d h e ) w h i c hc a nd e a lw i t ht h eh i e r a r c h i c a is t r u c t u r eo fc o m p l e xd e i m e n s i o u s t h e d h ee n c o d ed i m e n s i o nm e m b e rv a l u eb yu t i l i z i n gt h ed i m e n s i o nh i e r a r c h i c a ia n ds e m a n t i c c h a r a c t e r i s t i c b yu s i n ge l e m e n t a lb i n a r yo p e r a t o r a t i o n ,d h ec a nr a p i d l yr e t r i e v et h em a t c h i n g d i m e n s i o nh i e r a r c h i c a i e l l c o d i n ga n dr e a l i z e i n d e xb a s e do ns e m a n t i c a sar e s u l t ,t h i s e n c o d e i n gc a ng r e a t l yr e d u c et h ed i s ki o s ,a n dh i g h l yi m p r o v et h ee f f i c i e n c yo fo l a p q u e r m s ( 2 ) t h i sp a p e rp r o p o s e sae q u i v a l e n c er e l a t i o n = - - h c o va c c o r d i n gt ot h ed a t ac u b e ss e m a n t i c sa n dt h e d i m e n s i o n sh i e r a r c h yo fi t sp a t t e m ,t h e no rt h eb a s i so ft h ee q u i v a l e n c er e l a t i o n ,t h ep a p e r p r o c e e d st h ed a t ac u b et ob i e r a r c h i c a lc l u s t e r t h ea d v a n t a g eo ft h i sm e t h o dn o to n l yr e f e r st o t h ep r e s e r v a t i o no fa l lt h ea g g r e g a t er e c o r d sb yu s i n ge q u i v a l e n c ec l a s s , b u ta l s om e a n st h e d e f i n i t i o no ft h ec l a s s i f i e di r i f e r m a t i o na sw e l la sh i e r a r c h i c a li r i f e r i f t a t i o n t h er e s u l to f t h e o r e t i c a la n a l y s i sa n di a be x p e r i m e n t s ;n d i e a t e st h a tt h i sm e t h o dc a ne f f e c t i v e l ys a v et h e s t o r a g es p a c e a n dw i t hc l u s t e r i n gi r i f e r m a t i o na n dh i e r a r c h i c a li r i f e r m a t i o n , i tc a na l s o p r o v i d e sk i n d so f o l a pq u e r yw i t hh i g he 币c i e n c y m e a n w h i l e , t h em e t h o dh a st h ea b i l i t yt o s u p p o r ts o m es e m a n t i co p e r a t i o ns u c ha sr 0 | | u d d o w na n dr o t a t e , a n dm a k e si tp o s s i b l et o r e a l i z et h eo l a p0 u e r yn a v i g a t i o na n do l a pq u e r ya n a l y s i s ( 3 ) t h i s p a p e rp r o p o s e sa m e t h o do f c a c h e f o r o l a p q u e r y t h e e q u i v a l e n c ec l a s s m e n t i o n e db e f o r e sab a s i cu n i to f c a c h e a sar e s u l t ,t h ec a c h eh a st h ea d v a n t a g es u c ha su n i f o r mu n i t ,e a s i l y s p a c ea l l o c a t i o na n dr e p l a c e m e n t ,h i g h l yf i e x i b i l i t ya n de f n c i e n c ye t c o nt h eo t h e rh a n d ,w e d e f i n e ds o m eo p e r a t i o no n0 l a pq u e r yw h i c hc a nu t i l i z ec a c h et h r o u g hd i 仃e r e n tw a y s ,t h e n i m p r o v et h ep e r f o r m a n c eo f c a c h eg r e a t ly ( 4 ) t h i sp a p e rp r o p o s e sam e t h o do f m u l t i - o l a pq u e r yo p t i m i z a t i o n w ef i r s tc o n s i d e rt h es i n g l e o l a po u e r ys e t ,t h e ne x p a n dt om u l t io l a pq u e r ys e t s f o rt h eg i v e nm u l t io l a pq u e r y s e t s t w ed i s c e r np u b l i cq u e r ya n dc a r r yo ng l o b a lo p t i m i z a t i o na c c o r d i n gt ot h er e l a t i o ns h i p b e t w e e nt h eq u e r i e s 。t h e np r o d u c eag l o b a lo p t i m u me x e c u t ep l a na tl a s t t h eo p t i m i z a t i o nc a l l a v o i dr e d u n d a n td i s ka c c e s sa n di m p r o v et h ee f n e i e n c yo f t h eo l a pq u e d e s k e yw o r d s :o n l i n ea n a l y t i c a lp r o c e s s i n g ;d i m e n s i o nh i e r a r c h i c a le n c o d i n g ;h i e r a r c h i c a l c l u s t e rc u b e ; o l a pc a c h e ;o l a pq u e r yo p t i m i z a t i o n v 表2 1 表2 2 表5 i 表5 2 簖单 寺翻j 素 表格索引 编码位幽索引 各个杏询计划的e s t c o s t 值 ,1 2 5 4 七类多维数据集信息5 4 v i l l t a b l e2 1 t a b l e2 2 t a b l e5 1 t a h i e5 2 s i m p l eb i t m a pi n d e x l i s to ft a b l e s e n c o d e db i t m a pi n d e x ,1 2 t h ee s t c fv a l u eo f e a c hq u e r yp l a n 5 4 t h e ;n f o r m a t i o no f s e v e r nd a l ac u b e s 5 4 幽 l 鳘l1 2 幽3 1 幽3 2 幽3 3 幽3 4 幽3 5 幽3 6 幽3 7 幽4 1 | ! | 4 2 幽4 3 幽4 4 l 垫i4 5 幽4 6 幽4 7 幽4 8 幽4 9 幽4 1 0 幽4 1 1 l 鳘l4 1 2 幽4 1 3 | 鳘】4 1 4 幽4 1 5 幽4 1 6 幽4 1 7 幽5 1 i 鳘i5 2 幽5 3 幽5 4 幽5 5 幽5 6 幽5 7 幽5 ,8 幽5 9 i 墨i5 1 0 插图索引 o l a p 系统帮体结构4 o l a p 服务器原刑系统一5 产品维维层次有向图1 4 产鼎维维层次有向幽边编码1 4 层次编码与维层次编码1 6 维层次编码规格化执行过程1 9 维层次编码厍缩性能对比2 3 索引时间对比一2 3 语义卉啕所 比例对奄询时间的影响2 3 基表t 2 6 基表t 对应的d a t ac u b ec u b e , m e , 单元格2 6 由;生成的六个等价类2 8 等价类格2 8 等价类表2 8 苫价类格3 0 乐缩存储斤的筲价类表3 0 p c a 算法执行过程一3 2 增域更新斤的等价类格3 3 增讨更新后的存储苜价类表3 3 含有层次的t p c r 数据集3 6 维数对存储空间的影响3 7 维数对执行时间的影响3 7 层次数对存储空间的影响3 7 层次数对执行时间的影响3 7 基袭元组数对存储空间的影响3 8 维数对存洵响应时间的影响3 8 算法5 ,l 执行过袢。4 2 基丁层次聚类的o l a pc a c h e 体系结构4 4 最小卉淘基集算法执行过程4 8 两个卉洵集及其杏洵计划代价5 1 c a c h e 方式对卉洵性能的影响5 4 备类多维数据集的闽值p 5 4 l r u - sh l r u 的性能对比5 5 单个o l a p 存询集优化效果5 5 算法性能对比5 5 卉向集数日对优化效果的影响5 5 x f i g u r ei 1 f i g u r e1 2 f i g u r e3 1 f i g u r e3 2 f i g u r e3 3 f i g u r e3 4 f i g u r e3 5 f i g u r e3 6 f i g u r e3 7 f i g u r e 4 1 f i g u r e4 2 l i s to ff l g u r e s o l a ps y s t e ma r c h i t e c t u r e 4 o l a ps e r v e rs y s t e mp r o t o t y p e 5 d i m e n s i o nh i e r a r c h i c a ld i r e c t e dg r a p ho f p r o d u c td i m e n s i o n 1 4 e d g ee n c o d i n gf o rd i m e n s i o nh i e r a r c h i c a ld i r e c t e dg r a p ho f p r o d u c td i m e n s i o n 1 4 l e v e ie n c o d i n g a n dd i m e n s i o nh i e r a r c h i c a le n c o d i n g 1 6 t h ee x e c u t ep r o c e s so f d i m e n s i o nh i e r a r c h i c a le n c o d i n g ss t a n d a r d i z a t i o n 1 9 t h ec o m p r e s s i b i l i t yc o m p a r i s o no f d i m e n s i o nh i e r a r c h i c a le n c o d i n g 2 3 1 r h ec o m p a r i s o no fi n d e xt i m e 2 3 t h ep r o p o t i o no f s e m a n t i cq u e r yf l u e c eo nq u e r yt i m e 2 3 t h eb a s et a h i et , i t :1 6 c e l l si nd a t a c u b e c u b e , a l e 。o f b a s e l _ a b l e t 2 6 f i g u r e4 3 t h es i xe q u i v a l e n c ec l a s s e sg e n e r m e db y2 m h 2 8 f i g u r e4 4 l a r i c eo f e q u i v a l e n c ec l a s s e s 2 8 f i g u r e4 5 t a b l eo f e q u i v a l e n c ec l a s s e s 2 8 f i g u r e4 6 l a t t i c eo f e q u i v a l e n c ec l a s s e s ,3 0 f i g u r e4 7c o m p r e s s i v et a b l eo f e q u i v a l e n c ec l a s s e s :i ( ) f i g u r e4 8 p r o c e s so f a l g o r i t h mp c a ,3 2 f i g u r e4 9 l a t t i c eo f e q u i v a l e n c ec l a s s e sa f t e ri n c r e m e n t 3 3 f i g u r e4 1 0c o m p r e s s i v ee q u i v a l e n c ec l a s s e st a b l ea f t e ri n c r e m e n t 3 3 f i g u r e4 iit p c - rd a t as e tw h i c hh a v eh i e r a r c h y 3 6 f i g u r e4 1 2e f f e c t o f n u m b e r o f d i m e n s i o no ns t o r a g es p a c e 3 7 f i g u r e4 1 3e f f e c t o f n u m b e r o f d i m e n s i o no nr u n n i n g t i m e 3 7 f i g u r e 4 1 4e f 艳c t o f n u m b e r o f l e v e l so ns t o r a g es p a c e 3 7 f i g u r e 4 1 5e 行b c t o f n u m b e r o f i e v e l so n r u n n i n g t i m e 3 7 f i g u r e4 1 6e f f b c to f n u m b e r o f t u p l e so ns t o r a g es p a c e 3 8 f i g u r e 4 1 7e f 艳c t o f n u m b e r o f d i m e n s i o n s0 nq u e l 3 t i m e 3 8 f i g u r e5 1 p r o c e s so f a l g o r i t h m5 1 z l :! f i g u r e5 2 o l a pc a c h ea r c h i t e c t u r eb a s e do nh i e r a r c h i c a lc l u s t e r 4 4 f i g u r e5 3 p r o c e s so f a l g o r i t h m5 3 4 8 f i g u r e5 4 t w oq u e r ys e ta n dt h ec o s to f q u e r yp l a n s 5 1 f i g u r e5 ,5 e f f e c to f c a c h eo nq u e r yp e r f o r m a n c e 5 4 f i g u r e5 6 t h et h r e s h o l dv a l u e 口o f e a c hd a t ac u b e 5 4 f i g u r e5 7 p e r f o m a n c ec o m p a r i s o nb e t w e e nl r ua n dh l r u 5 5 f i g u r e5 8 t h eo p t i m i z ee f 艳c tf b rs i n g l eq u e r ys e t 5 5 f i g u r e5 9 t h eo p t i m i z ee f f e c tc o m p a r i s o no fa l g o r i t h m 5 5 f i g u r e5 1 0e f f b c t o f n u m b e r o f q u e r ys e t so no p t i m i z a t i o n 5 5 x 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名:拉揖玺日 期:2 堂2 甲 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:担避聋导师签名: 1 日期: ,嗽j 母 1 1 研究背景 第一章前言 数据仓芊技术的土要目的在丁更蚶地为用户提供决策支持。联机分析处理( o n l i n ea n a l y t i c a l p r o c e s s ,o l a p ) 是数据仓库提供的巫要服务之一,也是h j 户获得决策支持的重要手段 i - 7 l 。 6 0 年代末e e c o d d 提出的关系数据模型促进了关系数据库以及联机事务处理的发展。但随着 各种麻h | 的发展数据龉的数颦级不断增大,同时h j 户的奄询需求也日趋复杂,所涉及的不仅是一 张大系表的一条或儿条记录,而是有可能要对多张表中上千万条记录的数据进行数据分析与信息综 合。为了提高性能,人 f j 常常在戈系数据库中放宽对冗余的限制,引入了统计和综合数据,但这些 统计综合数据的席h j 逻辑是分散杂乱、1 r 系统化的,因此分析功能有限,结构不灵活而且维护困难。 计多软f 1 厂商在笑系数据库上开发了专门的数据综合引擎,辅助以更加直观的数据访问界面,力图 统一分散的公共席h j 逻辑,在短时间内响应非数据处理专业人员的复杂查询要求,1 9 9 3 年,e e c o d d 将这类技术定义为o l a p ! “。 o l a p 专rj 殴计h j 丁支持复杂的分析操作,侧重于对决策人员和高层管理人员的决策支持,用 来帮助州户有效、方便地完成信息的多维分析工作可以应分析人员的要求快速、灵活地进行大量 数据的复杂杏洵处理,弗以各种表现形式将查询结果早现给用户,让用户可以从不同的主题和角度, 凭着专业的育觉,通过复杂的卉询、数据对比、数据挖掘和报表米实现不同层次的分析 在实际廊h 中。o l a p 存询及d a t a c u b e 语义操作的响应时间必须满足交互环境的需要,这对奁 询响应速度提山了更高的要求。在d a t a c u b e 中既存放了细常数据,也存放了不同粒度上的聚集值, 数据存储封巨人,计算费时,冈此使得d a t ac u b e 的存储方式以及o l a p 查询优化成为提高o l a p 布词效率的天键。 目前提高o l a p 奄询和分析操作效率的重要论题有: ( i ) 多维结构的索引技术。为了提高o l a p 夜啕的效率,需要对d a t a c u b e 数据进行索引。随 着数据讨的增k = ,o l a p 需要处理的数据舒也将达到t b 或p b 级别同时,分析问题的 深度要求也越来越高,冈而d a t a c u b e 中的维也就更多,维层次之间的关系也就变得更加 复杂。如何针对复杂的维结构建立索引,是高性能o l a p 研究中一个亟待解决的问题。 ( 2 ) 语义信息的利埘。d a t ac u b e 中的数据都是有语义的,根据语义可以作某些推理,例如: 如果某种护肤品在冬天的销售额等于全年的销售额,那么就可以据此推出一些结论。利用 语义信息及层次信息,可高效的进行各种o l a p 查询以及支持多维数据上的上钻下钻、 旋转筲c u b e 诰义操作,同时,为o l a p 查询导航、o l a p 杳询行为分析的实现提供了可 能。冈此研究d a t ac u b e 中保存的语义信息、利用语义信息进行c u b e 创建及c u b e 增量更 新笛成为一个挑战性的课题。 ( 3 ) o l a p 有询仇化。o l a p 系统需要高效的处理埘户提交的存询请求,随着用户数与齑询请 求的不断增多,多o l a p 存淘的优化问题也成了一个至关重要的问题。c a c h e 技术是优化 o l a p 卉询效率的有效手段对o l a p 杏淘的中间或最终结果进行保存,以供多次使 川,从而减少i o 代价,提高总体奄询的效率。c a c h e 的内容及c a c h e 的管理都将对o l a p 香询效率产生丈键性的影响,因此,如何对c a c h e 的内容进行有效管理是一个值得研究的 问题。同时,对于一个或多个o l a p 查询集,需要制定一种o l a p 全局查询优化的策略, 使得完成所有杏洵的代价最小。 本文将士要针对以上这些论题,即d a t a c u b e 索引技术、d a t a c u b e 存储技术以及o l a p 查淘优 化苫关键技术展开深入系统的研究。 东南人学博上学位论文 1 2 研究现状 1 2 1 多维索引技术 为了提高o l a p 杏淘的响应速度。需要对d a t a c u b e 的维与层次有针对性地采用索引技术。o l a p 面向的数据与o l t p 数据相比相对稳定,但d a t a c u b e 的多维数据模式远比关系模式复杂因此多维 索引技术与传统的数据序索引技术有很人的不同。 现有的多维索引技术可人致分为4 类。第1 类方法是基于多维数组的索引,即将d a t ac u b e 看 成是一个具有士键属性的多维数组,仿丁任何属性组合之上的任何范嗣的检索结果都可以很快地通 过对偏移锗的计算得剑。但是,人多数d a t ac u b e 数据并不稠密,采h j 多维数组的方法会造成存储 空间的极人浪费。同时这类基丁多维数组的索引无法体现层次笑系与语义关系。第2 类为文献p 1 中的层次方法,即首先在某个维上建立一个索引树,弗存储这个维上的汇总度量。维上的维成员值 分别包含f 一个维的索引,并存储这两个维组合对应的汇总度链,依此类推。通常这样的索引树的 数讨及存储空间复杂度和维与层次数成指数关系,文献1 9 1 讨论了如何基于高频率的查询削减索引树 的数凿。这种层次索引方法的主要优势是处丁二高层次的聚集数据比低层次较为详细的数据能更快地 被检索刨。但索引本身所需的存储空间增长过快,由此会带米更新效率的低下,而且平均检索效率 也受士0 由人刑索引结构引起的缓存雨i 嵫盘性能f 降的影响。第3 类为最初专为空间数据设计用于空 间卉淘的动态糸引结构,它是一种高度平衡的树,由中间节点和叶子节点组成实际数据对象的最 d , 9 1 - 接矩形( m b r ) 存储在n - i 1 ,点中,中间廿点通过聚集其低层节点的外接矩形而生成。人们在 此墓础上针对不同的空闻运算提出了不同改进,形成了一个繁荣的索引树族,如r 树”,x 一树”“, m 一树,t v 树笛。第4 类是位幽索引及其变种,利用位图索引分别索引每个维空间,由于位图 象引不适丁j 高基数的数据,而且存储杏淘代价过高,因此出现了一些位图索引的变种:区域位图索 引 1 4 1 分段付幽索引l l “,编码何图索引i l ”饽。 目前的多维索引结构还存在以f 一些问题: ( 1 ) 没有充分考虑复杂维层次幺上构f 的索引问题。由丁维层次结构的复杂性,冈而聚集数据问的 艾系也将更为复杂。现有的多维索引技术都没有考虑剑多层次链情况一f 的索引问题。 ( 2 ) 对o l a p 奄询的支持还不够全面。o l a p 齐询具有多维性,随机性等特点,而且有时还会涉 及剑语义杏淘。现有的多维索引技术大多是基于多维结构的索引,无法自然的处理语义相关查询。 ( 3 ) 一般都只有复杂的结构雨i 算法,难丁实现与维护。 i 2 2 层次聚类c u b e d a t a c u b e 计算的核心是聚集,聚集计算的性能如何往往成为戍用中的瓶颈。在应用中,o l a p 响麻速度是土要日标,为了使交互式的分析在儿秒钟之内做出响应成为可能,通常预先计算好不同 细1 y 层次和不同维属性集合上的聚集。把所有可能的聚集即全聚集都计算出来,可以得剑最快的系 统弃询响府时间,但即使暂且不管计算聚集所花费的处理时间,只是随着维数的增加,这样做就有 可能导致数据爆炸在商业麻h j 中,全聚集| i - 据数倍丁:原始数据的空间,另外它的更新维护也需要 花费很长时间。 理论界在数据仓库的c u b e 计算 ”1 、c u b e 预聚集处理2 0 2 1 2 2 , 2 ”、c u b e 压缩1 2 4 - 3 3 1 等方面进 行了人姑研究。目前的研究土要有两个趋势,一种是从多维的结构上进行优化。d d c ( d y n a m i cd a t a c u b e ) 方法与d o u b l er p s 方法【2 2 1 在一定年擘度上降低了数据更新费用及更新时间。但是这些方法需 要人昔的额外空间,为了降低存储空间及其额外存储费川,减少,额外的更新费心和物理磁盘延迟访 问时间,r i e d e w a l d 苜人提山s r p s ( s p a c e e f f i c i e n tr e l a t i v ep r e f i xs u m ) 方法和s d d c ( s p a c e - e f f i c i e n t d y n a m i cd a t ac u b e ) 方法 2 】l ,这两种c u b e 是在r p s 羽id d c 的基础上进行改进,只需要与d a t ac u b e 同样的存储空间米进行计算。但是,在以上这些传统的c u b e 插入或删除某些数据单元格进行数据更 2 第一市前言 新时会造成人草的数据单元更新,尤其是在插入新维与新层次时,可能会造成c u b e 重构,更新代 价太高。 d a t ac u b e 中存在着诰义信息。因此另一种d a t ac u b e 预计算技术的趋势是利用d a t ac u b e 中的 语义信息来对视幽进行计算与维护文献p 4 1 研究了如何从d a t ac u b e 的模式信息中取得语义信息, 文献1 3 5 - 3 6 i i j i ! l j 提山了q u o t i e n t c u b e 的概念,讨论了保存d a t a c u b e 诰义的相关问题。但这些方法都没 有考虑剑多维数据集模式中维的层次性,所捉剑的d r i l l d o w n 与r o l l - u p 操作并不是对维的层次进行 上钻与r 钻操干f ,而是将该维的具体值直接聚集剑 a l l ”,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025昆明市公有房屋管理中心劳务派遣人员(2人)考前自测高频考点模拟试题(含答案详解)
- 2025年智能电能表及配件项目发展计划
- 2025年甘肃省兰州市西北师范大学诚聘海内外高层次人才模拟试卷及答案详解一套
- 2025年饮料罐铝板项目发展计划
- 2025广西南宁市消防救援支队政府专职消防员招聘3人模拟试卷完整参考答案详解
- 2025年福建省晋江晋文坊商业管理有限公司招聘4人模拟试卷及参考答案详解一套
- 2025年山东职业学院公开招聘人员(28名)考前自测高频考点模拟试题及完整答案详解一套
- 2025年证券经纪代理与营业部服务项目发展计划
- 2025年雅安市委组织部雅安市卫生健康委员会遴选公务员(参公人员)的5人模拟试卷及参考答案详解1套
- 2025昆明市滇池管理局引进高层次人才(1人)模拟试卷有完整答案详解
- 读后续写+小狗Deedo被留下陪伴小主人+讲义 高三英语二轮复习
- 麦肯锡的《问题分析与解决技巧》课件
- 加油站新进员工培训计划方案
- CJJ-T 135-2009 (2023年版) 透水水泥混凝土路面技术规程
- 武汉天河机场招聘笔试题及答案
- 湿陷性黄土湿陷量计算表
- 在课堂教学中寻找发展学生科学思维的生长点课件
- 因离婚给孩子申请改姓协议书
- 大众蔚揽保养手册
- 中共一大会址
- 01第一章-稻谷的加工汇总课件
评论
0/150
提交评论