(计算机应用技术专业论文)基于p2p技术的多维数据集存储和查询研究.pdf_第1页
(计算机应用技术专业论文)基于p2p技术的多维数据集存储和查询研究.pdf_第2页
(计算机应用技术专业论文)基于p2p技术的多维数据集存储和查询研究.pdf_第3页
(计算机应用技术专业论文)基于p2p技术的多维数据集存储和查询研究.pdf_第4页
(计算机应用技术专业论文)基于p2p技术的多维数据集存储和查询研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于p2p技术的多维数据集存储和查询研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j 二p 2 p 技术的多维数掘集挥仳邗奔渤“l f 究 摘要 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 是建立在数据仓库基础上 的一种支持多维分析的决策支持工具,也是用户获得决策支持的主要手段。随着 时间的推移和数据量的积累,传统的o l a p 技术架构有待进一步改进才能更好的 满足用户的决策分析需求。在p e e r t o p e e r 技术不断成熟的今天,利用多个o l a p 网络节点之间的多维数据集( d a t ac u b e ) 进行协调合作来完成决策分析,不仅可以 极大地提高o l a p 查询分析的效率,而且可以均衡o l a p 服务器的负载。在实际 的应用运行中,如何去实现p 2 p 环境下各个节点之间的协同合作成为了数据仓库 应用中的关键问题。 本文根据上面提出的问题,建立了一种p 2 p 网络中o l a p 节点的决策需求由 多个其它o l a p 节点共同提供服务的模型,打破原来由单一服务器服务的方式, 提升了o l a p 决策分析的效率,均衡了o l a p 服务器的负载。该模型主要是通过 以下三个方面的设计来实现: ( 1 ) 在已有的多维数据集优化存储策略的基础上,根据p 2 p 环境的特点,利用 多维数据集的维层次链的特性,本文提出将多维数据集按照语义维层次链和扩展 语义维层次链的cs m d t r e e ( c o m p r e s ss e m a n t i cm u l t id i m e n s i o n t r e e ,语义压缩 多维数据树) 模式进行d a t ac u b e 存储,能方便有效地实现p 2 p 环境下不同节点之 问的多维数据集的共享。 ( 2 ) 通过构建p 2 p 环境下的o l a p 网络框架结构,灵活地实现o l a p 节点的动 态加入和退出,并提出了一种按照扩展语义维层次链的多维数据集分布式查询 d q d c ( d i s t r i b u t e dq u e r yd a t ac u b e ) 分析算法。该算法实现了p 2 p 网络中语义级 的多节点d a t ac u b e 数据共享,从而提高了p 2 p 环境下的整体决策分析性能。 ( 3 ) 根据p 2 p 网络环境的结构特性以及o l a p 节点对多维数据的分析需求,将 o l a p 网络节点按照节点之间需求是否相同来进行兴趣划分。通过构建基于兴趣 的虚拟层次网的基础上,提出了一种基于o l a p 节点兴趣协助i a d s ( i n t e r e s ta s s i s t d a t a c u b es e a r c h ) 的查询分析算法。该方法可以减少o l a p 节点在进行查询分析 时对多维数据集的搜索范围,进一步优化了p 2 p 环境下对多维数据集的决策分析 效率。 、 关键词:联机分析处理( o l a p ) ;维层次链;扩展语义维层次链;d q d c 算法;1 a d s 算法 弼il j 学位论艾 a b s t r a c t o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) i sak i n do fd e c i s i o ns u p p o r t i n gt o o l ,w h i c h i sb a s e do nd a t aw a r e h o u s ea n ds u p p o r t sm u l t i d i m e n s i o na n a l y s i s o l a pi sa l s oa n i m p o r t a n tm e a n s ,a n dt h eu s e rc a na c q u i r ed e c i s i o ns u p p o r t i n gf r o mi t w i t ht h et i m e p a s s e sb ya n dt h ed a t a sa m o u n tb e c o m e sl a r g e ra n dl a r g e r ,t h et r a d i t i o n a lt e c h n o l o g y o fo l a ps h o u l db ei m p r o v e di no r d e rt om e e tt h eu s e r sn e e do fd e c i s i o na n a l y s i s a n dn o wt h et e c h n i q u eo fp 2 pc o n t i n u e st og r o w , w ec a nu s em u l t i - d i m e n s i o n a ld a t a c u b ea m o n gs o m en o d e so fo l a pn e t w o r kt oc o o r d i n a t ef o rf i n i s h i n gt h ed e c i s i o n a n a l y s i s b e c a u s en o to n l yi tc a ni m p r o v ee f f i c i e n c yo fo l a p sq u e r ya n da n a l y s i s , b u ta l s oc a nb a l a n c et h e0 l a ps e r v e r sl o a d s oh o wt oc o o r d i n a t et h en o d e su n d e rt h e p 2 pe n v i r o n m e n tb e c o m e sak e yi s s u ef o rt h ed a t aw a r e h o u s ei np r a c t i c e b a s e do nt h ea b o v i n gq u e s t i o n ,t h i sp a p e re s t a b l i s h e sak i n do fn o d e sq u e r y u n d e rp 2 pe n v i r o n m e n t ,w h i c hp r o v i d e si t ss e r v i c eb yo t h e ro l a p sn o d e s a n dt h e m o d e lt h a tw ea b s o r bb r e a k st h em a n n e ro fp r o v i d i n gs e r v i c eb yas i n g l es e r v e r ,w h i c h i m p r o v et h ee f f i c i e n c yo fo l a p sd e c i s i o na n a l y s i sa n db a l a n c et h eo l a p s e r v e r s l o a d a n dt h i sm o d e li sr e a l i z e df r o mt h eb e l o w i n gt h r e ed i r e c t i o n s : ( 1 ) t h es t o r a g em o d e li sb a s e do nt h eo p t i m i z e dm u l t i - d i m e n s i o nd a t as e ta n dt h e t r a i to fp 2 pe n v i r o n m e n t a n di ta l s om a k e su s eo ft h ec h a r a c t e ro fm u l t i d i m e n s i o n d a t as e tt os t o r e ,w h i c hi sa c c o r d i n gt ot h es e m a n t i c sd i m e n s i o nh i e r a r c h yc h a i na n d t h ee x t e n d e ds e m a n t i c sd i m e n s i o nh i e r a r c h yc h a i nt oc o m p r e s st h em u l t id i m e n s i o n d a t as e t b yt h i sw a y , w ec a nr e a l i z et h es h a r eo fm u l t i d i m e n s i o nd a t as e ta m o n g d i f f e r e n tn o d e si nt h ep 2 pe n v i r o n m e n t ( 2 ) t h r o u g he s t a b l i s h i n gt h ef r a m e w o r ko fp 2 pn e t w o r k ,t h es t r u c t u r er e a l i z e s t h ea d d i t i o na n de x i to fo l a pn o d ed y n a m i c a l l y a n dt h i sp a p e ra l s op r o p o s e sak i n d o fa l g o r i t h m ,w h i c hq u e r i e st h ed a t aa c c o r d i n gt ot h em u l t i d i m e n s i o nd a t ad i s t r i b u t e d q u e r yo ft h ee x t e n ds e m a n t i c sc h a i n b e c a u s et h ea l g o r i t h mr e a l i z e st h ed a t as h a r eo f m u l t i p l en o d e sf r o mt h es e m a n t i c sl a y e ri nt h ep 2 pn e t w o r k ,i tw h o l ei m p r o v e sq u e r y e f f i c i e n c y ( 3 ) b a s e do nt h e t r a i to np 2 pn e t w o r ke n v i r o n m e n ta n dt h ea n a l y s i so f m u l t i d i m e n s i o nd a t ao ft h e0 l a pn o d e s t h em o d e ld i v i d e st h en o d e so fo l a pi n t o s e v e r a lp a r t sa c c o r d i n gt ow h e t h e rt h e i rn e e di st h es a m eo rn o t t h r o u g he s t a b l i s h i n g av i r t u a ln e t w o r k ,w h i c hi sb a s e do ni n t e r e s t ,t h ep a p e rp r o p o s e sa na l g o r i t h m ,w h i c h i sb a s e do nt h eq u e r ya n a l y s i so fo l a p si a d s a n dt h i sm e t h o dc a nr e d u c et h e n i 绣f j p 2 p 芝术的多维数据集存僻跏盘种研究 s e a r c h i n gs c o p e j lh e no l a pi s q u e r y i n ga n a l y s i s i t a l s of u r t h e ro p t i m i z e st h e e f f k i e n c yo fm u l t i d i m e n s i o nd a t as e t sa n a l y s i si nt h ep 2 pe n v i r o n m e n t k e yw o r d s :o l a p ;d i m e n s i o nh i e r a r c h yc h a i n ;e x t e n d e dd i m e n s i o nh i e r a r c h y c h a i n ;d q d ca l g o r i t h m ;i a d sa l g o r i t h m i v 硕t j 学位论文 插图索引 图1 1产品a 华中各地区销售维4 图1 2产品a 华中地区销售维4 图1 3c s 模式的o l a p 结构5 图1 4b s 模式的o l a p 结构6 图2 1r o l a p 结构图13 图2 2m o l a p 结构图1 4 图2 3c s 网络模式结构图1 7 图2 4p 2 p 网络模式结构图1 7 图3 1时间维层次问的关系图2 l 图3 2时间维层次间的c 关系图2 l 图3 3时间维维层次链图2 2 图3 4d m t r e e 结构图2 5 图3 5d m t r e e 整体结构模型2 6 图3 6c s d m t r e e 存储模式构建流程图2 6 图4 1p 2 p 网络模型演变缩略图2 8 图4 2o l a p 网络结构模型图3 0 图4 3o l a p 节点部署和操作流程图3 1 图4 4o l a p 节点加入和退出网络流程图3 3 图4 5d q d c 算法流程图一3 4 图4 6d q d c 算法时间复杂度对比图3 5 图4 7o l a p 查询执行时间图3 6 图5 1基于兴趣划分的o l a p 虚拟网络结构图3 9 图5 2 兴趣发布算法结构流程图4 2 图5 3i a d s 算法结构流程图4 4 图5 4i a d s 算法和d q d c 算法性能比较图4 6 v i i 墟j j :p 2 p 术的彩维数据使存# 和a 渤研究 表2 i 表2 2 表3 1 表5 1 表5 2 附表索引 o l a p 与o l t p 的对比l2 r o l a p 与m o l a p 的比较15 s a l e p r o d u c t 基本表2 3 o l a p 节点兴趣划分标识表4 l 兴趣域共享式路由链表4 1 v i i i 硕f j 学位论文 1 1 研究背景 第l 章绪论 随着数据库技术的日益完善,企业内部积累了大量的数据。同时由于计算机 技术的普遍应用,承载信息的数据随着时间的推移而不断增长,并且分布在不同 的系统平台上,具有多种存储形式。而信息对于一个企业的生存和发展发挥着十 分重要的作用。面对大量复杂的数据,如何去提取用户有价值的信息,从多角度 去分析客户的行为特征是当前o l a p 技术的一个研究热点。因此,如何从这些海 量数据中获取对企业决策有价值的、深刻的信息已经成为企业决策管理人员面临 的难题i l l 。 为了解决这一难题,自2 0 世纪7 0 年代提出决策支持概念以来,人们在决策 支持系统的理论及应用上做了大量的研究工作,使得联机分析处理技术逐渐发展 起来。到了2 0 世纪9 0 年代,随着存储成本的大幅度降低,以及企业级数据仓库 的广泛建立,各大企业迫切需要将长期积累的大量历史数据转变为可用的信息, 为决策者提供决策支持信息。于是,1 9 9 3 年e f c o d d 等人将这类命名为联机分 析处理( o n l i n ea n a l y t i c a lp r o c e s s ,o l a p ) 12 j 技术。这种技术就是利用大量的历史 数据,根据用户的不同需求,快速、灵活的对这些数据进行复杂的查询处理,提 供面向分析的多维模型,使用多维分析的方法,从不同的角度、不同的侧面或层 次对数据进行分析,并以直观、易懂的形式将查询结果提供给各种决策人员,使 他们能够迅速、准确地掌握企业的运营情况,了解市场的需求【l 5 j 。 随着o l a p 技术进一步的研究和应用,使得o l a p 技术取得了长足的发展, 不管是传统的c s 模式的决策分析还是目前广泛使用的b s 模式的决策分析,都 对海量的数据快速决策分析、企业全局的战略决策和长期趋势分析提供了有效的 支持;给企业的发展和竞争带来了不容忽视的作用。然而,随着时间的推移,企 业数据量的剧增,传统的c s 模式和b s 模式的决策分析方式已经显现出了诸多 的不足。 在实际应用中,用户对数据的分析已经不再是单个服务器或单个企业的数据 分析,而是对多个服务器或者是多个部门、多个企业的数据分析。尤其是在当前 的网络化环境下,特别是p e e r t o p e e r 技术不断成熟的今天,多个不同的d a t ac u b e 进行协调合作来完成决策分析成为可能。因此,在网络化环境下进行大量历史数 据的多维分析时,如何提高o l a p 的查询决策效率,做出快速响应,以及建立更 完善的多维数据模型成为诸多学者专家研究讨论的热点。 幕于p 2 p 技术的多维数掘集存储和查询研究 目前关于p 2 p 环境下o l a p 查询分析效率的研究工作十分活跃,主要的研究 课题有: ( i ) 在p 2 p 环境下,每个节点存储的多维数据集都是o l a p 决策分析的数 据来源,也是完成o l a p 查询的基础。如果一个网络节点的决策分析需要从几个 其他不同的网络节点处获取同一多维数据集的不同数据单元,那么按照传统的多 维数据集存储方式就需要每一个节点根据特定条件进行聚集运算才能实现,这样 的决策分析效率低下,也违背了p 2 p 技术的初衷。因此,在p 2 p 环境下对多维数 据集的存储还有待进一步的研究。例如多维数据集的模式匹配【6 】等就给多维数据 集的存储研究提供很好的思路。 ( 2 ) 在实际应用中,如何充分地利用存在数据仓库中的海量数据,用合理的 数据查询分析方式满足用户逐层分析、更直观、灵活地展现分析结果的需求,提 高o l a p 查询分析效率,是影响企业发展的重要因素。在b s 模式下,使用动态 缓存池以及使用分布式c a s h 7 】的o l a p 决策分析方法难以实现p 2 p 环境下多维数 据集的决策分析。那么就需要设计一种合理的多维数据查询分析算法实现o l a p 的高效查询。 ( 3 ) 在现有的p 2 p 技术相当成熟的今天,如何预先定义聚集数据来提高用户 响应的效率,建立一个完善的多维数据模型,以满足现实应用对多维数据表示和 操作的需求,支持维层次结构相关的o l a p 操作。以及优化系统的网络环境,降 低系统查询分析的时间复杂度,高效完成决策分析成为数据仓库又一重要课题。 本文将主要针对以上这些课题,即d a t ac u b e 的存储模型,基于存储模型的 查询算法设计和优化展开了深入系统的研究。 1 2 研究现状 1 2 1 多维数据集的存储 多维数据集是在数据仓库中实现o l a p 查询的数据基础。o l a p 查询及c u b e 语 义操作如上钻、下钻、旋转等操作,都是在d a t ac u b e 上进行的多维分析。在d a t a c u b e 中不仅以多维多层次的方式存储了细节数据,而且存储了各个粒度上的聚集 值。然而,一般情况下,聚集记录的个数往往是基表( b a s et a b l e ) 元组个数的几百 倍或几千倍,要占用g b 甚至是p b 级的存储空间,花费很长的计算时间。因此, 要提高o l a p 的决策分析效率,首先需要解决多维数据集的存储效率问题。 对于多维数据集的存储,理论界进行了大量的相关研究。主要是从以下的两 个方面进行研究:一方面是从多维数据集的多维结构上进行优化。例如d d c ( d y n a m i cd a t ac u b e ) 隅】存储方式需要大量额外的空间。而文献【9 】对文献【8 】的d d c 算法进行了改进,只需要与d a t ac u b e 同样的空间进行计算就可以实现多维数据集 2 硕l :学位论文 的决策分析,但是在对这些d a t ac u b e 进行插入和删除时可能会导致c u b e 重构,更 薪维护的代价太大。另一方面根据d a t ac u b e 中的语义信息进行d a t ac u b e 的压缩 存储。因此,很多人开始研究采用预计算的方式进行d a t ac u b e 的存储,利用d a t a c u b e 中的语义信息进行视图的计算和维护。例如文献【8 】研究了如何从d a t ac u b e 的模式中获取语义信息;文献【1l ,l2 讨论了语义相关问题。这些相关的研究都没 有考虑到语义维中的层次性,因而影响了实际的应用。 目前网络技术日益成熟并得到了广泛应用,用户的数量也随之急剧增加。上 述的研究不管是从节约多维数据集的存储空间角度考虑,还是从多维数据集的语 义信息进行挖掘都没有办法提高o l a p 的决策分析效率,减轻o l a p 服务器的负 载。因此,文献 1 3 】针对p 2 p 环境下的数据一致性问题提出了一个逻辑框架;文献 1 4 】提出了一种d c a t r e e 的存储模型,不仅能提高d a t ac u b e 更新的效率,而且 其树形结构也实现一定的o l a p 模式匹配;文献【1 5 ,1 6 】介绍了p 2 p 环境下某类特定 查询的算法;文献【6 提出在p 2 p 网络中利用分布式c a s h 来存储频繁使用的部分公 共的d a t ac u b e 结果集,但是随着数据的不断积累,分布式c a s h 成为了决策分析的 性能瓶颈;文献【7 】介绍了p 2 p 网络环境下d a t ac u b e 的模式匹配算法,该算法对p 2 p 环境下多个o l a p 服务器共同协作的条件下优化了o l a p 的联合查询。但是这种 o l a p 查询完全是由o l a p 服务器来完成,没有最大限度的减轻o l a p 服务器的负 载,因此影响了o l a p 决策分析的性能。 从上面的描述可以知道,当前p 2 p 环境下d a t ac u b e 的存储还存在如下困难: 1 ) d a t ac u b e 的模式匹配只能在服务器中完成,采用怎样的d a t ac u b e 存储方 式能将模式匹配分配至t j p 2 p 网络中的每一个o l a p 节点处完成; 2 ) 将d a t ac u b e 的存储空间由单一服务器扩展至t j p 2 p 网络中的每一个o l a p 节 点后,采用怎样的存储方式可以更好地为其他节点提供聚集运算的服务, 真正实现p 2 p 环境下每一个节点既是服务的享受者,又是服务的提供者。 随着当今p 2 p 技术的不断成熟,采用传统的多维数据集存储方式已经难以满 足用户对数据进行决策分析的性能要求。因此,在p 2 p 环境下设计一种更为合理 的存储方式才能真正提高用户进行o l a p 决策分析的性能。 1 2 2 多维数据集的模式匹配 为了更好的进行o l a p 查询,很多单位与企业都建立了本地的数据仓库与 d a t ac u b e 。在当前的网络化环境下,多个企业共同协作来完成决策分析已经是广 大企业的发展需求。例如:一个在全国每个省都有分部的企业进行决策分析时 需要分析华中地区第一季度产品a 的销售情况。下面就从单一服务器到多个服务 器进行分析:假若该企业只有一台服务器,数据仓库中华中地区每一个省的产品 a 对应的d a t ac u b e 的维层次链如图1 1 所示。现在用户需要得到的是华中地区的 3 基寸二p 2 p 技术的多维数据集存储和查询研究 销售情况,那么在这种情况下,只需要进行多维数据集的聚集查询【15 ,1 6 】就可以完 成用户需要的服务,结果如图1 2 所示。如果这个企业在每一个分部都有服务器, 现在北京总部需要分析华中地区产品a 的销售情况,那么服务器可以将查询分析 根据维层次链进行远程匹配【7 1 ,将多维数据集的聚集查询分配到华中地区的每一 个省的对应服务器上进行聚集运算,再将结果返回给用户。 a l l a l la l l 图1 1产品a 华中各地区销售维 a l l o 华j 中 图1 2 产品a 华中地区销售维 从上面的分析可以看出,不管用户需要进行怎样的查询决策,其查询分析都 是通过o l a p 服务器来提供服务,当用户的数量不断增加时,o l a p 服务器的负 载加剧,o l a p 的决策分析效率必然要受到影响。 4 o量奎中6o女卷出基o专墨i米舌 硕卜譬位论文 然而,由于每个o l a p 服务器与其他o l a p 服务器的联系经常发生变化,再 建立一个集中式的数据仓库解决此类问题的方案难以实现。同时,每个o l a p 服 务器都是自治的结点,对于语义相同的维可能建模方式不一样。因此,在用户数 量急剧增加的时候,采取怎样的措施来解决o l a p 决策分析效率低下的问题,是 当前广大企业亟待解决的问题。于是文献【7 】等文献就提出了多个o l a p 服务器之 间进行多维数据集的模式匹配来解决多个服务器之间的关联决策分析。 当然o l a p 的决策分析还没有达到企业无法工作的地步,但是如果按照上例 所描述:若华中地区的某个o l a p 服务器处于瘫痪状态时,总部的行为决策又需 要我们采用何种方法来满足其需求呢。 1 2 3o l a p 的系统结构模型 在传统的c s 模式下,用户登录系统后建立一个o l a p 对象,利用该对象保 持与多维数据集之间的连接并进行分析操作,当整个分析结束后,关闭这个o l a p 连接并销毁对象i l9 1 。这种c s 的结构模式如图1 3 所示,由图可知o l a p 多维分 析集中在o l a p 服务器上完成。从该图的结构也可以知道客户端需要使用专用的 客户端软件,操作复杂、维护工作量大,同时这种服务结构模式要受到地理位置 的局限性等因素的影响。因而随着历史数据和用户数量的增加,服务器的负载越 来越大,当然也就导致了决策分析的效率不高。 国画 图1 3c s 模式的o l a p 结构 从上面的分析可以看出c s 模式的弊端对o l a p 决策分析带来的影响,于是 作为数据仓库的一个发展方向,数据仓库与w e b 的结合就成为了一种发展趋势。 研究学者相继也就提出了如图1 4 所示的b s 结构模式,该结构从上至下分为表 示层、逻辑层和数据层【1 7 , 1 8 】。该结构的优势主要体现在以下几个方面:w e b 技术 基于p 2 p 技术的多维数据集存储和查询研究 与o l a p 技术相结合可节省开发的资金。同时客户端采用统一的w e bb r o w s e r 界 面,既方便了用户操作,又节省了培训、维护的费用。w e b 是一个跨平台的操作 环境,在使用中用户可以通过统一的w e bb r o w s e r 界面,完成他们所需要的o l a p 分析操作,而不用考虑他们的操作系统平台。虽然这种结构模式在一定程度上提 高了o l a p 决策分析的效率,减少了用户的维护成本,但是对于o l a p 用户数量 不断增加,随之而来的o l a p 服务器负载加剧等问题仍旧影响着o l a p 技术的决 策分析性能。 w e b 浏览器 一年一 一 w e bj 艮务器中间处理器0 l a p j 艮务器 t 、 早 十 一 十 图1 4b s 模式的o l a p 结构 通过上文对c s 模式和b s 模式的o l a p 结构的优劣描述可以知道,对于当 前o l a p 技术的发展需求,就需要建立一种更为合理的结构模式来均衡o l a p 服 务器的负载,提高o l a p 决策分析的性能,满足广大企业的发展需求。这也就是 本论文对o l a p 进行研究的重点。 1 3 主要研究内容 本论文结合广东水产项目展开的有关课题的研究。在系统分析的数据仓库中, 数据以“数据仓库主题 的形式进行组织。随着数据量的急剧增加和用户访问终 端的进一步扩大,如何有效的组织系统中d a t ac u b e 的存储模式,以及分析、改 进d a t ac u b e 的查询算法是提高系统决策分析的关键所在。 在该项目中,我们主要是利用现有的p 2 p 网络技术研究d a t ac u b e 的存储和 查询方法。在p 2 p 网络中,每一个节点既是整个网络服务的享受者,同时也是整 个网络服务的提供者。而在目前的o l a p 应用系统中使用的都是基于单服务器提 供服务的模式,也就在一定程度上限制了整个决策分析的性能,进而影响整个企 6 硕f j 学位论文 业的工作效率。因此,本文提出将数据的决策分析由单个服务器提供服务的方式 转变到由整个网络节点来共同承担的构想,从而达到了提高整个系统决策分析性 能的目的。对于上面的问题,本文主要进行了如下内容的研究。 1 3 1 基于维层次链的存储模型研究 多维数据集的存储方式是提高整个o l a p 系统决策分析性能的关键问题。目 前已经有许多的学者和专家做过这个方面研究。文献【2 0 】研究了预聚集高效算法; 文献 2 1 1 提出了压缩多维数据仓库上的c u b e 算法;文献【2 2 】提出了s t a rc u b e 的概 念,利用前缀共享和元组共享技术来去除冗余数据,减少了实例化视图的个数, 但在实际应用中,冗余数据更多地存在于维的层次中,因而导致了d a t ac u b e 的语 义缺失。从这些文献可以看出,对于多维数据集的存储都是基于对实视图的处理, 和频繁多维数据集的存储来提高整体的决策分析性能。从上面的分析可以知道, 不管是数据缓存池的建立还是分布式c a s h 的存储方式都无法摆脱单服务器的服务 模式,所以也就难以更为合理的解决用户急剧增加和分布式环境下查询效率很低 的问题。 因此,本文提出在p 2 p 环境下,实现网络上的每一个o l a p 节点,既能使用网 络中的其它节点提供的d a t ac u b e 进行决策分析,又能为网络上其他的o l a p 节点 的决策分析提供服务的观点,将决策分析的数据源由原来的服务器转移到了整个 网络节点上,这样也就使得传统的多维数据集的存储方式有待进一步的优化。本 文在传统的存储结构上提出了一种改进的存储模式,即在体现d a t ac u b e 的维层次 之间关系的同时,对d a t ac u b e 的存储按照改进的维层次链的形式进行语义压缩的 存储。这种d a t ac u b e 的存储既实现了自身的决策分析,同时又能为其它节点提供 服务。因而更加有利于p 2 p 环境下的o l a p 决策分析。这是本文的研究内容之一, 也是后面研究的铺垫。 1 3 2p 2 p 环境下的o l a p 查询分析算法 利用目前现有成熟的p 2 p 网络技术,进行o l a p 方面的研究工作,首先必须 要建立一个p 2 p 的o l a p 网络结构模型( 简称为o l a p 网络结构) 。在这个网络模 型中,需要考虑怎样利用p 2 p 网络的特性进行网络节点的配置和部署,以及实现 o l a p 网络中节点的动态加入和退出。 o l a p 网络原型的建立是实现p 2 p 环境下o l a p 决策分析的桥梁。条件之一 是多维数据集的高效存储模式给o l a p 决策分析提供了数据的来源;条件之二是 需要有切实可行的查询分析算法,确保决策分析正常有序的运行。但是现有的查 询算法都是在单- - j j & 务器上进行查询分析的,已经无法适用多个服务节点共同提 供数据来源进行分析决策。于是,本文就这个问题,提出了一种实现p 2 p 网络中 d a t ac u b e 的多维分析决策算法,即按照扩展语义维层次链的多维数据集分布式 7 基于p 2 p 技术的多维数据集存储和奇洵研究 查询d q d c ( d i s t r i b u t e dq u e r yd a t ac u b e ) 分析算法。 1 3 3p 2 p 环境下的o l a p 兴趣协助查询优化方法 高度动态是p 2 p 环境的一个显著特点,其中动态性可以从两个层面的内容来 分析:一是网络节点进入网络系统的动态性,即网络节点自由的加入和退出; 二 是网络节点兴趣的动态性,由于节点的高度自治,节点自身共享的资源以及节点 的资源需求( 通过节点的资源搜索反映) 可能经常变化【2 3 , 2 4 l 。 目前,虽然已经存在许多p 2 p 环境下的搜索技术,但是在p 2 p 环境下的o l a p 技术中对d a t ac u b e 的搜索方案还很不成熟。因为不同的节点根据自己的需求对 d a t ac u b e 进行不同的聚集查询,这样会导致同一多维数据集根据不同的聚集条 件产生不一样的结果,这就给o l a p 查询分析的研究带来了很大的困难。 本论文根据p 2 p 环境的动态性对o l a p 决策分析性能的影响,从o l a p 网络 节点服务其他节点和服务自身的双重角度将节点的兴趣变化分为两类:一是节点 共享的d a t ac u b e 的变化;另一类是节点对自身查询分析的d a t ac u b e 需求的变 化。对这两类不同的需求,将整个网络中的节点划分为多个不同的兴趣域。所以 本文据此就提出了一种基于o l a p 节点兴趣协助i a d s ( i n t e r e s ta s s i s td a t a c u b e s e a r c h ) 的查询分析算法。该算法将o l a p 决策分析先发送到不同的兴趣域中进行 搜索,再分析语句进行结果查询,这样缩小了o l a p 的查询范围,从而优化系统 的性能,提高o l a p 的决策分析效率。 1 4 本文结构 论文的整体结构如下: 第l 章本章分为五节。简要介绍了本课题研究的背景和意义、研究现状、本 论文研究的主要内容。 第2 章本章分为四节。详细地概述了数据仓库以及数据仓库与数据分析的关 系;简要地介绍了联机分析处理( o l a p ) 概念、特征、多维数据分析以及主要的分 类;描述了p 2 p 技术的发展过程和主要的特征。为以后章节奠定了理论基础。 第3 章本章分为五节。详细地介绍了多维数据集的存储方式。对多维数据集 的维层次链、语义维层次链和扩展语义维层次链进行了深入的分析和定义。并设 计了一种多维数据集的存储方式,可以实现p 2 p 环境下多个节点共同服务于一个 节点获取多维数据集进行o l a p 决策分析。 第4 章本章分为四节。通过对p 2 p 网络特性的描述,根据p 2 p 网络节点的动 态性,构建了一个适合o l a p 决策分析的p 2 p 网络模型。在此网络模型的基础上, 提出了按照扩展语义维层次链的多维数据集分布式查询d q d c ( d i s t r i b u t e dq u e r y d a t ac u b e ) 分析算法。很好地将o l a p 服务器的负载分配到p 2 p 网络中的每一个 8 硕f j 学位论文 节点中去,不仅提高了o l a p 的决策分析效率,而且大大减少了o l a p 服务器的 负载。 第5 章本章分为五节。在p 2 p 网络中的搜索机制中对于不同的应用有很多很 好的方法,但是对于o l a p 网络结构来说,搜索机制很不完善。因此,本章在将 o l a p 网络模型划分为两个虚拟的结构模型后,提出了一种优化的o l a p 决策分 析算法,即一种基于o l a p 节点兴趣协助i a d s ( i n t e r e s ta s s i s td a t a c u b es e a r c h ) 的查询分析算法。 最后,对本文所完成的工作进行了总结与展望,并指出了下一步的研究工作。 1 5 小结 本章主要介绍了论文的相关研究背景和意义,分析了目前国内外针对p 2 p 环 境下d a t ac u b e 的存储模式,以及p 2 p 环境下o l a p 决策分析效率的现状。简要 地介绍了论文的研究内容,最后介绍了本论文的章节结构。 9 摹于p 2 p 技术的多维数据集存储和查询研究 第2 章背景知识介绍 本章介绍与本文研究内容相关的背景知识,包括数据仓库的基本概念,联机 分析处理技术,以及联机分析处理的特征、分类,对等网络技术等。通过详细介 绍本文研究工作的技术基础,突出本文研究内容的实际意义。 2 1 数据仓库技术 2 1 1 数据仓库 传统的数据库技术是单一的数据资源,即以数据库为中心,进行从事物处理、 批处理到决策分析等各种类型的数据处理工作。由于人们对以往计算机的简单数 据操作提出了更高的要求,希望计算机能够更多地参与数据分析与决策制定等领 域。近年来,很多企业为了在商务运作中提供更具优势的竞争武器,更多的了解 客户的需求,于是利用数据仓库这个有价值的工具,推动了企业的快速发展。 数据库处理可以大致地划分为两大类:操作型处理和分析型处理。这种分离 划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数 据库为中心的数据环境发展为一种新环境:体系化环境。这种分离的结果,就使 得数据仓库技术出现并迅速发展。 按照w i l l i a mh i n m o n 的说法【2 引,“数据仓库是在企业管理和决策中面向主题 的、集成的、与时间相关的、不可修改的数据集合,支持管理部门的决策过程, 它与组织结构的操作数据库分开维护 。这个定义简要的阐述了数据仓库的四个 特征:面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系 统( 如关系数据库系统、事务处理系统和文件系统) 区别开来。 数据仓库是一种语义上一致的数据集合,它是决策支持数据模型的物理实现, 用于存放企业战略决策所需信息。人们把数据仓库常常简单的称之为一个数据库, 它与组织机构的操作数据是分开维护。数据仓库系统允许将各种应用系统集成在 一起,为统一的历史数据分析提供坚实的平台,给信息的处理提供支持。建立数 据仓库有两个基本条件,其一该行业有较为成熟的联机事务处理系统,为数据仓 库提供了数据电子化的客观条件;再者该行业面临市场竞争的压力,为数据仓库 的建立提供外在的动力。 数据仓库之所以出现,一个潜在的前提是随着时间的推移,“海量”的历史数 据的堆积,使得原有的数据存储、分析方法在决策分析等方面有些力不从心。例 如,目前许多大型企业的历史数据都已经到达了t b 级,要想对这么庞大的数据 1 0 硕i j 学位论文 源进行分析,提取用户有价值的信息,当前的现有系统都无法胜任。 数据仓库技术的出现意义重大。它不仅提高了数据的存储效率,同时也提高 了处理数据的能力,使得用户能更加灵活的分析数据和了解信息,并使人们发现 很多从来没有意识到的有价值的信息,给企业带来巨大的效益。 2 1 2 数据仓库的特征 数据仓库的特征很多,除了包含一些传统数据库管理系统的特征如:共享性、 完整性、数据独立性外,还具备自己的一些特征1 2 5 1 ,可概括为如下几个方面: 1 ) 面向主题的 传统的数据库是面向应用设计的,它的数据只是围绕一些主题,如顾客、 供应商、产品和销售组织等而组织在一起的。应用是客观世界既定的东西, 它对于数据内容的划分未必适用于各种动态分析。而数据仓库关注的是数据 建模与分析,而不是集中于组织结构的日常操作和事物处理。而主题是一个 在较高层次将数据归类的标准,每一个主题对应一个客观领域,基于主题组 织的数据都被划分为各自独立的领域,每个领域都有自己的逻辑内容而互不 交叉。因此,数据仓库排除对于决策无用的数据,提供特定主题的视图。 2 ) 集成的 数据仓库是一致的数据集合,通过使用数据清理和数据集成技术,确保 命名约定、编码结构、属性度量等的一致性。在数据仓库中存储的数据需要 以一种单一的、可以由企业分析人员接受的格式存储。通常构造数据仓库是 将多个异常数据源,如关系数据库、一般文件和联机分析处理记录,集成在 一起。 3 ) 时变的 数据的存储是从历史的角度提供信息。事务系统的数据库通常只包含最近 的数据,一般不超过一年,不同时刻的查询一般会得到不同的查询结果。数 据仓库中的关键结构都显式或隐式地包含了时间元素。因此,数据仓库按照 每日、每周或者每月的频率从操作型数据库中导入数据,随着时间的变化, 数据以更高的综合层次被不断综合,以适应分析的要求。 4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论