(计算机软件与理论专业论文)web服务及分布式数据同步技术在olap系统中的应用.pdf_第1页
(计算机软件与理论专业论文)web服务及分布式数据同步技术在olap系统中的应用.pdf_第2页
(计算机软件与理论专业论文)web服务及分布式数据同步技术在olap系统中的应用.pdf_第3页
(计算机软件与理论专业论文)web服务及分布式数据同步技术在olap系统中的应用.pdf_第4页
(计算机软件与理论专业论文)web服务及分布式数据同步技术在olap系统中的应用.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机软件与理论专业论文)web服务及分布式数据同步技术在olap系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在经济全球化和信息技术飞速发展的今日,行业规模和企业数量不断上升, 竞争日益激烈,如何利用信息系统为当前企业中各方人员提供更具针对性和专业 化的服务,满足他们在统计、分析、预测方面的需求成为一个重要问题。新一代 商务智能系统的出现为人们带来了希望,它在正确时间为正确用户提供了正确信 息,实现了最优化的决策,从而充分满足了各方需求,提升了企业管理水平和竞 争力,降低了成本和风险。 商务智能的核心技术主要包括数据仓库、数据挖掘、联机分析处理与企业信 息门户技术。本文介绍的b g d o l a p 报表系统由旧系统改造而来,作为新一代商 务智能系统,它将为北京朝批商贸有限公司提供更广泛的更深度的更具个性化的 联机分析处理和报表查询功能。本文提出从两个方面改造原b g d o l a p 报表系 统:第一方面是前端展示从c s n b s 的改造;第二方面是后端存储从集中式到分 布式的改造。 近几年来互联网的发展,使得多维分析领域的工具和产品更加注重提供基于 w e b 前端联机分析界面的扩展,顺应此潮流,本文利用了w 曲服务( w e bs e r v i c e ) 技术对原系统进行了c s n b s 的改造,改造后系统以商务网站的形式,为用户提 供以o l a p 报表形式展示的信息查询功能,增强了用户异地浏览和信息采集的灵 活性,扩大了系统使用范围。 由前端展示的b s 改变带来的问题是对原系统的功能弱化,难以实现传统模 式下的大量明细数据查询和自定义统计分析。另一方面,为加速o l a p 查询响应 时间,通常将事实表根据不同粒度进行粗化后的结果存储至多个新立方体中,再 将它们分发到不同用户以满足不同粒度的分析需求。为了解决b s 模式的不足和 数据高度集中后的统一分发需求,本文提出了后端存储从集中式到分布式的改 造,数据同步是改造的关键环节。 本文在参考s y b a s em o b i l i n k 数据同步中间件基础上,结合了北京朝批商贸有 限公司数据仓库应用的特点,设计并初步实现7 b g d d a t a s y n c 数据同步系统, 该系统支持自定义同步时间、参数传递j 客户端脚本上传和本地执行、自定义更 新主键,自定义事务管理和同步操作顺序等功能,具有良好适用性和灵活性,更 加适合该企业数据仓库应用的数据同步需求。改造后的b g d o l a p 报表系统实现 了数据的高度集中,解决了立方体在分发中的同步问题,实现了原系统全部功能, 提高了数据仓库在企业中的应用水平。 关键词商务智能;o l a p ;数据同步;w 曲服务 a b s t r a c t a b s t r a c t w i t ht h eg l o b a l i z a t i o no ft h ew o r l de c o n o m ya n dt h er a p i dd e v e l o p m e n to fi n f o r m a t i o n t e c h n o l o g ya n dw i t ht h eg r o w t ho fi n d u s t r ys c a l ea n de n t e r p r i s en u m b e r s ,a l li n t e n s ec o m p e t i t i o n i si n c r e a s i n g i t sa l r e a d yb e c o m eac r i t i c a li s s u eo nh o wt om a k eab e t t e ru s eo fi n f o r m a t i o n s y s t e m st om e e tt h eb u s i n e s sn e e d si ns t a t i s t i c s ,a n a l y s i sa n df o r e c a s t i n g t h en e wb u s i n e s s i n t e l l i g e n c es y s t e ml i g h tu pt h eh o p e ,w h i c hp r o v i d e sc o r r e c ti n f o r m a t i o nt ot h er i g h tp e r s o na t a na p p r o p r i a t et i m ea n da c h i e v e st h em o s to p t i m a ld e c i s i o n m a k i n g w i t hi t ,m a n a g e m e n ta n d s 仃e n g t ho fe n t e r p r i s e sc o u l db ee n h a n c e da n dt h ec o s t sa n dr i s k sc o u l d b er e d u c e d n eb u s i n e s si n t e l l i g e n c ec o m p r i s e sd a t aw a r e h o u s e ,d a t am i n i n g ,o n l i n ea n a l y t i c a l p r o c e s s i n ga n dw e bt e c h n o l o g y t h eb g d - o l a pr e p o r t i n gs y s t e mc o m e sf r o mt h eo l ds y s t e m n e ws y s t e mp r o v i d e sc o m p r e h e n s i v ea n de m b e d d e ds e l f - d e f i n e df e a t u r e si no n l i n ea n a l y t i c a l p r o c e s s i n ga n dr e p o r t i n gq u e r yf o rb e i j i n gc pc o m m e r c i a l & t r a d i n gc o ,l i d 1 1 1 ed i s s e r t a t i o n m a k e sc h i e f l yt w o f o l dm i g r a t i o nt ot h e o l ds y s t e m ,t h ef a s ti st h ef r o n t - e n d d i s p l a y t r a n s f o r m a t i o nf r o mc st ob s ,a n dt h eo t h e ri sc u b es t o r a g et r a n s f o r m a t i o nf r o mc e n t r a l i z e dt o d i s t r i b u t e d t h et r e m e n d o u sg r o w t ho fi n t e r a c tm a d em u l t i - d i m e n s i o n a la n a l y s i st o o l sa n dp r o d u c t sp u t m o r ee m p h a s e so nt h ew e bf o r mo fr e p o r t i n gd i s p l a y a l o n g 谢t hc u r r e n tt e c h n i c a lt r e n d ,t h e d i s s e r t a t i o nc o n d u c t sc st ob st r a n s f o r m a t i o no ft h ef r o n t - e n dd i s p l a yi no l ds y s t e m 谢t l l 、帅 s e r v i c e ,t h en e ws y s t e mp r o v i d e so l a pr e p o r tq u e r yi nt h ef o r mo faw e b s i t e ,w h i c he x p a n dt h e s c o r p eo ft h es y s t e ma n de n h a n c et h ef l e x i b i l i t yo fb r o w s i n ga n di n f o r m a t i o nc o l l e c t i o n e s p e c i a l l yf o ru s e r s 丘o md i f f e r e n tr e g i o n s f r o n t - e n dd i s p l a yt r a n s f o r m a t i o nr i s et h ep r o b l e mi nw e a k e n i n gt h eo r i g i n a lf u n c t i o n a l i t y , a m a s s i v ed a t aq u e r ya n ds e l f - d e f i n e da n a l y s i sa r en o ta b l et oe x e c u t e o t h e r w i s e ,i no r d e rt o s h o r t e nr e s p o n s et i m et oo l a pq u e r y s ,m o r ec u b e sc a nb ep r o d u c e df r o mf a c tt a b l e sb y a g g r e g a t i o na tm o r ep o s s i b l ec o m b i n a t i o no fd i m e n t i o ng r a n u l a r i t i e s a f t e r w a r d ,t h e yc o u l db e d i s t r i b u t e dt ou s e r sa td i f f e r e n tl e v e l st om e e tt h e i ra n a l y t i c a ln e e d sa td i f f e r e n tg r a n u l a r i t i e s s o t h ed i s s e r t a t i o nm a k e st h ei d e ai nb a c k - e n ds t o r a g et l a n s f o r m a t i o nf r o mc e n t r a l i z e dt od i s t r i b u t e d , s ot h a td a t as y n c h r o n i z a t i o nb e c o m et h ec h i e ft e c h n o l o g yw i t h i nt h et r a n s f o r m a t i o n a sar e f e r e n c eo fs y b a s em o b i l i n ks y s t e m ,c o m b i n e dw i t ht h ep r a c t i c a la p p l i c a t i o no fc p d a t aw a r e h o u s e ,t h ed i s s e r t a t i o np r o v i d et h ed e s i g n i n ga n di n i t i a li m p l e m e n to fb g d d a t a s y n c d a t as y n c h r o n i z a t i o ns y s t e m ,w h i c hp r o v i d ef u n c t i o n a l i t i e ss u c ha sc u s t o m - d e f i n e ds y n ct i m e , p a s s i n gp a r a m e t e r s ,u p l o a d i n go fc u s t o m - d e f i n e ds e r v e r - e x e c u t i o ns c r i p t ,r e d e f i n i n gu p d a t i n g k e y s ,c u s t o m - d e f i n e de v e n t so r d e ra n dc u s t o m - d e f i n e dt r a n s a c t i o nm a n a g e m e n t 谢t hh i g l l a d a p t a b i l i t ya n df l e x i b i l i t y t h i ss y s t e ms o l v et h ep r o b l e mo fd a t as y n c h r o n i z a t i o nd u r i n g b a c k - e n dt r a n s f e r r i n gf r o ms b 豇 v c rt oc l i e n t ,a n dr e u s em o s tl o g i co ff r o n t - e n dd i s p l a yi no l d s y s t e mw i t he n t i r eo r i g i n a lf e a g u r e sp a r t i c u l a r l yi n c l u d ec u s t o m d e f m e dd a t aa n a l y s i s i l l 北京工业大学工学硕士学位论文 k e y w o r d s :b u s i n e s si n t e l l i g e n c e ;o l a p ;d a t as y n c h r o n i z a t i o n ;w e bs e r v i c 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:至玺圈日期:丝望:至:翌 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的 全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:名跹导师签名: 第l 章绪论 1 1 学术背景 第1 章绪论 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 是在联机事务处理 ( o n 1 i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 的基础上发展而来的,最初,联机事务处 理一直是数据库应用的主流。然而,随着时间的推移,用户逐渐发现简单依靠使 用联机事务处理己经不足以获得市场竞争的全部优势,他们更多地需要对自身业 务运作以及整个市场相关行业的情况进行统计分析,进而为企业决策提供支持。 这种决策支持信息需要对业务中大量当前数据和历史数据进行集中整合后,再通 过特殊分析才能得到。因此在如今激烈的市场竞争环境下,素有关系数据库之父 之称的e e c o d d 提出的多维数据库和多维分析的概念得以广泛应用,而联机分析 处理正是建立在多维数据模型基础上的。如果说传统联机事务处理强调的是更新 数据库,即向数据库中汇入信息,那么联机分析处理的重点就是从数据库中获取 信息、利用信息。因此,正如著名数据仓库专家r a l p hk i m b a l l 对此过程的生动描 述:“我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时 候- j - t 1 1 。 数据仓库作为多维数据集( c u b e ) 的载体为多位分析提供了支持。o l a p 以多 维分析为基础,描述了在管理和决策过程中通过对数据仓库的访问而实现的对多 维数据集多层面、多角度的分析处理,并以直观易懂的形式将查询结果展示给决 策者。本文将主要对o l a p 系统的展示方式及数据存储方式进行研究。 1 2 现状研究 1 2 i 商务智能( b i ) 商务智能为公司在客户、销售、财政计划和竞争等方面的策略制定提供了洞 察力【2 j 。它把先进的信息技术应用到整个企业,不仅为企业提供信息获取能力, 而且通过对信息的开发,将其转变为企业的竞争优势【3 】。 商务智能出现于2 0 世纪末期并在随后的十多年内有了快速发展,许多企业将 商务智能作为其达到经营目标的一种技术手段,使得商务智能在各个领域逐渐得 以广泛应用,由此吸引了信息技术界的许多著名公司纷纷加入到商务智能研究和 系统开发的队伍,与此同时,政府部门也加大了商务智能的扶植力度。 当前商务智能的核心技术主要包括四个方面:数据仓库、数据挖掘、联机分 北京 一业大学工学硕士学位论文 析处理与企业信息门户技术。 数据仓库不仅是企业长期事务数据的汇总,而且是面向主题的、集成、稳定 的数据集。它为商务智能存储大量原始信息用提供相关行业的数据分析模型从而 支持多种应用和决策支持。数据仓库是商务智能的核心技术的重要基础。 数据挖掘是从诸如数据仓库等信息库的海量数据中挖掘特定知识与信息的 过程。其在商务领域中的研究方向主要集中于分类、关联、聚簇、规则发现、神 经网络、顺序模式等几方面。 联机分析处理可对基于数据仓库的多维数据进行在线分析处理生成新的信 息的同时,监测商业运作成效,建立起管理人员与商业数据之间的桥梁。基于数 据仓库基础之上的联机分析处理技术目前在市场利润、经济预测等方面都有较成 熟的应用。 企业信息门户技术在国内外的研究越来越多,主要集中在全客户与瘦客户技 术上并且得以不断深入扩展。此技术的特点是提供了用户获得企业的商业信息和 应用软件的接口。通过企业信,g i - j 户,商务智能系统在为不同用户提供相应的信 息的同时,也在无形中实现了企业信息收集、组织和集成的商业信息智能网络。 由此可以预计企业信息门户技术在商务智能中的应用前景异常广阔。 商务智能技术发展的关键还在于以上四种核心技术中融合与互补,实施技术 集成战略将是未来商务智能的发展方向。同时,技术上没有一种是万能的。只有 结合具体问题和经验进行具体分析并在不断尝试中选择更合适的方法才能在商 务智能应用中取得长足的胜利。 1 2 2 i 酉i n 务架构( s o a ) l = j w e bs e r v i c e 技术 面向服务架构的产生来源于对企业信息系统变得更加灵活的需求,以快速适 应业务改变。通过允许关系的强定义和灵活的实现,新系统既可以利用现有系统 的功能,又可以为将来的改变做好充分准备来满足它们之间的交互需求。s o a 的良好的可集成性,高扩展性、封装性、简单灵活、标准开放、松散耦合的鲜明 特点,成为企业数据平台交互的最佳选择。w e bs e r v i c e 正是实现s o a 的最佳技术。 w e bs e r v i c e 是一种分布式组件技术,其应用作为一种部署在网络中的可复用构 件,具备良好的封装性,可以通过标准协议描述并与其它构件集成组装为新的应 用系统。同时具有良好的可访问性,通过大多数防火墙,其构建的组件在网络中 将变得更加畅通,具有更广泛的使用者。 在全球范围内,服务导向架构正成为未来企业软件架构的趋势。埃森哲公司 通过对中国上千家企业机构的问卷调查,了解在商业科技推动企业竞争力及商业 第1 苹绪论 曼曼! 曼曼曼曼! 曼皇曼曼曼! 曼曼曼! 曼! 曼曼ii - = i = i =:i i 曼曼曼曼曼曼! 曼曼曼! 曼曼曼曼曼曼罡曼! 曼曼皇曼曼曼! 曼曼曼! 曼! 曼曼曼曼曼曼曼曼 创新的背景下,中国企业部署s o a 的现状和未来的趋势。 基础应用中拥有s o a 应用的企业比例为8 8 ,在大中型企业中,比例可达到 1 0 。四分之三的被调查企业未对s o a 采取任何行动。而在早期已开始s o a 部署 的企业中,6 0 的大中型企业和超过一半的小型企业都表示,将增加在此项投入。 在s o a 部署中,在了解s o a 的被调查企业中,有8 0 9 的企业表示将采取积 极态度部署s o a 。商务智能( 8 1 ) 、客户关系管理( 7 6 ) 、供应链管理( 7 4 ) 等 系统是基于s o a 开发新应用的优先选择。以上数据都表明s o a 的部署主要集中在 渠道管理,特别是客户管理。 数据表明尽管s o a 在中国尚处启蒙阶段,但企业在s o a 上的投入却在快速增 加。s o a 在未来5 年将进入快速发展期。目前,在国内的很多行业,例如政府、 电信、金融、医疗等等,都需要实施s o a 4 。 然而在国内实施s o a 与在国外实施s o a 存在一定的差异。由于中外已有系统 存在历史性差异和业务差异,所以盲目高价引进国外产品,而实际应用不到3 0 , 这将是一种极大浪费。因此,外国的s o a 软件平台并未必完全适应中国市场需求。 1 3 课题背景 本文以北京朝批商贸有限公司的信息系统建设为研究背景。 北京朝批商贸有限公司,注册资本1 9 2 0 0 万元,总资产达1 2 亿元,是香港上 市公司北京京客隆商业集团股份有限公司的主要成员。公司总部设立在北京,在 北京地区有六家控股子公司,在天津、唐山、青岛、石家庄、太原等地也分别设 立了五家分子公司。是一家以批发、代理为主业,以物流为支撑,主要从事独家 代理、合作分销、服务终端、商品分装、仓储配送、第三方物流等业务的商贸企 业。公司代理国内外知名品牌3 0 0 余个,网络覆盖北京及周边地区的各大中小型 零售销售企业及餐饮企业,拥有长期稳定的销售渠道,是华北地区最大的快速消 费品批发、代理公司之一。公司拥有北京地区先进的现代化物流配送中心。现有 仓储面积1 7 万平方米,装配了1 0 万个货位的标准立体货架、1 0 0 余台电动( 柴油) 叉车、2 0 0 余部物流运输车辆。引进日本电子标签模式的自动拆零设备,可满足 5 0 0 家便利店的零散配送需求。2 0 0 7 年年吞吐量达6 0 0 0 万件,日最高吞吐量5 0 万 件,2 0 0 8 年引进自动化流水线分拣系统,进一步提高分拣效率,为企业发展提供 有效支持。 业务信息系统在北京朝批商贸有限公司的广泛应用已经拥有七年的历史,其 主要包括业务、财务、物流、数据交换等多个子系统,全面覆盖了企业运营的各 个环节,形成了对企业资源统一的信息化管理。多年联机事务处理( o n l i n e t r a n s a c t i o np r o c e s s ,o l t p ) 所形成的海量在线数据和历史数据为数据仓库系统的 北京工业大学工学硕士学位论文 建立奠定了坚实基础。 目前,基于数据仓库系统,由北京工业大学软件工程实验室和北京朝批商贸 有限公司合作开发的o l a p 报表工具已经在企业稳定运行多年,它为各级管理部 门的数据分析和辅助决策提供了良好的支持,为企业带来了很大经济效益。 1 4 本文的工作 本文利用w e bs e r v i c e 技术对原b g d o l a p 报表系统前端展示进行了从c s n b s 的改造,同时利用了数据同步技术对后端存储进行了从集中式到分布式的改 造,并在这两方面改造中很好地复用了原系统逻辑。下面为本文的章节结构: 第一章,绪论,介绍了学术背景、现状研究、课题背景以及本文的工作。 第二章,相关概念介绍,首先阐述了商务智能概念,之后介绍了数据仓库、 o l a p 概念和数据同步技术,最后对w e bs e r v i c e s 和s o a 概念进行了详细介绍,分 析了它们的区别和联系。 第三章,b g d o l a p 报表系统改造概述,先介绍原b g d o l a p 报表系统,之 后论述了系统改造的需求分析并规划出整体设计方案,提出报表前端展示从c s 至t j b s 的改造和后端存储从集中式到分布式的改造,最后介绍了改造过程中对原 报表系统展示逻辑的复用。 第四章,前端展示从c s 至i j b s 的改造,介绍了基于w e bs e r v i c e 技术的改造方 案,以及改造后b g d o l a p 报表系统的内部结构和运行机制。 第五章,后端存储从集中式到分布式的改造,介绍了基于分布式数据同步技 术的改造方案。开始先对同步技术进行了论述,然后先介绍了作为具有重要参考 价值的s y b a s em o b i l i n k 数据同步中间件软件,最后根据以上研究和企业实际应 用,结合s o a 的思想,利用w e bs e r v i c e s 技术,详细论述了如何设计并实现了 b g d d a t a s y n c 数据同步系统。 第六章,b g d d a t a s y n c 数据同步系统的应用,介绍t b g d d a t a s y n c 数据同 步系统在北京朝批商贸有限公司数据仓库应用中“客户主题”的应用案例设计。 最后的结论,对上述研究内容进行了归纳和总结。 第2 章相关概念介绍 2 1 商务智能 第2 章相关概念介绍 商务智能这一概念最早是由g a r t n e rg r o u p 公司的h o w a r dd r e s n e 汗1 9 8 9 年提 出的。它描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业 决策的制定。商务智能是对商业信息的搜集、管理和分析过程,目的是使企业的 各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。商务智能一 般由数据仓库、数据分析、数据挖掘、在线分析、数据备份和数据恢复等部分组 成【5 1 。 商务智能的主要功能如下: 数据管理功能:包括从多个数据源e t l 数据、清洗数据、集成数据的能 力和高效存储与维护大量数据的能力。e t l 且p 数据抽取( e x t r a c t ) 、转换 ( t r a n s f o r m ) 、清洗( c l e a n i n g ) 、装载( l o a d ) 的过程,是构建数据仓库的重 要环节。建立数据仓库有6 0 的精力花费在数据e t l 处理上【6 】。 数据分析功能:即具备联机分析处理( o l a v ) 和l e g a c y 等多种数据分析 功能、终端信息查询和报表生成能力、数据可视化能力。 知识发现功能:即从大型数据库的数据中提取人们感兴趣的知识的能力。 企业优化功能:企业决策者可以根据从b i 系统中得到的知识分析企业发 展趋势,发现新的商业机会,调整产品结构、分销渠道、工作流程和服 务方式,优化企业资源,从而提高企业在市场上的竞争能力【7 】。 其主要包含以下技术:数据集市( d a t am a r t ) 和数据仓库( d a t aw 缸e h o u s e , d w ) ;用户查询和报表( q u e r y & r e p o r t s ) ;联机分析处理( o n l i n ea n a l y t i c a l p r o c e s s i n g ,o l a p ) ,也称为多维分析;数据挖掘( d a t am i n i n g ) ;关键绩效指标 ( k p i ) ;分析型应用( a n a l y t i ca p p l i c a t i o n ) 。 2 2 数据仓库 数据仓库之父w h h l m o n 在b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中将数据仓库 定义为:as u b j e c t o r i e n t e d 。i n t e g r a t e d ,t i m e - v a r i a n t ,n o n v o l a t i l ec o l l e c t i o no f d a t ai ns u p p o ro fm a n a g e m e n t 。sd e c i s i o n m a k i n gp r o c e s s 引。定义指出数据仓 库是一个面向主题的、集成的、随时间变化的非易失性数据的集合,其主要功能 是用于支持管理层和决策者的运筹帷握。通俗讲就是企业把己经广泛收集到的数 据集成到数据仓库中,以从业务数据中提取出有用的信息,帮助他们在业务管理 北京工业大学工学硕士学位论文 和发展上做出及时正确的判断【9 1 。 此后,随着人们对大型数据系统的研究、管理与维护等方面认识的不断深入 与完善,对于数据仓库的如下几个特点基本达成了共t 只【1 0 】【l l 】: 面向主题性:数据仓库的数据组织原则是围绕着某一独立且完备的主题 而组织和展开的。从信息管理角度看,主题是管理层次的分析领域。从 数据组织角度看,主题是描述和分析对象的数据集合。 数据集成性:体现了根据决策分析的要求,将分散各处的源数据进行筛 选、抽取、清理、集成等处理过程。 数据时变性:数据应该随时间推移而发生变化,主要体现在的数据加载、 数据重集成、休眠数据转储删除等。 数据非易失性:由于数据仓库大多保存用于查询的历史数据,数据首次 追加后,通常不会被修改。 数据集合性:数据仓库必须以某种数据集合形式进行存储。 决策支持:数据仓库组织的根本目的在于对决策的支持。 本文涉及的两个数据仓库相关概念如下: 粒度( g r a n u l a r i t y ) - 粒度是指数据仓库中保存数据的细化或综合程度的级 别。细化程度越高,综合程度越低,信息越细节,粒度级就越小。粒度 的大小影响数据仓库数据量的大小,数据的用途,即数据仓库所能回答 的查询类型1 2 】。 数据分割:数据分割目的在于提高效率。它是将数据分散到各自的物理 单元中去,以便能分别独立处理。有许多数据分割的标准可供参考,通 常应包括日期项目。 2 3o l a p 概述 联机分析是最早由关系数据库之父e f c o d d 于1 9 9 3 年提出的一种数据动态分 析模型,它允许以一种称为多维数据集的多维结构访问来自商业数据源的经过聚 合和组织整理的数据【1 3 】。以此为标准,o l a p 作为单独的一类产品同联机事务处 理( o l t p ) 得以明显区分。o l a p 是针对特定问题进行联机的数据访问和分析。它 通过对信息的很多种可能的观察形式进行快速、稳定、一致和交互性的存取,允 许管理决策人员对数据进行深入观察和分析【1 4 】【15 1 。o l a p 最基本的概念主要包括 以下三部分: 1 多维观察 多维角度分析数据是o l a p 分析最基本的概念:从多个观察角度的灵活组合 来观察数据,从而发现数据内在规律。o l a p 将数据分为两种,一种是“维度数 第2 章相关概念介绍 据”:如销售分析中的时间周期、产品类型、销售模式、区域等。另一种是“度 量数据”:如销售分析模型中的销售金额、销售毛利等;前者是观察视角,后者 是观察对象。 2 数据钻取 如果建立这样一个模型,我们就可以根据业务需求,从产品类型角度去观察 各个销售地区的销售额数据( 以产品类型和销售地区为维、以销售额为度量) :或 者我们还可以从销售模式的角度去观察各个销售地区的销售额数据( 以销售模式 和销售地区为维、以销售额为度量) ,这个过程就是数据钻取。 3 c u b e 运算 o l a p 分析所需的原始数据量是非常庞大的。一个分析模型,会涉及百万千 万条甚至更多数据:而且包含多个维数据,这些维又可由使用者任意的提取组合。 任何组合的调整后的重新计算都会消耗巨大时间,为了解决o l a p 运算效率,从 而产生了数据c u b e 预运算技术。 一个o l a p 模型中,一旦度量数据和维数据确定下来,那么我们可以对数据 进行预先处理,在正式发布之前,将数据根据维度进行最大限度的聚类运算,运 算中会考虑到各种维组合情况,运算结果将生成一个数据立方体保存于服务器 上,尽管通常将立方体看成3 d 结构的,但实际中,数据立方体是n d 的【l6 1 。当 使用者在浏览此模型的时候,可以直接访问这个c u b e ,在此基础上根据用户的 维度选择和维度组合进行复运算,从而在多位分析中达到缩短实时响应时间的目 的。多维分析以多维形式组织起来的数据采取上钻、下钻、切片、切块、旋转等 各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库 中的数据,从而深入地了解包含在数据中的信息、内涵【l 7 1 。 2 4 数据同步技术 数据同步技术的应用已经深入到商务智能软件的各个层次。无论在大型应用 还是中小系统中都会经常会涉及到数据同步的问题,大到从实时交易系统o l t p 到数据仓库o l a p 的数据同步,从子系统向主系统的数据汇集,平级同构系统之 间的的数据广播,异构系统的数据共享,d , n 手持移动设备之间的信息传输,同 步技术都发挥了不可替代的关键作用。下面本文从同步方式和同步技术两方面介 绍数据同步的相关知识。 数据同步方式分为实时同步和非实时同步两种。实时同步可最大程度上确保 发送端和接收端的数据一致性,几乎实现“无延迟 ,但对网络和程序的要求较 高,经常出现性能问题。非实时同步允许同步双方存在时间延迟,从而降低了对 网络和程序的要求,但是对可双向同步情况执行失败后,会发生复杂的回退问题。 北京工业大学工学硕士学位论文 数据同步大致分为以下五类: 1 应用程序层同步写入 在应用程序中对多个数据源进行更新操作适应以下两种情况。第一种应用于 存在复杂业务逻辑的多个数据源情况下。因程序可以充分控制的各种资源,这样 易于简化多个数据源实时同步失败后立的回退操作,实现相对容易。另外,对异 构数据库进行同步,其它同步方式不易实现时,可采用此方式。 2 数据库层同步写入 在主数据源被更新时,可通过触发器和数据库链对多个数据源进行同步更 新,即两阶段提交。这是种简便的实时同步方法,但网络和数据库的要求较高。 失败后易造成数据库表死锁。 3 消息队列 消息队列即异步消息传输系统,又称为消息中间件。 i n m i c r o s o f tm e s s a g e q u e u es e r v e r ,m mm qs e r i e s ,o r a c l e8 i 9 i q b 的a q 等。以i b mm qs e r i e s 的为例, m qs e r i e s 基本由一个信息传输系统和一个应用程序接口组成,其资源是信息和 队f f l j ( m e s s a g i n ga n dq u e u i n g ) 。信息包含两个因素:信息描述( 用于定义诸如信息 传输目标等) 和信息内容( 如应用程序数据或数据库查询等) 。通过消息队列可以将 数据同步命令和数据传输到目的端,由于程序之间的通讯是通过传递信息而非直 接调用程序,所以通过消息中间件可以比较方便的实现跨平台数据同步。 4 数据库复制 通过数据库自身提供的复制功能,可将一组数据拷贝到多个数据源。从传输 方向上,数据库复制可以分为单向复制和双向复制,从范围上可以分为单主体复 制和多主体复制,其中比较复杂的是多主体双向复制。复制技术可以确保分布在 不同地点的数据自动更新,从而保证数据的一致性。但数据库复制要求主、从数 据源的表结构相同。 5 e t l 定时迁移 e t l 定时迁移是通过数据库的定时任务或操作系统提供的定时功能,定时调 用函数或e t l 专用程序实现数据同步,必要时还可以使用f t p 等功能。此技术在 网络不稳定、数据源和目的端的表结构存在一定差异时具有一定优势。 2 5w e b 服务技术 在w 曲服务( w e bs e r v i c e ) 技术的出现,为桌面式b i i 具转化成互联网模式, 提供了坚实的技术基础,为实现广域网上的数据同步提供了技术保证。 在w 曲服务技术出现以前,为了开发分布式应用程序,不同的平台上提供了 不同的分布式组件系统,如w i n d o w s 平台上的d c o m ,j a v a 平台上的j a v ar m i , 第2 章相关概念介绍 以及具有一定跨平台能力的c o r b a 。但这些技术都无法实现不同平台上的不同 应用程序之间的互用,因为他们总是把开发者限制在特定的操作系统、组件模型 或者编程语言上【l 引。 w e b 服务的出现解决了这个问题,它允许用不同语言编写的运行在不同平台 上的应用程序使用一种标准的方式来相互通信,是建立可互操作的分布式应用程 序的新的技术体系【1 9 】。它利用了近年来被广泛使用的h t t p 协议,以及开放的 x m l ,s o a p 等技术,定义了应用程序如何在w e b 上实现互操作性的一系列标准。 2 5 1w r e b 服务的概念 w 曲服务技术是在x m l 基础上发展起来的,是一种革命性的分布式计算技 术。它使用基于x m l 的消息处理作为基本的数据通信方式,消除使用不同组件 模型、操作系统与编程语言系统之间存在的差异,使异构系统能够作为计算网络 的一部分协同运行。可以将w 曲服务定义为:w 曲服务是一段位于i n t e r n e t 上的业 务逻辑,可以通过标准的i n t e r n e t 协议( 如h t t p 或s m t p ) 访问【2 0 1 。 w 曲服务可单独或同其他w 曲服务共同实现复杂的商业逻辑。w 曲服务是一 种部署在w e b 上的对象组件,具有以下特征: 基于x m l :通过使用x i v i l 作为所有w 曲服务协议和新技术的数据表示层, 这些技术能够在核心层具备互操作能力。在数据传输过程中,x m l 可以 忽略网络、操作系统及平台的限制【2 。 松散耦合:对于调用者来说,只要w 曲服务的调用接口不变,w 曲服务实 现的任何变化对他们来说都是透明的。采用松散耦合体系结构伎软件系 统更加便于管理,并且使不同系统间的集成更加容易【2 2 1 。 同步或异步的能力:在同步调用中,客户在继续执行前要阻塞并等待服 务完成其操作,在服务结束的时候获取其结果。异步操作允许客户激活 服务后运行其他功能,并在稍后的时间点获取其结果。异步能力是松散 耦合系统的一个关键因素。 支持远程过程调用( r p c ) :w 曲服务允许客户使用基于x 2 v i l 的协议调用 远程对象上的过程、函数和方法。远程过程暴露w 曲服务必须支持的输 入和输出参数。e j b ( e n t e r p r i s ej a v a b e a n s ) 和n e t 通过一些r p c 机制使软 件成为分布式的和可访问的。w 曲服务通过提供自己的服务或将传入的 调用转化成对e j b 或者n e t 组件的调用来支持r p c 。 支持文档交换:x m l 不仅仅是数据的通用表示方式,也是复杂文档的通 用表示方式。w e b 服务支持文件的透明交换,极大地方便了业务集成。 北京工业大学工学硕士学位论文 2 5 2 w - e b 服务的体系结构模型 w 曲服务体系结构基于三种角色,即服务提供者、服务注册中心和服务请求 者之间的交互,交互涉及发布、查找和绑定三种操作。这些角色和操作一起作用 于w 曲服务构件,- 包括w 曲服务软件模块及其描述。服务提供者定义w 曲服务的 服务描述并把它发布到服务请求者或服务注册中心【2 ”。服务请求者使用查找操作 来从本地或服务注册中心搜索服务描述,然后使用服务描述与服务提供者进行绑 定并调用w 曲服务。 图2 1 显示了这些操作、提供这些操作的组件及它们之间的交互。 2 _ _ j 一“: 掣唑“:一卧 :! l 玉 w e bs e r v i c e 服务注册中心 图2 1w e b 服务体系结构模型 f i g 2 - 1a r c h i t e c t u r eo f w e bs e r v i c e w 曲服务体系结构中的角色 服务提供者:从企业的角度看,这是服务的所有者。从体系结构的角度 看,这是托管访问服务的平台。 服务请求者:从企业的角度看,这是请求特定功能的企业。从体系结构 的角度看,这是寻找并调用服务,或启动与服务的交互的应用程序。 服务注册中心r 这是可搜索的服务描述注册中心,服务提供者在此发布 他们的服务描述【2 4 1 。 w 曲服务体系结构中的操作 对于利用w 曲服务的应用程序,会发生以下三个行为:发布服务描述、查询 或查找服务描述以及根据服务描述绑定或调用服务。这些行为可以单次或反复出 现。w 曲服务体系结构中包含的这些具体操作如下: 发布:为了使服务可访问,需要发布服务描述以使服务请求者可以查找 它。发布服务描述的位置可以根据应用程序的要求而变化。 查找:在查找操作中,服务请求者直接搜索服务描述或在服务注册中心 中查询所要求的服务类型。对于服务请求者,可能会在两个不同的阶段 中涉及到查找操作:在设计时为了程序开发而搜索服务的接口描述,而 在运行时为了调用而搜索服务的绑定和位置描述。 绑定:最后需要调用服务。在绑定操作中,服务请求者使用服务描述中 的绑定细节来定位、联系和调用服务,从而在运行时调用或启动与服务 第2 章相关概念介绍 的交互【2 5 】。 2 5 3w r e b 服务的关键技术 从体系结构的角度观察,w e bs e r v i c e 是这样一种应用组件: 使用开放的通信协议( h t t p ,s m t p 等) 使用s o a p 协议来封装x m l 消息 使用x m ls c h e m a 来描述消息的数据类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论