(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用.pdf_第1页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用.pdf_第2页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用.pdf_第3页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用.pdf_第4页
(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于lucene的面向主题信息搜索系统的关键技术分析及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 研究生签名: 日期卫叫了厂 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即学校有权保留并向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本 学位论文的全部内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理 工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生签名: 留存导师签名:兰耋岛期区斟脚, 摘要 近年来各级公安机关按照公安部“金盾工程”的要求,积极开展公安信息化建设。 鄂州市公安局为了适应新时期社会治安形势,以信息化警务为目标,积极开展警务 信息综合应用平台的建设。原有的集中式数据库的模式已经远远不能满足信息化警 务的需求,在这种情况下,以分布式数据库为基础的警务信息综合应用平台应运而 生。 在分布式数据库系统中,数据分散存储于同一网络中的不同节点上,如何实现 各节点数据库信息同步更新是我们要解决的关键问题,只有当各节点数据库的信息 取得同步更新,分布式数据库中的数据才能保持一致性和完整性,如果数据不同步 更新将对警务产生不良影响。在此背景下,分布式数据库系统的数据同步是我们首 先要解决的问题。 一 本文首先介绍了分布式数据库系统和数据同步相关理论,然后重点研究了s q l s e r v e r 数据库的复制技术、数据仓库中的e t l 技术、x m l 技术和事务处理。在对 新同步机制的网络应用环境分析的基础上,结合实际警务,总结出了亟待解决的关 键问题。针对问题设计出总体的解决方案,即省、市两级的解决方案。 在市级解决方案中,以s q ls e r v e r 内嵌的复制机制为基础,创新的提出主从同 步的技术路线,对原有的复制机制加以改进,解决了因为大量数据更新而造成的数 据不一致的问题。 在省级解决方案中,首先详细描述了数据的处理过程,然后借助s q ls e r v e r 数 据库中的事务处理机制,如存储过程、触发器和作业调度的相关设置等,运用数据 仓库中的核心技术e t l 技术和x m l 技术,设计出一种新的数据同步机制。新的同 步机制创新的运用了一个中间层作为数据采集系统,该数据采集系统巧妙的运用 s q ls e r v e r 的事务处理和数据仓库的e t l 技术实现对数据的增量抽取,然后再将其 存储到数据仓库中,最后进行压缩、传输、解压缩等数据处理。在新同步机制的数 据上传阶段,先将各种异构的关系数据库映射成x m l s c h e l m a 文档,再根据x m l s c h e l m a 生成规格统一的x m l 文件,进行上传。在新同步机制的数据下载阶段,将 接收到的x m l 文档更新对应的数据库信息,完成目标数据库的更新同步。这种机 制不仅实现了数据增量抽取,还有效的解决了异构数据的同步问题。 关键字:分布式数据库,主从同步,s q ls e r v e r 复制技术,e t l ,x m l i a b s t r a c t i nr e c e n ty e a r s ,p u b l i cs e c u r i t yo r g a n si na c c o r d a n c e 丽吐lt h e “g o l d e ns h i e l d r e q u i r e m e n t so fm i n i s t r yo fp u b l i cs e c u r i t y , c a r r yo u tp u b l i cs e c u r i t yi n f o r m a t i o n t e c h n o l o g ya c t i v e l y e z h o uc i t yp u b l i cs e c u r i t yb u r e a ui no r d e rt om e e tt h en e wp e r i o d o fp u b l i co r d e rs i t u a t i o n , u s i n gi n f o r m a t i o nt e c h n o l o g yt ot a r g e tp o l i c e ,p o l i c ea c t i v ei n t h ec o n s t r u c t i o no fi n f o r m a t i o ni n t e g r a t e da p p l i c a t i o np l a t f o r m 1 1 1 eo r i g i n a lm o d e lh a sa c e n t r a l i z e dd a t a b a s eo fi n f o r m a t i o nw h i c hi sf a rf r o mt h en e e d so fp o l i c ei n f o r m a t i o n i n t h i sc a s e ,t h ed i s t r i b u t e dd a t a b a s eb a s e do np o l i c ei n f o r m a t i o ni n t e g r a t e da p p l i c a t i o n p l a t f o r mc a m ei n t ob e i n g i nad i s t r i b u t e dd a t a b a s es y s t e m ,t h ed a t as t o r e di nt h es a m en e t w o r kd i s t r i b u t e do n d i f f e r e n tn o d e s h o wt os y n c h r o n i z a t i o nt h ed a t a b a s ei n f o r m a t i o no fe a c hn o d ei st h ek e y t os o l v et h ep r o b l e m u n l e s sa l lt h en o d eo b t a i nt h es y n c h r o n i z e di n f o r m a t i o ni nt h e d a t a b a s e ,d i s t r i b u t e dd a t a b a s em a ym a i n t a i nc o n s i s t e n c ya n di n t e g r i t y i ft h ed a t a i sn o t s y n c h r o n i z e d ,t h ep o l i c ep l a t f o r mw o u l dh a v ean e g a t i v ei m p a c t i nt h ed i s t r i b u t e d d a t a b a s es y s t e m ,d a t as y n c h r o n i z a t i o ni st h a tw em u s tf i r s tt os o l v e t 1 l i sp a p e rd e s c r i b e st h es y n c h r o n i z a t i o no fd i s t r i b u t e dd a t a b a s es y s t e m sa n dd a t a r e l e v a n tt h e o r i e s ,a n dt h e nf o c u so nt h es q ls e r v e rd a t a b a s er e p l i c a t i o nt e c h n o l o g y , d a t a w a r e h o u s ee t lt e c h n o l o g y , x m l t e c h n o l o g y a n dt r a n s a c t i o n p r o c e s s i n g s y n c h r o n i z a t i o nm e c h a n i s mi nt h en e we n v i r o n m e n to fn e t w o r ka p p l i c a t i o n sb a s e do nt h e r e a l i t i e so fp o l i c e ,s u m m e du pt h ek e yi s s u e s r e q u i r i n gu r g e n ts o l u t i o n t h e r e a r e p r o v i n c i a la n dm u n i c i p a ll e v e l so f t h es o l u t i o nf o rt h ep r o b l e m i nt h em u n i c i p a ls o l u t i o nt ot h ee m b e d d e ds q ls e r v e rr e p l i c a t i o nm e c h a n i s m ,t h e i n n o v a t i v em a s t e r - s l a v es y n c h r o n i z a t i o nt e c h n i q u e sp r o p o s e dr o u t e ,ac o p yo ft h eo r i g i n a l m e c h a n i s mt ob ei m p r o v e d ,b e c a u s et h e l a r g ea m o u n to fd a t au p d a t e st os o l v et h e r e s u l t i n gp r o b l e mo td a t ai n c o n s i s t e n c y s o l u t i o na tt h ep r o v i n c i a ll e v e l ,t h ef i r s td e t a i l e dd e s c r i p t i o no ft h ed a t ap r o c e s s i n g , a n dt h e nw i t hs q ls e r v e rd a t a b a s et r a n s a c t i o np r o c e s s i n gm e c h a n i s m s ,s u c ha ss t o r e d p r o c e d u r e s ,t r i g g e r s ,a n dt h er e l e v a n ts e t t i n g s ,j o bs c h e d u l i n g ,d a t aw a r e h o u s eu s i n ge t l t e c h n o l o g ya n dc o r et e c h n o l o g yx m lt e c h n o l o g y , t od e s i g nan e wd a t as y n c h r o n i z a t i o n i n n o v a t i v en e ws y n c h r o n i z a t i o nm e c h a n i s m ,am i d d l el a y e ru s i n ga sad a t aa c q u i s i t i o n i i s y s t e r n ,t h ed a t aa c q u i s i t i o ns y s t e m t om a n i p u l a t et h ea f f a i r so fs q ls e r v e rd a t a w a r e h o u s ee t lp r o c e s s i n ga n dt e c h n o l o g yt oa c h i e v ei n c r e m e n t a le x t r a c t i o no f d a t aa n d t h e ns t o r e di n t ot h ed a t aw a r e h o u s ef i n a l l y , c o m p r e s s i o n , t r a n s m i s s i o n , d e c o m p r e s s i o n a n do t h e rd a t ap r o c e s s i n g i nt h en e wp h a s eo fs y n c h r o n i z e dd a t au p l o a dm e c h a n i s m ,t h e f i r s tm a p p i n go fh e t e r o g e n e o u sr e l a t i o n a ld a t a b a s e si n t ox m l s c h e l m ad o c u m e n t , g e n e r a t e da c c o r d i n gt os p e c i f i c a t i o n so fau n i f i e dx m l s c h e l m ax m l f i l et ou p l o a d s y n c h r o n i z a t i o nm e c h a n i s mi nt h en e wd a t ad o w n l o a ds t a g e ,w i l lr e c e i v et h ex m l d o c u m e n tu p d a t e st h ec o r r e s p o n d i n gd a t a b a s ei n f o r m a t i o nt oc o m p l e t et h et a r g e td a t a b a s e u p d a t e s t h i sm e c h a n i s mn o to n l yt oa c h i e v ei n c r e m e n t a le x t r a c t i o no fd a t a , b u ta l s o e f f e c t i v e l ys o l v et h ep r o b l e mo f h e t e r o g e n e o u sd a t as y n c h r o n i z a t i o n k e y w o r d s :d i s t r i b u t e dd a t a b a s e ,m a s t e r - s l a v es y n c h r o n i z a t i o n ,s q ls e r v e rr e p l i c a t i o n , e t l ,x m l , i i i 目录 第1 章绪论l 1 1 课题研究背景l 1 2 数据同步机制研究现状1 1 3 课题设计的目标2 1 4 本文的主要研究内容3 1 5 本文的结构安排3 第2 章分布式数据库概述5 2 1 分布式数据库定义5 2 2 分布式数据库的分类5 2 3 分布式数据库特点一6 2 4d d b s 的结构7 2 4 1d d b s 的体系结构7 2 4 2d d b s 的模式结构8 2 5 分布式事务管理1o 2 5 1 分布式事务10 2 5 2 两段提交协议( 2 p c ) 1 0 2 5 3 分布式事务的恢复12 2 6 本章小结1 4 第3 章数据同步技术15 3 1 数据同步技术概述1 5 3 1 1 数据同步分类15 3 1 2 数据同步的方式与技术1 6 3 1 3 当前流行的数据同步更新方法一1 6 3 2s q ls e r v e r 数据库复制技术18 3 2 1s q ls e r v e r 数据库复制模型基本元素18 3 2 2s q ls e r v e r 数据库的复制技术类型19 3 3 数据仓库。2 0 3 3 1 数据仓库的特点2 1 3 3 2 数据仓库的实现方式。2 1 3 3 3 体系结构2 1 3 3 4 组成2 2 3 3 5 设计步骤和建立步骤2 3 3 3 6 数据仓库与数据集市和数据库关系2 5 3 4e t l 技术2 6 3 4 1 数据抽取2 6 3 4 2 数据转换2 7 3 4 3 数据清洗2 7 3 4 4 数据装载。2 7 3 4 5e t l 构造数据仓库的过程2 8 3 5x m l 技术2 8 3 5 1x m l 的优势和用途2 8 3 5 2x m l 衍生技术s c h e m a 技术2 9 3 6 事务处理一31 3 6 1 存储过程31 3 6 2 触发器31 3 6 3 调度管理作业一3 2 3 7 本章小结3 2 第4 章新同步机制的分析与研究3 3 4 1 现有机制存在的问题3 3 4 1 1 通信程序实现的同步3 3 4 1 2 复制技术实现的同步3 3 4 2 新同步机制的网络应用环境分析一3 3 4 3 拟解决的关键问题3 4 4 4 新同步机制的总体框架设计3 4 4 5 本章小结。3 5 第5 章基于主从同步的市级解决方案3 6 5 1 基于s q ls e r v e r 合并复制的工作机制3 6 5 2 主从同步3 7 5 3 采取的研究方法和技术路线4 1 5 4 本章小结4 4 第6 章基于e t l 和x m l 的同步机制的省级解决方案4 5 v 6 1 数据处理流程一4 6 6 1 1 数据采集4 7 6 1 2 数据转换4 7 6 1 3 传输控制4 7 6 1 4 数据装载一4 7 6 2 数据的增量抽取。4 7 6 2 1 数据分类。4 8 6 2 2 数据导入流程4 9 6 2 3 事务性数据存储及约束规则设定5 0 6 2 4 数据仓库的处理。5 0 6 2 5 数据增量抽取的实现。5 0 6 3 用x m l 实现数据同步5l 6 3 1 模块的总体设计5 1 6 3 2 模块实现步骤5 2 6 3 3x m ls c h e m a 格式文档的生成5 2 6 3 4 从s q ls e r v e r 数据库到x m l 文档的映射5 6 6 3 5 从x m l 文档到s q ls e r v e r 数据库的转换5 7 6 4 系统运行界面6 1 6 5 本章小结6 2 第7 章总结与展望6 3 7 1 总结6 3 7 2 展望6 3 参考文献6 4 致谢6 7 攻读硕士学位期间发表的学术论文和参研项目6 8 v i 武汉理工大学硕士学位论文 1 1 课题研究背景 第1 章绪论 公安部”金盾工程”提出的”跨部门、跨地域、跨警种”信息综合应用为各地的 公安信息化建设指明了方向,现阶段就是要利用现有的硬件、网络、数据资源, 建立一整套以综合数据为基础、以公安信息网络为依托、综合业务应用为手段、 信息综合分析研判为高级目标的警务信息综合应用平台。 本课题来源于科研项目鄂州市公安局警务信息综合应用平台的数据同 步更新模块的开发。鄂州市公安局警务信息综合应用平台( 以后简称警综平台) 是一个综合、集中式的信息系统。其包括大情报预警子系统、重点人员管控子 系统、全国在逃人员比对系统、治安管理信息系统等大大小小十几个子系统。 而这些重要的警务信息就存储在公安信息网络中多个分布式的数据库服务器 上,按照数据的管理机构来划分,这些数据可分部级、省级、市级、县级和基 层站点五个等级。作为处在市一级的鄂州市警务信息综合平台,如何与五个不 同等级的数据库取得同步,保证数据的完整性和一致性是我们首要解决的问题, 也就是要解决分布式数据库的同步问题。 由于受到分布式数据库系统( d i s t r i b u t e dd a t e b a s es y s t e m ,以下简称d d b s ) 分布性和实时性的影响,目前对d d b s 的数据同步技术的研究虽然举得了一些 成果,但是整体上进展缓慢。那些对分布式数据库系统的研究取得的成果有利 于实现新的同步方案,这些同步方案对解决实际项目中数据同步更新问题有着 至关重要的作用。本课题就是在此背景下,深入研究现有的分布式数据库系统 的同步机制,结合鄂州市公安局的具体警务,研究实现新的同步方案,并将其 应用到警综平台中。 1 2 数据同步机制研究现状 近年来,数据库系统的应用发展很快,从结构看,主要从集中式向分布式 发展,从规模上看圭要是从小型向大型转变。数据的同步更新机制可以通过分 散存储的方式来实现实时上传下载。目前分布式系统中常用的有下面两种方法 武汉理工大学硕士学位论文 来实现各个节点之间的数据同步,从而保证数据的一致性与完整性。 文件传输 文件传输方式的应用范围相对比较狭窄,应用起来的也存在诸多的局限性。 这种方式包括上传、下载两部分。前提是将需要更新的数据信息收集起来,然 后经过特定的程序处理形成文件。上传就是通过网络把文件传输到数据库系统。 相对应上传而言,下载就是其他数据库系统接收到文件后,将其导入到本机数 据库的过程。整个上传下载过程都需要人工操作,浪费人力资源。而且这种方 法效率低、可靠性也不高,数据的更新明显滞后,不具备传输的实时性f l 】。 数据复制技术 数据复制技术被广泛的应用到o r a c l e 、s q ls e r v e r 、s y b a s e 、d b 2 等大型商 用数据库中。各大商用数据库厂家虽然在实现数据复制技术的细节方面不尽相 同,但是它们的工作原理确极为相似,同步对象都是主服务器数据库中有信息 变化的表的数据。主服务器复制了同步对象后,将其分发到网络上的其他目标 服务器。目标服务器接收到同步对象之后替换原有副本,就实现了数据的同步 更新f 2 】。数据复制技术使得分布式数据库系统中各节点的公共数据能够实时同步 更新,提高了系统的可用性和可靠性。许多独立软件开发商,例如p e e r d i r e c t 的p d r e 、s y w a r e 的d a t e s y n c 等也针对具体的系统需求开发了大量相同或类似 功能的产品,它们在异构数据库的同步方面比商用的数据库系统做得更好【2 】。 1 3 课题设计的目标 本文的研究目标是深入学习现阶段各种数据库同步更新技术,在此基础上 深入研究s q ls e r v e r 数据库的同步的工作原理,深入学 - j 数据仓库中e t l 【3 】技 术( e x t r a c t i o n - t r a n s f o r m a t i o n l o a d i n g ) 、x m l 【4 1 ( e x t e n s i b l em a r k u pl a n g u a g e ) 技术 等分布式数据库数据同步理论,结合实际需求在鄂州市公安局警务信息综合应 用平台的网络环境下设计实现一种新的同步机制,解决实际问题。要求同步模 块具有以下特点: 1 灵活的数据同步更新方式 在本项目中,按照市级、省级两种不同的应用环境选取不同的数据同步更 新方式。利用主从同步实现市级的数据同步,利用x m l 方式实现省级的数据同 步。 2 异构数据库的处理能力 2 武汉理工大学硕士学位论文 x m l 作为一种中间件,它将各个异构数据库系统独立开来,解决了异构数 据库系统不兼容性的问题,只要前台应用程序支持x m l ,它就能把异构数据库 系统之间的信息交流转换为数据库与x m l 之间的映射关系。 1 4 本文的主要研究内容 本文讨论的分布式数据库系统的数据同步主要解决如何增量获取数据的更 新、数据库如何加载同步以及数据如何传输三个方面的问题。本文将从以下四 个方面进行阐述和说明: 1 从分布式数据库的定义、分类、特点、结构以及分布式事务管理等方面详 细叙述分布式数据库的基础理论,为下文奠定理论基础。 2 在深入学习数据同步技术的基础上,详细叙述如何采用数据仓库中的e t l 技术实现数据的增量抽取,如何运用x m l 技术实现异构数据库的同步。 3 分析了新同步机制的网络应用环境,归纳出亟待解决的几个关键问题,给 出市级和省级两级的解决方案。 4 通过研究s q ls e r v e r 数据库的复制机制、x m l 技术、e t l 技术及数据仓 库、事务处理等理论,结合鄂州市的实际警务详细叙述了新同步机制的实现过 程。 1 5 本文的结构安排 本文先详细介绍了分布式数据库系统相关的理论,然后深入研究了分布式 数据库的同步问题,对项目中分布式数据库系统做需求分析,归纳出几个亟待 解决的关键问题,深入研究后确定技术路线,最后解决项目中的实际问题。本 文的内容结构如下: 第l 章是绪论,介绍了课题的研究背景、国内外研究现状以及课题的设计 目标和主要研究内容。 第2 章是分布式数据库概述,从定义、分类、特点、结构以及分布式事务 管理等方面详细叙述分布式数据库的基础理论,为下文奠定理论基础。 第3 章介绍了数据同步技术,着重介绍了s q ls e r v e r 复制技术、e t l 技术、 x m l 技术、数据仓库、事务处理等新同步机制用到的关键技术。 第4 章分析了现有同步机制存在的问题,接着对项目的网络环境作了分析, 武汉理工大学硕士学位论文 列出了亟待解决的关键问题,最后给出市级、省级两级解决方案。 第5 章详细叙述了如何用主从同步来实现市级的同步问题。 第6 章详细叙述了如何使用e t l 技术、x m l 技术及数据仓库实现省级数据 同步问题。 第7 章对全文进行总结,对未来的发展可能存在的问题提出了展望。 4 武汉理工大学硕士学位论文 第2 章分布式数据库概述 2 1 分布式数据库定义 分布式数据库系统是计算机网络和数据库系统有机结合的产物,是一种地 理位置上分散而逻辑上集中的数据库系统。由于计算机网络的存在,分布式数 据库系统中的节点不受到地理位置的限制,可分散在不同的地方。各节点上的 数据库具有管理本地数据的能力,同时也受到全局统一的数据库管理系统的管 理和调度,因此它又是一个逻辑整体。如图2 1 : 图2 1 分布式数据库系统的结构示意图 2 2 分布式数据库的分类 , 分布式数据库可按照不同的分类方法分为多种类型。首先按照数据模型, 可分为匀质分布式数据库和非匀质分布式数据库。如果分布式数据库系统的每 5 武汉理工大学硕士学位论文 个节点都采用相同的数据模型,则称这个分布式数据库系统是匀质的,否则是 非匀质的。在匀质的分布式数据库系统中,根据采用的数据库管理系统又可分 为同构和异构式系统。u p h d d b ( 异构分布式数据库系统) 有本系统中集成和 通过网关连接两种实现方式。通过系统集成的u p h d d b 又可分为全d b m s 功能 和部分d b m s 功能两类。部分d b m s 功能的分布式数据库系统包含多个d b m s ( 数据库管理系统) 和d a t e b a s e ( 数据库) ,因此部分d b m s 功能的分布式数据 库系统又被称为多数据库管理系统。多数据库管理系统可分为联邦数据库系统 和非联邦数据库系统两种。联邦数据库系统又可分为松耦合联邦数据库系统和 紧耦合联邦数据库系统两种【l 】。紧耦合联邦数据库系统又分为单联邦紧耦合数据 库系统和多联邦紧耦合数据库系统。具体分类如图2 2 : 图2 2 按照数据模型分类的分布式数据库系统 2 3 分布式数据库特点 分布式数据库有物理分布性、逻辑整体性、分布独立性、场地自治协调性 和数据冗余性等五个特点,具体描述如下: 1 数据的物理分布性:分布式数据库的各个局部数据库分布在不同的场地, 6 武汉理工大学硕士学位论文 只依赖于互联网,不受地理条件的研制。 2 数据的逻辑整体性:存在于多个场地或节点的局部数据库是互相关联的, 他们在逻辑上成为一个集体,并为分布式数据库系统的所有用户所用。 3 数据的分布独立性( 也称分布透明性) :用户在使用分布式数据库的时候, 同使用集中式数据库一样,无论数据位于任何站点上,只要权限允许,用户就 可以查询和修改数据。这些分布的实现过程对用户来说是透明的,完全由系统 完成。 4 场地自治和协调:分布式数据库系统中的各站点既是相互独立,又是整 个系统的一部分,受到全局系统的协调约束。独立性表现在它能执行局部的应 用请求,选择本地数据是否参与共享,对于不参与共享的数据,仅仅存储在站 点的数据库中。协调性表现在,各站点数据实行共享,当一个用户在全局范围 内访问某个数据时,系统会根据实际情况协调最优化的某个站点供其访问。 5 数据的冗余:在分布式数据库系统中,适当的冗余可减少通讯成本,提 高系统安全性、可靠性和查询速度。若某个站点的信息丢失,可通过其他站点 对其恢复。 2 4d d b s 的结构 2 4 1d d b s 的体系结构 无论是同构型分布式数据库系统还是异构型分布式数据库系统,它们都有 相同体系结构,如图2 3 所示。 7 武汉理工大学硕士学位论文 图2 3 分布式数据库系统体系结构示意图 分布式数据库体系结构由七个部分组成,它们分别是:全局数据库、局部 数据库、全局数据库管理系统、局部数据库管理系统、全局数据字典、局部数 据字典、通讯管理。分布式数据库系统严格划分了七个模块的功能,详细的描 述了模块与模块之间的关系,如图2 4 所示。 通讯管理( c m ) 执行结点闯通讯功能的一组通讯软件 全局数据库管理 系统( g d b m s ) 提 供建立和管理全局 数据库的功能,提 供数据分布的透明 性,保证全局数据 的一致性 局部数据库管理 系统( l d b m s ) 提 供局部数据库的管 理自治功能 图2 4 分布式数据库各组成模块关系图 2 4 2d d b s 的模式结构 从上一节可以看出,分布式数据库是若干个局部的集中数据库的有机结合, 从局部看,它拥有集中式数据库的优点;从全局看,它又有自己的特色。其模 8 武汉理工大学硕士学位论文 式结构如图2 - 5 : 全局外层 全局概念层 局部概念层 局部内层 图2 5 分布式数据库的模式结构 该模式结构从局部到全局依次是局部内模式、局部概念模式、分配模式、 分片模式、全局概念模式、全局外模式。其中局部内模式和局部概念模式是集 中式数据库和分布式数据库共有的。分配模式、分片模式、全局概念模式、全 局外模式是分布式的数据库特有的。 全局外模式是分布式数据库的全局应用的用户视图,是全局概念模式的子 集。 全局概念模式是分布式数据库的全局概念视图,包括全局概念模式名、属性 名和域。 分片模式定义分片片段以及全局关系到片段的映象。它们是一对多的关系, 一个全局关系可对应多个片段,一个片段只来自一个全局关系。 分配模式是分片的物理分配视图。 局部概念模式是局部数据库中的概念模型,是关于本地数据库的描述。如果 局部数据库中有独立应用,那么应该有局部外模式提供给本地应用使用。 局部内模式是对局部数据库的物理描述。 9 分布式数据库特有的 集巾式数据库墩有的 武汉理工大学硕士学位论文 2 5 分布式事务管理 2 5 1 分布式事务 分布式事务是指事务的参与者、支持事务的服务器、资源服务器以及事务 管理器分别位于不同的分布式系统的不同节点之上。分布式事务是网络化的产 物,分布式事务需要被分解成若干子事务,然后由协调者进程统一协调、管理、 调度,通过控制各子事务完成先后顺序和完成结果,最终使得分布式事务被正 确的执行。在分布式事务的执行过程中,协调者是事务的发起者和终结者,负 责整个分布式事务的启动和结束;同时也是组织者,负责向其他参与站点发出 创建本地代理执行子事物的请求。 2 5 2 两段提交协议( 2 p c ) 相对于集中式数据库而言,分布式数据库更具优点,但是它发生的故障却 更加复杂。它会出现诸如站点故障,报文丢失及网络分割等事故。两端提交协 议( 2 p c ) 【6 】就是通过管理和协调各个局部事务管理器,从而保证各个子事务的 操作一致,最终完成分布式事务处理。 两阶段提交协议是实现分布式事务的关键。在此协议中,一个或多个资源 管理器的活动均由一个称为事务协调器的单独软件组件来控制。此协议中的五 个步骤如下: ( 1 ) 应用程序调用事务协调器中的提交方法。 ( 2 ) 事务协调器将联络事务中涉及的每个资源管理器,并通知它们准备提交事 务( 这是第一阶段的开始) 。 ( 3 ) 为了以肯定的方式响应准备阶段,资源管理器必须将自己置于以下状态: 确保能在被要求提交事务时提交事务,或在被要求回滚事务时能够回滚事务。 大多数资源管理器会将包含其计划更改的日记文件( 或等效文件) 写入持久存 储区中。如果资源管理器无法准备事务,它会以一个否定响应来回应事务协调 器。 ( 4 ) 事务协调器收集来自资源管理器的所有响应。 ( 5 ) 在第二阶段,事务协调器将事务的结果通知给每个资源管理器。如果任一 资源管理器做出否定响应,则事务协调器会将一个回滚命令发送给事务中涉及 的所有资源管理器。如果资源管理器都做出肯定响应,则事务协调器会指示所 1 0 武汉理工大学硕士学位论文 有的资源管理器提交事务。一旦通知资源管理器提交,此后的事务就不能失败 了。通过以肯定的方式响应第一阶段,每个资源管理器均已确保,如果以后通 知它提交事务,则事务不会失败。 图2 - 62 p c 的事务提交示意图 图2 72 p c 的事务回滚示意图 图2 - 6 和图2 7 通过两个顺序图来说明两阶段提交协议。图2 - 6 显示事务成 功提交。图2 7 显示由于某种原因,其中一个资源管理器无法提交时的两阶段提 交协议,导致分布式事务失败。 两端提交协议的基本思想是为全部参与者做出关于提交或夭折全部本地子 事务的唯一决定,基本原则是由协调者负责做出最后的提交或夭折决定。协议 的原理如下【7 】 武汉理工大学硕士学位论文 协调者在日志中写入”预提交”命令 发送”预提交 命令给所有参与者 开始计时 参与者等待 预提交”命令 i f 参与者可以提交 t h e n b e g d 在日志中写入子事务的记录 在日志中写入 准备提交” 向协调者发 准备提交 信息 e n d e l s e b e g i n 在日志中写入 取消” 向协调者发”取消”信息 e n d 协调者等待接收所有参与者的应答信息并检查限时 正超时或收到至少一个 夭折 t h e n b e g 在日志中写入”全部取消 向所有的子事务发 取消”命令 e n d e l s e b e g i n 收到全部 准备提交”) 在日志中写入”全部提交” 向所有的参与者发”提交”命令 e n d 参与者等待协调者的命令 根据命令在日志中写入”取消”或 提交 向协调者发”己执行”信息 执行 提交 或取消命令 协调者等待接收所有参与者的 己执行”信息 2 5 3 分布式事务的恢复 采用两段提交协议后,当系统发生站点故障、丢失报文及网络分割等常见 故障时,参照相关的日志信息后,参与者和协调者便可相互协调执行恢复操作。 各类故障的恢复操作过程描述如下: 1 站点故障。站点故障主要有以下四种情况: 1 2 武汉理工大学硕士学位论文 ( 1 ) 参与者如果在”准备提交”前发生故障。 ( 2 ) 参与者在写入”准备提交”后发生故障。 ( 3 ) 当协调者在日志中写入”预提交”记录后,写入”全部提交”或”全部夭折” 前发生故障的时候。 ( 4 ) 当协调者在写入”全部提交”或”全部夭折”记录后,在写入”事务结束”记录 前发生故障。 ( 5 ) 协调者在日志中写入”事务结束”记录后发生故障。 对于( 1 ) 和( 2 ) ,参与者无法继续后续动作,协调者等待超时便夭折事务。系 统会重新启动事务,直到协调者和参与者都按照规定完成相关动作。 对于( 3 ) 和( 4 ) ,情况相比较( 1 ) 和( 2 ) 要稍微好一些,因为协调者已经接受到了 参与者的”准备提交”信息,在日志中写入了”预提交”记录。协调者恢复后,在重 新启动过程中会从”预提交”记录中读出参与者的标志符,重发”预提交”报文给参 与者。另外还有一种情况是,协调者在日志中写入”事务结束”记录后发生故障。 这种情况下事务己结束,不需恢复处理。 2 丢失报文。丢失报文有以下四种情况: ( 1 ) 至少丢失一个参与者的回答报文( “准备提交”或”夭折”) ,导致协调者无 法接收全部的参与者的回答报文。 ( 2 ) 协调者的”预提交”报文丢失,导致至少有一个参与者接收不到”预提交” 命令。 ( 3 ) 协调者的”提交”或”夭折”报文丢失,导致参与者等待超时。 ( 4 ) 参与者的”己执行”报文丢失,导致协调者无法收到全部参与者的”执行” 回执,等待超时。 对于( 1 ) 和( 2 )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论