已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)基于xml的异构数据库集成中间件技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨t 程大学硕士学位论文 摘要 信息化建设不断地深入使人们对现存各种异构数据的共享与交换需求不 断增强。因此就需要一种有效的方案来解决异构环境中的数据共享与交换, 以使各系统之间构成一个开放协同的软件环境来高效完成各项工作和业务决 策。针对这一需求,本文结合“黑龙江省企业和企业法定代表人信用档案系 统 这一具体项目对异构数据库集成相关技术进行了深入研究。 本文首先对异构数据库集成各种相关技术的作用及其优势与不足进行了 讨论。然后对异构数据集成中的关键技术模式映射进行了深入研究,提出了 f l s d 模式映射方法,f l s d 方法在l s d 方法的基础上增加了一个反馈机制, 使机器学习系统能够动态学习工作过程中产生的新知识,不断提高系统的匹 配正确率与完全率。此外,f l s d 还增加了一个基于约束的学习器,该学习 器弥补了被l s d 方法原有学习器忽略的模式元素特征信息,使系统匹配准确 率进一步获得提升。 本文结合f l s d 方法,设计了x m l h d i m 中间件系统,其采用的l a v 模式集成方式使系统具备了较好的可扩展性;x m l h d i m 系统使用f l s d 方 法进行模式匹配,这使得模式匹配工作的自动化有了较大的提高,降低了人 工匹配的工作量,提升了模式匹配的工作效率。 最后将f l s d 方法应用到了“黑龙江省企业和企业法定代表人信用档案 系统”中,在该系统实际运行的基础上,对f l s d 方法的工作性能进行了实 验。实验结果表明f l s d 方法能够较大地提升模式映射的匹配准确率与完全 率,使模式匹配工作的自动化程度进一步提高。基于机器学习的f l s d 方法 对异构数据库集成中间件技术的理论与实践具有现实指导意义。 关键词:异构数据集成;模式映射;机器学习;f l s d ;x m l h d i m 哈尔滨- t 程大学硕士学位论文 a b s t r a c t a l o n gw i t ht h ed e e p e n i n go fi n f o r m a t i z a t i o n ,t h en e e df o rd a t as h a r i n ga n d d a t ae x c h a n g ef r o me x i s t i n gh e t e r o g e n e o u sd a t a b a s ei sb e i n ge n h a n c e dc o n s t a n t l y t h e r e f o r e ,a ne f f e c t i v em e t h o dw i l lb en e e d e dt od e a lw i t hd a t as h a r i n ga n dd a t a e x c h a n g ei nh e t e r o g e n e o u se n v i r o n m e n t , s ot h a ta n o p e na n dc o l l a b o r a t i v e s o f t w a r ee n v i r o n m e n tc a l lb ef o r m e dt oc o m p l e t ev a r i o u sw o r ka n db u s i n e s s d e c i s i o n t h er e l a t e dt e c h n o l o g yo fh e t e r o g e n e o u sd a t a b a s ei n t e g r a t i o ni ss t u d i e d a c c o r d i n gt ot h i sd e m a n dc o m b i n i n gw i t ht h ep r o j e c to f “c r e d i tf i l es y s t e mo f e n t e r p r i s ea n dl e g a lr e p r e s e n t a t i v ef o rh e il o n gj i a n gp r o v i n c e ” t h i st h e s i sf i r s td i s c u s s e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h er e l a t e d t e c h n o l o g yo fh e t e r o g e n e o u sd a t a b a s ei n t e g r a t i o n a f t e r w a r d s ,at h o r o u g h r e s e a r c ho nt h es c h e m am a p p i n gt e c h n i q u ew h i c hi st h ec r i t i c a lt e c h n i q u eo f h e t e r o g e n e o u sd a t ai n t e g r a t i o ni sc a r r i e do n f l s di sp r o p o s e db a s e do nt h e a n a l y s i so ft h em e r i t sa n ds h o r t c o m i n g so ft h em a c h i n el e a r n i n gs c h e m am a p p i n g f l s di n c r e a s e saf e e d b a c ks y s t e mw h i c hc a nl e a r nn e wk n o w l e d g ec r e a t e df r o m w o r k i n gp r o c e s so ft h em a c h i n el e a r n i n gs y s t e m ,a n di m p r o v et h em a t c h i n g a c c u r a c yr a t ea n dm a t c h i n gc o m p l e t e n e s sr a t e m o r e o v e r , f l s da l s oi n c r e a s e sa l e a r n i n gm a c h i n ew h i c hi sb a s e do nt h ec o n s t r a i n ti n f o r m a t i o n ,t h el e a r n i n g m a c h i n em a k e su pf o rt h ei n f o r m a t i o nw h i c hi sl o s tb yt h el e a r n i n gm a c h i n e so f l s d ,a n dm a k e saf u r t h e rp r o m o t i o nf o rt h em a t c h i n ga c c u r a c yr a t e x m l h d i mm i d d l ew a r es y s t e mw a sd e s i g n e dc o m b i n i n gw i t hf l s d s y s t e m ,a n dl a ym o d eo fs c h e m ai n t e g r a t i o n i s a d o p t e dt op r o v i d eag o o d s c a l a b i l i t yf o rx m l h d i ms y s t e m t h eu s eo ff l s dm a k e sag r e a te n h a n c e m e n t t ot h ea u t o m a t i o nl e v e la n di n t e l l i g e n tl e v e lo fx m l h d i m s y s t e m ,b e s i d e s ,i ta l s o d e c r e a s e st h ew o r k l o a df o ra r t i f i c i a lm a t c h i n gw o r ka n dr a i s e st h ee f f i c i e n c yo f s c h e m am a t c h i n gw o r k f i n a l l y , as e to fe x p e r i m e n t sw e r ec a r r i e do u tt ov e r i f yt h ep e r f o r m a n c eo f f l s d s y s t e mi nt e r m so ft h ei m p l e m e n t a t i o no f “c r e d i tf i l es y s t e mo fe n t e r p r i s e a n dl e g a lr e p r e s e n t a t i v ef o rh e il o n gj i a n gp r o v i n c e ”t h er e s u l t ss h o wt h a t 哈尔滨- t 程大学硕士学位论文 f l s ds y s t e mc a no b v i o u s l yi m p r o v et h em a t c h i n ga c c u r a c yr a t ea n dm a t c h i n g c o m p l e t e n e s sr a t eo fs c h e m am a t c h i n g , a n df u r t h e ri n c r e a s et h ea u t o m a t i o nl e v e l o fs c h e m am a t c h i n gw o r k k e y w o r d s :h e t e r o g e n e o u sd a t ai n t e g r a t i o n ;s c h e m am a t c h i n g ;m a c h i n el e a r n i n g ; f l s d ;x m l h d i m 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 y f 者- ( 签字) :铕协 日期:j 切口弓年歹月多日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 在授予学位后即可在授予学位1 2 个月后解 密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :前亿 日期:川每7 月多日 | 导师( 签字) :承撕 撕7 年3 月f e l 哈尔滨工程大学硕士学位论文 第1 章绪论 本章首先对本论文选题的原因和背景进行了总结和归纳,然后对目前国 内外在相关领域的研究动态进行了描述,主要包括异构数据库互联相关技术。 最后介绍了本文的研究内容和组织结构。 1 1 研究背景及意义 信用是经济全球化条件下所有经济活动必备的“通行证 ,是市场经济体 系的基石。在市场经济环境下,良好的信用关系是维护企业正常经营、规范 市场经济秩序的重要内容。为了建立良好的市场环境,建立完善的社会信用 体系,促进黑龙江省社会经济的健康发展,黑龙江省委省政府决定建设“黑 龙江省企业和企业法定代表人信用档案系统 ,整合相关政府部门的企业、企 业法定代表人信用档案信息,形成企业与企业法定代表人信用档案信息交换 和应用体系,向社会各界提供信用档案信息服务。 随着信息技术在我国的飞速发展,特别是网络技术的日益普及,电子银 行系统、电子商务系统、电子政务系统及各种收费系统在黑龙江省各行各业 得到了广泛应用,逐步实现了业务、信息的计算机化管理并且建设了很多相 互独立的信息系统,这些系统采用了不同的开发工具、不同的操作系统、不 同的网络环境、不同的数据库管理系统等,其所承载的海量信息大部分也是 采用了不同的数据结构、数据类型、不同的表示形式和不同的检索方法等等, 由于一个数据库管理系统( d a t ab a s em a n a g e m e n ts y s t e m ,d b m s ) 不能直 接存取其他d b m s 的数据,从而造成了不同数据库间数据难以直接相互访问, 导致信息无法交互,形成了大量异构的、孤立的数据库系统,即数据孤岛问 题f l j 。各业务部门或厅、委、办、局中,不论是有关电子商务的信息,还是 电子政务的信息,或者其它办公信息,基本都存储在各种类型的数据库中。 本课题来源于“黑龙江省企业和企业法定代表人信用档案系统”。对于黑 哈尔滨工程大学硕士学位论文 龙江省企业和企业法定代表人信用档案系统 来说,数据来源有两种方式: 其一,人工输入所有信息。信息来自各部门,通过手工输入信息发布平台数 据库。该方法优点是不必考虑原有系统的数据形式及数据类型等数据库系统 中必须考虑的条件;缺点是数据量庞大,人工输入耗时耗力。并且不能与原 有部门实现信息的实时交互,不能实现信息的准确、及时更新,失去了建立 统一信息平台的意义。这种方法显然不够理想。其二,网络互连,采用数据 集成的方法,整合异构数据库的数据源,达到信息及时交互,及时更新,准 确反馈的目的。该方法需要解决异构数据库间数据源的集成问题,并保证数 据的正确性;优点是信息可以在各部门与平台间实时交互、更新,并且可以 通过数据的遍历比对及时反馈信息格式的不统一、不唯一、不准确的问题。 由此可见为了达到异构数据的共享,首先要解决的就是异构数据的整合集成 问题【2 】。 基于以上原因,需要在当前不可能改变原有各数据库系统的情况下,根 据异构条件下数据集成的基本原理,采用先进、合理、安全的技术方案,来 解决黑龙江省信息平台的数据来源问题是本项目产生的原因和背景。它具有 非常现实的社会意义、应用前景和实际价值。 1 2 国内外研究现状 异构数据库的数据共享问题由来己久,是数据库领域的经典问题,并随 着x m l 技术的兴起,再次成为该领域研究一个非常热门的课题,比如对多 数据库系统的研究。随着w e b 平台逐渐成为信息服务的主导平台,对w e b 环境下数据共享系统的研究,也呈现出蓬勃发展的趋势。数据共享系统为多 个异构数据源的查询提供统一的界面,方便用户进行集成查询。它自动的将 用户的查询请求分解为针对各个数据源的查询请求,然后将各个查询结果合 并成最终的结果呈现给用户。多个数据源的存在对用户是透明的,用户感觉 好像只对一个单一的数据源进行操作。 面对当前信息资源和网络环境的复杂性,要实现异构数据库的互联,使 用传统的d b m s 已经很难实现。近几年,许多新的相关技术相继推出,综合 应用这些技术可进行异构数据库之间的互联。纵览近几年的进展,主要包括 2 哈尔滨工程大学硕士学位论文 以下相关技术【3 】。 1 ) 公共网关接口技术 c g i ( c o m m o ng a t e w a yi n t e r f a c e ) 可以提供一个外部应用程序与w e b 服 务器交互的标准接口。c g i 的用处之一是其与浏览w e b 站点的用户之间的交 互能力,使信息网关、反馈机制、访问数据库、查询等一系列灵活复杂的操 作得以实现。利用c g i 实现与数据库的连接,使普通用户无须学习s q l 或 在计算机中安装某个特定的软件即可通过w e b 服务器准确迅速地获得所需 的数据,其最大的优点在于通用性,目前几乎所有的h t i t 服务器都支持 c g i 。 2 ) 开放式数据库互连技术 o d b c ( o p e nd a t a b a s ec o n n e c t i v i t y ) 是m i c r o s o f t 公司确立和定义的, 已被数据库界广泛接受和采用,成为访问数据库的统一界面标准。通过 o d b c ,数据库应用程序不需要考虑不同数据库的格式,而采用统一的方法 去使用数据库。o d b c 实际上是一组访问数据库的应用编程接口a p i 函数库, 应用程序可以通过o d b c a p i 函数操作数据库中的数据。另外jo d b c 是基 于s q l 语言的,所以o d b c 又是s q l 语言与应用程序之间的标准接口,它 解决了传统的宿主式或嵌入式s q l 接口不够规范的问题。 3 ) j a v a 数据库互联技术 j d b c ( j a v ad a t a b a s ec o n n e c t o r ) 是s u n 公司定义的j a v a 语言的数据库 a p i ,主要针对b s 结构的w e b 数据库。使用j d b c 能够方便地向任何关系 数据库发送s q l 语句。浏览器从服务器上下载含有j d b c 接口的j a v a a p p l e t , 由浏览器直接与数据库服务器连接,自行进行数据交换。j d b c 完成3 项工 作:建立与数据库的连接:发送s q l 语句:处理查询结果。应用j a v a 语言 和j d b c 编写具有统一的用户查询界面的应用程序,可实现在浏览器端对多 个位于不同数据库服务器上的异构数据库的选择查询。 4 ) 可扩展性标记语言技术 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是w 3 c 于1 9 9 8 年提出的数据文件 格式标准f 引,是s g m l ( s t a n d a r dg e n e r a l i z em a r k u pl a n g u a g e ) 的一个子集, 是其继h t m l 之后发展起来的一项重要的i n t e m e t 技术。x m l 突破了h t m l 的固定标记集合的约束,用户可以根据需要定义任何一种标签来描述文档中 哈尔滨工程大学硕士学位论文 1 1 的数据元素,而且x m l 将内容与形式相分离。x m l 专门为w e b 应用程序而 设计,并且能够运行在任何平台和操作系统上。x m l 的自描述性使其非常适 用于不同应用间的数据交换,而且这种交换无需预先规定一组数据结构定义。 x m l 的最大优点是其数据描述、传送能力,因此具有很强的开放性。 1 3 研究内容 本文在分析了国内外异构数据库集成方面的研究现状的基础上,对异构 数据库集成相关技术进行了深入研究,研究的主要内容如下。 ( 1 ) 异构数据库集成的相关技术。重点研究异构数据整合技术、中间件 技术、及x m l 技术,并对各种技术在异构数据库集成中扮演的角色及其各 自的特点、适用范围进行讨论分析。 ( 2 ) 对最典型基于模式映射方式的异构数据集成方式进行重点研究,尤 其是模式集成技术g a v 与l a y 。在此基础上着重研究了基于机器学习的模式 映射生成方法l s d ,并针对其不完善之处进行改进,提出一种带反馈机制基 于机器学习的模式生成方法f l s d 。 ( 3 ) 将带f l s d 方法应用到异构数据库集成中间件技术中,在此基础上 结合“黑龙江省企业和企业法定代表人信用档案系统这一实际项目提出一 个基于x m l 的异构数据库集成中间件系统。 1 4 论文结构 论文共分五章,结构安排如下。 第1 章阐述了异构数据库集成领域的研究背景,分析了国内外的研究现 状并提出了本课题的研究意义,最后阐述了论文的主要工作和内容安排。 第2 章阐述了异构数据库集成相关技术的概念及技术应用,分别对异构 数据整合技术、中间件技术及x m l 技术在异构数据库集成中的应用进行了 分析,分别讨论了各种技术的优点与缺点。 第3 章首先介绍了异构数据库集成的典型方式中介方式,在对中介方式 的核心问题模式集成技术进行了讨论的基础上,重点研究模式集成的关键技 4 哈尔滨工程大学硕士学位论文 术模式映射技术。在分析了基于机器学习的模式匹配方法的优缺点的基础上, 对l s d 方法进行了改进,在l s d 方法上增加了一个反馈学习系统和一个基 于约束的学习器,使得原系统更加智能、匹配准确率与完全率更高。 第4 章为“黑龙江省企业和企业法定代表人信用档案系统 设计了一个 基于x m l 异构数据库中间件系统,并将第3 章设计的带反馈的机器学习系 统应用到了该中间件系统中。 第5 章在实现了基于x m l 异构数据库中间件系统的基础上,重点对第3 章提出的f l s d 方法及其反馈系统与l c 学习器的性能进行了实际验证。 最后,先对论文的研究工作进行了总结,然后指出了目前研究中还存在 的一些问题和不足,给出了下一步工作研究的方向。 5 哈尔滨工程大学硕士学位论文 第2 章异构数据库集成相关技术研究 屏蔽各异构数据库之间的差异,把多个异构数据库集成起来,向用户提 供统一的、无差异的数据库服务具有重要的理论意义和实际实用价值。本章 对异构数据库集成领域的异构数据整合技术、中间件技术以及x m l 技术进 行了深入研究。 2 1 异构数据整合技术 自从数据库尤其是关系型数据库产品问世以来,异构数据库之间实现互 操作的问题就一直被人们关注。当数据库大量建立在l a n 之上,i n t e r n e t 及 w w w 逐渐成为获取信息的现实手段之后,这一问题显得尤为突出。人们迫 切需要解决这一问题,即要以最小的代价,使各种异构数据库之间实现数据 的互访及共享,并对用户实现数据的透明访问。由此就产生了异构数据库数 据整厶【卯。利用异构数据库数据整合技术,可以集成不同物理模型的数据库、 不同数据模型的数据库、同数据模型不同厂商的同质异型数据库以及同一数 据库厂商的不同版本、针对不同网络环境的数据库产品等等。 2 1 1 数据的异构性 数据的异构性导致了应用对于数据整合的需求。异构数据是一个含义丰 富的概念,它是指涉及同一类型但在处理方法上存在各种差异的数据,在内 容上,不仅可以指不同的数据库系统之间的数据是异构的( 如o r a c l e 和s q l s e r v e r 数据库中的数据) ;而且可以指不同结构的数据之间是异构的,( 如结 构化的s q ls e r v e r 数据库数据和半结构化的x m l 数据) 。 总的来说,数据的异构性可以包括以下三个方面:系统异构、数据模型 异构和逻辑异构【6 1 。 1 ) 系统异构 系统异构是指硬件平台、操作系统、并发控制、访问方式和通信能力等 哈尔滨工程大学硕士学位论文 的不同,具体细分如下: ( 1 ) 计算机体系结构的不同,即数据可以分别存在于大型机、小型机、 工作站、p c 或嵌入式系统中。 ( 2 ) 操作系统的不同,即数据的操作系统可以是m i c r o s o f tw i n d o w s , w i n d o w sn t 、各种版本的u n i x 、m mo s 2 、m a c i n t o s h 等。 ( 3 ) 开发语言的不同,比如c 、c + + 、j a v a 、d e l p h i 等。 ( 4 ) 网络平台的不同,比如e t h e m e t 、f d d i 、a t m 、t c p 口等。 2 ) 数据模型异构 而数据模型异构则是指d b m s 本身的不同。比如数据整合系统可以采用 同为关系数据库系统的o r a c l e 、s q ls e r v e r 等作为数据模型,也可以采用不 同类型的数据库系统关系、层次、网络、面向对象型数据库等。 3 ) 逻辑异构 逻辑异构则包括命名异构、值异构、语义异构和模式异构等。比如语义 的异构具体表现在相同的数据形式表示不同的语义,或者同一语义由不同形 式的数据表示。 以上这些构成了数据的异构性,数据的异构给行业、单位和部门等的信 息化管理以及决策分析带来了极大的不便。于是数据集成技术应运而生了。 2 1 2 数据整合的概念 数据整合用来对各种异构数据提供统一的表示、存储和管理,这些功能 在异构数据整合系统中实现。数据整合屏蔽了各种异构数据间的差异,通过 异构数据整合系统统一操作。因此整合后的异构数据对用户来说是统一的和 无差异的。由上述可知,异构数据的统一和无差异是数据整合的目标。因此, 数据整合的目标是为了实现各个异构数据源之间的数据共享,有效地利用资 源,提高整个异构数据整合系统的性能。 而数据整合的理想目标是在分布式环境下给用户提供一个单一系统映像 s s i ( s i n g l es y s t e mi m a g e ) 。这意味着各个数据源之间的相互作用必须透明地 进行。透明就是说把所有相互作用的细节向用户隐藏起来,使用户把各个子 系统看成是一个完全无缝的数据系统。具体来说,数据整合应达到这样两个 目标,即分布的透明性和异种数据源的透明性。 7 哈尔滨工程大学硕士学位论文 2 1 3 数据整合方式及分析 1 ) 数据整合方式分类 从采用的具体形式来看,异构数据整合方式大致可以分为两类:数据复 制方式和模式映射方式。 ( 1 ) 数据复制方式是将原有的数据移植到新的数据管理系统中,为了把 不同类型的数据整合在一起,必须将一些非传统的数据类型转化成新的数据 类型。许多关系数据库供应商提供了类似的功能。这种方案的缺点是随着数 据管理系统的升级,来数据的相关应用软件,或是被废弃或是需要重新开发, 以适应新的数据管理系统。因此,移植到一个新系统通常不是一个实际的解 决方案。 ( 2 ) 模式映射方式是利用中间件技术来集成各异构数据库,该方法并不 需要改变原始数据的存储和管理方式。中间件位于异构数据库系统( 数据层) 和应用程序( 应用层) 之间,向下协调各数据库系统,向上为访问集成数据 的应用提供统一数据模式以及数据访问的通用接口。各数据库的应用仍然完 成它们的任务,中间件系统则主要集中为异构数据源提供一个高层次检索服 务。显然,中间件系统模式是实现异构数据库数据整合的较理想的解决方案。 2 ) 目前常用的数据整合方式 目前,最常用的数据整合方式一般有以下几种 7 8 1 :联邦数据库( f e d e r a t e d d a t a b a s e ) 、数据仓库( d a t aw a r e h o u s e ) 、中介( m e d i a t i o n ) 方式以及基于知 识的信息集成等。 ( 1 ) 联邦数据库是数据库整合的最简单结构。它的构成方式是将所有组 件数据库进行一对一的连接。这样会出现以下问题:如果n 个数据库中的每 一个都需要与其他( n 1 ) 个实现互操作,那么开发者必须编写n ( n 1 ) 段代 码来支持两两之间的查询访问。而且这种互操作性是有局限性的交互,并不 能实现各数据库的灵活的集成。 ( 2 ) 数据仓库是把来自于几个数据源的数据副本都存储在单一的数据库 中【9 】。在这种结构中,所有数据源的数据都被抽取出来,合成一个全局模式, 并存储在数据仓库中,这在用户看来与一般的数据库系统无异。数据仓库支 持对历史数据的访问,用户也可以通过数据仓库提供的统一的数据接口进行 哈尔滨工程大学硕十学位论文 暑宣暑i 一 i|iii l li i1 1 1 决策支持的查询。但是这种方式有若干不足:比如数据仓库中的数据在存储 之前是经过一定的筛选处理的,数据仓库还需要定期更新,并且通常不允许 用户对数据仓库进行更新,因为这些更新不能反映在基本数据源中。 ( 3 ) 中介(是一种软件构件,支持虚拟视图或视图集合。 这种整合方式与数据仓库中物化关系集成数据源的方式相似,但它并不存储 任何实际数据。中介的作用是在用户提交了一个查询以后,将用户查询翻译 成一个或多个对数据源的查询。然后将数据源的查询结果进行综合处理,并 将之返回给用户。这种方式实际上就是前面所提及的中间件系统模式。 ( 4 ) 基于知识的信息集成策略是对底层关系数据库进行数据抽象,利用 面向属性的泛化构造知识库;并结合底层关系型数据库,在传统语言的 基础之上,实现基于三层结构的智能信息查询原型系统,为用户提供一 个容错和智能的信息查询接口。派生出来的知识库可以利用关系模型来实现 和存储。这样,底层的关系型数据库和知识库可通过关系查询语言,采用同 一种形式进行处理,从而可以达到降低信息集成的难度,提高信息集成效率 的目的。它的优点是比较自由、灵活,而缺点是不具通用性,难以扩展。 总之,无论是哪种实现方法,它们共同的一点就是要使其中的组件数据 库(保持自治性,即其局部定义,局部应用及与其它 数据库交换数据的局部策略都能保持不变。 2 2 中间件技术 中间件是一种支持分布式应用的重要组件框架结构,分布式应用借助中 间件在不同的技术之间共享资源。中间件为应用提供统一的编程模型,来处 理异构、分布问题和管理计算资源以及网络通信。中间件对分布式应用的底 层支持,决定了中间件必须负责实现分布式事务处理、安全保障、网络负载 平衡和交易控制等工作。这一特点,使得目前的中间件主流技术都是基于分 布式对象技术。其中,e b j ,c o m + 和c o r a b 组件代表了当前中间件技术的 最新发展趋势。 9 哈尔滨工程大学硕士学位论文 2 2 1 中间件定义 中间件( m i d d l ew a r e ) 是基础软件的一大类,属于可复用软件的范畴。 中间件是位于平台( 硬件及操作系统) 和应用之间的通用服务这些服务具有 标准的程序接口和协议【1 0 l 。它是基础软件的一大类,属于可复用软件的范畴。 针对不同的操作系统和硬件平台,它们可以有符合接口和协议规范的多种实 现。它介于系统软件和用户的应用软件之间,使用系统软件所提供的基础服 务,衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享、功 能共享的目的。也就是说,中间件在操作系统、网络和数据库之上,应用软 件的下层,其作用是为处于自己上层的应用软件提供运行与开发的环境,帮 助用户灵活、高效地开发和集成复杂的应用软件。中间件在分布式系统中的 体系结构如图2 1 所示【1 1 1 。 图2 1 中间件系统体系结构 由于中间件技术正处于发展过程之中,因此目前尚不能对它进行精确的 定义。但是业界普遍能接受的定义是:中间件是一种独立的系统软件或服务 程序,分布式应用软件借助这种软件在不同的技术之间共享资源,中间件位 于客户机服务器的操作系统之上,管理计算资源和网络通信。从中间件的定 义可以看出,中间件是一类软件,而非一种软件。中间件不仅仅实现互连, 还要实现应用之间的互操作,是基于分布式处理的软件。 2 2 2 数据库中间件及其优点 1 ) 数据库中间件 l o 哈尔滨工程大学硕士学位论文 数据库中间件是前端客户机和后端数据库之间的一个中间层,它完成所 有的数据逻辑操作( 例如数据转换,数据排行,数据统计等) ,简化客户端, 起着客户机和服务器机器之间的桥梁作用,客户机接收到用户的数据请求后, 根据不同的数据请求找到不同的数据库中间件,相应的数据库中间件再找到 对应的数据源数据库,中间件使用s q l 语言将数据库中的相应数据取出,在 中间件层进行各种逻辑处理,处理完成返回给客户端,由客户端进行显示。 这样所有的处理过程都有中间件完成,精简客户端,减轻客户端的负担。典 型的数据库中间件系统的体系结构如图2 2 所示。 图2 2 数据库中间件系统体系结构图 2 ) 数据库中间件的优点 数据库中间件作为中间件的一种,既有中间件普遍的优点,又有其自身 的特点,总体上看,它具有以下特点。 ( 1 ) 移植性好。数据库中间件屏蔽了各种平台相关的细节,通信协议, 访问方式,使得更换操作系统和通信协议等底层的配置无须改变应用程序代 码。 ( 2 ) 集成方便。中间件可以非常容易地集成到应用开发环境中,无须大 哈尔滨工程大学硕十学位论文 的代码改动。 ( 3 ) 易于扩充。中间件的局部改进和整体升级只要保持对外接1 2 1 不变就 不会影响到系统的其它部分,在功能上对应用程序实现了透明性。 ( 4 ) 使用简单。中间件对各种数据源使用统一的访问方法,使用户不必 关心数据库选择等繁琐的操作,降低了用户参与程度。 ( 5 ) 安全级别高。应用软件必须遵循一定的通信协议( 通常由数据库中 间件自己定义) 才可以访问,所以,它本身的体系结构就对数据库服务具有 一定的保护作用。 2 2 3 典型数据库中间件及其对比 1 ) 典型数据库中间件 数据库中间件技术产生后已经得到了迅猛的发展,目前,己经存在的比 较成熟的数据库中间件技术主要有如下几种1 1 2 - 1 3 i 。 ( 1 ) c g i c g i ,即通用网关接口,是一个用于定义w e b 服务器与应用程序之间通 信方式的标准,它是最早的,较为常见的w e b 访问d b 的技术。c g i 的优势 就在于几乎所有的浏览器都支持c g i 程序。但在c g i 的应用方式中,应用会 受到数据库用户数量的限制。c g i 对每个哪请求都将激活一个相应的进 程,但当用户进行客户端处理时,与o b 的连接通常空闲,浪费系统资源。 在多用户系统中,很容易耗尽w e b 服务的资源导致系统崩溃。并且c g i 的 编程比较复杂,程序的编译、连接是与具体d b m s 关联的,其移植性较差。 ( 2 ) o d b c 开放式数据库连接( o d b c ,o p e nd a t a b a s ec o n n e c t i v i t y ) ,o d b c 是第 一次真正的用统一的方式来存取数据库。和所有其他软件一样,o d b c 的产 生也是为了满足一定的需要。它在永不停止的信息技术的演变过程中,开辟 了一个新的篇章。o d b c 简化了从w i n d o w s ( 以及其它一些操作系统) 到数 据库的访问,像所有的中间件一样,o d b c 提供一个定义良好的、不依赖于 数据库的a p i 。使用a p i 时,o d b c 通过一个驱动管理器来判定应用程序要 连接的数据库的类型,并载入( 或卸载) 适当的o d b c 驱动,这样,就实现 使用o d b c 的应用程序和数据库之间的相互独立。 哈尔滨工程大学硕士学位论文 ( 3 ) o l ed b o l ed b 是微软实施u d a ( u n i v e r s a ld a t aa c c e s s ) 策略所产生的一个技 术。u d a 策略希望提供一种统一的基于c o m 的、能够访问包括关系型数据 库、非关系型数据库以及任何其他数据库类型的接口。o l ed b 定义了一个 数据访问服务器的集合,通过这些服务器可以很容易地连接到任意的数据源。 这样,开发者就可以把多种不同的数据源作为单一的虚拟数据库来管理。0 l e d b 允许使用标准的c o m 接口访问数据。o l ed b 提供开发者访问关系数据 库、文件、扩展表、电子邮件等数据的方法。通过c o m 接口,开发者可以 使用o l ed b 方便地集成面向对象的数据库和多维数据库。使用o l ed b 时, 数据库被简单的看作一个数据提供者组件。任何通过o l ed b 使用本地数据 格式和表现方法的组件都被视为数据提供者,包括关系数据库( 使用o d b c ) 、 i s a m 文件、文本文件、e m a i l 、微软w o r d 文件和数据流文件。这里的核心 思想是生成独立的o l ed b 组件对象用以调度数据提供者的各种附加特性和 功能。这些独立的o l ed b 组件叫做“服务提供者 。服务提供者类似于查 询处理器允许应用程序使用它们实现不同数据联合( 同族的或异族的) 之间 的互联。数据以单一的视图的形式存在,而不管它们的数据模型是关系型的、 面向对象的还是多维的。 ( 2 ) j d b c j a v a 语言具有高度的可移植性、健壮性和安全性等优点。j d b c 是用来 执行s q l 语句的j a v a 应用程序接口,是应用程序与d b m s 连接的桥梁,通 过它,一个j a v a 应用程序可以访问任何一个关系型数据库管理系统。j d b c 由一组用j a v a 程序写成的接口组成,易于向任何关系数据库发送s q l 语句, 使开发人员可以用纯j a v a 语言编写完整的数据库应用程序。j d b c 向应用程 序开发者提供独立于数据库的a p i ,使应用程序可以对某个数据库打开连接, 执行s q l 语句,并且处理结果。j d b c a p i 用于连接j a v a 应用程序与各种关 系型数据库。这使得在建立客户机群及服务器应用程序时,通常把j a v a 语言 编写的程序作为网络主干,把有关的数据库作为数据库后端。j d b c 的a p i 是低层次的a p i ,它是更高层次a p i 的基础,开发人员可以在j d b c 的基础 上设计用户更容易使用的接口和工具。j d b c 主要有两种接口,分别是面向 程序开发人员的j d b c a p i 和面向驱动程序丌= 发商的j d b cd r i v e r a p i 。j d b c 哈尔滨工程大学硕士学位论文 不是由m i c r o s o f t 的o d b c ( 开放是数据库连接) 规范派生的,j d b c 完全是 用j a v a 编写的,而o d b c 是个c 接口。但是,j d b c 和o d b c 都是基于开 放s q l 命令层接口,相同的概念性基础使a p i 工作进展更快,接受更加容易。 2 ) 典型数据库中间件对比分析 数据库网关把s o l 调用解释成为标准f a p ( f o r m a t a n dp r o t o c 0 1 ) 格式。 f a p 格式通用的客户机和服务器连接,也是异构数据库和运行平台的通用连 接。网关可以把a p i 调用直接翻译成f a p ,把请求传递到目标数据库并翻译 以便目标数据库和平台做出响应。 就o d b c 来说,由于它正趋于标准化和本身具有的特性,使用o d b c 开发系统,使用的接口很统一,而且非常方便。但这种实现方法缺少了许多 各数据库系统的私有特点,整个多数据库系统的效率有所降低。另外,o d b c 使用c 语言实现的基于c o m 技术的接口,在安全性、健壮性和应用的可移 植性等方面都带来了困难。 至于o l ed b ,微软的u d a 策略本身的动机很好。但是,处于一些商业 上的利益问题,它目前还是在其自己的w i n d o w s 平台上运行,可以预测,它 将来也不会对l i n u x 等平台提供支持,因为这样就违背了自己的商业利益。 另外,在o d b c 中,o d b c a p i 不能直接访问数据库,必须通过驱动程 序管理器与数据库交换信息。驱动程序管理器负责将应用程序对o d b ca p i 的调用传递给正确的驱动程序,而驱动程序在执行完相应的操作后,将结果 通过驱动程序管理器返回给应用程序。o l ed b 是系统级的编程接口,与 o d b c 相比o l ed b 对数据物理结构的依赖更少,它定义了一组c o m 接口。 o l ed b 具备对o d b c 的兼容性,允许o l ed b 访问现有的o d b c 数据源。 当访问相同的数据时,针对o d b c 的o l ed b 提供者可能会比本地的o l e d b 提供者的速度慢一些。 j d b c 则采用桥接方式可以使应用不直接使用o d b c ,而是把o d b c 翻 译成具有应用程序风格的面向对象的接口。同时这种方式还可以区分简单功 能与高级功能使得简单的事情用简单的方法处理,仅在必要时才让用户使用 高级功能。而且j d b c 驱动器全部由j a v a 编写,提供了“纯j a v a ”的解决方 法,因此在所有j a v a 平台上都可以自动安装,并且是可移植的和安全的。目 前,一般也只是在j a v a 语言开发的应用中使用。j d b ca p i 定义了一个j a v a 1 4 哈尔滨工程大学硕士学位论文 类集,允许a p p l e t 、s e r v l e t 、j a v a b e a n 和j a v a 应用程序连接数据库。原始的 j o b c 类与用户自定义的应用程序类共存,提供一种“纯j a v a 的、可移植 的数据库访问,允许从任意支持j a v a 的平台到任意数据库的连接。 综上所述,在微软与j a v a 的两大阵营中。微软程序主要采用o l ed b 或 o d b c 技术连接操作数据库,j a v a 程序主要采用j d b c 技术连接操作数据库。 微软的主要优势是简单易用,但受到了只能在w i n d o w s 操作系统上应用的限 制。j a v a 中采用的j d b c 技术优势是灵活开放,但由于j a v a 程序是解释执行 的,所以执行效率会略低一些;而且对程序员的技术要求也比较高。另外, 数据库中间件还没有一个统一的标准,而且,目前最成熟、使用最广泛的也 不是完全平台独立的,处理一些异构问题,也存在不足。 2 3x m l 技术 2 3 1x m l 概念 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记性语言) 是由w 3 c ( w r o r l dw i d ew e bc o n s o r t i u m ,互联网联合组织) 于1 9 9 8 年2 月发布的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国弹簧钢丝绳索项目投资可行性研究报告
- 近电极警器行业深度研究报告
- 中国碳化竖拼竹地板项目投资可行性研究报告
- 藤制鞋架行业深度研究报告
- 2026年中国大米加工设备行业市场前景预测及投资价值评估分析报告
- 三高节油王行业深度研究报告
- 平面网架行业深度研究报告
- 2026年中国自限式电伴热带行业市场规模及未来投资方向研究报告
- 双人双控电热毯行业深度研究报告
- 激光工割机行业深度研究报告
- PDCA课件培训教学课件
- 四年级下册劳动《小小快递站》课件
- 2023九年级数学上册 第四章 图形的相似4 探索三角形相似的条件第4课时 黄金分割教学实录 (新版)北师大版
- 餐饮五常管理法
- 204张思维导图速记初中1600单词(完整排版-直接打印)
- 贲门癌术后护理流程
- 2021浙江省公务员考试行测真题含答案
- 创新方法大赛理论知识考核试题题库及答案
- (完整版)一年级10以内加减法口算题(100道题-可直接打印)
- 信息科技大单元教学设计之八年级第六单元物联网安全
- 人教版初中九年级全册英语单词表(完整版)
评论
0/150
提交评论