已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于web+services的数据交换及其匹配机制研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据交换是指在两个或多个信息系统闻实现数据的实时交互,以实现信息共享、达到信息 资源的充分利用和优化配置。由于网络环境下的信息系统通常基于不同操作系统平台、异构数 据库管理系统、不同语义描述能力和数据隔离级别的分布式数据源,所以网络环境下的数据交 换需要解决数据分布性、数据模式异构性、跨平台百操作以及语义异构等问题。 针对上述问题,本文提出:( 1 ) 基于w e bs e r v i c e s 的数据交换方案。数据提供方、数据请 求方和w e b 服务注册中心协同实现数据的交换。数据提供方部署能提供交互数据的w e b 服务, 向w e b 服务注册中心发布w e b 服务和交互数据的描述信息。数据请求方到w e b 服务注册中心 查询服务和交互数据。服务注册中心根据服务匹配机制对发布和请求的w e b 服务进行匹配。数 据请求方根据服务匹配结果选择并调用w e b 服务,获取交互数据:并根据模式匹配机制将交互 数据模式和本地数据模式进行匹配,实现数据格式转换;将转换后的数据存入本地数据库或参 与本地应用。( 2 ) 基于语义的w e b 服务匹配机制。在服务匹配过程中,综合考虑w e b 服务功 能和交互数据的匹配程度以提高数据发现的效率。分别建立服务功能描述模型和数据描述模型 并采用o w l - s 插述w e b 服务;在服务匹配时根据服务功能和交互数据的特点使用两层匹配机 制并采用不i 列的匹配方法:通过相似度计算和设置相关阈值选择服务。( 3 ) 基于语义的数据模 式匹配机制。使用x m ls c h e m a 描述数据模式并借助领域本体度量概念之间的相似程度。将待 匹配的数据模式转化成模式树;对模式树中的叶结点和非叶结点采用不同的匹配算法;根据模 式匹配结果,生成源模式和目标模式的字段映射关系,作为数据交换方案中“数据格式转换” 的依据。 本文提出的方案和机制可实现网络环境下的数据发现、跨平台远程数据调用、异构数据模 式匹配,充分考虑了数据交换的特点、w e b 服务功能、交互数据、模式结构以及概念的语义关 系。为验证所提出的数据交换方案、w e b 服务匹配机制和模式匹配机制,采用j a v a 语言实现了 原型系统,系统使用网络中的三台计算机分别模拟方案中的数据提供方、数据请求方和w e b 服务注册中心。仿真实验结果表明,方案可完成网络环境下的数据发现、数据远程获取、数据 模式匹配和数据格式转换等环节,可实现交互数据的动态提供;采用的w e b 服务匹配机制使交 互数据在网络环境下易于被发现;采用的数据模式匹配机制具有较好的匹配准确率。 关键词:数据交换,w e bs e r v i c e s ,服务匹配,模式匹配,语义 a b s t r a c t a b s t r a c t d a t ae x c h a n g ee x c h a n g e sd a t ab e t w e e nt w oo rm o r ei n f o r m a t i o ns y s t e m si no r d e rt os h a r e i n f o r m a t i o n ,e f f e c t i v e l yu t i l i z ea n dc o n f i g u r ei n f o r m a t i o nr e s o u r c e h o w e v e r , t h e r ea r em a n yi s s u e s s h o u l d b ec o n s i d e r e df o ri n f o r m a t i o n s y s t e m so n i n t e m e tw i t hd i f f e r e n t o p e r a t i n gs y s t e m s , h e t e r o g e n e o u sd a t a b a s em a n a g e m e n ts y s t e m s ,d i s t r i b u t e dd a t as o u r c e sb a s e do nv a r i o u ss e m a n t i c d e s c r i p t i o na b i l i t i e sa n di s o l a t i n gl e v e l s ,i ti se s s e n t i a lf o rd a t ae x c h a n g eo ni n t e r n e tt os o l v es u c h p r o b l e m sa sd i s t r i b u t i o n o fe x c h a n g ed a t a , h e t e r o g e n e i t yo fd a t as c h e m a s ,i n t e r o p e r a b i l i t ya n d s e m a n t i ch e t e r o g e n e i t y i nt h i sp a p e r , t h r e em e t h o d sa n dm e c h a n i s m sa r ep r e s e n t e df o rt h e s ep r o b l e m s ( 1 ) w e bs e r v i c e s b a s e dd a t ae x c h a n g em e t h o d ad a t ap r o v i d e r , ad a t ar e q u e s t e ra n daw e bs e r v i c e sr e g i s t e rc e n t e ra r c a d o p t e dt oc o o p e r a t ew i t he a c ho t h e rt or e a l i z ed a t ae x c h a n g e t h ed a t ap r o v i d e rd e p l o y sw e b s e r v i c e sf o rd a t ae x c h a n g ea n dp u b l i s h e st h ed e s c r i p t i o no fs e r v i c ef u n c t i o na n de x c h a n g ed a t ao nt h e r e g i s t e rc e n t e r t h ed a t ar e q u e s t e rs e a r c h e sf o rw e bs e r v i c e so nt h er e g i s t e rc e n t e ra c c o r d i n gt oi t s r e q u i r e m e n t so ns e r v i c ef u n c t i o na n de x c h a n g ed a t a t h er e g i s t e rc e n t e rm a t c h e st h er e q u e s t e ds e r v i c e w i t ha l lp u b l i s h e ds e r v i c e sa m o n gt h ec e n t e ra c c o r d i n gt ot h es e r v i c em a t c h i n gm e c h a n i s m b a s e do n t h em a t c h i n gr e s u l t s ,t h ed a t ar e q u e s t e rc h o o s e sa n di n v o k e st h em o s ta p p r o p r i c i a t ew e bs e r v i c e , o b t a i n st h ee x c h a n g ed a t aa n di t ss c h e m ar e m o t e l y , m a t c h e st h er e m o t es c h e m aa n dl o c a ld a t as c h e m a , t r a n s f o r m sd a t af o r m a t sa c c o r d i n gt ot h em a t c h e ds c h e m a , a n ds t o r e st h ee x c h a n g e dd a t at ol o c a l d a t a b a s e ( 2 ) as e m a n t i cw e bs e r v i c e sm a t c h i n gm e c h a n i s mf o rd a t ae x c h a n g e t oi m p r o v ee f f i c i e n c y o fd a t ad i s c o v e r y , t h em e c h a n i s mt a k e sb o t hs e r v i c ef u n c t i o n sa n de x c h a n g ed a t ai n t oa c c o u n t b y c o n s t r u c t i n gs e r v i c ed e s c r i p t i o nm o d e la n dd a t ad e s c r i p t i o nm o d e la n dd e s c r i b i n gw e bs e r v i c e sw i t h o w l s ,t h em e c h a n i s ma d o p t st w o l a y e r sf r a m e w o r ka n dp r e s e n t s t w od i f f e r e n tm a t c h i n g a p p r o a c h e s s e r v i c e sa r ec h o s e nb yc a l c u l a t i n gs i m i l a r i t yv a l u e sa n ds e t t i n gc e r t a i nt h r e s h o l dv a l u e s ( 3 ) as e m a n t i cd a t as c h e m am a t c h i n gm e c h a n i s m n l em e c h a n i s md e s c r i b e sd a t as c h e m ab yx m l s c h e m aa n dm e a s u r e ss i m i l a r i t yo fc o n c e p t sb yd o m a i no n t o l o g y i tt r a n s f o r m sd a t as c h e m ai n t o s c h e m at r e e sa n du s e sd i f f e r e n tm m c h i n ga p p r o a c h e sf o rl e a fn o d e sa n dn o n - l e a fn o d e s b a s e do n m a t c h e dr e s u l t s ,m a p p i n gr e l a t i o n sb e t w e e ns o u r c es c h e m aa n dt a r g e ts c h e m aa r ec r e a t e d t h ep r o p o s e dm e t h o d sa n dm e c h a n i s m sc a nr e a l i z ed a t ad i s c o v e r yo ni n t e r o e t ,r e m o t ed a t a i n v o k i n ga n dh e t e r o g e n e o u ss c h e m am a t c h i n g c h a r a c t e r i s t i c so fd a t ae x c h a n g e ,s e r v i c ef u n c t i o n , e x c h a n g ed a t a s c h e m as t r u c t u r ea n d s e m a n t i cr e l a t i o n so fc o n c e p t sa r ea l lt a k e ni n t oa c c o u n t a p r o t o t y p es y s t e m i s i m p l e m e n t e db y j a v at ov e r i f yt h ep r o p o s e dm e t h o d ,s e r v i c em a t c h i n g m e c h a n i s ma n ds c h e m am a t c h i n gm e c h a n i s m t h r e ec o m p u t e r so ni n t e r o e ts i m u l a t et h ed a t ap r o v i d e r , t h ed a t ar e q u e s t e ra n dt h er e g i s t e rc e n t e rr e s p e c t i v e l y e x p e r i m e n tr e s u l t ss h o wt h a tt h ep r o p o s e d m e t h o dc a nc o m p l e t et h ew h o l ep r o c e s so fd a t ae x c h a n g e ,s u c ha sd a t ad i s c o v e r y , d a t ao b t a i n i n g , s c h e m am a t c h i n ga n df o r m a tt r a n s f o r m i n g t h ep r o p o s a l sc a nr e a l i z ed y n a m i cp r o v i d i n go fe x c h a n g e d a t a t h ea d o p t e dw e bs e r v i c e sm a t c h i n gm e c h a n i s mm a k e sd a t ad i s c o v e r yo ni n t e r n e te a s i l y t h e a d o p t e ds c h e m am a t c h i n gm e c h a n i s mh a sb e t t e rm a t c h i n gp r e c i s i o nt h a nt r a d i t i o n a lm e t h o d s k e y w o r d s :d a t ae x c h a n g e ,w e bs e r v i c e s ,s e r v i c em a t c h i n g ,s c h e m am a t c h i n g ,s e m a n t i c i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 研究生签名:江2 弦一日期:也赴! :。, 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文 的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档 的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借 阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东 南大学研究生院办理。 研究生签名:泷导师签名:监日期:趔显:扣多研究生签名:么逸杰导师签名:芝塑日期:趔显:中、,多 第一章绪论 1 1 研究背景 第一章绪论 信息化时代,人们越来越霞视信息资源的优化配置及利用,斥以巨资建立了众多应用信息 系统。但是,很多信息系统就像一个个“信息孤岛”,相互间缺乏信息共享与交互,造成了大 量的信息资源浪费,丰要原因如下:( 1 ) 各个信息系统在网络环境下是分布的,它们很难获知 其它信息系统的网络位置及其包含的数据信息、发现对其有价值的信息和数据;( 2 ) 各个信息 系统往往使用不同的系统平台,互操作团难;( 3 ) 各个信息系统使用不同的数据库管理系统, 给数据库互访带来难度;( 4 ) 各个信息系统的语义描述能力不同,导敛不同的信息系统难以理 解其它系统中的信息,数据分析和处理困难:( 5 ) 网络的复杂性及防火墙等原因,给网络环境 下的数据传输带来难度。 数据交换是实现信息共享和交互的途径之一。所谓数据交换,是指软件实体之间通过接口 实时地、动态地交互信息i j 4j ,并将获取的源模式下的数据尽可能精确地转换为目标模式下的数 据p j 。网络环境下的数据交换过程包括:数据的发布与发现、数据的获取与传输、数据的模式 匹配与格式转换。当前,分布的应用系统间存在大量的数据交换需求:制造软件阃需要交互数 据;虚拟企业之间需要进行业务交互;行业内部需要信息交互;异地的政府部门之闻需要交流 管理信息;制造企业为了利用遗留系统、新的软件实体需要与遗留系统中的信息交互等等。 随着网络技术的发展和业务融合的趋势,越来越多的w e b 应用也需要通过数据交换来实现互操 作。 由于信息系统的分布性、异构性等原因,网络环境下的数据交换面临如下问题:( 1 ) 网络 环境下的数据发现;( 2 ) 概念语义异构p 1 ( 3 ) 数据模式不一致;( 4 ) 跨平台互操作。如何解决 上述问题,高效、实时、动态地进行数据交换,是本文的研究重点。 1 2 研究现状 数据交换是一个传统的课题,在不同的技术环境下,针对不同的应用场景和用户需求,国 内外学者提出了一些解决方案,主要有以下几类:e d i ( 电予数据交换) 方案、传统的异构数 据源集成方案和基于x m l 的数据交换方案。 1 2 1 e d i e d l 是产生于上世纪6 0 年代、在8 0 年代后得到广泛应用的数据交换技术,目前存在美国提 出的a n s i x 1 2 和联合国提出的u n e d i f a c t 两套标准。e d i 根据事先达成的协议,将信息按照 一定的标准进行格式化处理,并把这些格式化的数据通过计算机通信网络在其计算机系统之间 进行交换和自动处理1 6 1 】。目前e d i 已较为广泛地在各行备业中使用,女 1 t r t m gtp h a m 等人将e d l 应用在商业交易中9 j ,a n d r e wh u t c h i s o n 等人将e d i 应用于医疗卫生系统p j 。 在应用系统中,用户通过e d i 中心交换相互间的标准报文,实现贸易关系较为固定的用户 间安全、可靠的电子单证交换。e d l 的初衷是为解决商业贸易中的信息交互问题,它为不间企 、l k 间的数据交换提供了有效的解决方案,提高了工作效率。但e d i 实现了统一性却没有实现叮 扩展性,它要求所有的合作伙伴都必须有唯一的解决方案和基于严格事务处理的标准集。这使 得e d i 实现和维护成本过高,也缺乏通用性和灵活性。 该类方案侧重于数据格式化和数据传输,未涉及数据发现、模式匹配等问题。 东南大学硕士学位论文 1 2 2 异构数据源集成 异构数据源集成方案主要基于包装器和中间件。包装器用来屏蔽各种数据源的差异,中间 件通过包装器和各个数据源交互。包装器的设计方案有两种:一种是利用包装器实现数据源未 提供的查询能力;另一种是仅向各数据源发送它们均能完成的查询,其余查询山全局查询处理 器完成【i 。相关应用如斯坦福大学c a r c i a m o l i n a 等人开发的t s i m m i s 系统1 ”】、东南大学w a n g n i n g 等提出的基于c o r b a 的v e r s a t i l e 系统l ”j 等。 异构数据源集成方案的核心是中介模式。用户的数据交换基于中介模式,他们不必知道每 个数据源的特点,中介器将基于中介模式的数据交换转换为基于各局部数据源的模式查询,接 着查询执行引擎再通过各数据源的包装器将结果抽取出来,最后由中介器将结果集进行格式转 换并返【团给用户。该方法解决了多数据源之问数据库连接的复杂性问题,从而弥补了传统的点 对点之间直接进行数据交换的不足。但由于各个数据源的包装器是要分别建立的,且各个数据 源可能并不是都集中在一个局域网内的,因此,基于i n t e r n e t 的异构数据源集成又面临新的挑战。 即如何支持异构数据源间的互操作和如何解决网络环境下的数据发现问题。 该类方案侧晕于数据库系统间的数据模式匹配和格式转换,但未考虑数据发现和互操作问 题,对网络环境下数据分布且数据源不确定的情况处理效率不高,此外,对概念语义异构的处 理能力也有待提高。 1 2 3 基于x m l 的数据交换 基于x m l 的数据交换方案主要采用x m l 作为数据交换的媒介,交互双方统一使用x m l 文档作为公共数据格式,通过相关工具对x m l 文档进行模式匹配和格式转换。方案中,交互 双方各自负责自身数据与x m l 文档问的转换,无需考虑对方数据库的实现细节,具备一定的 扩展性和通用性。目前,基于x m l 的数据交换方案已得到广泛应用。相关应用如p o o hp o l l y m s , 等提出基于x m l 的消息处理机制【”j 、c a r m e nc o n s t a n t i n e s c u 等提出的s i e s 系统【“】、c h e u n g d a v i d 等提出基十x m l 的分布式文档处理架构【l “、章明等提出的数据交换共享平台l ”j 等。同 时,为了实现基于关系数据库的信息系统问的数据交换,学者们提出了多种关系模式与x m l 模式的转换算法,如j a y a v e ls h a n m u g a s u n d a r a m 等人提出的i n l i n i n g 算法【l “、d o n g w o nl e e 等 人提出的c p i 算法【1 ”、s u nh o n g w e i 等人提出的关系模式与x m ls c h e m a 的映射算法【i ”等。这 些转换算法提出,为实现基于x m l 的数据交换提供了便利。 近年来,由非赢利组织发起的r o s e t t a n e t t ”j 、由微软发起的b i z t a l k l 2 ”、e b x m l 标准1 2 ”,中 科院电子商务中心制定的c n x m l 标准口“等都以实现数据交换作为研究目标之,单纯以数据交 换而论,它们都是阱x m l 来描述数据,不i 列行业的人们根据自己的习惯定义了不同的x m l 标 签,形成一系列具有行业特性的数据描述语言。它们各自独成体系,标准使用较为复杂,山各 体系建立的数据信息之间难以交互,基本上是依靠人为干预建立数据映射。 上述基于x m l 的各类解决方案都是面向不同领域、不同应用而开发的,在实现上也使用 了不同的技术,对本数据交换方案的设计和开发具有一定的参考价值。但单纯基于x m l 的数 据交换方案仍面临异构系统问的互操作和网络环境下的数据发现问题。 该类方案侧重考虑基于x m l 的数据模式匹配和格式转换方式,未考虑数据发现问题。 1 2 4 其它方案 随着w e bs e r v i c e s 技术的出现,一些学者将w e bs e r v i c e s 技术引入到数据交换中。一些方案 利用w e bs e r v i c e s 的优良特性改善异构系统问互操作和远程数据传输问题。相关应用如: a m e r - y a h i as i h e m 【2 4 l 等人通过w e b 服务代理统一执行优化操作,改善了大数据量数据交换的性 能;李爱军等【2 5 】将w e bs e r v i c e s 和x m l 技术相结合,设计了一种数据交换平台,改善了网络环 境下的数据获取和传输问题。 2 第一章绪论 该类方案一般在上述三类方案的基础上,改善了系统闻互操作、数据远程获取和传输能力。 但较少涉及网络环境下的数据发现问题,对语义异构的处理能力也有待提高。 1 2 5 分析总结 上述方案虽然有各自不同的特点,但通过衡量和分析,我们发现以下几点是值得关注和改 进的: ( 1 ) 数据发现能力弱。现有的数据交换方案大多适用于信息系统在网络环境下位置确定 的场景,即数据请求方已知所需求的交互数据位于何处,缺少数据发现环节或仪有一些简单的 数据查询操作。在i n t e m e t 上数据量急剧增长的今天,信息系统往往并不知道对自身有价值数 据的确t u 位置和相关状况,需要在网络中实时、准确地查询交互数据信息。数据发现作为数据 交换过程的第一环节。其效率将直接影响后续的各个环节。 ( 2 ) 未充分考虑概念的语义特性。现有方案针对概念匹配大多采用字符串匹配法,有的 预定义概念映射规则,部分使用了字典,当概念数量较多、类型复杂时,工作量大,匹配结果 也不能充分体现概念的语义特性。 ( 3 ) 动态提供数据的能力有待改进。信息系统中的数据是动态变化的,例如,库存数据 是随着产品出、入库情况不断变化的,交互数据必须在被调用时从数据提供方的数据库中 实时提取,才能保证数据的准确性。大多基于x m l 的数据变换方案采用预先从数据库中 取出数据的方式,并转换成静态的x m l 文档,等待数据请求方调用。这不仅不能保证数 据的准确性,也缺乏灵活性。 ( 4 ) 自动化程度有待提高。现有方案在数据发现、模式匹配等环节,往往需较多的人工 干预才能完成。如部分方案通过手动配置数据源的方式完成“数据发现”;部分方案在模式匹 配时需人工建立字段映射关系,当模式类型、字段数目较多时,数据交换效率不高。 另外,现有的数据交换方案大多侧重于数据交换的某些环节,鲜有面向数据交换全过程的 解决方案。因而,设计一个能高效完成数据交换全过程的方案,并开发相应的原型系统很有必 要。 1 3 研究目标和内容 本文主要研究网络环境下异构信息系统间的数据交换,并以关系数据库为例,阐述数据交 换的整个流程。研究目标是:建克一种基于w e bs e r v i c e s 的数据交换框架,在框架中能够发布 交互数据信息、能够实现基于语义的数据发现、可以远程传输交互数据、最后实现基于语义的 数据模式匹配和数据格式的转换,完成数据交换的全过程。 本文的研究内容是: ( 1 ) 基于w e bs e r v i c e s 的数据交换框架 网络环境下的数据交换首先需解决数据发现和系统互操作问题,这也是数据交换的关键环 节。因此,我们提出一种基于w e bs e r v i c e s 架构的数据交换框架,建立一个数据交换的平台, 提供下列功能: 发布w e b 服务( 提供交互数据) 至w e b 服务注册中心; 在w e b 服务注册中心查找能够提供交互数据的服务; 服务注册中心对发布的服务和查找的服务进行基于语义的匹配。 在框架中,通过发布w e b 服务来发布交互数据信息:通过基于语义的w e b 服务发现完成 数据发现:通过调用w e b 服务远程获取和传输交互数据:基于x m l 和领域本体实现数据模式 匹配和数据格式转换。框架中构建的w e b 服务注册中心能够对发布在其中的w e b 服务和所查 找的w e b 服务进行基于语义的服务匹配。方案中的数据发现效率依赖于所采用的w e b 服务匹 东南大学硕上学位论文 配机制,模式匹配效率依赖于所采用的模式匹配机制。 ( 2 ) 针对数据交换的w e b 服务匹配机制 本方案通过w e b 服务发现完成数据发现,因此数据发现效率直接决定于所采用的w e b 服 务匹配机制。 基于关键字的服务匹配机制实现简单,但查准率低;基于语义的匹配机制考虑了服务功能, 并借助领域本体度量概念闻的语义关系,提高查准率。在本文提出的数据交换方案中,数据 发现作为数据交换过程的第一环节,其结果将影响后续的模式匹配和数据格式转换等环节。因 而,方案采用的服务匹配机制需具有较高的查准率,即采用基于语义的匹配机制。 通常,基十语义的w e b 服务匹配机制的核心是服务输入和输出参数( i o ) ,或将其扩展为 i o p e ( 输入、输出、前置条件、结果) 。但同一般w e b 服务不同的是,本方案中的w e b 服务( 下 文中称为数据交换服务) 的核心不仅仅是i o p e ,还包括交互数据的信息。对数据交换服务l 面 言,单纯的i o p e 匹配机制查准率不高。凶此,针对数据交换服务,我们扩展了现有的语义w e b 服务匹配机制,在服务功能描述的基础上建立数据描述模型,综合服务功能匹配和数据描述匹 配的结果得出服务总匹配度。 ( 3 ) 基于语义的数据模式匹配机制 由于x m l 文档的结构化和町读性,通常采用x m l 作为数据交换的媒介。x m ls c h e m a 用结构之问的包含关系描述了模式结构间的关联,它具有丰富的内嵌数据类型和强大的类型定 义功能,能够较好的表达数据的结构、类型和约束,但未显式描述概念问的语义关系。本体则 是对某一领域中的概念及概念问关系的明确描述。因此,本文设计了一种基于x m ls c h e m a 和 领域本体的模式匹配机制。该机制综合考虑了数据模式的结构特征和概念间语义关系。 ( 4 ) 原型系统 对所提出的数据交换框架、w e b 服务匹配机制、模式匹配机制,开发相应的原型系统进行 验证。原型系统采用联网的三台计算机分别模拟数据交换框架中的三方( 数据提供方、数据请 求疔、w e b 服务注册中心) ,根据数据交换的流程,通过三方交互完成网络环境下数据交换的 各个环节,对本文提出的方案予以验证。系统模块较多,要综合运用w e bs e r v i c e s 、x m l 、 o n t o l o g y 、j 2 e e 等多项技术。 综上所述,本文的研究重点在于:设计网络环境下面向全过程的数据交换方案;在提出的 基于w e bs e r v i c e s 的数据交换方案中,根据数据交换服务的特点,提出一种基于语义的w e b 服 务匹配机制;设计一种基于语义的数据模式匹配机制;并开发原型系统,对所提出的方案和匹 配机制进行验证。 1 4 论文的主要创新点 ( 1 ) 提出面向全过程的数据交换方案。该方案町完成网络环境下数据交换【内各个环节, 包括:数据的发布与发现、数据的获取与传输、数据的模式匹配与格式转换。 ( 2 ) 提出针对数据交换的语义w e b 服务匹配机制。本方案中,w e b 服务匹配的目的是实 现数据发现,凶此,与通常的匹配机制不同,该机制考虑到数据交换服务的特点,除度量服务 功能的匹配程度外,还度量交互数据的匹配程度,综合二者的匹配程度得出最终匹配结果,提 高了网络环境下的数据发现效率。 ( 3 ) 设计基于模式结构和概念语义的数据模式匹配机制。该机制使用x m ls c h e m a 描述 数据模式,借助领域本体度量概念之间的相似程度,针对模式树中的“叶结点”和“非叶结点” 采用不同的匹配算法,并通过“反向检查”方式纠正部分误匹配现象。 4 第一章绪论 1 5 论文的组织结构 本文首先分析了数据交换的研究背景及现状,针对现有方案的不足,设计了一种基于w e b s e r v i c e s 的数据交换方案,并提出了一种针对数据交换服务的w e b 服务匹配机制和一种基于模 式结构和概念语义的数据模式匹配机制,最后,实现了原型系统,验证了方案的口j 行性。论文 的组织结构如下所示: 第一章绪论。概述本文的研究背景及研究现状,分析现有方案中存在的不足,简要介绍 本文的研究目标、内容及创新点。 第二章问题描述及相关知识。阐述了网路环境下异构数据库系统问的数据交换概念及过 程,并介绍了本文涉及的x m l 、w e bs e r v i c e s 、语义w e b 等相关知识。 第三章基于w e bs e r v i c e s 的数据交换方案。介绍了本文所提出的数据交换方案的框架结 构、数据交换的流程及各个功能模块,并对方案进行了应用场景介绍和相关分析。 第网章w e b 服务匹配机制。阐述了本数据交换方案中所采用的w e b 服务匹配机制,介绍 了服务描述模型、服务匹配方法、服务匹配过程及相似度计算方法,最后介绍了一个基于该机 制的服务匹配示例。 第五章数据模式匹配机制。阐述了本数据交换方案所采用的数据模式匹配机制,介绍了 模式描述方法、模式匹配方法及模式匹配过程,最后介绍了一个基于该机制的模式匹配示例。 第六章原型系统实现。介绍了原型系统的设计以及运行情况,并对实验结果进行了分析 比较。 第七章总结与展望。对本文进行总结,并指出了本文待完善之处及今后的研究方向。 5 东南大学硕士学位沦文 第二章问题描述及相关知识 2 1 数据交换的描述 2 1 1 数据交换的概念 数据交换是指软件实体之间通过接口实时地、动态地交互信息。它是网络环境中的一方动 态获取另一方的数据并对其进行数据格式处理、参与本地应用、与本地数据相结合的过程。 2 1 2 数据交换的过程 数据交换的过程包括:数据的发布与发现、数据的获取与传输、数据的模式匹配与格式转 换。 ( 1 ) 数据发布 数据提供方将其提供的服务信息以一定的方式发布于网络中的注册中心,供数据请求方查 询。发布的服务信息包括服务描述以及服务所提供的交互数据描述等。该信息供数据请求方判 断数据对其是否有价值,以决定是否调用该服务。 ( 2 ) 数据发现 数据请求方在服务注册中心查询所需要的服务。它是数据交换过程的关键环节:服务查询 的过程也是数据发现的过程,若数据发现不成功,其后续环节也无法进行。因此,设计一个高 效的服务匹配机制对数据交换来说非常重要。 ( 3 ) 数据获取 数据请求方执行服务,从数据提供方的信息系统中提取数据,并根据传输要求转换成特定 的传输格式。 ( 4 ) 数据传输 数据提供方使用相关网络协议将数据以文件或二进制数据流的形式传输到数据请求方。该 环节应快捷、安全,需解决跨越防火墙的问题。 ( 5 ) 数据模式匹配 数据请求方对数据提供方和自身的数据模式依据一定的规则进行匹配和映射。不矧信息系 统的数据模式一般是不同的同时还存在语义描述不一致问题,为了利用其它信息系统中的数 据,需将其与本地数据模式进行匹配和映射。所采用的匹配或映射规则是模式匹配的关键。 ( 6 ) 数据格式转换 数据请求方根据数据模式匹配的结果,将获取的交百数据转换成符合自身数据格式的数 据。它是数据模式匹配的后续环节,也是数据交换过程的最终环节。经过格式转换的数据才能 参与本地应用、与本地数据相结合。 2 1 3 数据库异构 信息系统通常会根据自身应用需求采用不同的数据库管理系统。因此,不同信息系统的数 据库存在异构性,主要体现在: ( 1 ) 平台异构 平台异构是指数据源所依赖的应用系统、数据库管理系统、操作系统乃至通信协议上的不 同。 ( 2 ) 模式异构 模式异构是指数据源在模式结构、字段构成、数据类型以及约束条件上的不同。 6 第二章问题描述及相关知识 ( 3 ) 语义异构 语义异构是指对同一现实世界事物进行描述时,数据在表达方式或内容上的不同。对数据 库而言,主要包括概念级语义异构和值级语义异构。 概念级语义异构是指不同数据库可能会采用不1 _ j 的术语描述同一领域的概念,或者嗣一术 语在不同数据库中却表达不同的内涵。值级语义异构是指不i 刊数据库对同一概念使用不同的数 据表示形式,如数据格式不一致,数据精度不一致,数据量纲不一致等。 平台异构造成了信息系统间瓦操作上的困难;模式异构导致信息系统难虬对其它信息系统 的数据进行分析处理;语义异构妨碍了不同信息系统对数据的理解。 2 2x m l 在数据交换中的应用 可扩展性标记语言”“( x m l ,e x t e n s i b l em a r k u pl a n g u a g e ) 主要由x m l 、文档类型定义| 2 7 】 ( d t d ,d o c u m e n tt y p ed e f i n i t i o n ) 、x m ls c h e m a 口8 ”j 、可扩展样式表语言口( x s l ,e x t e n s i b l e s t y l e s h e e t l a n g u a g e ) 等一系列规范组成。x m l 具备以下特点:( 1 ) 强大的数据表现能力,能够 以简单的形式表达复杂的数据;( 2 ) 町扩展性强可以根据用户的需要进行扩展;( 3 ) 自描述能力 强( 所用的标记描述了数据的结构和类型,尽管缺乏语义) ,同时实现了数据与表现形式的分 离。这些特点决定了x m l 更适合于作为数据交换中的媒介。通过对x m l 技术的恰当运用, 解决了数据统一表示、数据转换、安全加密等问题,为异构系统问进行数据交换提供了一种可 行的实现途径。另外,x m l 不仅在数据表示方面具有优势,它更是w e bs e r v i c e s 技术的基石: s o a p 、w s d l 等都是构建在x m l 之上的w e bs e r v i c e s 规范。x m l 及相关技术解决了w e b s e r v i c e s 面临的通用性问题,基于x m l 的消息传递在w e b 服务与应用程序之间的通信方面也 起到了关键性作用。 d t d 和x m l s c h e m a 是目前常用的两种x m l 模式定义语言用以定义x m l 文件的结构。 d t d 发展较早,相对比较成熟。x m ls c h e m a 是w 3 c 结合了原有的d t d 和数据库的建模语占 而提出的,尽管结构比d t d 复杂,但比d t d 更具有表现力。x m ls c h e m a 采取了类似于数据 库的定义方式,数据结构、数据类型和完整性约束共同组成了定义的主体,父子元素的关系类 似于表与字段的关系。x m ls c h e m a 中有丰富的数据类型定义,这是d t d 难以表达的。x m l s c h e m a 数据格式的定义为异构数据库之问的数据转换提供了便利。 可扩展样式表语言转换 3 1 1 ( x s l t ,e x t e n s i b l es t y l e s h e e tl a n g u a g et r a n s f o r m a t i o n s ) 是x s l 最 重要的一部分,是一种基于x m l 的语亩,用十将一类x m l 文档转换成另一种x m l 文档。使 用x s l t 进行数据格式转换的霞要思想是把x m l 文档视为一种树结构,转换的过程就是根据 x s l t 文件从源树牛成结果树的过程,x s l t 文件中定义了源树和结果树中对应部分的转换规 则。x s l t 在对x m l 文档进行转化时需要另外的x s l t 转换引擎。在进行转换时,转换 l 擎旨 先把x m l 文档和x s l t 文件分别构造为树型结构( x m l 的叫做“输入树”,x s l t 的叫做“模 板树”) ,遍历输入树的每个节点,根据预先定义的x s l t 中的转化规则执行相应的转化,在进 行排序、复制、过滤、删除、选择、运算等操作后产牛对应目标x m i 。文档的结果树。目前, 有很多x s l t 转换引擎,如x a l a n | ”1 、s a x o n 3 3 等。x s l t 技术为异构数据库之间的数据格式转 换提供了方便。 2 3w e bs e r v i c e s w 3 c 定义:w e bs e r v i c e s 是由u r i ( 统一资源标识符) 标识的软件应用程序,其接l 和绑 定可以通过x m l 构件进行定义、描述和发现,它提供了一种为在异构平台下运行的不同软件 7 东南大学硕士学位论文 应用实现互操作的标准方法”。w e bs e r v i c e s 的基本架构如图2 - l 所示。架构中的3 个参与者 分别是服务提供方( s e r v i c ep r o v i d e r ) 、服务请求方( s e r v i c er e q u e s t e r ) 和服务代理( s e r v i c e b r o k e r ) 。服务提供方将服务发布( p u b l i s h ) 到服务代理中;当服务请求方需要调用该服务时, 它首先访问服务代理并搜索( f i n d ) 该服务,得到如何调用该服务的信息;服务请求方根据这 些信息去调用绑定( b i n d ) 服务提供方发布的服务。 图2 - 1w e bs e r v i c e s 的基本架构 w e bs e r v i c e s 建立在己有基础标准( 包括x m l 和h t m l ) 之上,还包括以下协议标准: w s d l ( w e bs e r v i c e sd e s c r i p t i o nl a n g u a g e ,w e b 服务描述语言) 、u d d i ( u n i v e r s a ld e s c r i p t i o n d i s c o v e r ya n di n t e g r a t i o n ,统一描述发现和集成) 、s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c o l ,简单 对象访问协议) 。 w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 运动会精彩发言稿(9篇)
- 铝电解综合工操作水平考核试卷含答案
- 冷藏工岗前合规考核试卷含答案
- 形象设计师操作评优考核试卷含答案
- 聚甲基丙烯酸甲酯(PMMA)装置操作工岗前成果转化考核试卷含答案
- 化工离心分离工保密意识考核试卷含答案
- 风轮叶片制造工复测水平考核试卷含答案
- 金箔制作工安全生产规范知识考核试卷含答案
- 胶印版材生产工安全专项水平考核试卷含答案
- 公司调香师岗位安全技术规程
- IPC7525B2011(CN)Stencildesignguidelines模板设计指南(中文版)
- 人教版高中生物选择性必修1《稳态与调节》必背知识考点提纲填空练习版(含答案)
- 2025年医学三基考试(医师)三基考试真题(含答案)
- 互联网科技行业职业规划策略报告
- 脊柱科的中医护理
- DB42T 1343-2018 顶管法管道穿越工程技术规程
- 铁路调车员岗前培训
- 面粉厂生产线技术改造项目建议书可研报告
- 2025年中医学专业基础考试试题及答案
- 债权清收委托协议书
- GB/T 45595-2025离心式制冷剂压缩机
评论
0/150
提交评论