(计算机应用技术专业论文)基于本体的面向服务的数据集成研究.pdf_第1页
(计算机应用技术专业论文)基于本体的面向服务的数据集成研究.pdf_第2页
(计算机应用技术专业论文)基于本体的面向服务的数据集成研究.pdf_第3页
(计算机应用技术专业论文)基于本体的面向服务的数据集成研究.pdf_第4页
(计算机应用技术专业论文)基于本体的面向服务的数据集成研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的面向服务的数据集成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 摘要 随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。而异构 数据面临着分布性,自治性,运行环境,语法以及语义异构等问题,因此它们不 是真正意义上统一的可直接利用的信息资源。为了更好的利用这些资源,其中要 解决的关键问题之一就是异构数据的集成和共享。 异构数据集成的任务就是通过给用户提供一个统一的应用平台。从而屏蔽底 层数据源的不同,使得用户可以无缝而且灵活的访问这些异构数据源。本文在分 析分布式异构数据特点和当前数据集成方法的基础上,对如何在语义层上实现异 构数据集成进行了研究。这些研究包括了基于本体的面向服务的数据集成模型的 提出,服务工厂的设计,语义标注,查询处理,服务管理等内容。所做的工作和 创新点主要体现在以下几个方面: 1 采用面向服务架构的思想设计服务工厂,实现了w e b 服务的自动生成。 服务工厂根据预定义的模版以及用户给定的查询条件定制方法并生成相应的 w e b 服务。模板是预定义的,从原理上说可以定制用户所需的任何模板。具有很 大的灵活性和良好的可扩展性。 2 支持不同数据源的语义标注,提出一种本体到数据源间的映射方法,解 决了在基于本体环境下多数据源的绑定问题。语义标注使用统一协议标准,使更 加规范和易于机器理解。语义标注是可扩展的,提高了数据集成能力。 3 在模型的查询处理部分设计数据源查询分解,查询重写方案;查询重写 算法将对本体的查询转化为对数据源查询。用o w l 来描述本体,使用j e n a 的本体 推理功能进行语义推理。 4 设计完成了一个基于本体的面向服务的数据集成实验系统o w s i s ( o n t o l o g y - b a s e dw e b s e r v i c ei n t e g r a t i o ns y s t e m ) ,该系统引入本体来解决数据 源在语义层上的异构,验证了基于本体的面向服务的方式用于数据集成的有效性 和相比其他方式进行数据集成的优势。 关键词:数据集成,面向服务,本体,服务工厂,语义异构 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 a b s t r a c t a i o n gw i t ht h ed e v e l o p m e n ta n dp o p u l a r i z a t i o no fn e t w o r ka n dd i s t r i b u t i o n a p p f i c a t i o n , m o r ea n dn l o r eh e t e r o g e n e o u sd a t ah a db e e np r o d u c e d h o w e v e r , h e t e r o g e n e o u sd a t af a c e dw i t haf e wp r o b l e m ss u c ha s :d i s t r i b u t i o n , a u t o n o m y , m a r l i n ee n v i r o n m e n t , s y n t a xa n ds e m a n t i ch e t e r o g e n e i t ye t c ,t h e ya r en o tt h et r u e s e l n q eo f u n i t yi n f o r m a t i o nr e s o u r c e sw h i c hc a l lb ed i r e c t l yu s e d i no r d e rt om a k eu s e o ft h e s er e s o u l c eb e 姗o n eo ft h ek e yi s s u e si st h ei n t e g r a t i o na n ds h a 血go f h e t e r o g e n e o u sd a t a h e t e r o g e n e o u sd a t ai n t e g r a t i o nt a s ki sp r o d d i n gau n i f i e da p p l i c a t i o np l a t f o r mt o 1 l 跚s t h e r e b ys h i e l d i n gt h ed i f f e r e n c e so ft h eb o t t o md a t as o u i c e $ w h i c he n a b l e s i l s e 巧t os e a m l e s s l ya n df l e x i b l ea c c e s st h e s eh e t e r o g e n e o u sd a t as o u r c e s b a s e do n t h ea n a l y s i so fd i s t r i b u t e dh e t e r o g e n e o u sd a t ac h a r a c t e r i s t i c sa n dt h em e t h o do fd a t a i n t e g r a t i o n , t h i sp a p e rs t u d i e dh o w t oa c h i e v eh e t e r o g e n e o u sd a t ai n t e g r a t i o ns e m a n t i c l a ”【i nt h i sp a p e r , w ep r o p o s ea na p p r o a c hf o ri n t e g r a t i o no fh e t e r o g e n e o u sd a t a s o m e e s , i n c l u d i n g i v i c cf a c t o r y , s e m a n t i ct a g 星a n g ,q u e r yp r o c e s s i n g ,s e r v l c e m a n a g e m e n ta n ds oo i li nb r i e f , w em a k et h ef o l l o w i n gc o n t r i b u t i o n si nt h i sp a p e r : 1 e x p l o i t i n g s e r v i c e - o r i e n t e da r c h i t e c t u r et o d e s i g n $ e l v i f a c t o r ya n d i m p l e m e n t i n ga u t o m a t i cg e n e r a t i o no fw e bs e r v i c e s s e r v i c ef a c t o r yu s e sp r e d e f m e d m o d u l ea n dq u e r i e sg i v e nb yu s e r st oc u s t o m i z em e t h o da n dg e n e r a t i n gc o r r e s p o n d i n g w e bs e r v i c e s m o d u l ei sp r e d e f i n e da n dt h e o r e t i c a l l ya n ym o d u l er e q u e s t e db yo s e r c 缸b ed e f i n e d n 圯s y s t e mi sf l e x i b l ea n de x t e n s i b l e 2 1 1 1 i st h e s i sp r o p o s e sam a p p i n gm e t h o db e t w e e no n t o l o g ya n dd a t as o u r c e s w h i c hc a ns u p p o r ts e m a n t i ca n n o t a t i o no fd i f f e r e n td a t as o t c e sa n ds o l v eb i n d i n g p r o b l e mo fm u l t i - d a ms o u r t c e si no n t o l o g y - b a s e de n v i r o n m e n t s e m a n t i ca n n o t a t i o n , w h i c hu s e su n i f o r mp r o t o c o l 。i sn o r m a t i v ea n dc a ne a s i l yb eu n d e r s t a n db ym a c h i n e f u r t h e r m o r e s e m a n t i ca n n o t a t i o ni se x t e n s i b l ea n de n h a l l c e st h ea b i l i t yo fd a t a i n t e g r a t i o n 3 p e r f o r m i n gq u e r i e sd i s a s s e m b l i n ga n dr e w r i t i n gq u e r i e sd u r i n gt h ep r o c e s so f q u e r y i n g 1 1 a l g o r i t h mo fq u e r i e sr e w r i t i n gm e a n sq u e r i e do b j e c tw i l lb ec h a n g e d f r o mo n t o l o g yt od a t a u r c e s i nt h i st h e w s o w li su s e dt od e s c r i b eo n t o l o g ya n d j e n a sf u n c t i o no f o n t o l o g yr e a s o n i n gi se x p l o i t e dt op r o c e s ss e m a n t i cr e a s o n i n g 4 d e s i g na n di m p l e m e n t a t i o no fa no n t o l o g y - b a s e da n ds e r v i c e - o r i e n t e ds y s t e m o w s i s ( o n t o l o g y - b a s e dw e b s e r v i c ei n t e g r a t i o ns y s t e m ) a n dt h i ss y s t e me m p l o y o n t o l o g yt os o l v eh e t e r o g e n e i t yo fd a t as o u i f c eo ns e m a n t i cl a y e r i na d d i t i o n , t h i s p a p e re v a l u a t e st h ee r e c t i v e n e s so fo n t o l o g y - b a s e da n ds e r v i c e - o r i e n t e dm e t h o df o r d a t ai n t e g r a t i o na n da d v a n t a g ew h e nc o m p a r i n gw i t ho t h e rm e t h o d s k e y w o r d s :d a t ai n t e g r a t i o n , s e r v i c e - o r i e n t e d , o n t o l o g y , s e r v i c ef a c t o r y , s e m a n t i ch e t e r o g e n e o u s 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) : 学位论文使用授权说明 埠 2 0 0 8 年;月移日 厂 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河 海大学研究生院办理。 论文作者( 签名) : 2 0 0 8 年;月必日 , 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 第一章绪论 1 1 数据集成问题的引出 随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。在众多的异 构数据中,w e b 数据日趋成为当前数据的主流,当我们沉浸在海量网络信息的时候, 发现一个重要的信息问题:浩如烟海的数据多是异构数据,这些数量庞大的数据多 式多样、各不相同,并不能直接使用,因此它们不是真正意义上统一的可直接利用 的信息资源。根据i d c 的报告,在全球最大的1 0 0 0 家企业中,平均每个企业就有 1 4 个数据库和4 8 个应用系统,而且随着网络技术的不断应用、市场的变化和客户 需求的变化,企业还在不断她增加数据库和应用系统。目前许多企业和单位都在推 行信息化建设,其中要解决的关键问题之一就是异构数据的集成和共享。 这里所说的异构数据,即包括运行环境的异构也包括数据模型的异构i l i 。运行 环境的异构主要表现在,不同的数据源有各自独立的运行环境,包括不同的硬件设 备、操作系统和网络协议等。数据模型的异构主要体现在,每种数据选择的数据模 型不同,有的是结构化如数据库;有的是半结构化如x m l ,h t m ;有的是非结构 化如纯文本、图片等。 由于数据源的异构,我们势必面临很多问题。例如:语法异构和语义异构闯题。 语法异构是指各个不同的信息系统存放数据的结构不同【2 】,当我们需要统一访问一 些数据源的时候,而他们分别采用不同的存储结构,例如x n i l ,h t m l ,或者一些 不同的关系数据库像m y s q l ,o r a c l e 等,那么他们之间就形成了语法异构。如果那 些数据源都使用m y s q l 来存储,且表结构,数据类型等都相同,但数据源之间存在 同名异义、同义异名、所使用的概念的抽象程度不同等问题,它们之间就构成了语 义异构。对于语法层次的异构的研究,从传统的分布式数据库系统中采用关系或对 象的数据模式作为全局模式的实现方式,到目前基于x m l 的数据仓库和数据中介 系统,已经逐渐成熟。而语义异构面临巨大的挑战,各种解决方案仍在研究中,下 面我们举例说明: 在一个企业的信息化过程中,各个企业基本上处于分割的态势进行发展,缺乏 统一规划和重组。基本上是先开发各个子系统,完善各个子系统。该情况的直接后 果是导致各企业直接可能会使用不同的数据模式。同一数据名在不同的数据模式中 可能表示不同的数据,或者不同的数据名在不同的数据模式中表示的是相同的数据。 例如:在一个企业某职能部门的数据表示如下: w o r k e r ( w o r k e r n o ,w o r k e r n a m e ,d e p a r t m e n t l d , i n f o ) d e p a r t m e n t ( d e p a r t m e n t l d ,d e p a r l m e n 悄a m e ) 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 而另外一个企业可能表示如下: w o r ( w o r n o ,w o r n a m e ,d e p t i d ) d e p t ( d e p t i d ,d e p t n a m e ,i n f o ) 当然,还有一些部门可能表示成: 叫b f l 心i o 从上面的例子可以看出,异构数据集成面临的问题主要体现在以下几个方 面p 4 胴: ( 1 ) ,分布性:这些数据源往往分布在不同的地点,要将这些进行组合,需要通 过多台计算机连接在网络上( 特别是i n t e r a c t ) ,通过网络通信。 ( 2 ) ,自治性:每个数据源都可以独立的被用户和应用系统访问,而不受其他系 统的限制。在数据集成系统内部,任何一个本地数据源应该具有控制和访问其数据 的权利,也就是对自己数据访问的独立性。数据采取什么样的表现形式和操作方法 都应该由本地数据库根据本地需要设定。设计自治将导致不同类型的异构,同时使 得语义交互变得困难,在通信和执行方面给查询处理和优化提出了挑战。 ( 3 ) 异构性:因为各种不同的原因,异构性会发生在系统的不同层面。就如上面 的例子,同一个实体在不同的数据源里,使用的名字,概念模型,结构,属性等都 不一样,而又可能使用相同的名字来表达完全不同的实体。就出现了上文提到的语 法异构和语义异构问题。 ( 4 ) 集成模式:我们要将分布的不同信息系统的数据源进行集成,但又不可能将 这些遗产系统或者数据源进行大批修改或者推翻重来,这样一种预先框定的似乎又 很矛盾的集成模式给我们集成的设计带来了巨大的挑战。 2 河海大学硕士研究生毕业论文 基于本体的面向服务的数据集成研究 1 2 研究背景和目的 1 2 1 研究背景 ( 1 ) 解决异构数据源集成的迫切性 随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。在w e b 数 据集成的需要下,w e b 环境下的数据集成系统的研究己成蓬勃发展的趋势。为了更好 地利用这些资源,人们迫切需要解决这些异构数据源的集成问题。异构数据集成的任 务就是通过给用户提供一个统一的应用平台,从而屏蔽底层数据源的不同,使得用户 可以无缝而且灵活的访问这些异构数据源 6 1 。面向服务的数据集成在最近受到人们 越来越多的重视,它并不是一种新方法。面向服务的数据集成自身没有提供如何构 建合适的服务来满足如今业务要求的指导,也没有提供在最有效、可伸缩的情形下 执行服务的方式来保证长期运行交互| 7 1 。w e b 服务的概念促使人们重新观察面向服 务的集成方法,也使很多1 1 r 组织重新考虑其应用集成策略。 ( 2 ) w e b s e r v i c e s 和语义w e b 为数据集成提供了新思路 w e bs e r v i c e s 的最大特点是具有真正意义上的与平台和语言无关的特性嗍。一定 意义上讲,w e bs e r v i c e s 并不是实现的技术,而是整合的技术,屏蔽了不同技术实 现的服务间的差异嗍,但是传统的w 曲服务缺乏良好的语义支持,不能以计算机可 理解的方式实现业务关系,协议和业务规则语义表示的问题。 语义w e b 是由w w w 的创始人t u nb e m e r s - l e e 在2 0 0 1 年正式提出的 9 1 ,它是 对万维网本质的变革,它的主要任务是使数据能被计算机自动的处理和理解,其最 终目标是让计算机可以在这些海量信息中找到人所需要的任何信息,从而将万维网 中现存的信息发展成一个巨大的全球信息库、知识库。它研究的主要目的就是扩展 当前的万维网,使得网络中的信息具有语义,能够被计算机理解,便于人和计算机 之间的交互与合作,其研究重点就是如何把信息表示为计算机能够理解和处理的形 式,即带有语义。1 知n b e m e r s l e e 给出了语义w e b 中的层次结构关系,它主要基于 x m l 和r d f r d f s ,并在此之上构建本体和逻辑推理规则,以完成基于语义的知识 表示和推理,从而能够为计算机所理解和处理。 1 2 2 研究目的 本文所要研究的异构数据集成,其目的是在异构、分布的计算机环境中,对这 些异构数据源进行集成,以实现信息的充分共享。为此。主要解决以下问题:第一 是设计服务工厂模式让用户方便定制服务;第二是如何解决异构数据源的语义冲突, 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 支持它们之间的互操作性( i n t e r o p e r a b i l i t y ) 。第三是用户管理服务;语义问题是 困扰计算机各个研究领域的一个瓶颈,没有实际系统的支撑语义处理就没有太大意 义,因此在以上基础上开发了一个可以基本用于实际中的原型系统一o w s i s ( o n t o l o g y - b a s e dw c b s c r v i c ei n t e g r a t i o ns y s t e m ) 来证明所研究内容的可行性。 1 3 数据集成研究现状及比较 异构数据集成技术已经经历了二十多年的发展过程,研究者也提出了很多数据 集成的体系结构和实现方案,而这些方案研究的主要对象是传统的异构数据库。随 着i n t e r a c t 的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,尤其在 w 如上,有着极其丰富的数据来源,如何获取w e b 上关于本领域的有用数据并加以 利用,成为一个引起广泛关注的研究领域。 从实现体系结构的角度出发,传统的数据集成技术经历了如下几个发展阶段邮l : 第一阶段:联邦数据库系统。将所有数据源统一到一个单一的集成系统中。这 种方法比较简单,集成系统有统一的数据模式,不用考虑分布数据的转化和统一。 解决了一定程度上的语法和结构异构,实现了地理分布、数据模式等的透明性。但 是,它存在一系列的问题:首先,构建这样一个集中式的系统需要很长的开发时间, 要求高性能的主机设备,实现代价比较高;其次,系统的扩展和维护会涉及到整个 系统,而且一个集成系统无法共享另一个集成系统的模块。 联邦数据库的体系结构如图1 1 所示: 图i - i 联邦数据库体系结构图 后期出现了基于组件的分布式集成系统。利用分布式的组件对象模型 ( d c o m ) 。c o r b a 或s u n 的r m i 来构建数据集成系统。这种方法有效的避免了单个 联邦系统带来的开发代价大,代码难以重用的问题,利用网络计算环境可以有效的 实现复杂的大规模数据集成。但是,d c o m , c o r b a 或r m i 要求服务客户端与系统 提供的服务本身之间必须进行紧密藕合,即要求一个同类基本结构。这样的系统往 往十分脆弱:如果一端的执行机制发生变化,那么另一端便会崩溃。例如,如果服 4 河海大学硕士研究生毕业论文 基于本体的面向服务的数据集成研究 务器应用程序的接口发生变更,那么客户端便会崩溃。 第二阶段:数据仓库方式。该方法需要建立一个存储数据的仓库,将来自多个 数据源的数据副本都存储在单一的数据库中,由e t l ( e x t r a c t , t r a n s f o r n 1 0 a d ) i 具定 期从数据源过滤数据,然后装载到数据仓库,供用户查询。不足之处在于数据仓库 中的数据在存储之前要经过一定的筛选处理,而且数据仓库还需要定期更新,所以 用户查询到的数据可能不是最新的。 数据仓库体系结构如1 2 所示: 图l - 2 数据仓库体系结构图 第三阶段:m e d i a t o r w r a p p e r 方式。m e d i a t o r w r a p p e r 方式本身是一种软件构件, 通过提供所有异构数据源的虚拟视图进行集成。数据源可以是数据库、遗留系统 ( 1 e g a c ys y s t e m ) ,w e b 数据源等。这种集成方式本身并不存储任何实际数据。系统提 供给用户一个全局模式( 也称为m e d i a t o r 模式) ,用户针对全局模式提交查询而不 必知道数据源的位置、模式和访问方法,系统将用户查询翻译成一个或多个对数据 源的查询。然后将数据源的查询结构进行综合处理,并将它返回给用户。 中介系统体系结构如l - 3 所示 图1 - 3 中介系统体系结构图 中介系统中的数据源是完全自治的,可以容易地增加删除数据源。中介系统一 般由一个中介器和多个包装器( 印刚组成。包装器用于将数据源的数据转换为集 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 成系统可以处理的某种结构化的数据。中介器的功能是分析针对全局模式的查询, 分解为子查询,并将它们转换为针对相应数据源的查询,最后合并所有数据源的结 果返回给用户。 以上三种集成方式各有优劣。图表1 4 是各种方法用于数据集成的比较: 数据集成方式优点缺点 构造简单需要定制大量的代码去支持各 联邦数据库方式 个数据源之的交互 避免了单个联邦系统带服务客户端与系统提供的服务 来的开发代价大,代码本身之间必须进行紧密耦合, 分布式的组件对象难以重用的问题,利用即要求一个同类基本结构。这 模型网络计算环境可以有效样的系统往往十分脆弱:如果 的实现复杂的大规模数一端的执行机制发生变化,那 据集成。么另一端便会崩溃。 用户的查询就是对数据需要定期更新,所以用户查询 数据仓库方式仓库的查询,为用户查 到的数据可能不是最新的。 询提供统一接口。 m e d i a t o r w r a l r p e r 支持大量的数据源,理系统的结构比较复杂,系统的 论上对数源的数目没有内部处理算法也较复杂 方式 限制 1 4 数据集成方法比较 因此从上面的比较来看,以上三种体系结构有各自的优势,也有根据应用的要 求和特点选择最适合的体系结构才能满足具体应用要求。 随着x m l 和w e b s e r v i e e 的发展,基于本体的面向服务的w e b 信息集成系统成 为研究重点。目前国外基于本体的数据集成研究中比较有代表性的项目有:s k c 。 o n t o b r o k e r , a l i a d n e o b s e r v e r , p i c s e l 等。 s k c ( s c a l a b l e k n o w l e d g e c o m p o s i t i o n ) 是s t a n f o r d 大学的一个项目,其目标是 解决信息系统( 包括w e b ) 中的语义异构问题,实现异构自治系统之间的互操作。 该项目希望通过在多个数据源上建立不同的本体,然后在这些本体上建立个代数 系统来实现本体之间的互操作,从而实现异构系统之间的互操作。 o n m b m k 盯面向的是w w w 上的网页资源,其目标是为用户检索到所需要的网 页,这些网页含有用户所关心的内容。其基本思想是在网页中加入预先定义的本体 标识( 基于h t n a l 或x m l ) ,由w r a p p e r 收集这些标识并保存在数据库中。需要在页 面中标注有关数据是该系统的最大缺陷。 6 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 a r i a d n e 项目将目标集中在开发能够抽取,查询和集成w e b 数据源的智能a g e n t 。 在a r i a d n e 项目中,应用能够通过一个使用l o o m 编码的本体作为a r i a d n e 信息中 间层来访问不同的数据源,在这个中间层中包含了本体与数据源之间的映射。 在o b s e v e r 中,使用不同本体来表达不同的数据源,并在不同的本体之间建 立一个映射集合。当用户提交一个查询,系统仅使用其中的一个本体来给出答案。 若用户对该答案不满意,能够选择其他的本体来作扩展答案,系统提供了对一是信 息的评估,这个评估包括了答案中多少条目不是正确的回答,多少条目应该出现答 案当中而没有出现等。 p i c s e l 是一个分布,异构数据源上的信息集成系统,在p i c s e l 中定义了一个 基于知识的中间层来连接用户和相同领域内的若干数据源,这个中间层能够处理用 户的查询并返回查询结果给用户。 尽管国内对于基于本体的数据集成研究开展的较晚,但目前仍有一些研究机构 开展了相关方面的研究。北京大学计算机科学技术系承担的国家重点基础研究发展 规划9 7 3 资助的。网络环境下海量信息组织与处理的理论与方法研究”项目中,就 重点对于“面向内容的海量信息集成,分析处理与服务”这一课题进行了研究。在 复旦大学计算机与信息技术系担任的“8 6 3 ”高技术研究发展计划基金资助的“网上 城市通用系统架构及应用”项目中,也对于基于本体的信息集成技术做了一些研究。 1 4 研究的主要内容及特点 1 4 1 研究的目标 本文的研究目标是以s o a 架构的思想设计服务工厂,引入本体作为全局模式, 运用w 3 c 主流架构的最新推荐规范o w l 表示本体资源、定义本体与数据源的语 义关系、对异构数据集成的主要问题进行研究。研究主要内容如下: 1 选择合适的本体描述语言,建立某个领域本体; 2 研究面向服务数据集成原理,设计合适的服务定制方案; 3 研究并提出一种本体到数据源间的映射方法; 4 设计数据源查询分解。查询重写方案: 5 在基于本体环境下解决多数据源的绑定问题。 6 具体实现一个基于本体的面向服务的数据集成原型系统。 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 1 4 2 研究的主要工作 本文首先分析数据集成问题所面临的挑战及异构数据集成的迫切性,然后研究 w e b 服务,语义网,本体,0 w l s ,语义w e b 服务,s o a 体系架构等相关技术, 并指出这些技术和本文研究内容的联系,论证了基于本体的面向服务的数据集成的 可行性和优势,并给出了一个具体的设计方案。 本文主要工作如下: ( 1 ) 研究数据集成的概念,原理,技术框架,目前的解决方案及不足,进而引出 解决问题的方案一语义w e b 服务。 ( 2 册究语义w e b 服务相关技术,体系结构,运行机制,进而提出将语义w e b 服务和s o a 体系架构思想相结合来解决数据集成问题。 ( 3 ) 结合语义w e b 服务技术和面向服务的思想设计一个基于本体的面向服务的 数据集成解决方案。 ( 4 ) 在以上解决方案的指导下,制定水资源本体,开发数据集成原形系统o w s i s , 给出了具体的实现方案和开发过程,并测试结果。 1 4 3 本文研究的特点 本文数据集成方案以面向服务的体系架构的思想,通过本体引导用户建立查询 需求同时表达了用户需求的语义,对用户来说只要提出概念级上的查询条件,无需 关心具体数据源的选择,消除语义冲突和推理对用户来说是透明的,提高了系统自 动化过程。设计方案具有以下特点: 1 服务生成机制用到了一种f a c t o r y 的思想,这里我们定义为s e r v i c e f a c t o r y 。 用户可以在没有相应w e b 服务的情况下,向s e r v i c e f a c t o r y 提出请求,s e r v i c e f a c t o r y 根据预定义的模版以及用户给定的查询条件定制方法并生成相应的w e b 服务。模板 是预定义的,从原理上说可以定制用户所需的任何模板。具有很大的灵活性和良好 的可扩展性。 2 采用面向服务s o a 架构思想。将应用程序的不同功能单元( 称为服务) 通 过这些服务之问定义良好的接口和契约联系起来。接口是采用中立的方式进行定义 的,它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种 这样的系统中的服务可以以一种统一和通用的方式进行交互。对松耦合的系统的需 要来源于业务应用程序需要根据业务的需要变得更加灵活,以适应不断变化的环境。 3 支持不同数据源的标注,使用统一协议标准,使更加规范和易于机器理解 语义标注是可扩展的,提高了数据集成能力。 8 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 4 提出了一种通用的基于本体的异构数据源集成方式,包括本体的管理,本体 推理,支持语义的透明性访问。根据已经定义的水利领域本体,给出概念的统一规 范。用户的查询条件只是概念级上的定义,系统调用查询分解策略,自动选择所需 数据源。提高了系统的自动化控制和语义的透明性访问。 1 5 论文的组织结构 本文内容的章节安排如下: 第一章绪论。本章首先引出数据集成问题,介绍其概念,原理,数据集成问题 所面临的挑战及必要性,并分析数据集成的现状;然后确定研究的目标,概括本文 的主要工作以及研究内容的特点,给出论文的整体结构。 第二章相关技术研究。本章首先论述了s o a 架构思想,包括其体系结构和特 征。然后介绍w e b 服务模型,分析了w e b 服务用于数据集成的优势,最后论述语 义网及本体在数据集成中的应用。 第三章基于本体的面向服务的数据集成模型设计。本章首先从整体出发分析了 面向服务的数据集成的设计思想,将本体技术应用到数据集成中,设计了一个基于 本体的面向服务的数据集成模型,然后具体介绍了其设计方案,总体框架,处理流 程及系统的主要模块设计。 第四章系统各模块具体设计。本章详细论述了设计模型中各功能模块的具体设 计过程。 第五章系统的实现与测试结果。本章说明系统原型运行环境,设计了系统测试 的用例,给出系统的相关界面,通过实验用例测试系统的执行结果。从而证明本文 提出的技术和算法的正确性和有效性。 第六章“总结与展望”,对论文工作进行总结,并指出需进一步完善的 9 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 第二章相关技术研究 本章主要论述用于数据集成的相关技术,包括:s o a 体系架构,w e b s e r v i c e 相关技 术以及语义网及本体技术的相关内容。 2 1s o a 体系架构 2 1 1 面向服务体系结构s o a 概述 随着企业计算的发展,企业级应用需求要求新的软件系统不再是从底层做起, 而只是依据企业逻辑需求重新组织己有的数据存储,将现有的数据和事务通过新的 渠道,比如i n t e m e t 浏览器或者手持设备呈现给用户。另外,为了提高企业计算的 高效性、可用性、规模性,现有许多的操作系统都是分布式操作系统,运行在许多 机器之上。这样的企业级解决方案就必须协调运行在群组硬件之上的功能。实现这 种系统的一种方法就是将该系统组织成群组服务的模式。每一个服务都提供一组定 义良好的功能集合。整个系统其实就被设计和实现为一组相互交互的服务,而将功 能以服务的形式展现出来是该系统灵活性的关键。它使得系统中的某些服务能够充 分利用其他的服务同时却无需考虑其物理位置。系统通过添加新的服务来不断的升 级,这样就应运而生了面向服务的体系结构( s e r v i c eo r i e n t e da r c h i t e c t u r e ) s o a 定 义了构成系统的服务,通过描述服务之间的交互提供特定的功能特性,并且将服务 映射为具体的某种实现技术i “l 。 s o a 本身并不是一个新的概念,比如在2 0 0 0 年就已经有了对s o a 这种应用 模式的评价:。面向服务的解决方案,应用程序以独立的交互服务的形式开发,为 潜在的用户提供定义良好的接口。同样的,也必须提供给应用程序开发人员相应的 技术支持,比如使他们能够浏览所有的服务,并且选中感兴趣的服务,用这些服务 组装而成新的功能。【1 2 1 ” s o a 是一种架构模型,它可以根据需求通过网络对松散耦合的粗粒度应用组件 进行分布式部署、组合和使用。服务层是s o a 的基础,可以直接被应用调用,从 而有效控制系统中与软件代理交互的人为依赖性删。s o a 的关键是“服务”的概念, w 3 c 将服务定义为:“服务提供者完成一组工作,为服务使用者交付所需的最终结 果。最终结果通常会使使用者的状态发生变化,但也可能使提供者的状态改变,或 者双方都产生变化。” s e r v i c e - a r c h i t e c t u r e c o m 将s o a 定义为1 1 哪:“本质上是服务的集合。服务间彼此 通信,这种通信可能是简单的数据传送,也可能是两个或更多的服务协调进行某些 活动。服务间需要某些方法进行连接。所谓服务就是精确定义、封装完善、独立于 l o 河海大学硕士研究生毕业论文 基于本体的面向服务的数据集成研究 其他服务所处环境和状态的函数。” l o o s c l y c o u p l e d c o m 将s o a 定义为f l s l :“按需连接资源的系统。在s o a 中,资 源被作为可通过标准方式访问的独立服务,提供给网络中的其他成员。与传统的系 统结构相比,s o a 规定了资源间更为灵活的松散耦合关系。” g a r t n e r 则将s o a 描述为【1 6 1 :“客户端服务器的软件设计方法,一项应用由软 件服务和软件服务使用者组成。s o a 与大多数通用的客户端服务器模型的不同之 处,在于它着重强调软件组件的松散耦合,并使用独立的标准接口。”g a r t n e r 相信 b p m 和s o a 的结合对所有类型的应用集成都大有助益“s o a 极大的得益于 b p m 技术和方法论,但是s o a 面临的真正问题是确立正确的企业意识,即:强化 战略化的s o a 计划( 针对供应和使用) 并鼓励重用。” m e t a 将s o a 定义为旧:“一种以通用为目的、可扩展、具有联合协作性的架 构,所有流程都被定义为服务,服务通过基于类封装的服务接口委托给服务提供者, 服务接口根据可扩展标识符、格式和协议单独描述。” 虽然不同厂商或个人对s o a 有着不同的理解,但是我们仍然可以从上述的定 义中看到s o a 的几个关键特性:一种粗粒度、松耦合服务架构,服务之间通过简 单、精确定义接口进行通讯,不涉及底层编程接口和通讯模型。 2 1 2s o a 参考模型 s o a 参考模型事实上并不是一个标准,而是s o a 架构的一个抽象框架,统一 了s o a 相关术语用法并且定义了这些术语的涵义,同时还明确定义了s o a 各组件 之间的关系【1 q 。可以根据这个模型指导自己的s o a 实践,图2 1 说明了s o a 参考 模型与s o a 实践之间的关系。 图2 1s o a 参考模型与s o a 实践之间的关系 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 从上图可以看出,参考模型位于抽象级别的顶部,也就是说参考模型提供了 s o a 实现的抽象基础。每个s o a 架构设计者都要考虑参考架构、模式、模型以及 由参考架构派生出的概念架构,审慎思考实际环境( 需求、动机和目标等) 对实现 架构的影响,同时利用已有的标准和协议,这样就形成了一个比较完整的s o a 设 计方法论。总而言之,s o a 参考模型使得我们能够系统地考虑s o a 架构的实现, 并给出最基本的概念和设计模式。 2 1 3s o a 的特征 s o a 的实施具有几个鲜明的基本特征实施s o a 的关键目标是实现企业r r 资 产的最大化重用。要实现这一目标,就要在实施s o a 的过程中牢记以下特征 2 a l i 2 i 】: 可从企业外部访问 随时可用 租粒度的服务接口 分级 松散耦合 可重用的服务 服务接口设计管理 标准化的服务接口 支持各种消息模式 精确定义的服务契约 下面依次对以上概念解释: l 可从企业外部访问 通常被称为业务伙伴的外部用户也能像企业内部用户一样访问相同的服务。业 务伙伴采用先进的b 2 b 协议( e b ) 函几或r o s e t t a n e t ) 相互合作。当业务伙伴基于业 务目的交换业务信息时,他们就参与了一次会话。会话是业务伙伴间一系列的一条 或多条业务信息的交换。会话类型( 会话复杂或简单、长或短等) 取决于业务目的。 除了b 2 b 协议外,外部用户还可以访问以w e b 服务方式提供的企业服务。 2 随时可用 当有服务使用者请求服务时,s o a 要求必须有服务提供者能够响应。大多数 s o a 都能够为门户应用之类的同步应用和b 2 b 之类的异步应用提供服务。同步应 用对于其所使用的服务具有很强的依赖性。许多同步应用通常部署在前台,其最终 用户很容易受到服务提供者短缺的影响。很多情况下,同步应用利用分布式服务提 供者,这样可以响应更多的用户请求。但是,随着提供特定服务功能的服务器数量 河海大学硕士研究生毕业论文基于本体的面向服务的数据集成研究 的增长,出现短缺的可能性也呈指数级上升。 相比之下,异步应用要更为稳健,因为其采用队列请求设计,因此可以容许出 现服务提供者短缺或迟滞的情况。异步应用大多数情况下部署在后台,用户通常不 会觉察到短暂的短缺。大部分情况下异步应用能够稳健应对短时间短缺,但是长时 间短缺则会引发严重问题。在服务短缺解决、队列引擎将罕见的大量工作推到共享 的应用资源中时,可能会出现队列溢出甚至服务死锁。服务使用者要求提供同步服 务时,通常是基于其自身理解或使用习惯。在多数情况下,采用异步模型可以达到 同样的效果,但更能够体现s o a 的最佳特性。 当然,并不是所有情况下都应当采用异步设计模式。但大多数情况下,异步消 息可以确保系统在不同负荷下的伸缩性,在接口响应时间不是很短时尤其如此。 3 粗粒度服务接口 粗粒度服务提供一项特定的业务功能,而细粒度服务代表了技术组件方法。举 个例说明最为清楚向计费系统中添加一个客户是典型的粗粒度服务,而你可以使用 几个细粒度服务实现同一功能,如:将客户名加入到计费系统中,添加详细的客户 联系方式、添加计费信息等等。 采用粗粒度服务接口的优点在于使用者和服务层之间不必再进行多次的往复, 一次往复就足够。i n t e r a c t 环境中有保障的t c p ,口会话已不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论