




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的异构数据源集成的研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的异构数据源集成的研究及应用 中文摘要 基于本体的异构数据源集成的研究及应用 中文摘要 网络和数据库技术的不断发展使很多企业和机构实现了信息的计算机管理,在提 高效率的同时积累了大量的数据。这些数据往往具有分布性、异构性和自治性的特点, 相互之间难以共享和交流。如何对这些数据源进行集成,向用户提供统一的查询接口, 是当前急需解决的问题。 传统的数据集成技术可以较好的解决不同数据源间的系统异构及语法异构,但解 决语义异构的能力较弱。本体作为共享概念模型的明确形式化说明,为解决语义冲突 提供了一种有效的手段。本文为了更好的解决数据集成中存在的语义异构问题,引入 了本体,提出了一个改进的基于本体的异构数据源集成解决方案,并对其关键技术进 行了实现。本文的研究内容如下: ( 1 ) 阐述了异构数据源集成的研究背景,分析了集成中面临的主要问题,归纳了 当前的研究现状和涉及的相关技术。 ( 2 ) 针对不同数据源间存在的异构性,提出了一个扩展的基于混合本体的异构数 据源集成框架,并对其主要模块及工作流程进行了介绍。 ( 3 ) 通过引入本体,解决多个数据源集成中存在的语义异构问题。采用局部本体 描述单个数据源的语义,建立全局本体作为全局数据模式来对多个数据源中的信息进 行统一的描述,定义全局本体与局部本体间的映射解决集成中存在的语义异构问题。 ( 4 ) 根据全局本体与局部本体及局部本体与数据源模式之间的映射规则,使用改 进的两级查询重写算法,将用户提交的基于全局本体的中介查询分解转化为针对各局 部数据源的子查询;设计了用于查询执行和结果转换的数据源包装器,并将其中的功 能接口封装为w e b 服务;使用w s d l 文件描述该服务后在集成系统的u d d i 注册中 心进行注册发布,使得中间层能够方便的查找和调用这些服务,并从中返回查询结果。 ( 5 ) 结合本文提出的关键技术,对基于本体的专利数据源集成系统进行了初步的 实现,并对系统的有效性进行了验证。 关键字:数据源,语义异构,本体,查询,专利 a b s t r a c t r e s e a r c ha n d a p p l i c a t i o no f h e t e r o g e n e o u sd a t as o u r c ei n t e g r a t i o nb a s e do no n t o l o g y r e s e a r c ha n d a p p l i c a t i o no fh e t e r o g e n e o u s d a t as o u r c ei n t e g r a t i o nb a s e do no n t o l o g y a b s t r a c t 硼1 ec o n s t a n td e v e l o p m e n to fn e t w o r kt e c h n o l o g ya n dd a t a b a s et e c h n o l o g yh a sh e l p e d m a n ye n t e r p r i s e sa n di n s t i t u t i o n sr e a l i z et h ec o m p u t e r i z e dm a n a g e m e n to fi n f o r m a t i o n , w h i c hh a si m p r o v e dt h ee f ! f i c i e n c y a n da tt h es a m et i m ea c c u m u l a t e dl a r g eq u a n t i t i e so f d a t a 1 1 1 e s ed a t ao f t e nh a sc h a r a c t e r i s t i c ss u c ha sd i s t r i b u t e d ,h e t e r o g e n e o u sa n d a u t o n o m o u s n e s ec h a r a c t e r i s t i e sm a k ei td i f f i c u l tt oe x c h a n g ea n ds h a r ed a t ab e t w e e n t h e m h o wt oi n t e g r a t et h e s ed a t as o u r c et op r o v i d eu s e rw i t hau n i f i e dq u e r yi n t e r f a c e i sa p r o b l e mn e e dt ob es o l v e di m m e d i a t e l y n l et r a d i t i o n a lw a yo fd a t ai n t e g r a t i o nc a nb e t t e rs o l v es y s t e mh e t e r o g e n e i t ya n d s y n t a xh e t e r o g e n e i t yb e t w e e nd i f f e r e n td a t as o u r c e ,b u tt h ea b i l i t yt os o l v es e m a n t i c h e t e r o g e n e i t y i s w e a k o n t o l o g y a saf o r m a l e x p l i c i ts p e c i f i c a t i o n o fas h a r e d c o n c e p t u a l i z a t i o n ,p r o v i d e sau t i l i t ym e a n st or e s o v l es e m a n t i cc o n f l i c t i nt h i sp a p e r ,i n o r d e rt ob e t t e rr e s o l v es e m a n t i ch e t e r o g e n e i t y ,o n t o l o g yi si n t r o d u c e d ,a n dp r e s e n t sa n i m p r o v e dh e t e r o g e n e o ud a t as o u r c ei n t e g r a t i o ns o l u t i o nb a s e do no n t o l o g y ,a n dr e a l i z ei t s k e ym o d u l e s i nt h i sp a p e r , 也ew o r kr e a d sa sf o l l o w s : ( 1 ) t h i sp a p e re x p o u n d st h er e s e a r c hb a c k g r o u n da b o u ti n t e g r a t i o no fh e t e r o g e n e o u s d a t as o u r c e ,a n a l y s e st h em a j o rp r o b l e mi ni n t e g r a t i o n ,a n ds u m m a r i z e st h ec u r r e n ts t a t u s o fr e s e a r c ha n dr e l a t e dt e c h n o l o g i e s ( 2 ) f o rt h eh e t e r o g e n e i t ya m o n gd i f f e r e n td a t as o u r c e ,t h ep a p e rp r e s e n ta ni n t e g r a t i o n f r a m e w o r kb a s e do nh y b r i do n t o l o g y ,a n di n t r o d u c et h ef u n c t i o no fm a i nm o d u l e s ( 3 ) t h i sp a p e ru s e do n t o l o g yt or e s o l v et h ep r o b l e mo fs e m a n t i ch e t e r o g e n e i t yi nt h e i n t e g r a t i o no fh e t e r o g e n e o u sd a t as o u r c e i nt h i sp a p e r ,l o c a lo n t o l o g yi su s e dt od e s c r i b e t h ed a t as o u r c es e m a n t i c ,a n dg l o b a lo n t o l o g yi sb u i l da sg l o b a ld a t am o d e lt od e s c r i b et h e i n f o r m a t i o ni nm u l t i p l ed a t as o u r c e ,a n ds e m a n t i ch e t e r o g e n e i t yo fd a t as o u r c ei n t e g r a t i o n i sr e s o l v e db yt h em a p p i n ga m o n gg l o b a lo n t o l o g ya n dl o c a lo n t o l o g y ( 4 ) a c c o r d i n gt ot h em a p p i n gb e t w e e ng l o b a lo n t o l o g ya n dl o c a lo n t o l o g y ,l o c a l o n t o l o g ya n dd a t as o u r c es c h e m a , t h r o u g hi m p r o v e dt w oq u e r yr e w r i t i n ga l g o r i t h m s , r e w r i t eaq u e r yf r o mu s e rt os u b q u e r i e so v e rm u l t i p l ed a t as o u r c e s t h ed a t as o u r c ew r a p p e r i sd e s i g n e df o rq u e r ye x e c u t i o na n dr e s u l t sc o n v e r s i o n ,a n dt h ef u n c t i o ni n t e r f a c em e t h o d s i ni tw a sw r a p p e dt oc o n s t r u c tw e bs e r v i c e u s i n gw s d lf i l et od e s c r i b et h i ss e r v i c ea n d r e g i s t e ri ti nu d d i ,u s e rc a nf m da n dc a l lt h i ss e r v i c e a n dg e tq u e r yr e s u l t s ( 5 ) u s i n gk e yt e c h n o l o g yi nt h i sp a p e r , w ee x p l o i tap r o t o t y p ef o rp a t e n td a t as o u r c e i n t e g r a t i o nb a s e do no n t o l o g y ,a n dv e r i f yt h ee f f e c t i v e n e s so ft h es y s t e m k e y w o r d s :d a t as o u r c e ,s e m a n t i ch e t e r o g e n e i t y ,o n t o l o g y ,q u e r y ,p a t e n t 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名: 垒基 e l 期:丝兰z 。! ! ! 缓 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 垒盘: e l 期:丝塑:! ! :丝 导师签名:h 南 u 、 i 基于本体的异构数据源集成的研究及应用 第一章绪论 第一章绪论 本章首先阐述了本文的研究背景,讨论了异构数据集成中面临的主要问题。然后 介绍了异构数据集成的研究现状。最后说明了本文的主要研究内容和文章的结构安 排。 1 1 课题研究背景 随着网络和数据库技术的不断发展,很多企业和机构实现了信息的计算机管理, 在提高效率的同时积累了大量的数据。这些数据源往往分布在网络中的不同站点,由 于开发时间和开发部门的不同,缺乏对领域信息的规范化和统一化设计,数据之间存 在各种异构,相互之间难以共享和交流,形成“数据孤岛 现象。在具体的应用中, 企业内部以及企业之间经常需要进行信息的交互,这就要求对原有的信息系统进行整 合,连通“数据孤岛 ,共享数据。如何对这些地理上分布、存储上异构、管理上自 治的数据源进行集成,向用户提供统一的查询接口,是当前急需解决的问题。 数据集成的核心任务是将多个相互关联的分布式异构数据源集成到一起,使用户 能够以一种透明的方式统一的访问这些数据源【l 】。集成是指维护数据源整体上的数据 一致性、提高信息共享利用的效率;透明的方式是指用户无需关心底层数据源的数据 模型、物理位置和语义异构等问题,只关心以何种方式访问何种数据【2 】。实现数据集 成的系统称作数据集成系统,它提供模式转换与集成、全局查询处理等功能,能够将 从多个数据源获取的数据以统一的方式呈现给用户,使用户感觉就像操作单个数据源 一样简单。 数据集成系统的关键是如何以一种统一的数据模型描述各异构数据源中的数据, 屏蔽它们之间的系统异构、语法异构和语义异构,实现数据的无缝集成。x m l 因其 结构上的自描述性和可扩展性,目前已成为互联网上异构数据共享和交换的事实标 准。基于x m l 的异构数据集成系统采用x m ls c h e m a 作为统一的全局数据模式,可 以较好的解决不同数据源间的语法异构问题。但x m l 对语义的描述能力较弱,对不 同x m ls c h e m a 进行集成需要花费较大的代价进行语义冲突的处理。本文为了更好地 解决语义异构问题,引入了本体。本体作为语义网的关键技术,能够描述某个领域甚 至更广范围内的概念以及概念之间的关系,使得这些概念和关系在共享的范围内具有 第一章绪论基于本体的异构数据源集成的研究及应用 大家共同认可的明确的唯一的定义,从而使得人机之间以及机器之间可以进行交流 3 1 。在基于本体的异构数据源集成方法中,采用本体作为描述异构数据源的公共语义 模型,相对于传统的数据集成方法,能够有效的解决语义异构问题。 1 2 面临的主要问题 异构数据源集成中面临的主要问题可以归纳为以下3 个方面: ( 1 ) 数据源的异构性 被集成的数据源往往是独立开发的,相互之间存在多种异构,给集成带来了很大 困难。这些异构主要有系统异构、语法异构和语义异构等。 ( 2 ) 数据源的分布性 不同的数据源往往属于不同的单位,分布在网络中的不同站点,要对它们进行集 成,必须通过网络传输数据,这就存在着网络传输的性能和安全性等问题。 ( 3 ) 数据源的自治性 每个被集成的数据源都有很强的自治性,存在着自己的业务逻辑或数据结构,它 们可以在不通知集成系统的前题下改变自己的数据或结构,这就给系统的鲁棒性提出 了挑战【2 】。 1 3国内外研究现状 1 3 1国外研究现状 数据集成技术最早开始于七十年代中期,至今已有三十多年,从最初的同构数据 库集成发展到现在的基于语义的异构数据源集成,其作用和范围不断扩大。a m i t e s h e t h 在文献【4 】中总结了数据集成技术发展的三个阶段: 7 0 年代到8 0 年代中期:以联邦数据库、多数据库系统为代表,主要针对具有不 同软硬件环境的计算机的通信和互操作问题,能够在一定程度上解决系统异构和 结构异构。 8 0 年代中期到9 0 年代中期:随着网络的发展和数据源的多样化,出现了一些能 够支持异构数据集成的技术,如中间件技术,能够在一定程度上对分布的异构数 据源进行集成。 9 0 年代中期到现在:在原有技术的基础上,集成过程中更加注重于语义异构问题 2 基于本体的异构数据源集成的研究及应用第一章绪论 的解决。比较有代表性的有基于x m l 的数据集成系统和基于本体的数据集成系 统。 通过对不同阶段的数据集成技术进行分析可以知道,当前比较典型的数据集成方 案主要有模式集成方法、数据复制方法和基于本体的数据集成方法。其中模式集成方 法主要以联邦数据库系统和中间件系统为代表;数据复制方法主要以数据仓库系统为 代表。下面对这些典型的集成系统和方案进行简要的介绍。 ( 1 ) 联邦数据库 联邦数据库是一种模式集成方法,其概念由h a m m e r 和m e l e o d ( 1 9 7 9 ) 及 h e i m b i g n e r 和m c l e o d ( 1 9 8 5 ) 提f 1 5 【5 】,是一个相互协作而又彼此独立的多个数据库的集 合,其体系结构如图1 1 所示。 联邦数据库系统按数据源间的集成程度可分为两类:紧密耦合联邦数据库系统和 松散耦合联邦数据库系统。紧密耦合联邦数据库系统采用统一的全局模式,将各数据 源的数据模式映射到全局模式上,从而解决数据源间存在的异构问题。这种方法集成 度较高,用户参与少,但是构建一个全局数据模式的算法比较复杂,扩展性差。松散 耦合联邦数据库系统没有全局数据模式,采用联邦模式,该方法提供统一的查询语言, 将很多异构问题交给用户自己解决。松散耦合方法对数据的集成度不高,但其中各个 数据源的自治性强、动态性能好,并且集成系统不需要维护一个全局模式。 图l - l 联邦数据厍结构图 在实际的应用中,联邦数据库系统虽然结构较为简单,但由于所有成员数据库都 要添加彼此间访问的接口,所以需要编写大量的接口程序,因而只适用于需要集成的 数据源数量比较少的情况。典型的支持联邦数据库的产品有:i b m 的d b 2d a t a j o i n e r , s y b a s e 公司i 拘s y b a s e 系统,d a t ai n t e g r a t i o n 公司的m e r m a i d 系统等。 ( 2 y 9 间件( m e d i a t o r w r a p p e r ) 方法 第一章绪论 基于本体的异构数据源集成的研究及应用 中间件系统采用全局数据模式对多个数据源中信息进行统一的描述,用户针对全 局模式提交查询而不必关心具体数据源的位置、模式和访问方法。中间件系统不仅能 够集成结构化数据,而且能够集成半结构化数据和非结构化数据。 典型的基于中间件的数据集成系统主要由中间件( m e d i a t o r ) 和包装器( w r a p p e r ) 组 成【6 j ,体系结构如图1 2 所示。包装器用于将数据源的数据封装为集成系统所采用的某 种通用模型,并提供一致的访问机制。中间件接收用户提交的基于全局数据模式的查 询,然后将该查询分解为针对各个具体数据源的子查询并发送给相应的包装器执行, 最后将各数据源返回的查询结果进行集成后回送给用户。中间件系统相对于联邦数据 库系统而言,它能够集成半结构化和非结构化数据源,而且有着较好的自治性,实时 性强;中间件系统的缺点在于它通常是只读的,而联邦数据库对读写都支持。 斯坦福大学的g a r c i a - m o l i n a 等人在1 9 9 4 年开发的t s i m m i s 7 】系统,就是一个典型 的中间件集成系统。该系统采用“结构化”方法,使用自描述的数据模型o e m 作为 数据集成的公共数据模型,能够较灵活的处理数据之间的异构性;不足之处是动态增 加数据源较为困难。其它使用中间件方法进行多数据源集成的著名系统还包括:i b m a l m a d e n 研究中心的g a r l i c 系统,美国c a l i f o r n i a 大学的m 系统。 子查 图1 - 2 中间件系统结构图 ( 3 ) 数据仓库方法 数据仓库方法是指建立一个存储数据的仓库,将参加集成的各数据源的数据副 本,按照一个集中的、统一的视图要求,转换成符合数据仓库的模式存入其中,并由 e t l ( e x t r a c t ,t r a n s f o r m ,l o a d ) i 具定期从各数据源过滤数据,然后装载到数据仓库, 供用户查询。数据仓库的体系结构如图1 3 所示。随着9 0 年代p r i ms o l u t i o n s 公司的 4 基于本体的异构数据源集成的研究及应用 第一章绪论 w h i n m o n 提出数据仓库嗍,该方法开始得到广泛的应用。 图1 - 3 数据仓库体系结构图 数据仓库主要针对企业的某个应用领域进行数据集成,适用于面向主题并且为企 业提供数据挖掘和决策支持的系统。这种方式的优点在于既可用于数据集成,又可用 于决策支持,同时还可以减少用户使用集成系统时对异构数据源的访问量,从而提高 系统性能;缺点是数据在存储之前要经过一定的筛选处理,而且数据更新不及时,数 据存储重复。 ( 4 ) 基于本体的数据集成方法 近年来,由于大量半结构化和非结构化数据的出现和广泛应用,以及人们对信息 智能集成的不断需求,异构数据源集成的难点主要集中在解决语法异构和语义异构 上。基于x m l 的数据集成系统可以较好的解决语法异构问题,但对语义冲突的处理 能力较弱。为了更好的解决语义异构问题,引入了本体。本体作为共享概念模型的明 确的规范说明,能够明确描述某个领域内的概念以及概念之间的关系,使这些概念和 关系在共享的范围内具有大家共同认可的明确的唯一的定义,从而为处理语义冲突提 供了一种有效的手段。基于本体的异构数据集成方法采用本体描述数据源的语义,能 够有效解决不同数据源间的语义异构问题,是当前数据集成的重要发展方向之一。根 据集成中对本体的不同应用方式,目前主要有三种基于本体的数据集成方法【9 】:单本 体方法、多本体方法和混合本体方法。 当前,基于本体的异构数据集成方法是国外研究的热点,被广泛应用于知识管理、 信息检索、教育当中,其中比较有代表性的项目主要有: s i m s 系统【1 0 】是该领域内早期研究的重要成果。y i g a l a r e n s 等人采用单本体方法, 根据多个数据源中的信息构建了一个全局本体。每个数据源都被关联到这个全局 第一章绪论基于本体的异构数据源集成的研究及应用 本体,因此系统清楚地了解哪种信息存储在那个信息源中。当用户需要检索多个 数据源中的信息时,不需要针对不同的数据源按照不同的查询语言构造查询式, 只需以l o o m 语言构造查询式并提交给s i m s ,然后由s i m s 自动分析查询式, 并将分解后的子查询按相应的查询语言重新表达后送到对应的数据源,最后将综 合检索得到的结果返回给用户。 s k c 1 1 】是s t a n d f o r d 大学开展的一个项目,其目标是解决不同信息系统( 包括w e b ) 之间存在的语义异构问题。该项目采用多本体方法,在多个本体间建立一个代数 系统,通过这个代数系统来实现各本体之间的互操作,从而实现多个异构的自治 系统之间的互操作。 o b s e r v e r 1 2 1 是由m e n a 和a s h e t h 等人采用多本体方法开发的一个原型系统。 该系统采用不同的本体表示不同的数据源,并提出一种“松散关联 的方法,通 过不同本体中词汇的关联来实现本体间的协同工作。当系统对一个本体中的词汇 提交查询时,系统将查询扩展到其它本体中的词汇,从而完成语义上的并联。 b u s t e r 1 3 】项目是不来梅大学为了实现信息系统间的协同工作而开发的项目。该 项目采用混合本体方法,其中存在一个通用本体,涉及领域内几乎所有的概念, 各个局部本体都是这个通用本体的精简版。 1 3 2 国内研究现状 国内在数据集成领域起步稍晚,但发展较快。不少大学和科研机构都对该领域投 入了较大的精力,并取得了一定成果。其中比较有代表性的项目有: 东南大学计算机科学与工程系跟踪t s i m m i s 项目,开发了一个基于c o r b a 的 可扩展的分布式数据集成系统v e r s a t i l e 1 4 1 。该系统采用模板统一描述各种数据源 数据的模式,不通过扫描数据库,而是利用局部模板之间的操作来构造集成系统 的全局模板。v e r s a t i l e 系统能对s q ls e r v e r 、v e r s a n t 、文件系统、超文本数据进 行包装和集成,并能对随时插入的数据源中的数据进行集成。 华中科技大学计算机学院的卢正鼎、李瑞轩等提出的扩展的多数据库管理系统 p a n o r a m a 1 5 】,在多个异构数据库系统之上实现了模式集成、查询处理和事务处理 功能。该系统提供一个公共数据模型和一种全局查询语言p a n o s q l ,通过它们将 不同的数据库集成到系统中。 6 基于本体的异构数据源集成的研究及应用第一章绪论 国防科技大学的张英朝、张维明等人从解决信息网格的语义异构问题出发,采用 混合本体方法设计了一种基于本体的信息网格全局视图构建方法h o g v c a c 【1 6 1 。 在h o g v c a c 中,每一个网格单元都有相应的领域本体,并且该单元中信息源 的信息模式均依据领域本体进行定义,全局本体则是由本体合并推理系统对局部 本体进行合并得到的。 北京大学计算机系的邓志鸿等人在该系承担的9 7 3 项目:“网络环境下海量信息 组织与处理的理论与方法研究中,对“面向内容的海量信息集成、分析处理与 服务中如何利用本体进行数据集成进行了研究【1 7 1 。 复旦大学计算机与信息技术系的张凯等人在该系承担的高技术研究发展计划课 题“网上城市通用系统架构及应用”中对基于本体的数据集成技术作了一些研究 和应用【1 8 1 。 1 4 本文的主要研究内容 本文在现有数据集成技术的基础上,为了更好的解决集成中存在的语义异构问 题,提出了一个改进的基于混合本体的异构数据源集成解决方案,并对其中的关键技 术进行了研究与实现。具体来说,主要包括以下几点工作: ( 1 ) 阐述了异构数据源集成的研究背景,分析了集成中面临的主要问题,归纳了 了当前的研究现状和涉及的相关技术。 ( 2 ) 针对不同数据源间存在的异构性,提出了一个改进的基于混合本体的异构数 据源集成框架,并对其主要模块及工作流程进行了介绍。 ( 3 ) 通过引入本体,解决多个数据源集成中存在的语义异构问题。采用局部本体 描述单个数据源中的语义,建立全局本体作为全局数据模式来对多个数据源中的信息 进行统一的描述,定义全局本体与局部本体之间的映射规则解决集成中存在的语义异 构问题。 ( 4 ) 根据本文建立的全局本体与局部本体及局部本体与数据源模式之间的映射规 则,使用改进的两级查询重写算法,将用户提交的基于全局本体的中介查询分解转化 为针对各局部数据源的子查询;设计了用于查询执行和结果转换的数据源包装器,并 将其中的功能接口封装为w e b 服务;使用w s d l 文件描述该服务后在集成系统的- u d d i 注册中心进行注册发布,使得中间层能够方便的查找和调用这些服务,并从中 7 第一章绪论基于本体的异构数据源集成的研究及应用 返回查询结果。 ( 5 ) 结合本文提出的关键技术,对基于本体的专利数据源集成系统进行了初步的 实现。根据集成系统的功能和结构设计,给出了整个系统的类图,并对每一个类的功 能及组成进行了说明;最后对系统的有效性进行了验证。 1 5 论文的组织结构 本文共分为六章,各章节的安排如下: 第一章为绪论部分。本章阐述了数据集成的研究背景,分析了集成中面临的主要 问题,总结了国内外研究现状,在此基础上提出了本文的主要研究内容和组织结构。 第二章为异构数据集成的相关技术研究。本章分析了数据源的异构性,介绍了异 构数据源集成中使用到的x m l 、w e bs e r v i c e 、本体等相关技术,重点讨论了它们在 集成中的作用。 第三章为基于本体的异构数据集成系统的架构。本章针对不同数据源间存在的异 构性,提出了一个基于混合本体的异构数据源集成框架,并对其主要模块及工作流程 进行了介绍。 第四章为系统的关键技术研究。本章在上一章提出的系统总体框架的基础上,对 其中的关键技术进行了研究与实现。其中重点研究了本体库的构建、查询处理的实现、 包装器的设计与发布,并给出了详细的设计过程。 第五章为系统的实现与测试。本章首先对专利数据源集成系统进行了介绍,然后 结合系统的功能和结构给出了整个系统的类图,最后对系统的有效性进行了测试。 第六章为结论和展望。本章总结了全文,提出了对系统的进一步改进工作,并对 将来的研究工作进行了展望。 8 基于本体的异构数据源集成的研究及应用第二章异构数据集成的相关技术研究 第二章异构数据集成的相关技术研究 异构数据源集成的关键是解决不同数据源间存在的语法异构、系统异构和语义异 构。本文采用x m ls c h e m a 描述数据源的结构信息,使用x m l 统一表示从各数据源 返回的查询结果,解决不同数据源间存在的语法异构;将允许被集成的数据源封装为 w e bs e r v i c e 向外发布,实现跨平台的通信互操作,解决不同数据源间存在的系统异 构;引入本体描述数据源的语义信息,通过全局本体与局部本体之间的映射解决不同 数据源间存在的语义异构。本章主要对x m l 、w e bs e r v i c e 和本体论的相关技术进行 分析和研究,为后续章节做理论知识和技术上的铺垫。 2 1 数据的异构性 数据源的异构问题一直是各种数据集成技术研究的重点。数据异构主要分为三个 层次:系统异构、语法异构和语义异构。 系统异构主要是指不同软硬件环境及不同操作系统中数据存在的差异性。比如, 数据可能存储于微型机、大型机或工作站;使用的操作系统可能是u n i x 、l i n u x 或 铀d o w s 。 语法异构主要是指不同数据模型及不同结构的数据源中数据存在的差异性。比 如,层次模型、关系模型或网状模型的数据源中的数据;半结构化x m l 数据源或关 系数据库中的数据;同种数据模型的数据源之间,比如o r a c l e 与s q ls e r v e r ,所采用 的数据类型也不是完全一致的。 语义异构主要是指不同数据源中的数据在语义表示方面存在的差异性【1 9 1 。造成语 义异构的原因主要有以下几个方面【2 0 】: ( 1 ) 不同的信息源使用多种术语( 词汇) 表示同一概念。 ( 2 ) 同一概念在不同的信息源中表达不同的含义。 ( 3 ) 各信息源使用不同的结构来表示相同( 或相似) 的信息。 ( 4 ) 各信息源中的概念之间存在着各种联系,但因为各信息源的分布自治性,这 种隐含的联系不能体现出来。 9 第二章异构数据集成的相关技术研究 基于本体的异构数据源集成的研究及应用 2 2x m l 与数据集成 2 2 1x m l 概述 x m l 即可扩展标记语言,是w 3 c ( w b 订dw i d ew e bc o n s o r t i u m ) 为克服h t m l 语言的局限性设计并推荐的新一代标记语言。以x m l 为基础的新一代w w w 环境是 直接面对w e b 数据的,不仅可以很好地兼容原有的w e b 应用,而且可以更好地实现 w e b 中的信息共享与交换。 x m ls c h e m a 是w 3 c 结合原有的d t d ( 文件类型定义) 和数据库的建模语言提出 的,是d t d 之后第二代用来描述x m l 文档的标准。它拥有1 9 种基本数据类型,用 户还可以自定义s i m p l e t y p e 与c o m p l e x t y p e 两种类型,极大地扩展了x m ls c h e m a 对数据类型的描述【2 1 1 。通过x m ls c h e m a 不仅可以定义元素和属性的数据类型,而 且可以定义x m l 文档中元素与元素以及元素与属性之间的关系。此外,x m ls c h e m a 本身也是一个x m l 文档,符合x m l 的语法结构,可以使用通用的x m l 解析器对 它进行解析。 2 2 2x m l 在数据集成中的优势 在x m l 出现之前,数据集成中通常采用关系模型或对象模型作为公共数据模型。 随着x m l 的出现,使用x m l 作为公共数据模型屏蔽底层数据源的异构性得到了广 泛的应用。x m l 在异构数据集成中的优势主要体现在以下几个方面【2 2 】: ( 1 ) x m l 具有平台无关性,因此将x m l 作为数据交换的中间载体可以较好的解 决异构数据源之间的互操作问题。 ( 2 ) x m l 的自描述性和可扩展性使得x m l 能够方便的表达各种类型的数据,同 时使得数据不需要有内部描述就能被交换和处理。 ( 3 ) x m l 作为数据传输的中介格式,数据存储格式不受显示格式的制约。数据内 容与数据表现形式分离,提高了x m l 数据的可交换性和重用性。 ( 4 ) x m ls c h e m a 可用于数据模式之间的映射,能够将数据源的数据类型映射为 x m l 数据类型。 1 0 基于本体的异构数据源集成的研究及应用第二章异构数据集成的相关技术研究 2 3w e bs e r v i c e 技术 2 3 1w e bs e r v i c e 概述 w e bs e r v i c e 是一种基于对象组件模型的分布式计算技术,具有完好的封装性、 松散耦合性和高度可集成能力,能够使不同系统方便的进行通信和数据共享。它使用 基于x m l 的消息处理作为基本的数据通信方式,消除使用不同组件模型、操作系统 与编程语言的系统之间存在的差异,使异类系统能够作为计算网络的一部分协同运行 团】。w e bs e r v i c e 技术的出现,使得w e b 上的各种服务不再是孤立的,而是可以互相 联系和调用的,为数据集成提供了一个便捷的途径。 w e bs e r v i c e 架构在x m l 技术的基础之上,实现w e bs e r v i c e 的主要技术有x m l s c h e m a 、s o a p 、w s d l 和u d d i 。其中x m ls c h e m a 为在不同w e b 服务之间交换数 据而提供了一个核心的跨平台数据建模工具;s o a p ( 简单对象访问协议) 为在不同系 统之间实施平台无关的交互定义了一套基本的元规则和跨平台消息机制,是w e b s e r v i c e 体系中服务交互的基础架构;w s d l ( w e bs e r v i c e 描述语言) 则是w e bs e r v i c e 接口界面的跨平台描述工具,通过w s d l ,w e bs e r v i c e 的交互界面就能被系统自动 处理;u d d i ( 统一描述、发现与集成) 是一个基于s o a p 协议、为w e bs e r v i c e 提供信 息注册中心的实现标准,包含了一组提供w r e bs e r v i c e 注册、发现和调用的访问协议 2 4 1 。这一组技术使得底层平台对应用交互透明,应用的互操作能力得到了很大的提升。 同时,由于x m l 具有的语言、平台无关性,使得w e bs e r v i c e 在复杂的异构环境下 具有更大的竞争力。 w e bs e r v i c e 的体系结构如图2 1 所示,它基于3 个角色和3 个基本操作。3 个角 色分别是服务提供者( s e r v i c ep r o v i d e r ) 、服务请求者( s e r v i c er e q u e s t o r ) 和服务注册 中一t , ( s e r v i c er e g i s t r y ) ;3 个基本操作分别为发布( p u b l i s h ) 、查找( f i n d ) 和绑定( b i n d ) 。 这些角色和操作一起作用于w e bs e r v i c e 组件、w e b 服务软件模块及其描述。其中, 服务提供者设计实现w e b 服务接口,并将这些服务接口用w s d l 和w s f l 描述出来, 然后在服务注册中心注册和发布;服务注册中心则使用u d d i 注册这些服务接口,并 接受服务请求者的查询请求;服务请求者通过使用u d d i 在服务注册中心处查询,得 到所需服务接口的w s d l 描述文件,然后绑定到这些服务,最终完成调用。 第二章异构数据集成的相关技术研究基于本体的异构数据源集成的研究及应用 图2 - 1w e bs e r v i c e 体系结构图 2 3 2w e bs e r v i c e 在数据集成中的应用 w r e bs e r v i c e 技术在数据集成中得到广泛的应用,主要基于以下几点优势【2 5 】: ( 1 ) 真正的跨平台,能够解决不同系统之间的操作系统、软件平台等异构问题。 ( 2 ) 数据松散耦合。数据服务的提供者可以选择将全部数据作为服务向外提供, 也可以只提供数据的一部分,方便灵活,容易更改。 ( 3 ) 方便灵活开发。w e bs e r v i c e 能够快速、低代价地开发、发布、发现和动态绑 定数据服务。此外,w e bs e r v i c e 还可以实现应用程序之间的函数或方法级的集成。 在具体的应用中,为每个数据源创建一个w e bs e r v i c e ,并使用w s d l 描述该服 务后向注册中心进行注册发布,然后集成系统就可以向注册中心发送查找请求并选择 合适的数据源,通过s o a p 协议从这些数据源获取数据。在异构数据源集成系统中采 用w e bs e r v i c e 技术能够较好的解决不同系统间的互操作问题,增强系统的灵活性, 实现异构数据源的无缝集成。 2 4 本体论 2 4 1 本体的概念 本体最早是一个哲学概念,用来对世界上客观存在物进行系统的描述,关心的是 客观现实的抽象本质。后来知识工程学者将其作为与任务独立的知识库引入人工智能 领域,定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系 构成的规定这些词汇外延的规则的定义”【1 7 1 。, 随着对本体研究的深入,对本体的定义也有了新的发展,其中最著名并被广泛引 用的定义是由o r u b e r 提出的“本体是概念模型的明确的规范说明”【2 6 1 ,后来b o r s t 将该定义引申为“本体是共享的概念模型的形式化的规范说明 1 2 7 1 。1 9 9 8 年s t u d e r 1 2 基于本体的异构数据源集成的研究及应用 第二章异构数据集成的相关技术研究 等对上述两个定义进行了深入的研究,提出了被普遍接受的定义“本体是共享概念模 型的明确形式化规范说明”,该定义包含4 层含义【1 7 】: ( 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中的一些现象的相关概念而得 到的模型,其含义独立于具体的环境状态。 ( 2 ) 明确( e x p l i c i o 所使用的概念及它们之间的联系都被精确定义。 ( 3 ) 形式化( f o r m a l ) :精确的数学描述,是计算机可读的。 ( 4 ) 共享( s h a r e ) :本体中反映的知识是领域共同认可的知识,是相关领域公认的概 念集。 通俗地说,本体可以描述某个领域内的概念以及概念之间的关系,使得这些概念 和关系在共享的范围内具有大家共同认可的明确的唯一的定义,从而使人机之间以及 机器之间可以进行交流。当前,本体己经在w e b 、数据集成、智能信息检索、数字图 书馆等领域得到了广泛的应用。 2 4 2 本体的描述语言 本体描述语言用于描述本体,用户使用它能够为领域模型编写清晰的、形式化的 概念描述,从而使本体被计算机理解成为可能。良好的本体描述语言应满足以下要求: 良好定义的语法( aw e l l d e f i n e ds y n t a x ) 、良好定义的语义( aw e l l - d e f i n e ds e m a n t i c s ) 、有 效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 、充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 以及表达的方便性( c o n v e l l i e n c eo f e x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西安地质调查中心实习合同3篇
- 灯箱维修合同10篇
- 瓶装气企业安全培训课件
- DB14T 1953-2025 地面无机磨石材料应用技术规范
- 安全文明出行培训会议课件
- 分洪工程总体方案(3篇)
- 房屋工程方案小学作业(3篇)
- 广西嘉禾盛德金太阳再生资源有限公司汽车零部件再制造件表面处理工艺项目环境影响报告表
- 猫咪家族课件
- 猎人海力课件
- 旋挖钻机地基承载力验算2017.7
- 建立隐患闭环管理制度
- T/CECS 10026-2019绿色建材评价建筑门窗及配件
- 2025-2030中国甘草酸铵行业市场现状供需分析及投资评估规划分析研究报告
- 银川文化园全民健身体育运动馆地块土壤污染状况调查报告
- 明厨亮灶协议书
- 新药研究与开发技术 课件3.新药的工艺与质量研究
- “厂中厂”安全生产管理协议书(未修改版)7篇
- 《智能制造技术》课件 第4章 智能设计
- 类风湿关节炎健康教育
- 2025年装维智企工程师(三级)复习模拟100题及答案
评论
0/150
提交评论