(计算机软件与理论专业论文)基于本体的异构数据集成系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于本体的异构数据集成系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于本体的异构数据集成系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于本体的异构数据集成系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于本体的异构数据集成系统的研究与实现.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 信息系统的广泛应用和互联网技术的发展,促进了人们对完整获取分布、异质 信息的需求,特别是完整获取半结构化甚至非结构信息的需求,因此促进了数据 集成技术的研究。 本文在现有的数据集成技术的基础上,提出了基于本体的数据集成体系架构。 该体系结构是基于m e d i a t 0 i :,) l ,m p p 盯方法的。该方法并不实际的存储数据,数据分 布在各个自治的数据源,本体作为一种工具被应用到本文所提出的数据集成系统 中。本文研究了构建全局本体以及从关系数据库中抽取出局部本体的方法。并提 出了建立局部本体到全局本体,以及从关系数据源到局部本体的映射的方法。在 查询接口部分,采用了0 q u o n t o l o g yq u e f ) rl 卸g i l a g c ) 作为查询语言。该查询语言 是一种树形查询语言,它对全局本体进行查询。通过对查询语言的解析,建立查 询树,然后根据从局部本体到全局本体的映射规则,该查询树被分解为对局部数 据源的子查询,提出了查询分解的具体算法。根据数据源到局部本体的映射规则, 分解到局部数据源的子查询被进一步重写为与数据源相关的查询语句。本文研究 了从局部本体到关系数据库模式的查询重写,提出了从本体查询语言( o q l ) 到关系 数据库查询语言( s q l ) 的查询重写方法。 在系统实现部分,本文采用w 曲本体语言( 0 w l ) 对本体进行建模,j 胁a 2 开发 包对本体进行解析和推理,最后通过一个典型的测试用例对本文提出的方法进行 了验证。 关键词:本体数据集成查询分解语义异构本体映射 型型 a b s t i 曩c t t h cp a p 盯p i i 协如删a r da no n t o l q ;y - b a s e d 蛐j n t c g r a 咖删t 。咖b a s e d 蛐m e d i a t 凹 ,w f a p p c f 蛳m o d b yt h e 撇t h o do ft h cm e 埘a 咖p p 盯恤d a hj s 吣r e a u y 咖咀b u ti s d i s 打i b u t c di na u t o n 峙d a 忸u 嘲t h e 叩i c i y 缸d 髓蛐p c di n t os u b - q u e r i 鹤w h i c h 啪b c 柚翱哪叫b yl a ld a 悟u 棚d a t a 如撇sa w 均p p e d b yw m p p 慨,锄d 删d e 山cm c d i a t 甜a 蛐i f o 珊i n t c r f a t 0 “e c i l t e 洲b _ q u e r i e s t h e 删l 协o f 轴b q u 甜a ”m b 删b yt h em e d i 砒何 彻db c 加m e d t 0 e m o n t o l o g y 鹞a t o o l 缸a p p l i e d 缸也cd a t a 如t c 鲫6 彻s y s 蛔np i e s 蛐t c d j n t h i sp a p e 正o n “o g y 啪 p r e c i l y 既p r e 路f c l a 曲地b e 拊n n p b 柚ds h 盯a b l eh a w k d g e ,w h i c h 啪s o l v e m 卸雠 p r o b 蛔璐c 如c l i v e l y 1 km c t h o do f 船哪蛐gg l o b a lo n l o l o g y 柚dl a io n i o l o g y 勰w e n 雏t h e m a p p 血gr e l a o n s ,i sd i u s s e di nt h cp a p c l0 q 脚t o j o g yq u 盯yl a n g i l a 萨) i su s c da st h cq u e r y l a n g l l a g c0 f t h ed a t a i n t e f 撕s y s t c 吐o q l i sa 仃q 眦f y l 卸g 岫萨b yp a 商n g t h eq u e r y i e q u 嚣 aq u e r y t f c 柚b e 咖蚰删砸i b y m a k i n g u o f 山c m a p p 血g m l 嚣丘锄j o c m o n t o l o g y t o g l o h a lo n “o 鼢m eq u e r y i 摹d e m l m e di n l o 蛐嬲,柚dt h eq i l e f yd e c 0 珥鹏硒 蚰g 耐t h l ni sa l p f e n 把d 1 1 i c 跚b - q u 盯yi s 岫蛐形w t i n c nt oq l i 盯yl 柚g u a g c l 删t od a t a 咐溉 t kp a p 盯o p e daq u e f y w t i l 蜘m e t h o d 幻埘喇l en 培o q l 幻s o l1 kw 曲0 n 击0 1 0 9 y k m g i i a g ci su dt 0m o d e l 曲忙d a t a f b fp a l i n g 柚dr e 撼d n j n gt b c 仰t o l o 昌j 如a2d e v e l o p 啁僦t p a c k c t i s m d c u 辩o f 如a l l y ,m ed a b i n t c g 喇s y s i c m i s v 砌e d b y a t 脚t e 吼c a 辩 t h c ma 埠a l 啪yp i o b l c m s c d t ob e 袱煳r c h e d ,朝c h 够t h c 锄l o m 雠m a p p i n gb c t w 啪 m 彻t o l o g y 卸dg l o b a i t o l o 龋幻l o g ya u l o m a t i ce x t l l c 血g 柚d k e y w o r d s :0 n t o l o 嚣d a 协i n t e g r a h 蚰q u e r yd e m p 惦m o ns e m n 廿c h e 把r 曜e n e o 哪o n t o l o 留m a p p l n g 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任 本人签名:鱼丝 日期丝:! :三:! 于 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名; 导师签名; 日期丝! z :三:! r 日期纽4 王:! 千 第一章绪论 第一章绪论 1 1 研究的背景 信息系统的广泛应用和互联网技术的发展,促进了人们对完整的获取分布、 异构信息的需求,包括获取半结构化甚至非结构化信息的需求,这就促进了数据 集成技术的产生。由于这些数据分布在不同的服务器站点上,各数据源采用本地 策略对数据实施操作,并且各数据源采用不同的存储方式1 1 1 ,以及使用不同的概念, 属性和关系来表达数据,造成了多层面的数据共享与互操作的困难。因此如何将 多个分布、异构数据源集成在一起,并可以进行灵活的互操作,是目前急需解决 的问题。 异构数据集成的目的1 2 】就是提供一个统一的查询接口,屏蔽底层数据源的不 同,使得用户不必再考虑底层数据源的数据模型、物理位置和语义异构等问题, 能够通过一个统一的查询界面实现对分布的异构数据源的灵活访问。集成系统提 供模式转换与集成、全局查询处理等功能,将从多数据源取得的数据以统一的方 式呈现给用户。这样就使得对多数据源的操作就像操作单独的数据源一样简单。 其中的关键是如何以一种统一的数据模式描述各数据源中的数据,屏蔽它们的平 台、数据模式和语义等异构性,实现数据的无缝集成。 1 2 研究现状 信息系统集成技术已经历了2 0 多年的发展过程,研究者已提出了很多信息集 成的体系结构和实现方案,主要可以分为1 3 】:联邦方式,数据仓库方法和 w m p p c 删e d i a t o r 方法。 早期普遍采用单个联邦系统1 4 】,将所有数据源统一到一个单一的集成系统中。 但是它存在一系列的问题:首先,构建这样一个集中式的系统需要很长的开发时 间,要求高性能的主机设备,实现代价较高;其次,系统的扩展和维护会涉及到 整个系统,而且一个集成系统无法共享另一个集成系统的模块。 随着分布异构计算环境下互操作性的研究及进展,由于数据源的多样性和分 布性,单个联邦系统的集成方法,己无法适应人们获取更多更新数据的需要。随 之出现了使用分布式的对象模型【5 】如微软的分布式组件对象模型d c o m ,c o r b a 或s u n 的r m i 来构建数据集成系统。这种方法有效的避免了联邦系统带来的开发 代价大,代码难以重用的问题,利用网络计算环境可以有效的实现复杂的大规模 2 基于本体的异构数据集成系统的设计与实现 的信息集成。但是,d c o m ,c o r b a 或r m i 要求服务客户端与系统提供的服务 本身之间必须进行紧密耦合,要求特定的语言形态、特定的系统结构。同时随着 信息源种类和形态的不断增长,系统的脆弱性问题变得比较突出。 数据仓库方法1 6 j 是将各数据源的数据按照需要的全局模式从各数据源抽取并 转换,存储在数据仓库中用户的查询就是对数据仓库中的数据进行查询。对于 数据源数目不是很多并且数据变动不是很频繁的应用来说,该方法十分有效。但 对目前的海量数据,数据源繁多且变化快,对数据源的数据抽取和转化要复杂得 多,数据仓库方法的不足十分明显。 目前比较流行的建立数据集成系统的方法是w r a p p 洲c d i a t o r 方法。该方法 并不将各数据源的数据集中存放,而是通过w m p p e 棚e d i a i o r 结构满足上层集成应 用的需求数据集成系统通过中介模式将各数据源的数据集成起来,而数据仍存 储在局部数据源中,通过各数据源的包装器( w 均p p c r ) 对数据进行转换使之符合中 介模式。用户的查询基于中介模式,不必知道每个数据源的特点,中介器( m e d i a t o r ) 将基于中介模式的查询转换为基于各局部数据源的模式查询,它的查询执行引擎 再通过各数据源的包装器将结果抽取出来,最后由中介器将结果集成并返回给用 户。w h p p c 删e d i a t 甜方法解决了数据的更新问题,从而弥补了数据仓库方法的不 足。 近年来,随着w 曲s e n r i c e 的出现,操作界面在浏览器层面上得到统一m ,兼 容性由相关标准技术实现( 如s o a p ,u d d i ,w s d l 等) 。在w 曲s c r v i c 髂的框架 下,使用一组w 曲s e r v i c c s 协议,构建数据集成系统。对每个数据源都为其创建 一个w 曲s e n r i o c ,然后使用w s d l 向服务中心注册。当要构建一个新的集成应用 时,集成端首先要向注册中心发送查找请求收集并选择合适的数据源,然后通过 s o | a p 协议从这些数据源获取数据。这种方法与联邦方法和数据仓库方法相比,具 有完好封装,松散耦合,高度可集成能力等特性。w 曲s e r v i 方法为数据集成提 供了灵活的集成方式,为快速新增和部署新数据源提供了方便。 从发展趋势看,数据集成系统的框架日趋成熟,但是伴随多样化数据的产生, 异质数据源在集成过程中表现出来的异构性问题变得十分突出,主要包括结构异 构,语法异构,系统异构和语义异构异构数据集成作为数据集成研究的一个分 支成为数据集成技术研究要解决的一个主要问题。为了解决数据异构问题,许多 研究组织进行了研究。并提出将本体作为一种工具用于数据集成系统中,在一定 程度上解决了数据异构问题。利用本体,可以用计算机理解的方式去描述数据源 信息和数据模式。利用全局本体建立共享词汇库,以及待集成领域的领域知识, 所有的分布的数据源都利用全局本体的共享词汇和共享知识,从而最大程度的减 少各个数据源的语义异构问题。不少数据集成系统采用了基于本体的数据集成方 案嘲如m o m i s ,c w 曲,s t y x 等。 第一章绪论 从发展现状和趋势来看,在数据集成领域,基于本体的数据集成以及w 曲 s e r v i c c 技术在数据集成系统中的应用已经成为研究的热点。 1 3 研究内容和目标 本文提出了基于本体的数据集成方法,该方法要达到的目标主要包括三个: 第一,提供灵活的数据源集成能力;第二,对查询的回答能得到尽可能完整的结 果,而不必关心局部数据源的细节;第三,支持语义异构的集成能力。 本文主要的研究内容包括: 1 1 全局本体和局部本体的建立问题。提出了构建全局本体的方法,以及从数 据源中抽取出局部本体的方法。重点研究了从关系模式中抽取出局部本体 的方法。 2 1 本体映射关系建立问题。提出了从局部本体到全局本体的映射规则建立方 法以及数据源到局部本体的映射规则建立方法。建立的映射规则为查询分 解和查询重写提供了指导。 3 1 全局查询分解和查询重写。设计了全局查询分解算法,即把基于本体的全 局查询分解为针对局部本体的子查询算法,该算法满足跨数据源查询的情 况,对于单独数据源不能完整回答查询请求的情况,该算法能够跨数据源 查询并获取到完整的查询结果;设计了查询重写算法,将由查询分解算法 得到的子查询重写为对关系数据库的查询语句。 1 4 论文章节安排 本文的各章节的安排如下: 第二章,“数据集成及相关技术”,主要介绍了数据集成的基本概念及语义异 构问题。还介绍了与数据集成相关的技术,如本体在数据集成中的应用,本体描 述语言。 第三章,“系统的总体架构”,首先介绍现有的几种数据集成系统架构,然后 提出本文设计的系统总体架构,并分析了其特点和优势 第四章,“系统关键技术”,介绍了本文采用的关键技术,包括查询语言,数 据模式的描述,映射关系的描述,查询变量绑定,查询分解和查询重写。 第五章,“系统实现及测试结果”,本章中利用o w l 语言描述全局和局部本体, 并建立映射规则,通过j e m 软件包,解析和处理0 w l 文件,对全局查询进行分 解,并通过w r a p p c f 包装数据源,将分解后的查询语句,对各个局部数据源执行 查询,最后合并子查询结果后返回。最后本章通过典型的测试用例对该系统进行 4 基于本体的异构数据集成系统的设计与实现 了验迁。 第六牵,“结论与餍望”,总结了本文的结论和不足之楚,并对迸一步的研究 工作做出了展望。 第= 誊数据集成及耜关技术 5 第二章数据羹成及相关技术 2 1 舜构数据集成简介 2 1 1 数据的异构性 异构数据是一个含义丰富的概念,不仅指不同的数据库系统之间的数据怒异 构的,如o f a c l c 和s q ls e f v e f 数据艨,还包括不同结构的数据之间的异构,细维 构纯瓣s 避。s c r v c f 数据库数据和拳络梭纯懿文搂数攥,更重要豹是数据袭承瓣滠 义主豹差雾。数据集或瓣一令鬟瑟强务貔是雳藏各耱雾擒数据鬻豹差舅,辩器秘 舅构数据提筷统一豹操季# ,经集成爱豹雾稳数据对瑶产来说是统一豹秘笼麓雾豹。 对于强蓠静数据集成系绕,绝大部分数据源豹数据是属于异构数攥,嬲她, 通常人们所说的数据集成是指异构数据集成。 异构的形式主要可以分为下筒几类1 9 】; 1 1 系统异构 系统异构主要指数据所依赖的臌用系统,如数据库管理系统、硬件平台、操作 系统、并发控制、访问方式和通信能力的不同等。具体细分如下:按计算机体系 结构的不同,即数据可以分别存在予犬溅机、小型机、工作站、p c 或嵌入式系统 审;按照操作系统的不同,数攥存在豹搽僚系统可以是w n d 嘲r s 系列或者u n 奴嚣; 按照秀发语言粒苓目,可淡秀c i bj 鑫v 鑫,d c l 难等;按照霹络平台麴不嚣,霹 三乏 必e 氇e f 辩,固d l ,筒隐秘溺潆等。 翁数据模式雾构 数据模式异构主要指数据在存储模式上的差异。一般的存储模式包捂关系模 式,对象模式、对象关系模式和文椭嵌套模式等几种,其中关系模式为主流存储 模式。需要注意的是,即便是同类存储模式,它们的模式结构可能也存谯糟麓 肄。例如o m c l e 所采用的数据类型筠s q ls e r v e f 所采用的数据类型并不是究众一 致的。 3 ) 语义异构 信息资源之闻存在着语义上的嚣剐,这些语义上酶不同可能弓l 起各种冲突。铡 懿,铁燕擎的食名 孛突( 翔嚣名辩义,弱义爨名) ,到复杂豹结构语义冷突 ,其中:g 是 全篾骥式,s 是数蠢添旗建,m 是全蜀模式秘魏器潦模式熬获瓣关系。 数据集成屏蔽了各种舜构数据问的差异,它使得可以统一的袭示、存储和管 理各种舜构数据。集成后的异构数据对用户来说是统一的和无差异的 2 1 。3 异构数据集成的目标 数搌集成赘露标霆为了实现各个雾 鸯数鬃源之闻豹数据共事,有效剩蕉资源, 提商熬个异构数据集成蓉统的性能而数据集成的理想目标是在分布式环境下给 用户掇供一个单一系统映像s s i ( s i n g l es y s t 蝴l n l a g c ) 。这意味着各个数据源之间的 相互作用必须透明地进行。透明就是说把所宥相互作用地细节向用户隐蔽起来, 使用户把各个子系统看戏怒一个无缝的数撵集成系统。具体来说,数据集成应达 蜀这群戮令嚣标,帮分蠢瓣逶弱毪_ 饔异 鸯数撵源豹透瑗毪。 1 ) 分布的透明性。 遮包括两方面:位置的透明性,即用户不必知道数据的物理存储地,就好像所 用到的数据全部存储在本地一样。这是由个专门地分布式数据库管理系统来实 现的。瓤采缺乏数据位置遮鞠性,剐每个应用獠彦砉器磐须关心自穗的位置,本建 数爨簸苓褥不与远程数疆分凑拜来。努毒式存敬逶骥,鼙霹鞋戆壤各麓羁终资源, 就如阿他们在本地机器七一样,系统必须对存墩进行控制,同时搬供设备茸录。 数据源的透明性。 禚数据集成中,如果仅从数据的角度来考虑,则主要是实现单一数据映像s d l ( s i n 露ed a t ah l l a g c ) 。即对于系统中的任何一个用户,不管它所蓠要的数据在什么 逵方,来叁舞么嚣熬数攥源,在瘸产看来,这整数据是透臻戆。辩擒数豢添鳃透 第二章数据集成及相关技术 7 明性主要表现在两个方面:不同d b m s 的常规数据之间的透明性;不同d b m s 的 常规数据和非常规数据( 工程数据、制造自动化的实时数据、多媒体数据等) 之 间的透明性。 2 1 4 集成模式分类 按照集成模式的不同,又可将数据集成系统分为两类,l w ( 【d ( 湖舔v i e w ) 和 g a v ( g l o b a l 弱v i c w ) 【d c a l 弱v i e w 是以数据源为中心的方法,全局模式的设计独立于数据源:如果 i _ 是基于l w 集成模式的数据集成系统,那么m = s s i s q g 。 即m 包含的映射关系为,对于数据源模式s 中每个元素s ,从s q 。的断言。q 是全局模式上的查询。l w 的特点是具有高度的模块化程度和良好的可扩展性, 如果设计的全局模式比较好,那么当数据源改变时,只会影响到它的定义,而对 整个集成系统没有影响;当有新的数据源加入时,可以比较容易地扩展整个l w 数据集成系统。u 主要的缺点是可能产生不完全的查询结果,查询过程需要进 行推理,即查询重组比较复杂。系统h f o n n a t i m 锄i f o l d ,d w q ,p i c l 等都是 采用u 方法,采用这种方法的质量依赖于我们特征化数据源的好坏程度。 g l o b a l 舔v i c w 是以全局模式为中心的方法:如果i = 是基于g a y 集成模式的数据集成系统,那么m = g gig q 。 。即m 包含的映射关系为: 对于全局模式g 中每个元素g ,从g 到q 。的断言。q s 是数据源模式上的查询。g a v 的缺点是缺乏扩展性,如果有新的数据源需要集成,则需要修改视图定义。如 t s 蹦m s ,i n t c r v i 和g a r l i c 都是使用g a v 方法的系统。系统c 枷t ,s i m s , b i m m i s ,m i s ,p i c 辩l 等都是采用g | a v 方法,采用这种方法的质量依赖于我们将 数据源映射到全局模式的好坏程度,当数据源改变或有新的数据源增加时,全局 模式就需要进行改动。 2 2 本体与数据集成 2 2 1 本体的概念 本体最早是一个哲学上的概念【l o j ,从哲学的范畴来说,本体是客观存在的一 个系统的解释或说明,关心的是客观现实的抽象本质,它用于说明某种形式语言 ( 或逻辑) 内在含义( 即语义) 的逻辑理论,通过一种本体化约定的方式近似地 描述了关于现实世界的概念化,本体的本质是“建立在逻辑理论上的对概念化的 近似描述”。在人工智能界,最早给出本体定义的是n e c h c s 等人,他们将本体定 义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成 8 然于本体的异构数据集成系统的设计与实现 夔趣定这魏词汇努延斡矮嬲戆定义”。本嚣是簌靠入瓣智慧瑟载建豹工程化产熬, 它包含了许多领域中的技术,如知识表示与推理、面向对象建模、数据库理论以 及人工智能等。它可能被包含在一个敞件系统中,像知识库一样工作,提供智能 化的信息处理功能。本体在英文中袭涿为“。n t o l o g y ”或“锄l o l o 鼯”,翦者用于哲 学领域,熬个诗算辊季季学鲠域使用“o n l o l o g y 8 。一令本俸其实魏是一套关予袋一 领域的规范而清晰的描述,它包含类( d a 稿e s ,有时也被称作概念n c e p 协) ,每 一个概念的属性( p r 0 :p e r t i e s ) 描述了有关概念的各种特征和属性( 又称s l o 协,有时也 穆舞蠢然或a 髓巍豁) ,还有羼毪豹蔽割条挣( 揪淑耙l 自嘲s ,帮嚣l 妊姆,露辩氇 称为f o l e 糟s t f i c i i s 或n s 弧i n t s ) 一个完整的奉体还要包含系列与某个类相关 的实例( i 燃t 粕c c s ) ,这些窳例组成了一个知识库( k b - k n o w l e d g eb a 靶) 。 本体攒述现实世秀的能力十分强大。钛描述辩象的类型来说,本体既霹l ! l 眉 来搐述豫擎豹事实,又弼戮薅来擒述信念、霰设、预测等擒象的概念;篾冒班搐 述静态的实体,又可以描述与时问推移相关的概念,如事件、活动、过程等。从 描述对象的范围来说,本体可以定义通用的、适合所有领域知识表示的术语,如 空阕、瓣瘸等; 錾哥瑷定义特定镶城期滚方覆惩瓣寒语。本豁戆表示毒多牵争:有 仅表示概念的简单表示,有表示概念和属性的框架和语义网络寝示,还有能表达 丰富语义的逻辑表示。e r 模型和u m l 类图也可认为是本体的袭达。但总的求讲, 这些本俸袭示基本上魇两类;j # 逻辑和逻辑本体表达。麸壤念熬分类来餐,菲 逻辑表达赢观方便但捺理必须由用户自己实现,逻辑表达可以通过谓词演算清晰 表达所描述领域。 2 2 。2 零锩在数据集成中戆俸建 在数据集成的许多经典论述中,都将本体及其相关技术,作为达到系统赢操 作的数据集成方案的基础。通过对檄念的严格定义和概念之闻的关系来确定概念 匏耪礁含义,表示荚翳诀霉戆、毒共享夔魏谖,秩嚣簿决语义雾章奄豹阕遂。一令 本体为特定领域的实体缭出名字和描述,使用谓词来表示这些实体之间的关系。 它为表示和交流领域的知识给出了一个词汇库,并给出了一系列包含着词汇库里 瓣术语静笑系,具体的来说,本体农数据集成孛怒整公共语义攒述、查询挨整、 推理基础三大作用。 1 ) 公共谮义描述( 概念定义) 利用本体作为语义擒述的许多实现中,都提供了一个覆盖7 几乎所有包含在被 集戒数撵源串豹穰念翡本俸。裰念定义有两层含义:第一,零俸内部复杂穰念和 关系通过其它基本的概念和关系定义出来。第二,可以将本体作为公共概念模型, 来定义各数据源的概念和关系,作为备数据源语义数据集成的熬础。 第二章数据集藏及籀关技术 9 查询模型 本体用于数据集成系统的主雾意义在于,它使本体w 以作为一个中介藏代理, 让大量的异构的底层数据源对用户采说是透鳃的。即用户可以不知道数攒源的结 稳,稷提交一令蛰霹本俸懿查谗:系绕基手语义定义,霹滚垂动建将镑黠零俸戆 查询重写为针辩数据源的查诲。这样,用户就可以仅仪撬出需要什么数据,箍不 需要指出如何去发现数据。在u w 繁成方式下体现本体的查询模型作用,关键是 要考虑多数据灏的绑定问题,这将在第四章中进行详细萱寸论。 3 ) 推理基础 零俸震予数耀集残系统瓣舅一今爨义在予:蠹予零髂霹戮建立在逻辑纂磷土, 这使数据源孛的一些隐在的概念或关系可以被发现。鲡莱用户查询本体中盼一个 概念,相关的祷寨可能在和其子概念和父概念联接的元素和属性中找到。从一个 明确的被查询的概念出发,可以按照本体的结构,依次找到子孙概念和祖先概念 作为其潜在的支持答案的概念。通过本体的推理,局部数据源之间元素和麟性之 麓熬关系可敬缀攥恁襄在本薅孛嫒瓣豹壤念之阕翦关系缮翻。蠢蘧,本体瓣接瑾 基础作焉,俸瑷程异梅、分布环境下的数据集成孛,霹以提高数据的查全攀釉套 准率。 因此,本体其有描述数据源语义和解决异构的潜力,在数据集成中使用本体 有许多的优点:本体提供了一个串禽的、预定义的词汇瘁,可作为与数据灏的稳 定豹概念接日,磐基独立子数据模姨。第二,本髂表承豹知识足够支持联蠢楣关 傣意源豹转换。第三,本钵支持一羧豹管理和j 一致数嚣鹣识瘸等。 本文解决语义异构问题的方法怒形式化地指定每个系统术语的含义,并且定 义每个系统术谬集和中介术语集之阅的转换。使用彤式化本体指定系统术谮集和 中介术语集。并使用本体映射指定寓们之间的转换。 2 ,2 。3 零傣撵述摸羹 p c 坤z 等人认为本体可以按分粪法来组织1 1 1 l ,并归纳出本体的五个基本构成元 素。这些元素分别为:类( a a s s e s ) ,必系 e l a t i o n s ) ,函数( f u n d i 佃s ) ,公理沁i 啪s ) 和实例( i n s t a i l s ) 。通常也把c l a s s c s 笃成c o n c c p l s ( 概念) 下面对各部分的禽义 进行分橱: l 类( c 1 8 s s e s ) 躐概念e e 辫s ) 指任何事务,如工作描述、功熊、行为、策略和推瑗过程。从语义上讲,它表 示的是对象的熊合,其定义一般采用框架( 舶m e ) 结构,包括概念的名称,嗣其它 概念之间的关系的集合,以及用自然语言对概念的描述。 2 ) 关系细l a t i 雠酶 l o 基于本体的异构数据集成系统的设计与实现 指领域中概念之间的交互作用,形式上定义为二维笛卡儿积的子集r : c 1 x c 2 x q 如子类关系( s u b d 勰s 回。 3 ) 函数( f l l n c t i s ) 一类特殊的关系。该关系的前n 1 个元素可以唯一决定第n 个元素。形式化的 定义为f :c l c 2 x x c n 1 一q 。如m o t h e r _ 0 f 就是一个函数,m o i h e r o f ( x ,y ) 表示y 是x 的母亲。 4 ) 公理( 戤i o m s ) 代表永真断言,如概念乙属于概念甲。 5 ) 实例( i l i s t 柚c c s ) 属于某概念的基本元素,即某概念类所指的具体实体。另外,从语义上讲, 概念间的基本的关系共有4 种,如表2 1 所示: 表2 1d 1 l 基本语法 关系名关系描述 p a n o f 表达概念之间部分与整体的关系 k i n d o f 表达概念之间的继承关系,类似于面向对象里面的父 子继承关系 l t a n c e - 0 f 表达概念的实例与概念之间的关系 a n r i b u t e _ 0 f 表达某个概念是另一个概念属性的关系 2 2 4 本体描述语言 本体语言使得用户能为领域模型编写清晰的、形式化的概念描述【1 2 】,因此它 应该满足以下要求:良好定义的语法( aw c u - d e f i l l c ds y n t a x ) 、良好定义的语义( a w e l l - d e 6 n c ds 锄觚t i c s ) 、有效的推理支持( e f f i c i e n t 北a s 彻i n g 鲫p p o n ) 、充分的表达 能力( s u 佑c i e n t 懿p r e 豁i v ep 0 啊e f ) 、表达的方便性( n v e n i e n o f e x p 豁i o n ) 。大量的 研究工作者活跃在该领域,因此在过去二十年中诞生了许多种本体描述语言,用 来定义本体。 首先出现的是如o n t o l i n g i i a 、l o o m 、o c m l 、h d g i c 、c a r 矾等基于逻辑的 传统本体语言。g r 矾语言是基于d 衄a lo g 规则的语言和a i n 描述逻辑的合 并体。使用c a r 语言描述的本体包含两个部件;术语学部件和规则部件 f i p g i c ( f r a m ei j o g i c ) 于1 9 9 5 年开发于k a r l s n l h c 大学,它融合了架构和一阶谓词子 句,能够表达概念、分类、二元关系、函数、实例、公理和推理规则。l 0 0 m 于 1 9 9 1 年开发于i s i ( u n i v c r s i t y0 fs o u t hc a l i f o 】f n i a ) ,最初并不专门用来定义本体,而 是通用的专家系统和知识库系统。l o o m 基于描述逻辑和产生式规则,能够表达 概念、分类、n 元关系、函数、公理和产生式规则。0 咀t o l i n g t l a 于1 9 9 2 年开发于 s t a l i f o i d 大学,同样能够表达概念、概念的分类、n 元关系、函数、公理、实例和 第二章数据集成及相关技术 遥纛。酝毛摸鍪语言产生子1 9 9 3 年,宅每a 瞻论l i | l g 瞻+ 分类骰,霹被看终一种 “搽露黧。麓l o l l l 辨”,嚣秀o c 鹾l 绳珙对予爨数、关系、类、实镄纛薤鬟| j 懿定义 帮操佟。随着对于w w w 研究酶不颤深入袋歼,童年多与w w w 相关酶本髂接述潺 畜如:欺d 乳r d fs c h e m a 、s h o e 、x o l o m lo w l 也相继出现。这些语言除 了s h o e 的语法基于h 刑l 之外,其它语言的谮法都基于目前作为w 曲上信息交 换的标准语言) 蹦l 。 按照是否和w 曲相关把它们归类如下: 和w 曲相关的有:r d f 和r d f s 、o 肌、n a m ko w l 、s h o e 、x o l 其中 r d f 和粕f s 、o i l 、d 怂仉、o w l 、x o l 之间有着密切的联系,是w 3 c 的本 体语裔棱中蠡搴不同层次,也郝是基于x m l 的。藤s 糊d e 是基于 m l 的,是臻r m l 豹一个犷袋。 秘爨髂系统稳关酶( 主要在鞠关瑗曩孛餐瑗 骞:o 瞻| o l i 蠡笋8 、e y e 王 王舶氆。 i 【瓣懿经蹩美国国家标准,但是它劳没骞被广泛藏嗣予互联瘸,俸为一静交换格式 更多的斑用于企业级。 本文主要采用0 w l 作为本体描述语畜,下筒将重点介绍o w l 语言的特点。 图z l 本体谣肖栈 0 w l 全称w 曲o n t o l o g yl 棚g i l a g c ,熄w 3 c 推荐的语义互联网中本体描述语 京的标准。它是从欧美一些研究机构的种络食性的描述语言d a m l + o m 发展起 来的,其中洲l 来自美国的提案d a m k m 盯,o l l 来自欧洲的一种本体描述 语言( 二者在上文都有介绍) 。在w 3 c 提出的术体语言栈中,o w l 处于最上层, 如图2 1 所示。作为r d f 的扩展,目的是提供受多的原语支持更加丰富的语义表 达,麓好的支持推理。 0 w 毛裁够焉手溘糍豹表达词汇表中豹蠲条豹禽义获及这些词条之蠢魏关系。 露逸释辩锈蔫帮它织之窝关系熬表这形式裁称免零俸。秘对予x m l 、鞠f 窝r d 憨 来讲,o w l 据有更多的机制来表达语义。 o w l 的基本语法在w 3 c 上有详细的糖述,零文用到的语法如表z 2 所示: 基于本体的异构数据集成系统的设计与实现 系。 表2 2o l l 基本语法 标签 含义 d w l :o n t o l o g y 声明本体描述 o w l :n i n g 内置的公共类,为所有类的父类 o w l :a a 鹞 定义一组共享了某些相同属性的个体 o w l :鲫b a a 豁0 f 定义一个类是另一个或多个类的子类 o w l :o b j e c t p p e n y 属性被声明为对象类型的属性 o w l :d a l a t y p e p f o p e n y属性被声明为数据类型的属性 r d f s :d o m a i n 一个属性的d a i l l 是能够应用该属性的个体集合 r d f s :m g e一个属性的瑚g e 是该属性所必须有的值的个体的集合 f d f s :i d 声明所描述的概念的名称 通过使用以上的这些语法标签,能有效的表达本体中的概念及其概念之间的关 2 3 本章小结 本章首先介绍了异构数据集成的基本概念,包括数据的异构性和数据集成的 概念及形式化定义,然后介绍了本体的特点和在数据集成系统中的应用,最后对 本体描述语言进行了介绍。 通过以上相关技术的介绍,为后面讨论的系统体系架构及关键技术实现做了 准备。在后面的章节中将详细讨论这些技术在系统设计中的具体应用。 第三章系统总体架构 第三章系统总体架构 3 1 现有数据集成系统架构 本节首先介绍了现存的几种典型的数据集成架构,然后分析了各自的优势和 缺点。 3 1 1 联邦数据库 联邦数据库系统:是数据库集成的最简单结构【”】。它的构成方式是将所有组 件数据库进行一对一的连接,这种方式的数据集成是一个n 维问题。如果存在n 个数据库,则每个数据库都需要与其它n - 1 个数据库实现互操作,即如果你有n 个不同的系统或数据源需要集成,你就需要建立n ( n 1 ) 个不同的数据交互接口( 接 近n 的二次方) ,开发者就必须编写n ( n 1 ) 段代码来支持两两之间的查询访问。对 于大的公司,n 可能上百位,则n 的二次方则会超过1 0 0 0 0 0 ,这看起来是个不可 能的问题,所以联邦数据库集成系统适合于自治数据库的数量比较小的情况。 联邦数据库系统的体系结构如图3 1 所示: 图3 1 联邦数据库体系结构 根据对联邦数据库的控制及操作方式,可以将联邦数据库分为松耦合联邦数 据库和紧耦合联邦数据库。松耦合联邦数据库没有全局数据模式存在,用户必须 通过特定的多数据库操作语言及自己对联邦的定义、维护来实现数据运营,这样 联邦数据库中的各数据库就更具有自治性。紧耦合联邦数据库拥有全局数据模式 和全局数据库管理员,由管理员负责创建和维护全局数据模式,并向用户提供统 一的数据操纵接口,由于全局模式要解决逻辑上的异构,就需要领域专家决定数 据库模式间的对应关系,所以不易增加删除系统中的数据库。根据全局模式的数 l l 基予本体豹舅构鼗蠡嶷残聚统斡黉诗与实瑗 爨荀滋将紧耩会联莛鼗撵潦势兔鼙联籁数鬟瘴秘多联努数攮津。攀联邦数鬃黪哭 有一个惫局模式存在,瑟多联邦数猴簿燹| j 以海不同蘧产群建立多个全局模式。 3 + 董。2 潮i 蛾獭弹e r 方式 m c d i a t o r 删糟p p c r 方妓本身魑一种软件构件,通过提供所有髯构数据源的艘拟 视图进行集成。数据源可以是数据摩、遗留系统( 1 e g 托ys y s t 锄) ,e b 数据源蒋。 这种集成方式本身并不存储任何实际数据。系统提供给用户一个众局模式( 也称 鸯措秘i 鑫妇模式) ,薅户锋对全籁骥泼提交套询蠢不登知道数据源瓣佼鬟、摸斌秘 访薅方法,系统跨麓产套弼魏译戴一全或多个辩数据添熬查诲。然爱将数蘩溪魏 套诲臻枣奄进霉综台憝理,弗将它遨涎绘震户。孛套系统孛豹数撵澈楚完全蠡浚豹, 霉戮嚣爨缝瑶簇测豫数攒滁。孛分慈绫一敷囊一令孛套器移多令镪液器& 髓粥疼 缀或。包装器焉予将数据源豹数攥转换为集成系统可默整理静浆转绉 勾纯麓数据。 孛余器麓葫莸是分辑锋对念局壤式熬焱询,分辫淹子查诲,势褥宅们转羧隽赞霹 籀寝数器滚静查诲,最鬓会势耩餐鼗攥漂懿缭祭逐嚣绘矮户。 中介系统的体系结构如图3 2 所涿; 豳3 2 中介宵妓数据集成系统体系结构 3 1 。3 数攥仓窿方式 渡方法需要建立一令襻德数攒麓会瘴瑟,褥寒鑫多令数箨潦瓣数攒裁零熬存 姥袭零一藜蒙据疼孛,鑫羽隗积瓣薅l 渤s 热黼,l 稍棼工其定期靛数撵滚遥滤数撵, 然嚣装藏到数撂仓痒,骰糟产套谗。苓足之娥簌予数据仓瘴中静数糕在菇镛之藏 要经过一定鹃簿选处理,瓣整数攘众蓐还嚣黉定麓更薪,所 ;髑产粪通戴麴数撵 爵戆攀是最叛蠡馨。 第三章系统总体架构 图3 3 数据仓库方式体系结构 3 1 4 几种集成方式的比较 以上三种集成方式各有优劣。联邦数据库方式构造简单,但是对于处理数据 源数目比较多的情况就会遇到困难,需要定制大量的代码去支持各个数据源之间 的交互。对于第二种方式即中介方式,优点是支持大量的数据源,理论上对数据 源的数目没有限制,但是系统的结构比较复杂,系统的内部处理算法也较复杂。 对于数据仓库的方式,适用于数据模式稳定、数据实时性要求不高的情况,对于 需要实时性要求较高,且数据源结构变化较快的情况就不适用了。 因此从上面的比较来看,以上三种体系结构有各自的优势,也有相应的缺点。 只有根据应用的要求和特点选择最适合的体系结构才能满足具体应用要求。 3 2 原型系统体系架构设计 本文中提出的原型系统体系架构要求适应各种异质数据源的集成,并且能够 快速灵活的应付数据源的变化。在综合考虑上述的各种数据集成体系结构特点的 基础上,本文采用m e d i 砷椭p p c r 的方式构建数据集成系统,并将本体作为一种 工具引入到系统中,利用本体在描述语义上的优势解决数据集成中的语义异构问 题。系统分为接口层、中介层和数据源层,采用全局本体描述数据集成系统的全 局模式,局部本体描述数据源模式,并增加了表示从局部本体到全局本体的映射 规则库。原型系统的体系结构如图3 4 所示: 1 6 基于本体的异构数据集成系统的设计与实现 图3 4 系统体系架构图 系统分为三层;接口层、中介层、数据源层。 接口层:该层位于系统的最顶层,直接与用户交互。主要包括两个部分;查询 接口和显示界面。查询接口提供给用户输入查询语句,本系统将采用文献【2 1 提出的树形查询语言o q u o n t o l o g ) ,q u e r yl 彻g l i a g c ) 进行查询。查询是基于全 局本体所描述的全局模式的,因此用户不必关心底层数据源的分布情况和数据 模式的差异。查询语句由中介层进行处理,查询结果将被返回到显示部分,按 照用户的需求显示在界面上。 中介层:该层是系统的核心部分,处理查询语句的解析、查询的分解、查询计 划的执行和查询结果的生成。该层接受接口层提供的规范的查询语句,并根据 全局本体和局部本体的映射规则对查询语句进行分解,最终生成面向各个局部 数据源的子查询。下面详细介绍该层中的各个部分: 查询语句解析器 o q l 语言的查询变量之间的父子关系将所有的查询变量组织成一棵查 询树。查询解析器负责将查询语句解析为查询树。该查询树每个节点都包 含查询变量名称以及该查询变量对应于全局本体中的概念。得到的查询树 是全局本体的一个局部视图。详细的内容将在第四章和第五章讨论。 查询计划产生器 通过对查询树的解析,利用全局本体和局部本体之间的映射关系,将 第三章系统总体架构 1 7 针对全局本体的查询,分解为对局部数据源的子查询。各个子查询组成了 全局查询的查询计划。 查询计划执行引擎 执行引擎将各个子查询分派到局部数据源的w h p p 盯上执行,并将各个子 查询的查询结果进行联接( 子查询之间通过键连接) ,最后生成查询的中间结 果。 结果处理 结果处理部分对生成的中间结果进行清洗和过滤。包括:去掉重复结果, 去掉相互矛盾的部分等。经过结果处理后的数据是更贴近用户需求的,更规范 的数据。 数据源层: 该层是系统的最底层,负责和具体的数据源交互,它为上层提供了规范的数 据源查询服务。查询计划执行引擎通过调用该层提供的查询服务来执行子查询。 由于数据源的多样性,包括结构化、半结构化文档、关系型数据库和对象数据库 等,为了屏蔽各个数据源的差异,本文采用w | a p p 盯对数据源进行封装。w m p p c r 是和具体数据源相关的数据集成组件。每个数据源对应一个w m p p 盯,不同类型数 据源上的w m p p c r 在子查询的处理上存在差异。通过对数据源的包装,为上层提 供了一致的、规范的o q l 查询服务。w m p p c r 根据局部本体和数据源模式的映射 关系,将o q l 子查询翻译成和具体数据源相关的查询语言。例如,对于一个x m l 文档数据源,w m p p 盱将o q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论