(计算机应用技术专业论文)基于本体的数据集成及其应用.pdf_第1页
(计算机应用技术专业论文)基于本体的数据集成及其应用.pdf_第2页
(计算机应用技术专业论文)基于本体的数据集成及其应用.pdf_第3页
(计算机应用技术专业论文)基于本体的数据集成及其应用.pdf_第4页
(计算机应用技术专业论文)基于本体的数据集成及其应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的数据集成及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河北科技大学学位论文原创性声明 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 i l l i l i i l i l i i i l i h l i l l l uri y 1714 4 6 2 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发 表或撰写过的作品或成果。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:後指导教师签名: 下乙叁每 伽口年岁月珈日矽,口年岁月岁。日 河北科技大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权河北科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 口保密,在一年解密后适用本授权书。 本学位论文属于 耐不保密。 ( 请在以上方框内打“”) 学位论文作者签名:寺敛 指导教师签名: p 叁布 7 j o 年王日e b 年s 只7 矗r 摘要 摘要 随着计算机技术的发展与广泛应用,许多企业在其建设的过程中需要将一些分布 的、异构的数据根据应用需求集成起来,以实现数据共享。传统的数据集成方法常 常忽略了对数据的形式化语义的描述,使得集成过程中的语义失配问题得不到解决。 本文主要的研究内容就是利用本体,来探讨一种解决语义异构、实现信息集成的方 法。 本文探讨了信息集成中的方法和技术,指出语义异构问题是当前异构数据集成 的主要问题。通过对现有数据集成方式的分析,结合w r a p p e r m e d i a t o r 和扩展的混 合本体方法,利用本体技术,设计了科技信息集成框架( s i i es c i e n t i f i ci n f o r m a t i o n i n t e g r a t i o nf r a m e w o r k ) 的三层体系结构,包括应用层、查询处理层、信息资源层。通 过采用x m l 作为中间统一语言,将底层数据源转化成x m l 的数据模式进行集成, 以x m ls c h e m a 作为基础模式进行构建本体,屏蔽了底层数据源语法的异构性。凭 借本体在领域概念描述上的优势,利用o w l 本体语言对本体进行描述,构建全局本 体、局部本体以及定义全局本体与局部本体、局部本体与数据源之间的映射规则, 从而解决信息集成中的语义问题。 文章首先介绍了信息集成的理论和技术,接着对本体的基本概念及其相关理论 进行了阐述。随后着重对科技信息集成框架各层次的功能进行了介绍,并分析了该 框架的特点。对实现科技信息集成框架的关键技术进行讨论,以科技信息的具体记 录作为实例详细介绍了系统对于信息集成的过程。 文章最后介绍了s i i f 系统原型实现,并在此基础上对原型系统进行了测试,从 而验证了基于本体的科技信息集成框架的可行性。 关键词本体;语义异构;本体映射;信息集成 a bs t r a c t w i t ht h ed e v e l o p m e n ta n da p p l i c a t i o no fi n t e m e ta n dd i s t r i b u t e d ,l o t so f e n t e r p f i s e s i nt h e i rc o n s t r u c t i o np r o c e s s ,d e m a n dt oi n t e g r a t et h ed i s t r i b u t e da n dh e t e r o g e n e o u sd a t a t or e a l i z ed a t as h a r e t h et r a d i t i o n a li n t e g r a t i o nm e t h o dc a nn o td e s c r i b et 1 1 es e m a n t i co f d a t af o r m a l l y ;a sar e s u l t ,t h ep r o b l e mo fs e m a n t i cm i s m a t c hc a r ln o tb er e s o l v e di nt h e p r o c e s s i n go fi n f o r m a t i o ni n t e g r a t i o n t h em a i nc o n t e n to ft h i sp a p e ri st ou s eo n t o l o g y t e c h n o l o g y t od i s c u s sam e t h o dt o r e s o l v es e m a n t i ch e t e r o g e n e o u sa n da c h i e v i n 2 i n f o r m a t i o ni n t e g r a t i o n t h i sp a p e rd i s c u s s e st h em e t h o d sa n dt e c h n i q u e so fi n f o r m a t i o n i n t e g r a t i o n a n d p o i n t s o u tt h a tt h eh e t e r o g e n e o u s p r o b l e m o fs e m a n t i ci st h em a i n p r o b l e mi n h e t e r o g e n e o u sd a t ai n t e g r a t i o n t h r o u g ht h ea n a l y s i so f e x i s t i n gd a t ai n t e g r a t i o na p p r o a c h a n dc o m b i n eo fw r a p p e r m e d i a t o ra n de x p a n s i o no f h y b r i do n t o l o g ya p p r o a c h ,t h es i i f h a sb e e nd e s i g n e d ,i n c l u d i n gt h ea p p l i c a t i o nl a y e r 、t h eq u e r yp r o c e s s i n gl a y e ra n dt h e r e s o u r c el a y e r b yu s i n gx m la st h eu n i l y i n gl a n g u a g e ,t h ep a p e rb u i l d st h el o c a l o n t o l o g yf r o mx m ls c h e m a ,w h i c hc a ns o l v et h ep r o b l e m so fs y n t a xh e t e r o g e n e i t v w i t h t h ea d v a n t a g e so fo n t o l o g yi nd e s c r i b i n gt h ed o m a i nc o n c e p t s ,t h ep a p e rd e f i n e s2 l o b a i o n t o l o g y , l o c a lo n t o l o g y , t h eg l o b a lo n t o l o g ya n dl o c a lo n t o l o g ym a p p i n g ,l o c a lo n t o l o g y a n dd a t as o u r c em a p p i n gb yu s i n go n t o l o g yt or e s o l v es e m a n t i cp r o b l e m si ni n f o r m a t i o n i n t e g r a t i o n t h i sp a p e rf i r s td e s c r i b e st h er e l e v a n ti n f o r m a t i o ni n t e g r a t i o nt h e o r ya n d t e c h n o l o g y , a n de x p o u n d st h eb a s i cc o n c e p to ft h eo n t o l o g ya n di t sr e l a t e dt h e o r y t h e nf o c u s e so n i n t r o d u c i n gs i i fi na 1 1l e v e l sf u n c t i o n ,a n da n a l y s e st h ea d v a n t a g e so ft h e 胁m e w o r k d i s c u s s e st h ek e yt e c h n o l o g i e sf o ra c h i e v i n gs i i f , a n di n t r o d u c e st h es y s t e mi n f i o m a t i o n i n t e g r a t i o np r o c e s sb yu s i n gt h es c i e n t i f i ci n f o r m a t i o nr e c o r d s 1 1 1t h ee n d ,t h ea r t i c l ed e s c r i b e st h ep r o t o t y p ei m p l e m e n t a t i o no f s i i f , b a s e do nt h i s t h ep r o t o t y p es y s t e mh a sb e e nt e s t e dt ov e r i f yt h eo n t o l o g y b a s e ds c i e n t i f i ci n f - o n n a t i o n i n t e g r a t i o nf r a m e w o r kf e a s i b i l i t y k e yw o r d s :o n t o l o g y ;s e m a n t i c h e t e r o g e n e i t y ;o n t o l o g ym a p p i n g ;i n f o r m a t i o n i n t e g r a t i o n i i 目录 目录 摘要i a b s t r a c t i i 目录i i i 第1 章绪论1 1 1 课题的研究背景及意义1 1 2 信息集成领域的研究现状2 1 3 数据集成研究中的关键问题5 1 4 课题研究的内容及主要工作5 1 5 论文的组织结构6 第2 章数据集成及其相关技术7 2 1 异构数据集成一7 2 1 。1 数据的异构性一二7 2 1 2 异构数据集成定义及目标8 2 2x m l 技术“8 2 2 1x m ls c h e m a o 8 2 2 2 x m l 查询语言x q u e r y 9 2 3 本体的概念及理论9 2 3 1 本体的概念| :9 2 3 2 本体的建模原语一11 2 3 3 本体的描述语言1 l 2 3 4 本体的开发工具“1 3 2 4 本章小结1 5 第3 章基于本体的科技信息集成框架( s i i f ) ”1 6 3 1 信息集成体系结构总体要求1 6 3 2 基于本体的s i i f 总体结构1 6 3 3s i i f 系统各层功能分析2 0 3 3 1应用层2 0 3 3 2 查询处理层2 0 3 3 3 信息资源层”2l 3 4 系统结构的特点2 2 3 5 本章小结2 3 第4 章s i i f 信息集成的关键技术2 4 i i i 河北科技人学硕十学位论文 4 1s i i f 信息集成的本体构建2 4 4 1 1 本体构建原则2 4 4 1 2 数据源及其模式2 5 4 1 3 本体的形式化表示2 8 4 1 4 局部本体的构建”2 8 4 1 5 全局本体的构建3 1 4 2s i i f 信息集成的本体映射3 5 4 2 1映射的方式和涵义3 5 4 2 2 局部本体到数据源的映射实现一3 6 4 2 3 全局本体到局部本体映射的实现”3 8 4 2 4 映射对于解决语义冲突的意义4 1 4 3 全局查询与查询分解4 3 4 3 1生成全局查询4 4 4 - 3 2 查询分解4 5 4 4 包装器4 8 4 5 本章小结4 9 第5 章s i i f 系统的实现5 0 5 1 设计背景5 0 5 2 系统的开发环境5 0 5 3 系统关键模块的实现5 1 5 3 1 本体的构建5 1 5 3 2 系统的推理引擎5 2 5 3 3 本体服务器的实现一5 2 5 4 用户应用界面5 4 5 4 本章小结5 6 结论5 7 参考文献5 9 攻读硕士学位期间所发表的论文”6 2 致谢,6 3 i v 第1 章绪论 第1 章绪论 1 1课题的研究背景及意义 随着信息系统的广泛应用和互联网技术的发展,有很多的企业已经实现了企业 信息的计算机管理,并在企业的发展中逐渐积累了大量的数据。这些数据既包括企 业内外的一些传统关系数据库中的结构化数据,也包括像x m l 、h t m l 文档等半结 构化数据,以及图像、视频之类的非结构化数据。这些分布在各处的数掘资源,在 起初设计时主要都是为了满足各自的需求、在不同时期、在不同的软硬件平台上、 用不同的数据模型所形成的异构数据。由于这些异构数据难以集成和共享,使得各 个数据源之间的互操作变得十分困难,无法实现信息的共享和有效利用,从而成为 “信息孤岛”【1 1 。而且随着企业的不断发展,加之市场和客户的需求的不断变化,企 业继续不断增加着各种数据库和应用系统。同时,存储在各种信息系统中的信息资 源通过网络彼此之间互联,形成了e 大的网络信息空间,空间中的信息量大、异构 性强、内容动态变化和信息源分布自治等特点【2 3 】。使得大量的信息无法被有效的识 别和利用而成为“信息海洋”。如何在“信息海洋”中快捷、准确的获得人们所需要 的数据,已经成为目前信息集成面临的重要问题。 针对上述情况,数据集成系统为企业解决多结构、多应用、多语义数据的集成 的问题提供了一条很好的解决的途径。企业通过这样一个信息集成系统,可以把内 部的各种信息和业务资源进行整合,为企业的决策提供及企业之间业务合作提供支 持。 异构数据集成的目的( 4 ,5 】就是提供一个统一的查询接1 :3 ,对于底层数据源的不同, 进行屏蔽,这样一来使得用户在提取所需要的信息时,就不用再去考虑底层数据源 的数据模型、物理位置以及语义异构等问题,能够为用户提供一个统一的查询界面, 用户通过这个界面就可以实现对分布的异构数据源的灵活访问。这样的系统为用户 提供了模式的转换和集成、对底层资源的全局查询处理等功能,并将从底层数据源 查询到得数据以一种统一的方式返回到查询界面,反馈给用户。这样一来就使得用 户对多数据源的各种操作,感觉就像对单独的数据源操作一样的简单。其中的关键 问题就是怎样以一种统一的数据模式来描述各种数据源中的数据,屏蔽这些数据资 源在平台、数据模式和语义等方面的异构性,实现数据的无缝集成。 解决异构数据信息的集成与共享,能够使企业之间以业务为核心的信息系统的 运行步伐大大加快,形成更加高效的有机整体,提高企业各种业务的处理速度和企 业高层决策能力,能够加强企业之间的交流和合作,为企业的进一步发展打下基础。 河北科技人学硕十学位论文 1 2 信息集成领域的研究现状 数据集成技术的研究开始于上世纪七十年代中期,到现在已经有三十多年了, 当初开始的时候只是多数据的集成,而现在已经发展到对异构数据的集成,数据集 成的范围和其产生的作用影响都在不断的扩大。对数据集成进行研究的科技人员也 在不断的增加。由a m i tps h e t h 提出了数据集成的发展可大约分为三个阶段【6 】: 上世纪7 0 年代8 0 年代中期:这个时期中,数据集成技术正处于萌芽时期,诞 生的集成技术主要有多数据库系统和联邦数据库系统,这些技术的产生,主要是为 了能让不同软硬件设备的计算机系统彼此之间进行互联通信,只在一定程度上解决 结构异构和语法异构,从而实现数据模式、地理分布等的透明性,其中的主要产品 有u n i s q l m ( u n i s q l ) 、d a t a j o i n e r ( i b m ) 、o m n i c o n n e c t ( s y b a s e ) 。 上世纪8 0 年代中期一9 0 年代中期:在这个时期中,由于i n t e m e t 和数据库技术 的快速发展,多种类型的数据形式的出现,相继出现了一些支持多种类型数据集成 的数据集成技术,比如m e d i a t o r 、m e t a d a t a 、中间件等,这其中也不乏出现一些比较 优秀的集成系统,如g a r l i c 、s i m s 、i n f o s l e u t h 、h e r m e s 等f 8 ,9 】。 上世纪9 0 年代中期现在:这个时期中,由于人们对资源的有效性和价值性要 求的不断提高,使得对语义异构的解决变成数据集成的过程中比较重要的问题,研 究者开始利用更多的知识领域相关技术,如本体技术,主要应用有数字图书馆、信 息智能集成技术等。 综合这三个发展阶段,出现的信息集成技术主要有三种体系结构:联邦数据库 系统、数据仓库系统、m e d i a t o r w r a p p e r 系统。 ( 1 ) 联邦数据库系统早期的数据集成技术主要采用联邦数据库系统【1 0 ,此系 统是将所有的数据源都放入一个单一的集成环境中。这些数据源往往是一个个的半 自治的数据库,它们在这个集成环境中相互之间可以分享数据,而且每两个数据库 之间都提供相应的接口,同时,联邦数据库系统可以是集中的,也可以是分布式的 或者是其他方式的。这种数据集成系统可以在一定程度上对信息进行集成,但是构 建这样一个集成系统所需时间较长,对主机配置要求很高,而且在增加数据源时需 要编写大量的接口,对系统的维护也需要涉及整个信息集成系统。联邦数据库系统 结构如图1 1 所示。 ( 2 ) 数据仓库系统数据仓库法又叫物化法【l l 】,此方法需要先建立一个数据仓 库,将从底部多数据源中获取的数据副本存储到其中,然后定期由 e t l ( e x t r a c t ,t r a n s f o m ,n o a d ) i 具从底部的数据源抽取、过滤数据,然后存储到数据 仓库中,用户就可以直接从数据仓库中查询数据。 这种方法主要是应用于企业某一个领域的信息集成,对用户查询的反应速度比 2 第1 章绪论 较快。在数据源数据不很多而且数据变动不频繁的情况下,应用十分的有效。而在 面对海量数掘,而且数据变化频繁的时候,对数据的抽取和转化就变得十分的费力 和复杂,此时,数据仓库法的不足就变得很明显,尤其是在现在信息量成指数增长 的时代。数据仓库系统体系结构如图1 2 所示。 图1 1联邦数据库系统结构 f i g 1 1 f e d e r a ld a t a b a s es y s t e ms t r u c t u r e 图l - 2 数据仓库系统的体系结构 f i g 1 - 2 d a t aw a r e h o u s ei n t e g r a t i o ns y s t e ms t r u c t u r e ( 3 ) m e d i a t o r w r a p p e r 系统m e d i a t o r w r a p p e r 也成为中间件方式 1 2 1 是现在 建立数据集成系统的一种比较流行的方法。此种方法允许有多种数据源,可以是传 统的数据库,也可以是w e b 数据源,或者是遗留系统等。它的原理是利用一个全局 3 河北科技大学硕士学位论文 模式和与具体数据源对应的局部模式来集成数据。通过一个m e d i a t o r 中介器和 w r a p p e r 包装器来转换用户的查询语句,将其转换为一个统一的规范格式。这种数据 集成系统是借助一个中介系统将各数据源的数据集成起来,而用户所查询的数据仍 然存储在局部的数据源当中,包装器用来将数据进行处理使其符合中介系统的模式。 用户在此系统进行查询,不需要知道每个数据源的特点,中介器会将用户的查询转 换为基于各局部数据源的模式查询,最后查询引擎将各包装器查询到得结果抽取出 来,再由中介器对结果进行处理并返回给用户。m e d i a t o r w r a p p e r 方法对于数据的频 繁更新能做到及时操作,能很好的弥补数据仓库系统的不足。m e d i a t o r w r a p p e r 系统 体系结构如下图1 3 所示。 图1 - 3m e d i a t o r w r a p p e r 系统体系结构 f i g 1 - 3m e d i a t o r w m p p e r es y s t e ms t r 1 1 c n l r e 近些年来,国内的很多学者和科研机构也对数据集成技术做了很多研究,并且 取得了很好的成果。其中,东南大学研究的v e r s a t i l e 系统和华中科技大学的p a n o r a m a 的系统都在数据的虚拟集成方面获得了很大的成果。v e r s a t i l e 1 3 】是一个基于c o r b a 的分布式异构数据源集成系统,应用一种新的“即插即用的方式将不同数据源的 数据进行集成,它的一大特点就是以应用对象集成模型作为一种数据集成的公共模 型,可以将数据存储在各个底层数据源中,利用一种统一的模式对数据进行查询。 从对以上的数据集成方法学习和比较之后可以看出:m e d i a t o r w r a p p e r 系统体系 结构的数据源比其他方法更广泛,可以是数据库,也可以是半结构化的x m l 数据等, 且对数据源的动态增加和删除操作都比较容易。对数据源的查询也是即时的,对于 用户提交的全局查询,可以通过中介系统动态分解成为基于数据源局部模式的子查 询,中间件通过包装器获得数据,经过整合后返回给用户,这样一来,用户接受到 4 第1 章绪论 得结果将是最新的。鉴于m e d i a t o r w r a p p e r 系统的以上特性,本设计也将采取这种 方式来构建数据集成系统。 1 3数据集成研究中的关键问题 尽管m e d i a t o r w r a p p e r 系统结构可以很好的解决数据源增删和数据实时性的问 题,但是从这几种数据集成的方式可以看到,它们只是注意了数据的“外部”特性, 包括硬件与操作系统的异构的问题,各种数据源的数据模式的异构以及语言和数据 的表示不同所产生的语法异构问题。但是却忽略了数掘本身的“内部”特性。用户 在使用这些信息集成平台的时候,得到的有效的信息往往很少,查询出来的数据很 大一部分都不是用户感兴趣的或者是想要的。原因何在? 其主要原因是这些数据集 成系统在设计时只考虑到了数据的语法以及数据结构方面,而对于语义异构这样一 个十分重要的方面却没有得到有效的解决。虽然w e b 技术的发展,为我们带来了 x m l 这样一个扩展性和灵活性都很好的半结构化语言,而且现在也成为i n t e r n e t 上 文档内容和结构的标准语言,使得x m l 能较有效的解决不同系统和数据源之间异构 数据的交换和共享问题【1 4 1 。但是它仍然不能有效的清楚表达语义信息。例如,有的 科技信息系统用 p e t t e r 来表示p e t t e r 是作者,而有的信息用 p e t t e r 来表示p e t t e r 是作者,虽然数扼源中的元素命名是不同的,但 是他们却拥有相同的含义。再给出一个实例,比如两个医院都有 p e t t e r 这样一个数据资源,但是却不知道它要表示的意思是p e t t e r 是个医生还是p e t t e r 是个博士。这就是个同名异义的例子。现在x m l 技术已经广泛 的应用,但是对此类语义问题还不能很好的解决,这就大大降低了信息集成的收效。 本体对于信息的语义能够很好的表达,能够较准确的描述概念及概念间的内在 关联,具有很强的获取知识的能力,对于数据集成中的结构和语义冲突问题也能很 好的解决,克服了基于结构的异构数据集成系统所存在的不足。因此,本文着重研 究利用本体来解决数据集成当中产生的语义异构的问题,对异构数据进行集成。 1 4 课题研究的内容及主要工作 本文对信息集成的方法进行了深入的研究,经比较后总结了优点和不足之处, 借助本体和x m l 得优势,弥补了信息集成系统的一些不足,设计并实现了一个基于 本体技术和x i v l l 技术的数据集成模型,从而更好的支持领域信息的共享与互操作问 题,用户可以通过这样一个透明的应用环境,体验到高效的信息服务。具体的讲, 本设计主要包含以下几个方面的工作。 1 ) 对现有信息集成方法进行研究、比较,分析异构数据源中存在的系统异构、 语法异构和语义异构,提出了基于本体技术的信息集成方法。 2 ) 总结了本体在信息集成应用领域上的优势及基于本体的三种信息集成方法: s 河北科技大学硕十学位论文 单本体、多本体、混合本体方法。通过对这三种方法优劣方面的研究,总结一种扩 展的混合本体数据集成方法。在此基础上提出基于本体的科技信息集成框架s i i f , 并对其三层模型进行设计,达到对异构科技信息的集成的目的。 3 ) 针对本体的构造和本体映射关系建立的问题进行研究,包括全局本体构建方 法和从数据源中抽取局部本体的方法以及数据源到局部本体、局部本体与全局本体 映射规则方法的建立,其中重点研究了局部本体构建和本体映射规则建立的问题。 针对科技信息的特点,在现有映射技术的基础上,讨论了一种基于路径模式的映射 方法。 4 ) 对科技信息集成框架进行具体的构造,能初步实现一个数据集成的原型系统。 1 5 论文的组织结构 第1 章绪论,对国内外信息集成技术现状进行了分析,并进行比较。阐述了 信息集成系统中被忽略的一个问题语义异构问题,接着把本体的概念首次引入 了文章,并对其进行简单说明。 第2 章数据集成的相关概念和技术,剖析了数据的异构问题,从几个方面做 出了具体的说明。详细介绍了本体的相关知识,包括有本体的概念、建模原语、描 述语言等,也介绍了x m l 技术,为下一章的工作做好理论基础。 第3 章基于本体的科技信息集成框架( s i i f ) ,介绍了基于本体数据集成的优势 及基于本体的数据集成的三种方法:单本体、多本体和混合本体方法。并提出了基 于本体的科技信息集成框架s i i f ,对框架各个部分的构成和功能进行了介绍。 第4 章s i i f 信息集成的关键技术,详细介绍了s i i f 本体构建、本体映射以及 数据处理的过程,作为本文的重点章节,对于s i i f 的建设和处理过程通过实例做了 介绍。 第5 章s i i f 系统的实现,介绍了系统开发环境、本体构建工具、以及其中重 要的类及方法的实现并对系统的应用界面进行了介绍。 第6 章总结,本章对本文的工作进行了归纳和概括,并提出了工作中需要进 一步完善和改进的地方。 6 第2 章数据集成及其相关技术 第2 章数据集成及其相关技术 数据集成不是仅仅将数据简单的组合起来,而是将一个个数据源通过一定的手 段按一定的组织规则整合成为一个整体,使得用户可以对其进行透明和有效的访问。 要实现异构数据的集成,就要屏蔽数据间的各种差异,使集成后的数据让用户使用 起来感觉是无差异的。 2 1 异构数据集成 2 1 1 数据的异构性 数据异构具有很丰富的概念,是很多数据集成系统需要解决的一个重要问题, 也成为许多研究者的研究热点。数据源的异构按异构方式的不同,可以分为系统异 构、语法异构、语义异构等【1 5 j 。 系统异构就是指存储数据的系统之间的差异。包括硬件平台、操作系统、开发 语言、网络平台的不同。比如,数据可以分别存储在大型机、工作站、p c 或是嵌入 式系统中。操作系统可以是u n i x ,w i n d o w sx p ,l i n u x 等。系统的开发语言又可以 是j 筒淞,c ,c + + 等。网络平台也可以分为e t h e m e t ,f d d i ,a t m ,t c p i p 等。 语法异构是指数据源的不同的数据模型,由于现在的存储设备很多,而各个厂 家对存储数据的模型又不同,主要有关系模型、网状模型、层次模型等。即使是相 同的数据模型之间,比如现在广泛应用的s q ls e r v e r 和o r a c l e ,所采用的数据类型 也有差异。 语义异构是指不同人对系统数据的不同解释就会造成语义异构。本文主要研究 的就是语义异构的问题,这其实也是人们对同一事物理解不同造成的,语义异构通 常有以下几种形式【l6 j : 1 ) 命名异构:包括同名异义和异名同义两种异构方式。同名异义就是不同的数 据源用相同的词汇来表达不一样的意思。异名同义就是不同的数据源用不同的词汇 表达一样的意思。前一章已经给出了两种方式的实例。 2 ) 格式异构:各数据源用不同的属性层次、计量单位等来表达相同的信息,例 如说一个学生的成绩如何,有的学校用“优”、“良”、“中”、“差”来区分,有的则 用“甲 、“乙”、“丙”、“丁”来区分。 3 ) 外延异构:各数据源中相同词汇包含意义的范围不一样。如移动通信设备, 有的数据源就仅指手机,有的则含有笔记本电脑等。 4 ) 混淆冲突:由于词汇所表达的意思不明确,从而造成异义。比如说问候语: 最近你好吗? “最近 指的是多久,是一星期,一个月或者其他时间。这就使得人 7 河北科技大学硕士学位论文 们有不同的理解。 2 1 2 异构数据集成定义及目标 当人们越来越要求从数据中得到更多有用的价值时候,对数据的集成就开始了。 数据集成这个概念也渐渐有了它的丰富含义。在文献【1 7 】中,对数据集成给出了形式 化的定义说明:一个数据集成系统可以形式化定义为一个三元组,= g ,s ,胗,其 中:g 是全局模式,s 是数据源模式,m 是全局模式和数据源模式的映射关系。 数据集成的目标就是使各异构的数据源中的数据能够共享,能够有效的利用数 据资源,提高整个系统的处理数据的性能。具体来说就是要达到两个方面的目标: 一个是分布的透明性另外一个是异构数据源的透明性。这里的透明指的是将处理数 据的各种细节都屏蔽起来,使用户使用的时候可以将各子系统看成是一个整体的无 缝集成的系统。 2 2x 加。技术 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是w 3 c 组织于19 9 8 年2 月发布的一种在w e b 上表示信息的标准文本格式【1 8 】。作为s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ) 的简化子集,x m l 通过自我描述的方式对数掘结构进 行定义,既能描述数据,又可以突出对数据的结构的描述。它具有数据重用、可扩 展性、语义信息子描述性等优点,适合用来表示各种信息,因此可以比较有效的解 决不同应用系统、不同数据源之间的数据交换和共享问题【1 9 】。本文将使用x m l 作为 中间统一语言,在x m ls c h e m a 统一模式上进行本体构建,采用x q u e r y 语言作为查 询语言,下面对这两种技术进行介绍。 2 2 1x m ls c h e m a 2 0 】 x m l 是w e b 上进行数据交换的标准格式。它的结构信息是通过文档类型定义 ( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 来描述的。作为描述x m l 文档结构的一种方法【2 l 】, d t d 制定了x m l 文档中的元素和属性,以及出现的位置和次数。但是对于要定义 数据类型信息时,d t d 就变得无能为力。比如x m l 文档中出现的 标记元素, 它就不知道是什么数据类型。这个时候,x m ls c h e m a 的出现解决了这个问题,完成 了d t d 没有完成的工作1 2 2 1 。 x m ls c h e m a 同d t d 一样也是描述x m l 文件的标准,但是其优势在于它也是 一种x m l 文档类型定义语言,可以定义数据类型及各类型间的组织方式。与d t d 相比,x m ls c h e m a 具有可对数据类型进行描述,拥有x m l 命名空间,可继承性等 优势。x m ls c h e m a 具有两种基本约束:内容约束和数据类型约束。前者用复杂类型 ( c o m p l e xt y p e ) 实现,用来规定元素之间,元素、属性和文本之间的各种结构和约束。 8 第2 章数据集成及其相关技术 后者通过简单类型( s i m p l et y p e ) 来实现,规定文本的形式。 2 2 2 x m l 查询语言x q u e r y x q u e r y 2 3 】是x m lq u e r y 的缩写。它是作为一种用于查询各种x m l 数据源的查 询语言,它可以从x m l 文档中定位并提取出来文档的复杂模式,进而将结构重构成 为用户所需要的x m l 结构返回给用户。通过将异构数据源的数据翻译成x m l 文档, x q u e r y 也可以查询异构的数据源【2 4 】。x q u e r y 来源于x m l 的另一种查询语言q u i l t , 但同时x q u e r y 也集多种查询语言的精华于一身,从它身上可以体现出众多查询语言 的优点。 x q u e r y 将查询表示成为表达式,作为一种功能性语言,它有多种不同的表达式, 而且各种表达式还可以进行嵌套用来适应各种不同场合。x q u e r y 的表达式主要有以 下几种【2 5 】: 1 ) 构造器( c o n s t r u c t o r s ) 2 ) 路径表达式( p a t he x p r e s s i o n s ) 3 ) f l w o r 表达式( f l w o re x p r e s s i o n s ) 4 1 条件表达式( c o n d i t i o n a le x p r e s s i o n s ) 5 ) 测试或修改数据类型表达式( e x p r e s s i o n s t h a tt e s to rm o d i f yd a t at y p e s ) 6 ) 量词表达式( q u a n t i f i e de x p r e s s i o n s ) 7 ) 包含算子和函数表达式( e x p r e s s i o n si n v o l v i n go p e r a t o r sa n df u n c t i o n s ) x q u e r y 的基础就是上面所列出的一系列表达式,而各种表达式又可以相互进行 嵌套,对子查询也支持。所以x q u e r y 语言是种十分优秀的查询和检索语言。这也 是本文里应用此种语言作为查询语言的一个关键所在。x q u e r y 中具有最强大特性的 是f l w o r 表达式,它包括模式匹配、结果构造和格式选择这三种操作。x q u e r y 和 s q l 比较相似的是它也具有类似s e l e c t w h e r e f r o m 的查询模式,其表达式是由f o r 、 l e t 、w h e r e 、o r d e r 、r e t u r n 关键字组成。其中f o r 子句可以有一个或者多个,起到将节 点绑定到变量的作用;1 e t 可以有一个或者多个,通过它可以将一个值或者变量赋值 到变量上;r e t u r n 是必须的,它定义了要返回值的格式;w h e r e 为可选的,它的结果 为布尔值,通过这个值来判断结果是否需要保留。 2 3 本体的概念及理论 2 3 1 本体的概念 本体( o n t o l o g y ) 是一个源于哲学的概念,原意是关于自然存在以及其本质与事物 规律的学说:“对世界上客观存在物的系统描述,即存在论”。实际是对客观存在这 个概念的一个系统的解释和说明。其应用逐渐变得广泛,在计算机科学中的人工智 9 河北科技大学硕士学位论文 能、信息系统以及知识系统等领域,越来越多的人开始对本体进行研究,并根据当 初研究的情况逐渐引申出了许多类似的含义。然而,由于本体的系统是逐步完善起 来的,最初人们对于本体的理解并不全面和准确,这些定义也随着研究的深入在不 断的发展变化,比较有代表性的定义列表如下表2 1 。 表2 io n t o l o g y 定义演变过程一 t a b 2 - 1o n t o l o g yd e f i n i t i o nd e v e l o p m e n t 范畴 提时间提出人 定义 , 客观存在的一个系统的解释和说明,客观现 哲学 实的一个抽象本质 1 9 9 1 n e c h e s 等给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成的规定这些词汇 外延的规则的定义 计算机 19 9 3 g r u b e r概念模型的明确的规范说明 l9 9 7 b o r s t共享概念模型的形式化规范说明 19 9 8 s t u d e r共享概念模型的f 月确的形式化规范说叫 最后一个由s t u d e r 等人经过深入研究给出的“本体”经典定义:“本体是共享概 念模型的明确的形式化规范说明”【2 6 】,受到人们的接受和肯定,这个定义说明体现 了o n t o l o g y 的四层含义【2 7 】:概念化( c o n c 印t l l a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化 ( f o r m a l ) 、共享( s h a r e ) 。 “概念化”指客观世界的现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论