(计算机应用技术专业论文)基于本体和xml的异构数据集成研究.pdf_第1页
(计算机应用技术专业论文)基于本体和xml的异构数据集成研究.pdf_第2页
(计算机应用技术专业论文)基于本体和xml的异构数据集成研究.pdf_第3页
(计算机应用技术专业论文)基于本体和xml的异构数据集成研究.pdf_第4页
(计算机应用技术专业论文)基于本体和xml的异构数据集成研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于本体和xml的异构数据集成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东师范人学硕士学位论文 基于本体和x 隧l 的异构数据集成研究 摘要 随着w 曲的迅猛发展,因特圈上的资源越来越丰富,已经成为一个巨大的全球化 信息仓库。w 曲上的资源不仅包括传统的有严格数据模型的数据库,如关系数据库和 瑟向对象的数据库,而且还包括无结构和半结构的数据,如大量的h t m l 文档、x m l 文档和文本数据。这些分布在各处的数据资源,在其设计阶段,主要是为了满足各自 的业务需要丽形成的,由于软硬件平静及数据模型的不同而成为了异构数据。异构数 据互相之间难以集成和共享,使各数据源间的互操作变得困难,无法实现信息的共享 和有效利用,从而成为“信息孤岛”。为了更好地利用网络上浩如烟海的信息,人们迫 切需要集成这些地理分布、管理自治、模式异构的数据,因此异构数据集成问题吸引 了众多关注。 在本文中,先全面地分析了现有的数据集成方式,异构数据集成的相关理论翱技 术。然后指出了当i j 异构数据集成的主要问题是语义异构问题。在此基础上提出了一 种基于本体和x m l 的异构数据集成系统模型,用来解决语义异构问题。设计了基予 本体和x m l 的异构数据集成模型,并对模型中的关键模块进行探讨。本体的引入是 蔻了解决异构数据集成中的语义异构。 , 本文的研究主要有以下几点: ( 1 ) 探讨了异构数据集成中的相关理论和技术。分析了现有的数据集成方法, 撰如了当前的数据集成中急需解决语义异构。 ( 2 ) 通过对已有的数据集成系统体系结构的研究,结合x m l 技术、本体技术和 溉bs e i s 技术,提出了一秘基予本蒋和x m l 的舅构数据集成模型。对此模型中 的功能模块给出了详细的描述,并对关键模块进行了测试。 ( 3 ) 采用x m l 作为中闻语言,将各局部数据源数据转化势x m l 数据模式进行 集成,从x m l s c h e m a 上构建局部本体,从而屏蔽底层数据源的语法的异构性。 ( 4 ) 利用本体描述领域概念的优势,采用本体描述语言0 w l 构建全局本体和局 部本体,同时定义了全局本体和局部本体的映射,局部本体和数据源的映射规则;解 山东师范大学硕士学位论文 决数据集成中存在的语义异构问题。 ( 5 ) 将各个异构数据源包装器封装为w r e bs e i c e s ,使系统具有松耦合、灵活、 易扩展的良好特性,能真正实现异构数据源的无缝集成。 ( 6 ) 采用x q u e r y 作为全局模式上的查询语言,容易实现对x m l 数据的查询。 对针对全局模式( 全局本体) 的全局查询语句进行分解,分解为针对局部本体术语表 示的子查询语句。 关键词:数据集成;x m l ;w 曲s e i c e s :本体 分类号:t p 3 1 1 山东师范大学硕士学位论文 黜s e a 薹h 矬耋耋e t e 薹奄g e 建e o 珏sd a 耄鑫i 狂耋e g l 键耄i 8 建 b a s e do no n t o i o g ya n dx m l a b s t l 饿c t w i t ht h er a p i dd c v e l o p m e n lo fw 曲,t h e f ea r em o r ea n dm o 瓣r c s o i l r c e si ni n t e 撇e t w h i c hb e c o m e sal 戤鬈c 雒d 醇曲a li n f o 姗a 专i o nw a r e h o u s e 骶l cf c s o u 溉i nw 曲n o to n l y i n c l u d er c l a t i o n a ld a t a b a s e ,b u ta l s oi n c l u d eh t m ld o c u m e n t sa n dx m ld o c u m e n t s t h e s e s 始l l 碰珏g 羚s o 珏戤s 魏稚堍鼹d e s i 替e d 稔s 采i s 母l kb l | s i 辩s s 翡。d ,a 砖b a 珏s eo f 搬e d i 骶r e n c eb e 咐e e nt h es o f 咐a r ea n dh a r d w a r ep l a t f b 姗 i te x c i t e s h e t e r o g e n e o u s 曲e m e n o 糕捷t h e s ed a t as 。l l 愆e 。l 耋i sh a 越l os 量l a 您a n du s el 耋l e 量l e l e 羚g c 珏e o t l sd a l as o l l f 。 骶l en e e do fs o l v i n gt h ei n t e 黟a t i o np r o b l e mo ft h e s eh e t e r o g e n e o u sd a t as o u 敝b e c o m e s m o r ei m p o r t a n l h o w e v e r t h et r a d i t i o n a ld a t ai n t e 黟a t i o nd o e s n tf i tl h ed e m a n d s o ,l l c w d a t ai n t e g r a l i o ni se x p e c l c dl o 印p c a r t h ep a p e ra n a l y z e dd i 疵r e n tk i n d so fd a t ai n t e g r a t i o nm e t h o d ,r e l e v a n tt h e o r i e sa n d l e c 魏玉略i 铺o f 囊e 轮轮g c 珏c o 毽s 巍堍趣诧g 掇| i o 趣蕤c l l | d e d 魏a 耄l h es e 糖勰i e 纛e l e 羚g e 藏e l y o fd a t as o u r c en e e dt or e s o l v e b a s e do nt h i s ,i no r d e rt or e s o l v et h es e m a n t i ch e t e r o g e n e i t y o fd a l as 0 h 粒e ,ak i n do fl h eh e l e f o g c l l u sd a l ai n l e g r a l i 濑s y s l e 壤瓤l m e w o 呔b a s e do n o n t o l o g y 觚dx m lw a sp r o p o s e d 骶l ek c yt e c h n o l o 西e s :x m ko n t o l o g y a n dw e b s e r v i c e sw e r ed i s c u s s e d n i sp a p e rm a i n l yi m p o r t e dt h ec o n c e p to fo n t o l o g ya n dx m l t o 豫斌i 黯t h ci 嫩e g f a l i 髓o fk 豫静萨n u sd a l a 。 t h em a i na c h i e v e m e n t so ft h i sp a p e rw e r ca sf o l l o w s : ( 1 舯尊愆l e v 鞠l 魏e o 蠢e s 强矗l e c 魏纛o l o 毒e so fh e l e 约g c 珏e o l l s 菇耋a 弧e g 鼹迅nw e 羚 d i s c u s s e d a n a l y z e dt h ea d v a n t a g eo ft h e s et e c h n o l o g i e si nh e t e r o g e n e o u sd a t ai n t e g r a t i o n , n c l u d e dl h a lt h es e m a l l l i c 沁洄o g e n e i l yo fd 破as o u f c es h o u l dt or c ! 沁l v e g ) b a s e d 彻t i l et e c i l i l o l o 西e so fx m lo n t o l o g ya n dw 曲s e r v i c e s ,ak i n do ft h e h e t e r o g e n e o u sd a t ai n t e 笋a t i o ns y s t e m 疳锄e w o r kb a s e d0 no n t o l o g ya n dx m l w a s p 鳓p o s e d 。i l 麓e 纯i l c 珀糕so fc o l 藏p o l 獐l 廷sw e f ed e s i g l l e di 珏d e t a i l ,a n d h e 薹【e yl 鼓o d u l e so fl h e p i o t o t y p es y s t e mw e r et e s t e d 0 ) 曩l ep a p e fu s e dx m ls 醢e m 鑫轮e x p 羚s sl h e 纛鑫as o 珏戳,勰d b 鬏i l l h el c a l o n t o l o g y o mx m ls c h e m a x m lt e c h n i q u e c a ns o l v et h ep r o b l e m so fs y n t a x h e t c r o g c n e i t y ( 4 ) l nl h ep a p e r i td e f i n e dg l o b a lo n l o l o g y ;l o c a lo n t o i o g y ;l h 吾l n a p p i n gb e t w e e ng l o b a i 0 n t o l o g ya i l d1 0 c a lo n t o l o g y a l l dt h em a p p i n gb e t 、) l ,e e nl o c a l0 n t o l o g ya n dd a t as o u r e e 1 l 瞒耐o w ll 觚笋a g e 约e x p 羚s sl 赫m 豫i 珏蜒黪l 涵狂s e 沁m el 蠢a 藏a p p i 鸥b e 鲥e e 珏舀o b a l 山东师范大学硕上学位论文 o n t o l o g y孤d1 0 c a l0 n t o l o g yw a sp u t f o 册a r dt os o l v et h e p r o b l e m s 0 fs e m a n t i c h e t e r o g e n e i t y ( 5 ) t h em e t h o do fw r a p p i n gd a t as o u r c et oc o n s t m c tw c bs e i c e sf e a t u r e dt h e p r o t o t y p ew i t ht h ef o l l o w i n gg o o dq u a l i t i e s ,1 0 0 s ec o u p l i n g ,m o r ef l e x i b i l i t ya n dm o r e e x t e n s i b i l i t y w i t ht h i sm e t h o d ,t h es e a m l e s sd a t ai n t e 争a t i o nc a nb ee x a c t i ya c h i e v e d ( 6 ) u s ex q u e r yl a n g u a g et oe x p r e s sg l o b a lq u e r y ;w h i c hi se a s yt oq u e r yx m l t h e ni t d e c o m p o s e dt h e 世o b a lq u e r yt ol o c a lo n t o l o g y k e y w o r d s :d a t ai n t e g r a t i o n ;x m l ;w e bs e r v i c e ;o n t o l o g y c l a s s j 6 c a t i o n :t p 3 1 】 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其它人已经 发表或撰写过的研究成果,也不包含为获得( 注;如没有其它需要特 别声明的,本栏可空) 或其它教育机构的学位或证书使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中诈了麓确的说明并表示谢意。 学位论文作者签名:弓妖萌葫 导师签字: 学位论文版权使用授权书 弓钣喜湖艺 | 本学位论文作者完全了解茎筮有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阕。本人授权堂蕉 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适焉本授权书) 学位论文储弛张萌丽 翩擀芝饺多 签字日期:2 0 0y 年步月了。同 签字日期:2 0 0 释,月弓。曰 山东师范大学硕+ 学位论文 1 1 研究的背景 第一章绪论 随着w c b 的迅猛发展,因特网上的资源越来越丰富,已经成为一个巨大的全球化 信息仓库。w c b 上的资源不仪包括传统的有严格数据模型的数据库,如关系数据库和 面向对象的数据库,而且还包括无结构和半结构的数据,如大量的h t m l 数据、x m l 数据和文本数据。这些分布在各处的数据姿源,在其设计阶段,主要是为了满足各自 的业务需要而形成的,由于软硬件平台及数据模型的不同而成为了异构数据。异构数 挺互楣之间难以集成和共享,使各数据源闻的豆操作交得困难,无法实现信息的共享 和有效利用,从而成为“信息孤岛”【1 1 。为了更好地利用网络上浩如烟海的信息,人们 迫切需要集成这些地理分布、管理自治、模式异构的数据,因此异构数据集成问题吸 引了众多关注。 异构数据集成就是力焉户提供一个统一的接口,来访问一组已经存在的自治、分 布且异构的数据源。异构数据集成的目的【2 3 4 l 是在数据源逻辑层上建立统一的查询界 面,屏蔽底层数据源的不同,使得用户不必再考虑底层数据模型不同、位置不同、数 据抽取、数据合成等问题,能够通过一个统一的查询界面实现对w 曲上异构数据的灵 活访问。集成系统盘动提供模式转换与集成、全局查询处理等功能,并将从多个不同 数据源取得的数据以统一的方式提供给用户。这样一来,在用户看来他们需要的所有 数据,应该好像驻爨在一个单一的数据源里一样。其中的关键是如何以一种统一的数 据模式描述各异构数据源中的数据,屏蔽它们的平台、数据结构等异构性,实现数据 的无缝集成。 1 2 面临的问题 数据集成的量的是霹蔽底层数据源的异构性,提供给用户一个统一的视图。舞构 性是指数据集成系统中两个数据源的不相似程度。根据异构发生的不同的级别、编程 语言、数据模型和对相同概念的不同理解和描述,这种异构性可包括四个方面系 统异构,是指各数据源有自己独立的运行环境,包括兼容的硬件设备,操作系统和通 信协议;结构异构,是指不弱的数据模型,如结构讫的o r a e l 。数据库数据、半结构化 山东师范人学硕 :学位论文 的x m l 数据和无结构的h t m l 数据:语法异构,是指不同的语言和数据表达方式; 语义异构,是指用来交换的词汇的意义不同。 语义是人们根据他们对世界的理解而赋予数据的解释,对数据的不同解释就引起 了语义异构。在数据库领域里,语义指数据的模式元素的意义,而语法指数据的模式 元素的结构定义。语义上的异构包括语义相等、语义相关和语义不相关等。造成语义 异构的因素主要有:不同的数据源使用多种术语( 词汇) 表示同一概念;同一术语在 不同的数据源中表达不同的含义:各数据源中的概念之间存在着各种联系,但由于各 数据源的分布自治性,这种隐含的联系不能体现出来( 比如度量单位的不一致,划分 精度的不一致等) 。 现在已存在很多的技术用来解决不同类型的异构性问题。如成熟的中间件技术已 经允许用户在不同的平台和软硬件环境下成功地配置完成异构数据集成,但是不能解 决异构系统的信息交换问题。随着w 色b 技术的快速发展,x m l 成为i n t e m e t 上文档 结构和内容的标准语言,由于其自身的可扩展性和灵活性,使得x m l 可以比较有效 的解决不同应用系统、不同数据源之间的数据交换和共享问题【6 ,7 1 。然而由于x m l 只 是从语法结构描述了数据信息,而并不能表述清晰的语义信息,因此无法解决语义异 构问题。例如:一个图书信息的x m l 文档用 t 0 m 表示t o m 是作者, 而另一个图书信息的x m l 文档则可用 t 0 m 表示t o m 是作者。对于 同一概念两个文件使用了不同的词汇来表示。再例如:有关医科大学研究生院信息的 x m l 文档会使用 标记, t b m 不能确定t o m 是医生还是博士。 对于同一词汇有多种概念( 含义) 。因此,目前广泛采用的x m l 技术不能表述清晰 的语义信息,因此无法解决语义异构问题。语义异构的问题仍然广泛存在于各种数据 集成系统中。解决语义异构的问题也成为目前数据集成的重要任务和研究热点。 1 3 研究现状 数据集成技术的研究始于七十年代中期,至今己有三十多年。国内外研究学者对 多数据源异构数据集成进行了大量的研究,提出了许多数据集成体系结构和技术方 案,主要的体系结构有:联邦数据库系统、m e d i a t o r 删r a p p e r 系统和数据仓库系统。 2 山东师范大学硕士学位论文 l 。3 。l 联邦数据库系统 早期的数据集成主要采用联邦数据库系统l 引。联邦数据库系统由半岛治数据库系 统构成,相互之间分享数据,各联邦数据源之问相互提供访问接口,同时联邦数据库 系统可以楚集中数据痒系统或分布式数据库系统及其他联邦式系统。根据对联邦数据 库的控制及操作方式,可以将联邦数据库分为紧耦合联邦数据库和松耦合联邦数据 库。紧耦会提供统一豹访闯模式,一般是静态的,在增加数据源上比较困难;焉松耦 合则不提供统一的接口,可以通过统一的语言访问数据源,但其中核心的是必须解决 所有数据源语义上的阆题。所以,联邦数据蓐系统只适用予数据瘁数量不多的小范匿 内的数据集成,对于网络上越来越多的、不断动态变化的、半结构化的数据源,采用 联邦数据库系统不是理想的解决方案。联邦数据库系统的体系结构如图熏1 所示: 图1 1 联邦数据库体系结构 1 3 2m e d i a t o r w r a p p e r 系统 m e d i a t o 价r a p p e r 系统也称为中间件方式1 9 】,是目前使用较多的一种数据集成方 法。数据源可以是数据库、遗留系统( 1 e g 鑫e ys 羚t e m ) 、w 曲数据源等。它通过提供一 个全局模式和对应各数据源的局部模式集成来自不同数据源的数据。并经由一个 m 聪i 戳。薹( 中介器 和w 疆p p e ( 包装器) 组件转换查询数据到一个统一的规范格式, 提供给用户使用。用户的查询是基于这个全局模式的,数据源仍然分布在本地系统中。 中闻层提供的统一的数据逻辑视图隐藏底层的数据细节,用户不需要知道各数据的存 储方式,数据组织结构等特点,由查询执行引擎直接与w r a p p e r 打交道,将基于全局 模式的查询转换为基于各局部数据源模式的子查询,各局部数据源查询的结采蠢 w r a p p e f 转换成一致的规格说明,重新返回给m e d i a t o r 。m e d i a t o r 经过数据处理,合 成,去除冗余信息矮返回给客户端。这种方法逶用于数据源数譬多、各局部数据源的 3 山东师范人学硕十学位论文 自治性很高且局部数据经常更新的系统。这种方法需要解决的关键问题是如何构建全 局视图与局部视图的映射关系,以使得用户感觉不到要查询的数据来自多个数据源。 当前的数据集成系统框架中大多采用这种方法进行多数据源集成。m e d i a t o 叭a p p e r 系统体系结构如图1 2 所示: 1 3 3 数据仓库系统 图1 2m e d i a t 0 价a p p e r 体系结构 数据仓库系统【1 0 】需要建立一个存储数据的仓库,将来自多个数据源的数据副本都 存储在数据仓库中,由e t l ( e x t r a c t t r a n s f o m ,l 0 a d ) 工具定期从数据源过滤数据, 然后装载到数据仓库,供用户查询。数据仓库主要是针对企业某个应用领域提出的一 种数据集成方法,适用于面向主题并为企业提供数据挖掘和决策支持的系统,且查询 响应速度快。不足之处在于数据仓库中的数据在存储之前要经过一定的筛选处理,而 且数据仓库还需要定期更新,维护数据仓库的代价很高,用户查询到的数据可能不是 最新的。数据仓库系统的体系结构如图1 3 所示: 4 图1 - 3 数据仓库体系结构 山东师范大学硕士学位论文 在实际的应用中,联邦数据库系统虽然结构简单,但是由予其所有数据源都要添 加彼此访问的接口,所以需要编写大量的接口程序,只适于自治数据库数量比较小的 情况。数据仓库系统具有查询响应速度快的优点,但是当数据源审的数据发生变动时, 查询到的数据可能不是最新的,并且数据仓库的更新和维护代价很高。 m e d i a 幻撇p 蹿系统可以集成各种结构化、半结构化和无结构亿的数据,容易更新。 目前,数据集成方法多采用m e d i a t o 价a p p e r 系统方式。随着w e bs e r v i c e s n 门技术的 出现,剩用鬟e bs e r ¥主c e s 具有完好封装,松散耦合,规范协议,高度可集成能力等 特性,能够实现多数据源的无缝集成,容易实现数据系统之间的互操作。所以,基于 餮e bs e r v i c e s 的中闻待数据集成方案是梅建髯e b 上数据集成系统较为理想的体系结 构。 在当前研究的舞构数据集成中,黼l 技术的出现是解决语法或数据模型异构的一 个主要方法,它从语法一级提供了对资源内容和结构信息的表示;w e bs e r v i c e s 技术 可以很好地解决系统的互操作:但在集成中还存在着很多结构和语义冲突,以上两种 技术都不能解决。本体能够更好地表达语义,能够比较好地解决数据集成中的结构和 语义冲突,作为一种用于知识共享的强有力工具,本体越来越多地被应蠲于各种数据 集成系统中n 矗”j 钔。 1 4 本文的研究内容及主要工作 在分析现有数据集成方案基础上,利用本体、x m l 和w 曲s e i c e s 的优势,设 计了一种基于本体和x m l 的异构数据集成模型,并实现和测试了该模型巾关键模块。 本文的主要内容和组织结构如下: 第一章绪论。主要介绍了论文的研究背景和目的、面临的闯题、国内辨的研究 现状和本文的研究内容、主要工作。 第二章数据集成的相关技术。介绍了本文系统中采用的异构数据集成中的相关 技术:x m l 技术、本体技术和w e bs e f v i c e s 技术,分析了它们在异构数据集成中的 特点和应用,利用x m l 这一开放标准,能够在不同的系统之间的进行信息交流,从 丽解决语法异构问题;利用w 曲s e f v i s 相关技术能够很好地解决平台之间的互操作 问题;本体技术则为解决语义异构问题提供了很好的解决方案。 第三章基予本体帮x m l 豹异构数据集成系统。介绍了基予本体和x m l 的异构 5 山东师范大学硕士学位论文 数据集成系统模型。本系统模型基于中间件方式,采用w 曲s e r v i c e s 框架,利用x m l s c h e m a 描述数据源模式,利用本体描述语义,并对模型中的各模块的功能进行了研 究。 第四章系统关键技术。对原型系统中所涉及的关键技术进行了研究。首先分析 了本体的构建准则、过程和工具。其次具体的建立局部数据源的局部本体以及数据源 和本体的映射,给出了映射规则的表示实例。然后研究了全局本体的建立及全局本体 和局部本体的映射。最后研究了查询处理的过程和包装器的结构。 第五章系统关键模块的测试。首先介绍了数据集成原型系统的设计背景和开发 工具。然后针对具体的应用实例对原型系统的关键模块:本体的构建、本体的导入、 用户查询界面进行了测试。 第六章总结与展望。对本文的研究工作做了总结、评价和展望。 6 山东师范大学硕1 :学位论文 2 1x m l 技术 第二章数据集成的相关技术 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是由w 3 c ( w b r l dw i d ew 曲 c o n s 0 n i u m ,万维网联盟) 于1 9 9 8 年2 月发布的一种标准,同h t m l 一样是特别为 w e b 应用服务的s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用标记语言) 的一个简化子集【1 5 】。总的来说,x m l 是一种中介标记语言( m e t a 哪a r k u pl a n g u a g e ) 可提供描述结构化资料的格式,它是一种标准化了的可以在w 曲上表示结构化信息的 文本格式。x m l 是一种类似于h t m l 被设计用来描述数据的语言,是语义网( s e m a n t i c w r e b ) 中基本的数据编码和交换语言,r d f 、o w l 等上层语言都是用x m l 作为基本 语法的【1 6 1 。h t m l 着重于数据的显示,而x m l 着重于数据结构的描述,将数据结构 与数据显示分隔开来。x m l 具有良好的可伸缩性和灵活性,不仅提供对资源内容的 表示,同时也提供资源所具有的结构信息,适合于表示各种信息,因而被广泛接受。 目前已经被应用于多个领域中。 2 1 1x m ls c h e m a x m l 不像h t m l 有固定标准的标记和属性,因此,用户要使用自己的标记、属 性或者实体参考等就要自己定义。而这些定义工作要在文档类型定义d t d ( d o c u m e n t t y p ed e f i n i t i o n ) 中进行。d t d 定义了可以在文档中使用哪些标记符,它们应该按什 么次序出现,哪些标记符可以出现在其他标记符中等。即d t d 为x m l 文档规定了一 套专用的规则,包含了对x m l 文档整体结构和语法的正式定义。它可以定义x m l 文档的语法,而x m l 文档的语法反过来能够让x m l 语法分析程序确认某页面标记 使用的合法性。但是d t d 缺乏对x m l 文档的内容及其语义的约束机制,这将限制 x m l 处理器进行有效的类型检验,应用软件开发者将不得不专门编写有关类型检验 的代码。因此有必要为x m l 文档建立一个更全面的有效性约束机制,使x m l 处理 器更好地进行有效性检验,这样就产生了x m ls c h e m a 。 x m l 模式( x m ls c h e m a ) 拥有比d t d 更强大的功能,用于更精确和有效地描 述x m l 文档结构和语法,是w 3 c 推荐的标准,是全球公认的x m l 环境下的首选建 7 山东师范大学硕士学位论文 模工具,已基本取代了d t d 的地位。用x m ls c h e m a 书写的模式文档定义了相应的 x m l 文档的规则,以约束其数据元素及其关系。与d t d 相比,x m l s c h e m a 具有明 显的优势,首先,x m l s c h e m a 文档从数据结构、数据类型、一致性约束三方面更严 格地约束相应的x m l 文档,它可以定义d t d 所无法定义的规则,而d t d 仅从结构 上对x m l 文档进行有限的约束。其次,d t d 有其独立的语法形式,x m l s c h e m a 文 档本身就是一个x m l 文档,可以用x m l 工具进行解析。尽管x m ls c h e m a 的语法 结构远比d t d 复杂,但比d t d 更具有表现力、更适应于各应用领域的使用,所以 x m ls c h e m a 取代d t d 已成为一种发展趋势。 x m ls c h e m a 包括两类基本的约束:内容约束和数据类型约束。x m ls c h e m a 用 复杂类型实现内容约束,规定元素之间以及元素、属性和文本之问的结构和约束。x m l s c h e m a 用简单类型定义实现数据类型约束,规定文本的形式。简单类型和复杂类型 的标签分别是s i m p l e t y p e 和c o m p l e x t y p e 。简单类型包括x m l 内置的基本类型和由这 些类型扩展而来的类型,它不能有子元素和属性。复杂类型是由简单类型、元素类型、 混合类型和空类型其中的一个或几个组合而成,它可以有子元素、属性等【1 5 t 1 7 1 。下面 是一个关于x m l 文档j o u m a l x m l 及其模式j o u m a l i s t x s d 的例子: 8 山东师范大学硕士学位论文 x m l d t d 和s c h e m a 可以验证x m l 文档中数据格式和内容是否有效。而且它们 还能够定义数据类型和数据闻的关系以及数据约束,这类似于数据库的元数据,因此, 可以实现x m l 文件的模式和数据库的模式的映射,并使用x m l 的查询语言进行查 询。将对传统数据库的集成策略转换到对x m l 文档的集成上来,使得集成获得更高 的灵活性。 2 1 2x q u e r y x m l 已经成为事实上的数据表示和数据交换的标准,应用越来越广泛。面对x m l 数据爆炸式增长,必然需要更有效地数据管理和更快、更精确地查询。因此,如何从 x m l 数据源中准确、有效地查询所需信息,也就变得越来越重要。近年来,依次出 现了许多针对x m l 的查询语言,如x q l 、x m lq l 、q u l t l 、x p a l l l 、x q u e 联等。 其中以x q u e r y 使用最为广泛f 1 5 1 射。 x q 珏e 拶是一种函数性语言。w 3 e 组织制定x q 毽e f y 标准,该标准使得查询变得 9 山东师范大学硕- 上学位论文 简洁、易于理解,而且能够非常灵活地查询大量的x m l 信息源。通过将异构数据源 的数据翻译成x m l 文档,x q u e r y 也可以查询异构的数据源1 1 9 】。x q u e r y 表示的查询 可以很容易地转换成s q l 语句,最后查询结果以x m l 形式返回。它是一种将查询表 示成表达式的功能语言,通过多种表达式,形成不同形式的查询。各种x q u e r y 表达 式可以完全嵌套,也支持子查询,因此具有强大的查询和检索功能。表达式由各种关 键字、符号、操作数构成,操作对象可以又是另一个表达式。x q u e r y 是一种对数据 类型要求严格的语言,表达式中的操作数,运算符和函数都必须是指定的类型。 x q u e r v 中最强大的特性是f l w o r 表达式。f l w o r 表达式包含模式匹配、过滤 选择和结果构造这三种操作。f l ,w o r 语句看上去和s q l 的s e l e c t f r o m w h e r e 语句类 似,并且具有相似的功能。f l ,w o r 表达式由f o r 、l e t 、w h e r e 、o r d e r 、r e t u m 关键字组 成。每个f l w o r 表达式都有一个或多个f o r 子句、一个或多个l e t 子句、一个可选的 w h e r e 子旬、以及一个r e t u m 子句。f o r 子句通过将节点绑定到变量,以便继续去循环 遍历序列中每一个节点;l e t 子句为一个变量赋一个值或一个序列;r e t u m 子句定义每 个元组要返回的内容:对于w h e r e 子句,如果其有效布尔值为真,那么该元组就被保 留,并且它的变量绑定用在r e t u m 子句中,如果其有效布尔值为假,那么该元组就被 l o 山东师范人学硕 上学位论文 2 1 3 垤l 与数据集成 x m l 出现之前的数据集成系统大多使用关系模型或对象模型作为公共数据模型。 x m l 出现之后快速成为i i l t e m e t 上文档结构和内容的标准语言,成为眠b 上发布和 数据交换的标准,无论底层以什么形式存储数据,数据源都以x m l 形式输出数据。 它可以使得不同来源的异构数据很容易地结合在一起,从而使得对于各种异构数据源 的查询成为哥能,并为解决异构数据源酶集成提供了机会。数据集成被认为是艇e 豫e l 上应用系统之间数据交换的主要手段,于是基于x m l 技术的数据集成研究成为研究 入员关注的方向。 x m l 已成为数据表示的一个开放标准,有利于不同系统之间的信息交流,因而 在舜构系统的数据交换和集成中发挥了重要的作用。x m l 在异构数据集成中的有以 下优势【加1 : ( 1 ) x m l 具有平台独立性,所以将x m l 作为数据交换工具可以解决异构数据 源之间的互操作问题。 ( 2 ) x m l 的自描述性和扩展性使得数据不需要有内部描述就能被交换和处理, 阕时可用予表达各种类型的数据。 ( 3 ) x m l 作为数据传输的中介格式,数据存储格式不受显示格式的制约。数据 结构与数据显示是分隔开来的,从丽提高了x m l 数据的可交换性和重用性。 ( 4 ) x m l 可以实现数据源的“即插即用”,即新数据源的加入只修改相应的数据 模式文件。 ( 5 可使用x m l s 蘸e 臻a 进行数据模式之间的映射,将数据源的类型映射为x m l 数据类型。 目前国内外基于x m l 的异构数据集成的研究有很多,例如a t 鲫实验室的 s i l k r o u t e ,l n r n 的a g o r a 等。在这些应用了x m l 技术的异构数据集成系统中,都 能够较好地解决数据源之间语法上的异构性,但是对于语义上的异构性解决能力较 弱。 l l 山东师范火学硕:l :学位论文 2 2 本体技术 2 2 。1 本体的概念 本体( o n t o l o g y ) 的概念最初起源于哲学领域,在计算机界,本体的定义现在还 没有统一的看法,第一个被广泛认定的定义是由g m b e r 等人提出的:“本体是概念模 型的明确的规范说吲2 1 】,o 后来,b o r s t 又在此基础上对本体作了进一步阐述:t c 本体 是共享概念模型的明确形式化规范说明【2 2 】”。s t u d e r 等人对上述两个定义进行了深入 的研究,他们认为本体是“共享概念模型的明确的形式化规范说明1 ,这个定义包 含4 层含义:概念化( c o n c e p t u a l i z a t i o n ) 、明确化( e x p l i c i t ) 、形式化( f o r m a l ) 和共 享( s h a r e ) 。 ( 1 ) 概念化:客观世界的现象的抽象模型。通过抽象出客观世界中一些现象的 相关概念而得到概述模型,其含义独立于具体的环境状态。 ( 2 ) 明确化:概念及它们之间联系都被精确定义。所使用的概念及使用这些概 念的约束郡有明确( 显式) 的定义。 ( 3 ) 形式化:精确的数学描述。指本体是计算机可读的,即能够被计算机处理 的。 ( 4 ) 共享:本体中反映的知识是其使用者共同认可的。本体中体现的是共同认 可的知识,反映的是相关领域中公认的概念集,针对的是社会范畴而非个体之间的共 识。 本体其实就是一套关于某一领域的规范而清晰的描述,它包含类( c l a s s e s ,有时 也被称作概念c o n c c p t s ) ,每一个概念的属性( p r o p e n i e s ) 用于描述有关概念的各种特 征和属性,还有属性的限制条件( r e s t r i c t i o n s ) 。一个完整的本体还要包含一系列与某 个类相关的实例( i n s t a n c e s ) 。本体包含5 个基本的建模原语:类( 概念) 、关系、函 数、公理和实例【矧。 ( 1 ) 类( c l 硒s e s ) 或概念( c o n c e p t s ) 从语义上讲,它是对现实世界中个体( 概念) 的抽象,表示相似术语所表达的概 念的集合,其定义一般包括概念的名称,以及对概念的自然语言描述。 1 2 山东师范大学硕士学位论文 ( 2 ) 关系( 辩l 懿i q n s ) 领域中概念之间的交互性,形式上定义为n 维笛卡儿积的子集:r :c l c 2 kg x c n ,其中c i 表示概念。如子类关系( s 毯c l a s s - o f ) 。 ( 3 ) 函数( m n c t i o n s ) 一类特殊的关系。函数中规定的映射关系,可以使得推理从一个概念指向另一个 概念。如融魏e 醴就是一个函数,融纛e f o 舷,y ) 表示y 是x 的父亲。 ( 4 ) 公理( a x i o m s ) 代表永真断言,如声明关系“t c a c h ”和“t a u g l i t - b y ,是互逆的。可以使用公理来约束 信息、证明正确性或推导新信息。一般本体中的概念是通过关系来关联的,加入公理 盾则可以表达更为丰富和准确的概念问的关系。公理通常都是一阶逻辑谓词的表达 式。 ( 5 ) 实例( i n s t a n c e s ) 概念的实例化,表示某个特定概念的具体他的值。实例具有不可再分性。 2 2 2o w l 本体通过对概念和概念之间的关系的严格定义来确定概念的精确含义,表示共同 认可的、戴享的知识。在语义网中,本体是解决语义层次上信息共享和交换的基础。 本体的表示方式可以多种多样,主要可分为透大类:非形式化、半菲形式纯、半形式 化、形式化语言。可以用自然语言来描述o n t o l o g y ,也可以用框架、语义网络或逻辑 语富等来攒述o 鑫轮论g y 。随着w c b 的发震,如现了一系列基于溉b 的本体语言,如 r d f ( s ) 、s h o e 、o l l 、d a m l o n t 、d a m l l + o i l 和o w l 等。 如同x m l 已成为标准的数据交换语言一样,o w 乙( w 曲o n l o l o g yb n g u a g e , w 曲本体语言) 在2 0 0 4 年2 月正式成为w 3 c 推荐的本体表示语言【2 5 1 。它是建立在 r d h s ) ( j i l d 腿d fs c h e m a ) 基础上、修改d a m l o l l 本体语言而成的,目的怒提 供更多的原语以支持更加丰富的语义表达和推理能力。o w l 添加了更多用于描述属 性和类的词汇,例如类之间的不相交性( d i 硒。施) 、基数( g a f d 攮a l i y ,如:恰好一个) 、 等价性、属性的更丰富类型、属性特征( 例如对称性) 、以及枚举类( e n u m e r a t e dc l a s s e s ) 。 o w l 能够被用于清晰地表达词汇表中词汇的含义以及这些词汇之间的关系,而这种 1 3 山东师范大学硕士学位论文 对词汇和它们之间关系的表达就称作o n t o l o g y 。 o w l 中没有定义数据类型特性,而是引用了x m ls c h e m a 中定义的数据类型。 为了应用的需要,o w l 提供了三种表达能力递增的子语言:0 w ll i t e 、o w ld l 及1 o w lf u l l 【2 6 1 。 ( 1 ) o w ll i t e :仅限于对概念( 类) 的层次分类和简单属性约束等进行描述。 ( 2 ) o w l d l :以描述逻辑为基础,在保证推理系统的计算完全性( 所有结论都 可以被计算出来) 和可决定性( 所有的计算都在有限的时间内完成) 的前提下,支持 最大的表示能力。 ( 3 ) o w l f u l l :它与r d f 保持最大程度的兼容,允许在一个o n t o l o g y 预定义的 ( r d f 、o w l ) 词汇表上增加词汇,具有最大的表示能力,但不保证计算性能。 o w l 在r d f ( s ) 基础上,利用r d 胍m l 语法建立了一套自己完整的语法,其中 “r d f 和“r d f s ”前缀表示的术语是r d f ( s ) 中的术语,其它的则是o w l 引入的。一个0 w l 本体中的大部分元素是与类( c l a s s ) 、属性( p r o p e n y ) 、类的个体( i i l d i v i d u a l ) 以及 这些元素之间的关系有关的。 2 2 3 本体与数据集成 本体通过对概念和概念之间的关系的严格定义来确定概念的精确含义,表示共同 认可的、共享的知识。在语义网中,本体是解决语义层次上信息共享和交换的基础。 可将本体用于数据集成,因为它具有描述数据源语义和解决异构的潜力1 2 7 j 。 本体为特定领域的实体给出名字和描述,使用谓词来表示这些实体之间的关系。 它为表示和交流领域的知识给出了一个词汇库,并给出了一系列包含着词汇库里的术 语的关系。解决语义异构问题的方法是使用形式化本体指定系统术语集和中介术语 集,并使用本体映射指定它们之间的转换。在数据集成中使用本体有许多的优点【2 8 】: 首先,本体提供了一个丰富的词汇库为数据源的接口,并且独立于数据模式;第二, 本体表示的知识足够支持所有相关数据源的转换;第三,本体支持一致的管理和非一 致

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论