(计算机应用技术专业论文)基于本体的异构数据集成的研究.pdf_第1页
(计算机应用技术专业论文)基于本体的异构数据集成的研究.pdf_第2页
(计算机应用技术专业论文)基于本体的异构数据集成的研究.pdf_第3页
(计算机应用技术专业论文)基于本体的异构数据集成的研究.pdf_第4页
(计算机应用技术专业论文)基于本体的异构数据集成的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的异构数据集成的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 基于本体的异构数据集成的研究 摘要 随着计算机和网络技术的迅速发展,尤其是x m l 及其相关技术的发展和成熟,异构数据 集成已逐渐成为研究的热点之一。由于x m l 无法较好地解决数据源间的语义异构问题,本文 在也技术的基础上,提出一种基于本体的方法进行异构数据的集成。 本文介绍了目前异构数据集成的研究现状以及数据集成和本体的相关背景知识,并在此 基础上设计开发了一个基于本体的异构数据l a v 集成原型系统,同时对原型系统的总体框 架、关键实现技术分别做了讨论:首先阐述了将本体作为公共语义描述和全局查询模型的意 义,给出了采用l a v 集成方案的理由,然后规定了本体和数据源间映射的形式化表示方式, 采用能结合描述逻辑和框架系统的优点、适合于半结构化环境的o w l 表示本体和映射;其次 定义了一种针对集成系统的查询语言d i q l ,并在此基础上给出解决l a v 部分绑定问题、数 据源定位以及查询重写的算法:最后在原型系统的基础上,通过实例验证本文所提方法的可 行性。 关键词:异构、数据集成,本体,l a v ,o w l ,查询重写 查堕查兰堡兰兰焦堡壅 苎王查竺塑墨竺墼堡墨堕! ! ! ! 垦 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f c o m p u t e r & n e t w o r k ,e s p e c i a l l yw i t hm a t u r a n c eo f x m l t e c h n o l o g y ,i n t e g r a t i o no f h e t e r o g e n e o u sd a m s o u r c e si sb e c o m i n gb e c o m eo n eo f t h eh o t s p o t s i nt h er e s e a r c h t h ep r o b l e mo f s e m a n t i ch e m g e n e o u so f d a t as o r r c e sc a l l tb er e s o l v e ds m o o t h l y b ya p p l y i n g x m la l o n e s ot h e p a p e rc o m p l i e s a no n t o l o g y b a s e dm e r n st oi n t e g r a t e h e t e r o g e n e o u sd a t as o u r e e st o g e t h e rw i t ht h eh e l po f x m lt e c h n o l o g y t h i sp a p e ri n t r o d u c e st h eb a c k g r o u n dk n o w l e d g eo f h e t e r o g e n e o u sd a t ai n t e g r a t i o n , a sw e l l a s 吐k n o w l e d g eo fd a t ai n t e g r a t i o n o n 妇b a s i so ft h e 出o e 。t h e n 鼢d e v e l o p sa n o n t o l o g y b a s e dh e t e r o g e n e o u sd a t ai n t e g r a t i o np r o t o t y p es y s t e m ,e x p o u n d s t h em a i nf r a m e w o r k a n d e s s i o n t i a lt e c h n o l o g y t h e nt h ep a p e ri n t r o d u c e si t s w o r ki n d e t a i l :i te x p l a i n st h ev e r y s i g n i f i c a n c eo f u s i n go n t o l o g ya sa r tg o m o ns e m a n t i cd e s c f i p t i o na n da ng l o b a lq u e r ym o d e l ,a n d i l l u s t r a t e st h er e a s o nf oa d o p t i n gl a vm e t h o d ;t h e ni tb u i l d st h ef o r m a l r e p r e s e n t a t i o no f t h e m a p p i n gb e t w e e no n t o l o g ya n d d a t ar e s o u r c e s ,a p p l i e so w lt od e s c r i b et h eo n t o l o g ya n dt h e m a p p i n g ;d e f i n e saq u e r yl a n g u a g en a m e db yd i q l t oq u e r yo no u ri n t e g r a d o ns y s t e m ,a n d s u p p l yt h ed e t a i l e da r i t h m e t i co fr e o l v i n gp a r t i a lb i n d i n go f l a vm e t h o d 、l o c a t i n go fd a t a s 0 1 u _ c e sa n d q u e r yr e w r i t i n g ,e t c f i n a l l y ,t h ep a p e rd e m o s t r a t e sa n dp r o v e st h er e s u l to f r e s e m hb ye x a m p l e s k e y w o r d s :h e t e r o g e n e o u s ,d a t ai n t e g r a t i o n ,o n t o l o g y , l a y , o w l ,q u e r yr e f o r m u l a t i o n i l 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 历y 鬯 日期:兰鲨 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学 位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。 本人电予文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外, 允爹嘭殳被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文 的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名: 面堡导师签名;塑兰兰日期:三l 墨堕查兰堡主兰垡堡奎苎三兰望塑兰曼塑堡垡望塑型! ! ! ! 互 1 1 研究背景和目的 第一章引言 随着计算机技术的不断发展,很多企业内部实现了信息的计算机管理,并逐渐积累了大 量的数据。这些分布在各处的数据源,在其设计阶段,主要是为了满足各自的业务需要而形 成的。不同的数据源之间往往存在异构情况,互相之间难以集成和共享。根据i d c 的报告, 在全球最大的i 0 0 0 家企业中,平均每个企业就有1 4 个数据库和4 8 个应用系统,而且随着网络 技术的不断应用、市场的变化和客户需求的变化,企业还在不断地增加数据库和应用系统。 目前许多企业和单位都在推行信息化建设,其中要解决的关键问题之一就是异构数据的集成 和共享。 由数据的异构性可能引起的问题,在分布式数据研究领域,已经有充分的阐述。例如: 语法异构和语义异构问题“1 。这里所指的语法异构是指不同的信息系统用不同的结构存放 数据,而语义异构是指数据项的内容及其引申义。例如,现在要对三个数据源进行统一访 问,如果它们分别采用d g l 、盯姐和关系数据库存储。它们之间就形成了语法异构。如果他们 都是采用舰存储数据,但三个数据源之间存在弱名异义、同义异名、所使用的概念的抽象 程度不同等问题,它们之间就构成了语义异构。对于语法层次的异构的研究,从传统的分布 式数据库系统中采用关系或对象的数据模式作为全局模式的实现方式,到目前基于也的数 据仓库和数据中介系统,已经逐渐成熟。本文将主要针对语义异构进行研究。 目前,国内外对异构数据源集成的研究很多,主要方法有以下几种: 1 、基于x m l 的数据集成。 这类集成通常采用模式映射的方法,借助模式匹配技术自动半自动的完成集成任务,能 够增强集成系统的灵活性和易用性,不足之处是模式映射的能力有限,不能完全反映数据源 的语义,代表系统有s o p h i ec l u e 等人提出的x y l e m e 。1 等。 东南大学2 0 0 4 届硕士研究生洪晓伟基于x m l 异构数据集成的研究”1 的论文在此基 础上,增加一个公共词库,初步对x m l 数据源或关系数据源在语义层次上的集成进行了探讨。 2 、初步引入本体技术的数据集成系统。 该类系统的相关研究,从上世纪九十年代末期逐步开展,并不断发展。按照系统中本体 的表示方式不同,主要可以分为以下两类: ( 1 ) 基于描述逻辑的o n t o l o g y 数据集成系统o b s e r v e r 4 1 b u s t e r ( s t u c k e n s c h m i d ta n d w a t c h ,2 0 0 0 ) 。浙江大学的产品配置系统。1 、上海交通大学管理学院基于本体的检索系统 ( 2 0 0 3 ) 6 1 ( 2 ) 基于框架的o n t o l o g y 数据集成系统o n t o b r o k e r ”1 ,c o i n ”1 等。 在数据集成中,单纯地使用描述逻辑或者框架,都有其不足之处( 具体见第二章) 。 3 、将描述逻辑和框架相结合的数据集成系统 该类系统多采用w 3 c 主流体系架构r d f d 删l + o i l o 盹,较具代表性的有: ( 1 ) c j e b 项目中在文献 9 中提出的s t y x 系统,该文提出了利用本体作为全局模式语 言、将类对象全局查询表达式转仡为x q u e r y 表达式的经典方法。该系统的本体模型是基于 r d f 三元组的。另外,由于系统仅存储了数据源的内容,而没有保存数据源的结构,所以无 法对可能冲突的映射进行检验。 ( 2 ) 文献 t o 提出在p 4 ) f 层次上利用g a v 方法对异构数据源进行集成。r d f 在表达概念 间的关系方面不够丰富,而g a v 在解决数据源的更新上有难度( 具体见第二章) 。 ( 3 ) 文献 u 提出在o 孔层次上利用l a v 方法对异构数据源进行集成。但该文的原型系 查塞查兰翌主兰竺堡茎 苎王查堡塑墨丝塑墨壅堕塑竺塞 统每次只能处理一个数据源,也没有解决对多个数据源的数据进行j o i n 操作的问题。 本文所要研究的异构数据集成,其目的是在异构、分布的计算机环境中,对这些异构 数据源进行集成,以实现信息的充分共享。为此,笔者要解决两个问题:第一个是如何解决 异构数据源的语义冲突,支持它们之间的互操作性( i n t e r o p e r a b i l i t y ) :另一个是如何模型化 源数据内容和用户查询,即数据源与用户查询如何发生联系( g a v 还是l a v ) ,以及由此引发的 数据源定位问题。”3 1 2 研究目标和内容 本文的研究目标:引入本体作为全局模式、运用w 3 c 主流架构的最新推荐规范o w l 表示 本体资源、通过l a v 方式定义本体与数据源的语义关系、对异构数据集成的主要问题进行研 究。 研究内容: 1 、利用适当的本体描述语言,建立某个领域的本体; 2 、研究并提出一种本体到数数据源间的映射方法; 3 、在基于本体的环境下解决语义异构问题; 4 、设计数据源的查询定位方案; 5 、在基于本体的环境下解决多数据源的l a v 部分绑定问题; 6 、初步实现一个异构数据集成的原型系统。 1 3 论文组织结构 第一章“引言”,主要阐述论文的研究背景、目的以及研究的目标、内容和论文的组织 结构。 第二章“数据集成与本体相关技术”,对异构数据集成、本体以及x q u e r y 的基础性理 论和相关技术进行了论述,其中主要包括数据集成面临的问题、语法冲突、本体的概念和描 述模型、x q u e r y 等相关理论。 第三章“系统总体架构和关键技术”,阐明了系统总体架构,给出系统的总体架构图, 并讨论了数据集成的关键技术。 第四章“异构数据集成系统的查询处理”,详细论述了异构数据集成系统查询功能的设 计和实现。 第五章“系统的实现与测试结果”,说明系统原型运行环境,设计了系统测试的用例, 给出系统的相关界面,通过实验用例测试系统的执行结果,从而证明本文提出的技术和算法 的正确性和有效性。 第六章“总结与展望”,对论文工作进行总结,并指出需进一步完善的工作。 4 查堕查兰望主兰垡堡苎 苎王查堡箜墨塑整墨叁垡堕! ! 墨 第二章数据集成与本体相关技术 在本章中,笔者首先介绍异构数据集成的基础理论知识,然后介绍本体的基本概念、本 体在数据集成中的作用和本体的描述模型,最后介绍了x m l 查询语言x q u e r y 等内容。 2 1 异构数据集成 异构数据集成是数据库应用领域的经典问题,随着g t l 技术的兴起和成熟,它再次成为 一个研究热点。 2 1 1 异构数据和数据集成 异构数据“是一个含义丰富的概念,不仅指不同的数据库系统之间的数据是异构的,如 o r a c l e 和s o ls e r v e r 数据库:还包括不同结构的数据之间的异构,如结构化的s q ls e r v e r 数据库数据和半结构化的x n 数据;更重要的是数据表示的语义上的差异。 数据集成是指屏蔽各种异构数据问的差异,对各种异构数据提供统一的操作使集成后 的异构数据对用户来说是统一的和无差异的。 对于目前的数据集成系统,绝大部分数据源的数据是属于异构数据,因此,通常人们所 说的数据集成就指异构数据集成。 2 1 2 现实环境中数据集成面临的问题 在现实环境中,数据集成通常面临以下凡个问题”1 : ( 1 ) 环境异构 系统异构:数据所依赖的应用系统、数据库管理系统乃至操作系统之间的不同。 模式异构:数据在存储模式上的不同,一般的存储模式包括关系模式、对象模式、对象 关系模式和文档嵌套模式等几种,其中关系模式为主流存储模式。需要注意的是,即便是同 一类存储模式,它们的模式结构可能也存在着差异。例如o r a c l e 所采用的数据类型与s q l s e r v e r 所采用的数据类型并不是完全一致的。 ( 2 ) 完整性 异构数据集成的目的是为应用提供统一的访问支持,因此集成后的数据必须保证一定的 完整性,包括数据完整性和约束完整性两方面。 数据完整性是指数据的正确性,一致性和相容性。 约束完整性,约束是指数据与数据之间的关联关系,是唯表征数据间逻辑的特征。保 证约束完整性是良好的数据发布和数据交换的前提,可以方便数据处理过程,提高效率。 ( 3 ) 集成内容限定 多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定义要集成的 范围和权限,就构成了集成内容的限定问题。 ( 4 ) 语义冲突 信息资源之间存在着语义上的区别,这些语义上的不同可能引起各种冲突。 ( 5 ) 权限冲突 由于需集成的数据可能归属不同的单位n n f 7 ,因此如何在访问异构数据基础上保证原 5 东南大学歃十学位论文 基于本体的异构数据集成的研究 有数据的权限不被侵犯,就成为集成异构数据必须面对的现实问题。 以上这些问题是相互联系、相互制约的,不应该简单地孤立对待。 2 1 3 语义冲突 语义冲突是指不同信息资源之间存在着语义上的区别而引起的各种冲突。例如,从简单 的命名冲突( 如同名异义,同义异名) ,到复杂的结构语义冲突( 不同的模式表达同样的信 息) ,语义冲突将会使数据集成变得复杂化。所以如何尽量减少语义冲突是数据集成的一个 研究热点和难点。 语义冲突可以分为概念模糊、命名冲突、域冲突三类“: 1 、概念模糊 概念模糊是指看上去是相同的概念表示不同的实体。例如“最新的股票价格”在五分钟 前与五分钟后指两个不同的实体。概念模糊一般需要专门利用自然语言处理技术来解决。 2 、命名冲突 命名冲突是指同名异义,同义异名。广义的命名冲突包括概念抽象程度不同等。 3 、域冲突 域冲突是指同一个值用不同的尺度衡量。例如一个数据源中书的价格用人民币表示,另 一个可能是用美元来表示。 对于x m l 文档,语义冲突可以在模式、元素或属性、实倒三个层次发生”: 1 、模式层次的冲突 模式层次的冲突,是指整个x m l 文档的结构树之间的冲突。发生模式层次的冲突的一个 原因,是在需要集成的x 札文档中,存在仅在一定范围内有效的局部模式。另外,同样一个数 据,在x l l l 中既可以用元素表示,也可以用属性表示。但x m l 对元素和属性的处理是不同的, 也构成了模式层次的冲突。 2 、元素或属性层次的冲突 这是命名冲突、概念的抽象程度不同体现得最典型的一层。 3 、实例层次的冲突 是指不同的领域被用在文档间来表示事实上相同的现实实体。比如用中文和英文表示的 同一个人的姓名,它们之间就构成了实例层次的冲突。 2 1 4 仓库法和虚拟法 仓库法( t h ew a r e h o u s i n ga p p r o a c h ) 和虚拟法( t h ev i r t u a la p p r o a c h ) 是数据集成 系统中的两种实现方法。 1 、仓库法 所谓仓库法是指建立一个数据仓库,将参加集成的各数据源的数据副本,按照一个集中、 统一的视图要求,转换成符合数据仓库的模式并存入数据仓库,同时,系统将提供对该数据 仓库的查询机制。这种方式的优点是既可用于数据集成,又可用于决策支持;缺点是数据更 新不及时、数据重复存储,较适用于简单系统。 2 、虚拟法 所谓虚拟法也称为包装器( w r a p p e r ) 或中间件法( m e d i a t o r ) 。该方法并不将各数据 源的数据集中存放,而是通过w r a p p e r m e d i a t o r 结构满足上层集成应用的需求。这种方法 的核心是中介模式( m e d i a t e ds c h e m a ) 。数据集成系统通过中介模式将各数据源的数据集成 起来,而数据仍存储在局部数据源中。通过各数据源的包装器( n a p p e r ) 对数据进行转换使之 6 查堕查兰堡_ 上兰堡兰苎j 塑型兰塑塑墅壁墅型坠塑! ! ! 墨 符合中介模式。用户的查询基于中介模式,不必知道每个数据源的特点,q p 介器( m e d i a t o r ) 将基于中介模式的查询转换为基于各局部数据源的模式查询,它的查询执行引擎再通过各数 据源的包装器将结果抽取出来,最后由中介器将结果集成并返回给用户。w r a p p e r m e d i a t o r 方法解决了数据的更新问题”1 。 遵循以匕思想建立的异构集成系统的总体架构如下图2 1 所示: 图2 1 :虚拟法集成系统结构 虚拟法比较适合于高度自治、集成数量多且更新变化快的数据集成系统,是目前主要 的研究方向,因此,本文将采用虚拟法进行研究。 2 1 5 数据集成的总体分析 典型的数据集成系统由全局模式、数据源模式以及它们之间的联系( 模式映射) 构成。其 中,全局模式呈现给用户一个虚拟的全局数据库的概念,实际的数据仍然位于不同的数据源 中,用户可根据全局模式提交自己的查询要求,由系统负责将全局查询重写成对具体数据源 的子查询,从而获得所需的数据:数据源模式为针对数据源信息的描述;而模式映射则描述 了虚拟全局数据库和数据源之间的映射,是实现查询重写的重要依据。 数据集成系统的形式化描述如下: 数据集成系统可表示为三元组( g ,( s t l ,恤1 ) ,其中: g :全局模式 s 。) :数据源模式的集合。 m ) :数据源模式到全局模式之间映射的集合。 对于每一个数据源模式s - ,s 。与g 之间均存在一个地+ 1 = 1 9 7 9 在数据集成中,使用查询重写( q u e r yr e f o r m u l a t i o n ) 把全局查询分解成对数据源的 子查询。不同的集成方式有不同的重写策略,g a v 方式的重写策略是查询展开( q u e r y u n f o l d i n g ) ,指对于集成视图中的每一个虚拟关系r 写出一个查询,说明如何从数据源得到 r 的元组;l a v 方式的重写策略是查询折叠( q u e r yf o l d i n g ) ,也称为通过视图答复查询 ( a n s w e r i n gq u e r i e su s i n gv i e w s ) ,指为每一个数据源s 给出一个针对集成视图的查询, 说明集成视图中的哪些元组可在s 中找到。 例如,对于查询( t i t l ea n dr e v i e wi n1 9 8 0 ) ,可表示为: q ( t i t l e ,r e v i e w ) :- m o v i e a c t o r ( t i t i e ,a c t o r ,1 9 8 0 ) m o v i e r e v i e w ( t i t l e ,r e v i e w ) g a v 方式下,查询重写如图2 2 所示: m o v i e a c t o r ( t i t l e ,a c t o r ,1 9 8 0 ) m o v i e r e v i e w ( t i t l e ,r e v i e w ) l d i n g 。 s 1 ( t i t l e ,a c t o r ,1 9 8 0 ) a s 2 ( t i t l e ,r e v i e w ) 图2 2 :g a v 方式下的查询重写示例 对于查询( t i t l ea n dr e v i e ws i n c e1 9 8 0 ) ,表示为: q ( t i t l e ,r e v i e w ) :- m o v i e a c t o r ( t i t l e ,a c t o r ,y e a r ) ,y e a r = 1 9 8 0 , m o v i e r e v j e w ( t i t i e ,r e v i e w ) l a v 方式下: q ( t i t l e ,r e v i e w ) :一s 2 ( t i t l e ,r e v i e w ) ,s 1 ( t i t i e ,a c t o r ,y e a r ) ,q q 8 0 加均 啊一 1 n曲n r 黾y n 叮w“乱n w a m 吖h h 酿n n h “帖虬 垄童查兰堡主兰竺鎏塞 量主奎竺堕墨塑墼塑堡堕堕! ! 墨 g a v 和l a v 方式下的查询重写策略结构概括如图2 3 所示 | d i n g o l d i n g 图2 3 g a v 和l a v 方式下的查询重写 由此可以看出,g a v 与l “两种集成方式的关系如下: 联系: 1 ) 当全局模式发生变化时,g a v 和l a v 都需要重新定义模式之间的联系。 2 ) l a v 的查询重写在具体实现时,需要通过一定的办法转化为类似于g a y 查询重写的 算法来进行。 区别: 1 ) g a v 系统中实现查询重写比较简单,但是不够灵活,当数据源模式发生变化时,可 能需要对映射关系进行重新定义。 2 ) l a v 系统与之相反:数据源模式发生变化时,只需要调整该数据源的视图定义,但 是查询重写相对麻烦,重写过程需要确定数据源能回答的查询与用户提出的查询之间的包含 关系,这是一个n p 问题。 3 ) 在g a v 集成方式下,需要自己定义数据源的查询能力;而在l “的集成方式中,自 然地表示了数据源的查询能力。 一般来说,l a v 是针对全局模式进行的研究,而g a v 是针对数据源进行研究。 2 2 本体 2 2 1 本体的概念 本体( o n t o l o g y ) 是一个源于哲学的概念,原意是指关于存在及其本质和规律的学说: “对世界上客观存在物的系统地描述,即存在论”t 7 1o 它是对客观存在的一个系统的解释 和说明。在计算机科学的人工智能、信息系统、知识系统等领域,越来越多的人研究本体, 并引申出了许多类似的含义。其中最著名并被引用得最为广泛的定义是g q g r u b e r 提出的:“本 体是共享概念的形式化、明确的描述”“”,即用适当的语言明确地将不同数据源中的概念 及其关系明确地表示出来。 f e n s e l 对这个定义进行分析后认为o n t o l o g y 的概念包括四个主要方面: 1 、概念化( c o n c e p t u a l i z a t i o n ) :客观世界的现象的抽象模型; 9 奎壹查兰墨圭兰垡堡兰 茎主奎堡堕墨塑垄望塑塑堕! ! ! 翌 2 、明确( e x d l i c i t ) :概念及它们之间联系都被精确定义; 3 、形式化( f o r m a l ) :精确的数学描述; 4 、共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 从本体的内涵上来看,不同研究者对于本体的认识是统一的,都把本体当作是领域( 可 以是特定领域的,也可以是更广的范围) 内部不同主体( 人、机器、软件系统等) 之间进行 交流( 对话、互操作、共享等) 的一种语义基础,即由本体提供一种明确定义的语义共识- 2 2 2 本体在数据集成中的作用 在数据集成的许多经典论述中,都将本体及其相关技术,作为达到系统互操作的数据集 成方案的基础。具体的来说,本体在数据集成中起着公共语义描述、查询模型、推理基础三 大作用“。 1 、公共语义描述( 概念定义) 从上个世纪末以来,利用本体作为语义描述,已逐渐形成一个新思想。在许多实现中, 都提供了一个覆盖了几乎包含所有在被集成访问的数据源中的概念的本体。概念定义有两层 含义:1 ) 本体内部复杂概念和关系通过其它基本的概念和关系定义出来。2 ) 可以将本体作 为公共概念模型,来定义各数据源的概念和关系,作为各数据源语义数据集成的基础。如果 存在符合以上两个条件的本体,就认为数据源可以由本体定义。 2 、查询模型 数据源可由本体定义带来的主要意义在于,它使本体可以作为一个中介器或代理,让大 量的异构的底层数据源对用户来说是透明的。即用户可以不知道数据源的结构,仅提交一个 针对本体的查询;系统基于语义定义,可以自动地将针对本体的查询重写为针对数据源的查 询。这样,用户就可以仅仅提出需要什么数据,而不需要指出如何去发现数据。在l a y 集成方 式下体现本体的查询模型作用,关键是要考虑多数据源的部分绑定问题。 3 、推理基础 数据源可由本体定义带来的另一个意义在于:由于本体可以建立在逻辑基础上,这使数 据源中的一些隐在的概念或关系可以被发现。如果用户查询本体中的一个概念。相关的答案 可能在和其子概念和父概念链接的元素和属性中找到。从一个明确的被查询的概念出发,可 以按照本体的结构,依次找到子孙概念和祖先概念作为其潜在的支持答案的概念。由于语义 定义要能尽可能地精确,概念的祖先概念对于查询结果的贡献不是很大。在通过本体中的继 承关系将相关的概念找到后,映射至这些概念的元素和属性就可以被决定了。因此本体的 推理基础作用。体现在异构、分布环境下的数据集成中,可以提高数据的查全率和查准率。 例如,用户耍查询:作者是“厉浩”的所有正式出版的p u b i i c a t i o n 的标题。如果基于 本体的推理能告诉我们,“b o o k ”是p u b i i c a t i o n ;“a r t i c l e ”是p u b l i c a t i o n “t h e s i s ” 是p u b l i c a t i o n ,但不是正式出版的。这样原始查询就可以被准确地扩展为找出“作者是厉 浩的不是t h e s i s 的p u b l i c a t i o n 、b o o k 、a m t i c l e 的标题”。 从以上分析可知,在数据集成中,本体的其它作用都是由公共语义描述作用派生出来的。 在计算机科学领域,本体提供的这种语义更主要的是为机器服务。机器并不能像人类一样理 惩自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在数据 集成中运用本体,首先要讨论本体究竟是如何表达异构分布环境下的语义的。这就要涉及到 本体的描述模型及其具体的表示语言。 1 0 查查莶兰堡主兰竺笙兰 茎主奎竺箜墨塑墼量墨些堕! ! 翌 2 2 3 本体的描述模型 p e r e z 等人认为本体可以按分类法来组织 1 7 ,并归纳出本体的五个基本构成元素a 这 些元素分别为:类( c l a s s e s ) ,关系( r e l a t i o n s ) ,函数( f u n c t i o n s ) ,公理( a x i o m s ) 和 实例( i n s t a n c e s ) 。通常也把c l a s s e s 写成c o n c e p t s ( 概念) 。下面对各部分的含义进行分 析: 类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示的是对 象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称,与其他概念之间的关系 的集合,以及用自然语言对概念的描述 关系( r e l a t i o n s ) 指领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r :e ,xc 2 x 岛。 如子类关系( s u b c l a s s o f ) 。 函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形式化的定义为 f :c l c 2 x c ,1 一c 。如m o t h e r o f 就是一个函数,m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 实例( i n s t a n c e s ) 属于某概念的基本元素,即某概念类所指的具体实体。 另外,从语义上讲,概念间的基本的关系共有4 种,如表2 1 所示 表2 - 1 概念间的基本的关系 关系名 关系描述 p a r t o f表达概念之间部分与整体的关系。 表达概念之间的继承关系。类似于面向对象中的父类与子 k i n d o f 类之间的关系。 表达概念的实例与概念之间的关系,类似于面向对象中的 i n s t a n c e o f 对象和类之间的关系。 表达某个概念是另一个概念的属性。如“价格”是桌子的 a t t r i b u t e o f 一个属性。 在实际的应用中,不一定要严格地按照上述5 类元语来构造o n t o l o g y 。同时概念之间 的关系也不仅限于上面列出的4 种基本关系,可以根据特定领域的具体情况定义相应的关 系,以满足应用的需要。 2 2 4 传统数据集成领域最有代表性的本体描述模型 2 2 4 1 基于描述逻辑( d e s c r i p t i o nl o g i c ,简称d l ) 的模型 传统数据集成领域的本体模型如( o n t o i n g u a ,c y c l ,l 0 0 岫等,大多数来源于人工智 能的一阶谓词逻辑( f i r s to r d e rl o g i c ,f o l ) 。尽管一阶谓词逻辑具有丰富的语义表达能力, 但由于其推理过程比较复杂,对一些典型的本体推理问题( 如包含性、可满足性) 不可判定。 描述逻辑是一阶谓词逻辑的子集,是为适应人的认知特点发展起来的。许多描述逻辑的 推理过程具有可判定性,能够保证推理算法停止,并返回正确的结果。而且,描述逻辑的语 查堕查兰堡主兰堡笙兰j 至查苎笪坐塑墅堕量塞壁堂! ! ! 里 法容易转换成) 。r d f 形式,因此基于描述逻辑的本体模型较适合于在w e b 环境下概念建模 与知识管理。 一般地,描述逻辑依据提供的构造算子,在简单的概念和关系上构造出复杂的概念和关 系。通常描述逻辑至少包含以下基本算子: 合取( a ) ,吸取( v ) ,非( 1 ) 量词约束;存在量词( j ) ,全称量词( v ) 全集与空集:t ,上p n 例如,在一个基本的描述逻辑中,概念h a p p y f a t h e r 定义为; m a n j h a s - - c h i l d m a l e jh a s - c h i l d f e m a l e v h a s c h i l d ( d o c t o r l a w y e r ) 一般地,在描述逻辑中添加不同的算子,则得到不同 能力为了增强逻辑能力,可以增加以下复杂的算子构造符进行扩展: ( 1 ) 皿尸:= 口,b 日尸( 最小、崔一、最大属性数目约束) ( 2 ) r 一( 关系的逆) ( 3 ) l j 包 例如,概念“1 9 8 0 年后的中国家庭最多只有一个孩子”可以表述为: j ( 1 9 8 0 , y e a r ) ac h i n e s e _ t a x i l y a h a s c h il d m o u n t 在描述逻辑中,人们用的最多的关系是概念蕴含( s u b s u m p t i o n ,记为呈) ,它也是本 文用于联系各数据源的概念的最重要的纽带。 例如,概念“1 9 8 0 年后的中国家庭”和概念“最多只有一个小孩”的关系可表述为: f 1 9 8 0 , y e a r ) ac h i n e s l f j l y ) 曼( i h a s c h i l d m o u n t ) 目前,对描述逻辑的理解一致性、可满足性、可捡爵性、可刿定性和计算机复杂性等阃 题的研究已经比较成熟。总的研究结论是:描述逻辑的所有问题基本上都可以归结为可满足 性问题,而可满足性问题是机器可判定的。因此,描述逻辑适合于机器进行处理。 2 2 4 2 基于框架( f r a m e ) 的模型 逻辑是由人来定义的。让人直接定义出机器可处理的逻辑并不是件容易的事情:我们应 提供一个架构。让人们能够按照自己的思维习惯定义出完整、正确的逻辑,然后让机器进行 处理。从人工智能领域引入的框架( f r a m e ) 能较好地满足了上述需要,这也正是框架系统 成为较有影响的本体描述模型的重要原因。 框架通常表示论域中的一个实体。实体由类或实例组成,表示一个类的框架叫做类框架, 表示一个实例的框架叫做实例框架。每个框架包含一些槽( s l o t ,相当于笔者常说的属性) , 这些槽具有一定的槽值。槽可以是一个二元关系,那么断言“一个框架f 的一个槽s 具有 槽值v ”则表示f 和v 之间存在关系s ,记为( sf ¥) 。提供了每个槽包含一些面( f a c e t ) , 每个面都具有一定的面值即可以通过几个方面来描述一个属性。面也可以是一个三元关系, 记为( f asf rv ) 。框架系统具有可继承性。框架和实物之间可以进行不精确匹配。 在由框架表示的本体中,从特殊到一般,主要的基本关系有以下几种: l 、类关系s u b c l a s s i n g :c 1 :c 2 ,表示c 1 是c 2 的一个子类。 2 、属关系i n s t a n c eo f :0 :c ,表示0 是类c 的一个实侧。 茎壹茎兰要主兰垡笙兰 茎查堡箜墨塑鍪堡叁堕塑! ! 翌 3 、分与整体关系p a r t o f :0 1 c 2 ,意味着类c 1 的所有实例都必有 一个属性a ,而a 在类c 2 的实例中取值:即c l 有一个槽a ,通过这个槽可与c 2 相联系。 5 、属性值a t t r i b u t ev a l u e :o a 一 v ,表示实例o 一个属性( 槽) a ,而a 的值为v 。 6 、自定义关系r e l a t i o n s :形如p ( a l ,a 2 ) 的能由通常的基于逻辑的谓词表达式。 复杂的关系,可以通过以上基本关系和谓词逻辑表示出来,遥常是采用一阶谓词逻辑。 从框架的有关理论可以看出,它较符合人的习惯思维模式。它的建模原语、基本关系与 p e r e z 等人有关o n t o l o g y 建模的经典理论非常接近;因此,采用框架作为本体描述模型,有 利于将本体的基础理论研究的成果应用到具体建模工作中。 2 2 5 以框架、描述逻辑为基础的综合描述模型 在上个世纪末的数据集成领域,对本体的框架表示和描述逻辑表示及其相关的研究都取 得了长足的进步,但基本上是各自为政,自成体系的。进入本世纪以来,随着i n t e r n e t 、 i n t r a n e t 的不断发展,许多企业、企业联盟都采用w e b 技术管理数据,数据量呈现爆炸性增长, 各数据源间的异构情况也越来越复杂,迫切需要智能化程度高同时又不失判定性的集成系 统。这就要求我们在采用具体的本体表示语言时,尽量能综合框架和描述逻辑的优点,并适 合于w e b 环境。经过研究发现,国际万维网组织推荐的i l d f ( s ) o i l d a 儿0 礼语言体系,能够 较好地适应这个要求。 1 、r d f r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) “”是w 3 c 在置m 1 的基础上推荐 的一种语言标准,用于表示任何的资源信息。r d f 提出了一种简单的模型用来表示任意类型 的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示w e b 上的 资源,弧用来表示这些资源的属性。r d f 的数据模型采用的是一种三元组( 属性资源值) 或( i m 语主语宾语) 的表达方式,由于任何复杂的关系都可以分解为多个简单的三元组, 因此r d f 的数据模型可以作为其他任何复杂关系模型的基础模型。w 3 c 推荐以r d f 为基础来解 决) 。也的语义局限。 r d f 和x m l 是互为补充的”。首先,r d f 以一种标准化、互操作的方式来规范x 札的语义。 x m l 文档可以通过简单的方式实现对r d f 的引用。其次,由于r i ) f 是以一种建模的方式来描述 数据语义的,这使得r d f 可以不受具体语法表示的限制。但是r d f 仍然需要一种合适的语法格 式来实现在衄上的应用。将r d f 序列化为x 札表示- r p a 使r d f 获得更好的应用可处理特性,并 使得r d f 数据可以像) 咖。数据一样的容易使用、传输和存储。 因此,r d f 是定制x m l 的良伴,而不只是对某个特定类型数据的规范表示,p j ) f 和x 札的结 合,不仅作为实现数据基于语义描述的基础,也充分发挥了x 6 l l 与r d f 的各自优点,便于w e b 数据的检索和相关知识的发现。 与) 凹冲的标记( t a g s ) 类似,r d f 中的属性( p r o p e r t i e s ) 集也是没有任何限制的。也 就是说存在阿义词现象和一词多义现象。r d f 的模型不具备解决这两个问题的能力,而f j ) f s c h e m a 虽然可以为r d f 资源的的属性和类型提供词汇表,但是基于r d f 的数据语义描述仍然可 能存在语义冲突。为了消解语义冲突,我们在描述数据语义的时候需要通过引用本体的相关 技术,对语义描述结果作进一步的约束。幸运的是,r d f 和r d fs c h e m a 在提供了简单的机器 可理解语义模型的同时,为更高级的本体语言( o i l ,o w l ) 提供了建模基础,并使得基于r d f 的应用可以方便地与由高级本体语言所生成的本体进行合并。r d f 的这一特性使得基于- r d f 的语义描述结果具备了可以和更多的领域知识进行交互的能力,也使基于) 观和r d f 的w e b 数 据描述且各了良好的生命力。 查妻查兰鍪圭兰垡堡壅 一一苎主奎堕堕墨塑墼堡墨堕堕! ! 垦 2 、0 i l o i l ( o n t o l o g yi n f e r e n c el a y e r o n t o l o g yi n t e r c h a n g el a n g u a g e ) 。0 i l 是一种针对 本体的基于互联网的表现和推理层。它是在1 9 9 9 年后由欧洲的学者发展起来的,起因是一批 支持语义互联网的研究者发现r d fs c h e a 作为模式语言其表达能力根有限,希望开发一种有 更强的表达能力的模式语言。 o i l 综合了三个不同团体的工作,提供一种通用的黜的标记语言。这三方面的工作分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论