(计算机软件与理论专业论文)本体在高校异构数据库集成中的应用.pdf_第1页
(计算机软件与理论专业论文)本体在高校异构数据库集成中的应用.pdf_第2页
(计算机软件与理论专业论文)本体在高校异构数据库集成中的应用.pdf_第3页
(计算机软件与理论专业论文)本体在高校异构数据库集成中的应用.pdf_第4页
(计算机软件与理论专业论文)本体在高校异构数据库集成中的应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本体在高校异构数据库集成中的应用 专业名称:计算机软件与理论 姓名:李元初 导师姓名:陈启买 摘要 近年来,随着计算机与网络技术的迅猛发展以及我国教育信息化进程的不断 推进,高校数字化校园建设正如火如荼地进行中。然而,高校内存在着许多独立 的系统,这些基于不同时期、采用不同的技术标准或规范建立起来的系统,不但 缺乏统一信息编码标准或规范,数据分布冗余存储,造成了数据的语义异构,信 息共享困难。基于此,开展有关数据集成与共享的模式研究,以建立统一的数据 共享交换平台,是当今高校数字化校园建设的关键问题之一。 本文结合数字化校园系统层次结构特点,在分析数据集成应用解决方案及关 键技术基础上,提供了适应于建立数字校园统一数据平台的解决方案。 该方案引入本体描述异构数据库模式语义信息,该本体描述了高校领域的重 要概念,为数据集成应用提供全局视图,使用数字校园数据层的共享数据中心存 储。同时,该方案提出了基于本体的异构数据库集成框架,建立基于该框架的原 型系统。该系统可作为数字校园支撑层的基础服务发布,用于整合校内信息资源, 提供跨库检索基础功能,对促进数字校园之数据集成与共享具有重要意义。 关键词:数据集成,本体,语义集成,数字化校园,语义w e b a p p lic a tl0 no fh e t e r o g e n e o u sd a t a b a s ein t e g r a t10 n a b s t r a c t b a s eo n t o l o g yinc a m p u s m a j o r :c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :l iy u a nc h u s u p e r v i s o r :c h e nq im a i i nr e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to fe d u c a t i o n a li n f o r m a t i z a t i o na n d c o m p m e rn e t w o r k ,e v e r yc o l l e g eh a si n v e s t e dal o to fr e s o u r c et ob u i l dt h e i rd i g i t a l c a m p u s h o w e v e r , v a r i o u sd e p a r t m e n t sh a v eo w no p e r a t i o n a lc h a n n e l ,s y s t e m sw h i c h w e r eb u i l tf o rt h e i rd e p a r t m e n to p e r a t ei n d e p e n d e n t l y a sar e s u l t ,t h ef o r m a t i o n ”t h e i n f o r m a t i o ni s o l a t e di s l a n d ”,c a u s e st h ei n f o r m a t i o nt r a n s m i s s i o ni n s u f f i c i e n t l yt ob e p r o m p t t h ed i g i t a lc a m p u si sa i mt ob u i l du pau n i f o r md a t ap l a t f o r mw h i c hc o u l d s o l v et h e “i n f o r m a t i o ni s l a n d ” a f t e ra n a l y z i n gt h es t r u c t u r eo fd i g i t a lc a m p u sa n dt h ek e y t e c h n i q u eu s i n gi nt h e d a t ai n t e g r a t i o n ,t h i sp a p e r p r o p o s eas o l u t i o nt ob u i l dt h eu n i f o r md a t ap l a t f o r m t h ep l a t f o r mi n t r o d u c e s o n t o l o g y t or e s o l v es e m a n t i c h e t e r o g e n e i t y t h e o n t o l o g yw eb u i l td e s c r i p tc o n c e p ti nt h es c h o o lc o m m u n i t y , i tc o u l ds e r v ea sag l o b a l v i e ww h i c hi su s e df o rd a t ai n t e g r a t i o na p p l i c a t i o n t h eo n t o l o g yi ss t o r e di nt h e s h a r e dd a t a b a s ec e n t e r a n da l s o ,w ep r o p o s eo u ro n t o l o g y b a s e di n f o r m a t i o n i n t e g r a t i o nf r a m e w o r kb a s e do nt h ea r c h i t e c t u r eo f “m e d i a t o r w r a p p e r ,m i x e d o n t o l o g ya n dj m st e c h n i q u e t h ef r a m e w o r ki sv e r i f i e db yt h ep r o t o t y p es y s t e m 。t h e f u n d a m e n t a ls e r v i c ec o u l db ep u b l i s h e da tt h es u p p o r tl a y e ra sa w e b s e r v i c e ,u s e dt o c o m b i n et h ed a t as o u r c ea n dr e t r i e v ei n f o r m a t i o na c r o s sd a t a b a s e k e yw o r d :d a t a i n t e g r a t i o l l o n t o l o g y , s e m a n t i c i n t e g r a t i o n , d i g i t a lc a m p u s , s e m a n t i cw e b u - 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。 本人完全意识到此声明的法律结果由本人承担。 论文作者签名:鹰元纫 日期:西年6 月0 日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定移l 构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在年后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名:撕 日期:铝年6 月0 日 导师签名: 伽乞 日期:伊孑年参月f p 日 本体在高校异构数据库集成中的应用 1 1 研究背景及意义 第1 章绪论 高校异构系统形成的一个个信息孤岛引发的数据集成与共享需求与应用是 高校数字化校园建设需要重点整合的核心内容之一。建立数字化校园统一数据集 成与共享平台,向下屏蔽各异构信息源异构性,向上提供数据集成基础服务,已 经成为当今高校数字化校园建设之关键任务而备受关注。 近年来,随着语义w e b 的进一步发展,其核心技术本体在数据集成方面得 到了应用。本体作为共享领域概念模型,可以通过定义领域内一致的术语和术语 间的关系来描述异构信息源的语义信息,从而消除异构数据源的语义冲突。 在国外,对本体的研究较早,本体已经应用到各个领域。相比国外,国内对 本体的研究起步较晚,尤其是在高校内,缺乏一致的本体模型,相关的应用也少。 因此,如何把本体技术应用到高校领域,消除高校异构数据库模式的语义冲 突,从而解决高校异构系统导致的信息孤岛问题,构建统一的数据平台,具有一 定的研究意义和实用价值。 1 2 数据集成方法概述 目前主流的数据集成方法有中间件集成方法和数据仓库,它们各有优缺点, 可适应不同的需求 ( 1 ) 数据仓库 数据仓库1 是一个面向主题的、集成的、非易失的、随时间变化的用来支持 管理人员决策的数据集合。数据仓库包含粒度化的企业数据。 数据仓库可由数据源、数据准备区、数据存储、应用工具和用户界面组成如 图1 1 所示。 数据仓库是一种紧耦合的数据集成,是一种“数据驱动 的模型。“数据驱 动 是将各个数据源的数据预先集成,并存在共享库中,供用户直接查询和分析, 本体确:高校异构数据库集成中的应用 其优点查询响应速度快,而且可以保存大量有用的历史数据缺点是不能满足对 数据的实时需求。 图1 1 数据仓库法的系统结构 ( 2 ) 中间件方法 中间件方法又称虚拟视图法,该类集成系统通常拥有一个全局模式,查询相 对于全局模式。g w i e d e r h o l d 最早给出了基于中间件的数据集成方法的框架口3 , 如图1 2 所示。基于中间件的数据集成系统不仅能够集成结构化的信息,如数据 库,还可以集成半结构化或非结构化数据源中的信息,如w e b 信息。斯坦福大学 g a r c i a m o l i n a 等人开发了t s i m m i s h l 系统,就是一个最典型的中间件系统。 中间件数据集成注重于全局查询的处理和优化。相比数据仓库,查询相应 速度较慢,但能满足数据的实时要求。 一2 一 本体在高校异构数据库集成中的应用 界用户 图1 2 基于中间件的数据集成模型 随着x m l 作为跨平台的数据格式,应用产生了大量的x m l 数据,基于中间件 的集成系统相继引入x m l 描述数据源模式陆r n l | ,作为集成和交换的主要手段。 近年来,语义w e b 蓬勃发展,其核心技术本体可用于描述数据源信息的语义, 基于本体的集成系统n 邑1 3 大量涌现,这类系统依赖本体推理机来完成从映射验证 到查询分解等中间件集成系统的关键功能,简化了开发的难度,并且是信息集成 具有了智能化的程度。 语义网的发展得到了产业界的大力支持和各国政府的大量资助。美国政府设 立了d a m l 项目,欧盟第六研究框架计划也将语义网作为关键内容。w 3 c 发布了 本体描述语言推荐标准o w l 。 总之,随着语义w e b 在政府、企业、标准化组织的进一步推动下,基于x m l 的中间件集成系统正在向基于本体的中间件数据集成系统转变。在这种环境下, 本文将结合本体和中间件的数据集成方法来解决高校异构数据库资源的集成与 共享问题。 一3 一 本体在高校异构数据库集成中的应用 1 3 数字化校园下的本体 1 3 1 数字化校园建设本体需求 1 数据资源整合角度 以数据为中心、服务为导向是数字校园的建设理念。这要求对校园内的各种 信息资源进行广泛共享,以服务的形式发布,供教师、学生、管理人员使用。 然而高校中现存由前期信息化建设遗留下来的部门应用系统,这些系统的应 用平台不一样,数据存储的格式、规范以及语义各不相同,造成了信息孤岛。对 i e t 系统的所管理的数据资源进行集成可以解决数据共享问题。 高校的信息主要由数据库存储,然而由于独立开发,大量冗余数据往往存储 在多个部门数据库中,这些数据库的模式各不一样,于是产生了数据的语义冲突 问题,如何要解决语义冲突是数据集成考虑的首要问题。 本体作为领域内的共享概念模型,可为遗留数据库的数据语义提供共享一致 明确的参考,使用基于本体的数据集成方法为校内遗留数据集成提供了契机。 2 数字化校园标准化角度 国内、外信息化建设成功经验证明,信息化系统建设必须基于信息化建设标 准( 规范) 的支持,统一数字校园建设标准( 规范) 是校园网络互联互通、校园 信息共享、校园业务协同等的基础与前提。 标准化建设的一个重点是信息的标准化问题,即系统的数据表示需要按照一 定的标准编码,方便数字化校园系统内部以及行业之间的数据交换。 可参考的标准有官方标准:包括教育部教育管理信息化标准和教育信息 化技术标准委员会出台的相关标准,以及地方政府和教育主管部门制定的标准 等。国际标准,如i m s 的学习资源元数据规范( l e a r n i n gr e s o u r c em e t a d a t a , l i u 订) 。 目前,随着语义w e b 技术的推动,本体己成为了国际主流的元数据规范标准, 采用本体可以对校园内的信息语义进行标准化,进而使用本体作为校内标准信息 编码的手段是十分可行的。校园的信息编码是要在学校的统一规划下制定,各校 内组织机构都要遵守的一套规范,而这也与本体的领域共享特性相一致。 一4 一 本体在高校异构数据库集成中的应用 3 智能化角度 智能化,是数字化校园应有的特点。从技术的角度讲,智能化就是自动化, 就是通过一系列智能技术,使设备或者系统部分地具有人的智能,从而能够部分 地代表人的劳动;从管理角度,智能化实现了校园教学与管理的辅助决策支持, 实现了教学资源的科学、合理调配与极大化应用,实现了人才的个性化培养。 以校内的信息检索系统为例,都是基于关键字匹配的检索,如输入查询关键 字为“电脑 ,对只能识别关键字为“计算机 系统来说是得不到相应的结果。 为此,人们引入了智能检索,是一种基于知识库的检索方式。在数据资源之上建 立一个具有丰富知识的专家知识库,对知识库的查询通过智能代理对知识库的推 导映射到相关的数据资源,从而提出所要结果。智能代理、知识库的表示都要应 用本体。因此,本体是校内系统从单纯的业务化向智能化过渡的必要手段,同时 拥有智能化的系统会延伸出个性化的特性,这都切合数字化校园的终极目标。 4 数字校园标准体系结构角度 数字校园的标准体系如图,一般分为网络层、数据层、支撑层、业务层以及 展示层。其中数据层是整个系统的软基础。而在数据层中,共享数据库中心瞄1 是其核心。支撑层为业务层各业务系统提供基础服务。 由图1 3 中可看出,在支撑层中一个核心的重点建设方面是要建立统一的数 据平台,这个平台向上提供给业务系统信息共享或数据交换的基础服务,这类服 务对校内各分布异构数据库提供统一访问接口,屏蔽了异构性。 对数据集成性质的服务可用中间件的方式实现,中间件的方式通常需要一个 全局视图,可以使用本体作为全局视图,本体作为信息编码的手段可以存储在数 据层的共享数据库中心。这样一来,基于本体的信息集成框架有望成为数字化校 园的信息集成应用标准。 一5 一 本体在高校异构数据库集成中的应用 图1 3 数字校园相关标准体系示意图 1 3 2 基于本体的数据集成系统研究 基于本体数据集成系统研究和开发工作自上世纪九十年代末逐步开展,并不 断发展,可以从本体性质、本体集成架构以及本体与信息源的关联方式角度划分 这些系统。 根据系统所使用本体性质不同,可以分为基于描述逻辑n 4 15 1 6 1 的本体的数据 集成系统和基于框架的本体的数据集成系统。基于描述逻辑本体的集成系统代表 有o b s e r v e r 17 】,b u s t e r n 8 1 ,s i m s n 9 3 等。基于框架的本体集成系统代表的有c o i n 刎, o n t o b r o k e r 乜妇等。相比较而言,基于框架的本体的语义表达能力更加丰富,而 且更易于被人阅读;而基于描述逻辑的本体有更严谨的数学基础,基于描述逻辑 的推理是可判定的。因此,人们在可判定性和语义表达性方面综合了描述逻辑和 框架的优点,产生了新的本体表示语言,如o w l 。 本体集成架构可分为单本体、多本体和混合本体。单本体方式的集成系统代 表有s i m s ;多本体方式的集成系统代表有o b s e r v e r ;遵从混合本体集成方式的 代表系统有c o i n ,b u s t e r ,m e c o t a 眨劲。一些系统提供了框架能够综合使用三种 集成方式,如d w q 乜引。对本体集成方式的讨论见第3 章。 一6 一 本体在高校异构数据库集成中的应用 本体与信息源关联方式有4 种。一种是利用本体直接复制数据库模式项,这 类代表系统有s i m s ,t s i m m i s ;一种是为了使数据库的语义更加清晰,除了定义 相对应模式的本体词汇外,还额外添加了词汇,这类代表系统有b u s t e r ;第三 种是综合了上述两种方式,代表的系统有o b s e r v e r 。最后一种是元数据的关联 方式,这主要是使用本体对w e b 上的网页内容进行标注,能够处理这些标注的系 统有o n t o b r o k e r 。 较之国外,国内的对基于本体的数据集成起步较晚,但也有了一些成果, 如清华大学计算机系软件研究所知识工程研究室承担的国家自然科学基金项 目“限定领域内基于语义的内容管理关键技术及其应用 ,其中应用集 成是内容管理的关键技术之一,而应用集成研究主要分为用户界面集成、 数据集成、功能集成三种类型,因此,该项目也对数据集成作了相关研究。还有 北京大学计算机科学技术系承担的国家重点基础研究发展规划9 7 3 资助的“网络 环境下海量信息组织与处理的理论与方法研究”项目中,就重点对于“面向内容 的海量信息集成、分析处理与服务 这一课题进行了研究。 1 4 本文研究内容 本文主要从数字化校园的角度出发,提出建立高校本体的思路,充分描述学 校所有数据源存储信息的语义,把高校本体作为学校的信息标准存储于数字化校 园的共享数据库中,并根据特定的集成需求,扩充该本体,作为集成数据的统一 视图,在分析了基于本体的语义集成基础上,提出了基于本体的异构数据库集成 框架,开发了基于该框架的实验系统作为数字化校园支撑层中的统一数据平台。 1 5 论文结构 本文按照如下方式组织: 第l 章主要对课题的背景及意义、数据集成的方法、本体在数字化校园中 的角色、论文研究的内容和主要工作以及论文的组织结构做了相关介绍。 第2 章探讨了数据库领域的异构模式映射相关技术,并引入本体作为解决 模式语义异构的有力工具,分析了其优势所在。 一7 一 本体在高校异构数据库集成中的应用 第3 章分别从架构、映射发现、映射的形式及用途的角度,全方位的阐述 在本体领域的语义集成的方式方法。 第4 章从本体工程学的角度,论述构建本体的方法学理论,介绍了w 3 c 推 荐的本体语言o w l ,最后提出高校本体建设思路和开发步骤。 第5 章在前文的基础上,提出了基于本体的异构数据库集成框架,分析了 框架的层次结构,讲述了利用该框架解决语义异构的规则,分析了框架的关键技 术。 第6 章最后利用第5 章提出的框架,在j a v ae e 为服务器平台开发了实验 系统,给出了该系统的体系结构图和关键模块的算法。 第7 章总结了本文的工作,分析了实验系统性能瓶颈,并提出了如何对集 成框架进行演化的设想。 一8 一 本体在高校异构数据库集成中的应用 第2 章数据库集成与本体 2 1 数据库集成 随着计算机网络的广泛应用,企业和高校中各种分布的、异构的数据库的集 成问题已成为数据处理技术研究的热点。如何集成、访问这些数据的一个关键问 题是要提供给用户一个统一的视图,从而屏蔽它们的平台、系统环境、内部数据 结构等方面的异构性,使得用户不必了解各数据库管理系统的知识,不必自己 进行数据转换和汇总,只要通过简便的全局查询就可以从巨大的数据资源中获 取所需的信息。另外选用合适的技术进行数据分析、集成和处理 以高校为背景,高校各个部门已经建立起了运行良好的各个自治系统,这些 系统只满足部门的需求,由于部门信息化的阶段性和分布性,这些系统开发所在 的操作系统平台,所使用的数据库管理系统各不相同,大量冗余数据分布在不同 部门的系统,数据无法有效共享,形成了一个个信息孤岛,如图2 1 所示。 因此,数字化校园乜们。妲7 1 的一个目标就是在不废除运行良好的旧系统的情况 下,使用数据集成的办法对分布的异构的信息进行集成访问,由于高校普遍使用 数据库存储信息,集成的数据源针对的是异构的数据库。 ) 图2 1 高校应用系统分布图 一9 一 日 国回 本体在高校异构数据库集成中的应用 2 2 数据库的模式异构 现代数据库管理系统已经能很好的完成对数据的管理和存储访问的工作,但 是让多个数据库系统能够有效地互操作仍需解决很多具有挑战性的问题 一个基本的问题就是异构性,这种异构性存在于从数据库系统基于的硬件和 软件的平台到系统使用的数据模型和数据的模式,以及数据库存储的数据的量, 数据覆盖的范围。 由于关系型数据库在国内占了主流,可以不考虑数据模型的异构;另外使用 x m l 可以让数据跨平台使用,但是仍需解决数据模式的异构问题,数据模式指按 一定结构组织在一起的元素集合,可用来描述元素的属、性元素与元素间的关系、 语义约束等,在关系模型中就是表及属性定义、实体约束等;不同的应用系统使用 的数据的量和范围不同,数据库模式异构的存在是必然性。 数据库集成就是要通过模式映射嘞剐的方法消除模式异构,这种映射是建立 在数据语义一致的基础上的。模式映射是异构数据库集成中实现查询重写的关键 技术。研究表明,通常集成过程中超过一半的努力用于生成模式映射。现存集成 系统多由系统工程师通过图形用户界面手工定义映射,这是一项繁杂、耗时且容 易出错的工作。当前,i n t e r n e t 上的异构数据源呈指数级增长,数据源局部模式 或集成系统全局模式的复杂性不断提高,手工逐条定义模式映射已成为实现集成 系统的最大瓶颈。故尽可能减少手工参与,加大映射规则的自动化生成力度成为 普遍追求的目标。 如何建立数据模式的语义映射,使映射的正确性能的得到自动验证,自动生 成正确的映射,采用本体描述模式的语义将有利于上述功能的实现,将在2 4 节 说明。 2 3 模式映射 2 3 i 模式映射主要形式 模式映射主要有g a v 、l a v 、g l a v3 种啪1 形式。g a v 指全局模式作为数据源模 式上的视图被定义,如t s i 删i s “1 ,c o i n 等:l a v 指数据源模式作为全局模式上 一1 0 一 本体在高校异构数据库集成中的应用 的视图被定义:g l a v 是g a y 和l a v 结合的产物,由全局模式视图和源模式视图结合 而成。 采用6 a v 映射描述方式的集成系统通过查询展开( 分解) 技术处理查询,算 法比较简单,但系统扩展性差,不适宜数据源动态变化的应用场景,g a v 针对的是 数据源的研究,全局模式根据数据源的查询能力来定义。 采用l a v 映射描述方式的集成系统通过查询重写技术处理查询,算法复杂性 较高,但系统的可扩展性较好,l a v 主要针对的全局模式的研究,数据源的查询能 力要匹配相应的对全局模式的查询。 而g l a v 映射描述方式则综合了g a v 和l a v 方式的特点。以下给出3 种基本映射 方式的形式化描述,并举例说明。全局模式和源模式定义如下: 全局模式( t ) :课程( 课程名,开课年份,讲授老师) 2 0 0 0 - 2 0 0 8 的所有数据 计算机系教师( 教师名) 计算机系的教师表 课程评估( 课程,评定) 针对全校课程评估,从2 0 0 0 年开始所有数据 数据源( s 1 ) :r 1 ( 课程名,开课年份) 2 0 0 3 年至u 2 0 0 8 年的课程汇总 r 2 ( 课程名,教师,评定) 针对计算机系课程评估,2 0 0 3 开始 数据源( s 2 ) :r 1 ( 课程名,评定) 2 0 0 5 2 0 0 8 年的课程评估历史数据 ( 1 ) g a v g a v 映射是由以下两种形式的逻辑断言组成的集合: t 刍q s ( s o u n ds o u r c e )v x ( q s ( x ) 一t ( x ) ) t - q s ( e x a c ts o u r c e )v x ( q s ( x ) - - t ( x ) ) t 为t 中的一个元素,如关系数据库中的一张表。在源模式上的查询。x 是由 n 元变量组成的向量。e x a c t 分别为集成系统的两种假设,s o u n d 假设指数据源上 查询q s 的回答总是目标模式中元素t 外延的子集假设指数据源外延上查询q s 的 回答与全局模式中元外延相等。以下采用s o u n d 假设,举例描述映射定义。如:t : 课程( 课程名,开课年份,讲授老师) | ( 课程名,开课年份,讲授老师) is 1 :r 1 ( 课 程名,开课年份) a r 2 ( 课程名,讲授老师,评定) t :计算机系教师( d ) 卫 ( d ) ls 1 :r 2 ( 课程名,开课年份,评定) ) 一1 1 本体在高校异构数据库集成中的廊用 t :课程评估( 课程名,评定) 至 ( 课程名,评定) is 2 :r 1 ( 课程名,评定) t :课程评估( 课程名,评定) | ( 课程名,评定) l s l :r 2 ( 课程名,教师,评定) ) ( 2 ) l a y l a v 映射是由以下两种形式的逻辑断言组成的集合: se q t ( e x a c ts o u r c e )v x ( s ( x ) 一q t ( x ) ) s = q t ( e x a c ts o u r c e )v x ( s ( x ) 兰q t ( x ) ) s 为源模式s 中的一个元素,q t 为全局模式上的查询。 如:s 1 :r 1 ( 课程名,开课年份) e ( 课程名,开课年份) i t :课程( 课程名,开课年份, 讲授老师) 八开课年份2 0 0 3 s 1 :r 2 ( 课程名,讲授老师,评定) e ( 课程名,讲授老师,评定) i t :课程( 课程名, 开课年份,讲授老师) 八t :计算机系教师( 教师名) t :课程评估( 课程名,评定) s 2 :r 1 ( 课程名,评定) e ( 课程名,评定) l t :课程评估( 课程名,评定) 八t :课程 ( 课程名,开课年份,讲授老师) 八开课年份2 0 0 5 ) ( 3 ) g l a v g l a v 映射是由以下形式的逻辑断言组成的集合: q se q t ( s o u n ds o u r c e )v x ( q s ( x ) 一q t ( x ) ) q s = - 三q t ( e x a c ts o u r c e )v x ( q s ( x ) 三q t ( x ) ) q s 和q t 分别是源模式s 和全局模式t 上的查询。 如: ( 课程名,开课年份,讲授老师,评定) is 1 :r 1 ( 课程名,开课年份) a s l :r 2 ( 课程名,讲授老师,评定) e ( 课程名,开课年份,讲授老师,评定) it :课程( 课 程名,开课年份,讲授老师) 八t :计算机系教师( 教师名) 八t :评定( 课程名,评定) 八开课年份2 0 0 3 ) 2 3 2 模式映射过程 模式映射包含两个过程,一是模式匹配,而是映射生成。 一1 2 一 本体在高校异构数据库集成中的应用 ( 1 ) 模式匹配 模式匹配在许多数据库应用领域如数据集成、数据仓库中是一个基本问题。 目前大多数的集成系统使用手工方式定义模式匹配,但是随着模式的复杂性提高 和数量增多,纯手工方式定义匹配变得不切实际,人们迫切需要自动或半自动的 技术来定义匹配,2 4 节讲述了本体在这方面的优势。 传统的自动化或半自动化模式匹配技术是基于规则和机器学习的。 ( 2 ) 映射生成 映射生成基于模式匹配结果,产生符合模式语义约束的元素集与元素集之间 具有蕴含或相等关系的逻辑表达式,其形式化定义如:s l s 2 ,s l - * s 7 2 ,s 7 1 三s 7 2 ,其中s 7 1 和s 2 为模式元素项集合。 s l s 2 指s 2 作为s l 的视图被定义,其他略。映射规则通常采用逻 辑表达式、查询表达式来描述,如d a t a l o g 、一阶逻辑( f o l ) 、s q l 、x q u e r y 等。 近期,x m l 因其自描述、可扩展等特性,成为i n t e r n e t 上数据交换的公认准,x m l s c h e m a 亦成为描述数据源模式的主流。相应地,基于x p a t h 的x m l 查询语言 x q u e r y 就成为描述模式映射的主要语言。 2 4 使用本体的数据集成优势 本体即“共享概念模型的明确的形式化的规范说明”1 ,因此,本体可以在 集成任务中明确的描述信息源的语义和使内容变得明确。在数据源集成中,它们 被用于识别和关联信息概念的语义。既然模式映射的过程就是要消除数据模式的 语义异构,那么使用包含语义信息的本体描述数据模式的语义,建立在语义一级 的本体映射有如下的优势: 1 ) 数据集成角度 数据集成系统通常都有一个全局模式,数据源的局部模式到全局模式的映射 是基于语义的,这样的全局视图才是对用户可理解,通过开发领域本体,使该领 域的数据模式的项( 如字段、属性) 有一个在领域一致的语义,这样在单本体的 情况下,这个领域本体可作为全局视图;对于特定集成应用,如果领域本体不能 完全覆盖数据的语义,可以通过一致的扩充领域本体生成特定集成应用的本体, 该本体同样可作为该特定应用域的全局视图,扩充同一领域本体的特定域本体的 一1 3 本体在高校异构数据库集成中的应用 集成系统之间同样可以实现数据的集成,这通过领域本体与特定域本体的映射完 成,具体为混合本体方法,将在第三章详细讲述。 总之,使用本体构造全局视图具有良好的扩展性,可以从全局的角度把握领 域内数据的语义,以便重用。 2 ) 模式匹配角度 模式匹配在源模式与目标模式之间匹配的项的数目形式有l :1 、1 :n 、n : 1 、m :n 等形式,其中m :n 的形式为复杂匹配,如l i s t e d p r i c e = p r i c e * ( 1 + t a x r a t e ) , 其中p r i c e 和t a x r a t e 来自不同的目标模式的字段。在数据库领域,如何自动的或 半自动的发现复杂匹配都是一个很困难的事情,相关的研究也不多。直到本体技 术发展后,人们开始可以开发一些通用的技巧去发现复杂匹配,其中一个观点【3 l l 是就是依靠领域本体( x u & e m b l e y2 0 0 3 ) ,x u 和e m b l e y 认为寻找两个模式间的 复杂匹配,首先要建立模式与领域本体的映射,然后通过模式从本体中继承而来 的关系,通过关系推导找到模式之间的项的匹配,而这在传统的数据库领域要通 过启发式的机器学习才能完成,由于本体有严格的语义,通过对本体推导可找到 的复杂匹配更加的准确。 3 ) 映射发现角度 无论在数据库领域还是本体研究领域,数据集成都要通过映射完成,然而当 数据源急速增多时,人为很难把握大量数据源的所有语义,出错率也较高。因此 如何半自动和自动的发现正确的映射是一个目前和将来的研究热点。在国外已有 语义集成工具自动生成两个本体的映射,不过它要求两个本体一致扩展一个公共 的本体,如果过程规范语言( p r o c e s ss p e c i f i c a t i o nl a n g u a g e ) 实际上是一 个本体,由美国国家标准研究计划局研制,并被i s o 签署为国际标准。p s l 设计 用于方便处理信息在制造系统之间正确完整的交换。g r u n i n g e r 和k o p e n a 开发 了一个集成框架,p s l 本体处于中心位置,任何开发扩展p s l 本体的开发者都被 询问一些问题,通过这些问题系统生成扩展本体到p s l 的映射,利于这些映射, 扩展本体之间可以通过系统自动生成扩展本体之间的映射。 4 ) 查询处理角度 当模式的语义由本体来表示后,模式的映射上升到本体的层次,数据集成上 升到本体的集成。对全局模式的查询实际变为对全局本体的查询。本体作为一种 一1 4 本体在高校异构数据库集成中的应用 知识库的表现形式,它依赖推理机进行知识推导,因此可以利于推理机对全局本 体进行推理,生成局部本体的映射。映射可以用一阶逻辑表示,由于一阶逻辑不 可判定,因此可以取它的子集,只要可判定,文献口町利用o w l 本体的推导,把对 全局o w l 本体的查询转换为一阶逻辑可推导的形式,加上相应的约束使表达式可 判定,同时也将o w l 的基于描述逻辑的知识库转换为一阶逻辑作为基础推倒库, 相应的对全局本体的查询可以在一阶逻辑的推导过程种自动转换为目标本体的 查询。 一1 5 本体在高校异构数据库集成中的应用 第3 章基于本体的语义集成 在许多领域,数据源数量和存储的数据量不断膨胀。然而用户常常需要一个 来自异构数据源的集成视图。数据源的异构可分为两类,一种是数据的异构:另 一种是数据的语义的异构。数据的异构涉及数据的本地定义的不同,例如属性的 类型、格式以及精度,这类异构可以很容易解决。语义的异构是指数据所代表的 语义的相同和不同,例如两个来自不同局部数据源的模式的元素,它们有相同的 意思却使用不同的名字,反之使用相同的名字却有不同的意思。 因此,完备的有效的数据集成要能发现模式元素间的语义冲突,在集成过程 中,数据的语义要被考虑进来,语义是人们根据对现实世界的理解而对数据做出 的解释。对数据不同的解释造成了语义的异构。在数据库领域,语义指的是模式 元素的所代表的意义。模式是数据的组织方式,完成于数据的逻辑设计阶段。在 数据集成中,局部数据库提供局部信息的数据模式,集成的目标是开发一个统一 的正确的全局视图( 模式) ,这个模式集成了个局部模式,用户通过全局视图的 查询获得各集成局部数据库的信息,全局视图是语义一致的,屏蔽了局部数据模 式的语义冲突,如果语义冲突得不到解决,那么从全局视图查询获得的数据将是 不正确的,也不会被用户察觉到。 本体作为领域内共概念的形式化规范说明,定义了一套领域内共享的词汇和 词汇间的关系集,可用于定义不同局部模式元素的语义,使语义在本体的到统一, 使用本体是解决局部模式元素语义异构的自然而有效的方式。然而一个领域内通 常根据集成需求会有不同的扩展本体( 局部本体) ,它们扩展同一个领域本体。 而且不同的领域往往存在着不同的本体,如何在让同一领域的数据和不同领域的 数据多能够得到集成的访问,和数据库领域的模式映射相似,需要考虑本体的映 射问题,即语义的集成要在本体一级解决。 本章将从本体集成的架构角度、映射发现的机制,映射的作用的角度阐述基 于本体的语义集成的方方面面。 一1 7 本体在高校异构数据库集成中的应用 3 1 本体集成的架构 起初,本体作为概念的明确的形式化规范口3 1 被引入,因此本体可以在集成任 务中描述信息源的语义和使内容更加明确。但是在不同的集成项目中,如何使用 本体去描述信息源的概念却有着不同形式。通常可以有为三种方式:单本体、多 本体和混合本体法。下图是这三种集成架构的概括图。 单本体方式 b ) 多本体方式 3 1 1 单本体方式 混合本体方式 图3 1 本体集成架构图 单本体方法使用一个全局本体为语义的规范说明提供了一个共享的词汇。所 有领域内的信息源的语义都关联到一个全局本体。这种方式的本体集成的代表应 用s i m s n 引。s i m s 应用的领域模型是包含有一个基于知识库的术语层次,每一个 信息源只是简单的关联到这个全局的领域本体。 全局本体也可以由多个子本体合并而成,子本体相当于一个大本体的一个模 块,可以使用本体的导入机制支持本体的模块化开发。 一1 8 本体在高校异构数据库集成中的应用 单本体适用于所有的信息源描述的领域的视图相近或一致,如果其中一个信 息源的视图与其它的不一致,如使用了不同的粒度描述概念和关系,那么找到所 有信息源都能遵守的最小规约m 1 将是一个困难是的事情,而且当集成信息源改变 时,全局本体描述的概念也要做改变,不适应于信息源经常变更的情况,这些不 足导致了多本体的集成方式的发展。 3 1 2 多本体方式 在多本体方式下,每个信息源都有描述自身的局部本体,例如在 o b s e r v e r t l 7 1 应用中,每个信息源的语义都由一个独立的本体描述。原则上每 个局部本体可以通过单本体的方法集合多个子本体生成,但是局部本体之间不共 享相同的词汇。 多本体的优点不需要一个共享和最小本体规约。对应每个信息源的局部本体 可以独自开发而不用考虑其他信息源。这种集成架构既简化了集成任务,同时也 适应了信息源多变的情况,添加或删除信息源不会影响局部模式。另一方面,为 了完成信息在数据源间的交换,需要定义局部本体间的映射,映射表明了局部本 体术语间的对应关系,通常是术语语义等价或相似关系,同时映射也要考虑局部 本体的领域视图的不同,如概念的粒度、聚集程度,因此定义局部本体间的映射 有时是十分困难甚至不可能完成的事情。 3 1 3 混合本体 为了克服上述两种方式的缺点,混合本体的方法被提出。类似于多本体方式, 混合本体方法中每个信息源的语义都由它们自己的本体描述,但为了使局部本体 间可比较,局部本体应该扩展同一共享全局的词汇。共享的词汇包含了领域的基 本术语,它可以被局部本体扩展以定义更加复杂的语义,有时这个共享的词汇是 一个本体。 在混合本体方式中,一个有趣的观点是局部本体如何被描述。在c o i n 项目 中【2 0 l ,局部本体作为一个属性值向量描述,局部本体的术语来自全局领域本体, 但是数据属于局部本体。而在m e c o t a t 2 2 1 ,每个局部信息源的概念由来自一个 或多个全局术语通过操作符连接的表达式标注。在b u s t e r t l 8 】中,共享的词汇 一1 9 一 本体在高校异构数据库集成中的应用 由一个通用的本体定义,它覆盖了所有可能的限制,这个通用的本体定义了概念 的属性值的范围,而局部本体所做只是在这个范围定义更具体的属性值范围,因 为局部本体没有定义自己的术语,所有术语都来自全局本体。 混合本体的优点在于:新的集成数据源可以很容易被添加或更改。它还支持 本体的合并和进化。使用共享的词汇使得局部本体之间可比较,避免了多本体方 式的缺点。但是混合本体的缺点是不能利用已存在的本体,因为局部本体间要遵 守最小的约定,已存在的本体必须重构。 3 2 本体映射发现机制 许多研究者同意:语义集成的其中一个主要的瓶颈是映射的发现。这是因 为现存有太多的本体和数据库模式,而且它们都很大,这导致手工的定义它们间 的映射通常是不可能完成或者容易出错的任务。进一步,下一代的语义w e b 的环 境中,智能代理需要跨越不同的w e b 应用而得到重用,它的跨越需要从旧结构到 新结构的映射。因此,如何自动或半自动的发现映射在数据库领域和本体领域一 直是一个活跃的研究领域。 目前,本体间映射发现机制主要可分为两种。第一种源自于本体的目标一 本体是为了方便知识的共享,所以本体通常为了用作语义集成基础的目的而被构 建。这里的观点是一个通用的上层的本体,在不同应用开发者的一致同意下被构 建,然后基于特定领域扩展上层本体的概念和关系,只要这个扩展一致的,不违 背全局本体的一致性,那么扩展本体之间的映射自动发现将会变得容易的多。另 一种本体映射发现机制是基于启发式或机器学习的方式,这类方式使用了本体的 各种各样的特征,如它们的结构、概念定义、类的实例,去寻找本体映射。下面 将对这两种方式进行详述。 3 2 1 使用共享本体 这类方式通常可认为是自顶向下方式。 已经有许多通用本体正式定义一些通用概念如过程、事件、时间、空间、实 体对象等。其中一些已被接受为标准。这类本体的构建目的是希望特定领域的本 体能够扩展它们,从而为这些本体提供共享词汇。要注意的是这里不同于信息集 一2 0 本体在高校异构数据库集成中的应用 对应关系。根据本体是否扩展同一个上层本体,语义相似度的定义也不同。 文献啪1 研究了利用本体术语的语义关系来定义全局模式,这些术语来自不同 的领域本体,但限制这些本体参考同一的上层本体,把术语( 概念) 可表示为描 述逻辑,该描述逻辑表达式引用相同的上层本体的概念。因此术语间的语义关系 变得可比较,总共定义了四种语义关系,分为不相交、重叠、特化以及等价关系, 人为参与和半自动的方法结合去查找这些关系,通过参考不同术语间的语义关 系,合并不同的领域本体,合并过程利用了推理引擎完成。最后利用合并本体产 生全局模式,这一步需要一个模式集成器,它参考合并本体与领域本体的语义映 射关系,按照规则定义了全局模式与局部模式的对应关系,该全局模式作为联邦 数据库的模式,从模式中可以得到不同领域数据源的信息。 另一种语义相似度定义并不要求领域本体扩展同一本体,而是利用本体语言 的特征,如注释,标签、属性定义域和值域,属性约束、类的继承关系等,这主 要因为本体语言的标准化和规范化,利用标准化的语言特征可以使术语间的语义 定义也变得标准化,更加通用。e u z e n a t 和v o l c h e v 刚就定义了语义相似度的定 义,它利用了w 3 c 推荐的本体语言o w l 特征来评判代表术语间语义相似度的权值。 总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论