已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)从关系数据库学习owl本体的方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语义w e b 的中心问题是如何把数据表示为机器可理解的形式,以便数据能被跨应 用和跨企业地共享和复用。本体是实现语义层次上信息共享和交换的基础,被认为是语 义w e b 的关键使能技术。于是,实现本体方便快捷的开发是语义w e b 技术得以广泛应 用的前提。但是,用现有本体编辑器手工开发本体是一项冗长而繁琐的工作,极易导致 知识获取的瓶颈,因此本体学习( o n t o l o g yl e a r n i n g ) 技术应运而生。关系数据库模式中 蕴涵着领域知识,是w e b 本体学习重要的知识源。研究从关系数据库学习o w l 本体的 方法对数据密集型w e b 站点向语义w e b 迁移、动态网页语义标注、语义门户网站开发 具有现实意义。 针对现有相关研究的不足,本文提出了一种从关系数据库半自动学习o w l 本体的 方法,并实现了一个相应的原型工具o n t o l e a m e r 。该方法首先使用关系数据库及其实 例数据作为输入,运用数据库逆向工程技术实现关系数据库模式信息的提取、裂片关系 的合并、关系模式的规范化( 至3 n f ) 以及数据库模式中包含依赖关系的分析与提取; 然后遵循一组通用的启发式映射规则实现从已规范化的关系数据库模式到o w l 本体的 自动映射以及o w l 本体抽象语法到交换语法的自动转换。利用o n t o l e a m e r 进行的典 型案例研究验证了所提议的本体学习方法的有效性。 关键词:本体学习,关系数据库模式,逆向工程,o w l ,语义w e b a b s t r a c t t h ec e n t r a li s s u eo ft h es e m a n t i cw e bi sh o wt o r e p r e s e n t d a t ama m a c h i n e - u n d e r s t a n d a b l ef o r mi no r d e rt h a td a t ac a nb es h a r e da n dr e u s e da c r o s sa p p l i c a t i o n a n de n t e r p r i s e o n t o l o g yi saf o u n d a t i o no fr e a l i z i n gi n f o r m a t i o ns h a r ea n de x c h a n g ea t s e m a n t i cl e v e l ,a n di sr e g a r d e da sak e ye n a b l i n gt e c h n i q u ef o rt h es e m a n t i cw e b t h u sq u i c k a n d c h e a po n t o l o g yd e v e l o p m e n ti st h er e q u i s i t et ot h ew i d ea p p l i c a t i o no f t h es e m a n t i cw e b h o w e v e rm a n u a ld e v e l o p m e n to fo n t o l o g i e su s i n gc u r r e n to w l a w a r ee d i t o r sr e m a i n sa t e d i o u sa n dc u m b e r s o m et a s kt h a tc a l le a s i l yr e s u l ti nak n o w l e d g ea c q u i s i t i o nb o t t l e n e c k t h e r e f o r eo n t o l o g yl e a r n i n ge m e 昭e sa st h et i m e sr e q u i r e ar e l a t i o n a ld a t a b a s es c h e m a c o n t a i n sd o m a i nk n o w l e d g ea n dt h u sc a nb ea sa ni m p o r t a n tk n o w l e d g es o u r c eo fw e b o n t o l o g yl e a r n i n g r e s e a r c ho fa na p p r o a c ht oo w lo n t o l o g yl e a r n i n gf r o m r e l a t i o n a l d a t a b a s e sh a sa l li m p o r t a n ta n dp r a c t i c a ls i g n i f i c a n c ef o rc r e a t i n gs e m a n t i cw e b a p p l i c a t i o n s , s u c ha sm i g r a t i o no fd a t a - i n t e n s i v ew e bs i t e si n t ot h es e m a n t i cw e b ,s e m a n t i ca n n o t a t i o no f d y n a m i cw e bp a g e s ,a n dd e v e l o p m e n to fs e m a n t i cw e bp o r t a l s a i m i n ga tt h ed e f i c i e n c i e sa n dl i m i t a t i o n si nt h er e l a t e dw o r k , t h i sp a p e rp u t sf o r w a r da s e m i - a u t o m a t i ca p p r o a c hf o rl e a r n i n ga no w lo n t o l o g yf r o mar e l a t i o n a ld a t a b a s e ,a n d i m p l e m e n t sap r o t o t y p et o o lo n t o l e a m e r t h ea p p r o a c ht a k e st h er e l a t i o n a ld a t a b a s es c h e m a a n di n s t a n c ea si n p u ta n du s e sr e v e r s ee n g i n e e r i n gt e c h n i q u e st oe x t r a c ts c h e m ai n f o r m a t i o n f r o mt h ed a t a b a s e ,c o m b i n ef r a g m e n tr e l a t i o n s ,n o r m a l i z et h er e l a t i o n a ls c h e m a t a ( t o3 n f ) , a n a l y s ea n de x t r a c ti n c l u s i o nd e p e n d e n c i e sf r o mt h es c h e m a t h e ni tr e a l i z e st h ea u t o m a t e d m a p p i n gf r o mt h en o r m a l i z e ds c h e m a t at oa no w lo n t o l o g yf o l l o w i n gas e to fu n i v e r s a l h e u r i s t i cm a p p i n gr u l e sa n dt h es y n t a xt r a n s f o r m a t i o nf r o mt h ea b s t r a c ts y n t a xt ot h e e x c h a n g es y n t a xf o rt h eo w lo n t o l o g y at y p i c a lc a s es t u d y 、i mo n t o l e a m e rv a l i d a t e dt h e e f f e c t i v e n e s so ft h ep r o p o s e dl e a r n i n ga p p r o a c h k e y w o r d s :o n t o l o g yl e a r n i n g ,r e l a t i o n a l d a t a b a s es c h e m a , r e v e r s ee n g i n e e r i n g ,o w l , s e m a n t i cw e b 独创性声明 本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。如不实,本人负全部责任。 学位论文作者签名: 千岳暂 签字日期: & d0 多年易月纱日 。p j 学位论文版权使用授权说明 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光盘版) 电子 杂志社有权保留本人所送交学位论文的复印件或电子文档,可以采用影印、缩印或其它 复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保 密论文外,允许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河海 大学研究生院办理。 学位论文作者签名:卫琦 签字日期 沁锌月 一章绪论 第一章绪论 1 1 研究背景与选题依据 】9 8 9 年t i mb e m e r s l e e 发明了万维网( w o r l d w d e w e b ,简称w e b ) 。现在,万维网已鲐成 为人们进行信息交流的重要i 具。世随着应用的不断扩展,现有技术的局限也逐渐暴露出来。当前 万维网技术着重于内容的显示,缺少对内容的语义描述,因此信息处理的自动化,智能化程度报低。 为改变这种现状t i mb e m e r s - l e e 又于1 9 9 8 年提出了语义w e b ( s e m a n t i cw e b ) 的构想。语 义w e b 基于资源描述框架( r e s o u r c e d e s c r i p t i o nf r a m e w o r k ,简称r d f 7 1 ) 来集成以x m l 为语法、 统一资源标识符( u n i f o r l l 】r e s o u r c e i d e n t i f i e r 简称u p d ) 为资源标识与命名机制的各种应用。语义 w e b 尾对当前w e b 的扩展,以机器可理解的方式组织w e b 上的信息,提供数据及数据问语义关系的 表达手段以提高机器处理信息的自动化和智能化程度。语义w e b 不仅能改进信息检索的精度,而 且有助丁不同应用程序之间的信息茫享和复用”j 。 语义w e b 基础结构的构造是万维网联盟( w o r l d w i d e w e b c o n s o a i 啪,简称w 3 c ) 及其相关支 撑研究组织当前的t 作重点,其研究主要沿着逐步构造如图1 - 1 所示的语义w e b 分层基础结构 4 1 的 方向展开。 统一字符编码标准( u n i c o d e ) 和统一资源标识符( u r i ) :是整 个语义w e b 的基础,u n i c o d e 用 于对资源进行编码u r i 负责标 识赍源: 可扩展标记语言( x m l ) 、名 空问( n a m e s p a c z ) 及其x m l 模 式( x m ls c h e m a ) :用于表示数 据的内容和结构,提供语法互操 作性; 资源描述框架( r d f ) 和r d f 模式( r d fs c h e m a p ) ( 统称为 r d f ( s ) ) :用于描述w e b 上的资 图1 - l 语义w e b 分层基础结构 源,资源类型咀及资源问的联系,也可认为是一种轻量本体( o n t o l o g y ) 语言,是语义互操作性的 基础; 本体词汇( o n t o l o g yv c c a b u l a r ) , ) :在更具表选力的知识形式化描述层上提供语义互操作性, 当前w 3 c 已推r 标准化的w e b 本体语言o w l 6 1 : 逻辑( 1 0 9 i c ) :定义逻辑规则为机器进行推理提供基础; 证据( p r o o f ) :为推理提供证据: 信任( t r u s t ) :确保一个可信的语义w e b 。 语义w e b 研究的重点就是如何把信息表示为机器可理解和可处理的形式,即带有语义。本体 在自q 建这种机器可理解和可处理的w e b 内容中扮演着关键的角色,被认为是语义w e b 的关键使能 ( e n a b l i n g ) 技术j 。 本体是对共享概念的明确的形式化规范说明”j 。本体的目标是捕获相关领域的知识,提供对该 第一章绪论 领域知识的共同理解,确定该领域内共同认可的词汇( 术语) ,并给出这些词汇和词汇问相巨关系的 明确定义。本体是解决语义层次上w e b 应用系统之间信息共享和交换的基础,促进在不同系统问共 享及复用数据和知识。 为实现语义w e b ,需要构建大量的本体。用手工方式开发w e b 本体是一项繁重和棘手的任务, 极易导致知识获取的瓶颁,因此本体学习( o n t o l o g yl e a r n i n g ) p j 技术应运而生。它极人地简化了本 体的构建,满足了语义w e b 对于快速简便构造本体的需求,在语义w e b 中起到了杠杆的作用。 各种知识源( 如:文本、字典、半结构化数据、数据库和知识库) 都可以作为本体学习的输入。 关系数据库是基于w e b 的数据密集型应用的主要信息源,数据库模式中隐含着领域知识,从关系数 据库学习出的o w l 本体更适合于数据密集型w e b 应用的需要1 1 0 j 。研究从关系数据库学习o w l 本 体的方法,对数据密集型w 曲站点向语义w e b 的迁移、动态网页的语义标注、语义门户网站的开发 和新一代信息管理基础结构的构建等均具有重要的现实意义。 1 2研究内容与目标 论文研究的内容是:提出一种从关系数据库学习o w l 本体的方法,并设计开发一个原型工具 来实现这种本体学习方法( 包括实现关系数据库的逆向工程以及从关系数据库模式到o w l 本体的 映射等) :通过一个典型案例来验证和展示所提出的方法及实现的原型工具的正确性和有效性。 论文研究需解决以下主要技术问题: 1 ) 关系数据库的逆向工程,包括: 关系数据库模式信息的提取; 裂片关系的合并; 关系模式的规范化( 至3 n f ) ; 关系数据库模式中包含依赖( i n c l u s i o nd e p e n d e n c y ) 关系的提取。 2 ) 从关系数据库模式到o w l 本体的映射,包括: “模式本体”之间的映射; o w l 本体的语法转换。 1 3技术现状综述与本文技术路线 关于从关系数据库学习本体的方法与工具研究,有以下相关的工作( 由于e r 模式与本体本质 上同是一种领域概念模式,因此可将e r 模式看作是一种非形式本体) 。 j o h a n n e s s o n 等i i l 】提出了一种从关系数据库学习e r 模式的方法。该方法首先将关系数据库模式 转化为便于识别实体结构的中间形式,然后按照预先定义的映射方法( 即候补键分割、包含依赖分 割、关系合并以及关系转化等) 将这种中间形式映射为e r 模式,从而实现从关系数据库模式学习 出e r 模式。 c h i a n g 等l 佗i 提出了种从关系数据库学习扩充e r ( e e r ) 模式的方法。该方法以关系数据库模 式及数据库实例数据作为输入,先将关系数据库模式中的关系按照一定的标准( 如:关系、联系等) 进行分类,然后按照关系的不同分类分别转化为e e r 模式中的元素( 如:实体、联系等) 。 k a s h y a p 等i j 提出了一种用于创建特定领域本体的方法,此研究属于m c c 研究项目l n f o s l e u t h 的一部分。该方法先从关系数据库学习出本体,然后通过分析用户感兴趣的查询语句和标准词库提 取更多的语义来进一步精炼生成的本体( 其本体用x m l 语言来描述) 。 2 第一章绪论 d o g a n 等f 1 4 】提出了一种从关系数据库学 - jd a m l ! ”l 本体的方法,该方法是一种简单自动的模式 转化过程。它使用了一些手段来精炼生成的本体,如采用统计方法分析数据库、允许用户手动编辑 生成的本体等。 d 2 rm a p i l 6 】使用基于x m l 的说明性映射语言( d 2 r 语言) 实现数据库实例数据到r d f ( s ) 数 据的转换,其映射语言用以表示从s q l 查询中的关系数据库模式与实例到r d f 数据模型( 即r d f 图) 与实例的映射关系,但映射关系完全需要手工逐一定义。 k a o nr e v e r s e l l 7 1 是一个早期的原型工具,把关系数据库的实例数据映射为r d f ( s ) 本体实例, 使得基于本体的数据库查询成为可能。该工具的使用分为四个步骤:选择本体;选择需要进行映射 的数据库关系( 表) ;手动提供主键、外键等模式信息:建立数据库关系、属性与本体元素间的映射。 e u i s tp r o j e c tw o n d e r w e b 项目开发的o n t o l i f t 原型工具i 博j ,旨在以已有的模式结构( x m l d t d 、x m ls c h e m a 、关系数据库模式以及面向对象软件系统的u m l 规约) 作为开发语义w e b 本体 的起点。该工具实现从已有的模式结构中半自动地提取轻量的r d f ( s ) 本体。它以关系数据库模式作 为输入,针对每个关系检测是否满足预定义的映射规则,如满足则进行转化,创建本体概念或概念 间的关系,最终生成r d f ( s ) 本体。有了r d f ( s ) 本体之后,再将数据库中的实例数据“迁移”成r d f ( s ) 数据。 a s t r o v a 等【1 9 】提出一种从关系数据库学习轻量r d f ( s ) 本体的方法。该方法先对数据库模式中的 关系进行分类,然后按照分类( 即关系、属性和联系) 分别进行映射。 s t a n t i c 等1 2 0 】提出了一种从关系数据库学习轻量r d f ( s ) 本体的新颖方法。该方法没有直接分析关 系数据库本身,而是通过分析数据库动态产生的网页来推断所需的模式信息,再利用用户的领域知 识对得到的模式信息进行补充,实现从关系数据库模式到r d f ( s ) 本体的映射。 综上所述,已有的本体学习方法和工具存在以下不足: 1 ) 对本体学习的源模式有严格的条件,要求输入的关系数据库模式必须符合第三范式( t h i r d n o r m a lf o r m ,简称3 n f ) ,这就限制了方法和工具的适用范围。 2 ) 对本体学习的源模式信息利用不充分,只以关系数据库模式作为输入,而忽略了包含领域 知识( 语义信息) 的数据库实例数据,这就使得学习出的本体丢失了知识源中的部分语义 信息。 3 ) 本体学习的目标模式大多是r d f ( s ) 本体( 只是一种简单、轻量的w e b 本体) ,而这些本体 由于其有限的知识表达力,不足以完全描述数据库的领域知识和语义。 4 ) 本体学习的过程自动化程度不高,需要较多的人机交互或手工操作。 综上所述,针对现有方法和工具存在的不足以及本文拟实现的目标,本文的技术路线如下: 1 ) 借助关系数据库逆向工程:借鉴数据库逆向工程的现有方法和理论,制定一套适合本文本 体学习工程环境的较完备的关系数据库逆向工程的步骤,将对源模式的限制条件放宽到第 一范式,并尽量从数据库及其实例数据中提取出更多的模式知识,减少语义信息的丢失。 2 ) 采用关系数据库模式到o w l 本体的映射:研究分析现有本体学习方法和工具的特点,在 关系数据库模式( 包括约束) 和o w l 本体之间建立较完备的语义对应机制,制定一套较 完备的映射规则,使映射所得的本体尽可能完整地表达出关系数据库模式的语义信息。 3 ) 提高工具的自动化程度:通过事先定义一组启发式规则,用户只需在必要时选择确认相应 规则,从而提高工具的自动化程度。 4 )设计友好的工具界面:设计界面时充分考虑用户的使用情况,使界面友好、易于维护,提 取出的关系数据库模式和映射所得的o w l 本体均以树、表格等可视化方式显示,以便用 户能较好地理解本体学习的源模式和目标模式所表达的语义信息。 3 第一章绪论 1 4本文组织 本文共分七章。 第一章,绪论( 即本章) 。叙述硕士学位论文的研究背景与选题依据、研究内容与目标、技术现 状综述及本文研究技术路线。 第二章,从关系数据库学习o w l 本体的方法。首先介绍关系数据库模式、o w l 语言与本体的 相关概念,在此基础上形式化定义关系数据库模式及o w l 本体。接着提出一种从关系数据库学习 o w l 本体的一般方法( 包括关系数据库的逆向工程及从关系数据库模式到o w l 本体的映射等过 程) 。 第三章,关系数据库的逆向工程。着重论述了本文方法中关系数据库逆向工程的步骤与算法。 第四章,从关系数据库模式到o w l 本体的映射。给出了从关系数据库模式到o w l 本体的映射 规则以及本体间的语法转换规则。 第五章,原型工具的设计与实现。详细讲述了实现本文方法的原型工具的设计思想和实现技术。 第六章,案例研究。通过一个典型案例来验证和展示本文方法及所实现的原型工具的正确性和 有效性。 第七章,总结与展望。对本文的研究工作进行总结,提出对下一步工作的展望。 第二章从关系数据库学习o w l 本体的方法概述 第二章从关系数据库学习o w l 本体的方法 2 1概述 本章首先介绍本体学习源模式( 即关系数据库模式) 的相关概念,并在此基础上形式化定义关 系数据库模式( 符合3 n f ) 。然后介绍本体学习目标模式( 即o w l 本体) 的基本概念,同时给出 o w ld l 本体的形式化定义。在对关系数据库模式及o w ld l 本体形式化定义的基础上,本章提出 了一种从关系数据库学习o w l 本体的方法,包括两大处理步骤:( 1 ) 关系数据库的逆向工程;( 2 ) 从关系数据库模式到o w l 本体的映射。 2 2 关系数据库模式 关系数据库模型是以集合论中的关系( m i n i o n ) 概念为基础发展起来的数据模型。关系数据库 的主要元素有: 模式( s c h e m a ) :关系名和其属性集合的组合称为这个关系的模式,描述一个关系模式时,先 给出关系名,其后是用圆括号括起的所有属性,例如m o v i e s ( t i t l e ,y e a r ,l e n g t h ,f i l m t y p e ) 。 关系数据库模式( r e l a t i o n a ld a t a b a s es c h e m a ) :关系模式的集合称为关系数据库模式。 属性( a t t r i b u t e ) :关系所具有的特性称为属性。 域( d o m a i n ) :每个属性对应一个值的集合作为其可以取值的范围,称之为该属性的域,关系 的任一元组的分量值必须属于对应属性的域。 键( k e y ) :如果关系的某一属性或属性组的值唯一地决定其它所有属性的值,也就是唯一地 决定一个元组,而其任何真子集无此性质,则这个属性或属性组称为关系的候选键,简称键。 超键( s u p e r k e y ) :包含有键的属性组称为关系的超键。 主属性( p r i m ea t t r i b u t e ) :包含在任何一个键中的属性称为主属性。 外键( f o r e i g nk e y ) :如果关系中的属性或属性组不是关系的键,而是引用其它关系或本关系 的键,则这个属性或属性组称为关系的外键。 完整性约束( i n t e g r i t yc o n s t r a i n t ) :语义施加在数据上的约束统称为完整性约束。 一个关系数据库的设计主要包括关系模式( 即基表结构) 设计和完整性约束申明两部分1 2 。基 表结构定义了关系( 表) 的结构、属性( 列) 及其数据类型与长度等;完整性约束定义了域完整性 约束、实体完整性约束、引用完整性约束和一般完整性约束【2 2 i 【2 3 1 。 为了便于形式化描述本体学习方法中的映射规则,这里给出关系数据库模式的形式化定义( 符 合3 n f ) 。 定义2 1 :一个关系数据库模式s = ( 厶p k e y , u n i q u e , n o t n u l l , k e y , s u b o f , f d e p e n d e n c y ) 是七元组,其中: 名集l :e u r u d 是一个有限集,由两两不相交的集合组成: 一个实体关系( e n t i t yr e l a t i o n ) 名的集合e ; 一个联系关系( r e l a t i o n s h i pr e l a t i o n ) 名的集合r ; 一个数据类型( d a t a t y p e ) 名的集合d ,每个数据类型名是r d b m s 预定义的数据类型名。 v t uj r ,丁有一个非空的属性集合口f f ( 丁) ,且每个属性a 口f f ( 7 1 ) 有一个相关的预定义数据 5 第二章 从关系数据库学习o w l 本体的方法概述 类型t y p e ( 彳) d 作为它的取值范围,其中t y p e ( * ) 表示“”的预定义数据类型。 v 丁e u r ,t 的属性集a t t ( t ) 中所有属性的一次取值的组合称为丁的一个元组,其中,每个 属性取值( 称属性值) 称为相应属性在此元组中的一个实例( i n s t a n c e ) ,在某个时刻歹的所有元 组所组成的集合t u p ( t 1 称为r 的一个实例。 v t e u r ,t 有且仅有一个唯一决定其元组的属性或属性组称为丁的主键p 吻( 7 ) :要么 p 缸y ( r ) 只包含一个属性( 称p 坳( 7 ) 为单主键,此时丁是实体关系) ,要么p 姊( 7 ) 包含多个属 性( 称础秒( 7 ) 为复合主键,此时r 是联系关系) 。 v t e e u r ,若存在属性a 口f ,( 7 ) ,a 的所有元组在r 中取值唯一,则称a 为7 的唯一属性, 可表示为布尔函数u n i q u e ( a ) = t r u e ;否则u n i q u e ( a ) = f a l s e 。 v 歹e w r ,若存在属性a a t t ( t ) ,彳的所有元组在r 中取值非空,则称a 为丁的非空属性, 可表示为布尔函数n o t n u l l ( a ) = t r u e ;否则n o t n u l l ( a 1 = f a l s e 。 v t e u 尺,t 中一个引用其它实体关系g e e 主键p 吻( g ) 的属性称为r 的外键p , e y ( r ,g ) , 其满足:彻( 7 ,g ) 础( 7 1 ) 且v a l u e ( y k , y ( r ,g ) ) v a l u e ( 础吵( g ) ) u 咖1 1 ) ,其中v a l u e ( ) 表示“” 的值域,“n u l l ”表示空值。r 可能有0 玎伽0 ) 个外键。 对v te e ,若7 引用g e 主键的外键同时又作为丁的主键( 即如秒( 丁,g ) = p 切p ) 口f f ( r ) ) , 则称丁和g 之间存在“子超关系”,7 为g 的子实体关系,g 为丁的超实体关系,此时可表示为 布尔函数s u b o f ( t ,g ) = t r u e :否则s u b o f ( t ,g ) = f a l s e 。若干个连续的子倩! 实体关系对构成关系数 据库模式中的一个子j 碴实体关系层次。 v t e e u r ,口,, 6 c a t t ( t ) ,口,对v f l ,f 2 卸( r ) ,若有,i 【口】= 2 【口】,则必有f l 【】= f 2 【】, 则称口和之间存在函数依赖关系,函数依赖于口( 或口函数决定) ,口称为函数依赖的决 定子,夕称为函数依赖的被决定子,此时可表示为布尔函数f d e p c n d e n c y ( a ,f 1 ) = t r ( 简记为 f d e p e n d e n c y ( a ,) ) ,否则f d e p e n d e n c y ( a ,f 1 ) = f a l s e 。t 中所有函数依赖关系组成的集合称为丁的函 数依赖集,记为昂。 定义2 - 2 :v t e e u r ,口,口f f ( 7 ) ,口,旺口,v f d e p e n d e n c y ( a ,) 昂,满足下列条件之 一:( 1 ) 口是超键:( 2 ) 是主属性,则此关系7 属于第三范式。若关系数据库模式中的所有关系均属 于第三范式,则称其为规范化至第三范式( 3 n f ) 的关系数据库模式。 2 3o w l 语言及本体 本体通过定义领域中的理论、对象及对象间的关系、附加在对象和关系之上的约束来确定概念 的精确含义,表示共同认可的、可共享的知识j 。 为了在w e b 上表示本体,需要一种通用的w e b 本体语言( w e bo n t o l o g yl a n g u a g e ) 。r d f ( s ) 仅 是一种轻量的w e b 本体语言,其对知识,语义的描述能力不足。因此,w 3 c 在r d f ( s ) 的基础上又开 发了w e b 本体语言o w l 。o w l 拥有丰富的构造子,由类公理和属性公理来实现对复杂的类、组合 类或属性限定、推理演绎定理的定义。o w l 已于2 0 0 4 年2 月1 0 日被批准作为w 3 c 推荐标准。 o w l 有三个表达力逐渐递增的子语言1 2 5 】:o w ll i t e 、o w ld l 和o w lf u l l 。o w ld l 是基于 描述逻辑设计的,它包括o w l 中所有的构造予( c o n s t r u c t ) ,支持现有的逻辑事务,适合信息处理, 有较强的推理能力,所以本文选择o w ld l 作为本体学习的目标语言。 6 第二章 从关系数据库学习o w l 本体的方法概述 这里给出o w l d l 本体的形式化定义( 见定义2 3 ) ,以便形式化描述本体学习方法中的映射规 则。表2 1 为本文使用到的o w ld l ( 部分) 构造子的抽象语法忙7 1 。 定义2 - 3 :一个o w l d l 本体o = ( c e p l ,a x i o m l 是二元组,其中: 标识符集c e p t = c 仍u d 呦u 纠仞u d 加是一个有限集,由两两不相交的集合组成: 一个类( c l a s s ) 标识符集c i d ; 一个数据类型属性( d a t a t y p cp r o p e r t y ) 标识符集d p i d ; 一个对象属性( o b j e c tp r o p e r t y ) 标识符集o p i d ; 一个数据类型( d a t at y p e ) 标识符集d t i d ,每个数据类型标识符是o w l 本体中使用的预 定义x m ls c h e m a 数据类型标识符1 2 们。 公理集a x i o m = c a x i o m l ) p a x i o m 是一个有限集,由两两不相交的集合组成: 一个类公理( c l a s sa x i o m ) 集c a x i o m ,包含本体中定义的所有类公理; 一个属性公理( p r o p e r t ya x i o m ) 集p a x i o m ,包含本体中定义的所有属性公理。 表2 1o w ld l ( 部分) 构造子的抽象语法 抽象语法格式。解释 d e s c r i p t i o n s ( c ) 描述( 用c 表示,可以带下标) 一 a ( u 赳r e f e r e n c e ) 彳是u r i 引用,用来标识一个命名类 r e s t r i c t i o n ( ra l l v a l u e f m m ( c ) ) 属性约束,其通过指定对象属性尺全部取值于c 来 定义 r e s l r i e t i o n ( uc a t d i n a l i t y ( n ) ) 属性约束。其通过指定数据类型属性u 的基数是n 来定义 r e s l r i c t i o n ( un l 觚e a r d i n a l i t y ( n ) ) 属性约束,其通过指定数据类型属性u 的最大基数 是n 来定义 r e s t r i c t i o n ( um i n c a r d i n a l i t y ( n ) ) 属性约束,其通过指定数据类型属性u 的最小基数 是行来定义 r e s t r i c t i o n ( ua l l v a l u e f r o m ( d ) ) 属性约束,其通过指定数据类型属性u 全部取值于 d 来定义 d a t a r a n g e s ( d ) ”j _ 数据值域( 用d 表示,可以带下标) 。 : d 是u r i 引用,用来标识一个数据值域( 预定义的 d ( u r ir e f e r e n c e ) x m ls c h e m a 数据类型) o b j e ap r o p e r t i e s ( r )对象属性( 用尺表示,可以带下标) 尺 ( u r ir e f e r e n c e )尺是u 刚引用,用来标识一个对象属性 d a t a t y p ep r o p e r t i e s ( u )数据类型属性( 用u 表示,可以带下标) u ( u r ir e f e r e n c e ) u 是u u 引用,用来标识一个数据类型属性 p r o p e r t y a x i o m s 属性公理 d a t a t y p e p r o p e r t y ( ud o m a i n ( q ) 。x l o m a i n ( c 。) 数据类型属性【,的定义域是c l n n q ,值域是 r a n g e ( d 1 ) r a n g e ( d i n ) 【f u n c t i o n a l ) q n n 以:如果u 取值唯一,则u 是函数属性 o b j e c t p r o p e r t y ( rd o m a i n ( c i ) d o m a i n ( c 。) 对象属性r 的定义域是c l n n g ,值域是 c l n n c 二;尺可以是对象属性r o 的逆;如果r 取 r a n g e ( q ) r a n g e ( c 。) 【i n v e r s e o fr 0 f u n c t i o n a l ) 值唯一,则j r 是函数属性 c l a s sa x i o m s 类公理 7 第二章从关系数据库学习o w l 本体的方法概述 c l a s s ( ap a r t i a lc l g ) a 是c l n n g 的子类 s u b c l a s s o f ( c ic 2 ) c l 是c 2 的子类 d i s j i o n t c i a s s c s ( c ic 2 )类c 1 和c 2 不相交 o w l 本体分为两种语法形式【勰1 :抽象语法( a b s t r a c ts y n t a x ) 和交换语法( e x c h a n g es y n t a x ) 。 在w 曲上,o w l 本体使用交换语法的形式( 即r d f x m l 语法【2 9 1 ) 。语法介绍详见w 3 c 有关文献 【2 8 】【2 9 。 2 4 本体学习的主要思想与步骤 针对现有本体学习方法和工具的不足以及本文拟实现的目标,本文提出了一种从关系数据库学 习o w l 本体的方法,该方法分两大处理步骤:( 1 ) 关系数据库的逆向工程;( 2 ) 从关系数据库模 式到o w l 本体的映射。主要思想如下: 1 关系数据库的逆向工程( 见第3 章) 。 逆向工程指的是从物理数据库恢复数据库逻辑和概念模式。 在逆向工程过程中首先需要从数据库中提取出关系数据库的模式信息,从而将数据库的物 理模式转化为相应的逻辑模式。由于数据库的数据字典中保存的模式信息反映的是数据库 当前“最终”的模式状态,因此,本文方法通过读取数据字典来获取数据库的模式信息。 关系的大小和数据量对关系的查询速度影响很大,有时为了提高查询的速度,数据库设计 者会将一个大关系分割成多个小关系,称分割所得的小关系为裂片关系。因此,在对数据 库进行逆向过程的过程中,需要通过相应的步骤将分割的裂片关系进行合并,重构原关系, 恢复逻辑模式本来的语义。 为了防止操作异常以及减少数据的冗余等原因,目前几乎所有的关系数据库逆向工程( 包 括从关系数据库学习本体) 的方法和工具在将数据库逻辑模式概念化为概念模式( 或本体) 时都要求输入的关系数据库模式必须符合第三范式( 3 n f ) 。为了扩大本文方法的适用范围, 减少用户的工作量,本文在逆向工程的步骤中增加了一个将关系模式规范化到3 n f 的处理。 包含依赖关系定义了关系数据库模式中关系之间彼此的一种联系,是关系数据库中描述关 系间语义和完整性约束的一种可选方法,提供了概念模式中类的泛化知识。因此,在逆向 工程的过程中需要将其提取出来。 2 从关系数据库模式到o w l 本体的映射。 o w l 本体属于概念层,具有定义良好的形式化语义。可以定义一组直接从关系数据库模式 到o w l 本体的通用映射规则,自动地将关系数据库模式映射为o w l 本体。 o w l 本体有两种语法形式:抽象语法,它简化了对本体的访问和评估,便于本体的研究; 交换语法,即r d f x m l 语法,它是w e b 上使用的语法形式。为了便于直接在w e b 上公布 和共享本体数据,需要将本体学习所得的o w l 抽象语法本体转换为交换语法本体。 根据以上思想,从关系数据库学习o w l 本体的具体处理步骤如下: 1 关系数据库的逆向工程,包括: 1 1 关系数据库模式信息的提取。对输入的关系数据库,利用能屏蔽各r d b m s 异构性的 中间层a p i ( 如:o d b c a p i 、j d b c a p i ) 从数据字典中提取其模式信息。 1 2 裂片关系的合并。对从数据字典中提取出的关系数据库模式及数据库实例数据进行分 第二章 从关系数据库学习o w l 本体的方法概述 析推导,查找出关系数据库模式中存在的裂片关系,对裂片关系进行合并( 包括模式 和实例数据两方面的合并) ,恢复原模式。 1 3 关系模式的规范化。首先对裂片关系合并后的关系数据库模式及数据库实例数据进行 分析,推导出关系模式中隐含的函数依赖关系,然后将此函数依赖关系作为新的输入, 按照通用的规范化算法将关系模式规范化为3 n f 。 1 4 关系数据库模式中包含依赖关系的提取。对规范化至3 n f 的关系数据库模式及数据库 实例数据进行分析,推导出数据库模式中隐含的包含依赖关系,为下面本体学习提供 必要的类泛化知识。 2 从关系数据库模式到o w l 本体的映射,包括: 2 1 “模式一本体”间的映射。以逆向工程处理后的关系数据库模式作为输入,遵循一组 通用启发式映射规则将关系数据库模式映射为o w l 抽象语法本体。 2 2 本体的语法转换。以映射所得的o w l 抽象语法本体作为输入,按照预先定义的一组 通用语法转换规则将o w l 抽象语法本体转换为交换语法本体。 2 5本章小结 本章给出了关系数据库模式( 见定义2 1 和定义2 - 2 ) 和o w l 本体的形式化定义( 见定义2 - 3 ) , 并在此形式化定义的基础上提出了一种从关系数据库学习o w l 本体的方法。该方法使用数据库逆 向工程的步骤获取规范化至3 n f 的关系数据库模式,并使用一组通用的启发式映射规则和语法转换 规则实现从关系数据库模式到o w l 本体的映射以及o w l 本体间的语法转换。 - 9 - 第三章关系数据库的逆囱工程 第三章关系数据库的逆向工程 3 1 概述 数据库逆向工程( d a t a b a s er e v e r s ee n g i n e e r i n g ,简称d b r e ) 刚指的是从物理数据库恢复数据 库逻辑和概念模式。一般,数据库逆向工程依次分成两个互相独立的阶段:数据结构的提取( d a t a s t r u c t u r ee x t r a c t i o n ) ,主要恢复针对特定r d b m s 的数据结构( 即逻辑模式) ;数据结构的概念化( d a t a s t r u c t u r ec o n c e p t u a l i z a t i o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中国防水围布行业市场前景预测及投资价值评估分析报告
- 2026年中国防水背包行业市场占有率及投资前景预测分析报告
- 压铸生产工序流程优化与改进方案
- 天然气管道施工现场管理方案
- 水库枢纽工程水资源优化配置方案
- 东风本田购车协议书
- 临时存储物品协议书
- 买卖转款协议书范本
- 企业财产赠予协议书
- 供水管网压力监测与调节方案
- 南京市2024-2025学年三年级上学期11月期中调研数学试卷一(有答案)
- 干部履历表填写范本(中共中央组织部1999年)
- 医院卫生院心电图机维护保养记录表
- DL-T-710-2018水轮机运行规程
- DL-T2459-2021电力物联网体系架构与功能
- 王者荣耀趣味惩罚游戏
- 高中物理课件:Tracker软件在高中物理实验教学中的应用-
- DLT 596交流电力设备预防性试验规程
- (正式版)JBT 14799-2024 汽油机 颗粒捕集器催化剂
- 养老院健康档案模板
- 加油站安全生产投入保障制度范本
评论
0/150
提交评论