(计算机软件与理论专业论文)xmlschema到owldl本体映射的研究.pdf_第1页
(计算机软件与理论专业论文)xmlschema到owldl本体映射的研究.pdf_第2页
(计算机软件与理论专业论文)xmlschema到owldl本体映射的研究.pdf_第3页
(计算机软件与理论专业论文)xmlschema到owldl本体映射的研究.pdf_第4页
(计算机软件与理论专业论文)xmlschema到owldl本体映射的研究.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l - j j at h e s i si nc o m p u t e rs o f t w a r ea n d t h e o r y r e s e a r c ho nm a p p i n gx m l s c h e m at o o w ld l o n t o l o g y b yj i n gz h e n g s u p e r v i s o r :p r o f e s s o rm az o n g m i n n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 r-h- , 一 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 匕 思。 学位论文作者签名: 日 期:沙蜉肄5r 学位论文版权使用授权书 磷寺 l 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 半年口一年口一年半口 两年西 粼强;a 淞黝磷r , 1 东北大学硕士学位论文摘要 x m l s c h e m a 到o w ld l 本体映射的研究 摘要 语义w e b 是新一代万维网标准,作为语义w e b 核心的本体,可以表示资源本身以 及资源之间丰富的语义信息,因此要发展语义w e b ,就要构建语义丰富的本体。x m l 不仅能表示结构化数据,还能表示半结构化数据,而目前标准的语义w e b 本体语言是 o w l ,因此,如何利用这些大量存在于w e b 中的x m l 数据源,通过本体学习的方法 来丌发o w l 本体,已经成为一个重要课题。 目前,该领域的研究焦点主要集中在两个方向:一个方向是创建x m l 文档到一个 已存在o w l 本体的映射:另一个方向是提取x m l 文档结构中隐含的语义信息,创建 新的o w l 本体。本文在第二种映射策略的基础上,从x m l 文档结构中提取更多的隐 含语义信息,描述了x m i _ s c h e m a 到o w l 本体的全面映射规则。 本文首先对x m i u ,s c h e m a 与o w ld l 中的元素进行了简要的介绍,给出了 x m i j s c h e m a 与o w ld l 的形式化定义,然后对x m l s c h e m a 与o w ld l 的特性进行 了详细的分析和比较,对x m l _ j s c h e m a 与o w ld l 之间的相似概念和机制进行归纳, 总结了完善的对应关系。由于本体由本体模型和本体实例构成,因此本文将x m l s c h e m a 到o w l d l 本体的映射分为两个子过程:首先将描述x m l 文档结构和元素类型的x m l s c h e m a 映射为o w l d l 本体模型,即创建o w l d l 本体中类的层次结构、对象属性、 数据类型属性、属性的约束和特征等信息:然后将符合该x m ls c h e m a 模式规范的x m l 文档映射为o w ld l 本体实例,即创建o w ld l 本体中的个体和个体之间的属性等信 息。创建的o w l d l 本体模型和o w l d l 本体实例就构成了映射成的o w l d l 本体。 在每个映射子过程中,首先给出形式化的映射规则,实现抽象层次的映射,在此基础之 上,从x m l s c h e m a 的抽象数据模型出发,描述各个组件到o w ld l 本体的具体映射 规则。最后,基于x s l t 技术丌发了一个映射工具用于完成从x m l s c h e m a 到o w l d l 本体的映射,来验证本文所提出的映射方法的可行性。 关键词:语义w e b l 本体:o w l ;o w ld l ix m l ;映射;本体学习;本体构建 i i i 东北大学硕士学位论文 摘要 i v 7 t 声 - , 一 产 东北大学硕士学位论文a b s t r a c t r e s e a r c ho nm a p p i n gx m l s c h e m at o o w ld l o n t o l o g y a b s t r a c t t h es e m a n t i cw e bi st h es t a n d a r do ft h en e x t g e n e r a t i o nw o r l dw i d ew e b b e i n gt h e c o r eo ft h es e m a n t i cw e b ,t h eo n t o l o g yc o u l db eu s e dt o r e p r e s e n tt h ea m p l es e m a n t i c i n f o r m a t i o na m o n gt h er e s o u r c ea sw e l la st h er e s o u r c ei t s e l fi nt h ew e b c o n s e q u e n t l y , f u l l i m p l e m e n t a t i o no ft h es e m a n t i cw e br e q u i r e sw i d e s p r e a da v a i l a b i l i t yo fw e bo n t o l o g yo w i n g t ot h eo n t o l o g y si m p o r t a n tr o l e a sa ne x t e n s i b l e m a r k u pl a n g u a g e ,x m lc a nd e s c r i b e s t r u c t u r a ld a t aa sw e l la ss e m i - s t r u c t u r ed a t a ,w h i l et h eo n t o l o g yl a n g u a g eo ft h es e m a n t i c w e bi so w lr e c o m m e n d e db yw 3 ca tp r e s e n t c o n s e q u e n t l y , c o n s t r u c t i n go n t o l o g yt h r o u g h t h eo n t o l o g yl e a r n i n ga p p r o a c h ,w i t ht h ex m ld o c u m e n te x i s t e di nt h ew e b b r o a d l ya st h e d a t as o u r c e ,h a sb e c o m eac r u c i a lt o p i c a tp r e s e n t ,t h e r ea r em a i n l yt w od i r e c t i o n si nt h i sa r e a t h ef i r s td i r e c t i o ni s m a p p i n g x m ld o c u m e n tt oa ne x i s t i n go n t o l o g y ;t h es e c o n dd i r e c t i o ni s a u t o m a t i c a l l yc r e a t i n gan e w o n t o l o g yb yc a p t u r i n gt h ei m p l i c i ts e m a n t i c se x i s t i n gi nt h es t r u c t u r eo fx m ld o c u m e n t o n t h eb a s i so ft h es e c o n dm a p p i n gs t r a t e g y , t h i sp a p e rd e s c r i b e st h eo v e r a l lm a p p i n gr u l e s b e t w e e nx m l s c h e m aa n do w l o n t o l o g yb yc a p t u r i n gm o r ei m p l i c i ts e m a n t i ci n f o r m a t i o n o ft h es t r u c t u r eo fx m ld o c u m e n t t h i sp a p e rs u m m a r i z e sa n da n a l y z e st h ee l e m e n t sb e t w e e nx m l s c h e m aa n do w ld l b r i e f l y , p r e s e n t st h ef o r m a ld e f i n i t i o no fx m l s c h e m aa n do w ld lo n t o l o g y , a n dm a k e sa c o m p a r eb e t w e e nt h ec h a r a c t e r i s t i co fx m l s c h e m aa n do w l d l o n t o l o g yi nd e t a i l ,f i n a l l y , s u m m a r i z e st h es i m i l a rc o n c e p ta n dm e c h a n i s m ,a sw e l la st h ec o r r e s p o n d e n c er e l a t i o n s h i p b e t w e e nx m l s c h e m aa n do w l d l t h eo n t o l o g yc o n s i s t so fo n t o l o g ym o d e la n do n t o l o g y i n s t a n c e ,s o t h i sp a p e rd i v i d e dt h ep r o c e s sw h i c h m a p p i n gx m l s c h e m at oo w ld l o n t o l o g yi n t ot w os u b p r o c e s s :t h ef i r s ts u b p r o c e s si sm a p p i n gx m ls c h e m aw h i c hd e s c r i b e s t h es t r u c t u r eo fx m ld o c u m e n ta n dd e f i n e st h ee l e m e n tt y p eu s e di nt h ex m l d o c u m e n tt o o w ld l o n t o l o g ym o d e l ,i e c r e a t i n gt h ec l a s sh i e r a r c h y , t h eo b j e c tp r o p e r t y , t h ed a t at y p e p r o p e r t y , t h ep r o p e r t yc o n s t r a i n ta n dt h ep r o p e r t yc h a r a c t e ri nt h eo w ld lo n t o l o g y ;t h e s e c o n ds u b p r o c e s si sm a p p i n gx m ld o c u m e n tw h i c hc o n f o r m st ot h ex m l s c h e m at oo w l d l o n t o l o g yi n s t a n c e ,i e c r e a t i n gt h ei n d i v i d u a l sa n dt h ep r o p e r t yb e t w e e nt h ei n d i v i d u a l si n v a b s t r a c t t h eo w ld l o n t o l o g y a sar e s u l t ,t h em a p p e do w ld lo n t o l o g ym o d e la n do w l d l i n s t a n c ec o n s t i t u t et h eo w ld l o n t o l o g y d u r i n ge a c hs u b p r o c e s s ,t h i sp a p e rp r e s e n t st h e f o r m a lm a p p i n gr u l e sa p p l i e dt ot h em a p p i n gi na b s t r a c tl e v e la tf i r s t ,o nt h eb a s i so ft h a t ,t h e s p e c i f i cm a p p i n gr u l e so fe a c hc o m p o n e n ta r ep r e s e n t e df r o mt h es t a n d p o i n to ft h ea b s t r a c t d a t am o d e lo fx m l s c h e m a s u b s e q u e n t l y , am a p p i n gt o o lu s e da st h ev a l i d a t i o no ft h e m a p p i n ga p p r o a c hp r o v i d e db yt h i sp a p e ri sa l s oa v a i l a b l e k e yw o r d s :s e m a n t i cw e b ;o n t o l o g y ;o w l ;o w ld l ;x m l ;m a p p i n g ;o n t o l o g yl e a r n i n g ; o n t o l o g yc o n s t r u c t i o n v i , 东北大学硕士学位论文 目录 目录 独创性声明1 摘要i i i a b s t r a c t v 第1 章绪论j 1 1 1 研究背景1 1 1 1 万维网的发展历程1 1 1 2 语义网的体系结构3 1 2 研究现状及存在的问题4 1 3 本文研究内容及意义7 1 4 论文组织结构8 第2 章x m l 与x m ls c h e m a 9 2 1x m l 及其主要特性9 2 1 1x m l 基本元素9 2 1 2x m l 命名空间。1 0 2 1 3x m l 树模型。1 1 2 2x m ls c h e m a 抽象数据模型。1 2 2 2 1 类型定义组件1 3 2 2 2 声明组件。1 4 2 2 3 模型组组件1 6 2 2 4 同一性限制定义组件1 7 2 2 5 组定义组件。1 7 2 2 6 作为整体的s c h e m a 1 8 2 3x m l 与x m l s c h e m a 的关系1 8 第3 章x m l 与o w l 的形式化定义及比较。2 1 3 1o w l 概述及分类2 l 3 2o w ld l 语占2 2 3 2 1 命名空间。2 2 v 目录 2 3 2 3 :! ! ; 3 2 5 属性特性2 7 3 2 6 属性约束2 7 3 2 7 本体元素间的映射2 9 3 3x m l 与x m ls c h e m a 的形式化定义2 9 3 4o w ld l 本体的形式化定义3 2 3 5x m i u s c h e m a 与o w ld l 特性的比较3 4 3 5 1x m ls c h e m a 与o w ld l 的比较3 4 3 5 2x m l 与o w ld l 的比较3 5 3 6 j 、结。3 6 第4 章x m l _ s c h e m a 到o w ld l 本体的映射3 7 4 1x m ls c h e m a 到o w ld l 本体模型的映射规则3 7 4 1 1 主要组件的映射规则3 9 4 1 2 次要组件的映射规则4 5 4 1 3 辅助组件的映射规则4 9 4 1 4 命名和命名空间5 3 4 2x m l 文档到o w ld l 本体实例的映射规则。5 4 4 2 1x m l 元素的映射规则5 5 4 2 2x m l 属性的映射规则5 6 4 2 3 映射后的命名问题5 6 4 3 ,j 、结。5 6 第5 章映射工具的设计与实现5 7 5 1 系统开发技术介绍5 7 5 2 原型系统的总体设计5 8 5 2 1 系统的功能分析。5 8 5 2 2 系统的结构5 9 5 3 系统实现6 1 5 3 1x m l 和x m ls c h e m a 的解析6 1 v i i i , , _ j 东北大学硕士学位论文 目录 5 3 2 数据映射。6 2 5 3 3 输出本体模型和本体实例6 3 5 4 小结6 5 第6 章总结与展望6 7 参考文献6 9 致谢7 1 i x x 一 0 广 东北大学硕士学位论文第1 章绪论 第1 章绪论 1 1 研究背景 1 1 1 万维网的发展历程 万维网( w o r l dw i d ew e b ) 于1 9 8 9 年起源于欧洲的一个国际核能研究院,t i m b e m e r s l e e 结合超文本技术和因特网的研究成果,提出了一个关于信息管理的研究计划 1 1 】,随后于1 9 9 0 年1 2 月建立了第一个万维网的原型系统。万维网的系统架构是基于 u r l 、h t t p 和h t m l 三个协议之上的,其中u r l 提供了资源定位的标准,h t t p 和 h t m l 提供了超文本的传输和表现的标准。随后万维网得到了迅速的发展。但一直到 1 9 9 6 年,w e b 上的页面仍然主要是静态页面,这一阶段称为第一代w r e b 。期间由t i m b e m e r s l e e 领导和指导的万维网联合会( w o r l dw i d ew e bc o n s o r t i u m ,w 3 c ) 于1 9 9 4 年1 0 月成立,它是一个规范w e b 发展的组织,对于w e b 的发展具有重要意义。 1 9 9 6 年至今,w e b 发展到第二代w e b ,其特点是动态网页的大量使用以及基于w e b 的应用大量产生。这时期的w e b 网站提供了与用户交互的功能,即根据用户的需求, 通过通用网关接1 :3 ( c o m m o ng a t e w a yi n t e r f a c e ,c g i ) 或a s p 、j s p 从后台的数据库获 取数据,动态生成h t m l 页面返回给用户。w e b 页面的交互能力使得它可以作为应用 系统的界面,因此基于w e b 的应用迅速普及,特别是电子商务的应用。 万维网具有无限的潜力,但并没有充分的发挥出来,困难在于w e b 上的信息内容 很难抽取,即w e b 不是设计给机器处理的。这主要是由于第二代w e b 上的信息都是直 接提供给人来处理的,如页面浏览,页面交互等。其上的信息都是h t m l 页面的形式, 而h t m l 是一种面向表现的语言,这样计算机只是知道怎样去显示一个页面,但并不 能理解这个页面的真正含义,因此,在w e b 上的一些应用( 如信息检索,电子商务和 智能代理) 无法真正实现智能化和自动化。 为了让w e b 发挥更大的潜能,t i mb e r n e r s l e e 与1 9 9 8 年首次提出语义w e b ( s e m a n t i cw e b ) 的概念,并在2 0 0 0 年1 2 月召丌的x m l 2 0 0 0 会议上进一步明确阐明 了语义w e b 的设想i2 1 ,这可称为第三代w 曲。t i mb e r n e r s l e e 于2 0 0 1 年5 月在科学 美国人杂志上发表了一篇名为 ( t h es e m a n t i cw e b ) ) 的文章,对于语义网的概念做了 如下解释:“语义w e b 是一个网,它包含了文档或者文档的一部分,描述了事物i 日j 的明 显关系,且包含语义信息,以利于机器的自动处理 。 语义w e b 并非是一个独立的全新w e b ,而是当前w e b 的一个扩展,其上的信息赋 予了良式定义的含义,使得计算机和人能更好地协同工作,语义w e b 的基本思想是为 东北大学硕士学位论文第1 章绪论 了w e b 上任意的资源,包括页面、数据和程序,引入清晰的语义和结构化的描述。 语义网中最为重要的一点儿就是语义网中引入了本体( o n t o l o g y ) 【3 】【4 】这一概念。本 体是实现语义w e b 的关键技术之一,在语义w e b 中具有核心地位。本体( o n t o l o g y ) 这一 概念起源于哲学,其哲学定义为“对世界上客观存在物的系统地描述,即存在论”,是客 观存在的一个系统的解释或说明,关心的是客观现实的抽象本质,简单地说来,本体在 哲学范畴内是指有关存在的本质以及何种事物存在的理论。虽然,在人类历史上对于本 体研究的历史由来已久,而将此概念引入计算机领域却只是近几年的事。现在,在信息 系统、知识系统等领域,越来越多的人研究本体,并给出了许多不同的定义。其中最著 名并被引用得最为广泛的定义是由g r u b e r 提出的,“本体是概念化的明确的规范说明 【引。后来,b r o s t 对此进行了修改,提出:“本体是共享概念模型的形式化规范说明”1 4 】。 本体的概念包括四个方面的内容:1 ) 概念化( c o n c e p t u a l i z a t i o n ) ,即本体是抽象出客 观世界的现象一些相关概念而得到的概念模型,概念系统所蕴含的语义结构,是对某一 事实结构非正式的约束规则,可以理解和或表达为一组概念( 如实体、属性、过程) 、 定义和关系;2 、l 明确( e x p l i c i t ) ,即本体所使用的概念及这些概念的约束都有明确的 定义;3 ) 形式化( f o r m a l ) ,本体所表示的内容对计算机而言是可读的;4 ) 共享( s h a r e ) , 本体中反映的知识是其使用者共同认可的。 在计算机领域,本体被认为是关于可共享概念化体系的明确的形式化规格说明,即, 它使用形式化、含有确切语义的语言来抽象描述需要表示的事物,或者从知识表示这一 角度看,本体也可以看成是对应用领域内的概念及其联系的描述【引。一般认为,本体就 是某个领域内( 可以是特定领域的,也可以是更广的范围) 不同主体( 人、代理、机器 等) 之间进行交流( 对话、互操作、共享等) 的一种语义基础,即由本体提供明确定义 的词汇表,描述概念和概念之问的关系,作为使用者之间沟通的基础。因此,本体的用 途包括交流、共享、互操作、重用等等。 一般认为本体包含以下元素:能被分类组织的概念、描述概念的属性、概念问的关 系和相关逻辑公理。简单点况,本体到了语义w e b 中就成了信息集合的代名词,具体看 可能是一份正式定义名词及其之间关系的文档。本体有着诸多的优点,比如本体的表达 能力强大:本体适合表示抽象的描述等。 一个典型的本体有一个层次分类,定义了类、类与类之间的关系以及具有推理能力 的一组推理规则。本体是使w e b 具有语义的核心技术,利用已有的本体可以在网页与文 档中插入标记,即对现有的大量w e b 信息进行标注,将网页上的信息和本体库中的本体 关联起来,使w e b 页的内容成为机器可识别和理解的数据,从而构成语义w e b 的基础。 ,、 , 呵 东北大学硕士学位论文第1 章绪论 本体提供知识共享和重用,而且它作为逻辑的一种,能描述概念和概念问的关系。因此, 逐渐成为知识工程、自然语言处理和知识表示、智能信息集成、信息协同系统、信息检 索、电子商务和知识管理界等领域的研究热点。 1 1 2 语义网的体系结构 为了实现语义w e b 信息服务的智能化和自动化的目标,语义w e b 的研究者们开发 了许多新技术,并提出了一系列的技术标准。t i mb e r n e r s l e e 一直致力于语义w e b 技 术的研究,提出了语义w e b 的层次模型1 5 1 ,并得到了语义w 曲研究者们的认同。该模 型共由七个层次组成,如图1 1 所示: 、 r u t e s t r u s t d a t a p r o o f墅 1 三 、 l o g i c 一 o d a t a c s e i f v - d e s c o n t o t o g yv o c a b u l a r y 母 o j d o c r d f + r d f s c h e m a x :m l + n s + x m t s c h e m a _ 。:一:霸一,嘲纛缀獭黼 。” 一嘲麓 图1 1 语义w e b 的体系结构 f i g1 1t h ea r c h i t e c t u r eo fs e m a n t i cw e b ( 1 ) 第一层是u n i c o d e 与u r i ,是整个语义w e b 体系结构的语法表示基础。其中 u n i c o d e 负责处理资源的编码,它是一个新的字符编码系统标准,支持世界上所有主要 语言文本字符。而负责表示资源的u r i ( u n i v e r s a lr e s o u r c ei d e n t i f i e r ) 是u r l ( u n i v e r s a l r e s o u r c el o c a t o r ) 的超集。在语义w e b 中,任何可以被描述的事物都可以称为资源, 每一个资源都由唯一的一个u r i 所标识,不同的资源拥有不同的u r i ,通过指定的u r i 可以确定互联网中唯一的一个资源( 即定位的唯一性) 。作为i n t e r n e t 资源的一种标准的 识别方法,u r i 可以进行更为精确的资源标识,使信息的精确检索成为可能。 ( 2 ) 第二层是x m l + n s + x m l s c h e m a ,x m l ( e x t e n s i b l em a r k u p l a n g u a g e ) 是一种 让用户可以使用自定义的词汇来书写结构化的网络文档的语言。x m l 具有命名空间和 x m l s c h e m a ( x m l 模式) 定义。该层用于从语法上表示数据的内容和结构,通过使用 标准的格式语言将w e b 上资源和信息的表现形式、数据结构和内容分离。 ( 3 ) 第三层是r d f + r d f s c h e m a ,r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 定义了一 东北大学硕士学位论文 第1 章绪论 种用以描述资源及其相互关系的简单模型,其基本数据模型包括三种类型的对象:资源、 属性和陈述;资源之间的关系通过属性和值来描述;r d fs c h e m a 定义了资源的种类, 以及不同类别的资源所拥有的属性、不同类型资源之问的关系,这种定义为使用r d f 描述具体的资源对象提供了语义结构上的约束。该层提供的语义模型用于描述w e b 上 的资源及其类型,为w e b 上资源描述提供了一种通用表示框架,是实现数据集成的元 数据解决方案。 ( 4 ) 第四层是o n t o l o g yv o c a b u l a r y ,用来定义应用领域中的共享知识,从而对各种 资源之间的语义关系进行描述,揭示资源本身以及资源之间更为复杂和丰富的语义信 息。 ( 5 ) 第五层到第七层是在下面四层的基础上进行逻辑推理操作。这三层位于语义 w e b 体系结构的顶部,也是语义表达的高级要求,目前正处于研究的阶段,也有一些简 单的示范性的应用系统正在建设中。其中,l o g i c 层提供了推理规则的描述手段,p r o o f t 、 一 层通过运用这些规则进行逻辑推理和求证,而t r u s t 层则负责为应用程序提供一种机制 以决定是否信任给出的结论。 整个体系结构中的核心层为x m l 、r d f 和o n t o l o g y ,这三层主要用于表示w 曲信 息的语义。语义w e b 研究的主要目的就是扩展当前的力维网,使得网络中所有信息都 是具有语义的,是计算机能够理解和处理的,从而便于任何计算机之间的交互与协作。 1 2 研究现状及存在的问题 本体是语义网中w e b 信息在语义层次上共享和交换的基础,因此,语义网的实现 很大程度上依赖于本体的建立。在过去的1 0 多年里,已经提出了许多本体构建工具, 如w e b o d e 6 1 ,o n t o e d i t 7 1 ,o i l e d 8 】等,这些工具提供了友好的图形化界面和一致性检 查机制,方便了本体的构建。但是这些工具提供的仅仅是本体编辑功能,支持的仍然是 手工构建本体的方式,用户需要逐个地输入和编辑每个概念的名字、约束、属性等内容, 然后才能基于这些知识进行推理或获耿新的知识。由于手工方法费时、费力,使得本体 的构建成为一项艰巨的任务。因此,研究自动的,通用的本体构建方法是解决这一问题 d 的关键。 从现有知识源( 如文本、词典、数据库模式等) 获取领域知识,以( 半) 自动方式 构建本体,即所谓的本体学习( o n t o l o g yl e a r n i n g ) ,是丌发本体的有效途型9 1 。目前已 经有一些方法和工具能够完成e r 模型到语义w e b 本体的转换。文献【1 0 】中介绍了一个 工具e r o n t o 能够把e r 模型转换成o w l 本体,它把e r 模型中的实例、属性和关系 映射成o w l 中的类和属性,并且能够表示多重性和主键约束。文献【1 1 】提出了一种从 i 东北大学硕士学位论文第1 章绪论 e r 模式到o w l 本体的翻译方法,建立了e r 模式与o w l 本体的概念对应。而随着面 向对象技术的应用,许多人使用u m l 进行系统建模,u m l 作为一个业界公认的建模标 准,被大家广泛接受,文献 1 2 1 q b 提出了一种对u m l 加以利用来丰富w e b 本体建设的 方法。 x m l 是自描述的、半结构化的和可扩展的标记语言,作为一种标记语言,它将数 据和对数据的描述( 元数据) 结合在一起,不仅能表示结构化数据,还能表示半结构化 数据,而这些大量存在于w e b 中的结构化和半结构化数据可以作为获取本体的数据源; 建立在r d f 基础之上,添加了更多用于描述属性和类的词汇的网络本体语言o w l ( o n t o l o g yw e bl a n g u a g e ) 作为w 3 c 推荐的w e b 本体标准语言,具有丰富的语义和关 系逻辑表示功能,同时十分强调知识的表示及推理规则的应用,是当前语义w e b 中最 有代表意义的本体描述语言。因此,如何将x m i a ,s c h e m a 文档自动的映射成o w l 本体 是一个很有意义的研究方向。 现阶段,国内外的研究人员已经提出了几种不同的x m l 到o w l 本体的映射策略, 主要可以归纳为以下两类: ( 1 ) 创建x m l 文档到一个已存在o w l 本体( 通过手动方式构建) 的映射:_ 个 本体由本体模型和本体实例构成,在这种类型的映射策略中,首先手动创建x m l s c h e m a 到已存在o w l 本体模型的映射规则,然后自动地将x m l 数据( 符合该x m ls c h e m a 模式规范) 映射为o w l 本体实例。本策略侧重于实现x m l 文档到o w l 本体实例的自 动化映射,而o w l 本体模型是手动创建的。文献【1 3 】中,在定义了x m ls c h e m a 到已 存在o w l 本体模型的映射规则的基础上,作者提出了一种x m l 文档到r d f 的映射方 法( 称作w e e s a ) ,而从x m l s c h e m a 到o w l 本体模型的映射是手动创建的,w e e s a 主要用于自动化的从x m l 文档中产生r d f 文档;在文献【1 4 】中,作者提出了一种手动 创建x m ls c h e m a 到o w l 本体模型映射规则的方法,产生的映射规则可以用于实现 x m l 文档到o w l 本体实例的自动化映射,该方法超越了w e e s a ,解决了w e e s a 中 映射规则的不完全性:在文献 1 5 1r 9 ,作者开发了一个用于实现x m l 文档到o w l 本体 实例映射的转换器,在存在一个o w l 本体模型的日仃提下,用户可以手动创建x m l 文 档到o w l 本体模型的映射规则,该转换器输入已存在的o w l 本体模型和用户创建的 映射规则,输出创建的o w l 本体实例;在文献【1 6 】中,作者首先定义了一个描述映射 规则的语言( 记法) ,然后使用该语言描述x m ls c h e m a 到一个已存在o w l 本体模型 的映射规则,最后实现x m l 文档( 符合该x m ls c h e m a 模式规范) 到o w l 本体实例 的自动化映射,在此基础上,作者还基于j a v a 丌发了一个框架模型j x m l 2 0 w l 用于验 东北大学硕士学位论文第1 章绪论 证该映射方法,j x m l 2 0 w l 的执行包括三个步骤:第一步创建一个新的映射过程并载 入x m l s c h e m a 文档和o w l 本体模型信息;第二步用户使用定义的规则描述语言创建 x m ls c h e m a 到o w l 本体模型的映射规则;第三步系统输出用于实现x m l 文档到o w l 本体实例的映射规则,使用x s l 语言描述。 ( 2 ) 基于x m l 的语法和文档结构,以及x m l 中元素嵌套所包含的语义信息,创 建一个新的o w l 本体:o w l 本体由o w l 本体模型和o w l 本体实例构成,在这种映 射策略中,首先通过提取x m l 文档结构中隐含的语义信息( 也就是x m l s c h e m a 所表 达的语义信息) ,自动的创建o w l 本体模型,然后产生相应的映射规则,自动化的将 x m l 文档映射为o w l 本体实例,本策略实现了x m ls c h e m a 到o w l 本体模型,以及 x m l 文档到o w l 本体实例的自动化映射,主要侧重于从现有的x m l 数据源创建新的 o w l 本体,包括o w l 本体模型和o w l 本体实例。在文献【1 7 】中,作者提出了一种直 接将x m l 文档翻译成r d f 的方法,x m l 和r d f 之间的联系建立在:x m l 中的元素 和属性与r d f 中的类和属性使用相同的名称,该方法产生的r d f 文档主要建立在x m l 文档的语法基础上,同时部分参照x m l 的文档结构;由于x m ls c h e m a 在定义x m l 文档结构和所用元素类型方面的巨大作用,因此,越来越多的研究将x m l s c h e m a 引入 了x m l 到o w l 本体的映射过程中,在文献 1 8 1 9 1 q b ,作者引入了x m ls c h e m a ,作 为实现x m l 文档与r d f 之间相互映射的基础,其中,x m ls c h e m a 的模型原语 ( p r i m i t i v e s ) 被解释称本体中的类概念;在文献【2 0 】中,作者描述了x m ls c h e m a 到 o w l 本体模型,以及x m l 文档到r d f 的自动化映射规则,但在该方法中,这两个映 射过程是相互独立的,因此产生的o w l 本体模型可能与本体实例不一致;在文献 2 1 】 中,作者解决了这种不一致性,首先基于x m l s c h e m a 构建了一个新的本体,然后将符 合该x m l s c h e m a 模式规范的x m l 文档映射为所构建本体的实例,最后提出了一个框 架模型用于验证上述映射过程:文献 2 2 1 提出的框架是另一种有趣的且完整的方法, 该框架基于x s l t 开发,能够将x m l s c h e m a 转换成o w l 本体,同时,该框架还支持 实例的转换。 第一种映射策略中,本体模型是手动创建的,因此创建的本体可以含有丰富的语义, 能更好地描述领域内的资源,但是该策略费时、费力,不利于本体的自动化构建;而第 二种映射策略中,本体模型和本体实例都是自动创建的,对于充分利用w e b 中大量存 在的x m l 数据源,构建语义较丰富的本体具有重要意义,可以更快的促进语义w e b 的 发展。因此,本文采用第二种映射策略来实现x m l s c h e m a 到o w l 本体的映射,但是 第二种映射策略中也存在着严重的问题,其所提供的x m l s c h e m a 到o w l 本体的映射 o 、 六 东北大学硕士学位论文第1 章绪论 规则是不全面的,表现在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论