




已阅读5页,还剩64页未读, 继续免费阅读
(计算机软件与理论专业论文)基于本体的半结构化数据集成研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中l 母科学技术大学硕七论文墓= r 奉体的半结构化数据集成研究 摘要 伴随着互联网的发展,信息来源种类的增多,信息复杂性的增加,传统的数据 存储和交换方式已经不能够满足实际应用和研究的需要,x m l 作为半结构化数据存 储和交换的标准,正在被广泛的应用,而对于半结构化数据源的集成也日益成为研 究的热点。 对于基于x m l 的半结构化数据源的集成不同于传统的数据库集成,x m l 的树 型层次模型不同于扁平的实体对象模型,因此不能用传统的基于数据库视图的集成 方法。x m l 模式具有层次结构和约束关系,在数据模型中包含一定的结构信息,因 此研究者提出了基于全局模式和局部模式的集成方法,通过在模式之间建立映射关 系,将基于全局模式的查询转化为基于局部模式的查询,映射根据粒度可以在部分 模式之间,路径之间,或者标签之间建立,基于模式映射的方法能够较好的解决部 分应用范围的集成问题。 因为模式是一个纯语法结构,对于复杂模式间的映射和查询通常较复杂,为了 解决模式集成中的一些问题,本文提出一种基于本体的数据集成方案,可以看作是 对模式集成方法的一种拓展,主要贡献在于提出一种语义驱动的查询建立模型,一 种本体与数据源模式的映射模型和基于此模型的查询分解算法,以及针对数据源的 查询语言转换算法。基于本体的集成方法是一种自上而下的集成过程,与模式集成 相比本体是一个有向图结构,没有根节点,每一条边都具有对应的语义,查询树可 以从任意节点建立,基于本体和映射规则的查询处理算法可以很好的将摹于本体的 查询转化为基于数据源的查询计划,并且具有较好的扩展性。 最后通过个原型系统来证明集成框架的功能性和可行性。 关键词:本体数据源模式集成映射查询绑定查询分解 巾j 耐罩斗学技术人学硕七论土 基于本体的半鲇构化数据集成研究 a b s t r a c t a l o n gw i t ht i l ed e v e l o p m e n to fi n t e r n e t k i n d so fi n f o r m a t i o ns o u r c e sa n d c o m p l e x i t yo fi n f o r m a t i o na r em o r ea n dm o r e t r a d i t i o n a ld a t as t o r a g ea n de x c h a n g e m e t h o d sc a n ts u p p l ) e n o u g hs u p p o r tt 、o ra p p l i c a t i o na n dr e s e a r c hr e q u i r e m e n tt o d a y w i t hx m la p p l i e dm o r e i d e l y i th a sb e e nt h es t a n d a r df o rs e m i - s t r u c t u r e dd a t as t o r a g e a n d e x c h a n g e ,a n dt h ei n t e g r a t i o no fs e m i - s t r u c t u r e dd a t as o h r c e sh a sb e e no n eo ft h eh o t r e s e a r c ht o p i c sn o w t h ex m l - b a s e di n t e g r a t i o nm e t h o d sa r ed i f f e r e n tw i t ht h et r a d i t i o n a ld a t a b a s e - b a s e d o n e sb e c a u s et h e ya r eb a s e do nt o t a l l ) d i f f e r e n td a t am o d e l st h a tonei st r e e - l i k em o d e l a n dt h eo t h e ri s p l a t e rm o d e l x m ls c h e m ai n c l u d e ss t r u c t u r ea n dr e s t r i c t i o n i n f o r m a t i o nw h i c hi m p l ys o m ep h r a s e k n o w l e d g e s o m er e s e a r c h e r sa d v a n c ea n i n t e g r a t i o nm e t h o dw h i c hi sb a s e do nm a p p i n gr u l e sb e t w e e ng l o b a ls c h e m aa n dl o c a l s c h e m a m a p p i n gc a r lb em a d eb e t w e e nt a g s p a t h sa n dd t d s t h i si sag o o d 、a yu n d e r s o m ei n t e g r a t i o nc o n d i t i o n s b e c a u s ex m ls c h e m ai sap u r es y n t a xs t r u c t u r e ,t h em a p p i n gr u l e sa n dq u e r y t r a n s f o r m a t i o n sb e t 、 e e nt h e ma r em o r ec o m p l i c a t e d s ot h i sp a p e rp r o p o s e sa n o n t o l o g y b a s e di n t e g r a t i o nf r a m e w o r k t h em a i nc o n t r i b u t i o n sa r e as e m a n t i c d r i v e d q u e r ) m o d e l ,am a p p i n gm o d e lb e t v , e e no n t o l o g ya n dd a t as o u r c e ss c h e m a s ,q u e r y d e c o m p o s i t i o na l g o r i t h ma n dq u e r ) l a n g u a g et r a n s f o r m a t i o na l g o r i t h ma i m i n ga td a t a s o u r c e s o n t o l o g y b a s e di n t e g r a t i o ni sat o p d o w nw a y o n t o l o g yi sa t a g w i t h o u tr o o t , b o r d e r s i m p l y s e m a n t i ci n f o r m a t i o n t h i sf r a m e w o r kc a nd ow e l l w i t h q u e r y t r a n s f o r m a t i o n a n dh a sb e t t e re x p a n s i b i l i t y , a tl a s tw ep r o v et h ef u n c t i o n a l i t ya n df e a s i b i l i t yo f t h i sf r a m e 、o r kb yap r o t o t y p e k e y w o r d s :o n t o l o g y , d a t as o u r c es c h e m a ,i n t e g r a t i o n ,m a p p i n g q u e r yb i n d i n g , q u e r yd e c o m p o s i t i o n 中l q 科学技术人学硕七论文 基于木体的半结幸句化数据撬成研究 致谢 三年的硕士研究牛牛活马上就要结束了,回顾在中国科学技术大学八年来的牛 活与学习,心中充满了感激和欣慰。在科大的八年是我生命中最重要的一段时光, 从一个懵懂的高中毕业牛到一个马上要走上社会。去实现自己理想和抱负的青年 人,在这里伴随着成长,我学到了更多的知识,结识了更多的良师益友,我常常觉 得自己是幸运的,可以来到科大,来到计算机系学习。在此论文完成之际,我谨向 这八年来关心和帮助过我的老师,同学表示衷心的感谢。 首先我要感谢我的导师岳丽华教授,师从岳老师四年多的时间。无论从生活。 科研上对我的影响都是巨大的。岳老师渊博的学识,严谨的治学态度和诲人不倦的 精神给了我很大的启迪。从岳老师那里,我学到了字斟旬酌的严谨学风,正确的进 行科学研究的方法,积极乐观的生活态度。读研期间,岳老师在我身上倾注了大量 的心血,同时也寄予了厚望,整篇论文都是在岳老师的认真指导下完成的,再次向 岳老师表示最诚挚的感谢。 其次我要感谢龚育昌教授,最早进入数据库集成领域是在参加龚老师和岳老师 的一个讨论班开始,龚老师一丝不萄、认真负责的工作态度和对问题犀利的把握, 给我留下了深刻的印象,龚老师孜孜不倦的工作作风和教书育人的高尚品质深深感 染了我。 同时还要感谢我们项目组的韩恺,柳刘,任明雷,王强,蔡荣峰,傅宜生,向 小岩等同学,和他们的讨论,使我获益匪浅。另外,还要感谢我们实验室的周英华 刘晓红,柳建平,杨晓宇,董群峰同学,金培权老师,和他们在一起生活和学习的 日子,使我感到快乐,没有他们点点滴滴的帮助,就没有今天的这篇论文。 感谢s a 0 1 0 l l 的全体同学,认识他们我感到万份的荣幸。 感i ;身j 9 6 1 l 的全体同学,认识他们是我一生的骄傲。 感谢中国科学技术大学,我一生以此为荣。 最后我要衷心感谢我的父母,没有他们的生养之恩,就没有这篇论文。 中ir 4 e ! - 学技术大学硕士论空基r 丰体的半宝占构化数据集成研究 1 1 研究背景 第一章绪论 随着计算机应用需求的不断增长和计算机科学与技术发展的日新月异,人们对 于数据的处理模式从单一、集中式的数据管理系统发展到由功能强大的个人计算机、 群集服务器以及i n t e r n e t 构成的网络数据系统。在这种动态,分布式的环境中,用 户根据自己的需求采用不同的数据模型,数据结构,硬件和软件平台来存储和表示 数据信息。这样的数据处理方式虽然很好的满足了单一用户的需求,但是对于涉及 多个异构数据源的全局应用时,便出现了新的问题,因此如何对于异构数据源进行 集成的需求便应运而生。 w e b 技术的快速发展,使得x m l 语言成为数据存储和交换的标准,半结构化 数据的大量应用也使得传统的蕊于实体关系模型和对象模型的格式化数据存储方式 不堪重负,因此对于半结构化数据的存储和集成也逐渐成为目前的一个研究热点。 对于基于x m l 的数据集成不同于传统的数据库集成,x m l 的树型层次模型不同于 扁平的实体对象模型,x m l 模式具有层次结构和约束关系,在数据模型中包含一定 的结构信息,因此研究者提出了许多不同于传统数据集成的方法。 目前较多关注的是基于模式的集成方法,x m l 的模式定义是对x m l 数据的一 种约束,它包括结构定义,类型定义等,不同的数据源具有不同的模式定义,把不 同的局部数据源的结构约束信息集成为一个全局的模式定义,根据全局模式和局部 模式之间的映射关系,将基于全局模式的查询转化为局部模式的查询,是基于模式 集成的一般做法。根据模式之间映射方法不同,可以构造不同的查询分解算法,模 式集成方法是基于结构映射的,因此查询的建立和分解较复杂,对于一些应用需求 仅仅使用结构信息很难完成,因此有的研究者就提出了基于语义本体的集成方式。 本体( o n t o l o g y ) 是一种能在结构,语义和知识层次上描述信息系统的概念模 型。使用本体代替全局模式进行集成,使用户建立的查询,本体和数据源模式之间 的映射以及查询分解都是基于语义模型,使得过程更清楚,表达更清晰,界面更友 好。 本章余下的几个小节中,我们将简要介绍目前半结构化数据集成的研究现状, 包括基于模式的集成方法和基于本体的集成方法,并简要介绍本论文提出的基于本 中f 嗣科学技术大学顾士论文基- 丁本体的半结杜j 化数据集成研究 体的半结构化数据集成方案。 1 2 半结构化数据集成研究现状 随着x m l 语言逐渐成为数据存储和交换的标准,针对多个摹于x m l 的异构半 结构化数据源进行集成,是目前数据库领域的研究热点之一。基于模式的集成方法 针对数据的结构进行分析来处理异构的半结构化数据,引入本体是为了根据本体中 的语义模型解决一部分语义冲突,解决一些基于模式的集成中不能解决的问题,并 提供更加友好的查询访问支持,更好的重用和共享知识。 1 2 1x m l 简介 随着w e b 技术的飞速发展,越来越多的数据已经不能用传统的格式化数据模型 ( 如关系模型,对象模型) 表示,这些数据具有不确定的子类型和属性,包含复杂 数据类型和复杂的引用关系,这些数据被称为半结构化数据。x m l 标准的建立正是 为了解决这方面数据的存储和交换问题。 可扩展标识语言( x m l ) 是w 3 c 制定的w e b 数据交换标准 4 6 1 ,也是目前获得公 认的表示半结构化数据的一种数据格式,x m l 来自于对标准通用置标语言s g m l 的简化定义,因而具有一些突出的优点: 良好的可扩展性。 内容与形式的分离。 遵循严格的语法要求。 便于不同系统之间信息的传输。 x m l 文档必须遵守一定的规范,这个规范定义为d t d 或者) ( m ls c h e m a ,在 本文中,一律称之为模式( 或x m l 模式) 。模式提供了一套完整的机制以约束x m l 中置标的使用,包括文档的结构,元素的关系,内容和属性,元素的顺序和次数等。 对x m l 的集成就是利用对模式的转换,映射来实现高层次的数据交换。 1 2 2 基于模式的x m l 集成 t s i m m i s i 是斯坦福大学开发的半结构化数据集成系统,该数据采用o e m 模 型来作为公共数据模型,每个o e m 对象包括四个元素,用来表示模式信息。 t s i m m i s 提出一种基于全局模式的查询语言o e m q l 和用于全局模式定义的描述 r 1i k l 事 - 学技术大学硕七论友 墓丁| 木体的半耋占构化数据典成研究 语言m s l ,建立全局模式和局部模式之间的映射。在t s i m m i s 中,用户必须学习 特殊的语言m s l 并利用其于工定义全局模式从而达到数据集成的目的,因此其有 与传统的面向语言的集成方式相类似的缺点。 a g o r a 3 是法国i n r i a 研究所开发的尉j 二x m l 数据源的集成系统。在该系统中, 用户事先定义一个x m l 模式作为全局模式,全局模式在系统内部被转化成一个关 系模式,局部x m l 数据源和关系数据源也通过包装器转化为通用关系模式上的关 系视图,用户根据x m l 全局模式提交基于x q u e d 语法的查询时,全局查啕语句根 据若干规则被规范化,转化为针对通用关系模式的关系查询。此时,系统利用关系 模型上的查询重构算法将转化后的全局查询重写为各个局部数据源的关系查询执 行,得到查询结果后再利用一个结构重组的过程将关系数据转化为x m l 文档返回 给用户。a g o r a 系统完全沿袭了基于逻辑视图集成方法中的l a v 4 i 】方式,其核心 部分的查询处理过程则采用已有的关系模型上的查询重构算法。事实上,a g o r a 系 统的主要贡献在于找到了将针对x m l 模式的x q u e r y 查询语句转化为关系查询的一 条途径,而本质上具有l a v 集成方式的查询处理过程复杂等缺点。 1 2 3 基于本体的x m l 集成 b a c i i s 4 9 是个基于本体的生物和化学方面的信息集成系统,通过建立领域 本体,对在w e b 上发布的生物和化学方面的数据资源提供统一的访问方法。w e b 资 源的发布通过固定的函数定义提供,在集成系统中,用户根据本体提交查询条件和 需要返回的结果,由程序调用远程函数得到数据返回给最终用户。在这个集成系统 中,由于数据源提供的访问方法相对固定,核心的部分是把用户提交的查询分解到 各个数据源执行,然后把结果整合后返回给用户,其中没有涉及到冲突消解,查瀚 变换等问题。 s t y xf 6 1 是一个基于本体的x m l 数据源集成系统,主要的贡献在于( i ) 使用 本体代替了传统的全局视图;( 2 ) 定义了一种描述语言来表示x m l 数据资源:( 3 ) 提出了一种查询处理方法;( 4 ) 提出了一种能够分解到底层数据源的查洵计划。这 也是一个完整的集成系统所必须要做的儿个关键环节,用户根据系统自定义的语言, 写出要求查询的语句,经过查询分析,进入查询处理模块,由查淘处理模块进行查 询分解,给出查询计划,然后提交数据源执行,最后将结果返回给用户。系统的缺 点在于,用户必须理解系统自定义的查询语言,并且这种自定义的查询语言有些 限制性操作;产生查询计划算法中,对数据源的选取有一些限制性操作,可能会导 致返回结果的不完整:没有提供一种本体定义语言和对本体进行操作的方法,这就 巾i q 科学技术人学顾七论文基下奉体的半皇占构化数据集成研究 使得对于本体的修改,数据源的添加,删除很不方便,限制了系统的扩展性。 1 - 3 本论文酌工作 本论文中,我们提出一种基于本体的半结构化集成方案,针对异构x m l 数据 源集成中存在的问题和科研项耳的需求,从本体的构建,到本体与数据源模式的映 射,从本体驱动的查洵建立,到查询绑定和查询分解算法,以及基于底层数据源语 言的转换算法完整的解决方案,提出了一种异构数据源集成的新思路和解决方案。 本文的主要贡献是:( 1 ) 提出一种基于本体的查洵建立方式;( 2 ) 给出一种本体的 构建方法:( 3 ) 提出种本体与数据源间的映射方案和基于这种方案的查询绑定算 法;( 4 ) 设计了一种从查询树到x q u e r y 语言的转换算法。其中本体与数据源的映射 方案和查询绑定算法具有很大的灵活性,可以很好的解决基于模式的集成中无法实 现或者很难实现的查询需求。 1 3 1 集成框架体系结构 图1 1 是整个数据集成框架的体系结构图,该框架结构由三个层次组成。上层是 基于本体的用户接口,用户根据本体驱动的图形界面提交查询;中间层包括本体定 义,数据源模式定义,本体与数据源模式的映射,查询绑定和查询分解,结果包装 器6 个模块;底层是要集成的半结构化异构数据源,数据源采用x m l 格式描述, 对于关系数据源,在之上建立x m l 视图。对于数据源的查询采用x q u e r y 查询语言 标准,这也是w 3 c 提出的一种x m l 查洵语言标准,提供强大的查询功能。 ,。,一一 用户接口 一一二二二二二= 二= 二: :1 一 0 n t o l o g y、 二二叠壅:二i 至三二_ _ _ 一、 o sl l a p p i r t g结粜包琏嚣 :二初一_ ! 三乏i 7 籀磊嚣磋哥 一“一丽i 请面i 面 一 一 广一二二至二= 一 l 雩巴壁辇矍一 :,缸数据潭l 关系数槲源, 图l 。l 中i q 科学技术大学硕士论文毖下车体的半结构化数据懿成研究 1 3 2 本体构建与本体到敷据源的映射 这一部分介绍如何建立一个领域本体的过程,本体是“共享概念模型的明确的 形式化规范说明”,本体的建立虽然没有一个固定的方法论,f u 是本体的根本目的是 对领域知识的描述和共享,是对多个数据源元数据及其关联的表示。我们通过采用 一种知识表示和描述逻辑的语言,来定义本体的结构。 本体到数据源的映射也即是本体和数据源模式之间的关联规则定义,它将本体 中的类和关系定义映射到数据源模式的元素,属性和路径之上,提供给我们如何将 基于本体的查洵转换为数据源上的查询。在映射中,我们考虑了异构模式的命名冲 突,属性类型,格式,精度冲突等,并提出了相应的冲突消解规则。对于每一个数 据源都必须建立一张映射表,映射表也采用x m l 格式定义。 1 3 3 查询处理 查询处理是数据集成的核心部分和重点研究的方向之一,在本论文中,查淘处 理由两大模块组成,首先是本体到数据源的查询绑定,用户查询被表示成基于本体 的查询树形式,查询树的节点和路径分别是本体中的类和关系定义,根据第二章中 定义的映射规则,将由查询树的根节点到各个叶子节点的查询路径,绑定到各个数 据源模式中,这一步相当于制定查淘计划的预处理过程,供制定查询计划函数调用。 如果一个数据源不能满足一个完整的用户查询,就要进行查询分解,查询分解将一 棵查啕树分解为一个前缀查询和若干后缀查询,后缀查询递归调用查询分解函数, 在余下的数据源中根据绑定函数建立查询计划,然后根据关联节点的关键字机制进 行连接。 查询分解得到的子查询计划与关联节点的关键字一起提交给数据源,将查询返 回的结果按自底向上的顺序连接成一个完整的x m l 文档返回给用户。对于简单的 连接操作,连接节点首先被当作查淘结点返回,然后再根据连接条件做处理。 在查询处理中,我们仔细分析了在多x m l 集成环境下可能生成的不完全查询结 果、不精确查询结果等情况,提出了一种较好的查询和连接方案,并给出了具体的 算法。 1 3 4 查询实现和结果返回 经过查询处理得到的子查询计划经过查询语言转化算法改写为基于x q u e r y 语 巾1 日科学技术大学硕七论支 基于本体的单结构化数话集成研究 言规范的查询,通过x q u e r y 查询引擎牛成最终的查询结果。底层数据源采用统一 的x m l 格式,可以是x m l 格式的文件,x m l 原生数据库( n x d b ) ,也可以是w e b 上的x m l 资源或者关系数据库之上建立的x m l 视图,我们给出具体的查询转换算 法和多个数据源返回结果的连接操作算法,按照数据源返回最终的查询结果。 1 3 5 系统实现和应用 根据前面介绍的关键技术,我们初步实现了一个基于本体的异构x m l 数据源集 成系统。首先介绍了系统的实现框架、详细的实现设计方案和内部数据结构,包装 器的设计与实现,并通过一个常见的电子商务数据源的基准用例,来证明系统的功 能性和有效性。最后讨论系统实现的优缺点和需要下一步改进的地方。 1 4 章节安排 本论文章节安排如下: 第一章绪论主要介绍半结构化数据的概念和当前关于半结构化数据集成的研 究现状,最后简要介绍本论文的工作: 第二章本体构建和本体到数据源的映射这一章详细介绍本体的定义,本体的 描述方法,如何建立一个领域本体的方法,包括描述语言,支持工具,基本结构等; 讨论如何建立完备的本体与数据源模式的映射规则: 第三章查询处理本章包括了两个主要部分,首先介绍查询绑定算法,即如何 将用户提交的基于本体的查询谤根据第二章定义的映射规则,找到与指定数据源的 对应,然后在此基础上,建立查询对于全部数据源的查询计划: 第四章查询实现和结果返回包括子查询计划到具体查询语言的转换算法和多 数据源返回结果的连接算法,将最终结果按数据源提交给用户: 第五章系统实现根据前面几章讨论的关键技术,初步实现了一个原型系统, 并借助一个试验用例,来证明其功能性和有效性,并讨论其优缺点和进一步的改进; 第六章结束语总结本论文的研究工作,并提出下一步的工作目标; 最后是读研期间本人发表的论文和参考文献。 中l 羁科学技术丈学硕士论文 基丁- 本体的羊结构化数据集成研究 第二章本体构建与本体狲数据源映射 2 1 引言 本体最早是一个哲学的概念,是对一个客观存在的解释和说明,表示的是客观 存在的抽象本质。当它被引入信息领域的时候,最初被定义为“给出构成相关领域 词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则 的定义。”1 9 9 3 年g r u b e r 给了本体一个更为流行的定义“概念模型的明确的概念说 明” 7 】,后来又演变为“共享概念模型的明确的形式化规范说明”。在本体的建模 原语中,类是核心部分,表示领域的概念,它可以表示任何事物;类可以有子类, 表示比父类更具体的概念:类可以包含属性,表示类之间的关系,属性关系是一种 语义关系的定义,也是利用本体做推理的基础;本体还可以包含实例,表示具体的 对象。 近些年来关于本体应用的讨论已经广泛的出现在计算机科学及其交叉学科的许 多领域,从人工智能,数据库,电子商务到语义网络,生物信息学本体开发的研 究也已经从单一的人工智能领域逐步转移到领域专家的范畴,本体在生物信息学, 语义网络等领域已经有了大规模实质性的应用,通过本体描述语言建立的网络共享 的本体库,使本体从一个抽象的概念转变为对一个领域知识真实的描述。本体的目 标是通过定义一些公共的关键词来共享一个领域的信息,这些关键词包括了机器可 以理解的领域的基本概念和它们之间的关系。 构建一个本体通常基于如下的考虑: 在人或机器之间共享公共信息结构 重用领域知识 将领域知识与具体的操作分离 便于分析领域知识 使关于知识和领域模型的假设更为清晰 本章将对本体的概念和要素,本体的描述语言和工具,如何建立一个本体,本 体的解析与验证进行介绍和分折,并结合基于本体的异构x m l 数据集成介绍如何 建立本体到数据源模式的映射。 巾【日罩i 学技术大学硕士论文 基于本体的半结拇他数据集成研究 2 2 构建本体 根据本体的定义和目的一一本体是“概念模型的明确的概念说明” 7 l ,本体是 “为共享领域信息而定义的一组关键词,它包括机器可以自动解释的一组关键词和 它们之间的关系”。这是一个很抽象化的定义,它只给出了本体的应用目的,并没有 一个明确的构建方法,但通常人们认为本体按分类法组织,需要遵从若干基本的建 模原语:类,关系,函数,公理和实例。 类表示领域中的概念,可以指代任何事物,关系代表了在领域中概念之间的相 互作用,函数表示一类特殊的关系,形式化的定义为:f :( 1 l c ! c 。叶c 。表 示前n 1 个元素决定第n 个元素,实例表示对象,类表示的就是对象的集合,公 理表示本体中基本的关系定义。在具体的建立本体的过程中,并不一定严格按照上 述定义来构建,可以根据具体领域的具体情况定义相应的关系,以满足应用和研究 的需要。本体的具体构建方法还依赖于描述它的语言的表达能力,并且需要领域专 家的参与,而如何通过知识挖掘自动的获得本体是目前和未来的研究重点。 2 2 1 本体描述语言 因为本体定义的是一些机器可以理解的领域的基本概念和它们之间的关系,所 以本体的具体表示需要用描述语言来实现。目前有多种基于不同形式化表示的本体 描述语言,如基于一阶逻辑的o n t o l i n g u a ,o k b c ,l o o m 4 7 1 ,对于w e b 的应用来 说,需要一种通用的标准语言来表示本体,以免在各种描述语言之间转换。由于x m l 已经成为w e b 上数据交换的标准语言,因此一些研究人员也开发出基于x m l 语法 的描述语言,如r d f s ,d a m l + o i l ,o w i 。 图2 1 给出了一些主要描述语言的分类: 分类描述语言名称 传统本体语言 o n t o l i n g u a ,l o o m ,o k b c ,o c m l ,f k o g i c 本体定义语言 s h o e ,x o l ,0 m l ,0 l l ,d a m l + 0 i l w 3 c 推荐标准 x m l ,r d f s ,o w l 图2 1 图2 2 表示这些语言分别所属的概念模型: 岳 巾嘲科学技术大学硕七论文 基于奉体的半结构化数据集成研究 描述语言 形式化表示 o n t o l i n g u a 0 k b c o c m l l o o m f l o g i c s h o e x o l o i l 0 m l r d f s d a m l + o l l o w l - ;,f r a m e s 、; 、 ? 7 。、一s f i r s t o r d e r l o g i c , 、 。,d e s c r i p t i o nl o g i c ,t , 。一一二一一一c o n c e p t u a l l o g i c s e m a n t i cw e b 图2 2 需要说明的是,这些语言各有特点,它们的选择并不是由开发人员的喜好决定 的,而是由应用对于表达的需求或者推理的特点等原因决定的,它们除了具有基本 的本体定义功能外,还具有各自语言的特点。 如图2 3 所示: 描述语言类型适用条件 传统本体语言 强描述能力和推理能力的需求 描述逻辑自动分类能力 基于w e b 的本体语言本体间映射能力 2 2 2 本体开发工具 图2 3 为了利用本体描述语言进行可视化的本体定义,一些大学和科研工作者开发出 许多支持不同描述语言的可视化的本体开发工具,图2 4 列出了部分常用的开发工 具和它们支持的描述语言。 。| | 。i 冬。 巾旧科学技术大学颂士论文 基丁奉体的半结构化数据集成研究 开发工具 o i l e d ,i o n t o e d i t p r o t 亡醇2 0 0 0 w e b o f l t o 描述语言 - o h 。 d a m l + o i l r d f s s h i q 一 o c m l o w l c l i p s 图2 4 需要指出的是,因为这些开发工具大多数都是大学或出于研究目的开发的,所 以一般都提供源代码并且提供了开放的架构,可以通过开发插件来实现支持某一种 语言,如这里我们采用的p r o t 6 9 ,通过开发的插件来支持最新的o w l 标准。 2 3 开发流程 本体的定义,目的和特点,以及描述本体的语言的多样性,决定了本体开发的 灵活性。针对不同的描述语言和开发工具,人们提出了一些对应的本体定义方法论, 如u s c h o l d 方法,t o v e 方法,基于k a c t u s 项目的方法( 一种自下而上的开发方 法) s e n s u s 方法( 一种自上而下的开发方法) 1 4 1 1 4 8 1 。 根据我们的应用和研究需要,最后选择了o w l 描述语言和支持o w l 开发的 p r o t 萝工具。本小节介绍基于o w l 语言和p r o t 醇工具的本体定义方法。 2 3 1o w l 介绍 o w l ( o n t o l o g yw e bl a n g u a g e ) 4 6 是w 3 c 最新制定的基于x m l 的本体定义 语言,它是建立在r d f s 和d a m l + o i l 的基础上,扩充了新的功能,具有更强的 描述能力和表达能力。o w l 通过提供一个具有形式语义的附加词j l 表使得它更具 有机器可解释性。 在w 3 c 为语义网( s e m a n t i cw e b ) 定义的融议栈中,o w l 扮演着重要的角色,下 面是防议栈中主要协议的功能描述: x m l 为结构化文档提供一个语法模型,但没有任何语义信息 中1 日科学技术大学硕七论文基于本体的半耋;| i 构化数据集成研究 x m ls c h e m a 对x m l 文档提供一种约束,并具有数据类型描述 r d f 对对象和关系提供一种数据模型,并提供一种简单的语义,基于x m l 语法 r d fs c h e m a 提供一组简单的词汇集对r d f 资源的类和属性进行描述 o w l 通过添加更多的词汇集,扩充了r d f s 的功能 o w l 具体语法和模型可以查看丝卫王建坠! :坠塞:! 必对协议的定义。 p r o t 6 9 8 是斯坦福大学开发的支持多种描述语言的本体定义工具,并支持本体的 重用和验证。p r o t 6 9 8 具有开放的体系结构,可以通过添加插件,增加对其他描述语 言的支持,具有友好的界面。 2 3 2 开发方法论 图2 5 对于一个本体的定义,首先必须知道用它来做什么,本体需要定义的粒度是怎 么样的,才能更符合特定的应用和研究,更具有扩展性和可维护性。当定义好最初 的本体时,我们可以根据应用和与领域专家的讨论,去修正本体,这个过程一般会 贯穿整个本体的使用和研究过程。一般说来。本体的建立包括以下几个步骤: i 分析本体的应用范围,应用目的,要解决的问题类型,使用对象等。对本体 巾旧科学技术大学硬七论文 基于本体的半结构化数据集成研究 的粒度选择既不能过粗过大,也不能过细或者片面; 2 尽量重用现有本体。本体的特征之一就是鼓励知识的重用,在w e b 上建立 了很多针对各个领域的本体库,建立自己项目的本体时。应该尽量重用它们; 3 按照一定的层次结构定义类。对领域知识和应用目的的分析后,一般可采用 二种方式定义类:( 1 ) 自上而下的方法:即先定义较一般,抽象的类,逐步 定义到更具体的类:( 2 ,自下而上的方法是( 1 ) 的逆过程,先定义较具体 的类,然后再定义较般的类:f 3 ) 是二者的综合,同时定义相关联的所有 类; 4 定义属性和属性的约束。孤立的类并不能表示所有的信息,必须给类加上必 要的属性定义,并且对属性进行必要的约束,如属性的势,属性的值类型, 属性的d o m a i n 域和r a n g e 域等: 5 创建必要的实例。这些实例可以用于枚举类型 2 3 3 图形化定义 根据上一节介绍的本体定义方法和w 3 c 提供的基于o w l 的本体模型,我们采 用p r o t 6 9 来开发自己的本体,p r o t 6 9 采用的是自上而下的开发方法。即先定义较 抽象的类,然后定义较具体的类。 按步骤:( 1 ) 在左侧的树型结构中定义类和类的层次关系,如图2 6 ( 2 ) 定义 类的属性,包括对象属性和值属性,( 3 ) 增加约束等条件,完善本体定义( 4 ) 对本 体的正确性进行验证。如图2 8 a s s e r t e di - i 培m r e i t , t 。鬣,;囊 0 wt h ca i c o h o l ci r e a l o n 9 c d n , 4 , q i n e cn o r m a l w i n e 9cw i n e d e s c r i p t or cw i n e c o l or 口cw i f i e t 8 s t e cw i r l e b o d v cw i n e f l a v or c w i n e s u g a r cw i n e r y cc o l l e c t o r 图2 6 秽 巾i q 科学技术大学硕士论文基于本体的半结构化数据架成研究 2 3 4 验证与解析 使用开发工具进行本体定义,只能保证本体定义的格式满足o w l 语言,如图 2 7 ( 基于w 3 c 提供的w i n e 用例建立的本体一部分) ,不能保证本体定义的逻辑正 确性,所以还要进行验证,p r o t g 提供了开放的验证工具。 o w i :c l a s sr d f :t d - - 。 w i n e 叫”胁 r d f s :s u b c l a s s o 佟 r d f s :s u b c l a s s o p 图2 7 如图2 ,8 ,对于用户自己定义的本体,可以验证本体是否存在一致性等逻辑性错 误,如图2 ,7 ,本体定义的格式是基于x m l 的,作为w e b 数据交换的标准,采用 这种格式,便于本体的数据交换和解析。我们可以很容易的得到和发布一个本体到 w e b 上,并且可以很容易的去解析一个x m l 结构的本体,并根据描述语言,得到 本体中类,类的属性等元素的含义。 1 3 中i 时科学技术人学硕士论文基于车体的阜结构化数据艇成研究 o w lh e = - 一一一= = :一= : ,参r u n 湘呐孵悯墨 o 。s h o w t o d o * t 一 手t e s ts e t t i n g s “c h e c kc o n s i s t e n c y c c l a s s i f yt a x o n o m y d e t e r m i n e c o m t e r to w ls u b l a n g u a g e s h o w0 w u fs o u r c ec o d e s h o wa b s t r a c ts y n t a k 圉p r o t e g eo w l9 y n t a 日( p 帕f e f e n c e s n u b i l l nc o r er n e t a d a t a l 一d e f i n ei m p o r tp o l i c y a b o u tt h eo w lh u g i n 图2 8 2 4 本体到数据源映射 在半结构化数据集成系统中,本体更多的是作为一个轻量级的概念模型,用来 代替传统的全局模式,而不是一个强调层次关系的知识模型。利用本体进行集成, 主要是利用本体的概念定义和语义关系,提供给用户语义驱动的查询建立方式,解 决不可数据源间的语义冲突,可以看作是对传统的l a v 集成方式】的一种扩展。 2 4 1 本体模型 一个本体可以看作是一个3 元组,o = ( ( 1 r ,爿) ,其中c 表示本体中类的集合, r 表示本体中连接类和类的所有二元关系的集合,a 表示本体中所有的值属性的集 合。一个本体可以被表示成一个被二元关系连接的有向图,如图2 9 是图! 7 定义的 本体的模型图。在这个有向图中,节点表示本体的类和值属性,如i n e ,w i n e r y 定义为类,而y e a r v i n t a g e ,d e g l e e a l c o h o l 定义为值属性。有向边表示i s a 关系和对 象属性关系,如d r y w i n e 和n o r m a l w i n e 是w i n e 的予类,分别定义为 , ,w i n e 和w i n e c o l o r 是h a sc o l o r 关系,c o l l e c t o r 和r e g i o n 是l o c a t e di n 关系,则表示为 , 的对象属性关系,而w i n e 和w i n e r y 之间的双向箭头表示两个类之间存在 巾1 日科乍技术大学硕十论文基_ r 木体的半结构化数据螭成研究 p r o d u c e d _ b y 和p r o d u c e 关系,表示为 , ,即两个类之间具有双向的对象属性关系。 2 4 2 映射定义 对于一个数据源进行查询,必须定义数据源与全局模式之间的查询转换规则, 由于基于本体的数据集成中,本体的定义是由领域专家根据应用和研究的需求建立 的,而不是像传统的基于模式的集成方式中,全局模式与局部模式存在固定的转换 规则,因此必须定义本体与局部数据源模式之间的映射规则。 根据应用研究目的,查询分解算法的不同,有很多种映射方法,这里我们综合 并改进传统的t a g - t o t a g ,p a t h t o p a t h 9 映射靓则,定义本体到数据源模式的映射。 映射规则一般需要满足如下条件: 1 基于本体的数据集成可以看作是l a v 集成方法的一种扩展,也就是说数据源模 式被看作是本体的一个概念子集。因为用户提交查询是根据本体驱动的查询方 案建立的,所以需要建立完备的映射,而这个映射集合一般应该能满足对数据 源所有信息的查询,或根据应用和研究需要,建立粗一级粒度的映射,这也是 从上到下集成方法一般具有的特征; 2 对于存在多个x m l 模式文件的数据源,需要建立本体到所有模式的映射,映射 的建立在应用中是可修改的,可以根据需要髓时添加删除规则,而对算法的执 行没有影响; 3 需要对每一个数据源分别建立映射,因为基于本体的集成方式可以看作l a v 集 紧一, 虿繁,;。;:, 札 寥 ? m 2只号竺酏 巾l 目科学技术人学硕十论文 基于准体的半结构化数据集成研究 成方法的拓展,所以可以随意增加删除数据源而不用修改本体,只需要修改 本体到数据源模式的映射即可。 4 在映射规则中,可以进行一部分冲突消解,如命名冲突,格式冲突,类型冲突 和一部分其他的语义冲突。 根据上面提出的建立映射的方法,具体介绍映射规则的定义。本体到数据源的 映射规则可以定义为一个3 元组,兀= 0 ,s 从 。其中0 表示本体,s 表示数据源 集合,腻表示0 与数据源s 的映射规则集合。每一个映射规则存放在一个x m l 文 映射规则集合坛= 【m i s p a t h l ,l a b e h o p a t h l 麒。s p a t h 、l a b e l t ( ) p a t h ,】 ,j 表 示一条规则,s p “t b ,表示一条数据源模式路径,数据源模式可以是d t d 或者x m l s c h e m a ,l a b e l ,是一个标记符,表示s p a t h , 代表的模式路径,o p a t h 表示本体的类或 者属性关系,可以是一个属性关系或者属性的连接,表示一个概念类。 在映射规则中,数据源模式的路径描述采用基于x p a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宣城广德市实验小学教育集团南校区招聘考试参考试题及答案解析
- 2025承德平泉市招聘事业单位55名备考考试题库附答案解析
- 2025东风卓联汽车服务有限公司招聘1人备考考试题库附答案解析
- 工厂安全培训材料课件
- 2025年合肥市建投集团秋季招聘20名笔试模拟试题及答案解析
- 哲思之旅:学界篇
- 幼教课件精良设计
- 《太空一日》课件
- 混合系统安全性分析-洞察及研究
- 手抓饼吃法课件
- 2024-2025学年广东省深圳实验学校高中园高一(上)第一次段考数学试卷(含答案)
- 2024-2025学年天津市和平区双菱中学七年级(上)第一次月考数学试卷
- ISO9001-2015质量管理体系内审培训课件
- 《无线电失效程序》课件
- 新生儿注射用药并发症防治及管理课件
- 泸州市专业技术人员年度考核登记表
- join-in-六上-Unit3-Festivals-Part1市公开课一等奖省赛课微课金奖课
- AS9100D-(2016)-标准培训课件
- 设备维保的预防性保养与维护策略
- 【经典阅读】四年级阅读训练-人物描写分析(知识梳理+例文解析)(有答案)
- 多格列艾汀片-药品临床应用解读
评论
0/150
提交评论