(计算机应用技术专业论文)基于本体的信息集成研究.pdf_第1页
(计算机应用技术专业论文)基于本体的信息集成研究.pdf_第2页
(计算机应用技术专业论文)基于本体的信息集成研究.pdf_第3页
(计算机应用技术专业论文)基于本体的信息集成研究.pdf_第4页
(计算机应用技术专业论文)基于本体的信息集成研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的信息集成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨 t i i 人学硕 学佗论文 摘要 企业在信息化建设过程中构建了大量的应用系统。这些系统由于地理上 分布、管理上自治、模式上异构,彼此之间难以共享和互操作,从而形成信 息孤岛。随着信息化应用领域的不断扩充和深入,迫切需要对原有的信息系 统进行整合,消除信息孤岛。消除异构,实现信息共享,已经成为各行业信 息化建设中迫切需要解决的问题。信息集成就是要从分布的信息源中获取数 据,建立全局统一视图,为用户提供有效的查询机制,实现信息共享和互操 作。传统的信息集成技术主要解决数据的语法和结构异构问题,而对于语义 异构问题,一直没有提供良好的解决办法。如何解决语义异构问题是当前信 息集成领域的研究热点。由于本体既能准确地描述概念含义,又能描述概念 之间的内在关联,还具有很强的表达概念语义和获取知识的能力,因此本文 引入本体解决信息集成过程中的语义异构的问题。 本文对国内外信息集成的研究现状进行了分析,研究并讨论了信息源异 构类型,提出了一种利用本体解决信息集成中的语义异构问题的方法:深入 分析本体的基本理论,包括本体的概念与分类,描述语言、构建与映射等; 分析本体在信息集成中的作用,以及基于本体的信息集成的一般方法等;在 此基础上,提出基于本体的信息集成模型o b i i a ( o n t o l o g y b a s e di n f o r m a t i o n i n t e g r a t i o na r c h i t e c t u r e ) ,o b i i a 模型采用m e d i a t o r w r a p p e r 系统集成架构, 各信息源中的数据被包装器封装成统一的数据源模式。通过构建局部本体和 全局本体,为用户提供虚拟的全局视图。本文对o b i i a 模型的各层次的结构 和功能,以及关键技术进行了深入的研究。包括局部本体的构建与映射,全 局本体的构建与映射,查询处理等。 关键词:本体:信息集成;语义异构:本体构建;本体映射 哈尔滨f :程火学硕十学位论文 a b s tr a c t t h ee n t e r p r i s e sc o n s t r u c t e dv a r i o u sa p p l i c a t i o ns y s t e m sa c c o r d i n gt os p e c i f i c r e q u i r e m e n t s i nt h ep r o c e s so fb u i l d i n gt h ei n f o r m a t i o n t e c h n o l o g y t h e s e s y s t e m sa r ea l w a y sd i s t r i b u t e do ng e o g r a p h y , s e l f - r u l e do nm a n a g e m e n t ,a n d h e t e r o g e n e o u so nm o d e a n di ti sd i f f i c u l tt oe x c h a n g ea n ds h a r ei n f o r m a t i o nw i t h t h eo t h e r s t h u st h e s ei n f o r m a t i o ns o u r c e sb e c o m e “d e t a c h e d i s l a n d so f i n f o r m a t i o n ”t h em a i np r o b l e mf o ri n f o r m a t i o n i n t e g r a t i o n i st h a th o wt o i n t e g r a t et h o s eh e t e r o g e n e i t yi n f o r m a t i o nr e s o u r c e st op r o v i d es h a r i n ga n d i n t e r o p e r a b l es e r v i c e sf o ru s e r t h et r a d i t i o n a li n t e g r a t i o nm e t h o d sa r ea l w a y st o i n t e g r a t eh e t e r o g o n o u si n f o r m a t i o na ts y n t a x1 e v e la n ds t r u c t u r el e v e la n dh a v e n o t h i n gt o d ow i t ht h e p r o b l e mo fs e m a n t i ch e t e r o g e n e i t yo fi n f o r m a t i o n n o w a d a y s ,p e o p l ef o c u so nt h ep r o b l e mo f s e m a n t i ch e t e r o g e n e i t yi ni n f o r m a t i o n i n t e g r a t i o n o n t o l o g yp r o v i d e sav o c a b u l a r yt or e p r e s e n ta n dc o m m u n i c a t e k n o w l e d g ea b o u ts p e c i f i cd o m a i na n das e to fr e l a t i o n s h i p sc o n t a i n i n gt h et e r mo f t h ev o c a b u l a r ya tac o n c e p t u a l l e v e l t h e r e f o r e ,o n t o l o g ym i g h t b eu s e df o r i n f o r m a t i o ni n t e g r a t i o nt a s k sb e c a u s eo fi t sp o t e n t i a lt od e s c r i b et h es e m a n t i co f i n f o r m a t i o ns o u r c e sa n dt os o l v et h es e m a n t i ch e t e r o g e n e i t yp r o b l e m s f i r s t l y ,i nt h i st h e s i s ,c u r r e n ti n f o r m a t i o ni n t e g r a t i o nm e t h o d sa th o m ea n d a b r o a da r ed i s c u s s e d ,t h eh e t e r o g e n e i t yp r o b l e m so ft h ei n f o r m a t i o ns o u r c e sa r e a n a l y z e da n do n t o l o g y b a s e di n f o r m a t i o ni n t e g r a t i o ni si n t r o d u c e dt os o l v et h e s e m a n t i ch e t e r o g e n e i t yp r o b l e m s e c o n d l y ,t h eb a s i ct h e o r yi si n t r o d u c e d ,w h i c h r e f e r st ot h e c o n c e p to fo n t o l o g y ,a sw e l l a sd i v i s i o n m e t h o d s ,d e s c r i b i n g l a n g u a g e sa n dt o o l st oc o n s t r u c to n t o l o g y a tt h es a m et i m e ,t h ea d v a n t a g e so ft h e m e t h o dt h a ta p p l yo n t o l o g yt oi n f o r m a t i o ni n t e g r a t i o na r ea l s oa n a l y z e d t h e t h e s i sp u t sf o r w a r da no n t o l o g y b a s e di n f o r m a t i o ni n t e g r a t i o na r c h i t e c t u r e ,w h i c h i sn a m e do b i i a b yt h em e t h o do ft h em e d i a t o r w r a p p e r , t h ed a t ai sn o tr e a l l y s t o r e d ,b u ti sd i s t r i b u t e di na u t o n o m o u si n f o r m a t i o ns o u r c e s i n f o r m a t i o ns o u r c e s a r ew r a p p e db yw r a p p e r s ,a n dp r o v i d et h em e d i a t o rau n i f o r ms c h e m a o n t o l o g y , w h i c hc a ns o l v es e m a n t i cp r o b l e m se f f e c t i v e l y , i sa p p l i e da s at o o li no b i i a m o d e l t h em e t h o do f e s t a b l i s h i n gg l o b a lo n t o l o g ya n dl o c a lo n t o l o g y ,a sw e l la s t h em a p p i n gr e l a t i o n s ,i sd i s c u s s e di nt h et h e s i s 哈尔滨i :稃人硕 j 学f 节论文 k e y w o r d s o n t o l o g y ;i n f o r m a t i o ni n t e g r a t i o n ;s e m a n t i ch e t e r o g e n e i t y ;o n t o l o g y b u i l d i n g ;o n t o l o g ym a p p i n g 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其它个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) :王j 现蠹 日期: 必学年弓月f 锋日 哈尔滨- l - 仟1 7 人学硕十学位论文 第1 章绪论 1 1 课题研究背景及意义 随着信息技术的飞速发展,各企业单位在不同时期,根据不同需求丌发 了大量的软硬件平台各异、功能不同的应用系统。这些应用系统往往积累了 丰富的信息资源,却由于各系统的建模方法、丌发工具、表达方式等不同, 相互之间不能理解,难以共享和互操作,从而形成“信息孤岛”。随着信息化 应用领域的不断扩充和深入,企业内部各部门之间和企业与外界之间信息交 互的需求,以及对避免企业应用系统的重复建设和数据资源的浪费的需求只 益强烈,迫切需要对原有的信息系统进行整合,集成这些地理上分布、管理 上自治、模式上异构的异构信息源,连通“信息孤岛”,实现信息共享。只有 将这些孤立的信息源都集成起来,才有可能从充分的利用现有的资源,满足 企业对整个产品生命周期智能化管理和避免信息系统重复建设的需求。 信息集成就是要实现不同应用系统中异构信息资源的跨时空,透明、无 缝的整合,以统一的方式为用户提供信息服务。信息集成的方法一般是在信 息源逻辑层上建立统一的访问接口,实现异构信息的分布式共享,为用户提 供一个智能、高效、统一的查询接口。用户不必考虑数据模型的异构性、数 据抽取、数据合成等问题,只需指定他们想要的信息,而不必考虑怎样得到 信息。 近年来,新技术和新标准的不断涌现为信息集成提供了新方法和新思路, 信息集成研究的焦点从解决语法、结构层面的异构,逐渐发展到致力于语义 层面的异构。其中采用本体技术解决信息集成中的语义异构问题成为该领域 研究的热点。本体的引入能够在概念层次上统一不同信息源,解决语义异构 的问题;同时,由于引入了推理机制,系统将具有一定的推理功能和智能性。 本文以异构信息系统集成为研究背景,研究并探讨使用本体提供互操作实现 机制的方法和手段,深入研究基于本体的异构信息集成技术。 哈尔滨1 :程大学硕十学何论文 1 2 信息集成概述 1 2 1 信息集成的目的 信息集成就是要从多个自治的、分布的异构信息源中获取信息,建立多 信息源的全局统一视图,而不考虑其数据类型、数据存储、物理位置等影响 因素,随时随地提供对数据统一、透明的访问,为用户提供有效的查询方式, 最终实现信息共享一。简单的说,就是在用户看来,他们需要的所有数据应 该好像驻留在一个单一的信息源罩一样。 信息集成主要需要解决以下几个问题: ( 1 ) 重复建设。解决信息系统的重复建设问题,实现信息的共享和重用。 ( 2 ) 应用的互操作。使数据具备语义,能够为应用程序所理解,促进异 构信息系统间的互操作,减少信息孤岛。 ( 3 ) 异构性。为用户提供一个统一的查询界面,向用户屏蔽信息源异构。 ( 4 ) 自治性。在对原有应用系统的信息进行集成时,不能影响原有系统 的f 常运行。 ( 5 ) 扩展性。集成系统具有很好的可扩展性和适应性,能够适应信息源 的数目、内容以及格式等的不断变化。 ( 6 ) 可靠性。提供数据的可靠传输,解决不同软硬件和网络环境中系统 的通信问题,实现“信息孤岛”之间的连通。 1 2 2 信息源异构分析 信息集成的目的是屏蔽底层信息源的异构性,为用户提供个统一的视 图。信息源的异构问题从层次上可以划分为四个等级z : ( 1 ) 系统异构。系统异构主要指硬件和操作系统的异构。如数据所依赖 的应用系统、硬件平台、操作系统并发控制、访问方式和通信能力等不同。 ( 2 ) 语法异构。语法异构主要指不同的语言和数掘表达方式产生的异构。 哈尔滨l j 样人学硕十学何论文 例如各信息源分别使用c + + ,j a v a ,d e l p h i 等不同的语言工具丌发。 ( 3 ) 结构异构。结构异构主要指不同的数据模式产生的异构。一般的存 储模式包括关系模式、对象模式、对象关系模式和文档嵌套模式等几种,其 中关系模式为主流存储模式。需要注意的是,即使是同一类存储模式,它们 的模式结构可能也存在着差异。例如o r a c l e 采用的数据类型与s q ls e r v e r 采用的数据类型并不是完全一致的。 ( 4 ) 语义异构。语义异构主要指用户请求信息与信息源,以及信息源之 白j 存在语义上的区别。例如,从简单的命名冲突( 如同名异义,同义异名) , 到复杂的结构冲突( 不同的模式表达同样的信息) ,另外还包含语义相关的信 息的确定( 即不同信息源中描述同一现实世界的信息) 。语义冲突将会使信息 集成变得复杂化。 现有很多技术可用于解决不同类型的异构。针对不同形式的异构问题, 从技术的角度可以把应用集成解决方案分为技术集成、语法集成和语义集成。 针对系统异构,可以将网络技术和交换协议等联系在一起,确保在物理 层面上实现异构信息源的集成。 针对语法异构和结构异构,近来x m l 作为一种为交换异构信息提供公 共语法的方法为人们所接受1 j 。x m l 是一种标记语言,它的最大优点在于它 的存储格式不受现时格式的限制。它以一种开放的自我描述方式定义数据结 构,借助机器可读的标记元素精确表示文档的结构。x m l 语言功能很强,具 有数掘与呈现方式分离、良好的数据存储格式、可扩展性、高度结构化、便 丁9 6 9 络传输等特点。x m l 成为解决语法和结构异构问题的数据交换标准。但 是,在使用x m l 结构进行信息集的方法旱,语法和结构异构问题虽然得到 了解决,但是语义异构问题仍然存在。“。 语义异构问题一直是研究的热点。x m l 所采取的半结构化的数据模式已 经可以支持较小粒度和较为简单的语义信息的描述,而且x m l 数据模式还 具有动态可变性、自描述性和与其他标准的良好兼容性,以及轻量级数据集 成和共享。但是x m l 仅仅侧重于数据交换,而且x m l 自身的缺陷,嵌套的 不u j 控制导致文档结构过于复杂和数据约束的缺乏,都使得这种方式的集成 和共享仍然停留在语法层面上,而不是复杂的语义层面。无论足通过联邦数 掘库技术,数掘仓库技术还是基于m e d i a t o r w r a p p e r 技术的代理,也都面临 哈尔滨i :程大学硕十学位论文 着同样的问题。为了更好地解决异构信息源中的语义异构问题,本文引入本 体( o n t o l o g y ) 技术。 1 2 3 语义异构与本体 x m l 技术虽然可以很好地解决信息源的结构异构和语法异构问题,但对 语义异构问题却无能为力。本体是共享概念模型的形式化规范说明,所以本 文在信息集成中引入本体技术,消除语义异构问题,实现信息共享与互操作。 1 语义异构种类 语义异构主要包括以下四种“: ( 1 ) 命名异构。不同的信息源使用多种术语表示同一概念,即异名同义; 相反地,在不同系统中,同一概念也可能表达不同的含义,即同名异义。例 如,对于“作家”这个概念,在不同的信息源中有不同的表示方法,有的表 示为“w r i t e r ”,有的却表示为“a u t h o r ”;相反的,“d o c t o r ”在一个信息源中, 可能代表“博士”,而在另外一个信息源中却代表“医生”。 ( 2 ) 格式异构。各信息源使用不同计量单位等来表示相同( 或相似) 的 信息。如在度量速度时,有的用“米秒”,而有的则用“千米4 , 时”。 ( 3 ) 属性异构。不同的信息源对相同实体的属性采取不同的定义方法。 ( 4 ) 外延异构。各信息源中的概念应用的范围不同。如“教工”,在有的 系统中仅包含教师,而在其它的系统中还包含实验员。 ( 5 ) 混淆冲突。由于概念表达不明确,不易理解。例如“好学生”中的 “好”可能被解释为“成绩突出”或“品质优秀”。 2 本体可以解决的异构问题 本体在概念层上提供了一组用于表达和沟通领域知识的词汇,以及包含 这些词汇的一组关系。考虑到本体潜在的描述信息源的语义和解决异构问题 的能力,信息集成中能够利用本体来解决语义异构问题。在信息集成中加入 本体技术的可以解决的问题如下: ( 1 ) 结构冲突。x m l 文档缺乏对自身内容的精确描述,为了更好地进行 数据集成,用d t d 或x m l s c h e m a 表述的结构必须要丰富其语义性。 ( 2 ) 元素和属性矛盾。可以将x m l 文档中元素和属性的语义映射到共享 4 哈尔滨广程大学硕十学位论文 本体的概念上,即使元素和属性是同义词或者是同名异义的也可以实现。例 如,不同x m l 文档中的w r i t e r 和a u t h o r 被映射到特定本体的概念a u t h o r 上。 ( 3 ) 领域知识表达冲突。如果使用不同的领域知识来表示意义相同的数 据,那么在不同的词汇之间就必须生成一个领域间的翻译列表。例如,分别 用英语和汉语表示的作家姓名之间就需要一个翻译列表,使表示不同的词汇 联系起来。 利用本体语义级地定义x m l 文档,就可以解决不同层次的异构问题。 依掘本体的查询可以使用户免于对信息集成细节问题的困扰。非常重要的一 点是,如果用户查询本体中的一个明确的概念,那么与这个概念的相关一系 列超概念和子概念所属的元素和属性都会被找到,这j 下是用户所期望的。 1 3 国内外研究现状 1 3 1 信息集成研究现状 1 信息集成技术的发展阶段 信息集成技术的研究始于2 0 世纪7 0 年代中期。从一丌始的多数据库集 成发展到现在的异构信息源集成,信息集成的范围和作用都在不断扩大。 a m i te s h e t h 提出信息集成的发展大约可分为三个阶段“一”: 7 0 年代至8 0 年代中期:出现的主要技术有多数据库系统和联邦数据库 系统,重点在于使有着不同软硬件设备的计算机系统进行互连和通信,解决 了一定程度上的语法和结构异构,实现了地理分布、数据模式等的透明性, 主要的产品有u n i s q l m ( u n i s q l ) 、d a t a l o i n e r ( i b m ) 、o m n i c o n n e c t ( s y b a s e ) 、 m e r m a i n 等。 8 0 年代中期至9 0 年代中期:随着网络的出现、i n t e r n e t 的发展以及多种 类型的数据的形成( 包括结构化数据库、半结构化数据、数字多媒体等) ,出 现了一些支持多种类型的异构数据集成的技术,如m e t a d a t a 、m e d i a t o r 、中 间件等,主要的系统有t s i m m i s 、g a r l i c 、s i m s 、h e r m e s 、i n f o s l e u t h 等。 气 哈尔滨1 :科人学硕十学何论文 9 0 年代中期至现在:这个阶段比较关注信息集成过程中的语义异构的解 决问题,更多的运用知识领域的有关技术如本体等。主要有信息的智能集成、 数字化图书馆、智能检索等。 2 现有的信息集成方法 当前信息集成方法大致分为数据复制方法和模式集成方法。 ( 1 ) 数据复制方法 数据复制方法将各个信息源的数据复制到与其相关的其它信息源上,并 维护信息源整体上的数据一致性、提高信息共享利用的效率。数据复制可以 是整个信息源的复制,也可以是仅对变化数据的传播与复制。数据复制方法 可以减少用户使用信息集成系统时对异构信息源的访问量,从而提高信息集 成系统的性能。 最常见的数据复制方法就是数据仓库方法、,如图1 1 所示。 图1 1 数据仓厍架构 该方法将各个信息源的数据复制到同一个数据仓库。用户像访问普通数 据库一样直接访问数据仓库。这种方法最大的优点在于能够保证快速高效的 查询,但查询的数据缺乏时效性。 ( 2 ) 模式集成方法 模式集成1 + 的基本思想是,在构建集成系统时将各信息源的数据模式集 成为全局模式,使用户能够按照全局模式透明地访问各信息源的数据。全局 模式描述了信息源共享数据的结构、语义及操作等。用户直接在全局模式的 摹础上提交请求,由数据集成系统处理这些请求,转换成各个信息源在本地 数掘视图基础上能够执行的请求。模式集成方法的特点是直接为用户提供透 明的数据访问方法。由于用户使用的全局模式是虚拟的视图,模式集成方法 6 哈尔滨:程火学硕十学位论文 也称作虚拟视图集成方法。 模式集成解决两个基本问题:构建全局模式与信息源之问的映射关系; 处理用户在全局模式基础上的查询请求。 模式集成方法现有两种典型的方式:联邦数据库“和中间件“舢1 。 联邦数据库系统是数据库集成的最简单结构。它的构成方式是将所有数 据库进行一对一的连接。如果存在n 个数据库,则每个数据库都需要与其它 n 1 个数据库实现互操作。联邦数据库系统的体系结构如图1 2 所示。 图1 2 联邦数据库系统 根据对联邦数据库的控制及操作方式,可以将联邦数据库分为松耦合联 邦数据库和紧耦合联邦数据库。 松耦合联邦数据库没有全局数据模式存在,用户必须通过特定的多数据 库操作语言及自己对联邦的定义、维护实现数据运营,松耦合联邦数据库中 的各数掘库具有很高的自治性。紧耦合联邦数据库“拥有全局数据模式和全 局数据库管理员,管理员负责创建和维护全局数据模式,并向用户提供统一 的数据操纵接口。根据全局模式的数量可以将紧耦合联邦数据库分为单联邦 数据库和多联邦数据库。单联邦数据库只有一个全局模式存在,而多联邦数 掘库则可以为不同用户群建立多个全局模式。 m e d i a t o r w r a p p e r 通过提供所有异构信息源的虚拟视图进行集成。信息 源可以是数据库、遗留系统,w e b 数据源等m 。这种集成方式本身并不存储 任何实际数据,而是系统提供给用户一个虚拟的全局模式。用户针对全局模 7 哈尔滨。r 程大学硕十学位论文 式提交查询而不必知道信息源的位置、存在模式和访问方法等,系统将用户 查询翻译成一个或多个对应信息源的查询。然后将信息源的查询结构进行综 合处理,并将它返回给用户。m e d i a t o r w r a p p e r 系统中的信息源是完全自治 的,可以容易地增加删除信息源。 m e d i a t o r w r a p p e r 系统的体系结构如图1 3 所示: 图1 3 中l 司仲系统体系架构 m e d i a t o r w r a p p e r 系统一般由一个中间件( m e d i a t o r ) 和多个包装器 ( w r a p p e r ) 组成。包装器用于将信息源的数据转换为集成系统可以处理的某种 结构化的数据。中间件的功能是分析针对全局模式的查询,分解为子查询, 并将它们转换为针对相应数据源的查询,最后合并所有信息源的结果返回给 用户。 3 典型的异构信息集成系统 目前已经研制出来的异构信息集成系统有很多,这罩选取其中有代表性 的三个系统,介绍其功能和特点: l o r e :l o r e ( l i g h t w e i g h to b j e c tr e p o s i t o r y ) 是美国s t a n f o r d 大学设计的一 个专门用于管理半结构化信息的数据库管理信息系统,可以对半结构化数据 ( o e m ) 和x m l 数据进行存储和管理。l o r e 包含标准数据库的一些特性,如 多用户支持、闩志和恢复功能以及查询和更新语言。同时l o r e 也提供了其他 一些操作数据库的工具。 o z o n e :o z o n e 是美国s t a n f o r d 大学设计的一个集成模型,该模型对面向 对象数据库的o d m g 模型进行了扩展,可以对结构化和半结构化数掘进行 r 哈尔滨l 科- i1 人硕十。学位论文 集成。o z o n e 系统特别适合处理杂合性数据,尤其是广泛应用于w e b 的数据。 v e r s a t i l e :v e r s a t i l e 是由东南大学开发的一个基于c o r b a 的可扩展的异 构信息源集成系统原型。该模型在i o n a 公司的o r b i x 产品上,对s q ls e r v e r 、 文件系统、超文本数据进行包装和集成。该系统不仅能集成上述信息源,而 且能集成随时插入的新信息源中的数据。 1 3 2 本体研究及应用现状 1 总体研究现状 从总体上来看,当前对本体的研究包含3 个层次上的内容: ( 1 ) 本体论工程。其主要目的是研究和开发本体的内容,包括两个方面, 其一是研究和创建特定领域的本体库,其二是研究和建立通用知识的( 或常 识知识的) 本体库。 ( 2 ) 本体的表示、转换和集成。研究用于表示各种本体的知识表示系统, 提供形式化方法和工具,使所建立的本体能够方便地被共享和重用,提供不 同的本体评价和比较框架,研究不同本体之间的转换方法和不同本体的集成 方法,提供不同本体之间互操作的手段。 ( 3 ) 本体的应用。主要研究以特定领域本体或通用知识本体为基础的应 用。 2 国外著名的本体研究项目 ( 1 ) c y c 。c y c 是m c c 公司的研究项目,其目的是通过本体开发为常识 推理提供基础。 ( 2 ) t o v e 。t o v e 是加拿大多伦多大学的研究项目,其目的是构造企业 本体。 ( 3 ) e n t e r p r i s e 。e n t e r p r i s e 项目是英国爱丁堡大学人工智能应用研究所 a i a i 的研究项目。其目的是通过一个集成框架,集成企业建模的方法和工具, 以改进和代替现有的建模方法。 ( 4 ) k a c t u s 。k a c t u s 是欧洲e s p r i t 项目。其目的是开发出技术系统 全生命周期的知识重用方法学,以便在设计、诊断、操作、维护、再设计和 培训时使用同一知识库。 9 哈尔滨l :稃人学硕十学位论文 ( 5 ) k s l 。k s l 是美国d a r p a 项目,主要由斯坦福大学知识系统实验室 承担。其目的是使得知识系统的开发者能够从可重用的模块库中选择构件, 进行装配,形成所需的新系统。 ( 6 ) g u a r i n o 对于本体的研究。g u a r i n o 是意大利帕多瓦大学 l a d s e b c n r 的高级研究员。他分析总结了本体及相关概念的含义,提出 了“本体层”的概念,研究了表示本体的本体约定,并探索了本体在物理对 象、s t e p 语义方面的应用,具有重要的参考价值。 ( 7 ) c o m m o nk a d s 。c o m m o nk a d s 是欧洲e s p r i t 项目,它在问题求 解模型研究方面有重要作用。 ( 8 ) 工作流管理同盟、s t e p 和e x p r e s s 、c o r b a 和k i f 等。本体的 开发可以使得不同工具之间的表示标准化。 总体来说,国外主要研究领域,始于人工智能及知识工程领域,主要解 决知识重用和共享问题。目前应用主要在以下几个方面:人工智能及知识工 程领域;图书情报及标准化领域;信息集成特别是网络信息集成领域。 3 国内的本体论研究和应用 国内对本体及应用技术的研究比较有影响的有: ( 1 ) 中国科学院数学与系统科学研究院陆汝钤、史忠植对本体进行大量 的基础性研究: ( 2 ) 浙江大学计算机学院李善平对基于本体的产品知识表达进行了研 究,吴朝晖对基于o w l 本体论映射研究; ( 3 ) 上海交通大学计算机系张申生利用本体进行知识管理的研究。 从研究文献和成果进行分析,可以看出国内对本体的研究主要集中在本 体基础、知识集成和c i m s 应用领域。这些研究工作为本体应用于信息集成 研究打下了峰实的基础。 1 3 3 基于本体的信息集成研究现状 1 国外基于本体的信息集成的相关研究 s k c ( s c a l a b l ek n o w l e d g ec o m p o s i t i o n ) 是s t a n f o r d 大学一在开展的一个项 目,其目标是解决信息系统( 包括w e b ) 中的语义异构问题,实现异构自治 l o 哈尔滨:r 群人学硕士学位论文 系统之间的互操作。该项目希望通过在多个信息源上建立不同的本体,然后 在这些本体上建立一个代数系统,用这个代数系统来实现各本体之间的互操 作,从而实现异构系统之间的互操作。 o n t o b r o k e r 是面向的是w w w 上的网页资源,其目标是为用户检索到所 需要的页面,这些页面含有用户所关心的内容。其基本思想是在页面中加入 预先定义的本体标识( 基于h t m l 或x m l ) ,由w r a p p e r 收集这些标识并保存 在数据库中。需要在页面中标注有关数据是该系统的最大缺陷。 a r i a d n e 项目将目标集中在丌发能够抽取,查询和集成w e b 信息源的智 能a g e n t 。该项目应用能够通过一个使用l o o m 编码的本体作为a r i a d n e 信 息中间层来访问不同的信息源,中间层中包含本体与信息源之l 日j 的映射。 o b s e r v e r 项目中,使用不同的本体来表达不同的信息源,并在不同的 本体之间建立一个映射集合。当用户提交一个查询,系统使用其中的一个本 体给出答案。若用户对该答案不满意,能够选择其它的本体来做扩展答案, 系统提供了对遗失信息的评估,这个评估包括了答案中多少条目不是j 下确的 回答,多少条目应该出现在答案当中而没有出现等。 p i c s e l 是一个分布、异构数据源上的信息集成系统,p i c s e l 中定义了 一个基f 知谚 的中间层来连接用户和相同领域内的若干信息源,这个中| 日j 层 能够处理用户的查询并返回查询结果给用户。 2 国内基于本体进行信息集成管理的相关研究 与国外所丌展的研究工作相比较,国内对于信息集成技术的研究较晚, 该项领域关键技术的研究倍受国内各大学和科研院所研究人员的关注,j 下逐 渐成为信息管理与应用领域研究的热点与焦点。 东南大学计算机科学与工程第的研究人员所作的工作比较早,他们紧密 跟踪t s l m m i s 项目研究的基础上,开发了一个基于c o r b a 的半结构化信 息集成系统原形v e r s a t i i e 。该模型基于带根连通有向图理论建立其o i m 对 象代数提供对象并、差、选择、投影、粘贴及切削等6 种操作。 中国人民大学信息学院的孟小峰教授等就w e b 数据管理的若干问题进 行了研究,重点就w e b 查询问题、半结构化数据模式和w e b 信息集成方法 进行了研究。他们提出了个基于x m l 的w e b 数据管理系统框架,首先将 各异构信息源转换载入到x m l 数据中心,然后对数据中心的x m l 数掘进行 l l 哈尔滨t 程大学硕士学位论文 管理和查询。目前研究工作仍处于进一步探索阶段。 国内与异构信息集成研究相关的主要项目有国家重点基础研究发展规划 ( 9 7 3 规划) 的“网络环境下海量信息组织与处理的理论与方法项目”和“万 维网上的数据集成、数据仓储及知识发现的有效算法与软件系统”;国家数据 库重大专项课题( 8 6 3 项目) 的“基于x m l 的数据集成,共享与交换”以及 国家自然科学基会项目“分布式智能异构数据集成支持系统的研究”等。 1 4 本文的主要研究内容 本文首先分析信息集成的必要性和信息源的异构方式,提出利用本体解 决信息集成中的语义异构问题,总结信息集成与本体的国内外研究现状。 研究本体的基本理论,包括本体的概念、建模理论、描述语言等,分析 本体在信息集成中的作用,信息集成中的模式映射建模方法,应用本体进行 信息集成的过程等,为提出基于本体的信息集成模型打下坚实的理论基础。 在深入研究信息集成和本体理论的基础上,提出基于本体的异构信息集 成模型o b i i a ,介绍模型结构及功能,研究关键技术。 该模型整体采用m e d i a t o r w r a p p e r 系统架构,分为信息源层、信息集成 层、查询处理层、用户统一接口层。包装器将异构信息源封装成统一的数据 源模式,屏蔽底层信息源的结构和语法异构;信息集成层采用混合本体方式, 为用户提供统一的全局视图,实现信息的虚拟集成,同时,全局本体与局部 本体两级映射的松散耦合结构使得信息集成模型更具灵活性;查询处理层通 过不断地与全局本体、局部本体进行交互,为用户提供智能的查询服务。重 点介绍o b i i a 模型中的关键技术,包括数据源模式转换、局部本体构建与映 射、全局本体构建与映射等。 最后通过实例验证将本体引入信息集成中的优势。 1 5 本文的组织结构 本文共分四章,结构安排如下: 第1 章为绪论。介绍课题的研究背景及意义;分析信息集成的目的、信 1 2 哈尔滨1 :科大学硕+ 学位论文 息的异构方式等,提出利用本体解决语义异构问题:总结分析信息集成和本 体的国内外研究现状。 第2 章是基础理论研究部分。研究本体的基本理论,如本体的概念及分 类、建模理论、描述语言等;讨论本体在信息集成的应用,如本体在信息集 成中的作用,信息集成中应用本体的一般方法,基于本体的信息集成的过程 等。 第3 章是核心部分。在前两章理论研究的基础上,提出基于本体的异构 信息集成模型o b i i a :介绍模型的层次化结构,包括信息源层、信息集成层、 查询处理层、用户统一接口层,描述各层面的功能;重点介绍模型中的关键 技术,包括数据源模式转换,局部本体构建与映射,全局本体构建与映射。 第4 章是一个o b i i a 模型的实现,证明本体可以解决信息集成中的语义 异构问题。 哈尔滨i :程人学硕十学位论文 第2 章基于本体的信息集成理论研究 绪论部分介绍了信息集成的目的,当前信息集成领域的国内外研究现状, 对信息源的异构性进行了分析,并提出使用本体解决信息集成中的语义异构 问题。本章要做的工作是进行基于本体的信息集成的基础理论研究,包括本 体概念与分类、本体建模理论、本体描述语言,以及本体在信息集成中的应 用等,为基于本体的信息集成模型设计提供理论指导。 2 1 本体 2 1 1 本体概念 本体源自于哲学概念,从哲学的范畴来说,本体定义为“对世界上客观 世界存在物的系统的描述,即存在论”,是对客观存在的个系统或领域的解 释或说明,关心的是客观现实的抽象本质。 2 0 世纪9 0 年代初,人工智能界最先将本体概念引入计算机领域,用于 知识表示和组织,其概念和内涵也发生了改变。在人工智能界,最早给出本 体定义的n e c h e s 等人将本体定义为“给出构成相关领域词汇的基本术语和关 系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。 随着研究的不断深入,在信息系统、知识系统等领域,研究人员给出了 不同的定义。1 9 9 3 年,g r u b e r 给出了本体的一个最为流行的定义,即“本体 是概念模型的明确的规范说明”。后来,b o r s t 在此基础上,给出了本体的 另外种定义:“本体是共享概念模型的形式化规范说明m 一。s t u d e r 等人对 上述两个定义进行了深入的研究,认为本体是共享概念模型的明确的形式化 规范说明,包含4 层含义: ( 1 ) 概念化( c o n c e p t u a j i z a t j o n ) 。指通过抽象出客观世界中一些现象的相关 概念而得到的模型。 哈尔滨邓人学硕f :学何论文 ( 2 ) 明确( e x p l i c i t ) 。指所使用的概念及使用这些概念的约束都有明确的定 义。 ( 3 ) 形式化( f o r m a l ) 。指本体是计算机可读的,即能被计算机处理。 ( 4 ) 共享( s h a r e ) 。指本体中体现的是共同认可的知识,反映的是相关领域 中公认的概念集,即本体针对的是团体而非个体的共识。 虽然研究者对本体的描述各不相同,但是从内涵上看,他们对本体的认 识是一致的,即在相关领域内,本体通过建立共享词汇库,明确定义概念, 并描述概念之间的关系,为不同主体( 人、代理、机器等) 间的交流( 对话、 互操作、共享等) 提供语义基础。 2 1 2 本体分类 本体的分类方法较多,g u a r i n o 提出可根据详细程度和领域依赖度两个 维度对本体进行划分“。详细程度是一个相对的、较模糊的概念,指描述或 刻画对象的程度。详细程度高的称为参考本体,详细程度低的称为共享本体。 根据本体对所研究的学科领域的依赖程度的划分方法,将本体细分为项级 ( t o p 1 e v e l ) 、领域( d o m a i n ) 、任务( t a s k ) 和应用( a p p l i c a t i o n ) 本体等四类。 ( 1 ) 顶级本体。描述的是最普通的概念及概念之间的关系,如空间、时 间、事件、行为等,与具体的应用无关,完全独立于特定的问题或领域,可 以在一个很大的范围内共享,其他种类的本体都是该类本体的特例。 ( 2 ) 领域本体。描述的是特定领域中的概念及概念之间的关系。 ( 3 ) 任务本体。描述的是特定任务或行为中的概念及概念之间的关系。 它们都可以应用顶级本体中定义的词汇来描述自己的词汇。任务本体和领域 本体处于同一个研究和开发层次。 ( 4 ) 应用本体。描述特定的应用,它既可以应用特定的领域本体中的概 念及概念之间的关系,又可以引出特定的任务本体中的概念及概念之i 日j 的关 系。 哈尔滨一i :程人学硕一 :学何论文 2 2 本体建模理论 2 2 1 本体建模原语 p e r e z 等人认为本体可以按分类法来组织,并归纳出本体的五个基本构成 元素n 。下面对各基本元素进行分析: ( 1 ) 类( c l a s s e s ) ,有时也写成c o n c e p t s ( 概念) 。指任何事务,如工作描 述、功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合, 其定义一般采用框架( f l a m e ) 结构,包括概念的名称,与其它概念之间的关系 的集合,以及用自然语言对概念的描述。 ( 2 ) 关系( r e l a t i o n s ) 。指领域内概念间的交互作用。 ( 3 ) 函数( f u n c t i o n s ) 。是一类特殊的关系。关系的前n 。1 个元素可以唯一 决定第n 个元素。 ( 4 ) 公理( a x i o m s ) 。代表永真断言。如概念乙属于概念甲。 ( 5 ) 实t 歹i ( i n s t a n c e s ) 。属于某概念的基本元素,即某概念类所指的具体实 体。 2 2 2 本体建模原则 针对不同的问题域和具体工程,构造本体的过程也不相同。目前还没有 一个标准的本体构造方法。下面介绍最有影响的是g r u b e r 在1 9 9 5 年提出的 5 条规则m 。 ( 1 ) 明确性和客观性。本体应该有效的说明所定义术语的内涵,即能用 自然语言对所定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论