




已阅读5页,还剩83页未读, 继续免费阅读
(模式识别与智能系统专业论文)双时态本体模型及其在信息集成系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着信息技术,特别是i n t e m e t 技术的快速发展,信息数量迅速膨胀,用户 对信息质量的需求进一步提高,信息语义化成为信息管理和信息共享的重要方法 和必然趋势。本体作为一种通用的语义模型自其出现以后一直倍受研究者的关 注,除本体应用外,本体的管理维护也成为一个重要的研究内容。时态信息是一 种被普遍应用且重要的信息,在本体模型中加入时态信息能够完善本体的描述能 力并为本体的管理维护提供依据。 为了使本体能够方便地表达和处理与时间相关的信息,本文首先将有效时间 概念引入本体模型,提出有时态本体模型定义,对其存储管理、时态查询和时态 推理需求进行分析,提出了有时态本体模型的存储管理方法、时态查询与时态推 理的步骤及相关定理,并设计实验进行验证。 在有时态本体模型的基础上,对有时态本体的版本控制与管理的关键技术进 行研究。将事务时间与有时态本体的版本信息相对应,提出了双时态本体模型。 该模型能保证本体内的全部内容都同时支持事务时间和有效时间两个时间维。之 后对双时态本体的存储与查询操作进行设计与分类。 在以上研究的基础上,本文设计并实现了双时态本体管理原型系统,并将该 模型应用于信息集成领域进行实验。实验表明了将原型系统应用于信息集成系统 中可以解决存在时态差异的知识的表示、存储和查询问题,且通过基于时态的集 成,消除了集成后全局数据层中由时态差异造成的语义冲突。 本文的研究对增强本体的时态描述能力、解决信息集成中由时态带来的语义 冲突问题具有重要的意义。 关键词信息集成;语义;本体;有时态本体;双时态本体 a b s t r a c t 一| l li 一 a b s t r a c t w i t l lt h e d e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,t h er a p i dg r o w t ho f i n f o r m a t i o na n dh i g h e rl e v e ln e e do fi n f o r m a t i o nc o n s u m e rm a k ei n f o r m a l i z a t i o n s e m a n t i cb e c o m et h et r e n do fi n f o r m a t i o ns h a r i n ga n dm a n a g e m e n t o n t o l o g ya sa m o d e lw h i c hf e a t u r e da sg o o dc o m p a t i b i l i t ya n dc o m m o nu s e ,h a sb e e nr e s e a r c h e df o r y e a r si nt h e s ef i e l d s b e s i d e st h eu s ei na p p l i c a t i o n ,t h em a n a g e m e n to fo n t o l o g yi s b e i n gp a i da t t e n t i o na n dr e s e a r c h e dd u et oi t sd e q u e n tu p d a t e t e m p o r a li n f o r m a t i o n i sak 1 1 do fs k i l lw h i c hh a sb e e nw i d e l ya p p l i e di nm a n yf i e l d s i tw i l li m p r o v et h e a b i l i t yt od e s c r i b ek n o w l e d g ew h e nt e m p o r a li n f o r m a t i o na d d e di n t oo n t o l o g ya n d a t t h es a m et i m e ,i ti sac o n t r i b u t i o nt oo n t o l o g ym a n a g e m e n t d u et ot h ed a t ai nh e t e r o g e n e o u ss o u r c e sw i mm o r eo rl e s st e m p o r a li n f o r m a t i o n , o n t o l o g ys h o u l df u l l ys u p p o r tt h er e p r e s e n t a t i o no ft e m p o r a li n f o r m a t i o n i no r d e rt o e n a b l eo n t o l o g yt or e p r e s e n ta n dd e a lw i t ht h ei n f o r m a t i o na b o u tt i m ec o n v e n i e n t l y , t h ec o n c e p to fv a l i dt i m ei si n t r o d u c e di n t oo n t o l o g ya n dt h et e m p o r a lo n t o l o g yi s p r o p o s e di nt h i sd i s s e r t a t i o n t h e nn e e do fs t o r a g em a n a g e m e n t ,t e m p o r a lq u e r y i n g a n dt e m p o r a lr e a s o n i n gi sa n a l y z e d ,a n dt h es t o r a g em a n a g e m e n ta p p r o a c h ,t e m p o r a l q u e r y i n go p e r a t o r s ,t e m p o r a lr e a s o n i n go p e r a t o r sa n dr e l a t e dt h e o r e m sa r ep r o p o s e d v e r i f i c a t i o ne x p e r i m e n t sa r ed e s i g n e da n dc a r r i e do u t o nt h eb a s i so ft e m p o r a lo n t o l o g y , t h ek e yt e c h n o l o g yo nv e r s i o nc o n t r o l sa n d m a n a g e m e n to ft e m p o r a lo n t o l o g yi ss t u d i e d c o r r e s p o n d i n gt r a n s a c t i o nt i m et ot h e v e r s i o ni n f o r m a t i o no f o n t o l o g y ,b i t e m p o r a lo n t o l o g yi sp r e s e n t e d t h ef u l lc o n t e n to f t h eb i t e m p o r a lo n t o l o g yc a ns u p p o r tt w o d i m e n s i o n a lt i m e ,w h i c hi sv a l i dt i m ea n d t r a n s a c t i o nt i m e t h e nt h es t o r a g em a n a g e m e n ta n dq u e r y i n go p e r a t o ro nb i t e m p o r a l o n t o l o g yi sc l a s s i f i e da n dd e s i g n e d o nt h eb a s i so ft h ea b o v e ,t h ep r o t o t y p eo fb i t e m p o r a lo n t o l o g ym a n a g e m e n t s y s t e mi si m p l e m e n t e da n du s e di nt h ef i e l do fi n f o r m a t i o ni n t e g r a t i o ne x p e r i m e n t ,n l et e s t ss h o wt h ep r o t o t y p ec a l ls o l v et h ep r o b l e mo fr e p r e s e n t a t i o n ,s t o r a g ea n d q u e r y i n go fk n o w l e d g e 谢t ht e m p o r a lh e t e r o g e n e i t y b e s i d e st h e s e ,a c c o r d i n gt ot h e i n t e g r a t i o no ft e m p o r a li n f o r m a t i o n ,t h es e m a n t i cc o n f l i c t sc a u s e db yt e m p o r a l h e t e r o g e n e i t yi ng l o b a ld a t al a y e r sa r ee l i m i n a t e d t h es t u d yi nt h i sd i s s e r t a t i o np l a y sas i g n i f i c a n tr o l ei nt h ef i e l do fe n h a n c i n g o n t o l o g yw i t ht h ea b i l i t yo ft e m p o r a lr e p r e s e n t a t i o na n de l i m i n a t i n gs e m a n t i c c o n f l i c t sc a u s e db yt e m p o r a lh e t e r o g e n e i t yi ni n f o r m a t i o ni n t e g r a t i o ns y s t e m k e y w o r d s i n f o r m a t i o ni n t e g r a t i o n ;s e m a n t i c ;o n t o l o g y ;t e m p o r a lo n t o l o g y ; b i t e m p o r a lo n t o l o g y i i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:】姚日期:丝垒3 : 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 第1 章绪论 第1 章绪论 1 1 课题研究背景 随着计算机在社会生活中的广泛应用,大众对数字信息的需求越来越强烈, 信息技术开始面临各种新的挑战,如知识的表示、信息的组织、软件的复用等。 尤其是因特网的迅速发展,使得如何组织、管理和维护海量信息并为用户提供有 效的服务已成为一项重要而迫切的研究课题。为了适应这些需求,本体 ( o n t o l o g y ) 作为一种能在语义和知识层次上描述信息系统的概念模型建模工 具,自提出以来就引起了国内外众多科研人员的关注,并在计算机的许多领域得 到了广泛应用,如知识工程、数字图书馆、软件复用、信息检索和信息集成中语 义异构信息的处理、语义网等。 本体是共享概念模型的明确的形式化规范说明【1 1 ,它的目标是获取、描述 和表示相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可 的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系 的明确定义。一般来讲,本体具有两个特性:静态性和动态性【2 】。静态性指的是 它反应的是概念模型;动态性指的是它的内容和服务对象是不断变化的。由于领 域中的知识、概念就像活的生物体一样,是沿着时间演进不断发生变化的,进而 导致本体也在不停的发展。 时间是自然界无所不在的客观属性,所有信息都具有相应的时态属性,有研 究者曾指出在网络查询语言和半结构化数据中,时间模型是最为关键的一部分 例。将时间模型引入本体,构建“有时态本体 的概念模型,使本体不但可以描 述共享概念,同时可以维护这些概念存在的有效时间范围、及它们随时间的变化 信息,使得本体对于共享概念的形式化规范说明更加准确与完善。 另一方面,由于本体的动态性,本体需要随时间的发展不断调整分类,添加 删除概念、属性、关系和实例。目前,为了跟踪本体改变,出现了本体演化与 版本管理的研究。本体的版本管理机制将变化后的知识保存在新的版本中,变化 发生前的知识内容则存在于过时的版本中。这样的管理机制使得应用系统只能用 某一个版本的本体,而应用用户发出的对其他版本中的历史知识的使用请求却无 法满足。因此,可以对本体的演化过程也进行“时态”扩展,从时间维度上解决 新旧知识的冲突,将它们联系起来,为本体的版本管理提供更好的支持。 综上所述,描述本体概念的时间维度,维护的是本体中知识的时间信息;而 本体的多版本可以被认为是本体沿时间轴演化的序列【4 】,描述本体演化过程的另 一个时间维度,其维护的是变化的本体本身。本文从这两个时间维度入手,研究 本体中知识的时态表示及本体演化管理的关键问题,并将其应用于信息集成系 统,以解决信息集成系统中由时态带来的语义冲突问题。 北京工业大学工学硕士学位论文 1 2 课题研究现状 1 2 1 本体概述 1 2 1 1 本体的引入 o n t o l o g y 翻译成中文是本体、本体论、存在论。这个词语最早是一个西方哲 学上的概念。本体论作为一门学问起源于对万物本源的追问,从哲学的范畴来说, o n t o l o g y 是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。 在计算机及相关领域,本体指应用本体论的基本方法,通过概念分析、建模, 把现实世界中的实体抽象为一组概念与概念之间的关系的理论和方法,而且可以 通过本体域关系描述进行推理。自2 0 世纪9 0 年代以来,本体成为计算机领域重 要研究方向之一,现已广泛应用于知识工程、多智能体系统、系统建模、语义 w e b 、异构信息集成等众多领域。 1 2 1 2 本体的概念 在计算机领域,明确本体的定义经历了一个过程。s t u d e r 1 】等人经过对以往 研究的总结,给出了本体的最为流行的定义:本体是共享概念模型的明确的形式 化规范说明,这包含四层含义:概念模型、明确、形式化和共享。 “概念模型 指通过识别世界中现象( p h e n o m e n o n ) 的相关概念而建立的 关于现象的抽象模型。概念模型所表现的含义独立于具体的环境状态。 “明确 指所使用的概念及使用这些概念的约束都有明确的定义。 “形式化”指o n t o l o g y 是计算机可读的( 即能被计算机理解、处理) 。 “共享 指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中 公认的概念集,即本体针对的是团体而非个体的共识。 对于本体的具体构造,包括:概念( c o n c e p t s ) 、属性( p r o p e r t y ) 、关系 ( r e l a t i o n ) 、公理( a x i o m ) 和实例( i n s t a n c e ) 。概念可分为“原始概念 和 “定义概念 ;公理是定义在“概念”和“属性 上的限定和规则。 当然对于本体的构成,也有一些研究者有不同于上面的提法,例如p e e r z 等 人认为o n t o l o g y 可以按分类法来组织,他归纳出o n t o l o g y 包含5 个基本建模元 语( m o d e l i n gp r i m i s i t v e ) 【引。这些元语分别为:概念( c o n c e p t s ) 、关系( r e l a t i o n ) 、 函数( r u n c t i o n s ) 、公理( a x i o m ) 和实例( i n s t a n c e ) 。概念可以指任何事物, 如工作描述、功能、行为、策略和推理过程等等;关系代表领域中概念之间的交 互作用,形式上定义为n 维笛卡儿乘积的子集;函数是一类特殊的关系;公理代 表永真断言;实例代表元素。 而对比两种提法不难发现,他们的实质是一样的【2 】。在本文中,我们使用 第一种提法,作为本体的构成。 第1 章绪论 1 2 1 3 本体的描述语言 o n t o l o g y 可以用自然语言来描述,也可以用框架、语义网络或逻辑语言等来 描述。目前,本体的表示有基于逻辑的、基于框架的和基于标记语言页面的等三 种方法。其中,基于逻辑的以一阶逻辑为代表,基于框架的主要有框架逻辑,基 于标记语言的表示方法有:r d f ,x m l 等。经常被使用的本体表示语言大都以 框架模型或谓词演算或两者相结合为基础,最具代表性的有d a m l ( d a r p a a g e n tm a r k u pl a n g u a g e ) ,k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) ,o n t o l i n g u a , o i l ( o n t o l o g yi n f e r e n c el a y e r ) ,o w l 等。还有另外一种本体的表示方法就是 用图来表示本体,典型例子是w o r d n e t 。目前来讲最为通用的是r d f 和o w l 。 资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,简称r d f ) t 6 是一个由全 球资讯网联盟( w 3 c w o r l dw i d ew e bc o n s o r t i u m ) 推荐的元数据模型和标记语 言,为以更丰富的描述和表达网络资源的内容与结构,提供了一个通用的框架, 保证w e b 应用之间可以无损的交换这些机器可理解的信息。r d f 在语法上则遵 循x m l 的架构。基本的r d f 是一个与任何特定语法无关的抽象的表述模式。 r d f 模型的基础要素是三种类型的对象,资源、属性、声明。资源标识实际的 以网络为基础的资源;属性指定特定资源的属性或特性;声明是资源和属性的下 一级延伸。 o w l 是w e b 本体语言( o n t o l o g y w e bl a n g u a g e ) 的缩写。其设计目的是为 了提供一种可以用于各种应用的语言,这些应用需要理解语义内容,从而代替只 是采用人类易读的形式来表达内容。o w l 是在d a m l + o i l 的基础上发展起来 的,作为r d f ( s ) 的扩展,提供更多的原语以支持更加丰富的语义表达,并更好 的支持推理。o w l 语言从2 0 0 1 年开始制定标准,2 0 0 4 年2 月正式成为w 3 c 的 推荐标准【7 j 。 o w l 能够用于清晰地表达词汇表中词条的含义以及这些词条之间的关系。 相对于x m l 、r d f 和r d f s 来讲,o w l 拥有更多的机制来表达语义,因而它 超越了x m l ,r d f 和r d f s 仅能够表达网上机器可读文档内容的能力。因此, 在本课题中,选用o w l 作为本体的形式化描述语言。 1 2 1 4 本体的存储管理 本体的存储目前可分为三类:纯文本文件,如奉o w l 文件;数据库存储, 如利用关系数据库存储o w l ;专门的管理工具,如开源软件o m m 。 纯文本:纯文本文件的存储方式,是最直接也最简单的存储方式。这种方式 直观显示了本体语言的语法,符合本体的语义特性。有p r o t 6 9 6 、o n t o e d i t 等工 具支持,可以直接生成o w l 文件并进行开发、维护、推理、查询等操作。这种 方式易于理解,适用于直接的表示和存储。 北京工业大学工学硕士学位论文 数据库存储:用数据库来存储本体,绝大部分研究都是利用关系数据库存储 o w l 引,还有人用基于图的面向对象数据库来存放 9 1 。 由于本体模型和关系模型的差异,在关系数据库中存储本体的方法,主要可 分为水平模式 1 0 1 、垂直模式1 1 1j i l l 、基于类的分解模式、基于属性的分解模式【儿】、 混合模式等。 水平模式将类看作实例的集合,以实例的形式存储本体。该模式只在数据库 中保留一张通用的表,表中的一条记录是本体中的一个实例,表中的列是本体中 的属性。 数值模式包含一张三元组表,表中的每个实例都对应于一个r d f 三元组。 在这种模式下需要将本体中的所有信息都使用r d f 三元组来表示。表中只有三个 字段:主体字段存储实体名称,谓词字段存储属性名称,客体字段存储属性的值。 这种方法是关系型数据库存储数据的通用方法。 基于类的分解模式的基本思想是将数据库进行模式分解。它与水平模式和垂 直模式的一个显著的区别是它使用了若干张表,即每个类映射到数据库中一个单 独的表,表名为类名,表的列为类的属性。 基于属性的分解模式与基于类的分解模式类似,为本体中的每个属性创建一 张单独的表,表名为属性名,每个表都包含两个列,分别代表r d f 三元组中的 s u b j e c t 和o b j e c t 。 混合模式模式通常将上述几种模式进行混合使用。 专门的管理工具:目前有一些软件,如o m m l 等支持对r d f 、o w l 的存 储管理,还提供各种接口,可以使用查询语言对本体进行查询,但这些技术还不 够成熟,不能达到关系数据库存储的效率。 1 2 1 5 本体在信息集成中的应用 本体自提出以来就引起了国内外众多科研人员的关注,并在计算机的许多 领域得到了广泛应用。如在信息检索领域,著名项目( o n t o ) 2 a g e n t 、o n t o b r o k e r 采用本体技术,使检索到的网页含有用户所真正关心的内容,而并不仅仅是关键 词的匹配。在数字图书馆的知识管理方面,本体技术使数字图书馆原来的资源为 中心的信息管理模式过渡到知识体系为中心的知识管理模式。 此外,作为一种有力的概念层描述工具,本体也被广泛应用于信息集成领域, 用来解决语义冲突。著名的项目有s k c l l 3 1 、p i c s e l 1 4 1 、o b s e r v e r 1 5 】等。 其中s k c 是s t a n f o r d 大学开展的一个项目,其目标是解决信息系统( 包括w e b ) 中的语义异构问题,实现异构自治系统之间的互操作。该项目希望通过在多个信 1 h u p :w w w o n t o t e x t c o m o m m i n d e x h t m l 目前该链接已经不再维护,其类似的内容在h t i p :w w w o m w g o r g 维护 4 - 第1 章绪论 息源上建立不同的本体,然后在这些本体上建立一个代数系统,用这个代数系统 来实现各本体之间的互操作,从而实现异构系统之间的互操作。 由于传统的信息集成技术仅仅考虑从逻辑级或者物理级来实现,而基于本体 的信息集成技术引入了概念级,可以提高系统在知识表示方面的抽象程度。用本 体进行信息模型的语义建模,进行知识推理,增强系统的灵活性、扩展性和重用 性。目前基于本体的信息集成方法主要有三种【1 6 :单本体方法( s i n g l eo n t o l o g y a p p r o a c h e s ) 、多本体方法( m u l t i p l eo n t o l o g ya p p r o a c h e s ) 和混合方法( h y b r i d a p p r o a c h e s ) 。 单本体方式:单本体方式采用一个全局本体提供一个共享的词汇表,用于表 达语义规范,见图1 1 。所有的数据源都关联到这一个全局本体上。所有信息源 必须通过某种方式( 如映射) 与全局本体发生联系,全局本体的词汇是所有信息 源词汇的综合,也就是说其词汇是信息源词汇的并集。这种集成方式中最著名的 是s i m s 1 7 1 。应用领域的s i m s 模型包含一个分层的术语知识库,并且用节点代 表对象、活动和状态。每个独立信息源的模型必须通过建立源对象与全局模型的 关系来描述。这种关系确保源对象的语义并且有助于寻找其他信息源中相对应的 对象。 全局本体可以由所有数据源直接抽象与综合出来,也可以由若干个特定本体 综合而成。通常而言,要从所有数据源综合抽象出一个全局本体难度很大,需要 该行业的领域专家介入,提取其中的基本术语以及术语之间的关系。当信息集成 系统中的各个数据源提供了对同一领域的几乎相同的视角,则适合选用单本体方 式。 单本体方法对于影响概念化的信息源是敏感的,一个信息源中的变化意味着 全局本体的变化以及不同信息源之间的映射。单本体方法的缺陷促使多本体方法 的出现。 多本体方式:在多本体方式中,每个数据源被其自己的本体所描述,见图 1 - 2 。o b s e r v e r 系统【1 8 1 中就使用了一个个分立的本体来描述不同数据源的语 义。理论上,局部本体可以是其他几个本体的组合,但是不同的局部本体之间不 共享相同的词汇表。 多本体方法的优势首先在于不需要全局本体。因为没有共同的本体即全局本 体的一致性问题,每个源本体可以独立发展不需要考虑其他的源本体。本体结构 很容易变换。例如,修改一个信息源或者增加、删除信息源都是非常容易的事情。 但是,由于不同的局部本体之间不共享相同的词汇表,缺少公共词汇使得比较不 同的局部本体变得非常困难。因为不同的局部本体可能由不同的组织建立起来, 所用的模式很可能是不同的,甚至相差很大。因此,后来在这种方式中又提出了 本体间映射( i n t e r o n t o l o g ym a p p i n g ) 用于定义不同局部本体间语义上相等或相 北京工业大学工学硕+ 学位论文 似的术语。实际上,因为许多语义异构问题的出现,实践中内部本体映射非常难 于定义。 图1 - 1 单本体方法 f i g u r e1 - 1s i n g l eo n t o l o g ya p p r o a c h 图1 _ 2 多本体方法 f i g u r e1 - 2m u l t i p l eo n t o l o g ya p p o r a c h 混合本体方式:为了克服单本体方式建立全局本体困难、多本体方式本体间 沟通不便的缺点,一种混合的方式被提出,见图1 3 。与多本体方式类似的是, 每个数据源的语义被它自己的本体所描述。但是为了让各局部本体之间可相互比 较,这些局部本体都是基于一个全局共享的词汇表建立的。共享词汇表包含领域 的基本术语( 原语,p r i m i t i v e s ) 。局部本体通过运算符组合这些原语,能构造出 更加复杂的术语。由于局部本体中的每个术语都基于这些原语,因此局部本体间 的比较比多本体方式简单得多。有时,全局共享的词汇表也可以是一个本体i l 引。 混合方法的优势在于新的信息源可以很容易的加入源本体,而不需要修改映 射或者共享词汇表。它也支持本体的获得和演化。共享词汇表的使用使得源本体 兼容并且避免了多本体方法的弊端。混合方法的不足在于,已有的本体不易重用, 因为所有源本体必须与共享词汇表相关。 第1 章绪论 图1 - 3 混合本体方法 f i g u r e1 - 3h y b r i do n t o l o g ya p p r o a c h 1 2 2 本体沿时间维度的变化管理研究现状 1 2 2 1 本体沿时间变化管理的提出 随着信息技术的发展,本体得到了深入的研究,以本体作为概念框架的应用 也越来越多【2 0 】。针对本体的研究大部分集中在本体的建模和使用上,在这些研 究中,人们假定本体作为领域概念框架是稳定的,相关的应用也能够基于本体稳 定的运行。而实际上,在语义环境中,领域知识是不断演化的【2 1 】,作为其概念 架构的本体也需要与领域知识的改变相适应,进行及时的修正,才能更好的展现 其领域知识表达能力。因此,关于本体沿时间的变化管理逐渐成为了一个新的研 究热点。 1 2 2 2 时间维度介绍 结合时态数据库1 2 2 的相关理论,可将时间信息分为有效时间与事务时间两 个时间维度。 其中有效时间是指一个对象( 事件) 在现实世界中发生并保持的那段时间, 或者该对象在现实世界中为真的时间。有效时间有如下两个主要特点:( 1 ) 有 效时间值的含义依赖于具体应用,取值是否有效视具体应用场合而定,即设计数 据约束问题。( 2 ) 有效时间可以指过去、现在和未来。本体沿有效时间的变化 主要是指本体中的知识沿时间进行的变化。在本体变化相关的研究中,关注有效 时间的研究尚不多见。如g u t i e r r e z 等人首次把时态数据库中的有效时间概念引 入r d f ,提出了时态r d f 的概念1 2 3 。,并对r d f 中的时态信息进行建模和查询, 北京工业大学- t 学硕士学位论文 在【2 4 1 中给出了完整的推导和证明。文献【2 5 】则针对本体沿时间轴的演变,为本 体中的实例添加了有效时间信息,并在p r o t 6 9 d 上实现了可视化插件展示实例沿 时间轴的变化过程。 事务时间是数据库领域中是指一个数据库对象进行操作的时间,是一个事实 存储在数据库的时间,它记录着对数据库修改或更新的各种操作历史,对应于现 有事务或现有数据库状态变迁的历史。事务时间有如下主要特点:( 1 ) 事务时 间的值由系统时钟给出,它独立于应用,用户不能修改事务时间。( 2 ) 事务时 间不能晚于现在时间,因为它反映着数据库实际操作的时间,不能指未来,而有 效时间可以指未来。本体沿事务时间的变化主要指本体本身的版本变化。在本体 变化相关研究中,文献【2 6 】曾对o w l 进行了时态扩展,为o w l 添加了新标签, 用以描述概念的新旧版本及版本变化时的事务时间。 1 2 2 3 本体沿时间变化管理研究分类 本体沿时间的改变而引发的问题是复杂和多方面的。目前关于本体改变的研 究散见多个研究领域矧,本文根据研究侧重的不同,将本体沿时间变化管理的 研究分为两类:本体的时态性研究;本体演化与版本管理。 本体的时态性研究主要关注于知识在时间轴上呈现的时态有效性。目前针对 本体的时态性研究尚不多见:文献【2 8 】基于他们提出的时间间隔时态逻辑( i n t e r v a l t e m p o r a ll o g i c ) ,给出了构造和执行w e b 服务时态属性的方法,并且以o w l ( w e b o n t o l o g yl a n g u a g e ) 本体作为其接口。g u t i e r r e z 等人首次把时态数据库中的有效 时间概念引入r d f ,提出了时态r d f 的概念【2 3 j ,并对r d f 中的时态信息进行 建模和查询,在文献【2 卅中给出了完整的推导和证明。在地理时空领域【2 9 】提出 了一个基于综合本体的框架,即将理论知识、空间维度和时间维度进行综合分析。 文献【2 6 j 提出了o w l 的时态扩展,为o w l 添加了新标签,用以描述概念的新 旧版本及版本变化时的事务时间,其描述粒度只针对到类一级别。此外,针对本 体时间信息的展示方面,文献【2 5 j 针对本体沿时间轴的演变,为本体中的实例添 加了有效时间信息,为p r o t 6 9 6 增加了可视化插件,展示本体中实例沿时间轴的 变化过程,但并未涉及本体模式本身的时态问题。 本体演化呻1 研究领域更多关注的是本体演化带来的一致性问题,包括分布式 本体的变化发现和传播【3 】、本体的变化部分对其他部分的影响、以及本体变化 给应用带来的影响等。例如在本体模块化的研究口2 3 中,针对本体的模块特性进 行了研究,使得本体在改变时能够在最小范围内影响本体的使用,降低本体修改 的复杂度;在不一致本体推理的研究中,针对在无法保证本体一致性的情况下如 何为相关应用和推理任务提供一致的服务进行了研究,使得本体在变化过程中同 样能够提供有效一致的服务,等等。 本体的版本管理是本体演化中重要的一部分,它关注于存储和标识同一个本 第1 章绪论 体的不同版本,以及建立这些不同版本之间的差异和关联的方法。它是和本体的 演化不可分隔的,是互为因果关系的。已经有很多研究从本体演化和本体版本管 理等不同角度,讨论了本体会随时间而发生改变并产生影响的特点。如文献【3 3 】 采用了演化本体指导下的日志存储方式( 1 0 9 o n t o l o g y ) 来记录本体的变化;文献 :3 4 1p 5 l 贝0 采用本体版本方式( o n t o l o g yv e r s i o n i n g ) ;文献 3 6 】在这两种方法相结合, 同时采用版本和日志的方式,在物理上将它们分开存储,但在逻辑上,它们以同 一个时间轴为参照,可以在必要的时候,将二者信息结合,能够重现演化的历史, 能够追溯演化的原因。s e s a m e t 3 7 】也曾尝试利用数据库动态模式的特点,从本体 模式存储的角度来实现对本体随时间发生变化的支持。 1 3 本课题的研究意义 可以看到,本体是共享概念模型的明确的形式化规范说明【l 】,构成概念的知 识是含有时间信息的,也就是说这些概念只在一定时间范围内成立。而目前的本 体中并没有对知识的有效时间信息进行专门维护,其形成的共享概念是孤立于时 间轴的、片面的、不完善的。研究界对于本体时态信息的研究刚刚起步,还没有 充分重视时态信息的重要,为了适应本体的动态特性而进行的时态研究也考虑不 足。另外包含有时态信息的知识仍然沿着时间不断的发展变化,导致本体也在不 断的调整变化。少有研究关注于这一维度的时态信息,忽略了本体的版本管理与 其变化的时间之间的密切联系。 本文将时间信息作为维护知识的另一个维度引入本体,不但能够完善本体的 描述能力,支持本体的动态性管理,同时也将扩展本体在时态方面的应用。研究 工作主要体现在以下五个方面: 一、在本体中,将知识的时间信息作为知识的一部分进行专门的记录、独立 与完整的维护,即将有效时间维度引入本体,完善了本体对于知识的描述能力。 二、知识延时间不断变化,本体也随之不断调整。有效时间适用于表示本体 内知识的时间信息,事务时间则对应着本体版本的修改和调整。对事务时间进行 记录和维护,可以更好的支持本体的版本管理。 三、目前常见的本体存储方式没有独立的系统的维护时间信息,而是将偶尔 出现的时间信息分散存于可能的三元组而形成的知识集合。将本体中显式地加入 有效时间和事务时间信息,会给目前的存储方式带来影响。需要在原有存储模式 的基础上,考虑知识中有效时间的显式存储及本体变化事务时间的显式存储。 四、本体中一旦加入显式地维护了上述时间信息,本体的查询和推理能力都 可能随之提升。本体在支持原有查询与推理的基础上,增加时态查询和时态推理 功能成为可能。即在此基础上,本体的时态查询与推理的操作分类与方法都需要 进行研究。 北京工业大学工学硕士学位论文 五、显式地扩展了时间支持的本体,不但可以完善本体的描述能力、更好的 支持本体的版本控制,同时在信息集成这一本体的典型应用领域信息集成 中,采用带有时态信息的本体可以用于解决信息集成中由时间差异带来的语义冲 突。 针对目前的研究现状,本课题对“本体 进行了时态扩展,提出了双时态本 体模型的概念,给出了相关理论和实现技术,并将其应用在信息集成领域进行实 验,结果显示双时态本体模型原理可行;在信息集成应用中可充分表示数据源的 时间特性,并可有效的消除由时间差异带来的语义冲突。 1 4 本课题的主要内容和创新点 本文对本体的时态性进行了研究,将时态信息引入本体,完善了本体的描述 能力;更好的支持对本体变化的管理;并且对加入时间信息所带来的一系列相关 问题进行了研究。研究工作的具体内容和创新点如下: ( 一) 有时态本体模型 结合时态数据库中的相关理论,将时态信息分为事务时间和有效时间。针对 自治的异构数据源间存在的由时间演变带来的的知识和概念的时态语义差异,将 有效时间信息引入本体,提出了将有时态本体模型的概念,并对其存储进行设计。 基于有时态本体对时态查询和时态推理需求进行分析,提出了时态查询与时态推 理的步骤及相关定理。 ( 二) 双时态本体模型 在有时态本体模型的基础上,对有时态本体的版本控制与管理的关键技术进 行研究。提出了版本空间的概念,将导致有时态本体不同版本的变化操作细化到 原子粒度,并且给出相关兼容性分析,同时从时态的角度上对版本中知识的一致 性进行约束。将事务时间与有时态本体的版本信息相对应,提出了双时态本体模 型,该模型能保证本体内的全部内容都同时支持事务时间和有效时间两个时间 维,从而使得能有效的支持知识具有的不断演变的时态语义特性。 ( 三) 双时态本体管理原型系统 在双时态本体模型的基础上,设计并实现了双时态本体管理原型系统,并将 该模型应用于信息集成领域进行实验。实验表明将原型系统应用于信息集成系统 中可以解决对于存在时态差异的知识的表示、存储和查询问题,且通过基于时态 的集成,消除了集成后全局数据层中由时态差异造成的语义冲突。 1 5 本文的组织 全文共分五章,文章的结构安排如下: 。 第1 章为“绪论”,阐明了本研究课题的产生背景、概述了研究课题的国内 第1 章绪论 外研究现状,表明了本文主要的研究内容,介绍了文章的组织结构。 第2 章为“本体的时态研究,介绍了目前时间信息在各个应用领域中的重 要性,并对不同领域中的时态知识表达方法进行了介绍。之后针对本体的时态研 究,从本体的时态信息管理、本体的演化与版本管理、本体的时态应用的角度对 目前的研究现状进行分类介绍,并对研究现状进行分析。 第3 章为“有时态本体模型 ,描述了模型的定义,并对有时态本体对时态 查询和时态推理需求进行分析,提出了时态查询与时态推理的步骤及相关定理。 第4 章为“双时态本体模型”,在有时态本体模型的基础上对目前版本管理 的关键点进行了研究,然后将事务时间与有时态本体的版本信息相对应,给出了 双时态本体模型模型的定义。并对该模型支持有时态本体版本管理的功能进行了 分析和实验。 第5 章为“b o m s 原型系统及其在信息集成中的应用实验 ,描述了双时态 本体管理原型系统的设计与实现,并将该模型应用于信息集成领域进行实验。实 验表明将原型系统应用于信息集成系统中可以解决对于存在时态差异的知识的 表示、存储和查询问题,且通过基于时态的集成,消除了集成后全局数据层中由 时态差异造成的语义冲突。 最后为结论与展望,对本课题的研究内容进行了总结,并展望了进一步工作 的构想。 北京工业大学工学硕士学位论文 第2 章本体的时态研究 2 1 引言 时间是自然界无处不在的客观属性,所有信息都具有相应的时态属性。随着 数据库与信息技术的深入和发展,信息系统面临许多新的应用和新的需求,对时 态信息处理的需求越来越迫切。时态信息处理已经成为许多新一代数据库与信息 系统的关键技术,特别是在电子政务、电子商务、数据仓库、数据挖掘、决策支 持系统等信息系统中扮演着日益重要的角色。 在电子政务中,政务提供和保存着大量的信息,这些信息的有效处理显得特 别重要。例如政府发布的招标文件公告,规定了竞标的时间区间,超过时间的标 书视为无效;政府制定的政策法规不断完善,也要求电子政务系统可自动的对失 效的信息进行相关处理。 在工作流的应用中,工作流中的时态属性主要包括结构性和整体性的时态属 性和局部性工作项的时态属性两种;将工作流视为一个过程流,其运行过程与时 间有密切的关系。 在数据库技术特别是数据仓库的发展和应用中,出现了所谓的“数据丰富, 知识贫乏”,人们不再满足于对数据库进行查询、检索等简单操作,而是希望从 中发现知识,以辅助高层人员的决策( 即数据挖掘) 。数据仓库中通常存有大量 的时态数据,如超市交易记录中的交易时间,病例中的检查和诊断时间等,时态 数据反映了事物发生发展的过程,有助于解释事物发展的本质规律。所以在数据 挖掘中必须考虑时间的问题,选取有效时间进行挖掘至关重要。 从时间本体( t i m eo n t o l o g y ) 的建立,到时态r d f 2 3 j 概念的提出,时间在 本体领域的研究中也开始逐渐受到重视。 2 2 时态知识表达 如引言所述,时态知识作为一种特殊的知识在各个研究领域得到了重视。从 数据库领域、本体领域、信息集成领域,都有自己描述和处理时间知识的方法。 2 2 1 时态数据库 由于现实世界是不断演变进化的,时间是那些反映现实世界信息的基本组成 部分,因而大多数数据库应用程序都有时态的特性,例如:会
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年营养师考试冲刺试卷:实操技能与心理营养深度解析
- 新能源汽车发展前景
- 深层搅拌桩软基处理施工方案
- 2025年东北师范大学教师教育研究院春季学期专任教师招聘7人考前自测高频考点模拟试题及答案详解(新)
- 2024计算机四级考前冲刺练习试题及答案详解【夺冠】
- 2024计算机四级考前冲刺练习及答案详解【考点梳理】
- 2025临床执业医师测试卷(名校卷)附答案详解
- 2024-2025学年自考专业(计算机网络)考试彩蛋押题含答案详解(完整版)
- 2024自考专业(建筑工程)考试黑钻押题含答案详解(培优A卷)
- 2024-2025学年度广播电视播音员主持人能力提升B卷题库附参考答案详解【能力提升】
- 2025年反假货币试题题库及答案
- 现房与期房培训课件
- 2024年仙桃市高新技术产业投资有限公司招聘笔试真题
- 汽车知识培训讲师简介课件
- 2025年教师职称-浙江-浙江教师职称(基础知识、综合素质、初中信息技术)历年参考题库典型考点含答案解析
- 北京高校标准化食堂标准(2026版)讲解
- 专题1.4数学归纳法(高效培优讲义)
- 卒中后抑郁症的中医治疗
- 泸州北方化学工业有限公司锅炉烟气脱硫脱硝除尘技改项目环评报告
- 可靠性基础知识培训课件
- 耗材产品售后方案(3篇)
评论
0/150
提交评论