(计算机软件与理论专业论文)基于桥本体的语义标注技术.pdf_第1页
(计算机软件与理论专业论文)基于桥本体的语义标注技术.pdf_第2页
(计算机软件与理论专业论文)基于桥本体的语义标注技术.pdf_第3页
(计算机软件与理论专业论文)基于桥本体的语义标注技术.pdf_第4页
(计算机软件与理论专业论文)基于桥本体的语义标注技术.pdf_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 语义标注研究如何给本体代表的符号赋予带有具体含义的语义信息。在传统的语义标注中,大 部分的研究工作是基于单本体展开的。但是由于标注过程所面对的w e b 数据事先无法预料,因此, 使用单个本体很难满足所有可能的标注对象。尽管本体集成和扩充可以解决这些问题,但这种解决 方法的代价太高。此外,仅为了标注去儆繁琐的本体集成工作并不可取。为了克服现有语义标注的 不足。一种可行的方法是采用多个本体进行语义标注。本文的研究内容包括以下几个方面。 桥本体用本体形式严格定义本体间的桥关系并形成相应的桥体系结构。桥关系是不同本体间 的关联关系,桥本体是特殊的本体。我们对多本体间的桥关系进行了分析,给出了桥本体的定义, 并对桥本体的十二种类型进行了分析和描述同时引入了桥本体的b n f 范式表达形式。 本文在本体的实例与结构层次探讨了桥本体的自动生成。桥本体的应用中,不可避免会涉及到 多个本体。由于本体数目无法事先确定,使得桥本体的自动化生成技术显得尤为关键,探讨如何实 现桥本体的自动生成,是非常有意义的。我们将主要从外延定义上验证桥本体自动生成的可能性, 并在结构和实例两个层次上进行了讨论。 我们提出一种采用如上讨论的桥本体来进行语义标注的新方法。该方法采用桥本体理论,避免 了不必要的本体集成和扩充,提高了语义标注的精度和效率。桥本体能够自动生成,易于创建、修 改和维护,并能表达本体间的多种复杂关系,适用于多本体环境下的各种应用。通过对应用的研究 证明,我们的方法是有效的 关键词:语义网,本体,多本体,桥本体,语义标注 东南大学硕士学位论文 a b s t r a c t s e m m a t i ca n n o t a t i o ns t u d i e sh o wt oe n d u et h eo n t o l o g ys y m b o lw i t hs p e c i f i cs e m a n t i ci n f o r m a t i o n m o s tt r a d i t i o n a lr e m c h e sj u s tc o m m i t t e dt h ew e br e s o u r c e st oas i n g l eo n t o l o g y h o w e v e r , t h ew e bd a t a c o n f r o n t e dw i t hi nt h es e m a n t i ca n n o t a t i o nc a s e sc o u l dn o tb ef o r e s e e n , 8 0o n l ys i n g l eo n t o l o g yc o u l d h a r d l ym e e ta l lt h ep o s s i b l ea n n o t a t i o no b j c c la l t h o u g ht h ei n t e g r a t i o na n de x t e n s i o no fo n t o l o g y 啪 f i g u r eo u tt h e s ep r o b l e m s ,i t st o oe x p e n s i v e1 0a d o p tb e s i d e st h i s ,i ti sn o tv i s i b l et 0i n t e g r a t eo m o l o g i e s f u s s i l yf o ra n n o t a t i o n t oo v c “x 眦t h es h o r w :n n i n go fs e m a n t i ca n n o t a t i o n , av i s i b l ea p p r o a c hi sc a r r y i n g t h r o u g hs e m a n t i ca n n o t a t i o nw i t hm u l f i - o n t o l o g i e s t h ec o n t e n to ft h i sp a p e ri n c l u d e ss e v e r a la s p e c t sa s f o l i o w s , b r i d g eo n t o l o g yg i v e sas t r i c td e f i n i t i o nf o rb r i d g er e l a t i o no f m u l t i - o n t o l o g i e si no n t o l o g yf o r m ,a n d e s t a b l i s h e sc o r r e s p o n d i n gh d g 詹h i e r a r c h y b r i d g er e l a t i o ni st h er e l a t i o n s h i pb e t w e d i f f e r e n to n t o l o g i e s b r i d g eo n t o l o g yi st h es p e c i a lo n t o l o g y t h i sp a p e ra n a l y s e st h eb r i d g er e l a t i o nb e t w e e nm u r i - o n t o l o g i e s , e x p a t i a t e sd e f i n i t i o no f b r i d g eo n t o l o g y , a n dd e s c r i b e st w e l v e k i n d so f b r i d g eo n t o l o g y t h i sp a p e rd i s c u s s e sa u t o m a t i cc r e a t i o no f b r i d g eo n t o l o g yf r o mj n s 咖c ev i e wa n ds t r l l g l l ev i e w t h e a p p h c a t i o no fb r i a g eo n t o l o g yf a c e sm u l f i - o n t u l o g i e si n e v i t a b l y b e c a u s ew ec o u l dn o ts i z e - u pt h en u m b e r o f o n t o l o g y , a u t o m a t i z a t i o nt e c h n o l o g yo f b r i d g eo n t o l o g yp l a y sak e yr o l ea n dt h er e a l i z a t i o no f a u t o m a t i c c r e a t i o no f i n s d g eo n t o l o g yi sv e r yi n l p o r l n n tw ed e r n o n s t r a l ep o s s i b i l i t i e so f a u t o m a t i cc r e a t i o no f b r i d g e o n t o l o g yi ne x t e n s i o nd e f i n i t i o nm a i n l y , a n dg oo nd i s c u s s i o nf r o mi n s t a n c ev i e wa n ds t r u c t u r ev i e w i nt h i sp a p e r , an o v e la p p r o a c hi sp r o p o s e dt op r o c e s ss e m a n t i ca n n o t a t i o ni te m p l o y sb r i d g eo n t o l o g y t h e o r ya v o i d i n gt h eu n n e c e s s a r yo n t o l o g ye x t e n d i n ga n di n t e g r a t i o na n di n c r e a s i n gt h ep r e c i s i o na n d e f f i c i e n c y b r i d g eo n t o l o g yc a nb ec r e a t e da u t o m a t i c a l l y , b ee a s yt oe s t a b l i s h , b em o d i f i e da n dm a i n t a i n e d , e x p r e s sm u l t i - r e l a t i o n s h i pb 咖e o n t d l o g i e s b ea p p l i e di n t oe v e r ym u l t i - o n t o l o g i e sc i r c u m s t a n c e i t 啪 b ei m p r o v e dt h a tt h i sn o v e la p p r o a c hi sv i s i b l eb ys t a t i n gt h ea p p l i c a t i o n k e y w o r d s :s e m a n t i cw e b ;o n t o l o g y ;m u l t i - o n t o l o g i e s ;b r i d g eo n t o l o g y ;s a n m n t i ca u n o t a t i o n j i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入己经发表或撰写过的研究成 果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 数垂盘日期:丛! e 垒二! 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和 电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名: 逊量盘导师签名: 期: 第一章弓i 言 第一章引言 1 9 6 0 年,互联网被发明,并随着1 9 8 9 年万维网的出现而得到广泛的应用走迸了千家万户 为今天的知识保存、组织、传播和检索带来了翻天覆地的变化,也标志着信息化时代的到来。但如 今互联网经过十五年的发展,虽然自身也在不断完善和更新之中却由于网络越来越深入到人们 日常生活的方方面面,成为人类社会生活中不可或缺的一部分,其设计思想和现有技术显露出很大 的弊端,也已远远不能满足信息爆炸式增长和越来越广泛的w e b 应用的需求了。或者说,信息化高 度发展的今天,对w e b 的发展要求也越来越高。现有的互联网络暴露出了w e b 信息无法被自动处理, 数据无法得到有效利用,以及存在异构问题等局限性。而且随着以后w e b 的不断发展,上述问题 还会进一步恶化,网络的发展面临着巨大的挑战。 而作为一个全球性的信息网络,w e b 还远远没有发挥它应有的潜能,机器自动地获取、有目的 地发现、集成和复用w e b 上各种数据的能力还需通过设计各种技术来实现并不断加以改进来提高, 由此,形成了语义w e b 的虽初的设计思想。语义w e b 思想的诞生,引发了网络信息时代的又一次新 的革命。 1 1 语义w e b 1 9 9 8 年9 月,b e r n e r s - l e e 首次提出了语义w e b 的设想。给出了它的总体框架,井概括介绍了 它的各个组成部分从而拉开了语义w e b 研究的序幕 2 。2 0 0 0 年1 2 月,b e m e r s - l e e 在x m l 2 0 0 0 会议报告中首次给出了s e m a n t i c w e b 功能逐层增强的层次结构图,指明了语义w e b 的研究框架 3 】。 2 0 0 1 年,语义w e b 工作研讨会在s t a n f o r d 大学召开。2 0 0 2 年6 月,第一届语义w e b 国际会议 i s w c 2 0 0 2 在意大利召开,该会议成为语义w e b 领域最重要的学术会议,代表了最近的研究成果和 研究方向进展。与此同时,代表万维网研究最高水平的w w w 会议也从2 0 0 2 年起出现了针对语义 w e b 的研究论文。伴随着这些重要的学术会议语义w e b 的研究工作真正全面展开。 1 1 1 语义w e b 的思想及架构 语义w e b 并非是全新的w e b ,而是对现有w e b 的扩展。它与传统w e b 的不同在于信息的含 义在语义w e b 环境下能够很好地加以定义,使得计算机和人类能够更好地协同工作。或者说。语义 w e b 的目标是让w e b 上的信息能够被机器理解,从而实现w e b 信息的自动处理,以适应w e b 资源 的快速增长更好地为人类服务。 w 3 c 这样来阐述语义w e b 的定义:促进将机器能理解的数据发布在w e b 上正成为很多组织最 优先考虑的工作。只有w e b 成为一个自动工具和人能够共享和处理数据的平台,它的潜能才可能全 部发挥。对于w e b 这个范围来说,未来的程序必须能够共享和处理数据,即使它们是独立设计的。 语义w e b 是这样一个设想:使w e b 上的数据能以一种能被机器所利用的方式定义和连接起来,而不 仅仅以显示为目的,而是为了自动、集成和重用不同平台中的数据。 根据b e m e r s - l e e 的设想,语义w e b 是由一种分层的体系结构构成,如图1 1 这是一个功能逐 层增强的层次化结构,由七个层次构成 3 。 u r j 和u n i c o d e 层是标识语义w e b 对象和统一使用国际字符集的基本手段。咀,、n s 和x m l s c h e m a 层定义了语义w e b 上语法互操作的标准。r d f 和r d fs c h e m a ( 二者合称为r d f ( s ) ) 层用来 描述和定义语义w e b 上的资源。o n t o l o g y 层用来定义不同概念之间的关系,以支持词汇的演化。r u l e s 层定义通过已有信息导出新信息的规则。l o g i c 层为基于规则的系统提供一个描述公理的框架。p r o o f 层执行规则并做出相应的评估。t r u s t 层为应用程序是否信任一个给定的证明提供检测机制。d i g i t a l s i g n a t u r e 用来检测文档的改动情况,是增强w e b 安全的手段。 u r i 和u n i e o d e u r j 是w w w 的核心概念之一,它能够无二义地标识w e b 上的任意一个资源其思想是在需要 的时候通过链接引用资源,因此不需要对资源进行拷贝或集中管理。 u n i c o d e 是一种新的字符编码标准,它支持世界上所有的语言。无论在什么平台上,无论在什么 程序中,无论使用什么语言,每个字符都对应于一个唯一的编码值因此,它是语义w e b 多语种支 持的基础。 x m l 、n s 和x m l s c h e m a ) 函也提供文档结构化的语法,实现了文档结构与文档表现形式的分离根据不同的目的同一个 至里奎兰堡主兰竺笙茎 文档可以有不同的表现形式。x m ls c h e m a 是约束x m l 文档结构的语言。x m l 名字空间是名字的 一个集合,用于文档元素和属性名有效性的验证由u r l 引用来标识。 图1 1 语义w e b 体系结构 r d f ( s ) x m l 实现了文档结构化,但文档信息并不包含任何语义。r d f 数据模型提供了简单的语义, r d f 属性可以看作是资源的属性同时又表达了资源之间的关系因此r d f 数据模型对应于传统的 属性二值对,又类似于e r 图。r d f s c h e m a 为r d f 模型提供了一个基本的类型系统,其目的就是 定义资源的属性定义被描述资源的类,井对类和关系的可能组合进行约束。同时提供约柬违例的 检测机制。 o n t o l o g y 层 虽然r d f ( s ) 能够定义对象的属性和类,并且还提供了类的泛化等简单语义,但它不能明确表 达描述属性或类的术语的含义及术语间的关系。本体层就是要提供一个能明确的形式化语言,以准 确定义术语含义及术语间关系。 蛐、p r o o f 和t r u s t 除了本体层定义的术语关系和推理规则外,还需要有一个功能强大的逻辑语言来实现推理。证 明语言允许服务代理在向客户代理发送断言的同时将推理路径也发送给客户代理。这样应用程序只 需要包含一个普通的验证引擎就可以确定断言的真假。但是,证明语言只能根据w e b 上已有的信息 对断言给出逻辑证明,它并不能保证w e b 上所有的信息都为。真”。因此,软件代理还需要使用数 字签名和加密技术用来确保w e b 信息的可信任性。 d i g i t a ls i g n a t u r e 数字签名简单地说就是一段数据加密块,机器和软件代理可以用它来无二义地验证某个信息是 否由特定的可信任的来源提供。它是实现w e b 信任的关键技术。公共密钥加密算法是数字签名的基 础。 1 1 2 语义w e b 的研究问题 语义w e b 构想了w e b 辉煌的未来,但在其实现道路上,还有着很多有待解决的重要问题。在目 前看来,语义w e b 涉及的主要研究方向有如下几个方面。 表示领域知识的本体语言 本体提供了语义w e b 中的领域信息之间共享的基础,是语义w e b 的核心。语义w e b 中需要通 过本体来描述领域中的资源,包括分类、属性、子类关系、子属性关系、实例关系、定义域和值域 等等。目前的本体语言包括r d f ( s ) 、d a m l + o i l 和o w l 等。这些语言规范在语法上都是遵循x m l 语法的。 语义w e b 的逻辑基础 描述逻辑是语义w e b 的逻辑基础它们都是一阶逻辑的子集这个子集具有可判定性和可计算 性的特点,并适合于处理大规模的数据。语义w e b 语言的表达能力直接依赖于相应的描述逻辑的表 达能力 2 第一章引言 语义w e b 中的本体工程 本体是语义w e b 中知识表示的核心。因此,如何创建和管理本体是实现语义w e b 上知识表示的 基础。此外本体的扩充、集成和演化等问题也常常需要考虑。更重要的问题是- 不同应用系统间 所使用的本体往往是异构的为解决本体异构还需要对本体语义标注和映射进行深入探讨解决 本体语义标注和映射对于基于本体的查询和推理等问题具有重大意义。 语义w e b 工具和支撑软件 开发语义w e b 离不开一些易用的工具和软件的支持。这些工具和软件包括研究语义w e b 语言的 应用编程接口及其实现、w e b 资源语义描述的建模技术与工具、w e b 资源的知识获取工具、语义 w e b 内容创作和语义标注工具以及w e b 本体存储与查询工具等。已经推出的工具对w e b 本体语言 的支持程度各不相同,但也不够充分。语义标注过程中本体查询、辅助推理支持,以及元数据生成 的自动化程度还不够。这些都影响了大量普通用户使用这些工具的积极性和可能性。从发展趋势来 看,更易用、更强大和更智能是语义w e b 工具和软件发展的方向 语义w e b 的应用研究 目前语义w e b 还缺少关键的应用,这也限制了它的迅速普及。因此,研究如何将语义w 曲技术 应用到实际中是非常重要的。目前语义w e b 技术在电子商务、数字图书馆、信息检索、软件工程、 地理信息处理以及生物信息学等领域都扮演着关键角色。 语义w e b 是一种新兴的网络形式,是未来网络发展的方向之一。它将极大地改善网络的功能, 使网络更易于访问、更便于管理。在信息检索方面。语义w e b 可以极大改善查询的质量,提供智能 化的语义信息查询o i 1 3 本体语义标注问题 语义w e b 是w e b 信息能够被机器认识和理解的网络。在语义w e b 环境下w e b 上定义和链接 的数据不仅能显示,而且可以被机器自动处理、集成和重用。只有当数据不仅可以被人而且可以被 机器自动地共享和处理的时候w e b 的潜力才发挥到极至。但是,机器可理解并不意味着如机器能 够理解人类的语言,机器可理解只是说明:机器根据明确定义的数据,通过执行明确定义的操作, 解决明确定义的问题这就是语义w e b 的目的。 语义w e b 信息主要基于本体进行表示,所以认识和理解w e b 信息其实就是认识本体的语义信息 以及相互间的联系,语义标注方法就是给本体添加有用的语义信息,使得机器通过识别本体包含的 语义信息即已经明确定义的内容,识别和理解本体,从而达到网络信息机器可理解,进行异构本 体间的映射,进而实现w e b 数据可被机器自动处理、集成和重用的目的。 在信息数量庞大的网络环境中,如何给复杂多样的本体添加有用的语义信息添加的主体和对 象分别是什么添加信息的方式,效率,自动化程度,正确性,可靠性,以及可修改性和可维护性 等都是标注方法学要解决的问题,我们将在正文部分进行详细的讨论。 1 2 研究问题的提出及主要内容 本体是语义w e b 中知识表示的核心,因此在语义w e b 研究工作中,很重要的一项是如何给本体 代表的符号赋予带有具体含义的语义信息,从机器可读达到机器可理解,这就是标注。 正因为本体在语义w e b 中的核心地位,语义标注也因此显得非常重要。但是由于语义w e b 本身 发展还未成熟,本体理论也有待统一和完善,标注方法和技术目前为止还不够成熟和完善,是语义 w e b 中的一个挑战性难题,并极大地阻碍了语义w e b 技术的应用。 在传统的语义标注中,大部分的研究工作是基于单本体展开的,但是由于标注过程所面对的w e b 数据事先无法预料,因此,使用单个本体很难满足所有可能的标注对象。尽管面临的这种问题可以 利用本体集成和扩充去解决,例如,最早的语义标注系统之一s h o e ,对于涉及多本体的标注,采 用本体集成的方法去解决。但研究表明,这种解决方法的代价太高。此外。仅为了标注去做繁琐的 本体集成工作并不可取。为了克服现有这些解决方案的不足一种可行的方法是采用多个本体进行 语义标注,但对于那些有重叠的本体在标注之前需要说明它们之间的映射。 本文在此基础上展开讨论。 桥本体 对于所需要标注的有重叠或交叉的本体之间的映射我们用桥关系来进行说明。桥关系是不同本 体间的关联关系,桥本体是特殊的本体。桥本体用本体形式严格定义本体问的桥关系,并形成相应 的桥体系结构。我们对多本体间的桥关系进行了分析,给出了桥本体的定义,并对桥本体的十二种 类型进行了分析和描述,同时引入了桥本体的范式表示。 3 东南大学硕士学位论文 桥本体的自动生成 在本体的实例与结构层次探讨了桥本体的自动生成。桥本体的应用不可避免地遭遇数目巨大的 本体。由于本体数目的不可估量使得桥本体的自动化生成技术显得尤为关键,探讨如何实现桥本 体的自动生成是非常有意义的。我们将主要从外延定义上验证桥本体自动生成的可能性并在实 例和结构层次上进行了讨论,同时给出了基于实例层的实例等价框架。 多本体标注框架 由于单本体标注的局限性,很多研究工作者将研究的目标转向了多本体标注。其中,有人提出 用分布式描述逻辑来处理本体集成的问题并使用一个表示了本体间概念的最基本继承关系的桥规 则来描述本体间的关联,但是由于这种桥规则的表达能力很弱,限制很多,所以这种方法应用并不 是很广。对此,我们提出一种使用新的多本体关联的桥本体来进行语义标注。新的桥本体能够表达 本体间的复杂关系,容易创建能够自动生成。 在我们的方法中能够根据本体的演化修改相应的桥规则,并用一个语义标注的实例来论证桥 规则方法的有效性。我们设计了一个多本体的语义标注框架和在此基础上的标注算法,并演示了该 方法的具体应用过程 1 3 论文结构 本论文主要有五章,各章主要内容如下: 第一章引言,主要介绍语义w e b 的思想起源,b e m e r s l e e 提出的语义w e b 七层体系结构,语 义w e b 主要研究问题本论文研究问题的提出和研究的主要内容。 第二章关于本体的理论,是本文的理论基础。主要介绍本体的概念,形式化定义,以及语义标 注的思想对象和方法。 第三章提出桥本体的思想。阐述关于桥本体的定义四层结构,引入b n l e 范式表示,给出一 个简单的桥本体范式表示的实例,讨论了桥本体在实例层次和结构层次上的自动生成方法。并探讨 了实例层次上的等价检查。 第四章提出基于多本体的语义标注框架。通过桥本体的帮助我们将多本体之间的关系给予确 定,然后在此基础上提出进行多本体标注的算法。晟后用实例验证了我们关于桥本体理论和标注技 术的可行性和有效性。 第五章总结本论文研究取得的成果,分析不足,探讨相关问题提出将来的研究重点和方向。 4 第二章本体及标往理论 第二章本体及标注理论 本体是描述语义w e b 中语义知识的建模手段,它形式化定义了领域内共同认可的知识是语义 w e b 体系中的核心。因此对它的相关理论的探讨非常重要,语义标注是基于本体来进行的,它将现 实应用中涉及的个体和抽象的本体关联起来,为本体添加语义信息,是语义w e b 的基础。本章内容 将主要介绍本体的思想含义,形式化定义和构建方法论,以及语义标注的思想,对象和方式等基本 理论知识。 2 1 本体简介 语义w e b 的构想旨在改进现有w e b 以便克服目前w e b 上无法解决的信息自动处理和精确搜索 等困难。在这一系列的改进措施中,最重要的便是在w e b 中引入语义知识表示,即语义w e b 将不仅 仅局限于将页面内容和表现形式分离,而是更强调增加具有语义的信息,耿而保证w e b 页面在一定 程度上能被机器理解和被自动处理。因此,如何表示语义信息对于语义w e b 就显得异常关键,需要 一种有效的语义信息模型来支持。本体正是描述语义w e b 中语义知识的建模手段它形式化定义了 领域内共同认可的知识,是语义w e b 体系中的核心 2 1 1 本体思想 本体最早是一个哲学上的概念,指的是对客观存在的一个系统的解释或说明。它关心的是客观 现实的抽象本质。后来本体被引入到人工智能和计算机领域以及语义w e b 的研究中,成为描述w e b 信息语义的重要工具。这里的本体有多种定义:。本体是给出构成相关领域词汇的基本术语和关系 以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”:。本体是概念模型的明确的规范 说明“;。本体是共享概念模型的形式化规范说明”等等。当前语义w e b 研究人员广泛接受的本体定 义认为本体是共享概念模型的明确形式化规范说明 6 】。这包含四种含义: 1 概念模型( c o n c e p t u a l i z a t i o n ) :是指通过抽象客观世界中的现象的相关概念而得到的模型, 概念模型表现的含义独立于具体的环境状态; 2 明确( e x p l i c i t ) :概念和概念的约束都有明确的定义; 3 形式化( f o r m a l ) :是计算机可读的,可以被计算机处理; 4 共享( s h a r e ) :本体体现的是共同认可的知识,反映的是相关领域内的公认的概念集。 一个本体用于描述一个论域中的概念。拥有共同属性的对象被组织成概念,对共享属性的描述 称为概念定义。概念被组织到一个通过子类父类关系构成的分类层次中,类似于信息检索中的分类 层次和面向对象中的类继承层次。而一类的对象和另一类对象间常常存在一定的关系,这些关系说 明了对象间的结构。因此本体通常包含以下元素: l 论域中概念的正规描述概念( e l a s s 或称c o n c e p t ) : 2 每一概念不同特征性质以及概念和概念之间存在的关系( s l o t 、r o l e 或p r o p e r t y ) ; 3 每一特征或关系上的约束和限制( f a c e t s 或者r o l e 壕晡e t i o l l ) ,也称为公理( a x i o m ) : 4 一组概念的实例( i n s t a n c e ) ,也称为个体( i n d i v i d u a l ) ,用来描述单独对象的相关事实。 目前w e b 本体大多采用描述逻辑作为逻辑基础。网络本体语言o w l 是目前w 3 c 推荐的描述 网络本体的语言。o w l 通过提供附加的形式语义的词汇集,具有比x m l 、r d f 和r d f s 更多的网 络内容的机器可读性。o w l 可以描述属性和类,类之间的关系基数和等价约束,丰富的属性类型, 属性的特性,枚举类和数据类型等,提供了强大的信息语义描述能力。 本体通过对概念以及概念和概念之间的关系的严格定义来确定概念的精确含义,表示被共同认 可的、可共享的知识是解决语义层次上网络信息共享和交换的基础。本体在语义w e b 中的核心地 位促使本体的研究和开发成为整个语义w e b 研究中的重点。众多的w e b 本体在人类知识的各个领域 实现语义w e b 的知识表示,将为语义w e b 的相关应用奠定坚实的基础。 2 1 2 本体的形式化定义 仅仅有文字的对本体的描述是远远不够的,但是目前还没有对本体明确而统一的形式化定义, 这里给出较为一股的七元组定义。 定义2 1 本体可定义为一个七元组0 e ( c a c , r ,a 8 。i - i , 肋,其中c 是概念的集合;a c 是概念 东南大学硕士学位论文 属性的集合;r 是关系的集合;a 8 是关系属性的集合:h 表示概念层次;,是实例的集合;x 是公理 的集合。 对该定义的详细描述如下: 概念:概念也称为类,从语义上讲,它是对现实世界中个体的抽象表示的是个体的集合, 箕定义一般包括概念的名称,以及对该概念的自然语言描述。 概念的属性:如果c ,是概念集合c 中的一个概念,那么它的属性可表示为a ( c ) 。概念间之 所以有差异正是由于它们有着不同的属性,才对应着不同的个体集合,因此,又称概念的属性集合 为概念的内涵。而它所对应的个体集合为概念的外延。 关系:一个关系通常包含定义域和值域两部分,这两部分限定了该关系所适用的范围。在本 体中,关系的定义域通常是一个概念c 。而值域既可以是概念,也可以是具体的取值域( 挪字符串和 整数等) ,当值域为取值域的时候,关系便退化为属性,所以可以说属性是一种特殊的关系。如果只 考虑关系的值域为概念的情况,关系集合r 中的每条关系r c ,岛 便表示概念c p 和白间的二元关系; 需要注意的是此时这条关系只能表明概念岛和岛所对应的实例中可能存在关系r f 而并非任意选 取的这两个概念的实例都一定具有这样的关系。尽管在具体的领域建模中,概念间的关系多种多样, 但是那些具有普遍性的关系更值得关注,例如。表达概念之间部分与整体的p a r t - o f 关系。 关系的属性:关系的属性描述了对关系的进一步限制。例如一个表示年龄的关系“h - a g e ”, 如果它的值域是整数,那么可以进一步通过它的属性规定其取值范围是1 - 9 9 之间的整数。 概念层次:是概念集合c 上通过k i n d - o f 或l s - a 关系构成的概念层次结构,它是 s u p e r c l a s s s u b c l a s s 关系的集合, h 表示岛是岛的超类。将概念继承关系突出是因为这是人 类组织概念最普遍的方式。 实例:,是本体中实例的集合。一个实例是现实世界中具体的和唯一的个体,它对应着本体中 的一个或多个概念有着这些概念描述的属性和具体的属性值;由于现实世界中的个体一方面可能 无法穷尽其数量,另一方面新的个体会不断产生而原有的个体也会不断消亡,所以实例相对于本体 的其它组成成分来说是动态的;本体的建模活动中一般不考虑实例或只考虑少数重要的实例,但当 本体和实际应用相结合的时候,需要将特定领域内的个体作为实例添加进来 公理:公理集合x 中的每条公理代表领域知识中的永真断言,例如,声明关系。t e a c h ”和 “t a u g h t b y ”是互逆的,声明概念。w o m a n ”和“m a n ”是不相交,等等。 图2 1 一个简单的本体 在实际的应用中,通常采用本体语言( 如o w l ) 来描述本体但有时为了交流的方便也可以用 图的形式表示一个本体。图2 1 是一个描述计算机系本体的局部。 本体精确地表示了一个领域中被共同认可的和可共享的知识,是解决语义层次上信息共享和交 换的基础。本体在语义w e b 中的核心地位促使本体的研究和开发成为整个语义w e b 研究中的重点。 众多的w e b 本体体现了人类各个领域中的知识,为语义w e b 的成功奠定了良好和坚实的基础。 6 第二章本体及标注理论 2 2 标注理论 在本体的建模阶段,大部分的建模工作都集中在领域知识的抽象表示上即发现领域内的概念、 概念的继承层次、潜在的关系和公理等。对于领域中的实例在建模时一般不需要考虑它们除非 建模时就能确定该本体所涉及的所有实例。实际上,通常的本体都具有一定的通用性,表示特定领 域内的知识,但由于领域内可能的实例数目无穷无尽且动态变化,因此,只有本体和一个具体的应 用结合时考虑实例才有意义。将现实应用中涉及的个体和抽象的本体联系,这正是语义标注所要做 的工作。和数据库类比,语义标注就如同为建立好的数据库表添加具体的纪录。 从语义w e b 的角度来看,在传统w e b 上添加语义信息将w e b 的状态从机器可读提高到机器 可理解,这是整个语义w e b 实现的基础。通常,这种语义信息的添加是基于本体进行的,称之为语 义标注。语义标注将推动语义w e b 走向实际应用,智能a g e n t 能够根据w e b 上的语义信息实现智能 推理任务。并能提高信息检索的精确性。 语义标注作为语义w e b 的基础,很多研究机构都对其进行了深入研究,但并没有取得根本性的 进展。至今,语义标注仍然是语义w e b 实现的瓶颈问题。 2 2 1 语义标注思想 如果将本体看作简化了的知识库,那么从本体的角度来看,添加实例即进行语义标注,可视 为丰富本体的过程。如果站在语义w e b 的角度来看,语义标注便是语义信息的创建和发布过程:用 户依据一定的本体,为页面添加语义信息。然而,此时的语义标注肩负着把已经存在的和正在创建 的传统w e b 页面转换为带有语义信息的w e b 的重任,这正是大规模语义w e b 应用实现的基础,是 整个语义w e b 的宏伟构想变为现实的前提。这时的语义标注便成为一个复杂的工程问题,其具体的 实施过程和实施方式都受着多方面因素的影响目前还没有达成统一的认识。这里从标注的执行者 和标注过程所采用的本体两个角度分别讨论语义w e b 中的语义标注观点。 首先是语义w e b 中的标注应该由谁来完成,也就是标注的执行者问胚。一些研究者希望语义 w e b 上的语义信息能像页面本身的创建一样,由用户来完成。因为在传统w e b 下,即使最强大的搜 索引擎g o o g l e 也只能覆盖3 0 的w e b 内容,因此,持有该观点的研究者认为,在语义w e b 下,任 何机构仍然不可能完成整个w e b 这么庞大的语义标注任务。然而,标注由用户来完成也存在着缺点: 撒开用户是否愿意进行标注不论,用户在标注过程中的责任感和知识背景上的差异等因柔将导致晟 终标注结果在精度和一致性上难以得到保证。为了能克服这些缺点,另一些研究者认为应该由专门 的机构来完成w e b 的语义标注。撇开有没有机构能否完成对整个w e b 的语义标注不论,让什么机构 或什么机构愿意完成这样的任务呢? 用户又凭什么能相信这些机构给出的标注结果就是准确的呢? 这些机构标注的语义信息如何存储? 用户如何才能获取这些语义信息昵? 这些都是很多悬而未决的 问题,难以达到一致认可。 其次是语义w e b 的标注中应该选择什么样的本体,也就是标注采用的本体问题。一些人认为任 何用户都能够选择或创建自己喜好的本体,并利用它们来标注页面。这些本体的规模通常是小型的。 目前的很多研究者都支持这种观点,他们认为语义w e b 将建立在无数的小本体之上,正如r o u s s e t 在i s w c 2 0 0 4 大会上的特邀演讲中所说的:“s m a l lc n b e b e a u t i f i i l i n t h es e m a n t i c w e b ”【3 7 】。但这种 观点的缺点也很明显:大量的小本体往往是异构的这将造成在使用语义信息的过程中需要频繁执 行处理本体异构的操作给应用系统带来沉重的负担。为了克服上一种的缺陷,一部分人希望某些 大型的机构能提供一些权威蔼通用的大本体,让用户在标注的过程中使用。但这样做也同样会导致 很多问题:首先,本体的提供者如果被少数机构垄断,那将大大限制用户表达自己思想的自由,w e b 从此失去了它与生俱来的自由本质:其次,目前的研究已经表明创建并维护涵盖人类多个方面知 识的大规模本体极其困难,而又要让这样的本体得到w e b 用户的公认,这个目标更难以达到;最后, 也是最重要的问题是:什么机构或组织能提供这样的本体呢? w 3 c 还是i s o ? g o o g l e 还是y a h o o ? 美国国家标准局还是中国国家标准局? 这种本体的标准之争必然会涉及到不同国度、历史背景和文 化很难有一个晟终的结果。 上述基于不同角度的语义标注观点都有着自身的理由,也有着自身的缺陷,但总的说来都过于 极端,切实可行的标注方案应该是它们的折中:既可以允许某些专业用户标注他们自己创建的网页, 也可以让那些不熟悉标注或不愿意标注的用户将他们的网页提交给自己信任的机构进行标注:既要 保证标洼的本体具有一定的通用性又要保证它能满足用户的要求。涉及专业领域的本体可由领域 中的权威机构统一制定如医学中的u m l s 本体,而涉及文化冲突的本体制定时可以考虑多个版本。 因此,对语义w e b 米说,语义标注不仅仅是一种技术,更是一种文化。 语义标注技术也碰到了经典的“鸡与蛋”的问题:一方面通常的网页创建者很不愿意为创作的 7 东南大学硕士学位论文 网页内容提供语义标注,除非他亲自感受到那样做所带来的巨大好处:另一方面只有大规模的语义 标注数据存在,并在w e b 上实现优于现有技术或现有技术不能解决的应用才可能有更多人或团体 愿意提供语义标注。最后,在语义标注过程中通常既要保证个人的观点,又要比较权威专家的意见, 而且还需要大量本体来满足不同用户的需求:某些用户仅希望通过标注来更快地找到标注对象所对 应的网站,而那些本身知道链接的高层用户还要求进一步获得关于标注对象的更精确的描述。 2 2 2 语义标注对象 针对本体进行语义标注,首先需要明确要标注的对象。从本体的角度来说,就是明确需要将本 体中的哪些成分和现实世界建立联系。这同时也是标注的粒度问题。本体标注的粒度由租到细可以 分为标注概念、标注概念的属性、标注关系和标注实例等。 标注概念 现实世界是由无数的个体组成,而概念是对个体的抽象,因此最简单的标注是建立概念和个体 问的联系,也就是找到领域内存在的个体,然后声明它属于哪个类的实例。给定一个实例,标注的 过程需要找到该实例最接近的本体中的概念,然后将实例和与它最接近的概念连接。由于概念间所 表达的含义可能有重叠,因此一个个体可以同时是多个概念的实例。本体中的概念是通过继承的 层次结构组织的,所以,如果一个个体被声明为一个概念的实例,那么也是该概念的所有超类的实 例。以一个描述电影 s t a r w a r s ) 的本体为例,个体“场出”是概念。d e d i m a s t e r ”的一个实例,而 “o b i - w a n k e n o b i ”和“l u k e s k y w a l k e r ”都是概念“5 e d i k n i g h t ”的实例。由于“j e d i m a s t e r ”是“j e d i k n i g h t ”的子概念,因此,。y o d n ”也是“j e d i 砌堙舡”的实例。而实例。a n a k i ns k y w a l k e r ”既是概 念“j e d i k n i g h t ”的实例,又是概念。s i t h k n i g h t ”的实饲。 标注属性 为概念标注实例是最基本的标注,查询等应用还会常常涉及到实例的具体属性值,因此,更细 一步的标注需要给出实例对应的属性值。例如,对于实例“y o d a ”,如果对应的概念中有属性“h e i g h t ” 和“w e a p o n ”还可以进一步给出具体的属性值“h e i g h t = o , 6 6 f n e t e f ”和“w e a p o n = l i g h t s a b e r ” 标注关系 更细的标注可以指出实例间的关系。本体中关系在建模时仅仅指出关系的定义域和值域,如果 定义域和值域都是概念,定义的关系仅仅声明了来自两个域中不同概念的实例可能存在这样的关系。 具体给定一组实例,它们之间是否存在某一种关系需要借助标注指出。例如,如果上面的本体中 定义了一个关系。h a s s o n ”,其定义域和值域都含有概念“d e d i ”,那么,可以通过标注声明实例“a n a k i n 繇y w a l k e r ”和“l u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论