(计算机应用技术专业论文)面向语义网的本体学习方法研究.pdf_第1页
(计算机应用技术专业论文)面向语义网的本体学习方法研究.pdf_第2页
(计算机应用技术专业论文)面向语义网的本体学习方法研究.pdf_第3页
(计算机应用技术专业论文)面向语义网的本体学习方法研究.pdf_第4页
(计算机应用技术专业论文)面向语义网的本体学习方法研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)面向语义网的本体学习方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士论文面向语义网的率体学习方法研究 摘要 i n l e r n e t 的飞速发展为人们提供了极其丰富的信息资源,然而海量信息的管 理和检索却变得越来越困难。语义网技术的出现,正是为了有效解决这些问题。 语义网技术通过扩展现有互联网,在信息中加入语义内容,使计算机可以自动与 人协同工作。作为语义网中知识语义元数据的载体,本体成为了语义网的核心元 素。本体是对应用领域概念化的形式说明,它为某个领域知识提供了一个共享通 用的解释,使得人和应用系统之间都能够有效地进行语义上的理解和通讯。本体 建造是一个非常复杂的过程,它需要众多领域专家的参与。虽然目前本体工程 ( o n t o l o g ye n g i n e e r i n g ) 工具已经较为成熟,但是这些工具提供的仅仅是本体编 辑功能,支持的仍然是手工构建本体的方式。由于手工的方法费时费力,使得本 体的构建成为一项繁琐而艰巨的任务。本体的构建已经成为知识获取的瓶颈,严 重制约了语义网的发展。因此,如何利用知识获取技术来降低本体构建的开销是 一个很有意义的研究方向,本体学习技术应运而生。本体学习的目的就是利用机 器学习和统计等技术自动或半自动地从已有的数据资源中获取期望的本体。 本文针对本体学习涉及的关键问题,对概念、实例和关系的抽取进行了研究 与分析,主要工作和特色如下: 1 1 针对本体概念、实例抽取问题,在框架语义理论的研究基础上,通过语义分 析获得句法语义关联结构,利用该结构提取出不同语法上下文环境中具有语 义关联特性的词条:通过词条所处框架语义环境及语义角色关系的分析,确 定未知概念与实例的正确本体归属。作为半自动方法,通过实验证实方法对 于概念、实例抽取,具备可接受的结果; 2 1 针对本体关系抽取问题,通过框架语义分析方法,在语义层次分析句子成分 与相应框架语义角色之间的联系,采用框架及框架语义角色结合的方式对不 同句子成分对应本体概念之间的关系进行标注。此方法不仅可以发现不同概 念之间的可能关系,同时又为此关系的标注提供可能建议。通过试验,验证 了方法的理论有效性: 3 1 在相关本体学习方法理论基础上,设计并初步实现了f r a s e o l 半自动本体学 习原型系统,采用传统方法与本文所述基于语义分析方法结合的方式进行本 体学习。针对上述方法的设计,在此系统上进行相关实验。 关键词:语义网,本体学习,浯义分析爵义角色标注 中国科学技术大学硕士论文 面向语义网的本体学习方法研究 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ew o r l dw i d ew e b ,t h ep r o b l e mo ft h e m a n a g e m e n ta n dr e t r i e v a lo ft h eh u g ea m o u n ti n f o r m a t i o ne m e r g e d t h es e m a n t i c w e bi ss u c ha t e c h n o l o g yw h i c hi sd e s i g n e dt o o v e r c o m et h eb o t t l e n e c ko ft h e d e v e l o p m e n to f t h ew w w b ya n n o t a t i n gt h ec u r r e n ti n f o r m a t i o ns o u r c ew i t ht h es e m a n t i ci n f o r m a t i o n ,t h e s e m a n t i cw e be x t e n d sc u r r e n tw o r dw i d ew e b ,a n dm a k e st h ec o m p u t e r sw o r kw i t h p e o p l ea u t o m a t i c a l l y a st h es e m a n t i cm e t a d a t ao ft h ek n o w l e d g ei nt h es e m a n t i c w e b ,t h eo n t o l o g yi st h ek e ye l e m e n to f t h es e m a n t i cw e b t h eo n t o l o g yi st h ef o r m a l e x p l i c i ts p e c i f i c a t i o no fad o m a i nc o n c e p t u a l i z a t i o n i tp r o v i d e st h ed o m a i n t h e c o m m o nu n d e r s t a n d i n go ft h es h a r e dk n o w l e d g e t h ec o n s t r u c t i o no f t h eo n t o l o g yi sav e r yc o m p l e xp r o c e s s ,m u l t i - d o m a i ne x p e r t s a r en e e d e di nt h ep r o c e s s a l t h o u g hs o m eo n t o l o g ye n g i n e e r i n gt o o l s ,s u c ha sp r o t 6 9 6 , h a v eb e e nd e v e l o p e d ,t h ep r o c e s so ft h eo n t o l o g yb u i l d i n gi ss t i l lat i m ec o n s u m i n g a n de x p e n s i v et a s k t h i ss i t u a t i o na f f e c t st h er a p i dd e v e l o p m e n toft h es e m a n t i cw e b o n t o l o g yl e a m i n g i st h es e to fm e t h o d sa n dt e c h n i q u e su s e df o rb u i l d i n g o n t o l o g yi n as e m i - a u t o m a t i cf a s h i o nu s i n gs e v e r a ls o u r c e s i tc a nb eu s e db y o n t o l o g ye n g i n e e r st oc o n s t r u c to n t o l o g ym o r ee a s i l y i nt h i sp a p e r , w ea n a l y z et h e o n t o l o g yl e a r n i n gm e t h o df r o md i f f e r e n tk e yt a s k s ,t h ec o n c e p te x t r a c t i o n ,i n s t a n c e e x t r a c t i o na n dr e l a t i o ne x t r a c t i o n t h em a i nd r a w b a c ko ft h ec u r r e n to n t o l o g yl e a r n i n gm e t h o d si st h el a c ko ft h e s e m a n t i ca n a l y s i so ft h ei n f o r m a t i o ns o u r c e s t os o l v et h i sp r o b l e mw ei m p o r t e dt h e f r a m es e m a n t i c sa n df r a m e n e tc o r p u si n t oo u ro n t o l o g yl e a r n i n gm e t h o d t h r o u g h s h a l l o ws e m a n t i ca n a l y s i s ,w ec o n s t r u c tt h es y n t a c t i ca n ds e m a n t i cm a p p i n gs t r u c t u r e b a s e do nt h i ss t r u c t u r e ,o u rm e t h o di n c o r p o r a t et h es e m a n t i cc o n t e x to ft h ec o r p u s i n t ot h ec o n c e p ti n s t a n c ee x t r a c t i o na n dn o n t a x o n o m i cr e l a t i o ne x t r a c t i o np h a s eo f t h eo n t o l o g yl e a r n i n gc i r c l e w ea l s od e v e l o pan e wo n t o l o g yl e a r n i n gs y s t e mn a m e d f r a s e o lw h i c hc o m b i n e st h et r a d i t i o n a lo n t o l o g yl e a r n i n gm e t h o da n do u rn e w s e m a n t i ca n a l y s i se n a b l e dm e t h o d t h ee x p e r i m e n to nt h es y s t e ms h o w e dt h a tt h e m e t h o di sag o o dc o m p l e m e n to f t h et r a d i t i o n a lm e t h o d k e y w o r d :s e m a n t i cw e b ,o n t o l o g yl e a r n i n g s e m a n t i ca n a l y s i s ,s e m a n t i cr o l el a b e l i n g 中国科学技术大学硕士论文面向语义网的本体学习方法研究 第1 章引言 1 1w w w 的发展与问题 网络技术的发展和普及使得社会信息化的程度空前提高,w w w 作为当今主 要网络信息的集散地,汇聚了海量信息,各个应用领域所积累的信息量也在急速增 长,整个互联网的规模急剧膨胀。由于信息资源的载体多种多样,所处的平台及 其使用的语言和标准并不一致,这就给各个领域信息资源的管理和使用带来诸多 困难。加之认识问题的深度、知识水平、所处的环境、考虑问题的着眼点、以及 处理问题的方式等因素的不同,使得对于同一问题、同一事物往往存在有不同的 理解和认识,结果出现一系列不同的、重复定义而又不一致的概念、结构和方法, 从而产生了如下的问题: 。 如何对w e b 上海量的异构信息进行有效地分类和管理,使用户可以准确迅速 地找到需要的信息: 。 如何使应用程序能够理解信息所蕴涵的语义,实现信息处理过程的自动化; 。 如何根据语义实现各种异构系统中的相关信息的集成和协作。 由于w e b 的初始设计不是面向机器理解的,所以仅仅依靠一种统一的w e b 语言从语法上实现信息的交换和共享是不够的。比如两个都采用x m l 作为信息 交换格式的应用系统,怎么能够保证它们表述的是同一个意思,标记语言中元素 的关系是超类与子类的关系还是组成关系,计算机能否加以区分。这就需要一种 机制,使得计算机不但能读数据,还能够理解和区分数据的语义,实现w e b 信 息语义层次的互操作。要想让计算机能够智能地处理信息,前提是w e b 上的信 息必须要能被计算机“理解”。 1 2s e m a n t i cw e b t i mb e r n e r s l e e 于2 0 0 1 年正式提出了语义网( s e m a n t i cw e b ) 的概念【l 引。 语义网是互联网研究者对下一代互联网的称谓,语义网的提出为解决互联网发展 过程中遇到的瓶颈提供了出路,其相关技术致力于解决当前w e b 应用中所出现 的种种问题,它主要通过定义严格的语义模型来实现资源的共享和互操作,因而 被认为是下代的w e b 技术。语义网技术通过扩展现有互联网,在信息中加入 表1 其语义的内容,使计算机可以自动与人协同工作。也就是说,语义网中的各 种资源不再只是各种相连的信息,还包括其信息的真币含义,从向增强计算机处 中国科学技术大学硕士论文 面向语义网的本体学习方法研究 理信息的自动化和智能化能力。计算机本身并不具有真正的智能,语义网的建立 需要研究者们对信息进行有效的表示,制定统一的标准,使计算机可以对信息进 行有效的自动处理。语义网的思想就是利用元数据( m e t a d a t a ) 语言对w e b 信息资 源的内容进行语义上的描述,从而使计算机能够利用这些语义信息对资源的内容 进行理解和处理,在此基础上实现更高层的、基于知识的智能应用。 对于普通用户来说,s e m a n t i cw e b 是不可见的,但并不是说s e m a n t i cw e b 是独立的另一个w e b ,其实它只是现有w w w 的一个扩展,( 图1 1 形象地显示 了w w w 和s e m a n t i cw e b 的关系,其中白色表示现有的w e b ,蓝色表示s e m a n t i c w e b 对现有w e b 的扩展) ,因此人们并不需要安装一个特别的w e b 浏览器去进 入s e m a n t i cw e b 。简而言之,s e m a n t i cw e b 就是关于数据的信息的一个集合,这 个也就是所谓的元数据( m e t ad a t a ) ,用户无法看见。这些元数据被用来描述在 i n t e r n e t 上存在的文档、网页、概念,数据库和文件类型等等各种资源,于是应 用软件就可以通过元数据理解这些内容的含义。p 4 j 图1 1s e m a n t i cw e b 是w w ,的一个扩展 目前,语义网的建立还处于探索阶段,研究人员开发了一系列新技术促进语 义网技术的发展,但对未来语义网的具体结构还没能达成一致。现有语义网技术 的应用主要向两个方向发展:一是为互联网上的信息加上语义信息,在处理网络 上的信息资源时,可以按着一定的标准来处理这些语义信息。从而实现信息处理 自动化、智能化程度的提高:二是在各信息服务器上加入专有的语义信息库,网 络上其它的机器访问信息服务器想从中获取信息时,信息服务器先按语义信息处 理,然后再按语义信息处理的结果从知识库中找到所需的信息。 i 述两种方法的 代表了语义网研究的两个研究角度,一是从互联网上的知识表习: 发,通过对互 联i 硎上各种信息资源的表示方式进行改进来提高信息处理的m 力化、智能化;二 中国科学技术大学硕士论文 面向语义网的本体学习方法研究 是通过在信息服务器中直接加入一个领域的语义信息来提高信息处理的自动化 与智能化。这两个角度采用的方法不同,目的却是相同的,即提高网络服务的自 动化与智能化。 要实现语义层次的信息互操作,需要对信息的含义有共同一致的理解。语义 网采用了本体论( o n t o l o g y ) 的思想,本体是对应用领域概念化显示的解释说明, 为某领域提供了一个共享通用的理解,从而无论使人还是应用系统之间都能够有 效地进行语义上的理解和交流。 目前,虽然有一定应用需求的推动,但语义网技术距离实际应用尚有一段差 距。实现语义网所面临的主要问题体现在: 缺乏有效的知识本体构造方法和工具。目前知识本体的开发主要采用的还是 手工和半手工的方式开发,仍然需要领域专家和信息专家的共同参与。 - 缺乏知识本体概念关系分析的方法。指导知识本体的目标是实现知识重用和 共享,如何针对具体应用来量化分析概念和概念之间的关系,目前还缺少具 体的指导方法。 - 缺乏示范性的应用。知识本体驱动的应用理论研究比较活跃,但缺少实际的 支撑性应用。这种状况一方面体现了理论研究与实际应用的脱节,另一方面 也反映出技术理想与现实环境之间仍有差距。 上述前两个问题都与构建本体有关,由此可见,寻找更加智能的本体构建方 式是推动语义网迅速发展的关键所在。 1 3 本体学习研究现状 s e m a n t i cw e b 是对现有w w w 的一个扩展,为网络上的资源提供了一个语义 层上的形式语义也就是资源的元数据,计算机可以通过对元数据的分析推 理,得到这些资源的内容含义,进而进行下一步的处理或者作出决策。因此,在 已经建立领域知识的前提下,资源的元数据是构成s e m a n t i cw e b 的一个核心元 素,是机器进行自动处理的依据,没有元数据计算机将无所适从。 本体作为语义网支持机器智能互操作的基础,是语义网的核心元素。本体建 造是一个非常复杂的过程,它需要多个领域的专家参与。虽然目前本体工程 ( o n t o l o g ye n g i n e e r i n g ) - i - 具已经较为成熟,但本体的手工构造仍是项繁琐而 辛苦的任务,并最终导致所谓的知识获取瓶颈,严重制约了语义网的发展。本体 缺乏以及本体建立困难、代价高昂等问题,引起了研究者的广泛关注。本体学习 就是这样一个应运而生的研究领域。本体学习是个涉及信息获取、数据挖掘、 机器学习、自然语言理解等多领域交叉的研究课题。其核心技术是利用知谚 发现 技术从数据源中获取知识。其目的旨在开发能够通过领域数据自动发现的机器学 中国科学技术大学硕士论文面向语义网的本体学习方法研究 习技术来协助本体工程师构建本体。 a l e x a n d e rm a e d c h e 等首先正式提出了本体学习的概念【5 】,并从输入类型来区 分了不同的本体学习方法,包括基于文本本体学习、基于字典本体学习、基于知 识库本体学习、基于半结构化数据的本体学习等。由于w w w 高速发展而带来 的非形式化文本形式信息的大量存在,使得基于自由文本的本体学习技术成为本 体学习的研究热点。 目前主要开展的基于自由文本的本体学习系统有: 。t e x t 2 0 n t o 6 1 :t e x t 2 0 n t o 及其前身t e x t t o o n t o 是作为德国卡尔斯鲁厄大 学开发的k a o n 本体管理平台上的半自动本体学习工具,其中包含了在 现有本体基础上进行采用统计分析进行实例抽取,以及采用关联规则进 行关系抽取的功能。t e x t t o o n t o 是相对成熟的半自动o n t o l o g y 学习系 统,开放源码,是o n t o l o g y 自动生成研究者的重要参考。 。o n t o l t 7 :o n t o l t 是本体编辑工具p r o t 6 9 6 上的一个插件,采用语言学 分析的方法,对经过语法标注的文档进行概念和关系的自动抽取。系统 核心思想是通过定义映射规则,将文集语言学规律特性映射到本体相关 组件。 。 o n t o l e a r n 峭j : o n t o l e a m 是从w e b 站点或更一般的虚拟组织所共享的 文档中抽取o n t o l o g y 的一种半自动o n t o l o g y 学习工具。o n t o l e a r n 首先 从相关的文档中抽取领域术语。然后对他们进行语义解释( 语义消歧) 并加入到分类树中。最后,用发现的概念对普通o n t o l o g y ( 如w o r d n e t 等) 进行净化和丰富。o n t o l e a r n 的独到之处在于它的语义消歧。所谓语 义消歧就是把复杂的术语和复杂的概念相关联。其中包括为术语发现它 们在w o r d n e t 中的概念和它们在概念层次上的关系。 本体学习工作已经进行了相当广泛的研究,但是从现有的研究情况可以发 现,现有的方法仍然局限于传统的机器学习,自然语言理解中的词法、语法分析 的阶段。而本体本身是领域知识语义的形式化标志,因此,针对文本进行语义分 析,并采用语义分析方法对本体学习工作展开研究是一种合理的思路,这也是本 文意图展开研究的一个主要方向。 1 。4 论文的结构与主要工作 l0 4 。1 论文的结构 本文一共分为七章,每醺内容如下: 4 中国科学技术大学硕士论文面向语义网的本体学习方法研究 第一章:提出现有互联网存在的问题,并简要介绍为解决这些问题而出现的 新技术:s e m a n t i cw e b 。随后阐述本体学习的出现背景和本体学习的研究现 状,并且提出本文的研究焦点是采用语义分析方法的本体学习。 。 第二章:从s e m a n t i cw 曲的体系结构入手,简要介绍建立s e m a n t i cw e b 所 需要的各种基本技术。然后分析和介绍了本体的定义和基本需求,最后对本 体学习的研究内容和发展前景作出分析。 。 第三章。:本章介绍了语义分析方法的背景和发展,以及现有的基于语义角色 标注的浅层语义分析方法,其中重点阐述了基于框架语义和f r a m e n e t 系统 的框架语义分析方法,并分析了本体学习方法的基础数据结构句法语义关联 结构的基本构建过程。 第四章:本章研究了本体概念、实例抽取问题。首先对传统本体学习方法进 行了介绍,特别是应用比较广泛的基于模式匹配的概念抽取方法;然后分析 了基于语义分析的本体概念、实例抽取方法的思想和基本方法,最后基于两 个数据集对方法进行了相应实验。 - 第五章:本章研究了两类本体关系:本体分类关系和本体非分类关系。首先 介绍了对于分类关系常用的一些本体学习方法:然后提出了一种新的基于语 义分析的本体非分类关系抽取方法,该方法针对实例非分类关系和概念非分 类关系,分别提出了不同的抽取策略:本章最后针对所提出的这两类非分类 关系的抽取方法,设计了相应的实验。本章还对语义模式提取方法进行了初 步的探讨。 - 第六章:本章介绍了一个半自动本体学习系统f r a s e o l ,该系统的开发利用 了我们所提出的基于语义分析的本体学习方法。本章首先介绍了系统整体架 构、实现模型,然后分别对系统的文集管理与预处理模块、关联结构构造模 块、本体学习模块、人机交互模块、本体输出模块的实现进行了分析。 第七章:结论与工作展望,对本文加以总结,并分析了对于当前方法可能的 改进方向以及未来的工作展望。 1 4 2 主要工作 本文针对本体学习涉及的关键问题,对概念、实例和关系的抽取进行了研究 与分析,主要工作和特色如下: 1 ) 针对本体概念、实例抽取问题,在框架语义理论的研究基础上,通过语义分 析获得句法语义关联结构,利用该结构提取出不同语法上下丈环境中具有语 义关联特,h 的词条:通过词条所处框架语义环境及语义角色关系的分析确 定未知概念与实例的t 确本体归属。作为半自动方法,通过实验证实力7 :刈 中国科学技术大学硕士论文面向语义网的本体学习方法研究 于概念、实例抽取,具备可接受的结果; 2 ) 针对本体关系抽取问题,通过框架语义分析方法,在语义层次分析句子成分 与相应框架语义角色之间的联系,采用框架及框架语义角色结合的方式对不 同句子成分对应本体概念之间的关系进行标注。此方法不仅可以发现不同概 念之间的可能关系,同时又为此关系的标注提供可能建议。通过试验,验证 了方法的理论有效性。 3 ) 4 在相关本体学习方法理论基础上,设计并初步实现了f r a s e o l 半自动本体学 习原型系统,采用传统方法与本文所述基于语义分析方法结合的方式进行本 体学习。针对上述方法的设计,在此系统上进行相关实验。 6 中国科学技术大学硕士论文面向语义网的本体学习方法研究 第2 章本体论与本体学习 本章首先介绍一些s e m a n t i cw e b 的关键技术,将从s e m a n t i cw e b 的体系结 构入手,依照它的层次介绍每层需要的技术,以及它们对s e m a n t i cw e b 的作用。 然后介绍本体的基本概念和需求。分析本体学习的要求与现状,并对本体学习中 几类核心问题:概念、实例抽取,分类关系抽取以及非分类关系抽取,进行介绍。 2 1s e m a n t i cw e b 的体系结构 2 0 0 0 年,t i mb e m e r sl e e 在x m l 2 0 0 0 会议上给出了一个s e m a n t i cw e b 的 图2 1s e m a n t i cw e b 的体系结构 层状体系结构( 如图2 1 所示) 。在这个结构中t i m 把s e m a n t i cw e b 分成了7 层, 从低到高分别是:u n i c o d e 与u r i ,x m l ,r d f r d f s ,o n t o l o g y ,l o g i c ,p r o o f , t r u s t ,其中上层都要用到下层定义的语义。 。 第一层是u n i c o d e 与u r i ,是整个s e m a n t i cw e b 体系结构的基础,其中 u n i c o d e 是负责处理资源的编码,它是一个新的字符编码系统标准,支持世 界上主要语言文本字符。u r i 是统一资源标识符( u n i v e r s a lr e s o u r c e i d e n t i f i e r ) ,用来定位w e b 上的任何资源,它是u r l 的一个超集。 第二层是x m l + n s + x m ls c h e m a ,用于从语法卜表示数据的内容和结构, 通过使用标准的格式语言将网一t - _ 资源和信息的表现形式、数据结构和内容分 离。 。 第三层为r d f + r d fs c h e m a ,其提供的语义模型川j 描述w e b 上的资源及其 中国科学技术大学硕士论文面向语义网的本体学习方法研究 类型,为网上资源描述提供一种通用的表示框架,实现数据集成的元数据解 决方案。 第四层为o n t o l o g y 词汇( v o c a b u l a r y ) 层,用来定义共享的知识,从而对各 种资源之间的语义关系进行描述,揭示资源本身以及资源之间更为复杂和丰 富的语义信息。 。 第五层l o g i c 层主要提供公理和推理规则,为智能服务提供基础,比如可以 利用分布在w e b 上的各种断言或者公理推理出新的知识。 。 第六层p r o o f 和第七层t r u s t 则注重于提供认证和信任机制,使智能代理 a g e n t 在网络上实现个性化服务和彼此间交互合作具有可靠性和安全性。 。 而数字签名则跨越了多层。 第五层到第七层是在第一至第四层的基础上进行的逻辑操作。在整个 s e m a n t i cw e b 体系结构中x m l ,r d f ( s ) ,o n t o l o g y 是知识表示的核心技术,也是 s e m a n t i cw e b 研究和关注的焦点【9 , 1 0 , 1 1 】。 下面将详细介绍一下o n t o l o g y 定义以及o n t o l o g y 的相关理论。 2 2o n t o l o g y 正如本体论的诞生与哲学早期的发展密切相关一样,在过去的数十年中,本 体论在计算机科学领域的发展也与人工智能和信息技术的起步和发展密不可分。 尤其是上世纪九十年代以来,o n t o l o g y 逐渐成为一个热门研究课题,被知识工程、 自然语言处理、知识表示等几方面人工智能研究组织所关注。最近,在智能知识 集成、多协作信息系统、信息检索、电子商务、知识管理等领域,o n t o l o g y 的研 究也日益深入开展起来。o n t o l o g y 之所以在越来越多的领域倍受重视,其主要原 因是o n t o l o g y 能实现知识的复用和共享,这也正是当前计算机技术从单机向网 络发展过程中信息交流必须具备的功能。 2 2 1o n t o l o g y 的定义 o n t o l o g y 最早是一个哲学的范畴,在牛津英文词典中的定义为存在性的科学 及研究( t h es c i e n c eo rs t u d yo f b e i n g ) 。后来随着人工智能的发展,被人工智能 界给予了新的定义。然后最初人们对o n t o l o g y 的理解并不完善,其定义也随着 发展而不断变化。g r u b e r ( 1 9 9 3 ) 认为o n t o l o g y 是概念模型的明确的规范说明【l 2 l , b o r s t ( 1 9 9 7 ) 认为o n t o l o g y 是共享概念模型的形式化规范说明【l 引,而s t u d e r 在 1 9 9 8 年提出o n t o l o g y 是共享概念模型的明确的形式化规范说明【l 4 1 。 关于s t u d e r 的定义说明体现了o n t o l o g y 的p q 崖含义: 中国科学技术大学硕士论文面向语义网的本体学习方法研究 概念模型( c o n c e p t u a l i z a ti o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型, 其表示的含义独立于具体的环境状态。 。 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义。 形式化( f o r m a l ) o n t o l o g y 是计算机可读的。 。 共享( s h a r e ) o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体而不是个体。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确 定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义。 2 2 2o n t o l o g y 的建模元语 关于本体的定义如今在计算机科学领域已经比较统一,但在具体的应用环境 中如何规范化描述本体至今还缺乏统一的标准。目前有两种本体表示方法应用比 较广泛,一种是传统的四元素表示方法、另一种是较新的七元组表示法。前者源 于g r u b e r 博士的观点,在世界范围内得到了比较高的认同,下面仅对它做简要 介绍: 四元素表示方法的基本思想是【l5 j :一个本体中的四个主要元素是概念 ( c o n c e p t s ) 、关系( r e l a t i o n s ) 、实例( i n s t a n c e s ) 和公理( a x i o m s ) 。 概念表示某个领域中一类实体或事物的集合。通常概念可以分成两大类,一 类是简单概念( p r i m i t i v ec o n c e p t s ) ,另一类是定义的概念( d e f i n e dc o n c e p t s ) 。 简单概念是那些只有必要条件限制的概念,例如:正方形是四个角都是直角的四 边形。因此所有的正方形的四个角都是直角,但允许一些四个角都是直角的四边 形不是正方形。定义的概念是指那些具有充要条件限制的概念,这些条件用于确 定一件事物是否归属于某个概念,例如:“三好学生”是学习好、身体好、思想 好的学生。三好学生一定是学习好、身体好、思想好,而学习好、身体好、思想 好的学生就是三好学生。 关系用来描述概念和概念的属性的交互。关系也可以分为两大类:一种是树 状分类关系:另- 种是非分类关系。分类学将概念组织成子类一超类状的概念树 结构。最常见的分类形式是:专门化关系( s p e c i a l i z a t i o nr e l a t i o n s h i p s ) 通常被认 为是“是一种”的关系。例如:博士生是研究生,而研究牛是学生。j j i 9 中国科学技术大学硕士论文面向语义网的本体学习方法研究 分类关系是指树状结构概念之间的横向关系。非分类关系通常是具有领域特性相 关的一些概念之间的特性,比如“老师”与“学生”之间存在的“教学”关系就 是一种不具有分类学特性的非分类关系的。 与概念一样,关系也可以被组织成分类树状的结构。关系也有属性,这些属 性可深入刻画、描述概念之间的关系。它们包括:一个关系必须抓住一个概念是 否具有普遍的必要性:一个关系是否可以随意或者可选地抓住一个概念;一个概 念关系链是否严格地遵守确定的概念;关系是否是可传递等等。 实例是概念表示的具体的事物,如:“中国科学技术大学”是概念“大学” 的一个实例。存在争议的严格定义上,一个本体不应该包括任何实例,因为它被 假设为一个具体领域的概念化。一个本体与相关实例的组合就是我们如今所称呼 的知识库。然而判断一个东西是否为某个概念的实例实际上很困难,通常它依赖 于具体的应用。例如:化学元素是个概念,钾是化学元素的一个实例。但是关于 钾是化学元素的个实例的判定却是有争议的,因为钾本身是一个概念,它表示 不同的钾和钾的同位素。上述问题是知识管理研究中的一个公开问题。 最后,公理是用来限制概念和实例的取值范围,公理中包括许多具体的规则 和约束。 2 2 3o n t o l o g y 的描述语言 o n t o l o g y 描述语言起源于历史上人工智能领域对知识表示的研究,主要有 以下语言或环境为代表:c y c l t l6 1 、o n t o l i n g u a 17 1 、l o o m 1 8 】等。 表2 1w 3 c 定义的本体描述语言 名称描述 x m l 结构化文档的表层语法,对文档没有任何语义约束。 x m ls c h e m a 定义x m l 文档的结构约束的语言。 对象( 或者资源) 以及它们之间关系的数据模型,为 r d f 数据模型提供了简单的语义,这些数据模型能够用 x m l 语法进行表达。 描述r d f 资源的属性和类型的词汇表,提供了对这 r d fs c h e m a 些属性和类型的普遍层次的语义。 添加了更多的用于描述属性和类型的词汇,例如类型 之间的不相交性( d i s j o i n t n e s s ) ,基数( c a r d i n a l i t y ) , o w l 等价性,属性的更丰富的类型,属性特徊j ( 例如对称 性,s y m m e t r y ) ,以及枚举类型( e n u m e r a t e dc l a s s e s ) 。 中国科学技术大学硕士论文面向语义网的本体学习方法研究 近年来,w e b 技术为全球信息共享提供了便捷手段,以共享为特征的本体论 与w e b 技术结合是必然趋势。在此背景下,基于w e b 标准的本体描述语言( 以下 简称为“w e b 本体语言”) 正成为本体论研究和应用的热点,如:o i l 1 9 1 、d a m l + o i l 2 0 1 以及由w 3 c 主持制定的r d f 、r d fs c h e m a 、o w l 等。 o w l 是2 0 0 2 年正式成为w 3 c 推荐的w e bo n t o l o g y 的表示语言。o w l 采 用面向对象的方式来描述领域知识,即通过类和属性来描述对象,并通过公理 ( a x i o m s ) 来描述这些类和属性的特征和关系。o w l 是w 3 c 推荐的语义网络“栈” 中的一部分,这个“栈”如表2 1 所示。 o w l 包括3 个子语言:o w lf u l l ,o w ld l 和o w ll i t e 。具体特性如表2 2 所示: 表2 2o w l 的三个子语言 子语言 描述例子 0 纾zl i t e 用于提供给只需要一个分类层次 支持基数( c a r d i n a l i t y ) , 和简单的属性约束的用户。只允许基数为0 或l 。 o l d l 支持需要在推理系统上进行最大当一个类可以是多个类 程度表达的用户,这里的推理系统的一个子类时,它被约 能够保证计算完全性和可决定性。束不能是另外一个类的 它包括了o w l 语言的所有约束,实例。 但是可以被仅仅置于特定的约束 下。 o 、札f u l l 支持需要在没有计算保证的语法一个类可以被同时表达 自由的r d f 上进行最大程度表为许多个体的一个集合 达的用户。它允许在一个o n t o l o g y以及这个集合中的一个 在预定义的( r d f 、o w l ) 词汇表个体。 上增加词汇,从而任何推理软件均 不能支持o w l f u l l 的所有 f e a t u r e 。 2 3 本体学习定义 本体建造是一个非常复杂的过程,它需要多个领域的专家参与。虽然目前本 体工程( o n t o l o g ye n g i n e e r i n g ) _ 具己经较为成熟,但本体的手工构造仍是一项 繁琐而辛苦的任务,并最终导致所谓的知识获取瓶颈。 本体学习是实现语义w e b 所支持的众多w e b 智能系统的关键,手工标注现 中国科学技术大学硕士论文面向语义网的本体学习方法研究 有的w w w 是不可能的也是不切实际的,因此我们探索一种自动半自动的语义 标注手段,其核心是本体学习技术,定义如下: 本体学习( o n t o l o g yl e a r n i n g ) 定义为一种利用半自动的方法,基于不同信 息源,通过修改、丰富、自适应改变一个已有本体来辅助本体工程师更加高效、 便利地构建领域本体的方法和技术的集合。”l 从目前本体工程的实践来看,本体的构建和维护主要存在如下问题: - 在构建的初期和维护阶段需要花费大量的人力,包括构建实际的分类体系 ( t a x o n o m y ) ,以及将某一特定内容与分类体系中的节点关联起来。 。本体中包含的知识不断演化( e v o l u t i o n ) ,不断地发展和更新。为避免本体成 为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则 它在发布之日就已过时。 。本体中的分类体系具有领域相关性,特定学术或商务专业领域有其自身的词 汇表和技术术语,因此构造合适的通用本体或分类体系需要大量的修剪和编 辑时间。 。本体反映了客观世界的某一特定观点,它反映了构建者个人或机构的观点。 。本体作为一种共享概念模型,通常很难以某种特定的方式来对客观世界分类。 因此,通过本体学习的研究,来开发能够实现本体自动构建的机器学习技术 来协助知识工程师来构建本体,成为语义网和本体论研究方向的一个研究热点。 本体学习目的在于通过结合多领域,主要是本体工程和机器学习的技术用来辅助 本体构建。从w e b 文档等信息源中自动获取领域概念及其相互关系;采用信息 抽取( i e ) 技术来确定概念对之间的语义关系,在获取的概念及其相互关系的基 础上,构建本体。经过系统所获取的w e b 本体目标不仅仅局限于逻辑学的学术 范畴。语义描述要能够为计算机方便利用,并不追求语义的完整和深入,只求语 义表达的可扩展性。它的任务是把共同约定、共同享用的知识( 词语的语义规范) , 用计算机容易处理的形式表达出来。 由于完全自动化的机器知识获取仍然遥不可及,目前而言,本体学习的整个 过程仍然是需要人交互的半自动化的过程。 2 。4 本体学习方法 a l e x a n d e rm a e d c h e 和s t e f f e ns t a a b 从输入类型来区分了不同的本体学习方法 5 1 ,在这种意义上来说,本体学习包括基于文本本体学习,基于字典本体学习, 基于知识库本体学习,基于半结构化数据的本体学习,以及基于关系模式的奉体 学习。 基于文本的本体学习。方法通过在文本上应用自然语言分析技术来抽取本体, 中国科学技术大学硕士论文面向语义网的本体学习方法研究 这是本体学习研究中的主要方向。各种基于文本的本体学习方法都是利用选择的 文本来学习本体的结构和内容,但它们采用了不同的技术来利用文本并抽取本 体。最广泛使用的技术主要有以下这些: 基于模式的抽取。当文本中的一个词序列匹配某个模式时,可以识别出一 个关系。比如,当有一序列n 个名字被检测到时,一个模式得到匹配,这时 后n 1 个名字是第1 个名字的下义词( h y p o n y m s ) : 。 关联规则。关联规则最早在数据库领域定义如下:给定了一个交易集合,其 中每一个交易是一个文字( 称为项) 集,一个关联规则是一个形如xi m p l i e d y 的表达式,其中x 和y 是项集。该规则的直观意义是数据库中包含x 的 交易趋向于包含y 。如果我们已经有所需查找内容的粗率想法,关联规则可 以被用来在数据挖掘过程中发现存储在数据库中的信息。本体学习中的关联 规则方法由m a e d c h e 和s t a a b 最早提出。它被用来通过使用概念层次作为背 景知识来发现概念间的非分类关系。 。 概念聚类。概念依据它们之间的距离来分组,并由此建立层次结构。用来 计算两个概念之间语义距离的公式可能会依赖于不同的因素,在方法中必须 提供这些公式。 。 本体裁剪。本体裁剪的目标是要基于不同的异质信息源建立领域本体。它通 常有如下步骤。首先,采用一个通用的核心本体作为领域相关本体的一个顶 层级别结构。然后,一个包含了以自然语言形式描述的领域重要词汇的词典 被用来获取领域概念。这些概念被分类到通用核心本体中。第三,领域相关 文集被用来移除非领域相关的概念。概念移除遵循了一个启发式规则,就是 领域相关概念在领域相关文集中应该比在通用文本中出现更频繁。 如同前面语义网的多层模型一样,在本体学习研究中,根据研究对象的不同, 也形成了一+ 个本体学习的“蛋糕模型”【2 ,如图2 2 所示。图中最底两层t e r m s 和s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论