(计算机应用技术专业论文)本体知识库的构建与进化方法研究.pdf_第1页
(计算机应用技术专业论文)本体知识库的构建与进化方法研究.pdf_第2页
(计算机应用技术专业论文)本体知识库的构建与进化方法研究.pdf_第3页
(计算机应用技术专业论文)本体知识库的构建与进化方法研究.pdf_第4页
(计算机应用技术专业论文)本体知识库的构建与进化方法研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)本体知识库的构建与进化方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本体知识库的构建与进化方法研究 摘要 在知识经济时代,通过知识管理可以对企事业单位的知识资源进行开发和有 效的利用以提高企事业单位的创新和创造价值的能力。知识管理的根本目的就是 管理这些来源丰富、形式多样的知识,并在需要的时候以方便快捷的形式提供给 用户,以解决实际工作中的问题,提高工作效率。 o n t o l o g y 作为一种能在语义和知识层次上描述概念的建模工具,可以有效地 解决信息领域中信息共享和重用两大重点问题。基于本体的知识库可以使用户通 过这些关系和属性,获取更适合自己需求的知识,从而避免在知识获取时大量无 关信息的混入。因此本文针对基于o n t o l o g y 的知识库展开研究。 在知识管理系统中,知识库的构建是知识共享的基础,也是知识管理系统能 够平稳、有效运行的关键。但当前知识管理系统中构建的知识库不能随着知识管 理系统的运行而实时的添加新知识,影响了知识管理系统的性能,因此需要构建 全面、稳定的知识库。本文提出一个知识库的系统框架,对其关键技术的实现进 行了深入的分析和探讨,构建了一个基于本体的企业知识库,并针对知识库的进 化方法进行了深入研究。 本文的关键内容包括:企业知识库的构建方法、o n t o l o g y 的存储研究、以及 企业知识库的进化。本文研究了面向信息领域的o n t o l o g y ,构建了企业的文档 o n t o l o g y 并以此构建了企业文档知识库d o c u m e n t b a s e 。本文的创新在于该知识库 系统提供了一个可以实现知识库进化的接口,实现了知识库的后期更新和维护, 解决了传统本体知识库面临的问题,为知识管理系统的实际应用提供了便利。实 验结果表明,该方法不仅具有较高的效率,而且具有实际意义。 关键词:o n t o i o g y i 知识库;进化 c o n s t r u c tio na n dd e v eio p m e n to fo n t oio g yb a s e d k n o w ie d g eb a s e a b s t r a c t i nt h ea g eo fk n o w l e d g ee c o n o m y , k n o w l e d g em a n a g e m e n tc a ne x p l o i ta n dm a k e e f f e c t i v eu s eo ft h ek n o w l e d g er e s o u r c e so fe n t e r p r i s ea n da d m i n i s t r a t i v eu n i t st o i m p r o v et h e i ra b i l i t yo fi n n o v a t i o n t h ep r i m ep u r p o s eo fk n o w l e d g em a n a g e m e n ti s m a n a g i n gt h ek n o w l e d g ew i t ha b u n d a n ts o u r c e sa n dd i f f e r e n ts t y l e sa n dp r o v i d i n gi t t ou s e r si nac o n v e n i e n tw a y st os e t t l et h ep r o b l e m si nt h ew o r k p r o c e s sa n di m p r o v e t h ew o r ke f f i c i e n c y a sam o d e l i n gt o o lt h a tc a nd e s c r i b ec o n c e p ti nt h es e m a n t i ca n dk n o w l e d g el a y e r , o n t o l o g yc a nr e s o l v et h et w oi n t e n s i v ep r o b l e m si ni n f o r m a t i o na r e a , w h i c ha r et h e s h a r eo fi n f o r m a t i o na n dt h er e u s eo fi n f o r m a t i o n u s e r sc a ng a i nn e e d e dk n o w l e d g e b yt h e s er e l a t i o n s h i p sa n dp r o p e r t i e sa n dd i s c a r du n u s e di n f o r m a t i o nw h i l eg e t t i n g k n o w l e d g e s ow ed oar e s e a r c hi nk n o w l e d g em a n a g e m e n ts y s t e mb a s e do n t o l o g y t h ec o n s t r u c t i o no fk n o w l e d g eb a s ei st h eb a s eo fs h a r i n gk n o w l e d g ea n dt h ek e y f a c t o rt h a td e c i d e sw h e t h e rt h ek n o w l e d g em a n a g e m e n ts y s t e mc a nr u n s t e a d i l ya n d e f f e c t i v e l y b u tt h e r ei sap r o b l e mt h a tt h ek n o w l e d g eb a s eo fc u r r e n tk n o w l e d g e m a n a g e m e n ts y s t e m sc a n t a d dn e wk n o w l e d g ed u l ya c c o r d i n gt h er u n n i n go f k n o w l e d g em a n a g e m e n ts y s t e m ,f o rw h i c hc o n s t r u c t i n gs t e a d y - r u n n i n ga n d e f f e c t i v ek n o w l e d g eb a s ei s r e q u i r e d i nt h i sp a p e r , t h ee v o l u t i o n a lm e t h o di s r e s e a r c h e da f t e rc o n s t r u c t i n gae n t e r p r i s ek n o w l e d g eb a s ea n dt h es y s t e mf r a m eo f k n o w l e d g eb a s ei sg i v e no u ta n dt h ep i v o t a lt e c h n o l o g yi sa n a l y z e dd e e p l yt o o t h ep i v o t a lc o n t e n to ft h i sa r t i c l ec o n s i s t so ft h es t o r a g eo fo n t o l o g y , t h e c o n s t r u c t i o no f e n t e r p r i s ek n o w l e d g e b a s ea n dt h ee v o l u t i o no fe n t e r p r i s ek n o w l e d g e b a s e i nt h i sp a p e ra ne n t e r p r i s el o g i s t i c sd o c u m e n to n t o l o g yi sc o n s t r u c t e da n ds o m e r e s e a r c ho nh o wt os t o r et h eo n t o l o g yf a c i n gt oi n f o r m a t i o nd o m a i nh a sb e e n d o n e b e s i d e s ,a ni n t e r f a c et oe v o l u t e st h ek n o w l e d g eb a s ei sp r o v i d e d i tr e a l i z e st h e u p p e ru p d a t e sa n dm a i n t a i n sk n o w l e d g eb a s ea n dm a k e st h ea p p l i c a t i o no f k n o w l e d g em a n a g e m e n ts y s t e mc o n v i n i e n t t h er e s u l to fe x p e r i m e n tp r o v e st h a tt h e i i i n t r o d u c e dm e t h o di nt h i sp a p e ri sn o to n l yh i g h p e r f o r m a n c eb u ta l s op r a c t i c a l k e yw o r d s :o n t o l o g y ;k n o w l e d g eb a s e ;e v o l u t i o n 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 ( 注! 垫遗查墓丝盏蔓犍别直明鲍:奎拦亘窒或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:排签字日期:丸翮年石月2 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 签字日期:砷硇年6 月2 日 导师签字: 乜# 签字日期:俨r 年莎月1 绍 本体知识库的构建与进化方法研究 第1 章绪论 本章为论文的绪论部分,将论述下列几个问题:论文选题的背景:研究课题 的目的和意义:国内外研究现状:论文的组织结构。 1 1 课题背景 企事业单位中存在着大量的信息,如文档,表格,页面等。如何管理这些 信息并使之为单位正常的工作服务成为现实中的一个问题。为了解决这个问题, 知识管理应运而生,它的目标是管理相关领域的信息,并分析总结成为知识, 以便满足工作人员的需要。知识管理的主要任务是要对企业的知识资源进行全 面和充分的开发以及有效的利用,因此需要构建相关领域的知识管理系统。通 过对知识管理系统的开发和利用,可以充分获取、生产、传播和保存企业知识, 利用企业知识和集体智慧来达到知识创新,并达到获取和保持企业竞争优势的 目的。 然而,传统的知识管理系统缺乏统一的知识模型,容易造成用户的误解, 存储形式不同也不利于知识的共享和交流,影响了查全率和查准率。为了解决 以上问题,将o n t o l o g y 引入知识管理系统中,它的目标是捕获相关领域的知识, 提供对该领域知识的共同理解,确定该领域内共同认可的术语,并给出这些术 语间相互关系的明确定义,通过概念之间的关系来描述概念的语义n 1 。基于 o n t o l o g y 的知识管理系统是提高知识的共享性、互操作性、可维护性和可重用 性的一个有效的途径。 知识库的构建是知识共享的基础,也是知识管理系统能否平稳、有效运行 的关键。知识库是对领域信息的模型化表示,利用本体构建知识库已经成为当 前的研究热点【2 司。但当前知识管理系统中的知识库存在着一个典型问题:知识 库的构建需要领域专家和知识工人的参与,并且随着知识管理系统的运行,知 识库需要通过进化以达到不断的完善的目的。但是后期知识库的维护不能频繁 的要求领域专家的参与,而且现在的知识库几乎没有一个支持自动或半自动更 本体知识库的构建与进化方法研究 新的接口,因此不能及时的添加新知识,影响了知识管理系统的后期正常运行。 1 2 课题研究的目的和意义 为了管理和及时更新知识,本文研究了知识库的构建与进化方法。本文构建 了知识库系统,创新之处在于提供了一个接口以接收新知识。新知识经过语义处 理后,添加进知识库,实现了知识库的进化,实验证明该方法不仅达到了预期的 目的,而且对于o n t o l o g y 的迸一步应用起到了积极的作用。 1 3 国内外研究现状 当前企业十分重视知识管理的重要作用,对知识管理的研究目渐深入 确】。 知识管理系统也如雨后春笋一般涌现,分别在不同的知识领域发挥作用。但是 很多企业并不十分了解知识管理的作用,知识管理系统也没有达到预期的目的, 为了解决这个问题,l a r r yt o d dw ii s o n 和c h a r le sa s n y d e r 定义了一些术 语,并明确了两者之间的联系n 1 。 传统的知识管理系统采用关键字匹配的方式进行知识的搜索,这就造成了 有限的信息共享,并且不能多角度的查询知识。本体是共享概念模型的形式化 规范说明,本体( o n t o l o g y ) 的引入可以很好的解决这些问题【蛆1 1 ,为了克服 这些缺点f e n s e l 等开发了o n t o k n o w l e d g e 工程,构建了基于本体的知识管理 系统,该系统可以处理种类不同且纷繁复杂的文档 删。 近年来,本体已经在知识工程、人工智能、语义网等相关领域得到了广泛关 注和深人研究,被广泛应用以解决通信、异构环境互操作和系统工程中的知识重 用和共享、知识获取和系统集成等问题。a l e x a n d e r 等人则更注重企业的实际应 用,将系统在实际应用中做了进一步的改进【1 3 】。但是在某些领域。由于领域知识 的主观性强、不确定性、模糊性和争议性等特性使得构建专业领域知识库是非常 复杂和困难的。在这种背景下,闰洪森利用本体的思想和方法来对领域知识库的 构建进行研究,构建了一个茶叶领域知识本体原型系统,辅助领域专家实现茶叶 分类的标准化建设【1 4 】。 目前出现了很多知识管理资源中心,提供知识管理的方式方法。对基于本体 的知识管理的研究也日渐深入吣。1 9 1 ,但国内的研究还处于基础阶段,主要有中国 2 本体知识库的构建与进化方法研究 科学院计算技术研究所智能科学实验室按照本体知识管理框架,研制的知识管理 系统k m s p h e r e 。知识库是开发高效知识管理系统的关键,因此基于本体的知识管 理目前主要需要解决两个问题:一是知识库的构建,即如何构建全面、稳定的知 识库;而是知识库的进化,即如何使知识库随着系统的运行不断更新。 1 4 论文的组织结构 第1 章:绪论。对当前基于o n t o l o g y 的知识管理现状进行了总结,分析了课 题产生的背景、课题研究的目的和意义以及国内外的研究现状。 第2 章:基于o n t o l o g y 的知识库系统建模原理。研究了o n t o l o g y 和知识库 的概念,以及本体的存储,重点分析了知识库的构建方法及构建工具,最后分析 了o w l 的语义表达。 第3 章:基于本体的企业文档知识库的设计与实现。描述了文档知识库 d o c u m c n t b a s c 的系统设计与构建过程, 第4 章:基于本体的企业文档知识库的进化。实现了d o c u m c n t b a s e 的半自动 进化,详细介绍了实现的过程。 第5 章:总结与展望。总结了全文的创新和贡献,说明了下一步的研究方向。 3 本体知识库的构建与进化方法研究 第2 章基于o n t o io g y 的知识库系统建模原理 要构建知识库系统,对知识及其特征进行分析是必要的。一个知识库的建 ,: 立,不仅仅是知识和经验的集合,而且还涉及到知识的表示、知识的运用、知 识的处理等多方面的问题,而本体知识库的构建还要明确本体的相关概念。本 章在分析知识特征的基础上描述了知识库和本体的概念及其关系。 2 1 知识库概述 知识库系统是上个世纪8 0 年代中期以来a i 界和数据库界研究的热点,是 a 工技术与数据技术相互结合的产物。本节主要从知识、知识库的定义、知识库 的特点和结构等角度对知识库进行描述。 2 1 1 知识的定义 知识,作为一个被广泛使用的词,根据韦伯斯特( w e b s t e r ) 词典1 9 9 7 年的 定义,知识是通过实践、研究、联系或调查获得的关于事物的事实和状态的认 识,是对科学、艺术或技术的理解,是人类获得的关于真理和原理的认识的总 和。总之,知识是人类积累的关于自然和社会的认识和经验的总和。 从计算机科学的角度看,知识是分析处理信息的结果,在这个过程中,数 据信息经过分析、比较、整合,结合成有意义的资源。这个过程如图2 - 1 所示。 2 一l 知识形成过程 2 1 2 知识库的定义 知识库( k n o w l e d g eb a s e ) 是知识工程中结构化,易操作,易利用,全面有组 织的知识集群,是针对某一( 或某些) 领域问题求解的需要,采用某种( 或若干) 知 识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。 这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知 4 本体知识库的构建与进化方法研究 识,如某领域内有关的定义、定理和运算法则以及常识性知识等。 知识库使基于知识的系统( 或专家系统) 具有智能性。并不是所有具有智能的 程序都拥有知识库,只有基于知识的系统才拥有知识库。现在许多应用程序都利 用知识,其中有的还达到了很高的水平,但是,这些应用程序可能并不是基于知 识的系统,它们也不拥有知识库。一般的应用程序与基于知识的系统之间的区别 在于:一般的应用程序是把问题求解的知识隐含地编码在程序中,而基于知识的 系统则将应用领域的问题求解知识显式地表达,并单独地组成一个相对独立的程 序实体。因此知识库的功能就在于组织管理知识,并能够以方便快捷的形式将知 识传递给人,使之为人类的日常行为活动起到指导作用。 2 1 3 知识库的特点 ( 1 ) 知识库具有领域性。知识库中的知识根据它们的应用领域特征、背景特征 ( 获取时的背景信息) 、使用特征、属性特征等而被构成便于利用的、有结构的组 织形式。知识一般是模块化的。面向某领域的知识库是关于这一领域的陈述性知 识、过程性知识和策略性知识的集合。在该集合中各类知识通过一定的表示方法 表示,并建立相互之间的联系。它与数据库的区别是知识库中不但包含了大量的 简单事实,还包含了规则、过程型知识和策略性知识。但是知识库系统又不同于 专家系统,它是研究知识的表示、组织、推理和获取等的一般方法和原理,可以 用于各种目的。 ( 2 ) 知识库的功能包括:知识的表示功能:对知识的系统化的组织管理机制,包 括事实管理、规则管理、概念管理等。 ( 3 ) 知识库是需要经过不断更新进化的。只有通过知识库进化才能提供最新 的,有效的知识。对知识库的操作,包括知识库的建立与撤消、知识的插入、删 除和修改知识库的重组等:用户的查询、检索功能:知识的获取与学习功能:安全 和控制功能等。 2 1 3 知识库的系统结构 知识库系统的原型如图2 - 2 所示。 5 本体知识库的构建与进化方法研究 2 - 2 知识库系统原型 其中,问答接口是用户与知识库交互的界面,通过该界面用户可以方便地提 出问题,查询和搜索知识库中的知识。这一模块的实现目标是简单易用,且能够 指导用户找到需要的知识。问题求解模块提供对知识库进行操作的推理技术和工 具。问题求解是建立知识库的重要目标。该模块主要是对用户的问题进行推理, 在已有的概念和关系中找到答案。知识获取模块是将确定领域的知识概念化、形 式化和编码。知识处理模块的作用是将获取的新知识以机器可以接受的形式添加 至知识库,将领域知识融入可执行的计算机程序。 其中知识获取模块是知识库系统的“瓶颈 ,尽管人们越来越重视对它的研 究,但是研究成果仍是初步的。原因是在某些具体领域,由于领域知识的主观性 强、概念不明确等原因使得构建专业领域知识库是非常复杂和困难的。在这种背 景下,我们在知识库中引入了o n t o l o g y 。 2 2o n t oio g y 概述 要实现知识的共享和知识库系统的重用,需要一种有效的机制来实现各层 次间的协调,使相互独立的层次紧密地联系在一起,共同组成一个完整的系统, 这个机制的核心就是“o n t o l o g y ”。 2 2 1o n t o l o g y 的定义 o n t o l o g y 的概念最初起源于哲学领域,并在很长一段时期都是哲学研究的一 个分支。后来被人工智能界赋予了新的定义,从而被引入信息科学中。然而信息 6 本体知识库的构建与进化方法研究 科学界对o n t o l o g y 的理解也是逐步发展才走向成熟的。从哲学的范畴来说, o n t o l o g y 是客观存在的一个系统的解释或说明,即“对世界上客观存在物的系统 地描述 2 0 l 。1 9 9 1 年n e c h e s 等人最早给出o n t o l o g y :在信息科学中的定义:“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则的定义【2 1 1 。1 9 9 3 年,g r u b e r 给出t o n t o l o g y 的一个最为流行的 定义【1 9 1 ,即“o n t o l o g y 是概念模型的明确的规范说明 2 2 1 。1 9 9 7 年b o r s t 进一步完 善为“共享概念模型的形式化规范说明 【2 3 1 。s t u d e r 。- 等人对上述两个定义进行了 深入的研究,认为0 n t o l o g y 是共享概念模型的明确的形式化规范说明【矧。s t u d e r 等人的o n t o l o g y l 定义包含四层含义:概念模型、明确、形式化和共享。“概念模 型 是指通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含 义独立于具体的环境状态;“明确 是指所使用的概念及使用这些概念的约束都 有明确的定义;“形式化”是指o n t o l o g y 是计算机可读的,也就是计算机可处理 的;“共享 是指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,它所针对的是团体而非个体。o n t o l o g y 的目标是捕获相关领域的知 识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层 次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义。 尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于o n t o l o g y 的认识是统一的,都把它当作是领域( 领域的范围可以是特定应用中,也可以是 更广的范围) 内部不同主体( 人、机器、软件系统等) 之间进行交流( 对话、互操作、 共享等) 的一种语义基础,即由o n t o l o g y 提供一种共识。币i _ g o n t o l o g y :提供的这种 共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语 义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领域讨论 o n t o l o g y ,就要讨论如何表达共识,也就是概念的形式化问题。 2 2 2o n t o l o g y 的建模元语 o n t o l o g y 包含5 个基本建模元语,分别为:类( c l a s s e s ) ,关系( r e l a t i o n s ) ,函数 ( f u n c t i o n s ) ,公理( a x i o m s ) 和实例( i n s t a n c e s ) ,通常类( c l a s s e s ) 也被称为概念 ( c o n c e p t s ) 。 ( 1 ) 类含义很广泛,可以指任何事物,如工作描述、功能、行为、策略和推 理过程等。从语义上讲,它表示的是对象的集合,其定义一般采用框架( f r a m e ) 7 本体知识库的构建与进化方法研究 结构,包括概念的名称,与其他概念之间的关系的集合,以及用自然语言对概念 的描述。 ( 2 ) 关系代表了在领域中概念之间的交互作用。形式上定义为n 维笛卡儿乘积 的子集:r :a c 2x xc n 。如子类关系( s u b c l a s s - o f ) 。在语义上关系对应于 对象元组的集合。 ( 3 ) 函数是一类特殊的关系。在这种关系中前阼j 个元素可以惟一决定第行个 元素。形式化的定义如下:rc i c 2 x x c n q - c n 。例如m a t h e r - o f 关系就是 一个函数,其 m a t h e r - o f ( a , 力表示y 匙的母亲,显黜可以惟一确定他的母静, ( 4 ) 公理代表永真断言,用于说明函数之间或关联之间存在的关联或约束, 比如概念甲属于概念乙的范围。 ( 5 ) 实例实例是指属于某个概念的个体,代表元素。 从语义上分析,实例表示的就是对象,而概念表示的则是对象的集合,关系对 应于对象元组的集合。概念的定义一般采用框架( f r a m e ) 结构,包括概念的名称, 与其他概念之间关系的集合以及用自然语言对该概念的描述。在o n t o l o g y 中, 概念之间的基本关系有4 种:p a r t - o f ,i n s t a n c e o f ,a t t r i b u t e o f 和k i n d o f 。p a r t - o f 表达概念之间部分与整体的关系:i n s t a n c e o f 表达概念的实例和概念之间的关系, 类似于面向对象中的对象和类之间的关系;a t t r i b u t e - o f 表达某个概念是另外一个 概念的属性;k i n d o f 表达概念之间的继承关系,类似于面向对象中的父类和子 类之间的关系。在实际的应用中,不一定要严格地按照上述5 个元语来构建 o n t o l o g y ;同时概念之间的关系也不仅限于上面列出的4 种基本关系,可以根据 特定领域的具体情况定义相应的关系,以满足应用的需要。 2 2 3o n t o l o g y 与语义网络 当前的w e b 是供人阅读和理解的,它作为一个越来越大的文件媒体,并不利 于实现数据和信息的自动化处理。o n t o l o g y 在w 曲上的应用促使了语义w e b 2 5 l 的诞生,其目的是解决w e b 上信息共享时的语义问题。b e m e r s l e e 于2 0 0 0 年 1 2 月1 8 日在x m l 2 0 0 0 的会议上正式提出了语义w e b 拍1 ,它的目标是使得w e b 上的信息具有计算机可以理解的语义,满足智能软件代理( a g e n t ) 对w w w 上异 构和分布信息的有效访问和搜索。在s e m a n t i cw e b 中,信息的语义经过完好的 定义,能够更好地促进计算机和人之间的相互合作。此外b c m e r s l e c 还提出了 8 本体知识库的构建与进化方法研究 语义w e b 的体系结构,如图2 - 3 所示: 图2 3 语义w e b 的体系结构 语义w 曲的体系从底层到高层分别是:u n i c o d e 与u r i ,x m l ,r d f ( s ) , o n t o l o g y ,l o g i c ,p r o o f 和t r u s t 。第一层是u n i c o d e 和u r i ,该层为编码层,是 整个语义w e b 的基础,其中u n i c o d e 处理资源的编码,u r i 负责标识资源;第 二层x m l + n s + x m l s c h e m a 为语法层,用于表示数据的内容和结构;第三层 r d f + r d f s c h e m a 为元数据层,用于描述w e b 上的资源及其类型;第四层o n t o l o g y v o c a b u l a r y 为术语层,它用于描述各种资源之间的联系;第五层到第七层是在下 面四层的基础上进行的逻辑推理操作,其中核心层为x m l + r d f ( s ) + o n t o l o g y , 这3 层用于表示w e b 信息的语义。 x m l 作为一种资源描述语言,允许用户定义自己的文件类型,允许用户定 义任意复杂的信息结构,但是x m l 只具有语法性,它不能说明所定义的结构的 语义。x m l 之所以在s e m a n t i cw e b 中处于重要的地位与x m l 是一种载体语言、 x m l 命名机制等有很大的关系。 由于r d f 能够表示陈述句,并且主语、谓语和宾语的三个组成元素都是通 过u r i 所标识的,所以它具有语义表述的特性。但s e m a n t i cw e b 的要求还远不 止于此,s e m a n t i cw e b 还需要加入逻辑功能:s e m a n t i cw e b 需要能够利用规则 进行推理、选择行动路线和回答相关问题。o n t o l o g y 是s e m a n t i cw 曲实现逻辑 推理的基础。 s e m a n t i cw e b 研究者也认为,o n t o l o g y 是一个形式化定义语词关系的规范 9 本体知识库的构建与进化方法研究 化文件。对于s e m a n t i cw 曲而言,最典型的o n t o l o g y 具有一个分类体系和一 系列的推理原则。其中,分类体系定义对象的类别和类目之间的关系。实体之 间的类子类关系对于w e b 应用具有重要的价值。在o n t o l o g y 中,还可以为某 个类添加属性来定义更多的类目关系。这些类目关系提供了的推理的基础。 借助o n t o l o g y 中的推理规则,s e m a n t i cw e b 应用系统可以提供更强的推理 能力,例如可以在一个地理o n t o l o g y 中加入这样一条规则,“如果一个城市代 码与一个省代码相关,并且一个地址利用了城市代码,那么这个地址与就与相 应的省代码相关”。通过这一规则,程序可以推理出清华大学,在海淀区,应 当在北京市。 为了s e m a n t i cw e b 研究者为了实现对o n t o l o g y 的描述,在r d f 的基础之 上,发展了r d f s 。r d f s 借助几个预先义的语词能够对概念之间的关系进行有 限的描述。为了更方便全面地实现o n t o l o g y 的描述,w 3 c 在r d f s 的基础之 上,借助了d a m l 和o i l 的相关研究,正在积极推进o w l ( w e bo n t o l o g y l a n g u a g e ) 的应用。o w l 提供更多的原语以支持更加丰富的语义表达,并支持 推理自2 0 0 4 年2 月1 0 日,o w l 已经成为了一个w 3 c 推荐的标准。 总之,语义w e b 可以看做是在o n t o l o g y 理论基础之上对现有w e b 进行的扩 展,目标是使w e b 上的信息具有计算机可以理解的语义,在o n t o l o g y 的支持下 实现信息系统间语义上的互操作性以及对w e b 资源所进行的智能访问和存储。 2 2 4o n t o l o g y 的分类 o n t o l o g y 在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、 软件复用、信息检索和w 曲信息的存储、语义w c b 等。目前被广泛使用的o n t o l o g y 有如下5 个:w o r d n e t 2 , r 、f r a m e n e t m 、g u m i s 、s e n s u s l 3 0 、m i h o k m o s 【3 1 1 。 w o r d n e t 是基于心理语言规则的英文词典,它以s y n s e t s 为单位组织信息。所谓 s y n s e t s 是在特定的上下文环境中可互换的同义词的集合。f r a m e n e t 也是英文词 典,采用称为语义框架( f r a m es e m a n t i c s ) 的描述框架,提供很强的语义分析能力, 目前发展为f r a m e n e t l l 。g u m 、s e n s u s 和m i k r o k m o s 都是面向自然语言处理 的。g u m 支持多语种处理,包含基本的概念及独立于各种具体语言的概念组织 形式,它的建立是以系统功能语言学为理论依据的。s e n s u s 为机器翻译提供概 念结构,包括7 万多个概念。m i k r o k m o s 也支持多语种处理,采用一种语言中立 1 0 本体知识库的构建与进化方法研究 的中间语言t m r 来表示知识。 为了对o n t o l o g y 进行有效的分类,g u a 血o 【3 2 】以详细程度和领域依赖度两个维 度作为对o n t o l o g y 划分的基础。详细程度是相对的、较模糊的一个概念,指描述 或刻画建模对象的程度。详细程度高的称作参考( r e f e r e n c e ) o n t o l o g i e s ,详细程度 低的称为共享( s h a r e ) o n t o l o g i e s 。依照领域依赖程度,可以细分为顶级( t o p l e v e l ) 、 j 或( d o m a i n ) 、任务( t a s k ) 和应用( 印p l i c a t i o n ) o n t o l o g i e s 3 3 】4 类。其中:顶级 o n t o l o g i e s 描述的是最普通的概念及概念之间的关系;领域o n t o l o g i e s 描述的是特 定领域( 医药、汽车等) 中的概念及概念之间的关系;任务o n t o l o g i e s 描述的是特定 任务或行为中的概念及概念之间的关系;应用o n t o l o g i e s 描述的是依赖于特定领 域和任务的概念及概念之间的关系。 2 3 知识库与o n t o i o g y 本体与知识库中都包含概念与概念之间的关系。但这是两个不同的概念, 它们的区别和联系如下: ( 1 ) o n t o l o g y 为知识库的建立提供一个基本的结构,它提供了一套概念和术 语来描述某一领域,并且获取该领域的本质的概念结构。知识库就是运用这些 术语去表达现实或者虚拟世界中的正确知识。知识表示语言和知识库都是基于 o n t o l o g y 分析而创建的。o n t o l o g y 分析的是明确知识的结构。对于给定领域, 它的o n t o l o g y 构成了该领域的任何知识表示系统的核心。如果没有支撑知识的 o n t o l o g y 或者概念体系,那么就不会有表示知识的词汇存在。因此,设计一个 有效的知识表示系统和词汇表的第一步就是对该领域进行有效的o n t o l o g y 分 析,o n t o l o g y 分析没做好,会导致知识库的不一致。 ( 2 ) 具体的说,本体保存是的概念的定义以及概念与概念之间的关系,它不 涉及具体的领域,它相当于一个概念建模。知识库是根据本体所产生的一个具 体的东西。例如针对所有的学校我们可以构建一个本体,它包括教师,学生 等概念,还有教,学等关系,而对一个具体的学校,它的教师有哪些,学生有 哪些,这些东西都是具体的,对其进行的一个详细描述就是一个知识库。图2 - 4 描述了两者之间的关系。 1 1 本体知识库的构建与进化方法研究 2 4 知识库构建原理 2 - 4 本体与知识库 在知识库系统建模框架中,人们提出了各种知识库建模方法。比较有代表 性的有:g e n e r i e lt a s ka p p r o a e h ( c h a n d r a s e k a r a n ,1 9 8 7 ) ,t h er o l e - - l i m i t i n g m e t h o d s a p p r o a c h ( m c d e r m o t t ,1 9 8 8 ) ,t h e c o m p o n e n t s o f e x p e r t i s e a p p r o a c h ( s t e e l s ,1 9 9 0 ) ,t h ek a d sm e t h o d o l o g y ( w i e l i n e t a l ,1 9 9 2 ) 等等。但是 要从根本上实现知识库的共享和重用需要一种有效的机制来实现各层次间的协 调,使相互独立的层次紧密地联系在一起,共同组成一个完整的系统,这个机 制的核心就是“o n t o l o g y ”。同样,根据知识库与o n t o l o g y 的关系我们也可以知 道,构建知识库首先要构建o n t o l o g y 。 o n t o l o g y 构建的方法论己经成为当前o n t o l o g y 研究中的热点问题。事实上, 对于构建一个真正的o n t o l o g y 来说,并没有唯一的途径或方法。对于任何专业 学科领域,都不存在某一种唯一适合的途径或模式,可能存在好几种方法都是可 行的。最佳的方法依赖于o n t o l o g y 的构建者所采用的应用软件以及可以预见的 扩展功能。同时,o n t o l o g y 的开发和完善是一个反复叠加的过程,不能一蹴而就。 无论从客观世界具体对象的角度出发,还是从抽象的角度出发,o n t o l o g y 中概念 的设计都应贴近专业领域、客观对象和对象间的关系法则。本文在对已有的构建 方法进行总结的基础上,结合软件工程的思想和具体的应用领域,提出了一种基 于领域的o n t o l o g y 构建方法,并通过实验证明了改方法的正确性。 2 4 1o n t o l o g y 构建原则 g r u b e r 在文献【蚓中提出了构造o n t o l o g y 的6 条规则,本体的设计要依据这 些原则: 1 2 本体知识库的构建与进化方法研究 ( 1 ) 明确性和客观性o n t o l o g y 应能有效地说明所定义术语的内涵,定义应该 是客观的,与背景独立的;定义应该是形式化的,即当定义可以用逻辑公理表达 时,就应该用逻辑公理表达:除此之外,所有的定义应该用自然语言加以说明。 :( 2 ) 完全性即所给出的定义是完整的,完整的定义要比部分定义要好,完全 能表达所描述术语的含义。 ( 3 ) 一致性由本体推断出来的概念定义应该与本体中的概念定义一致。它所 定义的公理及用自然语言说明的文档都应该是一致的。如果从一组公理中推断出 来的一个句子与一个非形式化的定义或实例矛盾,那么这个本体就是不一致的。 ( 4 ) 最大单向可扩展性向o n t o l o g y 中添加通用或专用的术语时,不需要修改 其已有的内容;本体应该为可预料的任务提供概念基础。一个本体提供一个共享 的词汇,它应该在预期的任务范围内提供概念基础。人们应该能够在不改变原有 定义的前提下,以这组存在的词汇为基础定义新的术语。 ( 5 ) 最小编码偏差o n t o l o g y 不应该依赖于某一特殊化的符号层的表示方法, 表示形式的选择不应该只考虑表示上或实现上的方便。 ( 6 ) 最小o n t o l o g y 承诺本体的承诺应该最小,只要能满足特定的知识共享需 求即可。本体应该对所模拟的事物产生尽可能少的推断,让共享者自由地按照他 们的需要去专门化和实例化这个本体。由于本体承诺是以词汇的使用为基础,所 以可以通过指定约束最弱的公理和只定义那些基本术语( 如只定义通讯所需的术 语) 来实现。 此后,其他人又陆续补充了一些原则: a o n t o l o g yx e 绷i jo n t o l o g y 中类之间是不相交的【3 5 1 。 b 使用多种概念层次和多重继承机制来增加表达能力【蚓。 c 最小化同层相邻概念之间的语义距离p 6 1 。 可以说这些原则仅仅是指导性的,比较概括和抽象,但从大的方向上我们要 按照这些原则构建本体。由于没有统一的原则,而且各人实际构建的o n t o l o g y 的 类型和应用情况也不同,这时需要根据客观实际选择合适的原则,并在具体工作 中进一步细化。 2 4 2 知识库的构建过程 知识库的构建过程主要包括以下几个阶段: 本体知识库的构建与进化方法研究 ( 1 ) 确定本体的专业领域和范畴。确定本体构建的目标和应用范围,即需要建 立什么样的领域本体、该本体的功能和作用以及该本体的用户范围等等。 ( 2 ) 领域信息的收集和分析。首先通过收集领域信息充分了解领域知识。信息 来源包括专家、书籍、网络、甚至是其他的o n t o l o g y 。获得这些信息的方法可以 是:头脑风暴法、访谈、文本的形式化或非形式化的分析和一些知识获取工具。 o n t o l o g y 的构建离不开领域专家的参与,领域专家和计算机研究人员需要通 力协作。而如何减少

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论