(计算机应用技术专业论文)基于知识链的本体构建方法的研究.pdf_第1页
(计算机应用技术专业论文)基于知识链的本体构建方法的研究.pdf_第2页
(计算机应用技术专业论文)基于知识链的本体构建方法的研究.pdf_第3页
(计算机应用技术专业论文)基于知识链的本体构建方法的研究.pdf_第4页
(计算机应用技术专业论文)基于知识链的本体构建方法的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)基于知识链的本体构建方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 本体的概念起源于哲学领域,指的是对客观存在的解释和说明,近些年 来,在人工智能、计算机科学和知识工程等诸多领域得到了迅速发展。本体 可以实现某种程度的知识共享和重用,使得计算机对信息和对语言的理解上 升到语义层次,并在一定程度上解决语义异构问题,在信息互操作、知识理 解和信息集成等领域具有很大的应用前景。但是,由于本体引入人工智能、 信息系统等领域的时间不长,本体的建模方法也初步确立,本体构建方法的 研究中还存在着很多问题。本体的构建多是面向特定领域,如果没有好的方 法路线指导,就难以在不同领域本体的构建中保持一致,也不利于本体的规 模化和规范性建设。因此,领域本体构建方法的研究对于本体的应用具有至 关重要的作用。 由于本体构建方法研究已经成为目前本体研究的一个热点,本文深入研 究了目前国内外有关本体构建的方法论,深入理解和分析了领域本体的基本 概念和构建原则,并且借鉴已有的本体获取方法,提出了一种基于知识链的 本体方法。该方法利用知识链模型实现对本体概念、关系以及约束的获取; 借鉴知识工程的方法,改进已有的本体方法论;根据知识链模型的特点,提 出一种聚类方法,自动生成领域概念层次关系;对本体评价理论和工具进行 了深入的探讨和研究,最终利用本体编辑工具p r o t 6 9 6 实现了一个航空订票本 体。 关键词:领域本体;本体构建;概念聚类;本体评价;p r o t 6 9 6 哈尔滨工程大学硕士学位论文 a b s t r a c t t h et e r m ”o n t o l o g y ”,d e r i v e df r o mp h i l o s o p h y ,m e a n st h a tt h ee x p l a i n i n g a n di n t e r p r e t i n gf o ro b j e c t i v eb e i n g r e c e n t l yy e a r s ,i tr a p i d l yd e v e l o p e di na i , c o m p u t e rs c i e n c ea n dk n o w l e d g ee n g i n e e r i n g o n t o l o g yc o u l dr e a l i z et h es h a r i n g a nr e u s i n gf o rk n o w l e d g ei ns o m ed e g r e e ,r e s u l tt h a tc o m p u t e r sc o u l du n d e r s t a n d t h ei n f o r m a t i o na n dl a n g u a g ei nt h es e m a n t i cl e v e l ,i ns o m ed e g r e er e s o l v et h e p r o b l e mo fs e m a n t i ci s o m e r y ,i th a sag r e a ta p p l y i n gf o r e g r o u n di ni n f o r m a t i o n i n t e r o p e r a b i l i t y ,k n o w l e d g eu n d e r s t a n d i n ga n di n f o r m a t i o ni n t e g r a t i o nf i e l d b u t , b e c a u s et h et i m eo fi n t r o d u c i n go n t o l o g yi n t oa i ,i n f o r m a t i o ns y s t e me t c i sn o t t o ol o n g ,t h em e t h o do fb u i l d i n go n t o l o g yi se s t a b l i s h e dp r i m a r i l y ,i ft h e r ei sn o g o o dm e t h o d a sg u i d e l i n e ,i ti sh a r dt ol 印a c c o r di nb u i l d i n gd i f f e r e n to n t o l o g y , i sb a dt oo n t o l o g yc o n s t r u c t i o ni ns c a l ea n dc r i t e r i o n t h e r e f o r e ,i ti se x t r e m e l y i m p o r t a n tf o ro n t o l o g ya p p l y i n gt or e s e a r c hb u i l d i n gd o m a i no n t o l o g y m e t h o d b e c a u s et h er e s e a r c ho fo n t o l o g yc o n s t r u c t i o nm e t h o d o l o g yh a sb e e na h o t s p o t ,t h ep a p e rd e e p l ys t u d i e so n t o l o g yc o n s t r u c t i o nm e t h o d o l o g yi nt h ew o r l d , a n d d e e p l y u n d e r s t a n d sa n da n a l y s e st h eb a s i cc o n c e p t sa n dc o n s t r u c t i o n p r i n c i p l e s ,a n d r e f e r e n c e se x i s t i n g o n t o l o g yr e t r i e v i n gm e t h o d ,p r o p o s e a k n o w l e d g e c h a i n s - b a s e d o n t o l o g yb u i l d i n g m e t h o d t h i sm e t h o d o l o g yu s e s k n o w l e d g e c h a i n st o a c h i e v et h er e t r i e v i n go fo n t o l o g yc o n c e p t ,r e l a t i o na n d c o n s t r a i n ;r e f e r e n c i n gk n o w l e d g ee n g i n e e r i n gm e t h o d o l o g y t o i m p r o v e t h e e x i s t i n go n t o l o g yc o n s t r u c t i o nm e t h o d o l o g y ;o nt h eb a s eo f t h ec h a r a c t e r i s t i co f k n o w l e d g e c h a i n ss c h e m a , p r o p o s i n gan e wa r i t h m e t i co fc o n c e p t sc l u s t e r i n g t o g e n e r a t ec o n c e p t sc l a s s i f y r a n k s a u t o m a t i c a l l y t oa c h i e v et h eo n t o l o g y c o n s t r u c t i o n b e s i d e s ,w ei n t r o d u c ee x i s t i n go n t o l o g ye v a l u a t i o nm e t h o da n d e v a l u a t i o nt o o l s f i n a l l y ,t h ep a p e rp r e s e n t si n d e t a i lh o wt ob u i l d i n ga i r l i n e b o o k i n go n t o l o g yi nt h ea i do fm e t h o d o l o g yo fk n o w l e d g e c h a i n s b a s e do n t o l o g y c o n s t r u c t i o nm e t h o da n dp r o t r 9 6a sao n t o l o g ye d i t i n gt 0 0 1 哈尔滨工程大学硕士学位论文 k e y w o r d s :d o m a mo n t o l o g y ;o n t o l o g yc o n s t r u c t i o n ;c o n c e p tc l u s t e r i n g ;o n t o l o g y e v a l u a t i o n ;p r o t 6 9 6 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签- 7 - ) :z t ) 、刁专与 v 日期:拙 年弓月3 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :夸) 讳i 鸣 e t 期:也确年3 月弓日 导师c 签字,:之彳吠 沙哆年弓月弓日 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 课题研究背景及意义 1 1 1 课题的来源 随着信息技术特别是网络技术的迅猛发展,企业的全球化与信息化已成 为必然趋势,现代经济中的各个单元( 企业、组织和个人) 之间的界限逐渐被 打破,各企业之间的业务协作越来越复杂和频繁。为了支持这种协作,企业 内和企业间的数字化系统必须能够有效的集成在一起,实现基于网络的业务 协作。因此必须对异构数字化系统的集成方法与实现( 国家8 6 3 项目, 2 0 0 7 h a 0 4 2 1 4 7 ) 进行深入的研究,从而消除异构数字化系统的互操作中存在 的诸多问题。而语义冲突就是其中之一。本课题采用本体论描述应用系统模 型的数据或信息的语义,以本体作为不同层面领域模型互操作的基础。采用 语义分析方法,将企业模型中有关语义进行分析和标注转换,消除语义差异, 实现互操作。建立特定行业的参考本体库,作为模型之间语义互操作需求发 现的基础,为实现系统互操作提供语义级的支持。 1 1 2 课题的意义 本体论原本是哲学概念,起源于1 7 世纪,派生于希腊语的“o n t o ”( “存 在”) 和“l o g i a ( “箴言录”) ,i l j 是对世界任何领域内的真实存在所做出的 客观描述。在哲学上本体被用于解决语言中的二义性问题。本体论是西方分 析哲学中研究实体存在和存在本质的理论。随着人工智能的发展,在人工智 能和知识工程领域中本体被赋予了新的定义。在众多本体的定义中,最为流 行的定义就是由g r u b e r 在1 9 9 3 年提出的,“本体是概念模型的明确的规范 说明【2 】。 近些年来,随着计算机应用需求的不断增强,计算机科学与技术的发展日 新月异。然而在这种快速发展的同时,也面临着种种的困难。主要的困难包 括:知识的表示、信息的组织、软件的复用等。特别是由于因特网的快速发 哈尔滨t 程大学硕十学位论文 展,面对信息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服 务也就成为一项重要而迫切的研究课题。为了适应这些要求,本体作为一种 能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就 引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用, 如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的处理、 语义w e b 等。 由于本体被引入人工智能、信息系统等领域的时间不长,本体的建模方 法也只是初步确立,本体构建方法的研究中还存在着很多问题。本体的构建 多是面向特定领域,如果没有好的方法路线指导,就难以在不同领域本体的 构建中保持一致,也不利于本体的规模化和规范性建设。因此,领域本体构 建方法的研究对于本体的应用具有至关重要的作用。 1 2 国内外研究现状 本体的建构从本质上说是一种组织或团体意义上的决策行为。而专家的 知识是语境相关且独立构建的,虽然功能强大但难免比较片面,因此很难构 建一个可以满足所有成员使用需求的本体。对某些领域内专家行为的研究也 说明了这一点,甚至在一些良好构架的领域中,也很难达成一致的意见。然 而,那些在应用中较为成功的本体却大都来自于那些绝大多数的专家可以在 术语和概念上达成共识的领域。下面介绍几个国内外比较知名的本体构建方 法及本体工程。 ( 1 ) i d e f 5 副。i d e f 5 的概念是在2 0 世纪7 0 年代提出的,它是在结构化 分析方法的基础上发展起来的。1 9 8 1 年美国空军公布i c a m ( i n t e g r a t e d c o m p u t e ra i d e dm a n u f a c t u r i n g ) t 程中首次用了名为“i d e f ”的方法。i d e f 是i c a md e f i n i t i o nm e t h o d 的缩写,到目前为止它已经发展成为一个系列。 i d e f 5 提出的本体构建方法包括以下5 个步骤: 组织和范围:确定本体建设项目的目标、观点和语境,并为组员分配 角色。 数据收集:收集本体建设需要的原始数据。 数据分析:分析数据,为抽取本体做准备。 2 哈尔滨工程大学硕十学位论文 ii iiiii:i ;宣宣 初始化的本体建立:从收集的数据当中建立一个初步的本体。 本体的精炼与确认:完成本体建设过程。 i d e f 5 方法提供了一种结构化的方法,利用该方法,领域专家可以有效 地开发和维护领域本体。i d e f 5 构建本体的方法在于获取现实世界客观对象 的定义,以及它们的属性和它们之间的内在联系。 ( 2 ) m i k e u s c h o l d e 和k i n g 的“骨架”法1 6 】。这个本体建立模式是爱丁堡 大学从开发e n t e r p r i s e o n t o l o g y 的经验中产生,步骤如下( 见图1 1 ) : 图1 1 “骨架”法流程图嘲 确定本体应用的目的和范围:根据所研究的领域或任务,建立相应的 领域本体或过程本体,领域越大,所建本体越大,因此需限制研究的范围。 本体分析:定义本体所有术语的意义及其之间的关系,该步骤需领域 专家的参与,对该领域越了解,所建本体就越完善。 本体表示:一般用语义模型表示本体。 本体评价:建立本体的评价标准是清晰性、一致性、完善性、可扩展 性。清晰性就是本体中的术语应被无歧义的定义;一致性指的是术语之间关 系逻辑上应一致;完整性,本体中的概念及关系应是完整的,应包括该领域 内所有概念,但很难达到,需不断完善;可扩展性,本体应用能够扩展,在 该领域不断发展时能加入新的概念。 本体的建立:对所有本体按以上标准进行检验,符合要求的以文件的 形式存放,否则转。 ( 3 ) g r u n i n g e r 和f o x 的“评价法”【_ 7 1 。这个方法是根据多伦多大学的 t o v e ( t o r o n t o v i r t u a l e n t e r p r i s e ) 项目,由g n m i n g e r 和f o x 等人提出的。其构 建过程由五个阶段组成( 见图1 2 ) : 哈尔滨工程大学硕士学何论文 图1 2 “评价法”流程图【7 1 设计动机:定义直接可能的应用和所有解决方案。提供潜在的非形式 化的对象和关系的语义表示。 非形式化的能力问题:将系统“能够回答的”问题作为约束条件,包 括系统能解决什么问题和如何解决。这里的问题用术语表示,答案用公理和 形式化定义回答,由于是在本体没有形式化之前进行的,所以又称之为非形 式化的系统能力问题。 术语的形式化:从非形式化能力问题中提取非形式化的术语,然后用 本体形式化语言进行定义。 形式化的能力问题:一旦本体内的概念得到了定义,系统能力问题脱 离了非形式化,演变为形式化的能力问题。 将规则形式化成公理:本体中的公理指定了术语的定义以及约束。将 公理用一阶谓词逻辑表示出来。 调整问题的解决方案,从而使本体趋于完备。 ( 4 ) b e m a r a s 方法 8 j 。b e m a r a s 工程法是基于k a c t u s 项目而产生的。 k a c t u s 是“关于多用途复杂技术系统的知识建模”工程英文的缩写,是欧 洲e s p 融t 框架下的研发项目之一。这种方法开发本体由应用开发控制。所 以每一个应用都有相应的表示该应用所需的本体。这些本体既能重用其它的 本体,也能被后继应用集成,应用于电子网络的开发。具体的开发过程如下: 应用的说明。提供应用的上下文和应用模型所需的组件。 相关本体论范畴的初步设计。搜索已存在的本体,进行提炼、扩充。 本体的构造。用最小关联原则来确保模型既相互依赖,又尽可能一致, 以至得到最大同构。 ( 5 ) m e t h o m o l o g y 方法【9 1 。该方法是由西班牙马德里理工大学人工智能实 4 哈尔滨丁程大学硕士学何论文 ;m 一 ii i ii i ; 验室提出的,其特色在于提出用生命周期的概念来管理整个本体的开发过程, 使本体开发过程更接近软件工程开发方法。它分为三个不同的阶段: 管理阶段。主要是对任务进行系统规划,规划内容包括进展情况、资源 情况以及质量保证问题等。 开发阶段。通过规范说明、概念化、形式化、实现和维护等步骤对本 体进行开发。 维护阶段。包括知识获取、系统集成、评价、文档说明、配置管理等。 目前,用这种方法开发的本体有: ( o n t o ) 2 a g e m 是基于本体的w e b 代理,使用参考本体作为知识源,在一定的约束条件下进行新知识获取的工 具;化学本体是基于本体的化学教育代理,允许学生在学习的基础上自测本 身在该专业领域内所达到的水平;o n t o g e n e r a t i o n 使用化学领域本体和语言本 体来生成西班牙语的描述,并把这些描述作为对学生关于化学领域问题查询 的答案。 ( 6 ) s e n s u s 法i iu j 。s e n s u s 法是开发用于自然语言处理的s e n s u s 语言 本体的方法,由美国u s c i s i 研制开发。i s i 自然语言研究小组旨在为机器翻 译提供广泛的概念结构。s e n s u s 为机器翻译提供概念结构,用该方法开发 的s e n s u s 本体系统用于自然语言处理程序。目前s e n s u s 语言本体共包括 电子科学领域的7 万概念。为了能在s e n s u s 基础上构造特定领域的本体, 必须把不相关的术语从中剪除。 ( 7 ) 七步法】。斯坦福大学医院开发的七步法,主要用于领域本体的构建。 七个步骤分别是:确定本体的专业领域和范畴;考查复用现有本体的可 能性;列出本体中的重要术语;定义类和类的等级体系;定义类的属 性;定义类的分面( f a c e t s ) ;创建实例。 这些方法学都是从各自的开发过程中通过实践经验总结出来的,需求分 析、构建和评价是这些方法学中共同的阶段,它们都在一定程度上接近软件 工程的开发过程。但如果将上述方法同i e e e 标准软件开发生命周期法 i e e e l 0 7 41 9 9 5 进行比较分析,这些方法都没有完全成熟。目前知识工程界 缺少公认的成熟的本体建模标准以及开发指导原则和可操作性方法,因此在 一定程度上影响着本体的重用和共享。这成为目前的研究方向和重点。 哈尔滨工程大学硕士学位论文 1 3 研究内容和预期成果 本研究主要是以领域本体的构建方法为核心,其研究内容和预期成果有 包括:( 1 ) 深入分析和探讨现有的构建领域本体的方法论,针对国内外现有本 体构建方法论,提出一种比较完善的本体方法论。( 2 ) 理解和研究本体的基本 理论及本体构建原则,分析现有的本体获取技术的不足,提出一种新的领域 本体构建方法。( 3 ) 根据本体的概念和领域概念的特点,提出一种聚类方法, 从而实现领域本体概念层次的自动构建。( 4 ) 以所提出的领域本体构建方法为 指导,实际构建一个航空订票本体。 1 4 论文的组织 根据上面所述的研究路线,本论文共分4 章。 第1 章为绪论,介绍了课题的来源、目的及意义,并且对目前本体构建 方法论的国内外发展情况进行了深入的分析。 第2 章主要介绍本体及现有的本体获取技术,它是研究本体构建方法的 基础。在本章中要深入研究本体的概念、分类、作用和表示、构建原则等本 体基本理论;分析、探讨现有的本体获取方法,并且分析了现有本体获取方 法的不足。 第3 章根据前两章的介绍和分析,提出了一种基于知识链的本体构建方 法,并对其关键技术如知识链模型的构建、概念分类、构建概念层次树、本 体评价等做了深入的研究。 第4 章以第3 章提出的方法作为指导,运用本体编辑工具p r o t 6 9 6 ,实际 构建了一个航空订票本体。 最后是结论,总结了本研究所做的工作,并对下一步的工作进行了展望。 6 哈尔滨工程大学硕+ 学位论文 第2 章本体及本体获取技术研究 本体原指本体论 或实体论) ,起源于形而上学的哲学分支,主要研究 客观世界的本质。人类在认识世界的过程中,不同的人对同一事物的认识是 不同的,这就导致了人们在交流的过程中,因为缺乏共识而经常出现差错。 共识是指人们对同一个客观事物的认识相同的,即同一客观事物对于不同人 来说具有相同的概念。而本体正是人类共识的集合,是一个统一的认识事物 的标准。随着计算机、网络、通信、人工智能等信息技术的发展,如何实现 知识的共享和复用成为迫切需要解决的问题。而对本体的研究为问题的解决 开辟了一条新的途径。 随着本体被引入计算机、人工智能等领域的研究,它被赋予了新的涵义。 它的主要功能是为某个领域提供通用的理解,实现信息交换、互操作性等, 即使异构的数据在语义级上实现信息集成。 2 。1 本体概述 2 1 1 本体定义 在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将 o n t o l o g y 定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些 术语和关系构成的规定这些词汇外延的规则的定义” 1 3 1 。1 9 9 3 年,g r u b e r 给出了o n t o l o g y 的一个最为流行的定义,即“o n t o l o g y 是概念模型的明确的 规范说明”1 j 。后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外一种定义: “o n t o l o g y 是共享概型的形式化规范说明”【1 3 】。s t u d e r 等对上述两个定义进 行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式化规范说明。 这包含4 层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 【1 4 。 ( 1 ) “概念模型 指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相 关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。 哈尔滨工程大学硕十学位论文 ( 2 ) “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) “形式化 指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。“共享” 指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念 集,即o n t o l o g y 针对的是团体而非个体的共识。o n t o l o g y 的目标是捕获相关 领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇, 并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系的明确 定义。 p e r e z 等人认为本体可以按分类法来组织,归纳出用于描述本体的5 个基 本建模元语( m o d e l i n gp r i m i t i v e ) 1 5 】: ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) :指任何事务,如工作描述、功能、行为、 策略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框 架( f r a m e ) 结构,包括概念的名称,与其他概念之间的关系的集合,以及用自 然语言对概念的描述。 ( 2 ) 关系( r e l a t i o n s ) :领域中概念之间的交互作用,形式上定义为n 维笛卡 儿积的子集:r :c 1xc 2 c n 。如子类关系( s u b c l a s s o o ,在语义上关系 对应于对象元组的集合。 ( 3 ) 2 数( f u n c t i o n s ) :一类特殊的关系。该关系的前n 1 个元素可以唯一决 定第n 个元素。形式化的定义为f :c 1 c 2 x c n 1 一c n 。如m o t h e r o f 就是一个函数,h a s s p o u s e o f ( 周恩来,邓颖超) 表示邓颖超是周恩来的爱人。 ( 4 ) 公理( a x i o m s ) :代表永真断言,如概念乙属于概念甲的范围。 ( 5 ) 实侈l j ( i n s t a n c e s ) :代表元素,从语义上讲实例表示的就是对象。 2 1 2 本体与语义 1 语义 要给出语义的精确解释很困难,尤其当这个概念被不同领域所引用的时 候,它的含义往往存在着一些差异。我们可以将语义简单地看作是数据( 符 号) 所代表的概念的含义,以及这些义之间的关系,是对数据的抽象或者更 高层次的逻辑表示。对于计算机领域来说,语义一般指用户对于那些用来描 述现实世界的计算机表示的解释,即用户用来联系计算机表示和现实世界的 途径。例如,在关系数据库中,学生数据存储在表中。这时,对于表中的每 哈尔滨工稃大学硕士学位论文 一列数据所成的集合,其所隐含的意思就是该列数据所要表达的对应的概念, 这个概念往往体现为设计员对该列数据对应的属性所给定的名称,如“姓名”、 “性别”等。这些属性之间的关系就相当数据对应的概念之间所存在的关系, 它们都是学生这个实体的属性。数据库表中的属性和关系都可以看作数据的 语义信息。当然,语义并不是这么简单,它代表的关系可能更为复杂,甚至 超过e r 模型等数据库建模语言的表达范围。其实,语义并不是i t 领域的 新概念,数据库长以来已经在用语义来区分模式和数据,并作为数据库建模、 查询和事务管理技术的一部分,语义是保证数据管理系统达到可扩展性、高 效性和健壮性要求的一个关键因素。 数据交换所要达到的真正目的是得到所交换数据所代表的含义,实现数 据在含义上的交换,不是单纯的数据形式的交换,这同人与人之间的信息交 换类似。对于人类来说,我们可以通过相同的语言进行交互,交互双方以共 同遵守的语法对所要表达的信息含义( 相当于语义) 进行组织,才能使对方 理解。人与人之间信息的传达并不需要非常严格的语法,即便是对方在语言 表达上存在着一定的错误,我们仍然可能理解对方所要表达的意思。但对于 计算机之间的信息交换来说,语法与语义缺一不可。正确的语法表达是保证 计算机之间能够进行数据交换和处理前提,而数据语义的描述则是数据可被 计算机正确理解和推理的基础。 2 本体与语义的关系 综上所述,领域资源的语义和本体之间的关系,可以做如下总结: ( 1 ) 人类对符号( 词汇) 的语义理解,是通过头脑中的概念系统为中介向现 实世界的对象进行映射。 ( 2 ) 机器( 应用程序) 很难将符号( 语义标签) 向现实世界中的对象直接映 射。 ( 3 ) 实现机器理解语义的关键问题,是要创建一个符号系统( 本体) ,可以 将现实世界中某个领域知识做形式化封装。 ( 4 ) 机器对符号语义的理解,是通过将符号向本体映射来达成的,从这个 意义上说,本体是语义理解的最小单位。 9 哈尔滨丁稃大学硕士学位论文 2 1 3 本体分类 g u a r i n o 提出以详细程度和领域依赖度两个方面对本体进行划分。描述 或刻画建模对象的程度较高的称为引用本体( r e f e r e n c eo n t o l o g i e s ) ,程度较低 的称为共享本体( s h a r eo n t o l o g i e s ) 。根据本体对领域的依赖程度由低到高分 别分成了四个类别1 1 5 j : ( 1 ) 项级本体( t o p l e v e lo n t o l o g i e s ) 描述最普遍的概念及概念之间的关系, 如空间、时间、事件、行为等,与具体的应用无关,其他本体均为其特例。 ( 2 ) 领域本体( d o m a i no n t o l o g i e s ) 描述特定领域中的概念和概念之间的关 系。 ( 3 ) 任务本体( t a s ko n t o l o g i e s ) 描述特定任务或行为中的概念及概念之间 的关系。 ( 4 ) 应用本体( a p p l i c a t i o no n t o l o g i e s ) 描述依赖于特定领域和任务的概念和 概念之间的关系。 2 1 4 本体作用 从一般领域应用的角度来理解,本体主要有以下作用: ( 1 ) 对于领域知识进行分析、明确,并使其形式化。一旦明确说明了一个 领域中的各种术语,就可对领域知识进行分析。当要重用现有本体和扩展现 有本体时,对术语的形式化的分析就体现出它的重要价值。 ( 2 ) 在人、机器( 表现为软件代理) 以及人与机器之间共享对于信息及结构 的共同理解这是本体开发最基本的一个目标。采用术语和关系来编码领域假 设。举例说明,假设几个不同的w e b 站点包含航空信息或者提供航空订票电 子商务服务。如果这些站点之间共享和发布他们共同使用的术语的本体,那 么计算机代理就可以从这些不同的站点中抽取并集合信息,用这些集合的信 息来回答用户的查询请求或作为其它应用的输入数据。 ( 3 ) 实现一定程度的领域知识的重用,促进领域知识的重用推动了本体的 研究。下面给出一个本体在领域知识重用方面的例子,比如在航空订票领域 中,包括航空公司、机场、提供航空订票电子商务服务的代理站点等很多组 织模型都需要表示时间这一概念,时间的表示包括时间间隔的概念( 飞行时 间) 、时间指针( 出发时间) 等。如果这些组织中有一个组织详细开发了满 1 0 哈尔滨丁程大学硕士学位论文 足要求的本体,其他组织就可以很方便简单地把这个本体应用到自己的组织 中来。此外,如果需要开发一个大型的本体,可以通过集成描述大型本体某 些部分的多个现成的本体来实现。 ( 4 ) 本体可以明确领域假设,使领域公理得到明确描述从而达成共知,通 过本体可以明确领域假设,这些领域知识的明确说明对于要了解该领域的新 用户了解该领域中的术语非常有用。如果关于领域的知识发生变化,通过本 体可以非常容易的改变关于该领域的假设。如果关于领域的假设被隐藏到了 程序语言代码中,则这些假设非常难以发现和理解,更难修改,特别是对那 些不懂程序的人而言是如此。 2 1 5 本体表示 本体表示与本体表示观密切相关。本体表示观强调对自然世界可以采用 不同的方法来记述,但注重的不是“其语言形式,而是其内容”。这与认识 论表示观“表示的唯一功能是携带知识”的观点有显著差别。依照d 。l e n a t 的观点:在人工智能研究中,使用本体表示观的动机主要是寻找知识工程方 法在知识组织上过于无序而造成的过量知识和物理学、数学使用简捷规则过 于有序所造成的过长推理之间的折中策斛7 | 。 领域本体是对给定的应用领域中存在的特性的一种详细的特征化描述。 这种特征表述应以一定的语言来表达,因此表示语言在本体论获取过程中起 到非常重要的作用【8 】。采用何种语言来表示本体的问题目前没有达成一致的 观点。多数研究者认为,本体建立过程中语言的表示应该分为两个部分:非 规范化表示和规范化表示。前者着重于本体的获取,后者主要对获取的本体 进行存储和表示。 非规范化的本体论表示一般应用于本体论建立的初期,采用容易理解的 自然语言对本体论进行描述。本体主要特点之是需要对领域内的大量的术 语及术语之间的关系进行描述,以成为共享和重用的基础。当领域较为复杂 时,其术语、关系将非常庞杂,且需要不断地修改,因此采用自然语言定义 描述是比较适合的选择。非规范化表示作为规范化表示的基础,其重要性也 是不言而喻的。非规范化表示主要应满足下列要求: ( 1 ) 便于区分应用领域的主要概念和关系; 哈尔滨工程大学硕士学位论文 i i f ( 2 ) 能够对这些概念和关系建立准确的、清楚的定义及上下文; ( 3 ) 可方便地为确定的概念和关系定义术语。 本课题在本体获取阶段,就采用了一种非规范化本体获取表示概念模型 知识链,进行本体的获取。 规范化表示为建立实际的本体提供表示语言和方法。其主要作用为: ( 1 ) 提供基本的术语用于定义本体( 例如,类,实体,关系等) 。在企业 本体论1 9 】中,称为元本体。 ( 2 ) 选择表达语言,该语言应能方便地支持元本体。 对于本体表示的能力判定,主要应该体现在以上非规范化表示与规范化 表示的能力上,特别是表达语言的选择。 ( 1 ) x m l 1 6 】 x m l 是严格符合s g m l 的结构化语言,其实现了文档的显示和数据分 离,这种结构化的数据易于使用、携带和传递,是w e b 数据交换的较好的语 法格式。x m l 提供d t d 、x m ls c h e m a 对文档结构进行有效性验证,通过 描述约束文档逻辑结构实现数据的语义。x m l 对本体的描述,就是利用d t d 或x m ls c h e m a 对本体所表达的领域知识进行结构化定义,然后再利用x m l 文档结构与x m l 内容之间的关系对本体知识进行描述,从而提供对数据内 容的语义描述。 但是d t d 自身描述能力、数据类型的支持、约束定义的能力是有限的, 无法对x m l 实例文档做出更细致的语义限制。因此,通过d t d 表示的本体, 无法表达概念间的继承关系,x m ls c h e m a 虽然解决了d t d 存在的问题,例 如定义了更为丰富的语法结构、可以定义元素类型、提供了包含和继承机制 等,但是d t d 、x m ls c h e m a 为x m l 文档提供的约束机制只是用限定x m l 文档所用到的标记和这些标记之间的结构关系,通过d t d 和x m ls c h e m a 可以解决对数据的词汇和用途的说明,其语义仍然是隐含的。因此,x m l 所表示的本体是轻量级的本体,只能保证人们是用相同的词汇,是一种较低 层次的本体的应用,本体中不包含语义信息。 ( 2 ) r d f 和r d f s l l 7 】 w 3 c 的资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,r d f ) 为基于元数 据的语义表示提供了基础,r d f 为在w e b 上应用系统间进行机器可理解的 哈尔滨工稃大学硕士学位论文 眚i i i ;i i i 置;高;i ;i ;i ;i i i i i i i i i i ;i ;i i ;i i ;i ;i i i i i ;i i ;i ;i ;i i ;i ;宣;i 暑置;i ; 一i i ; 信息交换提供了互操作能力。 r d f 对资源描述基于如下思想:利用当前现有的w e b 体系结构中的标 识符u r i 作为标识符系统来标识事物,用简单的属性( p r o p e r t y ) 以及属性值 ( v a l u e ) 来声明资源( r e s o u r c e ) ,这里的资源指w e b 上任何可以被标识的事物, 可以创建u r i s 来引用声明中需要被标识的任何资源,例如,一份电子文档、 一个图片、一个声音文件等网络可访问资源;或者如人、公司、图书馆中的 图书等非网络可访问资源;或者如“作者”、“主席”这样非物理存在的抽 象概念。 r d f 的基本构造为陈述( 或者声明,s t a t e m e n t ) t - - 个资源一资源具有的属 性属性值( 主体属性客体) 的三元组。它表现的是一个数据模型,通俗的说 一个陈述就是一个什么事物( 资源) 具有什么属性( 属性) ,这个属性是怎样的属 性( 属性值) 。为数据模型提供了简单的语义,这些数据模型能够用x m l 语法 进行表达。例如:描述“哈尔滨工程大学位于哈尔滨”,用r d f 图来表示为 ( 见图2 1 r d f 三元组示意图) : 图2 1r d f 三元组示意图 采用r d f 语法表示为: 哈尔滨 但是,r d f 只是提供了一个用于领域无关的机制来描述元数据,描述资 源属性及其相关关系,没有提供按照类的机制描述信息资源、声明属性、描 述属性语义及其与资源之间的关系。也就是说r d f 不能描述领域相关的语义 关系,如同义词、一词多义等,因此,提出了r d f s 。 r d f s 是r d f 的扩展,在r d f 基础上增加了许多语义原语。提供了一 哈尔滨t 程大学硕士学位论文 种机制来定义相关领域的资源的属性、类型及其关系,用来更进一步增加对 资源的描述能力。如,核心类r d f s :r e s o u r c e 、r d f s :p r o p e r t y 、r d f s :c l a s s ;核 心特性r d f s :t y p e 、r d f s :s u b c l a s s o f 、r d f s :s u b p r o p e r t y o f ;核心约束r d f s : c o n s t r a i n t r e s o u r c e 、r d f s :c o n s t r a i n t p r o p e r t y 、r d f s :d o m a i n 、r d f s :r a n g e 。 r d f s 虽然提供了简单的机器可理解语义模型,解决了r d f 中存在的一 些问题,如属性、概念间的继承关系,但是对语义描述的深度仍然不够,只 是进一步提高了计算机处理的自动化程度,还无法表达概念问的合取、析取、 不相关等关系。在r d f s 建模的基础上,针对r d f s 在语义方面表示的不足, 一些研究团体提出了其他的本体表示语言x o l 、o i l 、d a m l ,在此基础上, w 3 c 发布了w e b 标准本体表示语言o w l ,在机器间实现本体的共享和重用, 实现对w e b 信息的智能化处理。 ( 3 ) o w l 1 8 】 o w l 全称w e bo n t o l o g yl a n g u a g e ,是w 3 c 推荐的语义互联网中本体 描述语言的标准。它是从欧美一些研究机构的一种结合性的描述语言 d a m l + o i l 发展起来的,其中d a m l 来自美国的提案d a m l o n t ,o i l 来 自欧洲的一种本体描述语言。在w 3 c 提出的本体语言栈中,o w l 处于最上 i = m ,石o o w l 能够被用于清晰地表达词汇表中的词条( t e r m ) 的含义以及这些词条 之间的关系。而这种对词条和它们之间的关系的表达就称作o n t o l o g y 。o w l 相对蹦l 、r d f 和r d fs c h e m a 拥有更多的机制来表达语义,从而o w l 超 越了x m l 、r d f 和r d fs c h e m a 仅仅能够表达网上机器可读的文档内容的 能力。和x m ls c h e m a 相比,o w l 语言是知识表示,不是信息表示格式; 和r d f s 相比,o w l 不仅可以用更复杂的方法描述类,如d i s j o i n t ,而且扩 展了r d f s 属性,允许表示属性的t r a n s i t i v e 、s y m m e t r i c 以及f u n c t i o n a l 性质, 表达了更强的概念语义信息,支持描述逻辑推理。o w l 语言提供了三种表 达能力不同的子语言o w ll i t e 、o w ld l 、o w lf u l l ,分别满足不同的需要, 见下表2 1o w l 的三个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论