(计算机应用技术专业论文)基于本体的课程信息检索技术.pdf_第1页
(计算机应用技术专业论文)基于本体的课程信息检索技术.pdf_第2页
(计算机应用技术专业论文)基于本体的课程信息检索技术.pdf_第3页
(计算机应用技术专业论文)基于本体的课程信息检索技术.pdf_第4页
(计算机应用技术专业论文)基于本体的课程信息检索技术.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的课程信息检索技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 随着w e b 的飞速发展,网上信息也日益增长,信息检索工具已经成为人们获取 知识和信息的重要方式。但传统的信息检索技术难以满足人们的需要,人们在信息 海洋中很难找到自己想要的信息,主要原因在于现有的搜索技术是基于关键字匹配 的,由于词汇间的同义性及单个词汇的歧义性,很难通过用户输入的关键字来了解 其真正的需求,因而查询的结果得到的是大量的和主题不相关的文档。 本体( o n t o l o g y ) 是共享概念模型的明确的形式化规范说明,它具有精确的语义, 可以在语义层次上对概念进行统一,它可用于知识内容的结构化描述,并在此基础 上实现智能化的搜索、筛选、提炼、整合等知识活动。建立在关键词基础上的传统 信息检索,对语义匹配的支持能力较差,所提供的信息检索查全率和查准率难以令 人满意。因此支持知识、语义匹配的基于本体的智能信息检索成为信息检索的重点。 把o n t o l o g y 应用到信息检索中,不仅可以准确地了解用户的需求,还可以实现语义搜 索,进而大大提高检索质量。 文章研究了本体的相关理论,详细分析了目前本体的描述语言,并用o w l 描述 了一个“计算机图形学”的课程知识本体,在此基础上,重点阐述了基于本体的智 能信息检索模型的体系结构以及本体在人机接口、信息分类、信息过滤中的作用, 并具体实现了该本体的存储、查询和推理。 关键字:本体 o w l 语义搜索智能信息检索 华中科技大学硕士学位论文 a b s t r a c t t h ei n c r c 跚o fi n f o r m a t i o nb e c o m e sm o r ea n dm o r eq u i c h yw i t ht h ei n f o r m a t i o n t i m e sc o m i n g 1 1 1 et r a d i t i o n a li n f o r m a t i o nr e t r i e v a li sd i f f i c u l tt os a t i s f yp e o p l e t h e t r a d i t i o n a li n f o r m a t i o nm a k e sn s eo f t h ek e yw o r d sw h i c hu s e ri np u tt os e a r c hd o c u m e n t , t h e nr e t u r nt h er e s u l t i ti sd i f f i c u l tt ok n o wp e o p l e sr e q u e s tt h r o u g hs i m p l ek e y w o r d s , b o c a u s ep e o p l eh a v et h e i ro w n c o m p r e h e m i o nw i t ht h es a m ec o n c e p ta n do n ec o n c e p tw i l l h a v ed i f f e r e n tm e a n i n gi nd i f f e r e n tc o n d i t i o n o n t o l o g yi st h ee x p l i c i t , f o r m a ls h a r ee e r p t u a l i z a t i o n , i tu s e sc o n e e p t sa n dr e l a t i o n s b e t w e e nc o n c e p t st od e s c r i b ea b s t r a c tf a c t sa n db u i l dm o d e l s ,a n di tc a l lb eu s e dt o d e s c r i b ed e e pk n o w i e d g ec o n t e n ti nas t r u c t u r a lw a y k n o w l e d g ea c t i o n s ,i n c l u d i n g s e a r c h i n g , f i l t e r i n g ,e x t r a c t i n ga n di n t e g r a t i n g ,a r ee x e c u t e di n t e l l i g e n t l yb a s e d0 1 1t h e m o d e l s t h et r a d i t i o n a li n f o r m a t i o nr e t r i e v a lm e t h o d sa f eb a s e d0 1 1k e y w o r d s w h o s e a b i l i t yo i lt h es e m a n t i cr e t r i e v a li ss ow e a kt h a tt h er e c a l la n dp r e c i s i o no ft h eq u e r yr e s u l t a r en o ts a t i s f i e d i ti sb e e a n s et h eo n t o l o g yi n f o r m a t i o nr e t r i e v a lm e t h o d si sb a s e do n k n o w l e d g ea n ds e m a n t i ct h a tb e c o m i n gt h er e s e a r c h i n ge m p h a s i s i nf a c to n t o l o g yi st h e s h a l ec o n c e p t ,i tc a nd e a lw i t ht h ed i f f e r e n tm e a n i n g sa n du s e r s r e q u e s t ,t h e ni m p l e m e n t t h es e m a n t i cs e a r c hw i t ht h eh e l p o f o n t o l o g y 1 1 1 ep a p e ri n t r o d u c e st h et h e o r ya b o u to n t o l o g ya n do n t o l o g y sd e s c r i p t i o nl a n g u a g e a n di ts e t su po n t o l o g yn a m e d “c o m p u t e rg r a p h i c s ”w h i c hh a se x a c t i t u d es e m a n t i ca n d c a l lb eu n d e r s t o o db yc o m p u t e r f i n a l l y ,t h ep a p e re l a b o r a t e sa ni n t e l l i g e n ti n f o r m a t i o n r e t r i e v a lm o d e lb a s e do no n t o l o g y a n a l y z e st h ef u n c t i o no fo n t o l o g yi ni n f b r i n a d o n r e t r i e v a l f o re x a m p l e :i n t e r f a c eb e t w e e n p e o p l e a n dm a c h i n e ,i n f o r m a t i o nf i t t e r , i n f o r m a t i o nc l a s s i f i e r ,e t c a n dt h ep a p e rs t u d i e sh o wt os t o r a g e ,q u e r y ,i n f e r e n c et h e o n t o l o g yi nd e t a i l k 曙w o r d s :o n t o l o g y o w ls e m a n t i cs e a r c h i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l i i 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除文中已经标明弓l 用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担 学位论文作者签名:浔着灸 , 日期:衣o 年o 月2 t 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文 保密口,在 年解密后适用本授权书 本论文属于, 不保密口 ( 请在以上方框内打。 ,”) 学位论文作者签名:浠投 日期:盘。存j 。月侈日 指导教师签名:王天皿 日期:硼6 年f 0 月日 华中科技大学硕士学位论文 1 绪论 1 1 选题意义 随着w e b 的飞速发展,网上信息也日益增长,越来越多的人们在网上查询和搜 索他们想要的信息,信息检索工具已经成为人们获取知识和信息的重要方式。然而, 传统的信息检索技术难以满足人们的需要,人们在信息海洋中很难找到自己想要的 信息,主要原因在于现有的搜索技术是基于关键字匹配的,即通过用户输入需要查 找的关键字,然后系统在数据库中将该关键字与预存的文档关键词进行匹配,将两 者相符的文档返回给用户。这种查询的结果得到的是大量的和主题不相关的文档。 由于词汇间的同义性,不同的人对同一个概念有不同的表示,如“教师”与“老师” 为同一概念的不同说法;由于单个词汇的歧义性,同一个概念在不同的环境下也可 能有不同的含义,如“苹果”可能是指水果也可能是指计算机品牌名,因此很难通 过用户输入的关键字来了解其真正的需求。信息检索本质上是语义检索,如果能对 大量的文档进行语义化的理解和组织,实现语义化的搜索,将大大提高检索的查全 率及查准率。 本体( o n t o l o g y ) 是共享概念模型的明确的形式化规范说明,它通过概念和概念 间的关系,反映事物或现象的抽象本质。本体是一种共享的概念集合,具有精确的 语义,可以在语义层次上对概念进行统一,也就是说,本体技术可用于知识内容的 结构化描述,并基于此实现智能化的搜索、筛选、提炼、整合等知识活动。建立在 关键词基础上的传统信息检索,对语义匹配的支持能力较差,所提供的信息检索查 全率和查准率难以令人满意。因此支持知识、语义匹配的基于本体的智能信息检索 成为信息检索的重点。把o n t o l o g y 应用到信息检索中,不仅可以准确地了解用户的需 求,还可以实现语义搜索,进而大大提高检索质量。 1 2 国内外研究概况 华中科技大学硕士学位论文 本体研究的热点问题有本体描述语言、本体构建方法,本体构建工具、本体的 应用等。其中,本体应用方面的研究遍布人工智能、信息管理、知识管理等领域, 典型的问题有:语义w c b 服务;领域本体的应用;基于本体的数据集成、机器学习; 基于语义的信息检索,特别是网络搜索引擎和数字化图书馆;在线元数据管理和自 动信息发布等。 在信息检索与集成领域,目前国际上应用本体的著名项目主要有: ( 1 ) ( o n t o ) 2a g e n t ( a no n t o l o g yb a s e dw w w b r o k e rt os e l e c to n t o l o g i e s ,基于 网络代理搜索本体的本体) 目的是帮助用户检索网上已有的本体,主要采用了参照 本体,利用它保存网上现有本体的元数据。 ( 2 ) o n t o b r o k e r ( o n t o l o g yb a s c da c c e s s t od i s t r i b u t e da n ds 砌i - s t r u e t u r e d i n f o r m a t i o n ,基于本体的分布式半结构化信息获取) 是德国卡尔斯鲁厄大学的研究项 目。该项目建立了一个用来处理h t m l 、x m l 和r d f 格式的信息源和信息源语义描 述的系统,其核心是使用本体来描述网页的背景知识,明确网页的语义,以便综合 利用本体的表达能力和推理机制。 ( 3 ) s c o r e ( s e m a n t i cc o n t e n to r g a n i z a t i o na n dr e t r i e v a le n g i n e ) ,由美国g e o r g i a 大学a m i ts h e t h 等人开发,该系统由本体构建、内容处理、语义信息检索三个模块组 成的,在元数据的语义组织和利用、语义信息规范化、语义检索和语义关联等方面 进行了较为深入的探索。 ( 4 ) i t l a l k s 事务通知服务( i t t a l k se v e n tn o t i f i c a t i o ns e r v i c e ) 是以语义w e b 服务 技术建立起来的i t 会议智能通知服务系统,它是美国马里兰大学在d a r p a 资助下开 发的,主要用于对i t 领域内的各种会议信息进行智能集成和智能在线检索。本体在 i t r a l k s 系统中处于核心的地位。通过本体,系统提供更加健壮的服务检索机制,使 得对w e b 服务的检索和查询更加语义化和智能化。 国内也有许多学者从事本体的研究工作,如东南大学瞿裕忠的语义w e b 语言及 支撑软件技术基础研究以及语义网格资源描述的模型、形式化理论和支撑技术研究; 上海交大的俞勇及其所在的a p e x 实验室主要研究内容有:本体的构建及其演化方 法,研发集成的本体编辑环境;在p 2 p 环境中进行高效的文本检索( 包括基于关键 2 华中科技大学硕士学位论文 字的检索和基于语义的检索) ;对各个对等点( p e e r ) 返回的查询结果做融合;语义 加文本的混和型搜索及交互式信息检索研究等。 尽管这几年来,本体成为国内外信息领域中研究的热点,相关研究工作在如火 如荼的展开,但总体来看,很多研究仍处在探索阶段,如:本体的构建方法没有形 成统一的标准;基于本体的推理研究还没有完全展开;如何在广阔范围内高质量地 共享和重用资源仍然是个难题。在国外,现有的研究主要着重于在某个具体领域里 依靠资源的标准化描述和领域本体建设来实现资源的共享和个性化,真正能投入使 用的成果并不多见。和国外相比,国内的本体研究处于起步阶段,在通用性问题的 解决和研究深度方面与国外相比有较大的差距。 1 3 本文的研究内容 本文以计算机图形学课程为例,建立该课程的本体的信息检索模型,该模 型具有一定程度的推理能力,能对用户给出的词语进行语义扩展,实现基于语义的 检索。本文研究的主要内容有以下几个方面; ( 1 ) 本体的理论及技术 语义信息的交流必须以共同的理解为前提,否则双方就会产生误解或不理解。 在语义w e b 中,这一“共同的理解”是由本体层建立和提供。本项目研究本体在语 义w e b 体系结构的地位及作用,重点研究本体的语义表达机理;分析比较各种本体 描述语言的优、缺点,重点研究基于描述逻辑的本体描述语言o w l 。 ( 2 ) 本体与信息检索技术的结合 详细研究本体在人机接口、信息分类、信息检索中的作用,及如何构架基于本 体的信息检索系统,该系统如何实现智能化等问题。 ( 3 ) 领域本体的构建 研究领域本体的构建方法和辅助开发工具,并根据计算机图形学课程的特 点实际构建一个该课程的知识本体,在此基础上归纳总结出学科知识本体的构建方 法。 ( 4 ) 本体的存储、查询及推理 华中科技大学硕士学位论文 详细分析本体进行存储,查询,推理的原理,设计和实现对课程知识本体的存 储,查询和推理。 1 4 本文的研究方法 ( 1 ) 文献调查法:对国内外发表的关于本体和信息检索的相关理论文献进行广泛 收集,为研究基于本体的信息检索系统提供理论依据; ( 2 ) 案例分析法:从国内外构建的信息检索系统中选取若干具有代表性的案例进 行分析研究,选用适合于构建基于本体的信息检索系统的关键技术与方法: ( 3 ) 模型建立法:主要针对语义信息的描述、检索和显示的算法进行分析和建模, 为构建系统提供理论依据; ( 4 ) 比较分析法:对智能信息检索与传统的检索等进行比较; ( 5 ) 原型开发研究:在对基于本体的信息检索系统进行研究的基础上,采用j a v a 技术开发一个检索系统原型,实现了基本的语义信息表示、检索、显示等功能。 1 5 本文的主要章节安排 第1 章,介绍了本文研究背景和意义,指出了信息检索待解决的问题及其发展 方向;对本体的国内外研究现状作了系统回顾;并概述了本文的主要内容、研究方 法及篇章安排。 第2 章,介绍了语义w e b 的产生及其体系结构;介绍了本体语言的基本理论, 重点阐述了描述逻辑的相关知识、o w l 语言的特点、本体语言的演进过程等。 第3 章,介绍了传统的信息检索技术,说明其不足之处,在此基础上分析比较 智能信息检索与传统检索的不同。 第4 、5 章,介绍了计算机图形学课程本体的构建过程,该本体的存储、推 理查询的实现等。 第6 章,总结了本文所做的主要工作,并对本体在智能信息检索方面的研究及 应用进行了展望。 4 华中科技大学硕士学位论文 2 1 语义w e b 的产生 2 语义w e b 和本体 1 9 0 0 年1 2 月,t i mb e m e r s l e e 建立了第一个互联网超文本系统,该系统构架在 u r l ( 统一资源定位符,u n i v e r s a lr e s o u r c el o c a t o r ) 、h 1 v r p ( 超文本传输协议, h y p e r t e x tt r a n s f e rp r o t o c a l ) 和h t m l ( 超文本标记语言,h y p e r t e x tm a r k u p l a n g u a g e ) 基础之上,其中u r l 用来标识w e b 上资源; r r r p 定义了浏览器与服务 器间的通信协议;h t m l 用来书写w e b 文档。随着互联网应用的不断发展,现有互 联网技术的局限也逐渐暴露出来,主要表现在现有互联网技术没有对信息的含义进 行描述,它主要针对人类浏览信息而不是针对自动化应用来处理信息,因此难以实 现对海量信息的准确检索以及对异构信息的集成和协作。 为了实现面向机器理解的w e b ,t i mb e r n e r s l e e 于2 0 0 1 年正式提出了语义网概 ”。语义网是当前w e b 的扩展,语义网的目标是对w e b 信息资源的内容进行语义 上的描述,从而使计算机能够利用这些语义信息对资源的内容进行理解和处理,在 此基础上实现更高层的、基于知识的智能应用。要在语义层次实现信息的互操作, 需要对信息的含义有一个共同一致的理解。语义网采用了本体( o n t o l o g y ) 的思想, 本体是对应用领域概念化的显式的解释说明,为某领域提供了一个共享通用的理解, 从而无论使人还是应用系统之间都能够有效地进行语义上的理解和通讯。 2 2 语义w e b 的体系结构 语义w e b 的目标是让机器能够理解w e b 上的信息,以实现机器对w e b 信息资源的 智能化处理。t i mb e r n e r s - l e e 为下一代w e b 发展提出了基于语义的体系结构一语义 w e b 体系结构【2 l ,如图2 1 所示。 ( 1 ) u r i 和u n i e o d e 层 u r i 和u n i e o d e 层是语义w e b 的基础,u n i e o d e ( 统一字符编码) 负责处理资源的 编码问题。统一采用u n i e o d e 作为字符的编码方案,避免不同字符集之间由于编码不 华中科技大学硕士学位论文 同而造成的存储、传递和使用上的混乱u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r s ,统一资 源标识符) 解决w e b 资源的定位问题。在语义w e b 中,任何可以被描述的事物都称为 资源,不同的资源拥有不同的u r j ,即u r j 保证了定位的唯一性,使信息的检索更精 确。u l u 泛指所有以字符串标识的网络资源,包含了u r l ( u n i f o r mr e s o u r c el o c a t o r ) 和u r n ( u h i f o r mr e s o u r c en a m e ) 。 t r u s t ( 信任) p r o o f ( 证明) 笆 l o g i c ( 逻辑) 錾 o n t o l o g yv o c a b u l a r y ( 本体词汇) r d f + r d fs c h e m a o lx m l + n s + x m ls c h e m a u n i c o d e ( 统一字符编码)u r i ( 统一资源标识符) 图2 1 语义w e b 体系结构 ( 2 ) x m l 十n s + x m ls c h e m a 层 x m l + n s + x m ls c h e m a 层是语法表示层,用于从语法上表示数据的内容和结构, 通过使用标准的格式语言将网上资源和信息的表现形式、数据结构和内容分离。采 用n s ( n a m es p a c e ) 机制解决不同的信息资源间的同名问题。 ( 3 ) r d f + r d f s 层 r d f + r d f s 层是资源描述层,用于描述w e b 上的资源及其类型。它为网上资源 描述提供了一种通用表示框架,描述t w e b 信息资源及其之间简单的语义关系。 ( 4 ) o n t o l o g yv o c a b u l a r y 层 o n t o l o g yv o c a b u l a r y 层是语义层,用来定义共享的知识,是构建语义w e b 的关键。 语义信息的交流必须以共同的理解为前提,否则双方就会产生误解或不理解。在语 义w e b 中,这一“共同的理解”是由本体层建立和提供。本体的知识表示能力远远 超过r d f s 的基本语义,能够对各种资源间的语义关系进行更为复杂和丰富的描述。 ( 5 ) l o g i c 层 6 华中科技大学硕士学位论文 l o g i c 层是逻辑推理层,主要提供规则与推导方法,从而便于在本体层上进行推 理,为智能服务提供基础。本体层定义得是否合理往往会影响推理的难易和结果。 ( 6 ) p r o o f 罢、t r u s t 层及d i g i t a ls i g n a t u r e 层 p r o o f ( 证明) 、t r u s t ( 信任) 、d i g i t a ls i g n a t u r e ( 数字签名) 层主要注重于提 供认证和信任机制,保证信息交换的安全性。语义w e b 的研究者普遍认为p r o o f 幂l l t r u s t 将是下一代w e b 的重要概念。 2 3 本体的定义 本体的概念最初起源于哲学领域,是由公元前古希腊哲学家亚里士多德首先提 出的。近年来,随着本体的研究日趋成熟,本体的定义也在不断的发展变化,不同 的研究者对本体的定义有各自不同的描述,但是在本质上,他们都认为本体提供一 种明确定义的共识,就是对概念以及概念之间的关系进行规范化精确的描述。其中 较为通用的定义是:“本体是共享概念模型的明确的形式化规范说明“,该定义体 现了本体的四层含义一j : ( 1 ) 概念模型( c e r p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环境状态; ( 2 ) 明确( e x p l i c i t ) :概念及它们之问联系都被精确定义; ( 3 ) 形式化( f o r m a l ) :精确的数学描述; ( 4 ) 共享( s h a r e ) :本体体现的是共同认可的知识,反映的是相关领域中公认的 概念集。 2 4 本体的分类 本体是对客观存在的概念和关系进行描述,目前还没有一个统一的分类标准。 常用分类如下: ( 1 ) 根据本体的形式化程度不同,可以把本体分为严格形式化、半形式化、结 构非形式化和高度非形式化。严格形式化是在保证具有完整性和确定性的前提下按 照一定的分析原则和标准对表达进行严格定义;半形式化的表达由人工定义的形式 7 华中科技大学硕士学位论文 化语言;结构非形式化是通过结构式的、受约束的自然语言来表达;高度非形式化 也叫做完全非形式化,自然语言在没有任何约束的情况下自由的表达驯。 ( 2 ) 根据本体对领域的依赖程度由低到高分别分成了四个类别i o j : 顶级本体( t o p - l e v e lo n t o l o g i e s ) 描述最普遍的概念及概念之间的关系,如空 间、时间、事件、行为等,与具体的应用无关,其他本体均为其特例。 领域本体( d o m a i no n t o l o g i e s ) 描述特定领域中的概念和概念之间的关系。 任务本体( t a s k o n t o l o g i e s ) 描述特定任务或行为中的概念及概念之间的关系。 应用本体( a p p l i c a t i o no n t o l o g i e s ) 描述依赖于特定领域和任务的概念和概念 之间的关系。 2 5 本体的构造原语 p e r e z 等人认为一个本体应该由概念或类、关系、函数、公理和实例等5 种基本构 建原语组成【7 】。 ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) :表示的是概念名称以及概念之间关系的 集合,包括一般意义上的概念以及任务、功能,策略,行为、过程等,通常具有一 定的分类层次关系; ( 2 ) 属性( p r o p e r t i e s ) ;描述概念的性质,是一个概念区别于其他概念的特征; ( 3 ) 关系( r e l a t i o n s ) :表示概念之间的关联,形式上定义为n 维笛卡儿积的子 集,r :c ix c 2 x c 。在语义上关系对应于对象元组的集合; ( 4 ) 函数( f u n c t i o n s ) :表示一类特殊的关系,这个关系中第n 个元素可以由前 n - 1 个元素来确定。形式化的定义为f :c ix c 2 x c n - i - c n 。例如:f a t h e r o f ( x ,y ) 表示y 是x 的父亲; ( 5 ) 公理( a x i o m s ) :表示永真断言,在本体中,对于属性、关系和函数都具有 一定的关联和约束,这些约束就是公理,公理一般用槽的侧面( f a c e t ) 来定义; ( 6 ) 实例( i n s t a n c e s ) :表示属于某个概念类的具体实体。从语义上讲实例表示 的就是对象。例如对象“张艺谋”就是概念“导演”的实例。 华中科技大学硕士学位论文 2 6 本体的构造准则 目前主要采用手工的方式来构造本体,在构造过程中通常需要专家的参与。本 体的构造准则没有统一的标准。1 9 9 3 年g r u b e r 提出了本体的五点设计原则嘲: ( 1 ) 明确性;本体必须客观完整的对定义进行明确的语义描述,并用自然语言有 效说明所要定义的术语; ( 2 ) 一致性:由术语得出的推论同术语本身的含义是相容的; ( 3 ) 可扩展性:无须修改已有的概念定义,可以在本体中添加新的术语,以适应 信息的不断更新,满足用户的需求; ( 4 ) 编码偏好程度最小:本体应该处于知识的层次,而与特定的符号级编码无关。 由于系统有可能采用多种知识表示方法,因此概念的描述不应该依赖于某一种特殊 的符号层的表示方法,不能依赖于某种确定的语言; ( 5 ) 约束最少:尽可能少的对构建对象进行约束。 2 7 本体构造存在的问题 尽管在实际应用中,本体具有的知识共享和重用的优势将给智能信息检索、 a g e n t 、电子商务、企业信息管理等应用带来重要的变革,但由于构造本体的过程各 不相同,本体的建设仍处于探索性研究阶段,在对本体的构造过程中仍然会遇到各 种各样的问题,所存在的主要问题如下: ( 1 ) 需求不充分和无计划性 大多数研究者在本体的概念及其作用方面已经达成统一的认识,然而对于本体 构造,特别是一个领域的本体构造,还不能进行充分清楚的描述。由于缺少强有力 的机构来进行组织、协调、规划本体的创建,对领域概念关系分析的方法没有统一 的指导,没有充分明确的需求,这必然导致本体建设过程的无计划性。这样一来, 就有可能造成不同部门做了重复的劳动,浪费人力物力。这有悖于本体共享和重用 的本质。 ( 2 ) 本体构造缺少通用的开发标准 9 华中科技大学硕士学位论文 本体的构造目前还没有成熟的方法论作为指导,因此对构造本体过程的管理并不 规范。目前本体的开发正从技术开发向本体工程阶段过渡,由于开发本体的团体处 于不同的学科领域,他们虽然总结出各个领域不同的开发方法、生命周期及体系结 构,但是本体的开发过程仍然没有一个通用的开发标准。 ( 3 ) 本体的评价缺少统一标准 本体评价应该贯穿本体建设的整个生命周期。目前本体研究还不成熟,对于本 体的构造成果,还没有统一的评价方法和工具,还不能进行合理的评价。 ( 4 ) 缺乏示范性的应用 w e b 环境的知识本体至少应该满足如下要求:语义共享、可交互性、一致性检 测、表示能力和扩展能力的平衡、易于使用、与其它标准的兼容、语言国际化等, 这些要求决定了本体的开发需要大量的人力、物力的支持。当前对本体驱动的应用 理论研究比较活跃,但是缺少实际的支撑性应用。 ( 5 ) 忽视本体的共享和重用 本体不仅仅是为某一个系统提供服务,它的主要目的是为不同系统提供交流的 语义基础。在本体构建的过程中,要把人类的知识不断积累转化成可识别的机器语 言。共享和重用是本体的本质要求,在本体构造中保证本体的共享和重用是非常重 要的问题。 2 8 本体描述语言的基本理论 本体描述语言是用来描述本体的,它使用户可以为领域模型编写清晰、形式化 的概念描述。事实上,本体描述语言起源于人工智能领域对知识表示的研究,因此 本体的描述语言不仅仅需要具有良好定义的语法和语义,充分的表达能力,更需要 有效的推理支持。在具体的应用中,本体的表示方式可以分为4 大类1 9 :非形式化、 半非形式化、半形式化、形式化语言。其形式化的程度越高越有利于机器的自动处 理,即本体可以采用自然语言来描述,也可用框架、语义网络或逻辑语言等来描述。 若要实现较强的检索推理功能,本体一般要用描述语言进行表达,这样更有利信息 华中科技大学硕士学位论文 设计是目前众多研究项目的研究热点。 根据本体的特点与本体的应用,要求本体语言必须满足以下四个基本条件【l l 】: 首先,本体语言应该基于某种形式的逻辑,描述的信息尽量涵盖半结构化的自然语 言;其次,由于本体是共享概念模型的明确的形式化规范说明,因而本体语言必须 是机器可识别的,方便可行的;再次,本体语言还必须具有翻译语言的功能,这样 才能保证所译出来的二进制编码的精确性和语言的语义性;此外,为实现本体问的 信息交流和共享,本体语言还必须支持语法和语义的互操作性,使用共有的、一致 的字典。 本体语言作为一种知识表示语言,为了计算机能识别和处理本体,则要求本体 语言应至少提供以下工具【1 2 l : ( 1 ) 本体语言的版本、名称域、本体描述性元数据等的定义语句和语法形式; ( 2 ) 类属性的定义语句和语法形式; ( 3 ) 类的定义语句和语法形式; ( 4 ) 本体顶层类及其属性; ( 5 ) 本体文件的封装方式等等。 只有具备了这些基本组成部分,本体语言才能发挥其应有的作用。本体语言不 仅要有描述能力,同时也应具备逻辑推理能力,因此它基本上都是基于某种逻辑语 言的,目前可用的本体语言主要基于一阶逻辑和描述逻纠”】。 2 8 1 一阶逻辑 一阶逻辑是一种形式语言系统,研究的是假设与结论之间的蕴含关系,即构造 一种命题逻辑关系,然后用逻辑的推理方法来证明其真假性。用一阶逻辑表达某一 领域有关问题的知识,实质就是用一阶逻辑来将这一自然语言符号化【。首先要将 一个原子命题分解为个体词和谓词两个部分,接着找出原子命题中所包含的量词, 然后用符号表示原子命题中个体词与谓词的关系。目前开发的基于一阶逻辑的本体 语言主要有o n t o l i n g u a 和l o o m 。 华中科技大学硕士学位论文 2 8 2 描述逻辑 描述逻辑【”】是一种基于对象的知识表示的形式化,也叫概念表示语言或术语逻 辑,它建立在概念和关系之上,其中概念解释为对象的集合,关系解释为对象之间 的二元关系。描述逻辑的基本组成部分是概念、角色和实例,简单的概念和角色可 以通过复合方式表示复杂的概念和角色。描述逻辑特别适用于表达结构化和半结构 化数据之间具有层次、多重继承、聚合及其组合的情况,被广泛用于知识建模、软 件工程以及基于万维网的信息系统等领域。用描述逻辑表示的知识库通常由t b o x 和a b o x 两部分组成,其中t b o x 是术语结构( t e r m i n o l o g y ) ,表示领域的一般性 知识,如领域中的概念及概念间的关系;a b o x 是事实断言( a s s e r t i o n ) ,用来表示 领域中特定问题的知识,如领域中的具体个体及个体间的关系。 描述逻辑是一阶逻辑的一个可判定的子集,描述逻辑系统能提供可判定的推理 服务,它保证推理算法总能停止,并返回正确的结果。一阶逻辑虽然具有很强的表 达能力,但其推理过程复杂,不利于本体的检验,而描述逻辑的推理复杂度更适用 于本体检验。并且,描述逻辑的语法容易转换成x l v l l r d f 形式,因此基于描述逻 辑的本体模型更具有广阔的应用前景。 2 9 基于一阶逻辑的本体语言 传统的本体表示语言有多种,基于一阶逻辑的本体表示语言有o n t o l i n g u a 、k i f 和l o o m 等,在此不作具体介绍。 2 1 0 基于描述逻辑的本体语言 2 1 0 1o i l 、d a m l 与d a m l + o i l 本体推论层( o n t o l o g yh 1 向l a y e r ,o i l ) 是由o n - t o - k n o w l e d g e ( 基于本 体演化的内容导向知识管理工具) 项目开发的一种本体语言,其语义基于描述逻辑, 语法建立在r d f 之上【1 6 1 。r d f 规范用来生成网络资源的描述,这些资源使用对象模 1 2 华中科技大学硕士学位论文 型被描述为资源、特性和声明1 1 7 1 o i l 提供本体工程中基于框架方法中广泛采用的 建模原语,以及描述逻辑中的规范语义和推理支持。这是最早的基于r d f 的本体描 述语言。 o i l 实现了描述逻辑中的语义规范和推理支持,在语法标准上和x m l 以及r d f 相兼容,结构包括核一f i , o i l 、标准o i l 、实例o i l 和重o i l 四层【1 8 l 。在从底层向高 层扩展的过程中,功能和复杂性都是逐级加强的。核心o i l 包括直接映射到r d f 原 语的o i l 原语;标准o i l 是完整的o i l 模型,采用r d f 以外的原语,既提供足够 的表达能力,又容易理解,因而允许语义的精确定义和推论;实例o i l 将概念和任 务增加到已有模型;重o i l 用于将来的扩展,加入其他表达和推理能力。o i l 的优 势在于以描述逻辑为基础,如果两个本体在定义中使用相同的术语集,可自动利用 包含关系来合并本体。此外,丰富的模型结构允许一致性检验,为构建高质量本体 提供方便。但是,o i l 定义的逻辑运算虽可以描述逻辑公式、规则和公理,却只能 表示一些代数属性而不支持广泛的公理描述。此外,o i l 与r d f 一样,没有明确的 输入机制,不能充分支持本体的发展,不能表示类和属性的同义,不能表达同一概 念的不同结构间的匹配。 d a m l + o i l 1 9 1 是由d a r p a 和欧盟合作进行的项目,是专门为语义w e b 设计的 一种本体描述语言,采用面向对象的方法用类和属性来描述领域的结构,具有清晰 的语义。它的目标是使a g e n t 能够动态地标识和理解信息资源,并为a g e n t 之间的 语义互操作提供支持,建立一种促进语义w e b 发展的语言和工具。d a m l 是x m l 和r d f 的扩展,以描述逻辑为基础,结合了o i l 的优点。d a m l 是建立在r d f 的 基础上,所以d a m l 也受到r d f 缺陷的限制。d a m l 最早的版本称为d a m l o n t , 现在与o i l 结合形成d a m l + o i l 。目前,d a m l 研究项目正在探索创建种具有足 够的方法表达公理和规则的d a m l 逻辑。 d a m l + o i l 的不足之处主要体现在1 2 0 :约束表达能力较弱,只能表示属性值的 基数约束,不能表示属性值的区间约束;不能表示任何规则,而无论是约束表示还 是规则表示对本体都是非常重要的。总的来说,d a m l + o i l 能结合前面的几种本体 语言的优点,在此基础上发挥更强的作用,可对于它们的缺点也并不能完全取消。 华中科技大学硕士学位论文 2 1 0 2o w l o w l 1 ( w e bo n t o l o g yl a n g u a g e ) 是由w 3 c 发布的本体描述标准,它以 d a m l + o i l 为基础,o w l 的基本思想是在表达力和推理复杂度之间取得平衡,既 要满足表达w e b 上信息的需求,又要控制推理复杂度,方便应用的开发。在描述客 观世界时,主要从概念和属性两方面进行,o w l 采用面向对象和面向数据类型的方 式来描述领域知识,并通过公理( a x i o m s ) 来描述这些类和属性的特征和关系。o w l 包括类、属性、类实例以及实例间的关系4 种基本元素。o w l 语言的表述能力主要 体现在对类和特性的描述上,它通过构造函数( c o n s t r u c t o r s ) 来构造类和特性。 o w l 语言按表达力从低到高分为3 个子语言:o w l l i t e 、o w l d l 和o w l f u l l 。 o w lf u l l 包括所有的r d f s 提供的原语和o w l 词汇,尽其所能提供最大程度的知 识描述能力,o w lf u l l 供需要最强表现能力与自由的r d f 语法,即使没有可计算保 证也浸关系的用户使用。o w lf u l l 并没有使得本体简单化,而且还不是很成熟,因 此还在不断地更新中。o w ld l 提供大部分o w l 词汇支持和r d f s 支持,并在语 义上等同于描述逻辑,在对本体进行描述时,它保证计算的完整性和可判定性。o w l l i t e 用于提供分类结构和简单约束,可它也有一定的限制条件,也就是迁移属性不能 有值为1 的最大基数。它是o w ld l 中相对容易实现部分的子集合,在形式上也没 有o w ld l 那么复杂。这3 个子语言的关系如下:每一个合法的o w ll i e 都是一 个合法的o w ld l 本体;每一个合法的o w ld l 本体都是一个合法的o w lf l l i l 本 体;每一个有效的o w ll i r e 结论都是一个有效的o w ld l 结论;每一个有效的o w l d l 结论都是一个有效的o w lf i l l l 结论。反之,则不成立。 2 1 1 本体语言的演进 本体描述语言起源于人工智能领域对知识表示的研究,因此本体的描述语言不 仅仅需要具有良好定义的语法和语义,充分的表达能力,更需要有效的推理支持阱j 。 b e r n e r s l e e 的语义网的提出已经激发了许多对标记语言的研究。不同的研究团体提 出了针对语义网表达的很多建议和语言,这些语言构成了当今语义网的基础【2 引。1 9 9 9 1 4 华中科技大学硕士学位论文 年,致力于语义网研究的d a m l ( d a r p aa g e n tm a r k u pl a n g u a g e ) 委员会在美国 成立,它的目标是为下一代语义网提供一个坚实的基础。此时该组织的研究共识是: 采用一个通用的本体描述语言将有利于各个项目之间的语义互操作。当时,r d f s 已 被建议作为w 3 c 标准语言,是w 3 c 在x m l l 2 4 l 的基础上推荐的一种标准,是用于 表达万维网上的信息资源的语言【2 5 1 。它专门用于表达w e b 资源的元数据,如资源的 标题、作者、版权、主题等信息,用来描述w e b 资源的特性及资源与资源之间的关 系 2 6 1 。但是r d f s 不是通过类的实例可能具有的性质来定义类,而是通过与该性质 相关联的资源类来定义性质的,由此可知它微弱的语义表达能力不能满足d a m l 的 需求。为此,d a m l 吸取面向对象语言和基于框架的知识表达语言方面的经验,扩 展了r d f s ,促使了本体语言d a m l o n t 的诞生。 d a m l o n t 的推出,在语义上与r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论