




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的教学管理系统语义检索研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨下程大学硕十学位论文 摘要 语义检索作为一种新的信息检索技术,它可以在知识理解和知识推理的 基础上实现对信息资源的准确、全面的检索。来自于哲学并首先被人工智能 领域借用的o n t o l o g y 在语义检索中具有非常重要的作用,它为领域知识的创 建和共享提供了一种灵活、全面的描述和存储机制。 本体是语义检索的重要辅助手段,由于本体本身具有一定的推理能力, 可以利用本体进行查询扩充,从而使检索结果更加全面;本文详细的讨论了 本体的定义、分类、以及初具规模的本体模型,并在此基础上进一步分析了 几种主要的本体描述语言,深入分析了本体表示语言四l ,并从不同方面对 它们进行了分析和比较;对目前国内外主要的本体构建方法进行了比较研究, 分析其局限性;对目前主要的5 种本体构建工具进行了介绍,并从不同角度 对其进行了评价,说明了本课题选用p r o t 6 9 6 的原因。详细介绍了构建教学 管理领域本体库的过程,并总结了经验,从而为类似领域本体的构建提供了 参考。 以构建的本体为基础,开发语义检索原型系统,研究其构建原理、工作 流程和开发方法,通过系统运行分析,语义检索实验系统比传统的基于关键 字的查询方法具有更高的查全率和查准率。因此研究基于本体的语义检索问 题,具有很强的理论和实际意义。 关键词:语义检索;本体;0 w l :j e n a :语义推理 堕玺鎏王堡盔堂亟主堂垡丝窒 a b s t r a c t a san e wt e c h n o l o g yo fi n f o r m a t i o nr e t r i e v a l ,s e m a n t i cr e t r i e v a l c a nr e t r i e v ei n f o r m a t i o nr e s o u r c ef u l l ya n dp r e c i s e l yb a s e do nt h e k n o w l e d g eu n d e r s t a n d i n ga n dk n o w l e d g er e a s o n i n g o n t o l o g y , w h i c h c o m e sf r o mp h il o s o p h ya n df i r s t l yu s e da so t h e rm e a n i n gi nt h ed o m a i n o fa r t i f i c i a li n t e l l i g e n c e ,i sv e r yu s e f u li nt h es e m a n t i cr e t r i e v a l , i tc a np r o v i d eaf l e x i b l ea n df u l l s c a l em e c h a n i s mo fd e s c r i p t i o na n d s t o r a g ef o rt h es h a r ea n dc r e a t i o no fd o m a i nk n o w l e d g e o n t o l o g yi s t h ea s s i s t e dm e t h o di nt h es e m a n t i cr e t r i e v a l a s o n t o l o g yi t s e l fh a sc e r t a i nd e g r e eo fi n f e r e n c ea b i l i t y ,w em a yu s e o n t o l o g yt oe x p a n do u rq u e r ya n dt h u sc a u s e st h er e s u l tt ob em o r e c o m p r e h e n s i v e :t h ea u t h o ra n a l y z e dt h ed e f i n i t i o n ,c l a s s i f i c a t i o n , b u i l d i n gm e t h o d o l o g y t h ep a p e ri n t r o d u c e sr d f ,r d f s ,o i l ,d a m k + o i l a n do w l ,e s p e c i a l l yt h eo w l a n dg i v e sa na n a l y s i sa n dc o m p a r i s o no f t h e s el a n g u a g e s p o i n t so u tt h e i rc h a r a c t e r i s t i c sw i t hr e s p e c tt os o m e k e ya s p e c t s t h ep a p e rm a k e sac o m p a r a t i v es t u d yo nt h em e t h o d so f b u i l d i n go n t o l o g y ,p r e s e n t st h e i r1 i m i t a t i o n s t h ep a p e rs u r v e y sa n d c o m p a r e s5f a m i l i a ro n t o l o g y b u i l d i n gt o o l sb yt h ea i do fa ne v a l u a t i o n f r a m e w o r k ,a n dd r a w sac o n c l u s i o nt h a tp r o t e g ei sb e t t e r t h a nt h e o t h e r s t h ep a p e rp r e s e n t si nd e t a i lh o wt ob u i l d i n ge a ob a s e do n p r o t e g e ,g i v e ss o m er e f e r e n c et ob u i l d i n go n t o l o g yi nt h es i m i l a r d o m a i n w ed e v e l o pap r o t o t y p es e m a n t i cr e t r i e v a ls y s t e mm o d e lb a s e d0 n o u rc o n s t r u c t e do n t o l o g y w es t u d yi t sp r i n c i p l eo fc o n s t r u c t i o n t h e n b ya n a l y z i n gc i r c u l a t i o no fc o n s t r u c t i o n ,w o r k i n gf l o wm e t h o d so f d e v e l o p m e n t t h e nb ya n a l y z i n gc i r c u l a t i o no fs y s t e m ,w et h i n kt h a t t h es e m a n t i cr e t r i e v a ls y s t e mb a s e do no n t o l o g yi sm o r er o u n da n de x a c t t h a nt h er e t r i e v a lm e t h o db a s e do nk e y w o r do ft r a d i t i o n a lw a y s oi t 哈尔滨t 程大学硕士学位论文 i sv e r yu s e f u lt or e s e a r c ht h ei s s u eo n t o l o g y b a s e d s e m a n t i c r e t r i e v a l k e v w o r d s :s e m a n t i cr e t r i e v a l :o n t o l o g y :w e bo n t o l o g yl a n g u a g e :j e n a ; s e m a n t i cr e a s o n i n g 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 起么拉 日期:乒唧年文月2 9 e t 哈尔滨t 程大学硕十学付论文 第1 章绪论 1 1 课题背景及研究意义 传统的信息检索系统,比如全文检索系统和大部分的搜索引擎,其模型 的建立是基于关键字的匹配和倒排索引表的,只能根据用户的关键字输入进 行匹配检索,但是由于模型上的缺陷,使得传统的方法不能够识别用户提问 中单词的语义,只能从大批量的网页和文献中机械的匹配,运算量较大,并 且返回的集合规模庞大,往往以几千甚至几万条计,这样对于用户既没有实 际意义,又由于缺乏一定相关性,从而使检索结果不尽如人意。 1 查准率和查全率得不到保证 由于检索提问式过于自由简单,造成检索返回信息过多,查准率和查全 率都得不到保证。究其根本原因:1 ) 没有对检索词的含义作限制,计算机无法 识别其语义;2 ) 对检索提问形式不做规范,计算机不能“理解”真正的检索 意图;3 ) 单纯的字符匹配无法提供基于概念的智能检索。 2 检索结果缺乏统一的输出形式,不能被共享和重用 目前搜索引擎输出的检索结果是一系列网址列表,不能直接回答检索提 问。如果对搜索引擎进行提问,用户预期的应该是一个具有语言意义的答案, 可是搜索引擎反馈回来的结果是一些网址,需要人工进一步分析、归纳和整 理才能得到最终结论。这暴露出第二个瓶颈问题,即输出结果不能直接被其 他智能处理软件再利用。 3 无法集中处理分布在多个网页上的相关信息 要了解从事某项研究工作的所有成员,e p 4 , 组情况时,需要先分别搜索 每一个组员的主页,然后人工汇总才能描绘出小组的全貌。这说明现有的网 络搜索技术在搜索处理大型的、复杂的、多层次的数据时无能为力,必须借 助人工参与才能完成。 4 无法搜索提供网页上的隐含信息 所谓隐含信息是指那些没有一被文字直接表述出来,但隐含在网页内容 中或者由其他相关网页提供的一些重要的信息。 1 哈尔滨1 = 程大学硕十学位论文 综上所述,要想彻底解决上述问题,必须在下面3 个方面做改进: i 在用户提问检索条件中增加语义层次的信息,赋予检索式语义表达功 能: 2 制定严格规范的语法规则,规范检索结果的输出格式,便于检索结果 的共享和重用; 3 加强搜索引擎的推理功能,在完成对信息源搜索的基础之上,依据相 关的背景信息实现基于概念的智能检索。 本文重点研究的是语义检索,其特点在于检索过程中不是基于字面的机 械匹配,也不是基于字段的匹配,而是基于知识理解和推理的语义匹配。语 义检索技术和方法特别是面向网络信息资源的语义检索,是信息检索和人工 智能领域目前的研究重点和热点。语义检索的实现,将极大地提高检索的准 确率和查全率,得到令人满意的检索结果。 1 2 国内外相关领域的研究现状 1 2 i 信息检索研究概况 目前正在研究和使用的文本信息检索技术可以分为三类:全文检索、数据 检索和语义检索( 知识检索) 。其中,全文检索是基于词语的机械匹配的,比 较好地保证了检索的查全率,但是查准率不能令人满意;数据检索是基于一 定的格式和结构对特定字段的检索,这是目前国内主要的期刊论文数据库所 采用的主要检索方法,但是这种方法要求人工基于特定的字段对信息资源进 行标识,检索的效果取决于标识方法的优劣以及用户对标识字段的理解;语 义检索则是基于知识的、语义的匹配,在提高检索的查准率和查全率方面都 有很好的表现。 1 2 2 本体的研究现状 国内进行本体研究的主要有三支科研力量。一是中国科学院计算所、数 学所、自动化所的若干实验室,代表人物是陆汝钤院士、金芝博士、武成岗 等人。二是哈尔滨工业大学计算机系,代表人物是王念滨博士。三是浙江大 学人工智能研究所,代表人物是博士生导师高济教授。 2 哈尔滨_ t 程大学硕十学位论文 1 中国科学院的研究 中国科学院自1 9 9 8 年就开始从事本体领域的课题研究。中科院计算技术 研究所智能信息处理开放实验室的史忠植、武成岗、田启家等人致力于研究 利用多智能主体和本体理论设计信息检索服务器。该服务器集成了界面主体、 预处理主体、管理主体、信息处理主体和具有移动性的信息搜集主体,并利 用本体对文档进行领域分类,同时对用户的查询信息进行规范。该系统能够 比较及时地反映网络中信息的动态变化,并具有较好的信息导航能力。 2 哈工大计算机系的研究 从1 9 9 9 年至今,哈工大计算机科学与工程系的研究人员一直致力于企 业本体论系统的构建和相关理论的研究。王念滨博士等人的研究是国内极少 数面向企业需求进行本体构建的实用性研究。在国内各大中型企业纷纷逐步 走向集团化、跨国经营的模式,且逐渐实现生产、管理的全部数控( c i m s ) 模式的过程中,这一研究具有重要的实践价值和指导意义。 3 浙大人工智能研究所的研究 高济教授早在2 0 世纪8 0 年代末就开始从事基于问题求解的专家系统的 研究和设计工作。在知识表示和专家系统方面的重要成果,使得以高济为代 表的浙大人工智能研究所无论在新技术( 如x m l ,r d f 以及u m l ) 的运用,还是 在本体的研究中都处于国内领先水平。 国外的重要的本体包括:w o r d n e t 、f r a m e n e t 、o n t o s e e k 、c y c ,下面对 以下几个本体的功能做一下简要介绍。 1 w o r d n e t 是由美国普林斯顿大学( p r i n c e t o nu n i v e r s i t y ) 认知科学实验室 ( c o g n i t i v es c i e n c el a b o r a t o r y ) 的g e o r g ea m i l l e r 教授负责开发研制 的。它的设计思路来源于心理语言学和人类词汇记忆的计算理论。迄今为止, 被认为是计算语义学、文本分析等相关领域研究者可获取的最为重要的资源。 2 f r a m e n e t 美国加州大学伯克力分校研究的f r a m e n e t 是一部“在线的英语辞源”。 它包含了对英语动词广泛而深入的语义分析和基于词根的表示结构。 3 o n t o s e e k o n t o s e e k 的第一个原型系统是i b m 和苹果电脑公司的意大利分公司与 3 哈尔滨工程大学硕士学位论文 意大利国家科研委员会系统科学和生物工程研究所合作开发两年之久的成 果。o n t o s e e k 是一个集中了在线黄页和产品目录的,基于内容检索的系统。 o n t o s e e k 将一个本体驱动的内容匹配机制与一个具有中等表达能力的表示 形式化系统相结合,尝试如何将本体和大辞典数据库相集成,为用户提供一 个可以使用领域内任意词汇进行交互式语义查询的系统。 4 c y c c y c ,是取了单词e n c y c l o p e d i a ( 百科全书) 中间的三个字母,c y e 旨在提 供一种可以为其它程序使用的“深层次的”理解。它的知识服务器( k n o w l e d g e s e r v e r ) 包含一个非常庞大的多语境知识库( m u l t i c o n t e x t u a lk n o w l e d g e b a s e ) 以及自主开发的推理引擎。c y c o r p 集团的目标是打破“软件开发的瓶 颈”,构建“通用性常识”知识基础一集结了术语、规则和关系的语义底层, 这一知识库的成功将带来为数众多的知识密集型产品和服务。 1 2 3 本体在语义检索中的应用现状 信息检索中的语义在客观上是存在的,只是可供表达和处理的方式不同, 可以将其分为连续的四个层次,如表1 1 所示。 表1 1 信息检索中的语义层次 层次特点清晰程度形式化程度 语义的传递主要靠人 含糊不清的地方较 隐含的语义无 类的共识 多 明确的、非形式化的 语义的传递通过术语比较清晰,人类理解 表或者说明文档的约个体间存在较大差自然语言描述 语义 定 异 用于人类理解的明确 语义的传递通过正式 人类理解个体间可 基于人类理解 的文件和对意义的规的形式化语言 的、形式化的语义能存在偏差 范描述 基于计算机处 用于计算机处理的明语义的传递通过计算 完全清晰一致理的形式化语 确的、形式化的语义机的自动化推理 言描述 对于第一层,实际上人类的脑海中存在一个巨大的o n t o l o g y 雏形,但是 这个“o n t o l o g y ”的一致性很差,也不能够被计算机处理,所以严格意义上 讲还不能算作o n t o l o g y ;第二层对应于完全非形式化和结构非形式化 的,o n t o l o g y 包含的语义必须通过人类的阅读和理解,通过人脑来推理;第 4 哈尔滨工稃大学硕士学位论文 三层对应于半形式化的o n t o l o g y ,这种o n t o l o g y 主要用于比较严谨的人类 理解,人们可以硬性地将其反映到计算机应用系统中,从而实现一定的计算 机语义检索的效果;第四层对应于完全形式化的o n t o l o g y ,使用计算机可以 理解和处理的语言和结构来描述o n t o l o g y ,从而实现计算机完全自动化的语 义检索和推理。这四个层次也反映出基于语义的信息检索的四个层次。 本文主要研究语义检索的第四个层次,使用完全形式化的o n t o l o g y 表达 明确的语义,结合其他计算机的相关处理,从而实现语义检索。 1 3 本文的主要研究内容及论文组织 具体章节安排如下: 第1 章为绪论,主要介绍本文的研究背景,语义检索和本体的研究现状, 本体在语义检索中的应用,最后介绍本文研究内容以及论文的章节安排。 第2 章是本体及相关技术分析,包括本体的基本概念、本体描述语言、 建设方法和工具,最后通过分析对比,给出本文所使用的本体描述语言和建 模工具。 第3 章领域本体的建立,深入探讨了领域本体建设的具体过程,通过本 体辅助编辑工具p r o t 6 9 $ 3 1 1 构建学术论文领域本体,并采用o w l 语言进行 描述。 第4 章实现语义检索的相关技术,包括j e n a 的各部分组成及主要功能, 以及语义距离、语义相似度、语义相关度的研究。 第5 章基于本体语义检索系统模型的构建,主要内容包括语义检索系统 模型的提出、模型的各个组成部分的详细描述,并通过实验分析本检索系统。 最后是结论,对本文的主要研究成果进行总结,并指出进一步研究的内 容。 5 哈尔滨丁稃大学硕士学位论文 第2 章本体及相关技术分析 2 1 引言 近些年来,由于因特网的快速发展,面对信息的海洋,如何组织、管理 和维护海量信息并为用户提供有效的服务也就成为一项重要而迫切的研究课 题。为了适应这些要求,本体作为一种能在语义和知识层次上描述信息系统 的概念模型建模工具,自被提出以来就引起了国内外众多科研人员的关注, 并在计算机的许多领域得到了广泛的应用。 2 2 本体的定义 本体最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界 给予了新的定义。比较有代表性的有:1 9 9 1 年n e c h e s 等提出的“给出构成 相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则”;【l 】w n b o r s t 对该定义进行了引伸“本体是共享的概 念模型的形式化的规范说明”; 2 1f e n s e l 对这个定义进行分析后认为 o n t o l o g y 的概念包括四个主要方面: 1 概念化( c o n c e p t u a l i z a t i o n ) :客观世界的现象的抽象模型; 2 明确( e x p l i c i t ) :概念及它们之间联系都被精确定义; 3 本体的分类形式化( f o r m a l ) :精确的数学描述; 4 共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 2 3 本体的分类 通常情况下,可以按照本体的开发目的、研究主体、形式化程度对本体 进行分类。 1 根据本体的研究主题,可以分为知识表示本体、通用或者常识本体、 领域本体、语言学本体、任务本体等。其中知识表示本体的研究重点是语言 对知识的表达能力;通用或者常识本体关注于常识知识的使用;领域本体则 在一个特定的领域可以重用,他们提供特定的概念定义和概念之间的关系, 6 哈尔滨丁稃大学硕十学位论文 提供该领域中所发生的活动以及该领域的主要理论和基本原理等,对特定领 域的本体研究和开发目前己经涉及到许多领域,包括企业本体、医学概念本 体、酶催化生物学本体等:语言学本体是指关于语言、词汇等的本体:任务本 体主要是指可以共享的问题求解方法,这里的推理方法与领域无关,任务本 体主要涉及动态知识,而不是静态知识。 2 根据本体形式化程度分类,可以分为完全非形式化本体、结构非形式 化本体、半形式化本体、以及形式化本体。 3 根据本体的研究层次,可以分为顶层本体、领域本体、任务本体和应 用本体等。其中,顶层本体主要研究非常通用的概念,如空间、时间、事物、 对象、事件、行为等,他们完全独立于特定的问题或者领域,因而可以在很 大的范围内共享;领域本体主要研究与一个特定领域相关的术语或者词汇, 如医学、企业模拟等;任务本体主要用于定义通用任务或者推理活动,如诊 断等,它们可以应用顶层本体中定义的词汇来描述自己的词汇;应用本体主 要用于描述特定的应用,它既可以引用特定的领域本体中的概念,又可以引 用任务本体中的概念。 2 4 本体的描述语言 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有 r d f 初r d f - s ,o i l ,d a m l ,o w l ,k i f ,s h o e ,x o l ,o c m l ,o n t o li n g u a ,c y c l , l o o m 。下面我们简要介绍以下几种。 1 r d f 、r d f s r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架,是w 3 c 在x m l 的基 础上推荐的一种标准,用于表示任何的资源信息。r d f 提出了一个简单的模 型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连 接弧所组成。节点用来表示w e b 上的资源,弧用来表示这些资源的属性。因 此,这个数据模型可以方便的描述对象( 或者资源) 以及它们之间关系。r d f 的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解 为多个简单的二元关系,因此r d f 的数据模型可以作为其他任何复杂关系模 型的基础模型。w 3 c 推荐以r d f 标准来解决x m l 的语义局限。 r d f 和x m l 是互为补充的。首先,r d f 希望以一种标准化,互操作的方式 7 哈尔滨工程大学硕七学位论文 来规范x 札的语义。x m l 文档可以通过简单的方式实现对r d f 的引用。其次, 由于r d f 是以一种建模的方式来描述数据语义的,这使得r d f 可以不受具体 语法表示的限制。但是r d f 仍然需要一种合适的语法格式来实现r d f 在w e b 上的应用。将r d f 序列化为x 札表示可以使r d f 获得更好的应用可处理特性, 并使得r d f 数据可以像x m l 数据一样的容易使用、传输和存储。 因此,r d f 是定制x 札的良伴,而不只是对某个特定类型数据的规范表 示,x m l 和r d f 的结合,不仅可以实现数据基于语义的描述,也充分发挥了 x m l 与r d f 的各自优点,便于w e b 数据的检索和相关知识的发现。 2 o i l m o n t o l o g yi n f e r e n c el a y e r o n t 0 1 0 9 yi n t e r c h a n g el a n g u a g e ,o i l 是 一种针对本体的基于互联网的表现和推理层,o i l 综合了三个不同团体的工 作,提供一种通用的语义互联网的标记语言,这三方面的工作分别是: 1 、基于框架的系统,基于框架的语言在a i 中有很长的历史,它们的中心建 模元语是类( 称作框架) 和属性( 称为槽) 。 2 ,描述逻辑,描述逻辑通过概念( 对应于类或者框架) 和角色( 对应于槽) 描述知识。d l 的一个重要特征是它们具有良好的理解理论性质,并且在d l 中任何表达的含义都可以通过数学的精确的方式描述,o i l 从d l 中继承了形 式化语义和有效的推理支持。 3 、互联网标准,这里指的是x m l 和r d f 。o i l 标记语言的语法源自w 3 c 的这 些标准。 o i l 的使用比较广泛,支持o i l 的工具也很多,最著名的有o i l e d ,是一 个基于o i l 的本体编辑器。其他一些工具,比如o n t o e d i t 、t h ef a c t ( f a s t c l a s s i f i c a t i o no ft e r m i n o l o g i e s ) s y s t e m 等也都支持o i l 。 3 d 枷 8 1 d a r p aa g e n tm a r k u pl a n g u a g e ,该项目正式开始于2 0 0 0 年8 月,由美 国政府支持,目标是开发一种语言和一组工具,为语义互联网提供支持,m a r k g r e a v e s 是该项目的领导者,d h m l 形成于d a m l o n t ( 一种本体语言) 和 d h m l - l o g i c ( 一种表达公理和规则的语言) 。 d a m l 提出的原因和o i l 类似,一批支持语义互联网的研究者发现x m l 、 r d f 作为模式语言其表达能力很有限,希望开发一种有更强的表达能力的模 8 哈尔滨丁程大学硕士学位论文 式语言。尽管d a m l 并不是w 3 c 的标准,但是参与的开发者中有很多来自w 3 c 的工作者,包括t i mb e r n e r s l e e 。 d a m l 扩展了r d f ,增加了更多的更复杂的类、属性等定义。它一度很流 行,成为网上很多本体的描述语言,直到d a m l 的研究者和o i l 的研究者开始 合作,推出了d a m l + o i l 语言,成为w 3 c 研究语言互联网的本体语言的起点。 4 o w u 3 a o w l 全称w e bo n t o l o g yl a n g u a g e ,是w 3 c 推荐的语义互联网中本体描述 语言的标准。它是从欧美一些研究机构的一种结合性的描述语言d a m l + o i l 发展起来的,其中d a m l 来自美国的提案d h m l - o n t ,o i l 来自欧洲的一种本体 描述语言。在w 3 c 提出的本体语言演化图中,o w l 处于最上层,见下图: 图2 1 语义w e b 标准语言演化图 针对不同的需求o w l 有三个子语言,描述如表2 1 所示: g 哈尔滨工稃大学硕十学位论文 表2 1o w l 子语言 子语言 描述例子 用于提供给那些只需要一个分类层次和简单的属 支持基数,只允许基数 佣ll i t e 性约束的用户。为0 或1 。 支持那些需要在推理系统上进行最大程度表达的当一个类可以是多个 用户,这里的推理系统能够保证计算完全性和可类的一个子类时,它被 o w ld l 决定性。它包括了o w l 语言的所有约束,但是约束不能是另外一个 可以被仅仅置于特定的约束下。类的实例。 支持那些需要在没有计算保证的语法自由的r d f 一个类可以被同时表 上进行最大程度表达的用户。它允许在一个 达为许多个体的一个 o 霄lf u l l o n t o l o g y 预定义的( r d f 、o l r l ) 词汇表上增加词 集合以及这个集合中 汇,从而任何推理软件均不能支持o w lf 【i l l 的所 的一个个体。 有特征。 这三种子语言之间的关系是:每个合法的o w ll i t e 都是一个合法的o w l d l ;每个合法的0 w ld l 都是一个合法的o w lf u l l ;每个有效的o w ll i t e 结 论都是一个有效的o w ld l 结论;每个有效的o w ld l 结论都是一个有效的o w l f u l l 结论。 用户在选择使用哪种语言时的主要考虑是:选择o w ll i t e 还是o w ld l 主要取决于用户需要整个语言在多大程度上给出了约束的可表达性;选择 o w ld l 还是o w lf u l l 主要取决于用户在多大程度上需要r d f 的元模型机制; 在使用o w lf u l l 而不是o w ld l 时,推理的支持不可预测,因为目前还没有 完全的o w lf u l l 的实现。 5 k i p 田 k n o w l e d g ei n t e r c h a n g ef o r m a t ( k i f ) 是一种为了在不同的计算机系统 ( 这里的不同是指由不同的程序员在不同的时间使用不同的语言开发等) 之 间交换知识而设计的语言。它的主要目的不是和人交互,也不是在一个计算 机系统内部作为知识的表现方式,只有在不同的计算机系统之间需要交换知 识的时候,它们把各自的内部表现方式转换成k i f ,交互后再转换成各自的 方式。它是由斯坦福大学的t h el o g i cg r o u p 提出并实现的,是一种美国标 准( a n s i ) 。 在k i f 的设计中,以下特征是其本质特性:有公开的语义,它不再需要 专门的解释器;在逻辑上是全面的,可以对任意的逻辑语句进行表达;提供 对元知识的表现。 l o 哈尔滨下稃大学硕士学何论文 6 s h o d s l s i m p l eh t m lo n t o l o g ye x t e n s i o n s ,简单h t m l 的本体扩展。这是一种 与x m l 一致的互联网知识表达语言,使得网页编辑者可以对他们的互联网文 档进行标注。由马里兰大学计算机系提出的,但是目前他们有关本体的研究 项目已经使用o w l 和d a m l + o i l 作为互联网本体的描述语言,s h o e 已经停止 研究了。 s h o e 是h t m l 的一个超集,它扩展了一些标记,使得在h t m l 中可以增加 任意的语义数据。它的标记有两类,一类用于创建本体,一类用于注解文档。 2 5 本体的构建方法 2 5 1 骨架法嘲 建设本体的方法包括如下步骤: 1 识别目的和范围( i d e n t i f yp u r p o s ea n ds c o p e ) 这个阶段需要弄清楚为什么要建立本体? 建好后的用途有哪些? 使用该 本体的用户范围是什么? 2 建设本体( b u i i d i n gt h eo n t o l o g y ) 1 ) 本体捕获( o n t o l o g yc a p t u r e ) ) 2 ) 本体编码( o n t o l o g yc o d i n g ) 该阶段是利用某种形式化语言显式地 表现上个阶段的概念化成果; 3 ) 集成现有本体( i n t e g r a t i n ge x i s t i n go n t o l o g i e s ) 在达成一致方 面有很多工作需要完成。 3 评价( e v a l u a t i o n ) 并没有提出自己的评价方法。引用了g o m e z - - p e r e z 关于e v a l u a t i o n 的定义,需要参见更多的文章。 4 文档化( d o c u m e n t a t i o n ) 目前很多知识库和本体缺少文档也是一种知识共享的障碍,这些文档应 该包括本体中定义的主要概念、m e t a - o n t o l o g y 等。某些编辑器可以自动生 成这些文档。 5 每阶段的指导方针( g u i d e l i n e sf o re a c hp h a s e ) 1 1 哈尔滨1 = 程大学硕士学位论文 把设计本体的初始的指导方针总结为以下设计标准:清楚( c l a r i t y ) 、 一致( c o h e r e n c e ) 、可扩展性( e x t e n s i b i l i t y ) 、最小本体的承诺( m i n i m a l o n t o l o g i c a lc o m m i t m e n t ) 、最小的编码偏差( m i n i m a le n c o d i n gb i a s ) 。 2 5 2t o v e 法【4 】 t o v eo n t o l o g yp r o j e c t 是多伦多大学e n t e r p r i s ei n t e g r a t i o n l a b o r a t o r y 的一个项目,它的目标是建立一套为商业和公共企业建模的集成 本体,并且已经建成了相关本体。作为该项目的一部分,他们设计了一套创 建和评价本体的方法“e n t e r p r i s em o d e l l i n gm e t h o d o l o g y ”。该方法包括如 下几个步骤: 1 激发场景( m o t i v a t i n gs c e n a r i o ) 应用领域的某些场景激发了本体的建设,因此,给出一个场景有助于理 解建设本体的动机。 2 非形式化的能力问题( i n f o r m a lc o m p e t e n c yq u e s t i o n s ) 提出一个本体应该能够回答的各种问题,作为需求。通过指明能力问题 和场景之间的关系,可以对新扩展的本体进行一定的非形式化的判断。也是 一种初始的评价,来判断是否需要扩展本体,或者现有本体是不是已经可以 涵盖所提出的非形式化问题。 3 一阶逻辑表达的术语规格说明( s p e c i f i c a t i o ni nf i r s t - o r d e r l o g i c t e r m i n o l o g y ) 识别领域中的对象,并用一阶逻辑等方式表达出本体中的术语。 4 形式化的能力问题( f o r m a lc o m p e t e n c yq u e s t i o n s ) 用形式化的术语把非形式化的能力问题定义出来。 5 一阶逻辑表达的公理规格说明( s p e c i f i c a t i o ni nf i r s t - o r d e r l o g i c - a x i o m s ) 本体中的公理指定了术语的定义以及约束。采用本体中的谓词将公理定 义为一阶逻辑的句子。这只是本体的规格说明,并不是本体的实现。 6 完备性定理( c o m p l e t e n e s st h e o r e m s ) 当能力问题都被形式化的表述之后,必须定义在什么条件下这些问题的 解决方案是完备的。 1 2 哈尔滨工程大学硕士学位论文 2 5 3m e t h o n t o l o g y 方法m m e t h o n t o l o g y 是一种建设本体的结构化方法,介绍如下: 1 规格说明书( s p e c i f i c a t i o n ) 该阶段要产生一份以自然语言编写的非形式化的、半形式化的、或者形 式化的本体规格说明书。至少包括以下信息:本体的目的( 预期的用途、场 景和最终用户等) 、实现本体的形式化程度、范围( 包括要表达的术语集、它 们的特性和粒度) 。 虽然无法确保规格说明书的完整性,但是必须保证一个好的本体规格说 明书应该满足以下性质:简洁、部分完整性、一致性。 2 知识获取( k n o w l e d g ea c q u i s i t i o n ) 知识的来源很多,可以是:专家、书籍、手册、数字、表格、甚至是其 他的本体。从这些数据源获得知识的关联技术包括:头脑风暴法、访谈、文 本的形式化或非形式化的分析和一些知识获取工具。 3 概念化( c o n c e p t u a l i z a t i o n ) 该活动将领域知识组织成概念模型,用规格说明书中识别的领域词汇表 描述问题和解决方案。生成的概念模型允许最终用户确定一个本体是否有用, 并且对于某个给定应用不需要查看源代码就是可用的;比较数个本体的范围、 完整性、可重用性、共享性。 4 集成( i n t e g r a t i o n ) 重用别的本体中已经建好的定义时,可以查看元本体,选择适合自己概 念模型的;也可以选择和自己概念模型中的语义和实现一致的术语定义。 5 实现( i m p l e m e n t a t i o n ) 用任何一种形式化的语言编码实现本体。需要一套开发环境的支持,至 少包括:词法和语法分析器、翻译器、编辑器、浏览器、搜索器、评价器、 自动维护工具。 6 评价( e v a l u a t i o n ) 评价是指在本体生命周期的每个阶段和阶段之间,利用某种参考框架对 本体、软件环境、文档进行技术判断。评价包括正确性( v e r i f i c a t i o n ) 和 有效性( v a li d a t i o n ) 。 哈尔滨工程大学硕十学位论文 7 文档化( d o c u m e n t a t i o n ) 在本体建设的全过程中每个阶段都应该有对应的文档。 2 5 4l d e f - 5 建模法 5 1 i d e f 的概念是在7 0 年代提出的结构化分析方法的基础上发展起来的。在 1 9 8 1 年美国空军公布的i c a m :i n t e g r a t e dc o m p u t e ra i d e dm a n u f a c t u r i n g 工程中首次用了名为“i d e f ”的方法。i d e f 是i c a md e f i n i t i o nm e t h o d 的 缩写,到目前为止它已经发展成了一个系列。本体描述获取方法i d e f 5 ( o n t o l o g yd e s c r i p t i o nc a p t u r em e t h o d ) 提供了两种语言形式,即图表语 言和细化说明语言来获取某个领域的本体论。这两种语言是互为补充的, i d e f 5 的图表语言在表达能力的某些方面是很有限的,但是它的这种绘图式 方式又使得它很直观,容易被理解;而i d e f 5 的细化说明语言是一种具有很 强的表达能力的文本语言,它可以把隐藏在图表语言内的深层次的信息描述 清楚,从而可以弥补图表语言的不足。另一方面,i d e f 家族中的方法都是互 相补充的,而在一个概念模型的描述中会遇到很多的相继发生的事件,即一 个过程。那么对这些过程的描述也需要有一个很好的支持语言,i d e f 3 ( p r o c e s sf l o wa n do b j e c ts t a t ed e s c r i p t i o nc a p t u r em e t h o d ) 正是一 种为获取对过程的准确描述所用的方法。它提供过程流图和对象状态转移网 图( o s t n ) 这两种图表来获取,管理和显示过程。i d e f 一5 提出的本体建设方 法包括以下五个活动: 1 组织和范围( o r g a n i z i n ga n ds c o p i n g ) 确定本体建设项目的目标、观点和语境,并为组员分配角色。 2 数据收集( d a t ac o ll e c t i o n ) 收集本体建设需要的原始数据。 3 数据分析( d a t aa n a l y s i s ) 分析数据,为抽取本体做准备。 4 初始化的本体建立( i n i t i a lo n t o l o g yd e v e l o p m e n t ) 从收集的数据当中建立一个初步的本体。 5 本体的精炼与确认( o n t o l o g yr e f i n e m e n ta n dv a l i d a t i o n ) 完成本体建设过程。 1 4 哈尔滨1 = 程大学硕士学位论文 2 5 5c y c i j ca c q u i s i t i o np r o c e s s 4 m a e d c h e 有一系列关于从文本中抽取领域本体的文章,提出了这种本体 获取的方法论,它是一种环状的结构。 1 环形的起点是一个通用的核心本体的选择 任何大型的通用本体( 像c y c 、d a h l g r e n 的本体) 、词汇一语义网( 像 w o r d n e t 。6 e r m a n e t ) 、或者领域相关的本体( 像t o v e ) 都可以作为这个过程 的开始。选定基础本体后,用户必须确定用于抽取领域相关实体的文本。 2 从选择的文本中获取领域相关的概念,并建立概念之间的分类关系。 3 除去领域无关的概念,只留下和领域相关的。这时,建立起了目标本 体的概念结构。 4 从基础本体中会继承一些关系,其他的关系需要通过学习的方法从文 本中抽取。 5 对得到的领域相关的本体进行评价,还可以进一步的重复上述过程。 2 6 本体的作用 本体在语义信息系统中具有非常重要的作用,主要体现在以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025包头一机集团招聘12人备考题库及答案解析
- 2025-2026广东茂名化州市实施银龄讲学支教计划招募20人笔试参考题库附答案解析
- 2025北京市首都医科大学附属北京中医医院招聘6人(第三批)笔试备考题库及答案解析
- 2025广西河池市教育系统招聘中小学幼儿园教师117人笔试备考题库及答案解析
- 文化在数字化时代的角色-洞察及研究
- 智能热量异常检测-洞察及研究
- 可持续采购金融创新-洞察及研究
- 黏液成分分析成像-洞察及研究
- 检验检疫职业能力评价-洞察及研究
- 饮料供应链成本控制与优化-洞察及研究
- 2024-2025学年云南省楚雄州统编版四年级下册期末考试语文试卷
- 贵州省黔南州2024-2025学年八年级下学期期末道德与法治试题(含答案)
- 2025-2026学年湘美版(2024)初中美术七年级上册教学计划及进度表
- 农村集体三资管理课件
- 2025年高考真题-化学(湖南卷) 含答案
- 2024住院患者静脉血栓栓塞症预防护理与管理专家共识要点(全文)
- 2024(统编版)语文六年级上册 开学第一课 课件
- 《工程化学》全套教学课件
- 硫酸生产工艺计算
- 消防远程监督平台操作规程
- 商业发票模板(INVOICE)
评论
0/150
提交评论