




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的信息检索研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕一i :论文基于本体的信息榆索研究 摘要 信息检索是从信息集合中找出与用户需求相关的信息。本体作为种表示知识的形 式,具有良好的概念层次结构,支持推理功能,因此基于本体的信息检索能给检索服务 性能带来极大的改善。它能从语义角度去理解用户检索与信息源的关系,结合相应的推 理规则,基于本体的信息检索系统将会是一个“会理解 “会思考 的智能体,而不再 是单纯的通过词语之间的匹配实现检索任务。 本文首先分析了本体相关理论,包括本体概念、作用及构建方法。然后重点介绍本 体的描述语言及推理工具。其后,分析了信息检索的基本流程,说明其中主要步骤,包 括文档预处理、构建索引、用户查询扩展、检索策略及排序算法。 为了引入基于本体的信息检索系统模型,本文构建了无线自组织网络领域的本体 库。分析构建领域本体的流程,并且结合相应工具给出了构建过程中的实现细节。在领 域本体的基础上,本文提出了基于本体的信息检索系统,具体说明了相比于传统信息检 索而言,它的优越性。本体作为知识的表示形式,使得用户和检索系统采用统一的语言, 这样检索系统能够理解用户查询。而在本体中结合推理规则,将会使检索系统能够“思 考 ,给出令用户满意的检索结果。然后详细给出了基于本体的信息检索系统中涉及的 核心算法。在用户查询预处理阶段,本文采用结合j e n a 推理机内置规则和自定义规则, 获得更加完备的知识库,并使用了一致性检测功能,保证了知识库的准确性。在用户查 询预处理、检索策略以及排序算法模块,充分利用了本体作为知识表示的形式的优越性。 最后,在无线自组织网络领域内,实现了领域内的信息检索系统,对该系统进行了初步 功能性验证。 关键词:本体信息检索o w l 推理无线自组织网络 a b s t r a c t i n f o r m a t i o nr e t r i e v a lc a ng a i nu s e rd e m a n d e di n f o r m a t i o nf r o mi n _ f o r m a t i o na g g r e g a t i o n a sak i n do fk n o w l e d g ee x p r e s s i o nf o r m ,o n t o l o g yh a sp e r f e c tc o n c e p th i e r a r c h i c a ls t r u c t u r e a n ds u p p o r t si n f e r e n c ef u n c t i o n t h e r e f o r e ,o n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a lw i l lb r i n g e n o r m o u si m p r o v e m e n tt oi n f o r m a t i nr e t r i e v a ls e r v i c e ,i tc a l lu n d e r s t a n dt h er e l a t i o n s h i p b e t w e e nu s e ri n q u i r ya n di n f o r m a t i o nr e s o u r c ef r o mt h es e m a n t i ca n g l e t h a tm e a n s o n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a lc a n “u n d e r s t a n d ”a n d “t h i n k ”i tw i l lb ea ni n t e l l i g e n t a g e n t ,o t h e rt h a nas y s t e mt h a tm e r e l ym a t c h e s t h ew o r d su s e rr e q u e s ta n dd o c u m e n t s f i r s t ,t h i sp a p e ra n a l y z e so n t o l o g yc o r r e l a t i o nt h e o r i e s ,i n c l u d i n go n t o l o g yd e f i n i t i o n , f u c t i o na n dc o n s t r u c t i o nm e t h o d s e c o n d l y , o n t o l o g yd e s c r i p t i o nl a n g u a g ea n di n f e r e n c e e n g i n e a r ei n t r o d u c e d t h e ni n f o r m a t i o nr e t r i e v a lb a s i cf l o wi n c l u d i n g d o c u m e n t p r e t r e a t m e n t ,i n d e xc o n s t r u c t i o n ,u s e ri n q u i r ye x p a n d s ,r e t r i e v a ls t r a t e g ya n ds o r ta l g o r i t h m a r ea n a l y z e d i no r d e rt oi n t r o d u c eo n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a ls y s t e mm o d e l ,m o b i l ea d h o c n e t w o r kf i e l do n t o l o g yi sc o n s t r u c t e da tf i r s t ,a n a l y z i n gt h ef l o wo fc o n s t r u c t i n g f i e l d o n t o l o g ya n dg i v i n gt h ed e t a i ls t e p so ft h ep r o c e s s t h e no n t o l o g y - b a s e di n f o r m a t i o n r e t r i e v a l i sp r o p o s e d o n t o l o g yi sak i n do fk n o w l e d g ee x p r e s s i o nf o r m ,w h i c hu s e ra n di n f o r m a t i o n r e t r i e v a ls y s t e mc o m m u n i c a t eb y t h u sr e t r i e v a ls y s t e mc a nu n d e r s t a n du s e ri n q u i r y a d d i t i o n a l l y , r e f e r e n c er u l ew h i c hu s e di no n t o l o g ym a k e si n f o r m a t i o n r e t r i e v a ls y s t e m t h i n k ”a n dg a i nm o r eu s e rs a t i s f a c t o r y d u r i n gd o c u m e n tp r e t r e a t m e n ts t a g e ,b u i l t - i nr u l e f r o mj e n aa n ds p e c i f i cr u l ef r o mo u r s e l v e sa r ec o m b i n e dt og e tac o m p l e t ek n o w l e d g el i b r a r y a n du n i f o r m i t yc h e c k i n gf r o mj e n ag u a r a n t e e sa c c u r a c yo ft h ek n o w l e d g el i b r a r y d u r i n g u s e ri n q u i r yp r e t r e a t m e n t ,r e t r i e v a ls t r a t e g ya sw e l la ss o r ta l g o r i t h mm o d u l e ,w et a k e c o m p l e t e l ya d v a n t a g e so fo n t o l o g y f i n a l l y , a ne x p e r i m e n t a ls y s t e m i nm o b i l ea d - h o c n e t w o r ki sd e m o n s t r a t e sa d v a n t a g e so fo n t o l o g y b a s e di n f o r m a t i o ns y s t e m k e yw o r d :o n t o l o g y , i n f o r m a t i o nr e t r i e v a l ,o w l ,r e f e r e n c ee n g i n e ,a d - h o c 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:么么立纱彳年6 月,罗日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:刍量盈伊1 年月侈日研究生签名:刍蒸逸伊1 年月侈日 硕一l :论文基于奉体的信息检索研究 1 绪论 1 1 课题背景与意义 伴随着信息网络的飞速发展,一方面人们可以获得的信息来源非常广泛;另一方面, 如何快速、准确、全面地获得所需的信息成为了问题。信息量大、冗余度大、质量良莠 不齐、格式不一、位置分散、关联复杂等等都成为了阻碍人们获取有效信息的因素。这 种情况下,信息检索成为社会中不可或缺的一种工具,从检索范围可以将信息检索分为 通用信息检索和专用信息检索。通用信息检索满足了人们日常生活中获取资源的需求, 比如g o o g l e 这类基于w e b 的信息检索。而专用信息检索针对于特定的检索需求,如搜 房网。在我们的检索目标明确的情况下,通常会选择专用信息检索,这样的好处显而易 见。比方说我们选购数码相机时,会毫不犹豫的去数码产品网站咨询。这时我们并不关 注g o o g l e 这类通用检索引擎给出的关于“索尼”的新闻,“索尼”的新技术成果,我们关注 的是专业信息检索提供的“索尼”各型号对应的功能、价位。然而这类专业的信息检索在 知识结构较扁平的领域可以得以应用,对于知识结构复杂的领域其应用受到了限制。具 体的说,我们选购数码相机时更多关注的相机品牌、价位、典型的性能参数,而对于数 码相机内部更为深入的信息需求并不多。这种情况下,使用结构化存储方式存储数据是 合理且高效的。然而,当我们需要对一个领域进行深入的知识信息挖掘,目前的通用信 息检索和专用信息检索都显得无能为力。 本文研究目的就是寻求一种可以满足用户在特定领域对信息的深入检索模式。分析 这类检索可以发现它的两个特性:是系统检索范围固定,系统只在选定的领域内进行 信息存储以备用户检索:二是用户查询范围固定,即用户输入的查询仅需要匹配该领域 内的信息。这两点特性说明了特定领域的检索在检索范围上缩减,但是在检索深度上提 高了要求,它要求给予用户充分自由,不是系统规定的有限查询条件( 当前专用信息检 索所提供) ,用户可以查询任何领域内感兴趣的内容,检索系统不仅能够给出查询直接 针对的信息,同时还可以提供与该内容密切关联的信息。 因此,我们需要找到种信息表达形式来实现这样的检索要求。这种信息表达形式 需要相互之间存在联系,而使用关系数据库又是做不到的,概念之间的关系种类繁多, 无法想象到底需要多少表去表示一个领域内的所有概念。我们在寻求一种彼此之间存在 1 绪论硕上论文 关联、有层次结构的信息表达方式。 本体作为一种信息表达形式可以完成上述任务,它具有良好的概念层次结构,它的 表达能力强,同时可以结合推理规则形成完备的知识库来充分表达领域内概念之间存在 的关系。可以想象我们用本体对领域知识进行描述后,原先杂乱无章的信息会形成一棵 带有层次结构的知识树。这样我们可以对树中的任何节点进行检索,它会依照检索策略 决定是否给出兄弟节点信息、是否给出父节点信息等。 这种检索策略带来了比当前主流信息检索系统在检索性能上的极大提高。主流信息 检索采用关键字匹配,由于参与匹配的是字符的外在形式,不带有上下文信息,所以会 出现检索不全,答非所问的情况。而基于本体的信息检索,能够突破关键词检索的缺陷, 同时提高检索的查全率和查准率,有效改善检索性能。 1 2 相关研究现状 1 2 1 本体研究现状 1 9 9 8 年6 月,第一届“信息系统中的形式化本体论国际会议”的召开标志着这一领域 在逐渐走向成熟。围绕本体的理论及其应用,学者们展开了热烈的讨论,这些研究讨论 主要集中在:建立本体的方法和过程、本体设计和评估的形式化方法和本体论的应用研 究。其中,前两个方面属于本体论的理论研究主题。在应用研究方面,本体论在计算机 学科上取得了令人兴奋的成果,基于w e b 的本体构造、编译、浏览和使用工具已经可 以应用,本体在知识工程中的运用取得了结果,形式化本体在需求工程中也取得了大的 进展。对本体设计和评估的方法学有了初步的探索,开发出一些用于构造和评价本体的 初级工具,以及一些用于支持不同表示语言互操作的本体语义转换工具。本体的应用研 究近年来也得到了很大的发展,语义网【lo j 是本体应用的一个实例,在语义网中,本体作 为知识表示的形式。 然而,本体的研究和应用很多都还处于不成熟的探索阶段,存在一些有待解决的问 题:本体的形式化程度不够;本体的构建缺乏统一的标准;缺乏本体集成工具等。总体 而言,本体研究目前仍处于理论研究日趋成熟,应用研究相对之后的阶段。 1 2 2 信息检索研究现状 信息检索【l 】【2 】【3 】【4 1 研究如何从文档集合中返回满足用户需求的相关信息的过程。作为 - f - j 学科,是研究信息的获取( a c q u i s i t i o n ) 、表示( r e p r e s e n t a t i o n ) 、存储( s t o r a g e ) 、组织 ( o r g a n i z a t i o n ) 和访i h - ( a c c e s s ) 的- - f - j 学问。它可以看成计算机科学( c o m p u t e rs c i e n c e ) 和图 书情报学( l i b r a r y & i n f o s c i e n c e ) 的交叉学科。以计算机为手段,处理信息对象;融合 其它学科,如:语言学、认知科学。 2 硕j l :论文基于奉体的信息检索研究 近年来,学者们努力从面向结构化数据作为检索对象到面向半结构化,非结构化数 据发展。从数字到文字、声音、图片、多媒体视频,信息检索研究横向发展。同时,将 文本分类、聚类、信息抽取、文本挖掘技术与信息检索结合,改善检索性能优化检索结 果也是研究热点。比如在检索模型方面,尝试将贝叶斯网络【5 】【6 】、m a r k o v 网络【7 】、h o p f i e l d 网络【8 1 、推理网络、信度网【9 1 等新型模型用于检索。 1 3 本文研究的内容 本文针对领域内基于本体的信息检索进行分析与研究。主要研究以下四点: ( 1 ) 如何用本体表示领域信息,并在此基础上进行推理,形成领域知识库。本文选 定在无线自组织网络领域构建本体并对构建而成的本体进行推理形成知识库。构建过程 中按照本体概念,参照本体构建的规范流程,使用j e n a 推理引擎对该本体库推理最终 形成完备的领域知识库。 ( 2 ) 如何将用户输入的查询信息与领域知识库相结合,利用领域知识库对用户查询 进行优化形成有效的查询。这里涉及到概念在领域知识库中的处理方式,包括确定概念 的对应模式、各模式对应的扩展策略、确定扩展层次、给予每个扩展层次相应的权值等。 这是检索过程的第一步,经过领域知识库处理的用户查询是参与检索的查询,它是影响 查询结构的关键因素之一。 ( 3 ) 挖掘更为丰富的查询模式。使用本体表达信息的方式满足了用户以输入词作为 查询的检索要求。令人兴奋的是,本体的表达方式可以提供更为丰富的检索模式,用户 可以不再拘泥于输入词项,还可以查询关系,形成判断式查询、问答式查询等。结合自 然语言处理,可以做到使用自然语言进行查询。本文着重研究了问答式查询,以问答式 查询为例说明了如何充分利用本体的信息表达方式带来的优势,来实现查询模式的多样 化,满足更为人性化的查询需求。 ( 4 ) 如何使用经过本体知识库处理后的查询信息在信息源中进行匹配,匹配而成的 结果以何种顺序、何种方式给出。这是检索过程的最后一步,用户将看到经检索匹配策 略后的检索结果。因此我们需要考虑用户的使用习惯,不仅需要给出检索结果,更要关 注以何种方式给出、查询结果对用户不同的重要度等信息。 1 4 本文的结构 第章说明本文研究内容的背景及意义,并介绍了本研究领域及信息检索领域的研 究现状做了综合评述。 第二章着重说明本体理论,论述本体的基本概念、本体的作用、本体开发流程及本 体的构建方法。 第三章介绍本体的相关应用。包括本体描述语言r d f ,r d f s 以及o w l ,说明它 3 l 绪论 硕- 1 :论文 们之间的关系及各自适用范围。本章同时介绍构建本体的相关编辑工具以及基于本体的 推理引擎,简要说明三个使用广泛的推理引擎结构。 第四章给出构建领域本体的一个实例。本文以无线自组织网络领域为例,分解构建 领域本体的步骤,给出了它们在无线自组织网络领域内的实现方式,最终形成了领域本 体库,为下面构建信息检索系统打下基础。 第五章提出基于本体的信息检索模型。在无线自组织网络领域内,实现了一个领域 内基于本体的信息检索系统。本章首先说明了构建信息检索系统需要的关键步骤以及使 用到的技术。其后,将本体作为知识表达形式引入信息检索,给出无线自组织网络领域 内基于本体的信息检索系统的系统架构。然后,分析实现该系统的关键步骤以及每个 阶段所使用的算法。最后,将该检索系统与基于关键字的传统信息检索系统进行了比较, 通过实验数据的展示,验证了基于本体的信息检索模型在诸多方面的优越性。 第六章对整篇论文进行了总结并指出了下一步研究的方向。 4 硕二i j 论文基于本体的信息榆索研究 2 本体及其应用 2 1 本体的概念 本体( o n t o l o g y ) 1 1 】的目的是统一计算机与人类的表达方式,它的概念来源于哲学 对世界上客观存在物的系统地描述。照这种说法,本体与具体某个人对事物的理解 以及描述该事物使用的具体语言无关。g m b e r 【1 2 j 最早提出本体的定义如下:给出构成相 关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规 则。之后b o r s tp i m 乃j 等对g r u b e r 的定义作了一些修改后提出一种定义:本体是概念模 型的明确的规范说明。之后,s t u d e r 1 4 1 对该定义进行了扩充说明,他首先总结了本体的 概念共享概念模型的形式化规范说明,然后对此抽象概念进行解释: ( 1 ) 概念化( c o n c e p t u a 1 i z a t i o n ) :指通过抽象出客观世界中一些现象的形同概念而得 到的模型。概念模型所表现的含义独立于具体的环境状态。 ( 2 ) 明确( e x p l i c i t ) :指所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) 形式化( f o r m a l ) :指本体是计算机可读的。 ( 4 ) 共享( s h a r e ) :指本体中体现的是共同认可的知识,反映的是相关领域中公认的 概念集,寿命本体是针对团体而非个体所达成的共识。 2 2 本体的作用 本体是知识的表达形式,统一了术语和概念,增加了知识共享和重用的程度。本体 从功能上可以分为以下四类: ( 1 ) 交流:主要为人们之间的交流提供了一个共同的标准。在这个层面上本体是词 典库,所有的语言需要在此库中。这样交流的双方才能够彼此理解,克服交流的障碍。 ( 2 ) 互操作:本体作为一种认可的知识表达形式,它给不同的软件系统、建模方式 之间提供了交流的平台,促进了不同软件形式之间的互操作和集合。 ( 3 ) 系统工程:本体给系统工程提高了规范描述、重用、可靠性等好处。本体有助 于确定系统的需求和规范;所得的本体可以在其它的工程作为一个中间件得以共享和重 用:非形式化的本体方便设计者检查系统的设计框架,同时形式化的本体带来了自动的 一致性检查,从而提高了软件的可靠性。 2 3 本体的分类 本体按照不同的标准可以分为不同类别。例如,按照本体的主体进行分类;根据本 体的详细程度和领域的依赖度分类。本文着重介绍领域本体相关知识,因此分类标准是 3 奉体描述语占及推理丁具硕。i :论文 本体的研究范围,将本体分为通用本体和领域本体两类: ( 1 ) 通用本体:主要研究通用的概念,如空间、时间、事物、对象、事件、行为。 它们不拘泥于特定领域,它覆盖了很多领域之上的通用概念,属性。因此通用本体的构 建需要语言学家的参与,它的形成过程类似于一部词典的构造,目前存在的通用本体有 w o r d n e t 和h o w n e t 。 ( 2 ) 领域本体:研究与特定领域相关的概念和关系。领域本体的目标是描述某个领 域的知识,给出描述领域知识的概念和描述属性。领域本体代表了改领域的权威解释, 所以通常需要领域专家的参与、协商才能够建立起领域本体库。这个也是当前领域本体 匮乏的原因之一。它不再是一件单纯的工程事件,而是需要领域专家的参与共同达到的 学术一致。当前比较成熟的领域本体有医学本体、生物学本体。 2 4 本体的构建方法 本体的构建目前没有一套标准的规范,认可度较高的是g r u b e r 提出的5 条规则【l5 j : ( 1 ) 明确性和客观性:能够使用可理解的自然语言给出描述。 ( 2 ) 完整性:给出的描述是完备的,能够准确的表达概念的含义。 ( 3 ) 一致性:通过本体之间的各种关系推理所产生的简介关系不会产生矛盾。 ( 4 ) 最大单向可扩展性:添加新的概念时不需要修改已有概念和关系。 ( 5 ) 最少约束:尽量不限制待描述本体对象的条件。 对照以上规范,产生了多种具体的构建方法,其中斯坦福大学医学院开发的七步法 6 】在构建领域本体的过程中具有较强的参考意义,这七个步骤分别为: 第一步:确定待构建本体的专业领域范围。 第二步:考察现有本体寻找复用机会。 第三步:列出领域中的重要词汇和术语。 第四步:将领域中事物分类,并且定义类与类之间的关系。下面有三种方法可以在 构建类之间关系的过程中具体使用: i 自项向下法:从领域中最抽象的概念开始,逐步扩展至具体的的概念。 i i 自底向上法:从领域中最小类开始,综合形成范围更大的类。 i i i 综合法:综合前两种方法。首先定义一些重要的类,然后对于每个类进行归纳 和演绎,寻找到上级或下级类,这样最后最后所有的类会联系起来。 第五步:定义类的属性。可将属性大致分为“内在”属性和“外在”属性。“内在”属性, 比如某一路由协议的提出者;“外在”属性,比如某一路由协议适用网络。 第六步:定义属性的分面( f a c c e t s ) 。“分面”实际上就是对属性的限制和规范,比 如人的年龄这个属性,它的取值就必须是j 下整数。 第七步:创建属于改类的实例。 6 硕上论文基于本体的信息检索研究 3 本体描述语言及推理工具 作为表示本体的描述语言,应该具备以下功能: ( 1 ) 提供本体的建模元语。 ( 2 ) 提供本体从人类自然语言转化成为机器逻辑表达形式的过程中的规则。 ( 3 ) 提供使得本体能够在不同系统之间导入和输出的格式。 ( 4 ) 提供机器可读的形式化表示语言表示本体,可以直接被计算机存储、加工、使 用,能够在不同的系统之间进行互操作。 2 0 世纪9 0 年代初,学者们提出了基于a i 的本体描述语言,代表的有k i f 、 o n t o l i n g u a 、l o o m 、o c m l 、f l o g i c 。随着w e b 的发展,出现了一系列基于w e b 的本 体描述语言,如s h o e t l7 1 、o i l + d a m l 18 1 、x o l t l9 1 、r d f ( s ) 2 0 】【2 l 】、o w l t 2 2 1 。其中r d f ( s ) 指r d f 和r d fs c h e m a 。本文重点介绍实验系统中选用的o w l 语言,o w l 基于r d f , 某种程度上可以理解为r d f s 的扩充版本。下面分别介绍r d f 、r d f ( s ) 以及o w l 。 3 1r d f 概述 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r d ,资源描述框架) 由w 3 c 开发,目的是为了创 建w e b 资源的元数据。它包含3 种类型的元素: ( 1 ) 资源( r e s o u r c e ) 和实体( e n t i t i e s ) :用统一资源标识符( u r l ) 进行资源标识。资源 i d 由u r i 加上一个特定的锚i d 组成。 ( 2 ) 属。i 生( p r o p e r t i e s ) :定义了资源的各个方面( a s p e c t s ) ,包括特征、属性或关系。 ( 3 ) 声i j y j ( s t a t e m e m ) :拥有已被命名的属性,属性又已被赋值的特定资源就是r d f 声明。声明的作用是在一项特定的资源中为属性分配值。r d f 声明由3 部分组成,类 似于汉语中的主谓宾结构: 主题( s u b j e c t ) :特定的资源。 谓词( p r e d i c a t e ) :被命名的属性。 对象( o b j e c t s ) :资源中属性的特定取值。 对r d f 模型的描述一般有三种方式: ( 1 ) 直观的简化三元组方式。即将三元组的主语、谓语和宾语隔离,分别用尖括号 表示,按照主、谓、宾的先后顺序排放,其中资源使用u r i s 进行标识: “c h a r l e s 该三元组表示d s d v ( 一种无线自组网络的路由协议创始人是c h a r l e s ) 。其中, h t t p :l o c a l h o s t n s # c r e a t o r 被称为u r ir e f e r e n c e ,它由一个u r i 和紧随其后的片段标识符 ( c r e a t o r ) 组成;c h a r l e s 是人名,不需要u r ir e f e r e n c e ,用双引号表示固定字符串。 3 奉体描述语言及推理_ 具硕上论文 ( 2 ) r d f 模型图方式,将三元组中描述的一组声明以图形的方式表现出来,在图形 中用结点以及节点之间的连线来表述资源及其属性和属性值。资源用椭圆表示,字符串 节点用方框表示,属性使用连线表示,图3 1 表示了( 1 ) 中的三元组: 图3 1 以图的方式表示三元组 ( 3 ) i m f x m l 方式描述,按照i m f x m l 语法,遵循一定的格式( 需要参考关于 i m f 的疵文档) 和编码规则对i m f 模型进行描述记录,这种表达方式是存放在计算 机中的最终格式。 c h a r l e s 3 2r d f s 概述 在用r d f 描述三元组模型时,要涉及表示类别和属性的约束,r d f 本身没有提供 这样的描述和限制的机制。因此出现了r d fs c h e m a 。r d f s 是一种用于定义r d fs c h e m a 的声明语言( r d f 与r d f s 的关系可以类比与x m l 与x m l s ) 。表3 1 描述了r d f s 的核心类,表3 2 描述了r d f s 的核心属性,表3 3 描述了r d f s 的核心限制。 表3 1r d f s 的核心类 r d f s :r e s o u r c e 表示r d f 中所有资源的集合。 r d f s :p r o p e r t y 表示r d f 中所有属性的集合。 r d f s :c l a s s 表示r d f 中的所有类的集合。类是一种资源,与面向对象中的类 的定义类似。 8 硕一l 论文基于本体的信息检索研究 表3 2r d f s 的核心属性 r d f :t y p e 表示一个r e s o u r c e 是一个c l a s s 的成员。 r d f s :s u b c l a s s o f 表示一个c l a s s 是另一个c l a s s 的子类。 r d f s :s u b p r o p e r t y o f 表示一个p r o p e r t y 是另一个p r o p e r t y 的一个实例。 r d f s s e e a l s o 表示可以为被描述资源提供更多描述信息的资源。 r d f s :i s d e f i n e d b y是r d f s :s e e a i s o 的子属性,指向定义被描述资源的资源。 表3 3r d f s 的核心限制 r d f s :r a n g e 值域。一个属性至多只能有一个r a n g e 。 r d f s ;:d o m a i n 用米指定有哪些类的成员可以作为属性的域。一个类可以有0 到 多个域。 除以上提到的内容,r d f s 包括的关键词还有:r d f s :c o m m e n t ,对资源的含义进行 解释性描述,这种描述主要是为了方便使用者的理解;r d f s :l a b e l ,为资源提供更容易被 人阅读和理解的名称。 3 3o w l 概述 r d f 定义了一个简单的概念模型,给出了知识的三元表达形式;r d f s 对r d f 的 有关性质描述进行了补充和发展,定义了类,强调以性质为核心,通过类来描述性质。 然而r d f 和r d f s 都不直接支持逻辑推理,o w l ( w e bo n t o l o g yl a n g u a g e ) 的出现填补 了这一空白,它使得让知识有了更强的逻辑表达形式,因为o w l 是以描述逻辑为概念 建模的内在支撑。 3 3 1o w l 与r d f s o w l 与r d f s 的语法和描述结构相同,区别在于o w l 拥有更丰富的描述词汇。 下面具体分析o w l 与r d f s 的关系: o w l 中的r d f s 特性:c l a s s ( t h i n g ,n o t h i n g ) 表示共享某些属性的个体的集合。 t h i n g 是所有类的超类,n o t h i n g 是所有类的子类。r d f s :s u b c l a s s o f 描述类之间的层次关 系。r d f s :p r o p e r t y 描述两个实例之间或者是实例和属性值之间的关系。r d f s :s u b p r o p e r t y o f 描述属性之间的层次关系。r d f s :d o m a i n 用来限制属性的适用范围。r d f s :r a n g e 限制属性 的取值范围。i n d i v i d u a l 是类的实例。 ( 1 ) o w l 的等价和不等价:o w l :e q u i v a l e n t c l a s s 描述类之间的等价关系,两个等价 的类之间具有完全相同的信息,包含类的属性、实例等。o w l :e q u i v a l e n t p r o p e r t y 描述属 性质之问的等价关系,等价的属性可以在描述实例之间的关系时互换,这种方式有效的 扩展了本体的表达范围。o w l :s a m e a s 描述两个实例之间的等价关系,这样就可以将同 一个实例命名为不同的名称。o w l :d i f f e r e n t f r o m 说明两个实例是不同的,避免因为使用 q 3 本体描述语苦及推理工具 硕十论文 形同的属性和数据类型而带来混淆。o w l :a l l d i f f e r e n t 说明一组实例中的实例两两之间是 互不相同的,当o w l :d i s t i n c t m e m b e r s 与o w l :a l l d i f f e r e n t 共同使用时,说明了一组实例 中的实例不仅是两两互不相同的,而且是互不相交的,它们彼此是互斥的。 ( 2 ) o w l 的属性特征。主要有o w l :i n v e r s e o f 描述两个属性之间的相反关系。 o w l :t r a n s i t i v e p r o p e r t y 描述属性的传递性。例如属性p 具有传递性,若xpy a n dypx , 则xpz 。o w l :s y m m e t r i c p r o p e r t y 描述属性的对称性。例如属性p 具有对称性,若xpy , 则ypx 。o w l :f u n c t i o n a l p r o p e r t y 限制属性的值不会多于一个。也就是说,若某属性 被声明为o w l :f u n c t i o n a l p r o p e r t y ,那么对于每个个体,属性最多只有一个值。 o w l :i n v e r s e f u n c t i o n a l p r o p e r t ) r 声明某属性的逆属性是函数型的。 ( 3 ) o w l 属性值的约束。o w l :a l l v a l u e s f r o m 一个类被约束的属性值必须全部来自于 特定的取值空间。o w l :s o m e v a l u e s f r o m 一个类被约束的属性值必须至少有一个来自于特 定的取值空间。o w l :h a s v a l u e 一个类被约束的属性值是设定的值。 ( 4 ) o w l 属性势的约束。o w l 包含一个有一定使用限制的基数约束。o w l 的基数 约束又称为局部约束,因为它们是对一个属性应用于某特定类时的声明。也就是说:这 类约束应用于那个类的实例时就会给出属性的基数信息。o w ll i t e 的基数约束限制在 只允许基数值为0 或1 ( o w ld l 和o w lf u l l 允许基数值为任意数目) 。 o w l :m a x c a r d i n a l i t y ,如果属性使用于某个类时的o w l :m a x c a r d i n a l i t y 为l ,则这个类的 任意实例都通过这个这个属性和至多一个个体关联。若某属性的最大基数值为0 表示该 属性没有值。o w l :m i n c a r d i n a l i t y ,如果属性使用于某个类时的o w l :m i n c a r d i n a l i t y 为l , 则这个类的任意实例都通过这个这个属性和至少一个个体关联。这也是一种用来表达对 于某一类的实例,这个属性必须至少有一个值的方法。若某属性的最大基数值为0 表示 对于该类而言这个属性是可选的。o w l :c a r d i n a l i t y 表示属性使用某一个类时同时具有约 束o w l :m a x c a r d i n a l i t y 为0 且o w l :m i n c a r d i n a l i t y 为o 。或者同时具有约束 o w l :m a x c a r d i n a l i t y 为l 且o w l :m i n c a r d i n a l i t y 为1 的情况。 ( 5 ) o w l 类的交、并、补。o w l 包含了三个类之间的交集表达词( 只在o w l d l o w lf u l l 中有效) 。o w l :u n i o n o f 表示类的并集,类比于“o r 。o w l :i n t e r s e c t i o n o f 表 示类的交集,类比于“a n d 。o w l :c o m p l e t m e n t o f 表示类的补集,类比于“n o t 。 3 3 2o w l 的分类 o w l 是w 3 c 推荐的本体描述语言标准。它是为了在w w w 上发布和共享本体而 提供的语义标记语言。o w l 以d a m l + o i l ( r d f ) 为基础,并且在r d f ( s ) 进行扩充, 为了提供更多的元语来支持更加丰富的语义表达,并且o w l 支持推理。然而这些复杂 的功能并不能很好的满足各个方面的需求,因此o w l 分为三个子语言,它们描述及关 系见表3 4 : l o 硕十论文基于奉体的信息枪索研究 表3 4o w l 的3 个子语言描述 子语言描述例子 o w l l i t e 适用于只需要一个分类层次和简单属性约支持基数,只允许基数为0 或l 。 束的用户。 o w l d l 适用丁需要在推理系统上进行最大程度表当一个类可以是多个类的下位类 达的用户,这里的推理系统能够保证计算时,它被约束不能是另外一个类 完全性( 即所有结论都能够保证被计算出的实例。 来) 和可决定性( 即所有的计算都在有限 的时间内完成) 。它包括了o w l 的所有约 束,但是可以被仅仅置r 特定的约束下。 o w l f u l l 适用丁需要在没有计算保证的语法自由的一个类可以被同时表达为许多个 r d f 上进行最大程度表达的用户。支持本类的一个集合以及这个集合中的 体在预定义的( r d f , o w l ) 词汇表上增加词 一个个体。 汇,冈此任何推理软件均不能支持o w l f u l l 的所有特征。 这三种子语言之间的关系描述如下: ( 1 ) 每个合法的o w ll i t e 都是一个合法的o w ld l 。 ( 2 ) 每个合法的o w ld l 都是一个合法的o w lf u l l 。 ( 3 ) 每个有效的o w ll i t e 结论都是一个有效的o w ld l 结论。 ( 4 ) 每个有效的o w ld l 结论都是一个有效的o w lf u l l 结论。 o w l 的三种子语言与r d f 之间的关系描述如下: ( 1 ) o w lf u l l 可以看成是r d f 的扩展。 ( 2 ) o w l l i t e 和o w l d l 可以看成是一个约束化的r d f 扩展。 ( 3 ) 所有的o w l 文档( l i t e ,d l ,f u l l ) 都是一个r d f 文档。 ( 4 ) 所有的r d f 文档都是一个o w lf u l l 文档。 ( 5 ) 一部分r d f 文档是一个合法的o w ll i t e 和o w ld l 文档。 3 4 本体的构建工具 本体构建可以不使用任何工具,使用本体描述语言o w l 可以将所有本体在文本文 件中表达出来。但是构建一个本体库,会涉及到大量的概念、属性和实例,全部由手工 输入不仅带来的客观的工作量,同时也是工作效率低下的表示,因为手工输入的出错率 更高。在这种情况下,诞生了可视化的本体构建工具,准确的说是一套i d e 环境,因 为这些工具中会包含检测机制。随着本体的兴起,本体的构建工具层出不穷。但是严格 意义上讲,许多工具虽然带有构建本体功能,但是并不适合用于构建本体。比如, o n t o c l e a n 更适合用于本体的评价,o n t o s a u r u s 用作本体服务器、浏览器和转换器效率 更高,而o n t o a n n o t a t e 作为本体的标引工具更合适,本体的合并和集成时才应该使用 c h i m a e r a 。 相比而言,本体的构建工具应该具有一些共同的特性,比如清晰、兼容、稳定而且 3 本体描述语言及推理工具硕一i :论文 操作便捷的用户界面,能够通过解释指令的含义向用户提供帮助等。还应该有统一的验 证机制保证本体的一致性,同时允许文库中所保存的本体可以被复用。另外,本体开发 工具还应该考虑开发现场,需要实现开发工程中的远程同步编辑、锁定事务管理以及多 语言问题等等。下面重点介绍本文使用的本体构建工具p r o t 6 醇。 p r o t r 9 6 是由斯坦福大学医院的医学情报学研究组开发研制。它在元类、类和属性 的设置上有o k b c ( o p e nk n o w l e d g eb a s ec o n n e c t i v i t y ) 的兼容性。p r o t r 9 6 中公理的格 式符合k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 和p a l ( t h ep r o t r g ea x i o nl a n g u a g e ) 语 言。通常地,一阶逻辑是用来表示知识的重要方法,它是一种形式语言系统,研究的是 假设与结论之间的逐步推理关系,使用逻辑的方法研究推理的顺序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版拆迁房屋买卖合同范本
- 2025年事业单位工勤技能-河北-河北地质勘查员五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河北-河北保健按摩师五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江西-江西政务服务办事员四级(中级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江西-江西保健按摩师一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江苏-江苏无损探伤工五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西铸造工二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西有线广播电视机务员四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西垃圾清扫与处理工四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西下水道养护工四级(中级工)历年参考题库含答案解析
- 消毒供应中心培训课件
- 反应釜操作知识培训课件
- 2025年一级建造师《建筑工程管理与实务》试卷真题(附解析)
- 物业薪酬管理办法
- 外场管理制度
- 集团公司新闻宣传工作管理办法
- 物业消防安全管理制度
- 无线电监测技术设施运行维护项目需求
- NSA2000变频器使用说明书
- 动物生理学电子教案
- 2025年电梯修理T证试题(附答案)
评论
0/150
提交评论