




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 检索技术对人们的工作、学习和生活产生了非常重要的影响。语义w e b 的提出和 发展为语义检索的实现开辟了一条崭新的思路。语义w e b 目的是让计算机能够“理解 w r e b 上的信息,并在“理解 的前提下更好地处理和利用这些信息,为人类提供更好的 服务。语义检索是采用概念匹配的检索方式,将人工智能技术与检索技术相结合,可以 使检索的过程和结果与检索的问题更加相关,重视用户的信息需求与检索目标集的语义 联系。 本体具有良好的概念层次结构和对逻辑推理的支持,能够通过概念之间的关系来表 达概念的语义,实现语义上的信息表示,可以很好地应用于信息检索。基于本体的信息 检索不同于传统的关键词检索,利用本体知识库强化了概念之间的内在联系,通过逻辑 推理可以发掘概念之间隐含的和不明确的信息,实现语义智能信息检索。 本文针对目前网络上信息检索中存在的主要问题,分析了传统信息检索手段的不 足;简要地介绍了语义网技术,阐述了本体的相关概念;通过对传统信息检索的基本原 理、技术及信息检索发展现状等方面的分析研究,结合语义网的具体特点,对语义检索 模型中所涉及的关键技术进行了深入的分析研究,提出了基于本体的语义检索模型,把 本体描述语言o w l 的技术有机地结合到语义检索模型中,设计了基于o w l 本体的领 域资源语义检索原型系统;对检索系统的主要处理环节进行功能上的定义和描述,对检 索过程进行详细的解释,并以算法描述的形式来证明检索的可行性。最后引入评价体系, 设计实验模型,采集实验数据,对检索模型的性能进行初步验证和评价。 关键词:本体,语义检索,语义相似度,语义w e b a b s t r a c t i n f o r m a t i o nr e t r i e v a lt e c h n o l o g yh a sb e e np r o f o u n d l yi n f l u e n c i n go u rw o r k i n g ,s t u d y a n dl i f e t h ep r o p o s a la n d d e v e l o p m e n to fs e m a n t i cw e b i san e wi n s p i r a t i o n s e m a n t i cw e b i sa l le x t e n s i o no ft h ec u r r e n to n e ,i nw h i c hi n f o r m a t i o ni sg i v e nw e l l d e f i n e dm e a n i n g ,b e t t e r e n a b l i n gc o m p m e r sa n dp e o p l et o w o r ki n c o o p e r a t i o n s e m a n t i cr e t r i e v a l b a s e do n c o n c e p t u a lm a t c h i n gi s t h ec o m b i n a t i o no fi rt e c h n o l o g ya n da r t i f i c i a li n t e l l i g e n c e ,a n d w h i c hc a nc o n c e mm o r ea b o u tt h eq u e r yd o m a i na n dp a ym o r ea t t e n t i o nt ot h es e m a n t i c r e l a t i o n s h i p sb e t w e e nq u e r yw o r d sa n dr e t r i e v a lt a r g e t s o n t o l o g yh a st h eg o o dh i e r a r c h i c a ls t r u c t u r eo fc o n c e p t sa n dt h es u p p o r to fl o g i c a l r e a s o n i n g ,a n ds e m a n t i ci n f o r m a t i o nc a l lb er e a l i z e dt h r o u g ht h es e m a n t i cr e l a t i o n s h i po f c o n c e p t s o n t o l o g yt e c h n o l o g yc a nb ew e l la p p l i e dt oi n f o r m a t i o nr e t r i e v a l o n t o l o g y - b a s e d i n f o r m a t i o nr e t r i e v a li sd i f f e r e n tf r o mt h et r a d i t i o n a lk e y w o r ds e a r c h s e m a n t i cr e t r i e v a lc a n b er e a l i z e db e c a u s eo n t o l o g yk n o w l e d g eb a s es t r e n g t h e n st h ei n t r i n s i cl i n ko ft h ec o n c e p t s a n dt h ei m p l i e da n du n c l e a ri n f o r m a t i o nc a nb ed e d u c e dt h r o u g hl o g i c a lr e a s o n i n g t h ep a p e rp r i m a r i l ya n a l y z e st h ed e f i c i e n c i e so ft r a d i t i o n a li n f o r m a t i o nr e t r i e v a l t h e p a p e r i n t r o d u c e st h eb a c k g r o u n do fs e m a n t i cr e t r i e v a ls e m a n t i cw e ba n dc o n c e p t so fo n t o l o g y t h r o u g ht h er e s e a r c hi na s p e c t so ft r a d i t i o n a li n f o r m a t i o nr e t r i e v a l sb a s i ct h e o r y , t e c h n o l o g y a n dd e v e l o p m e n t ,r e s e a r c h e di nt h ep i v o t a lt e c h n o l o g i e so fi n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l m o d e l ,c o m b i n e st h eo w li n t ot h es e m a n t i cr e t r i e v a lm o d e l ,d e s i g nt h ea r c h i t e c t u r eo f o n t o l o g yb a s e dd o m a i nr e s o u r c er e t r i e v a ls y s t e mw a sp r o p o s e d , a n dar e t r i e v a la l g o r i t h mw a s d e s i g n e dt od e s c r i b et h er e t r i e v a lp r o c e s sa n dt om a k eap r o o f o ft h er e t r i e v a ls y s t e mi nt h e f o r m a l i z i n gw a y k e yw o r d s :o n t o l o g y , s e m a n t i cr e t r i e v a l ,s e m a n t i cs i m i l a r i t y , s e m a n t i cw e b i l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取 得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文 中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名:数蟛日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编本学位 论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:羞塾:绉 指导教师签名: 日 期:翌迎= 笸二众 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 1 1 问题的提出 第1 章引言 根据中国互联网络信息中心2 0 0 9 年1 月发布的第2 3 次中国互联网络发展状况统 计报告中的数据显示,截至2 0 0 8 年底,中国互联网用户已经达到了2 9 8 亿人,其中 6 8 o 的用户经常使用搜索引擎【l j 。信息发布的自由化和信息提供的简单化促进了互联 网的繁荣,互联网汇聚了当今世界的海量信息,而且信息数量正在以指数级的速度增长。 现在人们普遍使用的检索方式是基于超链接的网页浏览或者是利用搜索引擎的快速查 找方式。人们发现信息越来越多的同时,也越来越难以找到自己想要的知识。 信息检索( i n f o r m a t i o nr e t r i e v a l ,简称i r ) 是指将信息按一定的方式进行组织和存 储,根据用户的信息需求,从指定数据中找到与查询相关的信息的过程。当前的信息检 索技术已取得很大突破,能对文本、图像、视频等多种数据进行检索。但是传统的信息 检索系统存在着一定的局限性,如系统处理和存储能力缺乏可扩展性等。这些局限性在 当今信息爆炸的时代显得更为突出,限制了信息检索的广泛应用【2 】。 基于上述的情况,人们需要一种检索机制,使得计算机能够理解和区分数据的语义, 实现语义层次上的信息检索。互联网的创建人之一t i mb c m e r s l e e 提出了语义网 ( s e m a n t i cw e b ) 例的概念,对当前互联网信息资源缺乏结构化和语义化的问题提出了 一种非常好的解决办法j 1 2 课题研究的目的和意义 在学习、探索语义网和本体论的概念和原理的基础上,进行本体实例建模和形式化 编码。采用概念和属性相似度组合的形式来表达语义相似度,建立基于本体的领域资源 语义检索模型,对模型中主要环节作了功能定义和详细描述。设计语义检索原型系统, 采集数据,引入评价指标,对检索性能进行初步验证和分析。 概念在语义检索中具有非常重要的作用,基于概念语义特征的检索比基于关键词匹 配的检索具有明显的优势。本文通过本体( o n t o l o g y ) 1 4 j 对概念进行严格定义以及通过 概念之间的关系来确定概念的含义,使得概念和概念之间的联系在共享的范围内具有明 确的定义,从而解决语义层次上信息共享和信息交换的问题。本文建立茶领域本体,设 计领域资源语义检索模型,根据概念间的关系,进行概念的匹配,从而实现真j 下意义上 的语义检索。对基于本体的资源获取、语义检索、领域资源管理等提供了可行的实践方 东j v i j i l i 范大学硕士学位论文 案,并具有现实的指导意义和参考价值。构建基于领域本体的语义检索模型,为以后的 进一步研究打下基础,提供具体的实例参考。 b i ( 商业智能) 一直是计算机业界的研究热点。通过b i 应用,企业高层能够切实 感觉到i t 投资的价值,把数据治理、应用实施、运行保障能力以直观的形式呈现给决 策层。语义网和b i 相结合,通过整合企业的知识库,能够建立一个高效率的信息流, 可以快速分析出相关资源的使用情况,为企业决策提供服务。企业可以把语义网作为不 同信息源、不同业务实体间的业务总线,在物理和逻辑上完成应用集成的同时,将决策 也集成在一起。另外,对于一些直接服务于大众客户的w e b 应用,由于受众的多样性, 相应的需求和使用习惯会存在一定差异性,利用语义网把这些差异中潜藏的联系规则收 集在一起,也具有很高的研究价值。 1 3 国内外相关研究工作 1 3 1 国外研究现状 国外对语义网的研究相对较早,目前已经有许多的研究和应用。例如斯坦福大学的 知识系统实验室开发了本体的建模工具p r o t 6 9 6 ,该组织的g r u b e r 也是最早提出本体定 义的学者之一。2 0 0 1 年万维网联盟也开始研究本体,并同时开始了语义w e b 的研究工 作,制定x m l 为一种资源描述语言,推荐r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资 源描述框架) 为描述和处理元数据的方案,制定o w l ( w e bo n t o l o g yl a n g u a g e ,w e b 本体语言) 标准规范。其他基于语义网在信息查询方面的应用比较著名的有: 1 1o n t o s e e k 【5 】:g u a r i n o 于1 9 9 9 年开始研发的一个协作智能a g e n t 系统,o n t o s e e k 将一个本体驱动的内容匹配机制与一个具有中等表达能力的表示形式化系统相 结合,为用户提供一个可以使用领域内任何词汇进行交互式语义查询的系统。 2 ) o n t o b r o k e r 6 】:由o n t o p r i s e 开发组研发,面向的是互联网上的网页资源,通过本 体转换w e b 文档,向用户提供基于本体的回答式服务,支持用户对知识的查询, 目的是帮助用户更好的检索到所需要的网页。它主要包括:信息引擎、查询引 擎、推理引擎和数据库管理引擎。 3 1s k c t 7 】:s k c 是为了解决信息系统语义异构的问题而开发的系统,目的是实现 异构的自治系统之间的互操作。该项目希望通过在o n t o l o g y 上建立一个代数系 统,用这个代数系统来实现各个o n t o l o g y 之间的互操作,从而实现异构系统之 间的互操作。 4 ls e m a n t i cw r e bs e a r c h 8 】:由i n t e l l i d i r n e n s i o n 开发的一个基于语义w r e b 的搜索引 擎,它可以很好地定位和搜集在语义网上发布的信息。该站点提供了一个传统 的搜索引擎界面,用户可以在搜索栏中输入相应的描述信息。 5 ) s w o o g l e l 9 1 :语义网搜索引擎s w o o g l e 可以像g o o g l e 一样在互联网上爬行,搜集 2 东北师范大学硕士学位论文 各类元数据表示的信息。s w o o g l e 使用了类似于p a g e r a n k 的链接分析方法,对 本体的“重要性 进行评估并排序【l o l 。所谓“重要性 反映了一个本体对于其 他本体的影响力,这一定程度上体现了本体的质量。现在有一些学者在s w o o g l e 的基础上进行研究,希望得到更符合用户查询意图的本体查询结果】。 1 3 2 国内研究现状 相对来讲,国内在语义网方面研究起步较晚,但是无论在理论研究还是在应用上都 取得了很好的成果。例如,中科院数学研究所陆汝铃院士等人提出的面向本体的需求分 析方法( o o r a ,o n t o l o g y o r i e n t e dr e q u i r e m e n t s a n a l y s i s ) 1 2 1 ,以本体作为对象关联的手 段,以增强面向对象方法的表达能力;金芝博士以企业信息系统为研究背景,提出了一 种基于本体的需求获取方法【l3 1 ,通过重用领域需求模型,构造应用软件的需求模型。同 济大学王洪伟等人以关系数据库为对象,根据提出的转换规则从关系模式的结构信息中 逆向提取出领域术语及相互关系,最后利用扩展的关系实体图进一步获取关系模式的语 义信息,并以此来精炼领域本体【j 4 1 。上海交通大学的俞勇教授提出了使用网络书签的方 式,从用户的角度来改进语义检索的效果【l 引。东南大学瞿裕忠教授等人开发的f a l c o n s 系统i l 引,在语义检索方面取得了很好的效果。 1 4 本文的主要工作 本文在总结语义w e b 和语义检索研究现状的基础上,首先研究了在语义w e b 环境 下实现语义检索的机制和相关技术;然后重点研究了o n t o l o g y 的内涵和外延及其在语义 检索系统中所起到的作用,详细介绍了o w l 语言的结构和语法;最后研究了惠普实验 室开发的语义w e b 应用系统开发工具j e n a ,并尝试开发了语义检索实验系统。这些研 究围绕着语义检索和语义w e b ,以语义检索模型的实现为目标,对相关的理论、方法和 技术进行了充分的研究和探讨。 论文整体上分为五章,首先提出问题,说明研究的背景和目的,研究的主要内容和 意义,分析本体的研究现状和应用情况。然后围绕语义检索讨论了领域本体建模方法论, 并以此为指导进行领域本体实例建模,建立基于本体的标引和相似度计算方法,设计基 于本体的领域资源语义检索系统模型,进行实验和分析,最后总结全文,提出未来的研 究内容和方向。各章主要内容如下。 第1 章阐述研究的背景,简要的分析了研究的理论依据等,指出研究的主要内容和 研究的意义,以及研究的思路。 第2 章介绍语义w e b 和本体,介绍了语义w e b 的概念、体系结构,以及语义w e b 的支撑技术,着重讨论了本体描述语言o w l ,探讨了本体的内涵和外延。 第3 章在前面的理论基础上,给出基于本体的领域资源语义检索模型。重点研究了 3 东北师范大学硕士学位论文 基于本体的相似度计算方法。 第4 章在己经建立的语义检索模型和相关算法的基础上,构建了茶领域本体,并制 作了语义检索实验系统。为实验准备相关数据,对实验所得数据作出客观的分析和评价, 并以图表的形式呈现出来。 第5 章总结全文所做的工作,提出论文存在问题和值得改进或深入研究的地方,展 望未来的研究方向和内容。 4 东北师范大学硕士学位论文 21 语义w e b 的概念 第2 章语义w e b 与本体论 语义w e b 并没有一个严格的定义,它的目标是让w e b 上的信息能够被机器理解, 从而实现w e b 信息的自动处理,以适应w e b 信息资源的快速增长。 语义w e b 并不是要完全代替现有的w e b ,而是对当前网络的扩展,使得计算机与 人类能够更好的交互与合作。语义网使计算机理解语义信息,娄似于人对信息的理解过 程,人在交流时会使用词语或者符号,这些词语和符号都对应专门的事物,人不能直接 在词语和事物间进行映射,而是要借助概念。通过概念,人能够迅速准确地将词语和符 号对应到相应的事物。同样的道理,如果只是给计算机一些词语和符号,很难让计算机 理解当中蕴含的语义知识,计算机就更不可能利用这些词语和符号进行语义推理了。语 义网研究的重点就是如何为计算机添加概念知议,凭借这些知识,计算机可以很好地理 解信息,从而实现语义层上的智能应用。 22 语义w e b 的体系结构 t i mb e r a e r s l e e 将语义网分成七个层次,其结构如图2 1 所示。在语义州七层结构 中,x m l 、r d f 和o n t o l o g y 三层主要用于表示w e b 信息的语义,是语义w e b 的核心 和关键所在。此外,数字签名贯穿三到六层,主要是用柬检测文档是否被篡改过,以证 明其真实可靠性。下面将对各层的主要功能作简单介绍。 、 r 、r u t e s! 兰 广、 d a t a ! 竺! ! j ; 厂、t a l l o g i c 圣 卷l 【一一 磊面五吲i l ! ! ! = j 厂鬲i + r d f s c h e m a 一1 兽 x m l + n s + x m t s c h e m a 图2 1 语义网体系结掏 东北9 币范大学硕士学位论文 2 2 1u n ic o d e 幂口u r i u n i c o d e 是一种编码格式,基于u n i c o d c 的系统有6 5 0 0 0 个不同的字符,可以涵盖 世界上所有语言的所有字母,外加数千种符号。采用统一编码的u n i c o d c 可以实现世界 上所有主要语言的混合,并且可以同时进行检索,避免了不同类型字符集之间由于编码 不同而造成存储、传递以及使用上的混乱。 u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ) ,即统一资源描述符,它泛指所有以字符串标识 的网络资源,是u r l ( u n i f o r mr e s o u r c el o c a t o r ,统一资源定位符) 和u r n ( u n i f o 衄 r e s o u r c en a m e ,统一资源名称) 的超集。u r l 支持语义网上的概念或资源的精细标识, 保证了定位的唯一性,从而使精确信息检索成为可能。 u n i c o d c 和u r i 是整个语义网络的基础,u n i c o d e 处理资源的编码,u r i 负责标识 资源。 2 2 2x m l + n s 十x m ls c h e m a x a v i l 使每个人都可以创建自己的标签,对网页进行注释,通过d t d ( d o c u m e n tt y p c d e f i n i t i o n ,文档类型定义) 来保证x m l 文档格式的正确性。x m l 允许使用者在他们 的文档中插入任意的结构,但没有说明这些结构的含意。只有标签名并不能提供语义, 所以在语义网结构中x m l 只是作为语法层,为建立语义网提供语法基础。从方便信息 检索的角度来看,仅有l 是不够的。 n s ( n a m es p a c e ) 即命名空间,是由u r i 索引来确定的。命名空间提供的这种简 单的方法可以将x m l 文档中元素和属性的字符描述与用u r i 确定的命名空间联系在一 起,可以将同一事物的不同字符描述联系起来,以避免在不同的应用中使用同样的字符 描述不同的事物。 x m ls c h e m a 用于描述和规范x v l l 文档的逻辑结构,它拥有比d t d 更强大的功能, 因为x m ls c h e m a 本身就是一个有效的x m l 文档,因而可以更加直观地了解x m l 的 结构。x m ls c h e m a 引入了数据类型、命名空间,对d t d 进行了扩充;它直接借助了 x m l 的语法规则,使x m l 从内到外达到了完美的统一;它提供了一套完整的约束机制, 能更精确和有效地描述x m l 文档结构。 2 2 3r d f + r d fs c h e m a r d f ( r e s o u r c ed e s c r i p t i o nf r a r n e w o r k ) 资源描述框架,是对结构化的元数据编码、 交换和重用的一个基础。在语义网模型中,信息以r d f 语句的形式存储,r d f 通常是 三元组的结构,每个三元组由类似句子中的主语、谓语和宾语三个部分组成,便于机器 理解。在r d f 中,文档中的声明通常是某个事物( 例如网页) 对于某些值( 例如人) 6 东北师范大学硕士学位论文 拥有某些属性( 例如是制作者) 。这种结构用于描述由机器处理的大量数据,是非常自 然的方法。抽象的r d f 数据模型表示为一个有向标记图。这个抽象模型是独立实现的, 而且可以用x m l 来序列化。 r d fs c h e m a 简称为r d f s ,是r d f 词汇描述语言,用于定义领域相关的属性以及 使用这些属性的资源类,是描述资源的一种定义语言。 r d f s 与r d f 的关系和x m ls c h e m a 与x m l 的关系不同。x m ls c h e m a 是用来定 义x m l 文档的结构和约束文档的内容的。而r d fs c h e m a 则是对r d f 的一种继承上的 补充,使得r d f 在描述能力方面有所提升。 2 2 4o n t o i o g yv o c a b u i a r y o n t o l o g y 最早是哲学上的有关事物存在的本质的概念。在人工智能和网络研究人员 看来,o n t o l o g y 是一份正式定义名词之间关系的文档或文件。一般在w e b 上的o n t o l o g y 包括分类和推理规则。分类定义的是对象的类别及其之间的关系,通过给类指定属性, 允许子类继承父类的属性,能够表达实体之间的大量关系,o n t o l o g y 中的推理规则提供 了进一步的功能。对同一概念的语义共享和共同理解是构建语义w e b 的核心和关键, 它是实现语义检索的前提条件,随着o n t o l o g y 在互联网上的使用,可以通过由页面指向 的o n t o l o g y 来定义网页上使用的名词或x m l 代码的含意。程序中不同的地址概念应用 不同的u r i ,就不会将它们混淆,而且还会进一步发现它们实际上是有联系的。o n t o l o g y 通过许多方法来增强网络的功能,通过简单的方法,它们就能改进网上搜索的准确性, 使搜索程序只寻找那些指向精确概念的网页,而不是仅仅通过模糊关键字查到的所有页 面。 2 2 5l o g i c 、p r o o f 、t r u s t 逻辑层( l o g i cl a y e r ) 的逻辑性是使用规则去推理,选择行为步骤并回答问题的方 法,这是语义网面临的一个任务。这个任务涵盖了数学和工程化决策,使其更加复杂。 传统的知识表示系统通常各自都有针对其数据作推理的一套有限和特殊的规则。即数据 可以由一个系统传到另一个系统,而规则由于所处的环境完全不同,它往往不能运用到 另一个系统之中。 而证据层( p r o o f l a y e r ) 使代理可以交换推理的结果。为了检查这些结果,需要将 各代理的内部推理机制转化为一种通用的证据表示语言。语义网结构中的信任层( t r u s t l a y e r ) 则是为了保证信息交换的安全问题而设计的,信息交换的双方必须建立了一种 信任关系才能在一定程度上保障信息的有效性。 7 东北师范大学硕士学位论文 2 3 本体论 2 3 1 本体的概念 哲学领域中本体( o n t o l o g y ) 是关于事物客观存在的,是对客观存在事物的系统性 解释和说明,关心的是客观现实的抽象本质【l 丌。随着信息技术的发展,本体论逐渐被引 入到人工智能领域,用来表示人脑中的共享知识和概念。本体提供了对特定领域知识的 共享,无论是人还是机器之间都能够有效地进行语义上的理解和通信,对于实现语义 w e b 所需要的语义层次上的知识共享、知识重用有巨大优势。因此在语义w e b 中,本 体具有非常重要的地位,是解决语义层次上w e b 信息共享和交换的基础。 人工智能领域研究本体的专家学者,曾经试图以一些言简意赅的语言对本体进行定 义,来揭示本体在计算机领域中的准确含义。这些定义尽管都不能单独准确无误地反映 本体实质,但是却表现了对本体认识不断的深化和趋于全面的过程。以下列举一些著名 学者给出的本体定义。 1 9 9 1 年,n e c h e s 等人给出人工智能领域本体的一个经典定义,即“给出构成相关 领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则 的定义,【1 8 】。这个定义指出了本体的构建方法,即先确定领域的术语和术语间关系和规 则,再给出术语和关系的定义。从n e c h e s 的定义可以看出,本体中的术语一方面是显 示定义的,另一方面则是由扩展所得。 1 9 9 3 年,g r u b e r 将本体概括为“本体是领域概念模型的显式表示 【1 9 】。1 9 9 7 年, b o r s t 基于g r u b e r 的观点,并将g r u b e r 的定义修正为“本体是可定义为被共享的概念化 的一个形式化的规格说明 2 0 l 。o r u b e r 和b o r s t 的定义都是在强调本体的作用,即本 体用来描述概念模型。但这些定义对本体描述概念模型等相关重要环节,并没有给出明 确的解释或说明。 1 9 9 8 年,德国学者s t u d e r 等人综合了g r u b e r 和b o r s t 的观点,将本体定义为“本 体是共享概念模型的明确的形式化规范说明 2 1 j ,并阐述了该定义包含的四层含义。 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) ,通过将客观世界中的一些对象的特性或本质揭示 出来而得到的模型,其表示的含义独立于具体的环境状态。 2 ) 明晰( e x p l i c i t ) ,指所使用的概念及使用这些概念的约束都有明确的定义。 3 ) 形式化( f o r m a l ) ,精确的数学描述,使计算机可读的。 4 ) 共享( s h a r e d ) ,指本体中体现的是共同认可的知识,反映的是相关领域中公认 的概念集,即本体针对的是团体而非个体的共识。 尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于本体的认识是统 一的,都把本体当作是领域内部不同主体之间进行交流的一种语义基础,即由本体提供 一种明确定义的共识。 8 东北师范大学硕士学位论文 2 3 2 本体的应用 总的来说,涉及本体的研究和应用集中表现在三个主要方面。第一个方面是纯理论 性的研究,研究本体的基本概念,本体建模方法论,本体的形式化描述等。本体的本质 是概念模型,表达的是概念及概念之间的关系。例如g u a r i n o 等人深入地研究了概念分 类问剐2 2 1 。第二个方面是本体在信息系统中的应用,主要包括处理信息组织、信息检索 和异构信息系统互操作问题。第三个方面是本体作为一种能在知识层提供知识共享和重 用的工具在语义w r e b 中的应用。 自2 0 世纪9 0 年代以来,随着计算机在人类社会和生活的各个方面的广泛应用,人 们对数字信息的渴望变得非常强烈,众多的信息系统被开发出来,为用户提供其感兴趣 的内容。数字信息一方面为人们的日常工作和生活带来了帮助,另一方面,大量的信息 又使人们不知所措。如何组织和提供信息就成为信息系统要解决的关键问题。 基于本体的检索技术与基于关键词匹配的传统检索模型相比,在知识检索方面具有 明显的优势。在用户实际需求的驱动下,确定要解决问题所处的领域。通过本体建模方 法论的指导,根据实际需要建立领域本体,建立的领域本体并不要求大而全,而是要求 面向具体的应用,能够很好的解决实际问题。这就要求在构建本体时,需要领域专家的 参与,领域专家与熟悉本体的计算机专业人员相互协作是本体建模的重要保证。接下来 要面向用户设计处理用户信息需求和为用户提供检索服务的过程。在这个过程中要接收 用户的查询请求,并且参照本体把查询字符串转化成概念的形式,再与本体库中的概念 进行匹配,得到符合检索条件的结果集。最后把结果集中的每一条记录按照一定的形式 ( 比如按相似度大小排序等) 呈现给用户。本体在这里起到一个中介的作用,即获取对 领域知识的共同理解,因此本体在检索系统中起到至关重要的作用。用于检索系统的本 体建设是一个反复迭代、不断扩展的过程,可以先建立本体的核心环节或相对独立的局 部,在使用的过程中,不断地获取对领域知识的理解,采取自动或人工的方式逐步完善 领域本体。 2 3 3 本体的构建 关于本体的构建,有很多学者提出了自己的观点,主要有u s c h o l d 提出的骨架法【2 3 1 , m i c h e a lg r u n i n g e r 和m a r k sf o x 提出的企业建模法【2 4 1 ,m a r i a n of e r n a n d e z 和 g o m e z - p e r e z 等提出的m e t h o n t o l o g y 方法【2 5 1 ,a l e x a n d e rm a e d c h e 等提出的c y c l i c a c q u i s i t i o np r o c e s s 方法【2 6 】,以及斯坦福大学提出的七步法【2 7 1 ,这些方法都可以构建出 语义表达完善的本体。下面重点介绍骨架法和七步法。 1 ) 骨架法 骨架法是爱丁堡大学人工智能研究所( a i a i ,t h ea r t i f i c i a li n t e l l i g e n c ea p p l i c a t i o n s i n s t i t u t e ) 的u s c h o l d 等人在开发企业本体的过程中总结出来的,骨架法的开发流程如图 2 2 所示。 9 东北师范大学硕士学位论文 图2 - 2 骨架法流程 明确本体的应用目的和应用范围是企业本体建模的首要任务。明确目的,根据目的 和任务限定本体的领域范围;本体捕获需要领域专家和计算机专业人员的合作,定义领 域术语,并确定术语间的关系;接下来,利用某种形式化语言显式地表现上个阶段的概 念化成果;建立本体的评价体系和评价标准,检查本体,按照评价体系和评价标准,符 合要求的则以某种形式( 如文件) 确定下来,否则重新进行本体分析,直到符合评价标 准。从图2 2 可以看出领域本体的建立往往不是一蹴而就的,而是一个循环往复、不断 完善的过程。 2 ) 七步法 七步法是斯坦福大学医学院在开发本体的实践中总结出来的,可以为领域本体建模 的提供借鉴。七步法的具体步骤如下: 第_ 步,确定本体的专业领域和范畴。首先要明确所构建的本体将覆盖哪个专业 领域;应用该本体的目的;本体中的信息能回答哪些类型的问题;本体的用户与系统维 护者是哪些人;确定领域本体可以解决的专业问题( c o m p e t e n c yq u e s t i o n s ) 。 第二步,考查复用现有知识本体的可能性。在实际应用中,当自己的系统需要与 其它应用交互时,而该应用又与现有本体相关联,有必要考虑复用现有的本体,以节约 开发周期和开发成本。 第三步;列出本体中的重要术语。首先,需要一份最全的术语清单,此时先不考 虑概念间会有属性及表达上的重复。接下来的两个步骤是完善等级体系和定义概念属性 ( s l o t s ) ,这两个步骤是密不可分、互相交织的。二者必须同时进行。这两个步骤在知 识本体的设计进程中最为重要。 笤四r 步j定义类( c l a s s ) 和类的等级体系( h i e r a r c h y ) 。完善一个等级体系可以 由某一领域中最大的概念开始,而后再将这些概念细化,或者由底层最小类的定义开始, 然后将这些细化的类组织在更加综合的概念之下。 筹i 矽;定义类的属性。只有类的体系不足以提供系统能力问题所需的答案信 息。一旦定义好了一些类,就必须开始描绘概念间的内在结构。首先在第三步的术语列 表中选择类,剩下的术语绝大多数可能是这些类的属性( p r o p e r t i e s ) 。通常,有两种对 象属性的类型能够成为一个知识本体中的属性:“内在属性( i n t r i n s i cp r o p e r t i e s ) , 例如某种茶的颜色:“外在 属性( e x t r i n s i cp r o p e r t i e s ) ,例如某种茶的产地;如果对 象是结构化的,那么它的部分,可以是既具体又抽象的元素。 1 0 东北师范大学硕士学位论文 第六步;定义属性的分面( f a c e t s ) 。一个属性可能由多个不同的分面组成。分 面用来描述取值的类型( v a l u et y p e ) 、容许的取值( a l l o w e dv a l u e s ) 以及取值的个数 ( c a r d i n a l i t y ) 和有关属性取值的其它特征。 第七步,创建实例。定义某个类的一个实例需要。首先要确定一个类,然后创建 类的一个实例,为创建的实例添加属性值。 2 4 描述逻辑 描述逻辑( d e s c r i p t i o nl o g i c ) 是一种基于对象的形式化的知识表示工具,描述逻辑 提供了一个正式的、基于逻辑的语义来确保为不同的应用领域提供一个有用的知识表达 框架。它源于一阶谓词逻辑的一个可判定子集,具有清晰的模型理论意义【2 引。这种描述 形式为良好的推理算法提供了坚实的理论和逻辑基础,并保证了计算完全型 ( c o m p u t a t i o n a lc o m p l e t e n e s s ,即所有的结论都是可以计算出来的) 以及可判定性 ( d e c i d a b i l i t y ,即计算可以在有限的时间里结束) 。描述逻辑有清晰的模型和理论机制, 适合通过概念分类学来表示应用领域,并提供了推理服务。 本体是语义网中的核心和关键,它通过提供一个共享的、精确定义的术语列表将语 法扩展到语义。o w l 是专门为语义w e b 设计的本体语言,它利用现有的w e b 标准( x m l 和r d f ) ,添加了面向对象和基于框架的系统中常见的本体原语,具有强表达性的描述 逻辑的形式化。 2 4 1 基于描述逻辑的知识表示 给定知识库k 号( t ,a ) ,概念c 和d ,个体a 。这个知识库包括t b o x 和a b o x 两个 部分,t b o x 来定义概念结构,而a b o x 则存放了用这些概念描述的个体的断言。一个 完整的描述逻辑的知识系统还需要对外提供出推理服务。 描述逻辑可由以下三个性质来描述1 2 w : 1 ) 它的基本组成部分是概念( c o n c e p t ) ,关系( r o l e ) 和实例( i n d i v i d u a l s ) 。 2 ) 它可依据提供的构造算子,在简单的概念和关系上构造出复杂的概念和关系。 3 ) 它能够通过推理自动的发现隐含的概念和实例。 一个完整的描述逻辑系统是建立在概念和关系上的,其中概念是指对象概念的集 合,关系为对象间的二元关系。一个完整的描述逻辑系统包含以下几个基础部分1 3 0 j : 1 ) 表示概念和关系的集合。概念是指客观存在事物的定义,关系是指概念间的二 元关系。描述逻辑至少包含以下基本算子:交( n ) ,并( u ) ,非( 一) ,存在量词 ( j ) ,全称量词( v ) 。这种最基本的描述逻辑称之为a l c 。理论上描述逻辑可以 采用这种方法对现实世界的概念和关系建模。 东北师范大学硕士学位论文 2 ) t b o x 包含断言和a b o x 实例断言。一个知识系统由t b o x 和a b o x 组成。t b o x 是关于包含断言的有限集合,如:c d ,c 和d 是概念。a b o x 是实例断言的集合: 如c ( a ) ,其中c 为概念,a 为个体。 3 ) 基于t b o x 和a b o x 的推理机制。描述逻辑的推理功能主要由描述逻辑t a b l e a u x 算法实现【3 0 l 。根据采用的描述逻辑算子不同,t a b l e a u x 算法分为a l c t a b l e a u x 和 a l c n t a b l e a u x 。a l c t a b l e a u x 算法分为以下三种类型:只针对t b o x 的 a l c t a b l e a u x ,只针对a b o x 的a l c t a b l e a u x 算法和针对t b o x 和a b o x 的 a l c t a b l e a u x 算法。而a l c n t a b l e a u x 算法则对a l c t a b l e a u x 进行了扩充。 2 4 2 描述逻辑的推理机制 定义了t b o x 和a b o x 的概念以后,就可以使用推理规则在领域中进行推理。描述 逻辑所提供最有用的功能是知识库不仅能响应己经明确说明的信息,而且还能推理出知 识中暗含的关系。一个基于描述逻辑的知识系统必然需要提供各种各样的推理服务接 口,从逻辑的角度来看,一个由t b o x 和a b o x 组成的知识库,其语义可以等同于用一 组谓词来描述的公理集合【2 8 】,可以通过推理而获得隐性知识。 1 ) 在t b o x 中进行的推理 在t b o x 中进行的推理可以被看成是对逻辑语义的挖掘,也就是从已经定义的 t b o x 中按照逻辑推导出新的事实或验证一个事实是否符合已有的逻辑系统。在 t b o x 中进行基本推理运算包括: 包含关系( s u b s u m p t i o n ) 推理:确定k 中c 是否是d 的子类;这是描述逻辑 中的基本和关键的一个推理方法。 可满足性( s a t i s f i a b i l i t y ) 推理:对于一个领域的术语集,用t 来表示,如果要 引入一个新的概念,则需要判定这个概念在原有的t 中是否有它合适的位置,若一 个非空概念只有在它的解释能满足t 中的所有公理的情况下,则称为对于t 是可满 足的( s a t i s f i a b l e ) 的,否则就是不可满足( u n s a t i f i a b l e ) 的。 此外,还有判断概念相等( e q u i v a l e n c e )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省惠东县平海中学九年级化学下册《11.1 生活中常见的盐》说课稿 (新版)新人教版
- 货物销售合同(标准版)
- 黑龙江省鹤岗市绥滨县 2025-2026学年八年级上学期开学道德与法治试题(含答案)
- 办公代理租赁合同(标准版)
- 3.3 波的反射、折射和衍射 教学设计-2023-2024学年高二上学期物理人教版(2019)选择性必修第一册
- 金融企业劳动合同书示范文3篇
- 新生儿科护理工作制度、岗位职责考试题【附答案】
- 汽车修理工(技师)执业资格证考试题(含答案)
- 高级汽车修理工考试题及答案
- (2025)护理核心制度考试试题及答案
- 巨人通力电梯NOVA GKE调试说明书故障代码GPN15 GVN15-GKE - 51668093D01-2022
- 《立在地球边上放号》《峨日朵雪峰》联读课件32张高中语文必修上册
- 家具厂封边技能培训
- 重点群体人员本年度实际工作时间表
- DBJ50-T-386-2021 建筑施工现场扬尘控制标准
- 《美丽中国是我家》-教学设计
- 实验动物微生物学和寄生虫学质量控制课件
- 视网膜分支静脉阻塞的护理课件
- 云南省学校食堂“六T”实务管理验收评分标准(2021版)
- 复变函数与积分变换课件
- 弱电智能化建设报价清单
评论
0/150
提交评论