基于本体的语义检索关键技术研究.pdf_第1页
基于本体的语义检索关键技术研究.pdf_第2页
基于本体的语义检索关键技术研究.pdf_第3页
基于本体的语义检索关键技术研究.pdf_第4页
基于本体的语义检索关键技术研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

基于本体的语义检索关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的语义检索关键技术研究 R e s e a r c ho nO n t o l o g y - - b a s e dk e yT e c h n o l o g yo f S e m a n t i cR e t r i e v a l 作者姓名魏瞳益 学位类型王程亟 学科、专 业物速王程 研究方向物逾笪理拯信星化 导师及职称但查住数拯 2 0 1 3 年4 月 合肥工业大学l I I I M I H I I IH I I III M I f Y 2 3 1 5 5 1 4 _ 一 一 本论文经答辩委员会全体委员审查,确认符合合肥工 业大学硕士学位论文质量要求。 答辩委员会签名:( 工作单位、职称) 主席:烈硝凑私氐冶苏阪 孙:彬2 注亏芬2 注 吉风己z 易尢t , i i 为l 兹吱 撕、1 U V1 I :髀 套驰z 瓣历 ) 到殳 钟删召旅致 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得金8 垦王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字孝兔咒锄签字日期:必D 年年月叮日 学位论文版权使用授权书 本学位论文作者完全了解金B 垦王些太堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权盒蟹王些太 ! L 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 名:锄踊撇名:叫 签字日期:知I 弓年午月邓日 学位论文作者毕业后去向: 工作单位: 通讯地址: 签字日期:弘、年牛月1 日 电话: 邮编:7 加:;口 基于本体的语义检索关键技术研究 摘要 随着互联网的不断发展,网络用户对信息的要求也随之多样化。然而,由 于传统的搜索引擎大多采用基于关键词匹配的全文检索技术,导致查全率和查 准率都无法得到保证。近年来,以O n t o l o g y 为基础的语义检索技术得到国内外 越来越多的学者和研究者的关注,并且在现实中已经得到了应用。基于本体的 语义检索技术能够真正使检素技术具体到语义层面,并且提高了检索的查全率 和查准率。 首先,本文介绍了本体理论的相关知识,包括本体的定义、本体的分类、本 体的描述语言、本体的构建规则、本体构建的方法以及本体构建的工具。在掌 握本体理论知识的基础上本文给出了领域本体的模型,并构建了一个较为简单 的物流领域本体。其次,本文研究了基于本体的语义检索的相关技术。语义检 索预处理技术包括语义标注、查询条件处理和本体存储,为语义检索的实现提 供的支撑。J e n a 语义工具支持S P A R Q L 语言的查询扩展。本文还研究了语义检 索的策略。然后,本文对基于本体的语义检索系统进行了分析和设计,给出了 基于本体的语义查询算法和检索流程,并实现了该系统。 最后,文章对本文的研究进行了总结,并对基于本体的语义检索的发展进 行了展望。 关键词:本体;R D F ;语义检索;J e n a 推理 R e s e a r c ho nO n t o l o g y - b a s e dk e yT e c h n o l o g yo f S e m a n t i cR e t r i e v a l A b s t r a c t W i t ht h ed e v e l o p m e n to ft h eI n t e r n e t ,t h er e q u i r e m e n to fw e bu s e r sb e c o m e s d i v e r s i f i e d H o w e v e r , m o s to ft h et r a d i t i o n a lS e a r c hE n g i n e sa d o p tf u l l - t e x t r e t r i e v a lt e c h n i q u e sb a s e do nk e y w o r d s ,a n di tm a k e sb o t hr e c a l la n dp r e c i s i o nn o g u a r a n t e e R e c e n t l y , o n t o l o g y - b a s e ds e m a n t i cr e t r i e v a lh a sb e e nc o n c e r n e db y m o r e a n dm o r ed o m e s t i ca n do v e r s e a ss c h o l a r s ,a n di t h a sb e e na p p l i e di n r e a l i t y O n t o l o g y b a s e ds e m a n t i cr e t r i e v a lm a d es e m a n t i cr e t r i e v a ls p e c i f i c t os e m a n t i c l e v e l ,a n di m p r o v e dr e c a l la n dp r e c i s i o n Fi r s t ,t h i sp a p e ri n t r o d u c e dk n o w l e d g ea b o u to n t o l o g y ,i n c l u d i n gd e f i n i t i o n , c l a s s i f i c a t i o n ,t h ed e s c r i p t i o nl a n g u a g e ,b u i l d i n gr u l e s ,b u i l d i n g m e t h o d sa n d b u i l d i n gt o o l s B a s e do nt h e s e ,t h i sp a p e rp r o p o s e dam o d e lo fl o g i s t i c sd o m a i n o n t o l o g y , a n db u i l tas i m p l es m a l lo n e T h e n ,t h ep a p e rs t u d i e do n t o l o g y b a s e d r e l e 、| ;a n tt e c h n o l o g yo f s e m a n t i cr e t r i e v a l S e m a n t i cr e t r i e v a lp r e t r e a t m e n t t e c h n o l o g i e si n c l u d i n g s e m a n t i ca n n o t a t i o n st e c h n o l o g y ,s e g m e n t a t i o n a n d o n t o l o g ys t o r a g e ,p r o v i d e dt h eb a s i sf o rs e m a n t i cr e t r i e v a l J e n aS e m a n t i cT o o l k i t s u p p o r r tS P A R Q Lq u e r ye x p a n s i o n T h i sp a p e ra l s od i s c u s s e do n t o l o g y 。b a s e ds e a r c h s t r a t e g Y O nt h eb a s i so fa b o v er e s e a r c h ,t h ep a p e ra n a l y z e da n dd e s i g n e dt h e o n t o l o g y b a s e ds e m a n t i c r e t r i e v a ls y s t e m ,p u tf o r w a r dt h es e m a n t i ce x t e n s i o n m e t h o da n dr e a l i z e dt h i ss y s t e m F i n a l l y , t h i sp a p e rs u m m a r i z e dt h er e s e a r c h s i t u a t i o na n dp r o s p e c t e dt h e d e v e l o p m e n to fo n t o l o g y - b a s e ds e m a n t i cr e t r i e v a lt e c h n o l o g y K e y w o r d s :O n t o l o g y ;R D F ;S e m a n t i cr e t r i e v a l ;J e n ar e a s o n i n g 致谢 随着论文工作的完成,三年的研究生生活也即将结束,这三年里老师、同 学的帮助下我受益颇多。正是他们的帮助,我才能取得现在的成绩。 首先必须谢谢我的导师倪志伟教授。他渊博的知识、严谨的治学态度、实 事求是的科研作风给我们留下了深刻的印象。倪老师不仅为我们提供了良好的 实验环境和参加科研项目的机会,在科研项目中给了我很多的指导和帮助,而 且在我论文的选题方面给了指导和建议,从而使我的毕业论文顺利完成。在此 衷心的感谢倪老师在生活学习上给予我的帮助与支持。 其次感谢合肥工业大学管理学院智能管理研究所的其他老师和同学,三年 来一起探讨科研项目,在良好温馨的环境下,互相帮助共同完成科研实验。尤 其要感谢我们8 6 3 项目小组的同学们,你们的帮助使我的论文完成的更加顺利。 同时还要感谢支持我在本科毕业后继续学习的家人,是你们的支持才能让 我安心的在学校里学习和生活。 也要谢谢我的室友和我的同学,谢谢你们在学习上给予我的帮助与鼓励, 没有你们的陪伴,三年的研究生生活是单调的无趣的。 除此之外,还要感谢我的母校合肥工业大学这么多年来对我的培养,给我 提供良好的学习和生活环境,让我在这个美丽的校园里度过三年的研究生生活 最后,再一次感谢我的老师、同学、家人、室友和朋友们对我的帮助和鼓 励,希望你们在未来的工作中取得更好的成绩! 作者:魏晓莉 2 0 1 3 年4 月 目录 第一章绪论。1 1 1 研究背景与意义1 1 2 研究现状1 1 2 1 国外现状1 I 2 2 国内现状2 1 3 主要研究内容与组织结构2 1 3 1 主要研究内容2 1 3 2 本文组织结构3 第二章本体相关理论综述4 2 1 本体的定义4 2 2 本体建模语言4 2 3 本体分类6 2 4 本体描述语言7 2 4 1 R D F 、R D F S 7 2 。4 2 本体描述语言O W L 8 2 5 本体构建方法9 2 5 1 本体构建的一般准则9 2 5 2 本体构建方法1 0 2 5 3 本体构建工具1 3 2 6 领域本体构建方法设计一1 5 2 。6 1 物流领域本体模型构建1 5 2 6 2 本体编码1 7 2 7 本章小结2 0 第三章基于本体的语义检索关键技术研究。2 1 3 1 语义检索预处理2 1 3 1 1 语义标注2 1 3 1 2 查询条件预处理2 3 3 1 3 本体存储2 6 3 2 基于J E N A 的语义推理模型2 6 3 2 1 语义解析工具J e n a 2 7 3 2 2S P A R C ) L 查询语言2 9 3 3 语义检索策略3 0 3 4 本章小结3 1 第四章基于本体语义检索系统设计。3 2 4 1 开发平台与环境3 2 4 2 语义检索系统结构设计一3 2 4 2 1 系统设计思路3 2 4 2 2 语义检索系统结构3 3 4 3 语义查询方法及算法3 4 4 3 1 使用I C T C L A S 分词工具对检索需求进行分词处理3 4 4 3 2 使用J e n a 工具对分词结果进行语义扩展3 4 4 4 语义检索的逻辑流程一3 5 4 5 语义检索系统实现一3 6 4 5 1 物流信息发布一3 6 4 5 2 语义检索实现3 8 4 6 本章小结3 9 第五章总结和展望4 0 5 1 文章总结4 0 5 2 未来展望4 0 参考文献。4 2 攻读硕士学位期间参与项目4 5 V 插图清单 图2 1按对领域的依赖程度对本体的分类6 图2 2 骨架法流程一1 1 图2 3评估法流程一1 2 图2 4 p r o t 6 9 6 工具界面1 4 图2 5物流领域本体模型1 6 图2 - 6 领域本体各类之间的属性关系1 7 图2 7物流本体中的类1 8 图2 8p r o t 亡9 6 中前三层类之间属性关系1 8 图2 - 9物流本体中自定义的对象属性和数据属性1 9 图3 1语义标注示意图2 1 图3 2用R D F 进行语义标注2 2 图3 3虚拟家庭树一2 2 图3 4虚拟家庭树的R D F 语义标注文件2 3 图3 5I C T C L A S 框架结构:基于H H M M 的中文词法分析2 4 图3 6J e n a 工具的各个组成部分2 8 图3 7J e n a 推理机内部工作流程2 8 图4 1系统结构图一3 3 图4 2语义检索详细流程3 6 图4 3物流信息发布界面3 7 图4 4场景一检索入口3 8 图4 5场景一检索结果显示3 8 图4 6场景二检索入口3 8 V l 表 表 表 表 表格清单 1 o n t o l o g y 的四种基本关系5 2物流企业类的属性描述1 7 1将本体文件导入词库的步骤2 4 3B a t e s 语义检索策略一3 0 V 第一章绪论 1 1 研究背景与意义 自互联网产生以来,互联网逐渐发展成为人们日常生活中不可缺少的一部 分,信息发布的自由化和信息提供的简洁化,促进了互联网的发展,作为网络 信息的主要平台的互联网聚集了海量的信息。庞杂的数据信息聚积在社会生活 的各个领域中,这些信息资源包括声音、视频、文本、图片等多种形式。这就 造成了数据类型和数据结构的异构性,给各领域信息资源的整合管理带来了很 多不便。 信息检索目前处于网络化阶段,随着检索技术的发展,信息检索从相对封 闭、稳定、一致的数据对象发展到了形态不同、无固定结构、广泛分布、松散 管理的W e b 内容。近年来,随着互联网的发展,信息检索的对象从局限于单一 形式的文本数据发展到网页、声音、图片和网络多媒体视频等多种形式,信息 检索的领域范围也在不断地扩大。互联网技术的发展促进了信息检索技术的发 展,并且伴随着大批搜索引擎产品的出现。但是随着网上信息量的急剧增加以 及互联网用户需求的不断提升,原有的传统的基于关键词的信息检索技术逐渐 无法满足人们的需求。在这个情况下,如何能够在短时间内、高效地检索和访 问各个领域的信息资源从而促进信息之间的有效交流与共享成了一个待解决解 决的重要问题。 随着物流产业在我国社会中经济地位日益提高,物流信息化逐渐成为我国 物流产业壮大的关键途径。物流信息系统具有涉及时空跨度大的特点,这就造 成了系统对信息的依赖过大。为确保信息的及时性,要求物流信息系统对信息 收集、传输、加工和处理的速度相当高。但是受物流信息系统自身特点和企业 系统之间的异构问题的影响,形成了大大小小的“信息孤岛”。因此我国要发 展现代物流,必须加强物流信息资源的整合以促进信息资源的共享。 构建基于物流领域本体的信息系统,能够帮助用户消除由于不同系统开发 者所面对的数据、信息表示方式和系统结构不同带来的访问障碍和“信息孤岛” 问题,能充分的实现共享信息资源。 1 2 研究现状 语义检索是近些年兴起的一种信息检索方式。目前,基于本体的语义检索 还停留在概念、原理、研究阶段。 1 2 1 国外现状 目前国外已经存在了多种基于本体的信息检索系统,其中比较有名的语义 检索系统有:( O n t o ) 2 A g e n t 1 1 ,O n t o b r o k e r t 2 1 ,S K C 3 】和S w o o g l e 【4 】等。 ( O n t o ) 2 A g e n t 系统的目的是帮助检索到用户所需要的万维网上己有的本 l 体;O n t o b r o k e r 系统的检索对象是存在于万维网上的网页资源,主要为系统使 用者提供其所需要的网页资源。S K C 系统是一个还在进行中的项目,这个系统 的目的是解决信息系统中存在的语义异构问题,并且实现异构系统之间的互操 作。通过在建立一个基于本体上的代数系统来实现不同本体之间的互操作,从 而达到实现异构系统之间的互操作的目的;S w o o g l e 系统是一个可以像G o o g l e 一样在互联网上爬行的语义检索系统,能够在网页上搜集各类M e t a 信息,但 是S w o o g l e 技术目前还是比较简单的。V o o r h e e s 5 】在1 9 9 4 年提出了基于本体 的查询扩展思想,该思想使用本体概念来进行扩展查询;M a k i 在2 0 0 3 年提出 了基于本体结构的查询扩展方法,这种方法的基本思想是利用本体中概念之间 的路径来实现扩展查询;A T & T 建立了一个借用了本体技术的信息检索系统 F i n d U R 系统,通过使用相应的描述逻辑语法,表达了定义于W o r d n e t 中的词汇 之问的存在的同义关系、近义关系和上下位关系等,并通过推理得出某个词的 同义、近义和上下位词的集合来实现查询扩展 6 1 。由于该系统并没有使用本体 中定义了的词汇去对文档资源进行标注,而只是单纯的想借助本体来实现查询 扩展,而且输入的查询关键词本身也不一定严格根据本体中定义的词汇,所以 从本质上说该系统仍然只是基于语法的。 1 2 2 国内现状 国内在语义检索方面还处于研究的阶段,目前只是一些相关项目的研究。 国内在语义检索方面比较有名的思想有,顾进广提出了语义视图的概念【7 J :主 要目的是在智能信息处理技术的基础之上为个人计算机提供一些基于本体的动 态语义视图,建立有效的文件资源之间的语义来联系,其目的是希望提高资源 管理的效率,扩大资源可以共享的范围;诸葛海等人设计了一种主动文档框架 S ( A c t i v eD o c u m e n tF r a m e 。A D F ) ,试图建立能够进行自我表示、自我解释和自 我执行的文档模型,并通过研究设计并实现了能够完成自我表示、自我解释和 自我执行的文档模型的工具。 1 3 主要研究内容与组织结构 1 3 1 主要研究内容 本文主要研究了本体理论在语义检索领域的应用。详细介绍了本体相关概 念及本体构建的相关技术,在分析当前信息检索技术存在的问题以及本体相关 的技术基础上,给出了基于本体的语义检索模型和系统结构,并详细阐述每个 模块的功能及实现流程。本文的主要工作内容有: ( 1 ) 对本体的定义、描述语言、本体构建的一般准则以及本体的构建方法 进行了研究和探讨。本文在已有本体构建方法的基础上,从现有物流教材中抽 取了部分物流领域相关术语,利用P r o t 6 9 6 本体构建工具,提出了物流领域本 体构建的模型,并完成了物流领域本体的构建。 ( 2 ) 对基于本体语义检索的相关关键技术进行了研究,主要研究了语义检 2 索预处理的相关技术,包括用I C T A L A S 分词技术,语义标注技术,本体存储 的相关技术,研究了语义解析工具J e n a 的推理机制和应用于J e n a 工具的 S P A R Q L 语义查询语言。 ( 3 ) 提出了基于本体的语义检索系统设计模型,并对系统检索算法和流程 进行了阐述,并实现该系统。 1 3 2 本文组织结构 本文按照五个章节对文章进行组织安排,如下: 第一章,绪论。阐述基于本体的语义检索的研究的背景、意义及国内外研 究的现状。 第二章,本体相关理论综述。主要介绍了本体的定、本体的分类方法和本 体的描述语言,以及常用本体构建工具、本体构建方法和本体构建的一般原则, 并利用相关理论构建物流领域相关本体。 第三章,基于本体的语义检索关键技术研究。主要研究了基于语义检索的 预处理技术( 语义标注技术、分词处理技术和本体存储技术) 。并着重研究了基 于J e n a 的语义查询扩展技术,探讨了基于本体的语义检索策略。 第四章,基于本体的语义检索系统的设计。本章主要介绍基于本体语义检 索系统的设计思路和功能模块分析,提出了本文的语义查询算法,并展示部分 实验结果。 第五章,总结和展望。对本文进行总结、回顾,指出不足,并对未来研究 工作进行展望。 3 素【1 5 】:类( c l a s s e s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 和 实例( i n s t a n c e s ) 。 ( 1 ) 类( c l a s s e s ) 或者概念( c o n c e p t s ) 类有时也成为概念,从语义的角度出发,将对象的集合称为类,并采用框 架结构来定义本体的类( 或概念) 。类主要包括类的名称、类之间的对象关系及 数据关系,以及利用语言对概念的描述。类的另一种表述方式:可以将某个概 念C 表示为C = ,其中D 表示某个领域,R 表示领域中相关状态的集合, W 表示领域空间 中概念及关系的集合。 ( 2 ) 关系( r e l a t i o n s ) 关系表示领域中概念或者属性之间的交互作用,形式上讲关系可以定义为 n 维笛卡尔积的子集:R :C l C 2 C n ,如S u b c l a s s o f 关系。从语义层面上 来讲,关系对应于对象元组的集合。 ( 3 ) 函数( f u n c t i o n s ) 函数也可以认为是一种特殊的关系,关系第n 个元素可以由关系的前n 1 个元素唯一决定,函数可以定义为F :C l C 2 C n 1j C n 。例如F a t h e r o f 就是一个函数,F a t h e r o f ( X ,y ) 表述的就是Y 是X 的父亲。 ( 4 ) 公理( a x i o m s ) 公理代表的是永真断言。是用来限制类和实例的取值范围的,公理中包含 许多的规则和约束。 ( 5 ) 实例( i n s t a n c e s ) 实例是类的具体化,是一个类的代表性元素。从语义方面讲实例用来表示 对象。 从语义角度分析,o n t o l o g y 概念间有四种最基本的关系:p a r t o f 、k i n d o f 、 i n s t a n c e s o f 和a t t r i b u t e o f ,如表2 1 所示: 表2 1 o n t o l o g y 的四种基本关系 关系名 描述 P a r t 。o f 一个概念是另一个概念的组成部分 K i n d o f 某个概念是另一个概念的具体,表示概念间的继承关 系,比如,苹果是水果的一种,有苹果k i n d o f 水果 的关系。类似于父类与子类的关系 I n s t a n c e s o f某个概念的具体应用实例,表示实例与概念间的关 系,类似于面向对象编程思想中,对象0 是概念c 的 一个实例 A t t r i b u t e o f对某个概念的描述,或某两个概念间关系的描述,包 括数据属性和对象属性,如学号是学生的一个数据属 性 在具体实际应用中,不一定要求必须严格的按照以上5 种本体建模元语来 构造本体。由于具体应用场景的复杂程度不同,在定义本体的关系的时候也并 不一定仅仅局限于以上4 种最基本的关系。本体构建过程中,研究者可以根据 具体应用领域应用的场景的特定情况分析本体之间的关系,根据需要加以定义 来满足实际应用的需要。 2 3 本体分类 本体由于开发者的研究领域和开发层次不同可以分为不同的类型。在文献 【1 6 】中本体可以根据研究主题、形式化程度、领域的依赖程度等方面进行分类。 G u a r i n o 1 7 】提出的依据详细和对具体领域的依赖程度对本体的分类。 按照对领域的依赖程度由低到高,可将本体划分为:项级本体,领域本体, 任务本体和应用本体四类。 图2 1按对领域的依赖程度对本体的分类 ( 1 ) 顶级本体描述的是最基本的概念及概念之间的关系,顶级本体能够在 一个很大的范围内实现共享。 ( 2 ) 领域本体是应用于特定的研究领域,是描述该领域中的概念以及概念 之间的关系等领域信息的本体。 ( 3 ) 任务本体是应用于具体的任务,用来描述某个任务中相关的概念术语、 概念之问的关系以及其他可以描述这个任务的相关信息。从研究和开发层面上 来看两者处于同一层次。 ( 4 ) 应用本体描述的是依赖于特定的领域和特定的任务的概念间的关系。 从图2 1 可以看出任务本体和领域本体处于相同的研究开发层次,并且两 者都可以利用顶级本体定义了的词汇描述新的词汇。 按照细化程度可将本体分为参考本体和共享本体,其中参考本体详细程度 较高,共享本体详细程度低。 文献【1 8 】中按照形式化程度分类可分将本体划分为: ( 1 ) 高度非形式化:用松散的自然语言表示本体; ( 2 ) 结构非形式化:用结构化的自然语言表示本体; ( 3 ) 半形式化:用人工智能语言表示本体; ( 4 ) 严格形式化:用形式化的语言表示本体。 2 4 本体描述语言 为了使本体的描述能够清晰,使其容易被理解,本体描述语言应首先满足 以下要求: ( 1 ) 良好定义的语法。选择的本体描述语言的定义语法尽可能与W 3 C 提 供的规范兼容,有利于在不同的网络系统之间进行数据的交换和互操作; ( 2 ) 良好定义的语义。本体描述语言定义的语义能够尽可能准确的描述某 个知识,语义越丰富,对这个知识的描述就越详细,在实际应用中,也就越容 易被理解,但是语义越丰富,表达能力越强,会使得基于本体的语义检索的能 力无法控制; ( 3 ) 有效的推理支持。除了良好的定义语义,还需要考虑本体的实际应用, 本体一般用于语义检索,所以本体描述语言必须要支持各种推理工具: 近年来,由于大量的研究工作者活跃在该领域,因此诞生了不同的本体描 述语言,有R D F 和R D F S 、O I L 、D A M L 、O W L 等。 下面主要介绍几种常见的本体描述语言。 2 4 1 R D F 、R D F S R D F t l 9 】是资源描述框架( R e s o u r c eD e s c r i p t i o nF r a m e w o r k ) 的简称,这种本 体描述语言主要用于表达资源的元数据信息,是W 3 C 在X M L 的基础上推荐的 一种标准为基于元数据的语义表达提供了基础,可以用来表示任意的资源信息。 R D F 用一个用由节点之间的带有标记的有向链接弧所组成数据类型来表示任何 数据。用节点来表示W e b 上的信息资源,用弧表示信息资源的属性。R D F 的实 质是将事物看成是一种二元关系,因为我们几乎可以将大多数的复杂关系分解 成若干个简单二元关系,因此R D F 模型可以用作建立复杂数据模型的基础。R D F 为不同系统之间的信息资源的交换提供了互操作的能力。 R D F 基本的数据模型包括三种对象类型【2 0 J : ( 1 ) 资源( R e s o u r c e ) R D F 表达式将其描述的所有事物称为资源。资源可以是各种形式的存在, 例如一个网页可能是一个资源,网页的一部分也可能是资源,若干网页的集合 也可能是一个资源,资源也可以是不能直接通过w e b 访问的对象,例如书籍。 资源的命名和标识是通过一个U R I 加上一个可选的定位I D 字符串来表示。U R I 自身的扩展性允许表示任何可以认知的实体。 ( 2 ) 属性( p r o p e r t y ) 属性的作用是描述资源的具体信息、特性或相互关系等。每个属性有其特 定的含义,规定了取值范围,定义能够描述资源类型以及资源之间的关系。 ( 3 ) 声明( S t a t e m e n t ) 7 语言中对语义表达能力最强的。但是由于O W LF u l l 在语义表达方面所体现出的 优越性,使得本体的复杂性高,很难找到这样的推理软件能够对O W LF u l l 的所 有成分进行完全的推理,所以O W LF u l l 的推理很难控制。 这三种子语言之间存在有如下的关系成立,但是这些关系反过来并不成立。 ( 1 ) 若一个O W LL i t e 是合法地,那么它也是一个合法的O W LD L :反之 不然。 ( 2 ) 若一个O W LD L 是合法地,那么它也是一个合法的O W LF u l l ;反之 不然。 ( 3 ) 若一个O W LL i t e 结论是有效地,那么它作为O W L D L 结论也是有效 地;反之不然。 ( 4 ) 若一个O W L D L 结论是有效地,那么它作为O W L F u l l 结论也是有效 地:反之不然。 在具体应用的时候用户在选择使用哪种子语言时的应当从下列角度考虑: ( 1 ) 在O W L L i t e 和O W L D L 之间进行选择时,需考虑整个该语言给出约 束可表达性的程度; ( 2 ) 在O W LD L 和O W LF u l l 之间进行选择时,用户对R D F 的元模型机 制的依赖程度; ( 3 ) 在O W LF u l l 和O W LD L 子之间进行选择时,需要考虑推理语言的复 杂度。 O W L 的这三种子语言与R D F 的关系是: ( 1 ) 可以认为O W LF u l l 是对R D F 语言的继承扩展; ( 2 ) 可以认为O W LL i t e 和O W LF u l l 是一个受到限制的R D F 扩展; ( 3 ) 任何一个O W L 文档都是一个R D F 文档,但是一个R D F 文档并不是 所有的O W L 文档。一个R D F 文档在最多可以认为是一个O W LF u l l 文档,但 并不能保证其是一个合法有效的O W LL i t e 文档或O W LD L 文档; 2 5 本体构建方法 2 5 1 本体构建的一般准则 本体在构建的过程中,需要一定的科学准则作为指导。人们在对己有的本 体构建的经验进行总结的基础上,得出了一些本体构建的准则,其中较为有名 的是G r u b e r l 2 1 】提出的五条准则,具体描述如下: ( 1 ) 本体术语的定义应当是客观的,能够清晰地表达其定义的术语所包含 的含义; ( 2 ) 本体的推论不能与本体的原有定义矛盾或冲突,而应当是一致的; ( 3 ) 再添加新本体时,不需要修改本体原本的定义,可以在己定义的本体 基础上扩展出新的本体; ( 4 ) 本体的编码应当可以在不同的系统中被理解,尽量少定义特殊的符号, 9 概念,确定术语及属于之间的数据属性和对象属性。一般相关领域术语 的抽取和定义,以及术语之间关系的定义需要该领域专家或文档的支 持,以确保本题中定义的术语和关系可以得到该领域的普遍认可。研究 过程中,对该领域越熟悉,所建的本体也就相对的越完善。 c 本体表示:通常用语义模型来表示本体。 d 本体合法性的评估:对本体进行评估,其实就是考虑本体构建是否满足 本体构建的一般准则。本体是否是能清晰地表达某术语的含义,术语之 间的关系在逻辑上能否达成一致,概念之间的概念是否没有缺漏等都是 本体评估过程中所要考察的因素。如果符合本体的评估标准则进入继续 下一步,否则返回b ,重新对本体进行分析。 e 本体的建立:选择适当的描述语言,并以文档的形式保存的本体。 不符合 图2 2 骨架法流程 ( 2 ) 评估法 学者对多伦多大学的T O V E 项目本体的开发经验总结出了评估法。T O V E 项目本体主要包括企业设计本体、项目本体、调度本体和服务本体,其本体建 立过程【2 4 】有以下六个步骤: a 收集具体的应用情景。本体建立的目的是为了在实际中使用,如果出现 了本体不能够回答的问题,需要重新设定应用场景,构建新的或者扩展 已有本体来解决新问题。 b 非形式化本体能力问题的形成。根据特定的应用场景,采用问答的形式 对本体构造进行需求分析,这个问答形式可以确定本体的约束和评价的 标准。 c 抽取和定义相关领域的术语。抽取出某领域具体应用场景中的专业词 汇,然后对其进行形式化的定义。 d 具体场景中问题的形式化。用定义的词汇表示上述本体能力问题。 e 本体词汇公理的定义。公理是用来定义本体词汇的语义和约束。如果本 体中定义的公理能够完全回答本体所要解决的问题,那么,相对于本体 要解决的问题而言,这些公理是足够的,完整的。否则若定义的公理无 法完全解决本体所要处理的问题,需要定义新的术语和公理。这一步与 d 有反复的交换过程。 f 调整问题的解决方案,从而使本体趋于完备。 图2 3 评估法流程 ( 3 ) K A C T U S 法 K A C T U S 项目的主要目的是:开发出可以使技术系统中全生命周期的知识 被重用的方法。这个方法中,每个具体的应用场景都有一个能表达其需求的本 体,可以是对先有本体的复用,也可以被另一个本体继承。K A C T U S 法的开发 过程【2 5 】如下: a 应用说明:提供本体应用的上下文环境,和该本体应用模型所需要的组 件; b 初步设计:进一步的提炼和完善现有本体,从而达到对现有本体最大程 度的复用; c 本体构造:为达到最大程度的同构,应当使用最小关联原则,确保模型 既相互依存又相互统一。 ( 4 ) M e t h o n t o l o g y 方法 M e t h o n t o l o g y 方法是在结合了骨架法和C O M E Z - P E R E Z 方法之后,提出的 更为通用的一种构建本体的方法。M e t h o n t o l o g y 是一种结构化的本体构建的方 法,具体流程【2 6 1 如下所示: a 规格说明手册。规格说明手册是非形式、半形式或形式话的以自然语言 描述的书面文档。该手册应当包含:本体的形式化的程度、范围、以 及本体构建的目的( 预期的场景、用途以及最终用户等) 。一个良好的 本体规格说明手册应当满足简洁、部分完整性、一致性的要求。 b 获取知识。知识的来源渠道多种多样,可能是:专家、书籍、手册等等。 从知识源获得相关知识的技术包括:形式化或非形式化的文本分析、 知识获取的工具、头脑风暴法、访谈等。 c 知识的概念化。将领域知识组织成概念模型。允许本体的最终用户决定 某个本体是不是可以使用概,而不需要查看该应用场景下的本体源代 码的可用性。 d 概念的集成。重用其先有本体中的定义,从中选择适合自己所建本体概 1 2 念模型的术语定义。 e 本体构建的实现,可用任何一种编码语言实现本体。 f 评价,在本体生命周期的各个阶段及阶段之间,采用一个特定的本体作 为参照系,对本体的软件环境和文档的正确性和有效性进行评价。 g 文档化,在本体构建的各个阶段都应有对应的文档。 ( 5 ) S E N S U S 方法 S E N S U S 2 7 】方法是由美国加州大学信息科学研究实验室通过提取和合并各 种知识源得到的用来处理自然语言的方法,其中共有5 0 0 0 0 多个电子类知识的 概念。构建S E N S U S 本体的方法路线如下: a 定义不属于S E N S U S 的“种子”术语: b 手动的将前面定义的种子术语和S E N S U S 术语相连; c 寻找所有从种子节点开始到S E N S U S 根为止的路径上出现的概念; d 增加和S E N S U S 本体中的领域相关的概念,但还不属于在S E N S U S 本 体中的概念; e 根据前面的步骤启发式的找出特定领域的全部术语。 ( 6 ) 斯坦福大学的七步法 七步法【2 8 】是美国斯坦福大学开发的主要用来构建领域本体的方法。具体开 发步骤如下: a 确定所要构建的本体所属的领域和范围; b 确定是否存在其他研究者构建的现有本体可以复用; C 确定该领域内的重要专业术语; d 定义领域本体中类与类之间的层次关系; e 确定类的属性; f 确定类的值域和定义域; g 创建本体实例。 以上六种本体构建的方法都是不同领域的研究折在自己的工作实践中总结 出的方法,没有统一的本体建模标准,也不存在适用于所有领域本体构建的指 导原则和操作方法。它们只是在有限的领域内集成使用,且没有统一的建模语 言来表示本体模型,无法保证本体的共享和重用。相对来讲,M e t h o n t o l o g y 方 法要优于其他方法。在实际中,大多数本体的构建研究,都是在斯坦福大学七 步法的基础上进行。七步法对于专业和领域没有特定的限制,是在一个相对客 观的本体构建方法。本体构建方法应当满足共享性和可理解性。 2 5 3 本体构建工具 在明确了本体构建过程中所要使用的具体方法之后,就要利用具体的本体 构建工具对其进行建模和实现。随着本体技术的发展,近年来,国内外学者在 研究过程中开发了多种本体构建的编辑编辑工具,如O n t o l i n g u aS e r v e r ,J a v a O n t O l o g yE d i t o r ,O n t o E d i t ,O i l e d ,p r o t 6 9 6 ,C h i m a e r a s 等【2 9 】【3 0 1 。这些工具能 很好的帮助本体研究者构建、修改、浏览和维护本体。下面重点介绍O n t o l i n g u a S e r v e r 、O n t o E d i t 、C h i m a e r a 和p r o t 6 9 6 四种本体构建工具【3 l 】: ( 1 ) O n t o l i n g u aS e r v e r 。它是第一个本体服务器。可以对本体进行常规的 管理操作,如本体的创建、查看、编辑、修改和使用,而且这中本体编辑工具 有一个独特的优点,就是它可以通过W e b 来发表、浏览、创立和编辑存储在 O n t o l i n g u aS e r v e r 上的本体。 ( 2 ) O n t o E d i t 。它是一个本体工程环境,集合了基于方法学的本体开发以 及协调和推导的能力。O n t o E d i t 更加注重于本体开发中:本体需求的规范、本 体概念层次和关系层次的精化和本体合法性的评价。 ( 3 ) C h i m a e r a 。它是一个基于W e b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论