




已阅读5页,还剩52页未读, 继续免费阅读
(计算机软件与理论专业论文)面向语义信息检索的模糊本体自动化构建的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论丈 m a s t e r st h e s i s 中文摘要 随着网络信息数据的急剧增加,因特网上信息量的日益扩大,人们在信息获取 方面的要求也越来越高。语义网的出现为计算机提供了可理解的语义信息环境,计 算机可以用基于语义的信息组织方式通过自动分析知识来完成人机交互。 本体作为某个特定领域重要概念共享的形式化描述被广泛应用于多个领域。然 而,形式化的概念很难有效表达不确定的信息,传统本体不能支持模糊信息的描述 和表达,因此,构建模糊本体越来越受到大家的关注。 针对手工构建模糊本体工作量大且复杂性高的问题,本文在构建模糊本体过程 中,研究了模糊本体的自动化构建技术。针对模糊概念格的构建,设计了模糊概念 的自动生成算法,并在此基础上,研究了模糊概念格到模糊本体的映射方法。构建 的模糊本体模型,利用了模糊集合理论,在模糊本体中加入了隶属关系,可以用来 表达现实世界的模糊概念。为了使构建的模糊本体在语义检索有更丰富的语义知识 链,本文在研究推理机制时,重点研究了语义闭包的生成。在基于模糊本体的语义 信息查询实验中,通过抽取了两百篇与学校教学相关的文档作为实验语料来构建教 学领域本体,以教学本体实例分析了基于模糊本体的语义信息检索过程。实验结果 采用查全率和查准率作为系统性能评判的标准,将该实验与基于关键字的向量空间 的检索模型进行对比,验证了该方法的有效性。 关键词:模糊本体;语义网;语义信息检索 a b s t r a c t w i t ht h er a p i di n c r e a s eo fn e t w o r kd a t aa n dt h eg r o w i n go fi n t e r n e ti n f o r m a t i o n , p e o p l e sr e q u i r e m e n t so fi n f o r m a t i o na c c e s sa r ei n c r e a s i n g n ee m e r g e n c eo fs e m a n t i c w e bo f f e r su n d e r s t a n d a b l es e m a n t i ci n f o r m a t i o ne n v i r o n m e n tf o rc o m p u t i n g , t h e c o m p u t e r c a nu s ei n f o r m a t i o n o r g a n i z a t i o n b a s e d0 1 1s e m a n t i ct oa c c o m p l i s h h u m a n - c o m p u t e ri n t e r a c t i o nt h r o u g ha u t o m a t i ca n a l y s i so fk n o w l e d g e o n t o l o g ya sa s h a r ec o n c e p to fap a r t i c u l a ra r e ao ft h ef o r m a ld e s c r i p t i o ni sw i d e l y u s e di nm a n ya r e a s h o w e v e r , t h ef o r m a lc o n c e p tc a nn o te f f e c t i v e l ye x p r e s su n c e r t a i n t y i n f o r m a t i o n , a n dt h ec l a s s i c a lo n t o l o g y c a nn o tf u l l ys u p p o r tt h ed e s c r i p t i o na n d e x p r e s s i o no ff u z z yi n f o r m a t i o n , t h e r e f o r e ,c o n s t r u c t i o no ff u z z yo n t o l o g yi sg e t t i n g m o r ea n dm o r ea t t e n t i o n p r o b l e m so ff u z z yo n t o l o g yc o n s t r u c t i o n , s u c ha st r e m e n d o u sa m o u n to fw o r ka n d h u g ec o m p l e x i t y , a r ev e r yd i f f i c u l tt os o l v e a u t o m a t i cf u z z yo n t o l o g yc o n s t r u c t i o n t e c h n o l o g yh a db e e nr e s e a r c h e di nt h i sp a p e rd u r i n gc o n s t r u c t i n gf u z z yo n t o l o g y f u z z y f o r m a lc o n c e p ta n a l y s i sw a su t i l i z e df o rc o n s t r u c t i n gf u z z yo n t o l o g ym o d e lf o rs e m a n t i c i n f o r m a t i o nr e t r i e v a l i nv i e wo ff u z z yc o n c e p tl a t t i c ec o n s t r u c t i o n , a l la u t o m a t i c g e n e r a t i o na l g o r i t h mw a sd e s i g n e d , a n db a s e do nw h i c h , m a p p i n gm e t h o d sf r o mf u z z y c o n c e p tl a t t i c e t of u z z yo n t o l o g yh a db e e ns t u d i e d n ec o n s t r u c t e d 旧o n t o l o g y m o d e l ,w h i c hu s e sf u z z ys e tt h e o r y , m e r g e sa f f i l i a t i o ni n t of u z z yo n t o l o g ya n dc a nb e u s e dt oc o n v e yf u z z yc o n c e p t so fr e a lw o r l d i no r d e rt oe n r i c hs e m a n t i ck n o w l e d g e c h a i no fc o n s t r u c t e df u z z yo n t o l o g y , w ef o c u s e do nt h es t u d yo fs e m a n t i cc l o s u r e a l g o r i t h m b a s e do nf u z z yo n t o l o g ys e m a n t i ci n f o r m a t i o nq u e r y , w ee x t r a c t e d2 0 0p i e c e s t e a c h i n gr e l a t e dd o c u m e n t sa se x p e r i m e n tc o r p u sf o rc o n s t r u c t i n gd o m a i no n t o l o g y , a n d w ea n a l y z e dt h es e m a n t i ci n f o r m a t i o nr e t r i e v a lb a s e do nf u z z yo n t o l o g yd u r i n gt h e e x p r i m e n t n er e c a l la n dp r e c i s i o nw e r eu s e dt oe v a l u a t es y s t e mp e r f o r m a n c e ,a n dt h e r e s u l t ss h o w e dt h a tc o m p a r e dw i t hv e c t o rs p a c em o d e lr e t r i e v a ls y s t e mw h i c hb a s e do n k e y w o r d ,t h i ss y s t e mc a ni m p r o v er e t r i e v a la c c u r a c ya n dp r o m o t ei n t e l l i g e n ts e m a n t i c q u e r y k e y w o r d s :f u z z yo n t o l o g y ;s e m a n t i cw e b ;s e m a n t i cr e a s o n i n g ;s e m a n t i ci n f o r m a t i o n r e t r i v a l ;f u z z yc o n c e p ta n a l y s i s l l 硕士学位论丈 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 储签名:葡散 l 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中 师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 作者签名:佟,i 奴导师签名:轴袁 允许北京万方数据电子出版社出版的中国学位论文全文数据库将本人论文 以电子、网络、镜像及其他数字媒体形式公开出版。 作者签名:取叙 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程”中的 规定享受相关权益。回童诠塞堡童卮澄蜃! 旦堂生;旦二釜;旦三生筮查! 作者签名:南、薇 日期:铂口年6 月1 日 导师签名: 栖磊 日期:鼬年厂月上日 : 硕士学位论文 m a s t e r st h e s i s 第一章绪论 1 1 论文研究背景和意义 1 1 1 论文研究背景 随着互联网信息技术的飞速发展,因特网上信息量呈爆炸性增长,人们在信息 处理中面临的问题也越来越突出。当前的w e b 技术模式主要是面向用户的,通过 用户直接阅读与处理来完成,由于w e b 页面的无结构性、数据多样性和动态变化 性,使信息检索和信息资料维护越来越困难,技术的不完善已经成为信息处理的一 个严重约束。解决这些问题的途径就需要一种自动化的信息处理技术。 语义网的出现为计算机提供了可理解的语义信息环境,计算机可以用基于语义 的信息组织方式通过自动分析知识来完成人机交互。其研究重点是如何把信息资源 表示为计算机能够理解的形式,即计算机可理解的带有语义的信息。t u n b e m e r s l e e 1 】给出了语义网的层次关系基于x m l 、r d f r d f s 构建知识本体和 逻辑推理规则,用于实现基于语义的知识表示和查询、推理。 在语义网中,本体定义一个共享的领域理论信息,解决了语义层上w e b 信息资 源的共享和交换。自二十世纪以来,本体用于知识表达、知识共享和重用,被广泛 地引用到计算机领域,尤其是在人工智能和知识工程等热点研究领域中。本体从形 式化模式给出了领域内概念及概念间的关系,使得这些概念有明确统一的规定,便 于人机交流。 目前学术界已经开发出了多种本体,相对比较成熟的本体如:f r a m e o n t o l o g y 、 w o r d n e t 、d u b l i nc o r e 、c y c 等。面对不同的领域,本体的研究和开发也越来越多。 随着本体开发的逐渐成熟,如何表示应用领域中出现的大量不确定性信息也逐步成 为研究重点。由于形式化的概念并不能够充分表达不确定的信息,纯粹的利用概念 描述的本体不能有效地支持模糊的概念,模糊逻辑引入本体,即模糊本体,被考虑 用来来解决信息描述中的不确定性概念的表示。 1 1 2 论文研究意义 语义网在语义信息检索的主要体现是基于本体【2 】的信息查询,但是纯粹的本体 模型难以真实的表达一个完整的知识体系,现实世界中存在一些模糊概念在单纯的 本体中根本无法精确地表达出来,因此,研究模糊本体的构建及其应用有很重要的 硕士学位论文 m a s t e r st h e s i s 意义。 第一,模糊本体模型能更有效地表达现实存在的领域知识体系。 目前的语义信息检索在语义空间构造的研究还不够成熟,语义网提供了良好的 语义信息环境,但是对于存在的不精确信息,例如“高与矮”、“胖与瘦”,不仅很难 准确地度量,也很难明确地划分界限,这对于实现真正意义上的语义信息查询仍然 是一个挑战。模糊本体模型将模糊集理论【3 】引入到本体的构建中,突破了传统本体 在知识表达上的局限性。模糊本体通过隶属函数,用形式化的方式来描述概念,可 以用来表达全部的精确和非精确的概念,解决了经典本体中对于模糊概念难以表达 和推理等方面的问题。 第二,当前模糊本体模型研究还不成熟。 模糊本体构建技术的研究还处于初级阶段,大多数模型都是完全依赖于领域专 家预先定义类别构架,随着信息的逐渐增加和不断更新,人工定义的类别构架容易 导致新信息的无法载入,同时,现有的类别构架其类别相关性比较绝对,对于同一 层次的类别无法体现其相对权重,容易导致概念层次搜索路径的绝对和单一,从而 造成信息遗漏。 手工构建模糊本体没有统一的标准,对于一些复杂的应用领域,本体构建的工 作量相当大,同时,伴随着很大的主观性,所构建出的模糊本体往往不通用,没有 从根本意义上实现本体重用。 第三,基于模糊本体模型的语义信息检索提供了更好地信息处理机制。 语义信息检索要求实现语义信息的表达和推理,能够更直接有效地支持用户检 索和信息处理。利用模糊本体模型生成的语义信息检索,具有更好的概念层次结构 和对逻辑推理的支持,不仅可以实现信息资源的语义共享,对于基于知识的、语义 的信息匹配和模糊信息查询,还能保证更好的查全率和查准率。 本课题重点研究了如何自动或者半自动地生成模糊本体模型,从而降低模糊本 体构建中的复杂度,解决手工构建本体概念工作量大和易受大量主观因素影响等问 题。模糊本体具有可扩展性和可重用性,适合于面向语义的信息检索,能够实现基 于属性的信息查询,尤其是针对领域知识体系中出现的模糊信息,该模型能够很好 的处理。研究模糊本体的构建及其在语义信息检索中的应用,实现信息处理的自动 化和智能化,有定的现实意义和研究价值。 1 2 国内外研究现状 当前,模糊本体构建的方法主要分为两种:一种是在领域专家的帮助下将模糊 2 硕士学位论文 m a s t e r st h e s i s 逻辑引入到本体描述语言来建立模糊本体;另外一种是从结构化的数据或文本中通 过抽取、学习等方式构建模糊本体。第一种模糊本体构建方法依赖于领域专家,有 很大的主观性,完全采用手工构建,但是,使用该方法构建模糊本体时,由于缺乏 统一的标准,每个开发小组都有自己的开发原则和准则,构建的模糊本体往往难以 实现共享、重用以及互操作,有很多局限性。第二种本体构建方法采用自动或半自 动的方法来建立模糊本体,很大程度上简化了手工构件模糊本体的工作量。 模糊本体的构建基于传统的本体模型,目前比较典型的几种本体构建方法主要 有:骨架法( s k e l e t a lm e t h o d o l o g y ) 1 4 1 、企业建n 法( t o v z ) t 5 】、m e t h o n t o l o g y 方法和循 环获取法( c y c ) 【6 】。骨架法和企业建模法都是比较通用的方法,骨架法构建框架和各 阶段的指导方针在本体构建中有一定的参考价值,它要求文档化且有本体评估步 骤,但是每一步没有给出具体的方法,包括本体评估方法和技术;企业建模法提出 了本体获取的新方法,明确提出了需求的问题和完备性定理,但是没有文档化过程 和具体的步骤说明:m e t h o n t o l o g y 方法的出现是针对大型本体的开发的,它结合了 骨架法和企业建模法,融合了软件开发的思想,提供了更规范的方法,有本体的评 估步骤,详细描述了相关技术工具和知识来源以及知识获取方法,是本体构建的一 种结构化方法,但是该方法没有给出具体的本体评估策略,也没有明确提出文档化 的过程;骨架法、企业建模法和m e t h o n t o l o g y 方法都是贯穿整个本体构建的方法, 循环获取法则是实现本体构建的其中一个步骤的方法。 模糊本体在构建本体概念时考虑了概念模糊性问题,得到了很多学者的关注。 l e e 7 】等提出了一种模糊本体模型,结合a g e n t 技术,生成的模糊本体模型,并用于 气象新闻摘要的自动提取。之前,l e e 将本体结构从三层模型扩展到四层模型,并 证明了该方法可以更好地表达领域知识,因此,文献【7 中仍然利用了之前提出的四 层模型,包括领域层、事件层、类别层和类层,同时,为了更好地描述模糊概念, 将隶属函数嵌入到概念中,而这些模糊概念之间的联系则是通过增加模糊关系来完 成的。 w i d y a n t o r oa n dy e n 【8 】利用模糊本体完成了智能文本信息检索。该方法首先对文 本摘要人工标注,包括基于文本的标题、作者、摘要内容、出版日期、文本关键词 的。模糊本体将隶属函数与本体概念结合形成模糊概念层,以关键词集的形式建立, 术语的层次关系取决于彼此间的相互关系。整个系统的缺陷是文章相关性的判断与 用户查询之间的依赖性需要人工预先设定。 w a l l a c ea n da 、证锄s 【9 】将本体的知识表达的思想进行扩展,在本体中定义了概念 关系集的模糊隶属度,通过概念关系的隶属函数判断用户、实体集和检索信息的语 硕士学位论文 m a s t e r st h e s i s 境,从而实现智能化地信息检索。该系统将领域内一般存在的语义关系作为一个集 合,以便在检索信息时能够被识别出来,同时本体概念的模糊分类关系也通过各语 义关系的结合来实现。 唐新香【l o 】等人提出了一种基于m d a 的模糊本体生成方法。该方法提出了一种 扩展的模糊本体语言,通过描述语言的映射生成相应的本体,利用o w l 描述生成 的本体。该方法在f o m l 的可视化环境中构建出模糊本体,大大提升了模糊本体的 生成效率,同时,由于采用o w l 描述语言,也有很强的可读性。 强宇【l l 】等人提出了一种基于模糊聚类的模糊本体生成方法。该方法通过模糊背 景生成模糊本体,提出了一种基于模糊聚类技术的本体构建方法,可以自动地构造 本体类的概念层次结构。虽然该方法没有考虑本体规则以及本体推理,也没有给出 具体的本体构建过程,但是它在模糊概念格的构造中重点考虑了模糊聚类和聚类的 度量参数的有效性,通过聚类来完善模糊本体,为模糊本体自动生成技术的发展提 供了一种较好的思路。 1 3 本文研究目的 模糊本体在领域描述中,有更完整的知识表示体系,与普通本体比较有更广泛 的应用。随着网络的迅速发展,人们对信息查询,数据分析的要求越来越高,面向 语义的信息检索作为人们获取信息的有效方式,已经逐渐成为一种信息处理的趋 势,模糊本体的开发很好地支持了面向语义的信息技术的发展。 本文针对传统的本体构建过程中无法表达不确定性概念、寻找概念间关系困 难、手工构建本体概念工作量大和易受大量主观因素影响等问题,研究模糊本体模 型地自动化构建方法。实现基于模糊本体的语义信息检索,包括信息资源的知识共 享、语义推理和智能查询。 1 4 论文的总体结构 本论文分为五章: 第一章为绪论,介绍课题的背景和意义、国内外的研究现状及本文的研究目的。 第二章介绍了本体和模糊本体的相关理论,包括本体概念、本体描述语言、本 体构建工具,模糊集合理论以及模糊本体概念。 第三章主要讨论了基于f f c a 的模糊本体自动化构建。第一节介绍了目前本体 的自动化构建技术;第二节分析了如何从模糊形式概念分析构建模糊本体,包括模 糊概念格的构造、模糊相似性计算、决策规则抽取和模糊本体概念及层次关系的产 4 硕士学位论文 m a s t e r st h e s i s 生;第三节研究了基于模糊概念格的模糊本体的生成过程;第四节是模糊本体的展 现;第五节通过实验分析了论文所设计的模糊本体构建方法的有效性。 第四章构建基于模糊本体模型的语义信息检索,分析了检索过程,并与传统的 基于关键词向量空间模型的信息检索进行实验对比,并对实验结果进行分析。 第五章总结全文,对进一步工作进行展望。 硕士学位论文 m a s t e r st h e s i s 2 1 本体的概念 第二章模糊本体相关理论 本体是语义网的基础,它能够描述网络信息资源的概念及其相互关系,可以作 为计算机在信息智能化处理上的一种有效方法。本体的定义有很多,g r u b e r 在1 9 3 9 年提出了一个被广泛接受的定义:“本体是概念模型的明确的规范说明【1 2 】”,后来, b o r s t 在此基础上,对本体的概念做了进一步修改,他给出的定义是:“本体是共享 概念模型的形式化规范的说明【1 3 】”。随着对本体概念的进一步研究和完善,1 9 9 8 年 s t u d e r 对本体概念进行了更精确的定义,他认为“本体是共享概念模型的明确的形式 化的规范说明【1 4 】,该定义包含了四层含义:“概念化”、“明确”、“形式化”和“共享”。 “概念化( c o n c e p t u a l i z a t i o n ) ”从广义的定义看指的是世界观,表示对某个特定领 域的思维方式,也可以看作是对客观世界现象一种抽象模型。知识库或系统都需要 遵从某种概念化,概念化表现出来的含义独立于具体的环境,只需要了解事实的形 式化结构,它与描述语言无关,与特定实例也没有直接联系。 “明确( e x p l i c i o ”指所定义使用的概念、概念类型及使用这些概念的约束都需要 有明确的定义。 “形式化”指本体是计算机可读的,可以理解的。 “共享”指共同认可的知识通过本体表现出来,反映领域中公认的概念集,本体 针对的是社会范畴而非个体之间的共识【l 卯。 本体的提出是为了获取、描述和表达领域知识,并提供对该领域知识的共同理 解,从形式化的结构上定义这些共同认可的词汇、概念以及概念间的关系,使得这 些概念和概念关系在共享领域有明确的定义,有助于人机交互。 本体不仅可以表示一个领域的知识,也可以表示为多个领域之间的知识,本体 的这种跨领域知识的表示方法使得知识被重用。对于本体的分类,目前仍然没有统 一的标准,通常,按照不同的分类标准,本体有不同的类别。 按本体的研究层次分: ( 1 ) 通用本体:主要描述一般性的客观世界知识,研究通用的概念,可能从状态、 空间、事务和对象等来描述客观事实,通常适合多个领域,可以很大的范围内实现 共享。 ( 2 ) 领域本体:针对某个特定的应用领域,划分领域知识的结构体系、抽取领域 知识的内容,包括领域知识的类型、相关的术语和概念,并对领域知识的结构体系 6 硕士学位论交 m a s t e r st h e s i s 和知识内容加以约束。 ( 3 ) 任务本体:定义通用任务或推理活动。可以使用通用本体中定义的词汇、概 念来描述自己的概念和词汇。 ( 4 ) 应用本体:针对特定的应用构建的本体,它既可以使用特定的领域本体中的 概念和任务本体中的概念。 按本体形式化程度分: ( 1 ) 完全非形式化本体:利用资源语言描述本体。 ( 2 ) 结构非形式化本体:利用结构化的或受限的自然语言描述本体,减少概念的 二义性。 ( 3 ) 半形式化本体:人工定义形式化描述语言表达本体知识。 ( 4 ) 形式化本体:基于形式化语义描述本体,有一致性和完整性等属性。 为了更好地描述本体,德国的a l e x a n d e rm a e d c h e 1 6 】给出了本体的形式化定义: 定义2 1 本体是符号系统o ( l ,f ,g ,c ,h ,r ,彳) ,其中: o ) l 是词典( l e x i c o n ) ,词典中定义了概念标记和概念关系的标记,他们的并集 称为词典。 ( 2 ) f 和g 是参照函数( r e f e r e n c ef u n c t i o n ) ,f 和g 用来连接词典中条目和概念。 ( 3 ) 概念关系( c o n c e p t s ) ,对于任意的c c ,存一个或多个概念声明,。 ( 4 ) h 是层次关系( t a x o n o m y s ) ,包括概念间的传递、对称、非自反等关系。 日( c 1 ,c 2 ) 表示c 1 是c 2 的子概念; ( 5 ) r 是二元关系( r e l a t i o n s ) ,二元关系需要有具体的定义域( d o m a i n ) 和值域 ( r a n g e ) 。 ( 6 ) a 表示一系列公理( a x i o m s ) 。 本体用来描述概念以及概念之间的关系,通过概念、属性、关系来表达领域知 识。通过参考国外学者提出的关于本体的定义,本文定义了领域本体的形式化表示。 定义2 - 2 领域本体是特定领域概念、实例和关系的集合,是一个四元组 f 2 c ,p , i ,r ) , 其中:概念集c = c l ,c 2 ,c i ,在本体中,一个概念通常被认为是一个类,并 且各概念都有相应的一组属性来描述: p 是概念属性的集合,被定义为一个三元关系p ( 也v r ) ; d 用来限定本体概念的范畴,是属性a 的定义域; v 是属性p 的值,r 是属性p 的值域,是对属性值v 的约束; i 是实例的集合,r 是概念集c 和实例集i 上的二元关系的集合,可以是实体间 7 : 硕士学位论文 m a s t e r st h e s i s 一对一的关系,也可以是一对多或者多对多的关系。 2 2 本体描述语言 ( 一) 通用型本体表示语言1 7 】j 8 f 1 9 j k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t , 知识交换格式) k i f 是由斯坦福大学逻辑工作组开发的种基于一阶谓词演算的语言,是基于 知识的一种形式化表示语言。用于表示知识语言的多样性,具有描述性语义和非简 单逻辑推理规则等特性。 k i f 具有知识互换格式,用于解决知识语言的异构性问题,不同的计算机系统 可以通过k i f 进行信息交换,信息需要交换时,系统首先将自身的知识表示转换成 k i f , 交互完成后,再将已经交互的知识转变为本系统的知识描述方式。 k i f 可以在没有解释器的帮助直接理解知识表达式的含义,具有广泛的逻辑推 理性,定义和描述任何类型。 o k b c ( o p e nk n o w l e d g eb a s ec o n n e c t i v i t y ) 协议 o k b c 具体描述了一个协议,是一个知识系统的统一模型,而非一种语言。该 协议对其底层k r ( k n o w l e d g er e t r i e v a l 系统框架) 作了设定。 o k b c 提供了知识表示中所需要的基本概念,o k b c 通常作为本体论语言和工 具的基础被用于高级语言程序设计的实现中,如c 、j a v a 等语言。o k b c 的缺陷是 对于公理、规则和元数据无法有效地表示和描述。 ( 二) 传统的系统本体语言【2 0 】【2 1 1 o m o l i n g u a o m o l i n g u a 基于k i f 和框架本体f r a m eo n t o l o g y 的本体构建语言,它提供规范 统一的格式来构建本体。一般来说,o n t o l i n g u a 可以通过下面几种方式来构建本体: 仅使用f o 词汇( 不能表示公理) ;使用k i f 表达式;同时f o 词汇和k i f 表达式。 利用上述方法构建本体,o n t o l i n g u a 由三部分组成:定义头部分、用自然语言描述 的非形式化定义部分、用k f 或者f o 定义的转换器。 o n t o l i n g u a 的特点:提供规范的、机器可读的方式;便于本体到各种知识表示 和推理系统的转换;用于本体服务器。 c y c l c y c l 是c y e 系统描述语言,是一种形式化的知识表示语言。c y c l 包括变量、 语义常量、字符串、数字和非原子项等各种类型的项,这些项与c y c l 表达式一起 构成c y c l 语句,知识库由这些c y c l 语句构成。 一, 硕士学位论文 m a s t e r st h e s i s c y c l 语言的特点:语法以一阶谓词演算为基础,扩充了等价推理、默认推理 等,可以做部分二阶谓词演算。 o c m l o c m l ( o p e r a t i o n a lc o n c e p t u a lm o d e l i n gl a n g u a g e ) 是一种图形化描述语言,由 英国o p e nu n i v e r s i t y 的知识媒体研究所开发的一种框架语言。 o c m l 提供了更丰富的表示机制,如关系、函数、类、实例以及链式规则,提 供了证明理论和函数评价的功能,同时o c m l 可与o n t o l i n g u a 兼容,有很强的执 行能力。 l o o m l o o m 是一种以一阶谓词逻辑为基础的高级编程语言,隶属描述逻辑的体系范 畴,支持o n t o s a u r u s 工具,是规则和框架模型的紧密结合。之后,南加州大学又推 出了p o w e r l o o m 语言,其推理机制采用前后链规则,有更强的推理机制。 l o o m 语言的特点:强大的推理能力:支持多种编程风格;提供规范性说明语 l 口o f l o g i e f l o g i c 结合一阶谓词逻辑描述语言和框架语言,在面向对象和基于框架语言的 等结构方面更具优势,在继承、查询方法、对象属性和封装等方面有更好结构特性, 同时,该语言有一个完整的理论模型和有效的推理决策机制。 f l o g i c 可以从面向对象、数据库过渡到本体,有广泛的应用领域。将f l o g i c 与 专门的事务逻辑结合起来,利用本体信息来改进推理机制,有很大的扩展空间。 ( - - ) w 3 c 本体语言 x n 几 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,扩展标记语言) 是w 3 c 组织下开发的一种元 数据语言,源于s g m l ( s t a n d a r dg e n e r a lm a r k u pl a n g u a g e ) ,是一种简单的标记描述 语言。用户可以在x m l 定义自己特有的标签及属性,定义数据的结构并从文档中 提取需要的数据,该描述语言几乎已经成为了一种标准。 x m l 的优势主要体现在以下几个方面: 扩展性:用d t d ( 文档类型定义) 定义语言规范; 简单性:用户能够直接阅读x m l 文档,容易理解和创建x m l 文档; 通用性:x m l 文档可以被嵌入到多个页面; 灵活性:x m l 可以根据文档内容的不同显示出不同的表达方式; x m l 通过标签和属性表示w e b 页面的数据信息,然而,由于x m l 允许缺省 标记符间的信息结构,使得它无法有效地表达完整的本体,也很难实现知识推理。 9 : 硕士学位论文 m a s t e r st h e s i s 因此,为了实现基于x m l 语言描述本体和进行知识推理,需要研究新的处理方法。 r d f 依d f s r d f ( r e s o l l r c ed e s c r i p t i o nf r a m e w o r k ) 资源描述框架是一种基于x m l 的语言, 是w 3 c 组织为了以标准规范的形式描述基于x m l 的语义信息,实现信息的可重用 性而制定的。 r d f 描述网络信息资源,通过资源、声明和属性三个要素来完成。其中,资源 ( r e s o u r c e s ) 是指由w w w 地址表示的实体;属性( p r o p e r t i e s ) ) 习来定义描述资源的具 体属性及各种关系;声b = ,q ( s t a t e m e n s ) 是指给某资源的属性赋值。 r d f s ( r d fs c h e m a ) 是基于f l a m e 的r d f 扩展语言,是一组资源和属性的集合, r d f s 有一个基本的类型模式,用来定义类、对象和属性。r d f s 加入了本体建模 元素,与面向对象数据结构一样,它也可以定义资源与属性间的关系,用户可以更 具信息内容建立专门的数据词库。 ( 四) 基于w e b 的本体描述语言 x o l x o l ( x m l - b a s e do n t o l o g ye x c h a n g el a n g u a g e ) 是基于x m l 的本体交换语言, 不被用来开发本体,只提供一种标准的交换格式,因此x o l 通常在不同数据库系 统、本体开发工具以及应用程序之问作为交换本体的桥梁。 在面向对象的知识表示中x o l 提供了表示语义的语言,同时x o l 提供了解析 工具和协同工作的x m l 语法,然而,x o l 只包含了对于类、槽和分面等要素的定 义与描述,不能够定义框架,不能表示公理和规则,因此不适合定义元本体。 o i l o i l ( o n t o l o g yi n t e r c h a n g el a n g u a g e ) 是由斯坦福大学、曼彻斯特大学、麻省理工 学院等共同研究推出的一种推荐标准,用于本体的合并与表示以及系统间的信息交 换,是一种本体交换语言。 o i l 有形式化的语义推理和丰富的建模要素,由许多模块构成,将本体分为三 个层次:对象层用于处理具体的实例;第一元数据层是本体的定义层;第二元数据 层是本体容器层,用来描述本体的信息。 o i l 通过基于框架的要素表示本体,能够声明和预定义描述逻辑中的公理,可 以为槽增加实体的属性,提供完整性推理。o i l 已经被应用到各个领域,如知识管 理等。 d a m l + o i l d a m l ( d a r p aa g e n tm a r k u pl a n g u a g e ) 与o i l 综合,扩展了r d f 和r d f s 。其 本体语言可以用x m l 编写或者r d f 中的三元式编写。d a m l + o i l 提供了多种建 1 0 : 硕士学位论文 m a s t e r st h e s i s 模要素,具有描述逻辑的语义。 d a m l + o i l 描述的本体中包含了头标记、类、属性、公理以及实例,其中, 头标记可以是零个或多个。 d a m l 同时兼备r d f 与o i l 的优点,使得其复杂性比较高,不便于理解。 o ,l o w l ( w e bo n t o l o g yl a n g u a g e ) f qw 3 cw | c b o n t o l o g y 发起,是在d a m l + o i l 的 基础上发展一种面向应用的网络本体语言,位于本体语言栈的最上层,包含了三个 语言:o w ll i t e ,o w ld l ,o w lf u l l 。 o w ll i t e 通常定义类、属性和类的实例,适用于只需要一个分类层次和简单的 属性约束的用户。例如:利用o w ll i t e 来约束集合,该集合只能被赋值为0 或l 。 o w ld l 是o w ll i t e 的扩展,适合对推理计算要求很强的用户。o w ld l 包 含o w l 语言的所有要素,但需要设置特定约束,只能定义某个集合的属性而非某 个个体的属性。 o w lf u l l 是o w ld l 的一个扩充,既可以表示集合的属性也可以表示个体的 属性,适合r d f 最大程度表达而不需要任何计算保障的用户。o w lf u l l 的用户可 以在已经存在的词汇表中增加词汇,这使得o w l 的f e a t u r e 不能完全被推理机所理 解。 2 3 本体构建工具 随着语义网的发展,出现了各种类型的本体开发工具,这些本体开发工具主要 涉及到本体的构建、合并、存储管理和演绎推理等,比较成功的本体开发工具如: o n t o s a u r u s 、p r o t 6 9 6 2 0 0 0 、o n t o e d i t 、w e b o n t o 、o i l e d 掣2 2 】【2 3 】【刎【2 5 】【2 6 】【2 7 1 。 o n t o s a u r u s o n t o s a u r u s 是为l o o m 开发的网络浏览工具,提供了一个编辑功能和图形接口, 用来浏览本体。o n t o s a u r u s 使用l o o m 语言提供的所有功能,支持自动检测一致性, 支持多重继承和演绎推理,目前只针对k _ i f 语言和o k b c 语言的导入导出。 o n t o s a u r u s 支持本体浏览模式和本体编辑模式。o n t o s a u r u s 采用自项向下的本 体开发方式:首先建立本体结构框架,然后将领域知识加入到框架中,从而形成丰 富的本体知识。 w e b o n t o w e b o n t o 是基于概念建模语言o c m l 知识模型的一种w e b 的本体编辑器,采 用o c m l 推理引擎,提供锁机制,支持用户协作浏览、创建、编辑本体。w e b o n t o 没有o c m l 文件导出功能,只能一次针对一个本体进行操作。它提供一个图形用 硕士擘位论文 m a $ t e r st h e s i s 户接口和存放细节数据的检查窗口。 p r o t 6 9 6 2 0 0 0 p r o t 6 9 6 2 0 0 0 是由斯坦福大学情报学研究小组开发的一个开源的本体编辑工 具。p r o t 6 9 6 2 0 0 0 提供图形化界面,采用一种交互式的本体创建环境。本体结构以 树形的控制方式和层次目录结构遍历本体的类层次,用户可以直接增加或修改本体 的类、子类、属性、实例等,在该环境下创建本体,无需了解具体的本体描述语言。 p r o t 6 9 6 2 0 0 0 以o k b c 为基础,支持多重继承,可以自动对数据一致性进行检 测,可以定义各种规则,有很强的扩展性,包括文件输出格式、表示原语、用户接 口等都可以自己定义或定制。p r o t 6 9 6 2 0 0 0 友好的图形化编辑界面、开放式的用户 接口以及简单的操作方式使得该工具被广泛使用。然而,p r o t 6 9 6 2 0 0 0 在合作开发 方面的支持并不多,在实际应用中往往存在比较多的限制。 w 色b o d e w e b o d e 是由马德里技术大学开发的本体构建工具,与o n t o e d i t 样,w e b o d e 可以与实际的领域环境结合来构建本体,通过x m l 、j a v a 、c o b r a 或r m i 等技术 来实现,具有很强的扩展性。 w e b o d e 采用了三层体系结构,分别是用户接口层、业务逻辑层和数据层。其 中用户接口层主要采用i e 等网络浏览器,通过x m l 或h t m l 与其他应用进行信息 交换;业务逻辑层又包括逻辑子层和表示子层,逻辑子层通过a p i 直接访问本体, 表示子层通过浏览器与用户交流;数据层用来存储本体。 o i l e d o i l e d 是由曼彻斯特大学开发的基于o i l 的图形化本体编辑器,用户可以利 用d a m l + o i l 建立本体。 o i l e d 支持框架模型,能处理表达能力强的语言;采用f a c t 推理机制,优化 了描述逻辑的推理引擎;有标准的r d f 格式,可以将本体转换成简单的描述文档 或图形结构。 、 总的来说,本体构建工具可分为两大类:第一类是基于特定语言的,同时也在 某种程度上支持基于触的本体语言,例如o n t os a u r u s 、w e b o n t o 等;第二类是独 立于特定语言的,且有多种基于网络的本体语言格式,例如p r o t 6 9 6 2 0 0 0 、o n t o e d i t 、 w e b o d e 和o i l e d 等。然而这些相对成熟的本体开发工具中,支持中文的本体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年文化旅游项目代理合同
- 2025年连锁加盟意向协议
- 2025年度酒店安全托管运营合作协议书
- 中国邮政2025鄂尔多斯市秋招法律事务岗位面试模拟题及答案
- 四平市烟草公司2025秋招会计核算岗位高频笔试题库含答案
- 黄冈市烟草公司2025秋招法务岗位高频笔试题库含答案
- 施肥罐基础施工方案
- 中卫沙坡头区中烟工业2025秋招生产调度岗位面试模拟题及答案
- 河南防水墙施工方案
- 中国邮政2025黑龙江省秋招揽投部储备干部岗位面试模拟题及答案
- 岗位任职资格要求表
- 麻醉学科建设与管理
- 北师大版六年级数学上册-观察的范围
- 底流式消能池水力计算
- 矿山越界采矿调查报告样板(19.05)
- 信息技术学习评价表
- 08K507-1 管道与设备绝热-保温(有水印)
- 智能会议系统施工方案及方法
- 成都某市政道路竣工总结及工程质量自评报告
- 雾都孤儿读书笔记3000字(三篇)
- 高中生性教育
评论
0/150
提交评论