




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)本体在语义邮件过程中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语义邮件过程是以电子邮件为通信方式的问题求解过程,是基于语义网技术 对电子邮件进行的扩展,其本质是利用语义网技术使电子邮件内容可以被计算机 理解,并在此基础上使得一些事务性过程可以被自动地执行和处理。由于语义邮 件过程是面向问题求解的,因此引入问题相关的应用域知识将可以提高语义邮件 过程的效率。 本体是目前广泛使用的知识表示形式之一,用于描述某个领域甚至更广范围 内的概念以及概念之间的联系,并使得这些概念和联系在一定的范围内有着明确 唯一的定义,方便人人、机器机器、以及人机器之间的交流。 本文在已有语义邮件过程技术的基础上,基于本体技术做了以下三个方面的 研究: ( 1 ) 本体在语义邮件过程中的应用:针对语义邮件过程中用户选择域取值 颗粒度较大的问题,利用本体定义应用问题相关的用户域取值,以具体的逻辑语 义邮件过程“b a l a n c e dp o t l u c k ”验证了引入本体可有效改善用户选择域取值颗粒 度较大的问题。 ( 2 ) 数据库本体映射:针对领域知识专业性太强不易构建的问题,研究了 以关系数据库做为数据源的本体映射问题。针对单一数据库本体映射问题,对 g h a w i 规则进行扩充以覆盖更多类型的数据关系;针对同质异构数据库本体映 射问题,进一步扩充g h a w i 规则,给出了基于同义词表的异构数据库一本体映射 规则集,实现了异构数据库。本体映射。 ( 3 ) 给与本体的语义邮件过程应用例旅游信息查询:利用本体构建技术创 建旅游本体,实现了面向旅游信息查询的基于本体的语义邮件过程。 关键词本体:语义邮件过程;数据库本体映射 a b s t r a c t a b s t r a c t s e m a n t i ce m a i lp r o c e s si sp r o b l e ms o l v i n gp r o c e s su s i n ge m a i la sc o m m u n i c a t i o n t o o l s ,w h i c hi se x t e n s i o no fe m a i la p p l i c a t i o nb a s e do ns e m a n t i cw e bt e c h n o l o g i e s i t s e s s e n c ei sm a k i n ge m a i lc o n t e n t su n d e r s t o o db yc o m p u t e r , t h r o u g hu s i n gs e m a n t i c w e bt e c h n o l o g y , a n ds o m ep r o c e s sa u t o m a t i c a l l yi m p l e m e n t e db a s e do nt h ee m a i l c o n t e n t s b e c a u s es e m a n t i ce m a i lp r o c e s sa l er e l a t e dw i t hp r o b l e ms o l v i n g ,i n t r o d u c e o fd o m a i nk n o w l e d g er e l a t e dw i t ht h ea p p l i c a t i o nw o u l di m p r o v ee f f i c i e n c yo f s e m a n t i ce m a i lp r o c e s s o n t o l o g yi sc u r r e n t l yw i d e l yu s e da sk n o w l e d g er e p r e s e n t a t i o nf o r m ,i td e f i n e s b a s i cc o n c e p t sa n dr e l a t i o no fo b j e c t i v ew o r l d w h i l er e p r e s e n t e dw i t ho n t o l o g y , c o n c e p t sa n dr e l a t i o n sh a v ee x p l i c i ta n de x c l u s i v ed e f i n i t i o n si nc e r t a i ns c o p e ,p r o v i d e i d e n t i c a lu n d e r s t a n d i n gt op e r s o n sa n dc o m p u t e r s b a s e do nc u r r e n ts e m a n t i ce m a i lp r o c e s s ,t h i st h e s i ss t u d i e sf o l l o w i n gt h r e e a s p e c t s : ( 1 ) a p p l i c a t i o no fo n t o l o g yi ns e m a n t i ce m a i lp r o c e s s a c c o r d i n gt ot h ec o a r s e c h o o s i n gi t e m si ns e m a n t i ce m a i lp r o c e s sa p p l i c a t i o n ,i n t r o d u c e so n t o l o g yt od e f i n e a p p l i c a t i o n r e l a t e dd o m a i nv a l u e s t h r o u g has p e c i f i e dl o g i cs e m a n t i ce m a i lp r o c e s s “b a l a n c e dp o t l u c k ”,v a l i d i t yo fo n t o l o g yf o rs o l v i n ge f f i c i e n c yo fs e m a n t i ce m a i l p r o c e s si sv e r i f i e d ( 2 ) d a t a b a s e o n t o l o g ym a p p i n g a c c o r d i n gt ot h ed i f f i c u l t yo fb u i l d i n go n t o l o g y f o rp r o f e s s i o n a lf i e l d ,s t u d i e sp r o b l e mo fb u i l d i n go n t o l o g yf r o mr e l a t i o n a ld a t a b a s e f o rp r o b l e mo fb u i l d i n go n t o l o g yf r o ms i n g l ed a t a b a s e ,e x p a n d sg h a w ir u l e st o c o n t a i nm o r ed a t am o d e l c o n s i d e r i n g p r o b l e m o f b u i l d i n go n t o l o g y f r o m h e t e r o g e n e o u sh o m o g e n e o u sd a t a b a s e ,p r o v i d e sm a p p i n gr u l e sb a s e do ns y n o n y m s t a b l e ,a n dr e a l i z e sm a p p i n gf r o mh e t e r o g e n e o u sh o m o g e n e o u sd a t a b a s et oo n t o l o g y ( 3 ) g i v ea ne x a m p l eo fs e m a n t i ce m a i lp r o c e s s - t o u r i s ti n f o r m a t i o nq u e r y i n g b u i l dt o u r i s mo n t o l o g ya n dr e a l i z et o u r i s ti n f o r m a t i o nq u e r y i n gu s i n gs e m a n t i ce m a i l p r o c e s sb a s e do no n t o l o g y k e yw o r d so n t o l o g y ;s e m a n t i ce m a i lp r o c e s s ;d a t a b a s e - o n t o l o g ym a p p i n g 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 犟嫩日期:型1 21 皇d 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 签名:j 翠j 啡导师签名:二蔓垃日期:j 锄肛 第1 章绪论 1 1 本文研究背景 第1 章绪论 作为一种通信方式,电子邮件具有方便、快捷,成本低廉的优点,邮件内容 可以是文字、图像、声音等各种形式,这是任何传统的通信方式也无法相比的, 电子邮件也因此得到广泛应用。 语义邮件是对语义w e b 的延伸,将信息内容的的语义表示拓展到电子邮件过 程中。华盛顿大学的语义邮件过程是以电子邮件为通信方式的问题求解过程,利 用限定的格式获取邮件内容的语义信息。用户可以利用语义邮件过程组织发起一 个任务,语义邮件过程收集参与者的回复信息,进行数据统计和分析,根据问题 定义的目标自动回复邮件,直到参与者达成共识。 1 2 本文研究目标及意义 由于语义邮件过程和实际问题直接关联,因此领域知识可以提高邮件过程中 用户的交互效率,方便用户的使用。本体是目前广泛使用的只是表示形式之一, 本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模型上给出这些词汇和词 汇间相互关系的明确定义。作为一种能在语义和知识层次上描述信息系统的概念 模型建模工具,在知识工程、数字图书馆、软件复用、信息检索和万维网上异构 信息的处理、语义网等领域得到广泛应用。 本文主要研究本体在语义邮件过程的应用,针对语义邮件过程中用户选择范 围的限制性,创建领域本体,添加本体推理接口,为用户提供更加灵活的选择范 围;针对本体半自动构建中存在专业性太强、不易创建的问题,对g h a w i 规则 进行扩充,扩展了单一数据库本体映射规则,并在此基础上构建同义词表,提 出异构异构数据库本体映射规则,实现了基于同义词表的异构数据库本体映 射;最后实现了旅游信息查询的基于本体的语义邮件过程应用例。 1 3 本文的内容安排与组织结构 本文后续章节安排如下: 第一章绪论。阐述了本文的研究背景、研究目标及意义、以及论文的章节 安排。 第二章本体。对与本文相关技术的综述,包括本体的基本定义、本体目前 北京工业大学工学硕士学位论文 的研究现状和本体的构建技术、本体的应用等。 第三章基于本体的语义邮件过程。在华盛顿大学l u k em c d o w e l l 等人的语 义邮件过程的基础上,针对语义邮件过程中用户选择域取值颗粒度较大的问题, 利用本体定义应用问题相关的用户域取值,以具体的逻辑语义邮件过程 “b a l a n c e dp o t l u c k ”验证了引入本体可有效改善用户选择域取值颗粒度较大的问 题。 第四章基于同义词表的异构数据库本体映射。分析了单一数据库本体映射 问题,扩充了g h a w i 规则以覆盖更多类型的数据关系,其次针对同质异构数据 库本体映射问题,进一步扩充g h a w i 规则,给出了基于同义词表的异构数据库 本体映射规则集,实现了异构数据库本体映射。 第五章基于本体的语义邮件过程应用例旅游信息查询。给出了一个面向旅 游信息查询的语义邮件过程的实现。 最后一章结论。总结本文的主要内容和工作成果,并对下一步的研究进行 了展望。 2 第2 章本体 曼曼曼曼量曼曼曼鼍曼蔓曼曼鼍曼曼曼鼍曼曼皇曼! 曼毫曼皇曼鼍鼍i i i i; 一_ ;i;iii 曼曼曼曼皇曼! 曼葛 2 1 本体的定义及分类 2 1 1 本体的定义 第2 章本体 本体的概念最初起源于哲学概念,定义为“对世界上客观存在物的系统地描 述”,即存在论,用于研究客观世界本质。被哲学家用来描述事物的本质,在人 工智能领域本体被定义为“给出构成相关领域词汇的基本属于和关系,以及利用 这些属性和关系构成的规定这些词汇的规则的定义【1 1 ”。目前本体已经被广泛应 用到包括计算机科学、电子工程、远程教育、电子商务、智能检索、数据挖掘等 在内的诸多领域,不同领域的研究人员对本体给出了许多不同的定义。其中最为 著名的是由t r g r u b e r 提出,后被r s t u d e r 精化的定义:“本体是概念模型的明 确的规范说明1 2 j j ( a no n t o l o g y i sa n e x p l i c i ts p e c i f i c a t i o n o fa c o n c e p t u a l i z a t i o n ) 。 f e n s e l 等对上述定义进行了深入的研究,认为本体是共享概念模型的明确的 形式化规范说明。这个定义包括4 层含义【4 j : 概念化:通过抽象出客观世界中一些现象的相关概念而得到概念模型; 明确:所使用的概念及使用这些概念的约束都有明确的定义; 形式化:本体是计算机可读的; 共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集。 除上述定义以外,不少文献从不同的问题域和研究角度出发,对本体又给出 了各种各样的定义。这些定义之间是相互补充的,并且不断扩充本体的应用范围。 它们有一个共同点,即都包含g m b e r l 2 】定义中所指出的事实:“本体是反映客观 存在的概念模型,是对概念模型的明确描述”。 总而言之,本体的目标是获取、描述和表示相关领域的知识,提供对该领域 知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模型上 给出这些词汇和词汇之间相互关系的明确定义。 2 1 2 本体的分类 针对目前出现的各种各样的本体,出现了不同的分类方法,以下三种方法使 用最为广泛【引。 按照本体的研究主题, 本体分为五种类型: ( 1 ) 知识表示本体。它的研究重点是语言对知识的表达能力,典型的有斯坦福大学 北京工业大学工学硕士学位论文 知识系统实验室提出的一种为知识交换格式k i f 的知识描述语言,以及可以 在线将各种知识转换为k i f 的本体服务器o n t o l i n g u a t 6 1 。 ( 2 ) 通用或常识本体。关注于常识知识的使用。通用知识本体论的研究包括著名 的c y c 工程,其他工作还包括j s o w a 的通用本体研究等。 ( 3 ) 领域本体。领域本体在一个特定的领域中可重用,它们提供该领域特定的概 念定义和概念之间的关系、主要理论和基本原理及领域中发生的活动等。主 要涉及企业本体、医学概念本体、酶催化生物学本体、陶瓷材料机械属性本 体等。 ( 4 ) 语言学本体:指关于语言、词汇等的本体、典型的有g u m 和w b r d n e t 【7 】。 ( 5 ) 任务本体:主要研究可共享的问题求解方法。具体的研究主题包括:通用任 务、与任务相关的体系结构、任务方法结构、推理结构和任务结构等。 按照本体表示的形式化程度对现有的本体进行分类,本体分为四种类型: ( 1 ) 完全非形式化:完全采用自然语言表示的本体。如爱丁堡大学企业项目中的 e n t e r p r i s eo n t o l o g y 自然语言版。 ( 2 ) 结构非形式化:采用受限制的或结构化的自然语言表示,以减少二义性。例 如e n t e r p r i s eo n t o l o g y 的中文版本和w o r k f l o wm a n a g e m e n tc l a l i t i o n 推出的工 作流术语汇编。 ( 3 ) 半形式化:用一种人工定义的形式化语言表示。例如大部分采用o n t o l i n g u a 描述的本体。 ( 4 ) 形式化:所有术语都具有形式化的语义,并能在某种程度上证明包括一致性 和完整性等方面的属性。如多伦多大学虚拟企业项目的企业本体。 根据本体的研究层次,本体分为四种类型: ( 1 ) 顶层本体:主要研究非常通用的概念,如空间、时间、事物、对象、事件、 行为等,完全独立于特定的问题或领域。 ( 2 ) 领域本体:研究与一个特定领域相关的术语或词汇。如医学、企业模型等。 ( 3 ) 任务本体:定义通用任务或推理活动,如诊断等。它们可以应用顶层本体中 定义的词汇来描述自己的词汇。任务本体和应用本体处于同一个研究和开发 层次。 ( 4 ) 应用本体:描述特定的应用,它既可以应用特定的领域本体中的概念,又可 以引出现在任务本体中的概念。 本文所涉及到的本体是领域本体和应用本体。 4 第2 章本体 2 2 本体的构建准则及方法 2 2 1 本体的构建准则 本体的重要意义就在于提供知识的共享和重用,因此它的建设应该是工程化 生产,即遵循标准化的表达方式和规范化的工作步骤,这一思想已得到共识,很 多研究人员从实际出发,为了实现本体的构建,提出了不少有益于构建本体的标 准,其中最有影响的是g r u b e r 于1 9 9 5 年提出的5 条准则【2 】: ( 1 ) 清晰性、明确性和客观性:即本体应该用自然语言对所定义的术语给出明确 的、客观的语义定义,必须有效地说明所定义术语的意思。而且,当定义可 以用逻辑公理表达时,它应该是形式化的。 ( 2 ) 完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。 ( 3 ) 一致性:即由术语得出的推论与术语本身的含义是相容的,即支持与其定义 相一致的推理,不会产生矛盾;所定义的公理以及用自然语言进行说明的文 档也应该具有一致性。 ( 4 ) 最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其已 有的概念定义和内容,支持在已有的概念基础上定义新术语。 ( 5 ) 最小承诺和最小编码偏好:最小承诺即本体约定应该最小,对待建模对象应 给出尽可能少的约束:最小编码偏好即概念的描述不应该依赖于某一种特殊 符号层的表示方法。 2 2 2 本体的创建方法 ? 一、本体的手工创建方法 s t a n f o r d 大学的n f n o y 等分析了早期著名的本体设计项目,给出了一种创 建本体的具体过程【8 - 1 0 1 : i 确定本体的领域和范围 首先必须明确一些基本的问题,如:该本体针对什么领域、用途是什么、 要描述什么信息、回答哪一类的问题、谁将使用和维护这个本体等等。随着 开发的进行,这些问题和相应的回答可能会发生变化,这时需要考虑什么时 候再回到第l 步进行迭代开发。 2 考虑重用现有本体 精炼、扩充或修改现有的本体,可以避免许多不必要的开发工作。即使 现有的本体无法满足当前的应用要求,通常也会从其中得到一些启发和帮助。 3 列出本体中的重要术语 将所关心的术语列举出来是非常有用的。这些术语大致表明建模过程所 北京工业大学工学硕士学位论文 感兴趣的事物、事物所具有的属性和它们间的关系等。这些重要术语能保证 最终创建的本体不会偏离所感兴趣的领域。 4 定义类和类的继承 类的继承结构的定义可以采用自顶向下的方法,即从最大的类开始,然 后通过添加子类细化这些概念;也可以采用自底向上的方法,即由最细的类 开始,然后找到它们的父类;也可以同时使用两种方法从两个方向进行定义。 但无论选择哪种方法,都要从定义类开始,选择那些从具体存在的对象中抽 象出来的术语作为本体中的类,然后将它们构成分类等级体系。 5 定义属性和关系 这里所指的联系可分为两种:种是类自身的属性,称为“内在属性”。 内在属性具有通用性,并且这种属性通常具有传递性。另一类属性称为“外在 属性”,或直接称之为关系,通常用于连接类间的实例。 6 定义属性的限制 定义属性的一些限制。包括属性的基数、属性值的类型及属性的定义域 和值域。 7 创建实例 为类创建实例,添加个体作为该类的一个实例。同时为实例的属性赋值。 目前常用的本体编辑工具有: l 。p r o t # p r o t 6 9 6 t 1 1 1 基于j a v a 语言开发,可跨平台使用,并且支持功能上的可扩 展。p r o t 6 9 6 可以直接对类、实例和属性等进行编辑操作,用户不必掌握具体 的本体表示语言。 2 o i l e d o i l e d l l 2 1 是m a n c h e s t e r 大学开发的本体编辑工具。它采用j a v a 语言开发, 主要功能包括:框架描述,它由一个超类集合和相应的一系列属性约束构成; 类定义时有一个可选择使用的说明区域,说明它和其他类存在的关系:类描 述可以使用具体数据类型。o i l e d 的不足包括:不支持版本标识;不支持多 个本体同时编辑;对实例和具体的数据类型不能进行推理。 3 o n t o e d i t o n t o e d i t l l 3 1 是德国k a r l s r u h e 大学开发的本体编辑工具。它内置了一个强 大的本体模型,支持对概念、关系和公理的建模。o n t o e d i t 允许一个概念有 多个名字,但需要声明这些名字是同义的。o n t o e d i t 提供了本体的可视化, 支持插件和推理,并可以进行协同本体开发。 4 w e b o n t o w e b o n t o 是英国o p e n 大学开发的本体编辑工具,用来支持本体的协同 创建和编辑。w e b o n t o 是一个j a v aa p p l e t ,可以在网站上直接运行。w e b o n t o 6 第2 荦本体 i_iii_iii 允许用户通过网络参与本体编辑。协同编辑本体时,w e b o n t o 有发布和接收 模式。当激活发布模式时,处于接收状态的用户可以看到发布方的变化情况。 但是,在某一时刻只能有一人可以编辑本体。 二、本体的半自动创建方法 采用手工创建领域本体是一件非常耗时费力的事情,也会因专业性太强而 不能创建出比较完整的本体。因而许多研究人员都致力于本体的自动或半自动创 建技术的研究。目前存在的本体半自动创建方法有: 1 从自由文本生成本体 该方法主要通过应用自然语言处理技术从文本中提取本体。根据使用 技术的不同,又可进一步分为基于模式、基于关联规则和基于概念聚类等 方法。 2 基于模式抽取的方法 m a h e a r s t 1 4 1 给出了一种同义词模式的方法,用于自动寻找本体概念 间的关系。该方法寻找与现有本体相关的概念,并判断它们之间是否存在 词汇模式上的关联。此方法的不足在于错误率过高,生成结果需要专家进 行验证。k m g u p t a 等j k t l 5 】也提出一种利用模式生成本体的方法,从特定 领域的文本中生成一个小型w o r d n e t 本体,生成的小本体有利于快速开发该 领域内的自然语言处理应用。 3 基于关联规则的方法 a m a e d c h e 等人【1 6 1 开发了基于关联规则方法的本体生成工具t e x t t o o n t o 。该工具是一个集成环境,能从一个初始的核心本体生成满足要求的 领域本体。生成的领域本体包含特定领域和与该领域无关的概念。领域无 关的概念被去除,以保证领域本体内的术语能适应领域应用的需求。这种 生成本体的方法的整个过程需要本体专家监督,学习过程需要循环进行。 4 基于概念聚类的方法 d f a u r e l l 7 】的方法采用基于分层的概念聚类法,它的基本聚类器包含了 一些词语固定搭配,这些搭配都由动词加介词的形式构成。该方法包含两 个步骤:概念化和聚类。l k h a n 等人 1 s l 使用聚类技术和w o r d n e t 从文本文档 创建领域本体,创建过程自底向上。首先,使用一些聚类技术创建文档的 继承结构,并确定它在整个继承结构中的具体位置。然后,利用w o r d n e t 和主题跟踪算法,为层次结构中的每个文档聚类分配适当的概念,从而形 成本体。 5 基于词典生成本体 这一类本体生成方法通常利用机器可读的词典,从中抽取感兴趣的概 念和关系,构建需要的本体。j j a n n i n k 等人【1 9 1 通过将词典数据转换为图结 构来支持领域本体的生成。词典中的词称为中心词,词的解释称为定义文 7 北京工业大学丁掌硕十学位论文 曼皇曼! 曼曼曼暑曼曼曼曼皇曼曼曼皇! 穹量曼量鼍曼罾鼍一;ii ;r 一一一i 曼量! 曼曼皇皇 本,只考虑中心词和相互间有着多对多关系的定义文本。使用词典进行本 体生成的一个明显优势是其中的中心词能够很容易地与定义文本区别开, 这便提供了额外的信息用以分析中心词的类型。 6 从知识库生成本体 这类方法的思想是利用已经建立好的知识库,从中提取满足需求的本 体。h s u r y a n t o 等人【2 0 】基于构成传统知识库的规则提出一种提取分类本体的 方法。提取出的一个类是一组路径的集合,每条路径由一系列的规则构成, 通过其中的任何一条路径都能推导出相同的结论。发现类的集合后,还需 要进一步确定类之间的关系,一般考虑3 种关系:包含、排斥和相似。对于 给定的每个类,定量计算它和其它类之间的关系,以判断它们之间是否存 在这3 种关系。将提取出的类和关系组织起来构成本体。 7 从关系模式生成本体 这类方法的目标是从关系数据库中抽取相关的概念和关系构建本体。 该方法包含5 个步骤:通过逆向工程获得关系数据模式中的关系、属性、 属性类型、主键、外键和包含依赖等信息:分析获得的信息,并使用映 射规则得到本体的概念和关系:模式转换,将概念组织为层次结构,发 现原始模式中的附加关系,同时去除冗余信息;评估、验证和精炼本体; 数据迁移,是为了创建本体实例。 8 子本体抽取方法 本体建模时总希望模型建立得尽量准确和完全,这往往导致本体规模 过大。实际应用往往只需其中与应用需求相关的一小部分,使用整个本体 会增加系统的复杂性和降低效率。从源本体中抽取一个小的子本体能让系 统更有效。d t a n i a r 等人【2 l 】提出物化本体视图抽取的顺序抽取过程,通过优 化模式来保证抽取质量,该方法计算代价较高。m b h a t t 等人【2 2 j 提出了一种 分布式方法降低抽取子本体的代价,并迸一步分析了这种方法的语义完整 性问题。 2 3 本体解析 j e n a l 2 3 】是由h p 公司的b r i a nm c b r i d e 开发,起源于早些时候s i r p a ca p i 的 工作,是用于创建语义网应用系统的j a v a 框架结构,它为r d f 、r d f s 、o w l 提供程序开发环境。图2 1 2 4 1 为j e n a 解析及推理流程。 图2 1 中,r d f x m l 文档是信息资源的原始存储和标引格式,它可以通过 r d f x m l 解析器和r d fa p i 转变成r d fm o d e l 存储在计算机的内存中,也可 以通过r d f 模型的持续化存储方案和r d fa p i 将r d fm o d e l 存储在数据库中并 可以通过r d fa p i 随时调用,这有利于数据量较大的r d fm o d e l 的存储:r d f 第2 章本体 m o d e l 可以直接用于信息检索,但是通常情况下要结合推理机子系统和o n t o l o g y 子系统生成具有语义推理能力的i n f m o d e l 或者o n t m o d e l 从而实现语义检索的目 标;通过r d q l 对m o d e l 的检索结果经过一定的处理之后便可以与用户进行交 互。 图2 - 1j e n a 解析与推理 f i g u r e 2 - ij e n ap a r s ea n dr e f e r e n c e 语义网推荐规范中的本体描述语言的核心是r d f 图( g r a p h ) ,一个r d f 图是 由一组三元组( p r e d i c a t e ,s u b j e c t ,o b j e c t ) 组成,p 是( s u b j e c t ,o b j e c t ) 的一个二 元谓词关系。j e n a 的主要贡献是为处理r d f 图提供了丰富的用于m o d e l 类的 a p i 。围绕着这些a p i ,j e n a 提供了大量的工具,包括对模型( m o d e l ) 的多种方式 的输入输出i o ( r d f x m l ,n 3 ,n t r i p l e ) ,r d f 查询语言r d q l 。使用这些a p i , 用户可以选择将r d f 图存储在内存中或者是持久性存储( 文件或数据库方式) 。 j e n a 还提供了附加的用于处理d a m l + o i l 数据的a p i ,但是早期的j e n a 版本并 不支持o w l 。从j e n a 2 1 版本开始支持o w l 文档的处理。 一j e n a 解析r d f 模型瞪j j e n a 允许应用系统解析、创建和查询r d f 模型。j e n a 定义了很多的接1 :3 来 访问和处理r d fs t a t e m e n t ,如图2 2 所示: 9 北京1 = 业大学工学硕士学位论文 图2 2j e n a 的接口定义 f i g u r e 2 - 2d e f i n eo fj e n ai n t e r f a c e r d f n o d e 接口为所有可以作为一个r d f 三元组一部分的元素提供了一个公 共的基础。常量接口表示字面值,可以作为 p r e d i c a t e ,s u b j e c t ,o b j e c t - - - 元组中的 ,常量接口提供了将字面值转换为诸如s t r i n g 、i n t 和d o u b l e 这样的j e n a 类型的访问方法。实现属性接1 2 1 的对象可以作为 p r e d i c a t e ,s u b j e c t ,o b j e c t - - - 元组 中的 。陈述接1 2 1 表示一个 p r e d i c a t e ,s u b j e c t ,o b j e c t _ 三元组,它也可以 作为一个三元组中的 ,因为r d f 允许s t a t e m e n t 嵌套。实现c o n t a i n e r 、 a l t 、b a g 或s e q 的对象都可以作为三元组中的 。r d fa p i 的主要功能包 括创建和读、写r d f 模型,操纵和检索r d f 模型。 创建和读、写r d f 模型:j e n a 具有一系列的方法可以创建一个r d f 模型并 可以将其内容写入到r d f 文件中,也可以把r d f 文件中的信息读取到模型 中,当然相关的r d f 文件都要遵循x m l 语法和格式规则。 操纵和检索r d f 模型:j e n a 提供一系列的方法用于对r d f 模型中的数据进 行操纵和检索。在操纵r d f 模型时,首先可以根据r e s o u r c e 的u ri ( u n i v e r s a l r e s o u r c ei d e n t i f i e r ) 地址从模型中提取一个r e s o u r c e 对象,然后可以利用 r e s o u r c e 对象提供的接口来操纵其中的相关内容,例如检索符合一定条件的 特定值;使用r d fa p i 对r d f 模型只能进行比较粗糙和简单的检索,更强 大的检索功能要借助于r d q l 查询语言,可以使用一定的j e n aa p i 方法在 r d f 模型中检索出符合条件的信息。 二j e n a 解析o w l t 1 对o w l 2 5 1 处理而言,语义逻辑的处理才是推理机制的实现,最新版的j e n a 已经支持o w l 的语义逻辑的处理。j e n a 2 1 提供的o w l 支持包括: 方便多种版本的o w l 规范 在基础的查询中通过s u b c l a s s o f 这样的关系来实现类的层级访问和使用 可以注册用来映射x m l s c h e m a 数据类型和j a v a 对象的转换器 支持基本的对l i s t 的处理 自动处理本体中i m p o r t s 的s t a t e m e n t 识别传递( t r a n s i t i v e ) 属性和互斥( i n v e r s e ) 属性 1 0 2 4 本体的应用 2 4 1 本体在知识工程中的应用 将本体论概念引入知识工程,详细说明模型中涵盖的概念、实例、关系和公 理等实体并以此建立领域本体。通过使用元属性对属性进行分析,并对属性提 出了一种针对本体建模概念化分析的形式化方法,解决了知识共享中的一些问 题,有效地促进了来自不同顿域的研究人员和组织问的交流。另外基于本体技 术建立大型通用知识库的工作也普遍受到重视,如c y c 、w o r d n c t 、h o w n e t 、n k i 等系统。c y c 是一个试图对日常生话常识建立综合的本体和数据库的人工智能工 程,其目标是使计算机系统具有和人类似的推理能力;w o r d n e t 是p r i n c e t o n 大 学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语 词典它在把单词以字母顺序捧列的同时按照单词的意义组成一个“单词的网 络”:h o w n c t 是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念 与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库;n k i 是一个庞大的、可共享的、操作化的知识群体,不仅集成了各个学科的公共知识, 而且还融入了各学科专家的个人知识,为科研、教学、科普和知识服务提供了有 效的知识基础。 2 4 2 本体在语义w e b 中的应用 语义w e b 的目标是使w e b 上的信息具有计算机可以理解的语义,满足智能 软件代理对互联网上异构和分布信息的有效访问和搜索。w 3 c 为语义w e b 提供 了一系列的建议标准和逻辑层次的划分,旨在建立具有语义表达能力的新的互联 网结构,见圈2 3 l 硐: 图2 - 3 语义w e b 核心层 f i g u r e 2 - 3c o p e l e v c l o f s e m a n t i c w e b 该体系结构从底层到高层分别为u n i c o d e 和u r j 、x m l 、r d f t 2 z l 、o n t o l o g y l o g i c 、p r o o f 、t r u s t 。第一层是u n i c o d e 和u r i 是语义w e b 的基础,其中, 北京工业大学工学硕士学位论文 m 曼量皇曼皇曼曼曼皇鼍曼曼曼詈曼皇曼曼皇皇詈曼皇曼曼曼! 蔓曼曼皇! 曼曼量曼鼍量曼曼曼皇曼皇曼曼曼曼曼皂量曼量量曼曼皇曼曼曼曼曼曼曼曼曼鼍皇曼! 曼曼! 曼 u n i c o d e 处理资源的编码,它支持世界上所有主要语言本体的混合,u r i 负责 表示资源。第二层是x m l + n s + x m ls c h e m a ,用于表示数据的内容和结构。第 三层为r d f + r d fs c h e m a ,用于描述w e b 上的资源及其类型。第四层为本体层, 用于描述各种资源间的联系。第五层到第七层在下面四层的基础上进行逻辑推理 操作。核心层是第二、第三、第四层,这三层用于表示w e b 信息的语义。 b e m e r s l e e 提出的语义w e b 模型只是一个理想化的模型,其中的一个重要 思想就是用本体来表示语义信息,通过在语义w e b 中引入本体层来实现语义信 息的共享,从而提高网络信息服务的智能化与自动化。这一思想得到了众多语义 w e b 研究者的认同,当前的许多研究项目都致力于语义w e b 中的本体层研究, 其中有代表性的为o n t o k n o w l e d g e 、k a o n 和c o h s e 项目。 o n t o k n o w l e d g e 2 s l 是欧洲i s t ( i n f o r m a t i o ns o c i e t yt e c h n o l o g i e s ) 计划中的一个 项目,该项目通过在信息中应用本体来提高大型分布式系统的知识管理水平。本 体可以明确的表示结构化信息的语义,这样就可以为信息的提取、保存和访问提 供自动化支持。为了达到这一目标,该项目组开发了基于本体的工具和环境。这 些工具和环境分为三个级别:最低级是信息级,其作用是处理非结构化的信息资 源,从中提取机器可处理的元信息;中间级是表示级,作用是利用元信息提供对 这些信息资源的自动化访问、创建和保存;最高级为访问级,作用是利用先进的 技术访问信息,包括代理技术、查询技术和可视化技术。在所有级别中,本体都 是实现功能的关键。采用这样的方法,可以使用这些工具在信息源和用户所需信 息间建立联系,解决因它们之间的差别而带来的信息处理上的困难。 k a o n 2 9 , 3 0 1 是德国k a r l s u h e 大学的一个以商业应用为目标的本体管理基础项 目。该项目对t i mb e m e r s l e e 所提出的语义w e b 模型的实现进行了探索,创建 了一系列工具,包括本体的创建工具、管理工具为基于本体的应用提供基础。 k a o n 关注的重点是传统的本体管理与商业应用技术( 如关系数据库) 的集成。 在k a o n 项目中,本体和元数据在实现语义w e b l 3 1 , 3 2 d p 具有重要地位,r d f 被 用来作为本体和元数据的核心数据模型。该项目开发了处理r d f 的工具集,并 提供专用的工具和服务实现本体和元数据的开发、管理和表示。这些工作以组件 化的方式来完成,使k a o n 系统具有较好的可扩展性和灵活性。利用k a o n 提 供的这些工具,可以很方便地创建语义w e b 应用。 c h o s e 3 3 】利用本体来表示文档术语的概念化模型及这些术语间的关系,利 用超媒体链接服务来提供链接工具,本体服务与开放式超媒体链接服务的集成则 形成了一个概念化的超媒体系统。用元数据描述文档的内容,在文档之间产生了 概念化的链接。通过为文档加入概念化链接,c o h s e 系统现有的网页提供了附 加的信息和链接。该系统在实现时采用了三种前沿技术: 基于本体的推理服务; 基于w e b 的开放式超媒体链接服务; 1 2 第2 覃本体 本体服务与开放式超媒体链接服务的集成。 w e b 服务体系结构基于三种角色之间的交互,涉及服务发布、服务查找和服 务绑定操作。这些角色和操作一起作用于w e b 服务构建。服务提供者定义w e b 服务的服务描述并把它发布到服务请求或服务注册中心。服务请求使用查找操作 从本地或服务注册中心检索服务描述,然后使用服务描述与服务提供者进行绑定 并调用w e b 服务或同它交互。 当前w 曲服务描述的标准是w e b 服务描述语言w s d l j 。w s d l 包含了服 务的接口和实现细节。包括服务的数据类型、操作、绑定信息和网络位置,还可 以包括一些方便服务请求者发现和利用的分类及其它元数据信息。以便把服务描 述发布给服务请求者或服务注册中心。u d d i 为用户发布和查询服务描述创建了 一个平台独立、开放的框架。s o a p 为用户在一个松散的、分布的环境中根据服 务描述绑定或调用服务提供了一个简单的机制。 本体在w e b 服务中的应用研究主要包括服务描述、服务发现、服务组合、服 务匹配、服务映射等。借助本体,能够使w e b 服务的描述具有语义理解的基础, 更好地解决存在的问题。 2 4 3 本体在信息检索中的应用 目前,信息检索技术可分为3 类:全文检索、数据检索和知识检索【5 j 。 全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑 请求与文本语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大降 低了。 : 数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具有一 定的结构,允许对特定的字段进行检索。数据检索需要有表示字段的方法。数据 检索的性能取决于所使用的标识字段的方法和用户对这种方法的理解,因此具有 很大的局限性。数据检索支持语义匹配的能力也较差。 知识检索强调的是基于知识的、语义上的匹配,因此在查全率和查准率上有 更好的保证。目前知识检索是信息检索研究的重点,特别是面向万维网信息的知 识检索。 本体具有良好的概念层次结构和对逻辑推理的支持,因而在信息检索,特别 是基于知识的检索中得到了广泛的应用。由于本体具有能通过概念之间的关系表 达概念语义的能力,所以能够提高检索的查全率和查准率。 2 5 本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025重庆垫江县林业局全日制公益性岗位招聘3人考试模拟试题及答案解析
- 家用净水设备安装与使用指南
- 呼吸机维修试题及答案
- 2025浙江宁波慈溪市保德实验学校招聘派遣制工作人员1人笔试备考试题及答案解析
- 中班社会教案:关爱他人,快乐自己
- 团建活动开场致辞文案
- 2025年上海市电子产品区域销售策划协议
- 国贸专业毕业论文非实证
- 毕业论文互选
- 《民航旅客运输》教学教案
- 2025高级会计师考试试题及答案
- 2025-2030中国特高压电网建设规划与设备需求分析报告
- 2026版赢在微点顶层设计大一轮物理-专题提升二十 测量电阻的其他几种方法
- 工地建筑钢板租赁合同范本
- 民族文化宫2025年公开招聘17人笔试模拟试题含答案详解
- 2025年辽宁省地质勘探矿业集团有限责任公司校园招聘笔试备考题库带答案详解
- 初中英语新课程标准测试试题及答案3套
- 计数型MSA分析表格
- GA∕T 1577-2019 法庭科学 制式枪弹种类识别规范
- GB∕T 25684.1-2021 土方机械 安全 第1部分:通用要求
- 福州市长乐区农村宅基地及房屋确权登记
评论
0/150
提交评论