(计算机软件与理论专业论文)分布式资源库的资源检索和自动协商技术研究.pdf_第1页
(计算机软件与理论专业论文)分布式资源库的资源检索和自动协商技术研究.pdf_第2页
(计算机软件与理论专业论文)分布式资源库的资源检索和自动协商技术研究.pdf_第3页
(计算机软件与理论专业论文)分布式资源库的资源检索和自动协商技术研究.pdf_第4页
(计算机软件与理论专业论文)分布式资源库的资源检索和自动协商技术研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)分布式资源库的资源检索和自动协商技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【摘要】 在异构的资源站点中资源的高效检索及在不同站点间实现资源的自动交易 等问题,是分布式资源库这一领域中的重要问题。 本文提出一种基于本体与多a g e n t 的分布式资源库系统,用于解决分布式资 源库中异构的资源站点间的资源检索和资源的自动交易。本系统首先给出了一个 基于多a g e n t 技术的分布式资源库架构,各个资源站点间的交互通过a g e n t 来代 理;对于整个资源库,引入了统一的领域本体进行描述,而各个资源子站点可以 使用自己独立的本地刻面描述方案来描述自己的资源信息,在主站点上使用与领 域本体一致的公共刻面描述方案,通过本地刻面与公共刻面的相互映射来解决异 构资源站点间的信息交互,再结合子站点评估技术进行分布式的资源检索;文中 对子站点的资源交易构造了一个交易模型,它由两部分组成:案例推导与协商模 型。案例推导用于得到构造协商模型所需的协商信息,而案例库来源于资源站点 的交易历史,案例库中和特定交易相关的案例组成案例集,再通过案例推导得到 协商模型所需的协商信息。通过将案例推导与协商模型结合后,资源站点就可以 通过自己的交易历史来制定新资源交易时使用的交易模型,进而实现资源的自动 交易。 文中对实现资源检索及自动协商的关键技术,如本体构建方法、异构资源站 点的信息转换技术、资源检索方法、子站点评估技术及自动协商相关的技术进行 了讨论,并在讨论中以上海教育资源库为例进行说明。 【关键字】 本体,刻面,案例推导,多a g e n t 系统,协商模型,分布式资源库 【中图分类号】 t p 3 1 9 【a b s t r a c t 】 h o wt os e l e c tt h en e e d e dr e s o u r c ef r o mt h o s ei s o m e r o u sr e s o u r c ew a r e h o u s e n o d e s h o wc 姐t h ed i f f e r e n tn o d e sf u l f i l lt h et r a d e sa u t o m a t i c a l l y , t h i si sr e a l l ya p r o b l e mi nt r a n s a c t i o nt od i s t r i b u t e dr e s o u r c ew a r e h o u s e i nt h i sp a p e r , w ep r o p o s eas o l u t i o nb a s e do no n t o l o g ya n d m u l t i a g e n t f i r s t , w ee s t a b l i s ht h ed i s t r i b u t e dr e s o u r c ew a r e h o u s es u s t a i n e db yt h em u l t i a g e n ts y s t e m , e v e r yr e s o u r c en o d e sa r ec h a r g e db ya na g e n t ;b yi n t r o d u c i n go n t o l o g ya sd o m a i n k n o w l e d g eb a s e ,e v e r yn o d ei nt h en e td e s c r i b e sr e s o u r c ea c c o r d i n g t oi t so w nf a c e t d e s c r i p t i o nm e t h o di na l li s o m e r o u sw a y , w eu s eo n t o l o g y - f a c e tm a p p i n gt os o l v et h e m e s s a g ee x c h a n g eb e t w e e nt h o s ei s o m e r o u sn o d e s ,a n dar e s o u r c es e a r c hb y o n t o l o g y f a c e tc o m b i n a t i o nc a ns e l e c tr e s o u r c eb ys e m a n t i c ;a n di m p o r ta l lt r a d e m o d e lt os o l v ea u t o m a t i ct r a d eb e t w e e nr e s o u r c en o d e s f o rt h et r a d em o d e lt h i s p a p e rp r o p o s e d ,i ti n c l u d e st w op a r t s :c a s e sd e d u c ea n dn e g o t i a t i o nm o d e l c a s e s d e d u c ei st h ew a yt og e tt h en e g o t i a t i o ni n f o r m a t i o nn e e d e db yt h em o d e l ,a n dt h a t i n f o r m a t i o ni sb a s e dm lt h et r a d eh i s t o r yo fa s p e c i a lr e s o u r c en o d e ,i nt h i sp a p e r , w e a l s oc o m b i n eo n t o l o g yw i t hf a c e ta ss e a r c h i n gm e t h o dt og e tc a s e s t h en e g o t i a t i o n m o d e lw eu s e dh e r ei sb a s e do nt h et h e o r yo f a g e n ta u t o m a t i cn e g o t i a t i o n a f t e r c o m b i n ec a s e sd e d u c ea n d n e g o t i a t i o nm o d e l ,w ef i n daw a y t of u l f i l la u t o m a t i c r e s o u r c et r a d e n o w , w ed e s i g n e dad i s t r i b u t e dr e s o u r c ew a r e h o u s ew h i c hc a nm a k en d i s t r i b u t e dr e s o u r c cs e a r c hb a s e do ns e m a n t i ca n dc a nm a k ea na u t o m a t i ct r a d e 噼 t h et r a d em o d e l i no r d e rt of u l f i l lr e s o u r c es e l e c t i o na n da u t o m a t i ct r a d e s ,w ed e s i g n e ds e v e r a l k e yt e c h n i q u e sl i k eo n t o l o g yb u i l d i n g , r e s o u r c ed e s c r i b i n g ,r e s o u r c es e l e c t i o n , r e s o u r c en o d e se v a l u a t i o na n da u t o m a t i cn e g o t i a t i o n ,a sd e s c r i b et h e s es k i l l s ,w e i l l u s t r a t et h e mw i t he x a m p l e sf r o ms h a n g h a le d u c a t i o n a lr e s o u r c e sc e n t e r k e y w o r d o n t o l o g y , f a c e t ,c a s ed e d u c e ,m u l t i a g e n ts y s t e m ,n e g o t i a t i o nm o d e l ,d i s t r i b u t e d r e s o u r c ew a r e h o u s e 、 分布式资源库的资源检索和自动协商技术研究 1 1 绪言 第一章导论 本文通过对现有分布式资源库的研究,找到不同类型的分布式资源库的功能 与特点,然后通过对分布式资源库的发展方向进行分析,指出目前分布式资源库 设计中存在的问题与不足。针对这些问题与不足,提出了一种新的分布式资源库 设计方案。 1 2 分布式资源库 当前,随着音频、视频等多媒体资源的广泛使用,信息资源的存储空间迅猛 增长,任何规模的存储设备都会面临资源存储空间告急的问题;同时,随着各个 行业的信息化建设,出现了不同级别、不同层次的资源站点。集中式的资源存储 暴露出越来越多的不足,不能再满足要求。因此分布式资源库的建立成为解决这 一问题的当然之选,它可以从行业资源使用和管理的流程出发,实现资源的独立 存储、资源的分布式检索以及不同站点间的资源交易。许多基础应用平台,例如 软件构件库、教育教学资源库等,都涉及到这一问题。 分布式资源库由物理分散的多个计算机结点上的若干个资源子站点组成,各 个资源子站点在逻辑上是相关的,并通过网络联接在一起,分布式资源库需要提 供有效的存取手段来操纵这些资源子站点上的资源,使它们在逻辑上属于同一系 统,因此在使用上可视为一个完整的资源库。关于分布式资源库的基本特点,一 般认为有两个,即目录集中管理和资源分布存储。 第一,目录集中管理:可以实时的为用户提供一个覆盖本地区所有资源站点 的最新资源目录,实现本地区不同资源站点的资源检索和资源请求。通过在资源 主站点上维护一个资源目录系统束实现对本区域内不同资源站点目录信息的同 步更新管理。 第二,资源分布存储:分布式资源库由多个资源站点组成,整个资源库内每 一个可以提供资源的站点都是资源库中的一个节点,它们存储实际的物理资源。 资源节点之间基于一定的信任授权关系进行资源互访,从而最终实现资源库内资 源的分布式存储和分布式管理。 从以上对分布式资源库的定义可以看出,一个分布式资源库应该满足以下几 个要求:有一个主站点提供进行资源检索的目录服务;不同资源站点问可以独立 分布式资源库的资源检索和自动协商技术研究 的进行资源的描述和存储;资源库中不同站点的资源可以被其它站点检索并可以 基于一定条件获取。 1 2 1 目前分布式资源库的情况 在现有的分布式资源库中,有许多都只实现了资源实体的分布式存储,而资 源库的目录管理、资源的描述信息以及对资源的检索都集中在主服务器上。这种 方式下,主服务器承担了海量的信息存储以及巨大的检索负载,并且需要频繁地 与各子站点进行目录信息的同步。与此同时,各个资源子站点只是进行简单的资 源存储,而不具有独立的资源管理和供应策略。在这种情况下,只是实现了资源 存储的分布,没有真正的实现资源的分布式检索与分布式管理。而且由于所有对 资源的检索都是在主站点服务器上进行的,造成整个分布式资源库负载不均,主 站点负担重,网络流量大,成为整个资源库的瓶颈;而子站点只能被动的被检索 【1 1 。并且,当前多数分布式资源库是将原有许多独立的资源站点集合而成的, 不同资源站点有独立的资源描述方案和资源存储策略,所以整个资源库是以异构 方式相联的,这样资源描述信息难以同步,查准率和查全率都比较低下,进而无 法准确有效的进行资源检索,这都大大的限制了分布式资源库的作用与功能。 当前实际应用的分布式资源库中,使用最广泛,影响最大,被关注程度最高 的是教育资源库【2 】。由于国家对教育事业的重视,我国多个省市都建立了自己 的教育资源库,市场上也存在很多版本的分布式教育资源库软件系统。本文提出 的基于本体与多a g e n t 技术的分布式资源库系统,其基础架构已经应用到上海教 育资源库的资源检索中。随着我国经济的发展和信息化程度的提高,一定会有更 多的行业需要进行分布式资源库的建设,在建设新的分布式资源库时,借鉴已有 的成功案例是很有必要的。 1 2 1 1 资源库的演化过程 为了对本文讨论的背景有更好的理解,下面首先将对资源库的历史演变情况 进行概述,其中以教育资源库为例,说明资源库的演化进程和分布式资源库的进 展【3 】。数字教育资源的建设是教育信息化的基础,因此,一直以来都受到学校 和社会的普遍关注,我国在1 9 9 7 年前后就出现了第一代商业化的资源库系统, 随着教育信息化建设,教学资源库也在快速变化。从资源库的发展过程柬看,可 以分成三个阶段: 第一代资源库是单机版系统,其代表为科利华公司推出的“c s c 科利华电 子备课系统”【4 】。技术特点是单机运行,资源内容存储在主机上。 2 分布式资源库的资源检索和自动协商技术研究 第二代资源库采用b s 构架,采用传统的两层体系结构,如k 1 2 教育资源 库【5 】,目前仍是占主流的资源库管理架构形式。其主要技术特征是支持 i n t e m e t i n t r a n e t ,采用b s 模式。用户通过浏览器就可以检索、浏览、上载或下 载资源。资源的管理存储都在主服务器上进行,系统完全采用集中式资源管理方 式。 第三代资源库是一个分布、开放、支持异构资源站点互操作的资源库管理平 台,它是当前资源库建设的方向,它有以下三个基本特点: 1 ) 分布式。即资源分布存储在不同站点上,资源库支持异构资源站点之间的互 操作,形成松散耦合的教育资源库。 标准化。即符合教育部资源建设的技术标准、保证资源数据的专业性和兼容 性。可以对资源进行评价,从而能提高教育资源的质量【6 ,7 】。 3 ) 支持电子商务。建立资源持续发展的商业基础平台。 通过以上对三代教育资源库的描述,可以看到,随着资源库建设规模的增大, 第一代单机版资源管理方式与第二代集中式的资源管理方式已经无法满足当前 和未来资源库建设的需要,第三代教育资源库即是一个分布式资源库,能有效支 持不同层次的教育机构,包括各级管理机构、各级各类教学机构在资源建设中的 任务,满足不同的任务侧重,搭建立体的资源建设体系结构。分布式资源库下多 个资源站点可以存储大量的资源信息,通过协作可以为用户提供高质量的检索结 果,这些都是分布式资源库的优点所在。 1 2 1 2 常见分布式资源库的架构 在目前存在的分布式资源库,是由不同厂商针对不同领域的特点,按照不同 的设计思想构建的,虽然从内容到形式都各不相同,但是从架构( 即资源库的组 织结构) 上大体可以分为两种: 一种是分层架构,另外一种是对等架构【8 】。 分层架构是一种上下级的关系。如图1 1 所示,下级资源站点管理中心到上 级资源站点管理中心注册并同步元数据信息,而上级本身的资源站点管理中心还 可以到更上一级的资源站点管理中心进行注册并同步其所汇集的元数据信息。终 端用户在上级资源站点管理中心可以检索这个节点范围内所有下级资源中心的 资源信息,而下级资源站点管理中心只能检索所有属于该中心下的资源站点的资 源信息。在这种结构中,实际的物理资源都存放在下级资源站点,上级资源管理 站点只存放他们的元数据信息。对于分层架构的分布式资源库,如果整个网络中 的资源不是很多的话,由于在高一级的数据库管理中心存放着该网络中所有的资 源元数据信息,所以只要检索这一个数据库就能够得到这个网络中所有符合要求 的资源,方便又快捷。但当网络中资源多、数据量大时,对高一级的服务器要求 3 分布式资源库的资源柃索和自动协商技术研究 就很高,否则当访问用户多时容易导致死机。 图1 1 分层架构的分布式资源库 对等架构是松散的耦合结构。如图1 2 所示,每个资源站点都是一个独立的、 对等的系统,它们之间的功能和地位相同。当一个用户向某个站点提交检索请求 时,该站点分布式管理系统就把请求发送给所有的与其相连的其他站点,其它站 点收到请求后根据请求信息在自己资源库中进行检索,然后把检索结果返回发出 请求的站点。发出请求的站点把收集到的结果和本身检索的结果相结合返回给用 户。 资源站点1 图1 2 对等架构的分布式资源库 对于对等架构的分布式资源库,每个站点的资源库之间不必同步元数据信 息。由于每个站点只存放自己的元数据信息,分布式管理系统把资源检索任务分 摊给各个站点,有效地均衡了负载。但是这种架构方式对网络性能的要求比较高, 4 分布式资源库的资源检索和自动协商技术研究 需要在不同资源站点间进行频繁的信息交互,如果两个站点问的网络带宽不够 宽、速度不够快的话,检索效率会降低。 1 2 1 3 目前分布式资源库存在的问题 通过本节对目前分布式资源库的描述,可以看到分布式资源库的出现是对当 前信息资源迅猛增长的一种有效的解决方案,它可以把物理上分散的多个资源站 点在逻辑上显示为一个单一的资源库,便于信息资源的存储与检索。但目前的分 布式资源库,无论其设计上采用的是分层架构还是对等架构,都存在着一些问题, 其中,制约了分布式资源库的功能与发展的有如下几个问题: 1 ) “假”分布。这一问题在分层架构的分布式资源库中比较明显,对于这类资 源库中不同层次的资源站点,资源的检索都是由上层站点进行,下层站点只 能进行资源的存储。只实现了资源的分布式存储,而没有实现资源的分布式 检索,其检索方式仍然是集中式的。 劲检索效率低。这一问题在对等架构的分布式资源库中较为显著,对于这类资 源库,其资源检索是由不同资源站点共同完成的,但在检索过程中,不同站 点间需要频繁的进行信息交互,检索瓶颈由分层架构中的主服务转移到分布 式资源库的网络中,从而降低了整个分布式资源库的检索效率。 3 ) 检索效果差。当前许多分布式资源库,是通过将过去已有的几个不同的资源 站点进行整合连接得到的,虽然可以在不同资源站点实现分布式检索,但因 为不同资源站点是异构的,每一站点都拥有自己独立的资源存储方案与资源 描述方案,当在不同站点请求某种资源时,无法有效的按照不同资源站点的 资源描述方案对目标资源进行描述,从而降低了资源检索的查准率与查全率, 导致整个资源库的检索效果低下。 4 ) 缺少对基于语义的资源检索的支持。目前大多在用的分布式资源库,其资源 检索的方法都是基于关键字匹配的全文检索,与g 0 0 9 l e 、百度等网络搜索弓i 擎使用的检索方法相同。但对于分布式资源库,它是特定领域的资源集合, 不同资源即使在表述上毫无关系,仍可能存在语义上的相互联系。所以支持 基于语义的资源检索,可以推动分布式资源库的发展并扩大其应用范围。 5 ) 没有提供对资源自动交易的支持。前文在关于第三代资源库的特点的叙述中 指出,支持电子商务是建立资源持续发展的必由之路,所以电子交易平台是 分布式资源库的一个重要的发展方向。目前有很多关于分布式资源库电子商 务建设的研究与应用,提出了在分布式资源库中进行安全认证、电子交易的 方法,但对于在分布式资源库中进行资源检索的用户,许多时候,不同用户 都是以站点会员的形式进行资源的索取的,因此,用户与站点间的资源交易 5 分布式资源库的资源榆索和自动协商技术研究 实质上是站点与站点之间的资源交易,用户只是提出了对资源的要求,资源 交易完全可以由资源站点来代理,为了实现对大量资源交易的支持,资源站 点必须提供一种自动交易的机制。 针对以上五个问题,本文给出一种基于本体与多a g e n t 技术的分布式资源库 系统,其目标即为在分布式资源库中,实现异构资源站点间基于语义的资源检索 与资源的自动交易。 1 2 2 上海教育资源库 前文提到,由于国家对教育事业的重视,当前实际应用的分布式资源库中, 使用最广泛,影响最大,被关注程度最高的是教育资源库。本文提出的分布式资 源库的资源检索与自动协商技术研究就是以上海教育资源库“l i n u x 多媒体网络 教学资源管理和应用平台软件”研究课题为背景的。 上海教育资源库( s h a n g h a ie d u c a t i o n a lr e s o u r c e sc e n t e r , 简称s h e r c ) 是 由上海市教育委员会主管、上海远程教育集团承建的重大应用项目。上海教育资 源库是上海教育信息化中的主要组成部分,上海教育资源库的建设包括软硬件平 台、资源、服务和管理等方面的建设。该教学资源管理平台的主站点在上海远程 教育中心,其下属的各个区县都有自己的资源子站点,不同资源站点有自己的资 源库系统,每一个资源库对存放于其中的资源有自己独立的存储策略和描述方 案,全部资源站点又通过统一的用户管理和权限管理形成一个分布式资源库。该 课题的教育资源库中,包括小学教育、中学教育、职业教育和高等教育等多个不 同层次的教育资源,而中学教育中的中学语文教育资源库是该课题的重点建设项 目。 中学语文教学资源,其内容广泛、形式多样,既包括文本、视频、音频等多 种存储类型的教育资源,又因为语文教育的特点,而在不同资源间有着复杂的关 系,如长恨歌如白居易生平这种形式上无关,内容上相关的资源对老师 备课、学生学习都有着重要影响,“中学语文教育资源”的这些特点与我们提出 的“分布式资源库的资源检索与自动协商技术研究”的应用环境相符,在后续章 节中,都将以“中学语文教育资源”为应用场景说明本文提出的各种技术与方法。 1 3 论文研究思路与主要工作 本文通过对目前分布式资源库的研究,指出当前分布式资源库在资源检索与 对电子商务的支持中存在的问题与不足,针对这些问题,提出了一种基于本体和 多a g e n t 技术的分布式资源库系统a 6 分布式资源库的资源检索和自动协商技术研究 通过引入多a g c t 技术,建立起基于多a g e n t 的分布式资源库架构,从而为 分布式资源库内的资源检索与自动交易提供了基础;通过构建领域本体库,使得 领域本体可以与刻面技术相结合,既可以实现单一资源站点上基于语义的资源检 索,又可以完成分布式资源库内异构站点间的信息交互,进而实现分布式资源库 内异构的资源站点间的基于语义的分布式资源检索,在完成资源检索之后,通过 将案例推导技术与协商模型相结合,实现了资源站点间基于交易模型的自动交 易。 1 4 论文的组织结构 全文共分为四章,第一章是导论。主要介绍分布式资源库的概念、目前分布 式资源库的情况以及存在的问题。 第二章对实现本文提出的设计目标所要使用的刻面检索方法、本体和多 a g e n t 技术进行了介绍。 第三章给出本文设计的分布式资源库架构的工作原理。首先给出基于a g e n t 的资源库架构,然后说明本系统中分布式检索过程及进行资源交易时交易模型。 第四章是对实现本系统的关键技术的介绍。针对分布式资源库的特点与本文 的设计目标,我们提出了自己的本体库生成模型;为了实现分布式资源库内异构 资源站点间的资源检索,系统使用了子站点评估技术、本体与刻面相结合的检索 方法及不同刻面描述方案间的转换规则;为了实现资源站点间的自动协商,使用 案例库与案例推导来获得自动协商所需的协商信息,并提出了自己的协商模型。 在每一种技术的介绍过程中,都结合实例进行说明。 第五章是对全文的总结以及对下一步工作的展望。 7 分布式资源库的资源检索和自动协商技术研究 第二章相关技术与理论 在本章,将详细介绍为实现本文提出的分布式资源库的资源检索与自动协商 技术研究所用到的相关技术,包括三个方面:刻面检索方法、领域本体和多a g e n t 技术。 2 1 检索方法 2 1 1 常用的检索方法 对于一个资源库,其资源检索的效果直接影响着资源库的功能与应用范围, 总体来讲,常用的检索方法可以分为两类:基于形式的全文检索与基于内容的语 义检索。其中,全文检索是指以文本信息为主要检索对象。允许用户以自然语言 根据资料内容而不是外在特征来实现信息检索【9 】,在全文检索中,根据具体方 法的不同,又可以分为:关键字法和属性- 值法,其中目前应用最广的即为关键 字法,在以网络为基础的文献检索技术中,g o o g l e 、百度等搜索引擎使用的都是 关键字法。对于语义检索,是指将信息检索与人工智能技术、自然语言技术相结 合的检索,它从语义理解的角度分析信息对象与检索者的检索请求,是一种基于 概念及其相关关系的检索匹配机制【1 0 】,目前这种检索方法多以一个概念空间为 依托,通过概念空间中的概念关系进行语义检索。本文提出的基于语义的资源检 索就以领域本体为基础( 关于本体在2 2 节将详细介绍) ,将刻面与本体相结合 的检索方法。 资源检索的基础是资源描述。资源库中的资源类型十分丰富,包括文本、 w o r d 文档、音频、视频资源等,需要选择适当的方式对它们进行描述。不同的 资源检索方法是以相应的资源描述方案为基础的。基于编目语言资源描述和检索 的是一种常用的资源描述和检索方法,在传统的数字图书馆和信息科学中的有广 泛应用,例如关键字法和属性值法。这类检索技术所使用的资源描述方法是传 统的编目分类方法,一般由一组关键词来描述资源。为了实现松弛匹配,每个关 键词还可能有一个对应的描述权重,用来表示该关键词在当前资源库中描述该资 源时所具有的重要性。用户在进行资源检索时,一般先输入与要查找的资源有关 的若干个关键词,检索系统根据各个资源的描述将匹配度大于一定值的资源作为 检索结果返回。这种方式下,资源仅靠有限的几个关键字或附加的文本描述作为 检索依据,描述能力不足,检索效果比较差。 8 分布式资原库的资源检索和自动协商技术研究 2 1 2 刻面检索方法 刻面( f a c e t ) 这个概念最早使用是在5 0 年代1 1 1 1 ,分别出现在r a n g a n a t h a n 的 图书馆分类系统中和g u t t m a n 的一项社会调查中。但那时刻面的概念还比较模 糊,刻面之间存在着语义上的冲突等诸多不合理的因素。在计算机领域,目前刻 面技术主要用于在软件工程中对构件的描述与检索1 1 2 1 4 】,例如青鸟构件库1 1 5 】 采用的就是以刻面分类为主,多种分类方式相结合的构件分类方法。现代构件库 的刻面分类检索方法最早是由p r i c t o d i a z 1 6 1 和f r e e m a n 1 7 在1 9 8 7 年提出的, 这种分类方法的思想是通过反映构件本质特征的视角( 即刻面) 对构件进行精确 的分类,具体如图2 1 所示。 图2 1 构件描述刻面树 对于资源检索,刻面检索方法需要两步来完成,首先需要进行刻面描述,其 次是在刻面描述基础上的检索。 在刻面描述方案中,对资源的描述由刻面和术语两大部分组成 1 2 1 。图2 1 是一个构件描述的刻面树,其中方框代表刻面,椭圆代表术语( 文献1 1 8 1 将其定 义为a s p e c t - o f 关系) 。刻面由一组描述构件本质特征的视角组成,每个刻面从不 同的侧面对构件库中的构件进行分类,如图2 1 所示,一个构件首先可以从其“构 件功能”和“应用环境”两个方面进行描述。刻面按照子刻面组成父刻面的关系 构成一棵刻面树,兄弟刻面之间是正交关系,分别表示了对于父刻面来说不同的 描述角度,同时又是互补关系,综合起来才能使父刻面获得较为完整的描述,如 在图2 1 中,构件的“应用环境”是由“软件环境”和“硬件环境”两个正交又 互补的关系组成的。每个刻面又由一组术语( t e r m ) 构成,称为术语空间( t e r m s p a c e ) 。同- - n 面下的多个术语之间按照继承关系同样构成一个树形结构,子术 9 分布式资源库的资源检索和自动协商技术研究 语与父术语是特殊和一般关系,如在图2 1 中,“w i n d o w s 操作系统”与“w 缸9 】【”、 “w i nn t ”、“w i nc e ”之间即为特殊与一般的关系。 刻面的描述方法为复杂的资源提供了一种多角度、多层次但又统的描述方 案,提高了描述的精确性,从而可以提高资源检索时的查全率与查准率。其检索 过程为【1 2 1 : 首先,将用户的检索要求转化为一棵刻面检索树,即通过将目标资源的各种 信息在刻面树上映射得到一棵检索树。 然后,将此检索树与库中所有资源的刻面描述进行对比,如果找到一种允许 的映射方案,那么该资源即为满足检索要求的一个检索结果。使资源检索转化为 检索树与资源库中刻面描述树之间的匹配问题。 最后,对于不能完全匹配的资源,可以通过对匹配度阈值的设定,选出满足 给定匹配度的检索结果。 在本系统中,使用刻面描述方案来完成对站点资源库中资源的描述。在资源 检索与案例检索中采用了本体与刻面相结合的方式来完成。 2 2 领域本体 2 2 1 本体的定义 本体( o n t o l o g y ) 最早是一个哲学中的概念【1 9 】,后来随着计算机人工智能 的发展,被引入了计算机的应用中并赋予了新的定义。由于最初人们对本体的理 解并不完善,所以关于本体的定义也处于不断的发展变化中,比较有代表性的定 义如表2 1 所示: 1 0 分布式资源库的资源检索和自动协商技术研究 表2 1 本体定义的演变 范畴提出时间提出人定义 客观存在的一个系统的解释和说明, 哲学 客观现实的一个抽象本质。 1 9 9 1 n e c h e s 等给出构成相关领域词汇的基本术语 和关系,以及利用这些术语和关系构 成的规定这些词汇外延的规则的定 义【2 0 】。 计算机1 9 9 3 g m b e r 概念模型的明确的规范说i ,q 2 1 1 。 1 9 9 7 b o r s t共享概念模型的形式化规范说明 【2 2 a 1 9 9 8 s t u d e r共享概念模型的明确的形式化规范 说n 狙1 2 3 1 。 关于最后一个定义的说明体现了本体的四层含义: 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型, 其表示的含义独立于具体的环境状态。 2 1 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义。 形式化( f o r m a l ) o n t o l o g y 必须是计算机可读的。 钔共享( s h a r e ) o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体而不是个体。 2 2 2 本体建模 在计算机领域引入本体的目标是:捕获相关领域的知识,提供对该领域知识 的共同理解,确定该领域内共同认可的词汇( 概念) ,并从不同层次的形式化模 型上给出这些词汇和词汇间相互关系的明确定义。关系表达了领域中不同概念之 间的语义联系,例如整体一部分关系、继承关系、属性关系等或其他领域特定的 关系。本体如果用相应的逻辑语言来表达,那么还可以具有逻辑推理能力。本体 良好的概念层次结构和对逻辑推理的支持,使其在知识检索中有广泛的应用f 2 4 , 2 5 1 。 分布式资源库的资源检索和自动协商技术研究 2 2 2 1 本体的建模原语 p e r e z 等人用分类法组织本体【2 6 1 ,归纳出五个基本的建模元语( m o d e l i n g p r i m i t i v e s ) : 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 是指任何事务,如工作描述、功能、行为、 策略和推理过程。 劲关系( r e l a t i o n s ) 即在领域中概念之间的相互作用,形式上定义为n 维笛卡儿 积的子集:r :c 1 c a g 。如子类关系( s u b c l a s s o f ) 。 3 ) 函数( f u n c t i o n s ) 是一类特殊的关系,这种关系的前n 一1 个元素可以唯一决 定第n 个元素。形式化的定义为f :c 1 c 2 c 0 1 一g 。如m o t h e r - o f 就是 一个函数,m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。 4 ) 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 5 1 实例( i n s t a n c e s ) 代表元素。 从语义上讲实例表示的就是对象,而概念表示的则是对象的集合,关系对应 于对象元组的集合。概念的定义一般采用框架( f r a m e ) 结构,包括概念的名称, 与其它概念之间关系的集合,以及用自然语言对该概念的描述。基本的关系有4 种,如表2 2 所示: 表2 2 本体中的四种基本关系 关系名关系描述 p a r t - o f 表达概念之间部分与整体的关系。 k i n d - o f 表达概念之间的继承关系,类似于面向对象中的父 类与子类之间的关系。 i n s t a n c e - o f 表达概念的实例与概念之间的关系,类似于面向对 象中的对象和类之间的关系。 a r t r i b u t e o f表达某个概念是另一个概念的属性。如“年龄”是 “人”的一个属性。 在实际建模过程中,概念之问的关系不限于上面列出的4 种基本关系,而是 根据领域的具体情况定义相应的关系。通常情况下,领域中所要描述的知识复杂 程度越高,概念之间的关系越多。 2 2 2 2 本体的建模方法 对于不同的问题域和不同的工程内容,构造本体的过程也各不相同。大家公 认的是在构造特定领域的本体过程中需要领域专家的参与。关于构造规则,最有 分布式资源库的资源检索和自动协商技术研究 影响的是g m b e r 在1 9 9 5 年提出的5 条规则:【2 7 】 1 ) 明确性和客观性:本体应该使用自然语言对所定义的词汇给出明确、客观的 语义定义。 完全性:所给出的定义是完整的,完全能表达所描述的词汇的含义。 3 ) 一致性:由词汇得出的推论与词汇本身的含义是相容的,不会产生矛盾。 4 ) 最大单调可扩展性:向本体中添加通用或专用的词汇时,不需要修改已有的 内容。 5 1 最小承诺:对待建模的对象给出尽可能少的约束条件。 本体建模是指在领域分析的基础上( 这里所说的领域分析是指对某一具体领 域,比如“中学语文教育资源”领域) ,通过领域专家的帮助,提取出能表达该 领域知识的词汇( 或称作概念) 以及这些词汇之间的关系。在完成领域分析之后, 就可以根据该领域的特点进行领域本体的建模,领域本体建模的一个特点是要求 语义必须严格正规,即领域中的词汇及关系的定义必须一致,不能出现相互冲突 的情形 2 8 1 。目前,关于本体建模还没有一个统一的方法,比较易于应用的是 r u b e np r i e t o d i a z 在他的文章【2 9 】中给出了一种基于方面( f a c e t ) 的本体构建方 法,基本步骤可以分为: 1 ) 在领域专家的帮助下,抽取出领域词汇。 2 ) 从1 ) 中抽取关键词汇构造为不同的方面,进而把所有词汇分类。 向1 ) 、2 ) 中构造起来的分类词汇系统中加入词汇与词汇之间的关系。 r u b e n 方法的优点在于构建条理清晰,是一种递增的构建方法,因此易于实 行。但它也存在明显不足,首先,这种构建方法在词汇选择时没有方向性,因此 过程1 ) 中领域词汇的获取趋于混乱,很难给出较完整的词汇库,而一个较全面 的词汇库对该方法以后两步起着举足轻重的作用;其次,其构建出来的词汇库没 有层次性,这样在进行检索的时候是对全部词汇逐一匹配,效率很低。与r u b e n 方法方法相似的还有比利时一家名为l a n g u a g ea n dc o m p u t i n g ( l & c ) 的公司提 出的o n t o c i e a n 的本体建模方法【3 0 】,文献【3 1 】提出的对a g e n t 所使用的本体进 行建模时需用考虑的问题,与r u b e n 的方法相比,其关注于将本体中的关系建 立的更为精简。 2 2 3w e b o n t o l o g yl a n g u a g e ( o w l ) 概述 本体建立的概念在某个特定领域中是公认的,是面向特定领域的概念模型。 w 3 c 在本体语言标准化方面做了大量工作,推出了语义网本体描述语言: o w l 3 2 】( w e bo n t o l o g yl a n g u a g e ) 。其目标是不仅提供给用户可读的文档内容, 而且可以处理文档内容信息。o w l 能够被用于清晰地表达词汇表中的词条 分布式资源库的资源检索和自动协商技术研究 ( t e r m ) 的含义以及这些词条之间的关系。而这种对词条和它们之间的关系的表 达就称作本体。o w l 相对x m l 、r d f 和r d f s c h e m a 拥有更多的机制来表达语 义,从而o w l 超越了x m l 、r d f 和r d f s c h e m a 仅仅能够表达网上机器可读的 文档内容的能力。它又分为三种表述能力渐强的子语言:o w l h t c 、o w l d l 、 o w l f u l l 。三者的关系如表2 - 3 所示。 表2 30 w l 的三类子语言比较 子语言描述例子 o w l l i t e用于提供给那些只需要一个分类 支持基数( c a r d i n a l i t y ) , 层次和简单的属性约束的用户。只允许基数为0 或1 。 0 w l d l支持那些需要在推理系统上进行当一个类可以是多个类 最大程度表达的用户,这里的推理的子类时,它被约束不能 系统能够保证计算完全性是另外一个类的实例。 ( c o m p u t a t i o n a lc o m p l e t e n e s s ,即 所有地结论都能够保证被计算出 来) 和可决定性( d e c i d a b i l i t y ,即 所有的计算都在有限的时间内完 成) 。它包括了o w l 语言的所有约 束,但是可以被仅仅置于特定的约 束下。 o w l f u u支持那些需要在没有计算保证的一个类可以被同时表达 语法自由的r d f 上进行最大程度为许多个体的一个集合 表达的用户。它允许一个本体在预以及这个集合中的一个 定义的( r d f 、o w l ) 词汇表上增 个体。 加词汇。 在本系统中,本体作为整个资源库的知识基础,是异构资源库的不同资源站 点信息交互的桥梁;同时,在进行资源检索与案例检索时,都使用了本体与刻面 相结合的方式来完成信息检索。在构建中,我们采用了o w l h t e 本体描述语言。 2 2 ap r o t 6 9 6 本体编辑工具 通过领域分析构建该领域的本体模型,在完成本体建模之后,此时的本体模 型仍然是一个逻辑概念,需要将其进一步表述成一种计算机可以存储和操纵的模 型,这需要通过本体编辑来完成。系统采用了o w l l i t e 进行本体模型的编码, 目前,有较多的i d e 工具来辅助编码工作。考虑到要将本体与刻面相结合,必 1 4 分布式资源库的资源检索和自动协商技术研究 须选用一种可以体现层次关系的本体编辑工具,所以采用了美国斯坦福大学的本 体编辑工具p r o t 6 9 3 3 ,3 4 】,该工具是一种r d f 编辑工具,配以o w l 编辑插件 后可以方便编辑o w l 文档,它采用树形方式对词汇进行编辑,可以方便的将本 体库词汇转换为刻面描述方案中的刻面与术语。在使用该工具进行本体编辑时可 以分为刻面编码、术语编码和关系编码。 2 2 4 1 刻面编码 在本体编辑中,之所以会涉及到刻面、术语等概念,是因为我们的系统要将 本体与刻面进行结合,而本体是这一结合的基础,在建立本体时必须考虑到刻面 树的情况,同时也可以用刻面的思想来建立本体。在刻面树中,非叶子刻面起到 的作用是将刻面组织为一种层次结构,并不对资源描述与检索起作用;而叶子刻 面无论是对资源的描述还是检索都有重要作用,它们可以被看作是描述资源的元 模型。基于上面的考虑,在实现过程中,我们不把整棵刻面树编入本体,而只把 叶子刻面以类( c l a s s ) 的形式编入。再以这些叶子刻面为根,通过s u b c l a s s o f 关系将叶子刻面与其下的术语关联起来,该叶子刻面下所有术语形成一棵术语 树。 2 2 4 2 术语编码 如上所述,以一个叶子刻面为根,该叶子刻面下所有的术语通过s u b c l a s s o f 关系及系统自定义关系,可以形成一棵术语树,这棵术语树上的每个非叶子术语 都被以类的形式编入本体,编辑方式同刻面编码相同;而全部的叶子术语作为其 父结点的实例被编入本体。使用这种方式进行术语编码是因为对于o w l l i t c 本 体模型,叶子术语与其父节点之间的关系是类与实例的关系,随着资源的增加, 叶子术语会出现不断增大的情形,但其父节点的个数及类型是固定不变的,这与 面向对象编程中,一个类可以有多个实例相似。 2 2 4 3 关系编码 因为本体是以关系为中心的,本体强大的知识表达能力与知识推理能力都是 以关系为基础的,所以关系编码是本体编辑的核心,在o w l l i t e 中关系是一个 三元组 ( ) 。为了表示这样一个 三元组,需要分两个步骤来完成关系编码。 首先,定义关系。关系定义主要确定关系类型、关系域( d o m a i n ) 和关系 范围( r a n g e ) ,这个定义过程类似于数学中的函数定义中的函数的名称、函数的 1 5 分布式资源库的资源检索和自动协商技术研究 定义域和函数的值域。关系域用来限定主体( s u b j e c t ) 的类型,关系范围用来限 制客体( o b j e c t ) 的类型。例如:关系p e r s o n t h n e s ( 人物的所处时代) 的0 w l l i t c 定义如下所示: 这段x m l 表达式的意思是关系中主体( s u b j e c t ) 必须为类c h a r a c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论