(管理科学与工程专业论文)基于本体的信息资源管理工具研究.pdf_第1页
(管理科学与工程专业论文)基于本体的信息资源管理工具研究.pdf_第2页
(管理科学与工程专业论文)基于本体的信息资源管理工具研究.pdf_第3页
(管理科学与工程专业论文)基于本体的信息资源管理工具研究.pdf_第4页
(管理科学与工程专业论文)基于本体的信息资源管理工具研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(管理科学与工程专业论文)基于本体的信息资源管理工具研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:基王奎佳煎焦基逄塑篮望三基盟蕉 学位论文作者签名:名王么缀锋 日期:上。万年f 工月孑日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文搜查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:基王查篮煎焦 x 国防科学技术大学研究生院学位论文 第一章绪论 本文主要研究了基于本体的信息资源管理工具。文章首先分析了我国信息化 建设的现状和信息资源管理的发展,结合本体技术,提出了基于本体的信息资源 管理:研究了基于本体的信息模型建模方法;分析了基于本体的信息资源管理工 具的用户和功能,然后研究了工具实现的关键技术;设计了工具中的信息模型编 辑模块,实现了信息模型的编辑和w e b 发布;最后,将实现的系统应用到具体的 项目中,取得了较好的效果。 1 1 引言 近年来,经济全球化和全球信息化形势突飞猛进,信息技术及其应用已经渗 透到经济社会的各个领域,成为改进产业结构、提高劳动生产率、推动经济增长、 增强国家综合实力的先进生产力。信息化是当今世界经济和社会发展的大趋势, 也是我国产业优化升级和实现工业化、现代化的关键环节“3 。 信息资源、材料资源和能源资源共同构成了国民经济和社会发展的三大战略 资源。在人类可以到达的宇宙空间范围内,可以开发利用的材料资源和能源资源 是有限的,是不可再生、不可共享的:而且,对材料资源和能源资源的开发利用 必然产生对自然的破坏和对环境的污染,而人类在其存在的无限时间和无限空间 内。消耗了大量的物质和能源,也生成了大量的信息,这些信息可以长久地存在。 人类要实现可持续发展,一个新的途径就是发展信息技术,利用信息资源。但是, 这些现已存在的信息的主要特点是分散、杂乱,各成体系,各自为政,难以达到 信息共享和信息资源利用0 1 。信息化是人类历史上的新生事物,没有现成的理论, 也没有可以借鉴的成熟经验,需要不断探索、实践和创新。 我国从上个世纪九十年代开始的信息化建设,由于技术的渐进式发展和组织 制度的原因,在信息化建设中出现了很多问题: ( 1 ) 由于早期信息系统开发的技术条件限制,缺乏统一的规划和标准,不 同阶段建造的系统存在标准和规范不统一、平台不统一、数据格式不统一问题, 因而造成了信息异构。 ( 2 ) 在同一阶段,由于不同部门、不同系统在数据库设计和信息系统开发 时对同一数据信息表示上的不一致,造成了语义理解上的歧义( 如同名异义、异 名同义) ,从而影响了信息共享。比如,对已经建立的某数据库,用户想查阅有 关光学设备的资料,就必须输入此数据库中已有的设备名字才能够查询到,而这 个设备名字又不是规范定义的,有可能只是当初的程序员按照自己的理解起的名 字。最简单的,按照常识,“光学”有可能叫“g x ”,也可能叫“o p t i c s ”等等。 因此,信息虽然很丰富,但对用户来说却是不可见的、难于使用的。 ( 3 ) 信息资源的不完整性,对于同一个资源而言,由于粒度不一样、侧重 点不一样,各系统存储信息的角度不同,信息内容也不一样。一般情况下,没有 一个系统能够全面反映某一对象的信息。信息资源的冗余性,对同一资源,可能 第l 页 国防科学技术大学研究生院学位论文 有多个部门都有记录。信息资源概念命名的不规范性,缺乏统一的规范,概念术 语不严谨、不标准。且因种种原因,内容上有差异,表述上不一致,甚至有的是 错误信息。 这些问题的出现主要是因为在信息化建设中缺乏信息资源的标准:统一的信 息资源语义标准、统一的信息资源数据交换标准和统一的数据元标准。这些信息 资源相关标准的建立必须有一个辅助工具来帮助实现。 目前,本体在支持知识共享和知识表示方面的独特优势正逐渐显现出来,越 来越多的研究者致力于把本体技术应用于信息系统和信息建模方面的研究,并取 得了很多的研究成果。因此,针对上述问题,本文提出基于本体的信息资源管理 工具的研究。 基于本体的信息资源管理工具将给用户提供一个编辑信息模型和管理信息 模型的工作环境,让用户明确信息资源的语义标准、数据交换标准和数据元标准, 理解信息资源的全局视图;基于本体的信息资源管理工具的研究将给信息化建设 的相关研究提供了一些新的思路和方案。 1 2 信息资源及信息资源管理的概念 1 2 1 信息资源的定义 信息同能源、材料并列为当今世界三大资源。信息是事物存在的方式和运动 状态的表现形式。信息来源于物质,又不是物质本身:信息也来源于精神世界, 但又不限于精神领域:信息归根到底是物质的普遍属性,是物质运动的状态和方 式”。 信息是普遍存在的,但信息并非全都是资源,只有满足一定条件的信息才能 称之为信息资源。换言之,只有经过人类开发与组织的信息才是信息资源。信息 资源是指人类社会活动中经过加工处理有序化并大量积累后的有用信息的集合。 它是任何组织赖以生存和发展的重要资源,任何组织的其他资源( 包括人、财、 物等) 都要通过信息资源来集中管理和控制,以取得最佳的整体效益“1 。信息资 源从本质上来说是一种信息,是一种附加了人类劳动的信息。进一步分析,信息 资源是由信息、人、符号、载体4 种最基本的要素构成,其中,信息是信息资源 的源泉,人作为认识主体是信息资源的生产者和利用者,符号是人生产和利用信 息资源的媒介和手段,载体则是存储和利用信息资源的工具”1 。换言之,信息资 源是人通过一系列的认知和创造过程之后以符号形式存储在一定载体上可供利 用的全部信息。 信息资源的类型可以根据多种标准来划分( 见图1 1 ) : ( 1 ) 以开发程度为依据,信息资源可划分为潜在的信息资源与现实的信息 资源两大类。潜在的信息资源是指个人在认知和创造过程中存储在大脑的信息资 源,现实的信息资源则是指潜在信息资源经过个人表述后能够为他人所利用的信 息资源。 ( 2 ) 现实信息资源以表达方式为依据可以划分为口语信息资源、体语信息 资源、文献信息资源、实物信息资源和数字信息资源。 第2 页 国防科学技术大学研究生院学位论文 ( 3 ) 文献信息资源以记录方式和载体材料为依据可划分为书写型、印刷型、 缩微型、机读型和声像型。 ( 4 ) 印刷型文献信息资源还可以以出版形式的不同划分为图书、期刊、会 议资料、研究报告、专利说明书、政府出版物、学位论文、产品说明书、档案、 标准、新闻报纸、统计报表、图谱等。 ( 5 ) 数字化的信息资源提供的信息来源于计算机存储设备。这些存储设备 包括计算机的内存、外存等。根据计算机网络的发展,进一步将它划分为网络信 息资源和单机信息资源。网络信息资源是指一切投入网络数字化的信息资源的统 称。单机信息资源是指一切本地化的数字信息资源的统称。它与网络信息资源的 区别就在于其存储的空间范围,随着计算机存储容量的不断扩大以及计算机网络 技术的不断发展,计算机间的透明访问越来越多,这两类信息资源的差别也越来 越小。 潜在信息资源( 以人的大脑为载体的信息资源) 现实信息资源 口语信息资源 l 授课 i 谈话 i 口昌歌等 体语信息资源i 萎誓 j 姿态 文献信息资源 实物信息资源 数字化信息资源i 书写型 印届日型 缩微型 声像型 机读型 产品样本 模型 雕塑 碑奎等 单机信息资源 网络信息资源 图1 1 信息资源分类 信息资源究竟应该按照何种方式划分并没有固定的标准,主要取决于人们分 析问题的不同需要。3 。本文研究的信息资源范围主要包括文献信息资源、实物信 息资源和数字化信息资源。 第3 页 国防科学技术大学研究生院学位论文、 设计了工具的系统结构;然后着重设计了信息模型编辑模块,研究了基于本体的 信息模型建模方法,设计了领域概念的编辑、模型的检验、模型树的表示和模型 代码化导出;研究了系统开发的一些技术;根据功能要求和设计,实现了信息资 源管理工具的原型系统。 第六章对全文的工作进行了总结,并对下一步的工作进行了展望。 第8 页 国防科学技术大学研究生院学位论文 第二章基于本体的信息资源管理 本章首先对信息资源管理进行了分析,明确了信息资源管理的目标是确保信 息资源的有效利用,实现信息资源管理的基础是建立信息资源的语义标准、数据 交换标准和数据元标准;然后通过对本体技术的研究,提出了基于本体的信息资 源管理方法,在基于本体的信息资源管理活动中,用户可以得到信息资源的全局 视图和标准数据模型。 2 1 信息资源管理分析 2 1 1 信息资源管理的基础 上文1 2 2 节介绍了信息资源管理的概念,信息资源管理是2 0 世纪7 0 年代 末提出的新概念,但是对文献、知识和信息的管理却在很久以前就有了。追溯信 息资源管理的历史沿革,可以划分为三个典型的阶段,即传统管理阶段、技术管 理阶段和信息资源管理阶段。传统管理阶段以信息的搜集、管理为重点,技术管 理阶段试图利用现代信息技术实现对信息流的控制,信息资源管理阶段强调从多 种角度对人类社会信息过程及相关要素实行综合管理0 1 。 信息资源管理概念的提出,是基于当时的两个背景:一方面,是信息管理阶 段纯粹的的技术手段不能实现对信息的有效控制和作用;另一方面,也是重要的 原因,是当代社会经济发展使得信息成为一种重要的资源,迫切需要对信息资源 进行优化配置和管理。 任何管理如果没有明确的管理目标,就不可能有正确的管理行动和管理效 果。对于信息资源管理而言,情形也是一样的。信息资源管理的目标不仅是信息 资源管理活动的预期结果,而且是指导信息资源管理活动的行动纲领。信息资源 管理目标的确定需要从各国的实际情况出发,与各国信息经济和信息产业发展水 平相关。 我国在信息化建设中,由于技术的渐进式发展和组织制度的原因,组织内包 含若个系统,系统之间互不兼容,单个系统又不能满足组织的需要,系统内信息 资源概念表示混乱,时常出现“同名异义、异义同名”问题,对于各业务部门人 员来说,很难理清本部门内到底有那些信息资源,更不知道组织内有那些信息资 源,对于软件开发人员,很难界定信息资源的范围,也无法了解信息资源之间的 关系。因此,结合国内信息化建设现状和迫切需求,信息资源管理的目标是使信 息资源得到有效利用,组织内的成员在需要的时候都能方便获得正确的信息,即 正确的人,在正确的时间,获得正确的信息。 要使得组织内的成员在需要的时候方便都能方便正确的信息,就要使信息系 统之间能够互连、互通、互操作,使信息能够共享;要保证信息流畅通,资源可 共享,就要建立信息资源的语义标准、数据交换标准和数据元标准。 因此,本文认为信息资源管理的基础是建立信息资源的标准,它包括统一的 信息资源语义标准、统一的信息资源数据交换标准、统一的数据元标准。 第9 页 国防科学技术大学研究生院学位论文 2 1 z 信息模型与信息资源管理 信息模型是用于描述组织内的信息以及这些资源的相互关系。,它是对组织 信息资源的抽象表示。上节分析了信息资源管理的基础是建立信息资源相关标 准,为了有效的建立和表示这些信息资源标准,本文采用建立信息模型的方式, 这个信息模型必须包含信息资源的语义标准、交换标准和数据元标准。 因此,根据信息资源管理概念的发展,结合国内信息化建设的现状,本文认 为:信息资源管理是指组织为了有效地利用信息资源,通过共享的形式化的信息 模型表示领域内的信息资源,通过信息模型对信息资源的产生、获取、处理、存 储、传输和使用进行全面管理的活动。本文更多强调的是共享,它指的是用大家 公共认可的概念集来表示概念:信息模型定义了领域中信息资源概念、概念之间 的关系和标准数据元等内容,为用户提供共享的信息资源的全局视图,为软件和 系统的开发者提供标准数据,并能指导信息系统的开发与设计。从概念的分析来 看,信息资源管理的核心是信息模型,信息模型是信息资源管理的基础和标准, 是信息资源的概念化的共享的抽象表示。信息模型通过建立数据存储对象和中介 共同使用的公共视图和对象表示,在数据发送者和接受者之间保持对数据的一致 理解。 e r 模型目前应用广泛,并且取得了很大的成就。但它是表示实体类型及实体 间联系的模型,提供一种不受具体实现结构限制的方法,实现数据处理与物理实 现无关的目的。e r 模型模型只是在一个较低的面向实现的层次上表达领域的规 则,如数据类型、主键等,数据只是有含义事件的符号表示,而信息是数据的内 涵,是对数据语义的解释,是为了某个特定目的或在一定范围内聚合起来的数据 集,所以,e r 模型不能满足本文研究的信息资源管理中信息模型的需求。 随着技术的发展,有关本体的研究越来越深入,本体是共享的概念模型的形 式化规范说明,本体在支持知识共享和知识重用方面的独特优势正逐渐显现出 来,本体使得领域术语实现标准化,明确表示半结构化信息的语义,提供对该领 域知识的一致理解,促进知识的复用,便于信息系统的开发和集成,有助于复杂 系统的开发和过程重构,并且与数据模型的最大区别是本体可以为机器可直接理 解和处理语义提供了理论和技术基础。 构造本体的目的是为了实现某种程度的知识共享和重用。本体的作用主要是 分析澄清了领域知识的结构,为知识表示打好基础,本体可以重用,从而避免重 复的领域知识分析;统一的术语和概念使知识共享成为可能。 因此,在信息资源管理中引入本体,建立基于本体的信息模型,明确了信息 资源的概念和信息资源之间的关系,形式化地表示了信息模型,让人和计算机都 可以理解,建立了信息资源集成的共享视图;基于本体的信息资源管理可以让用 户得到信息资源的全局视图和标准数据模型。 本文下节将着重研究本体技术。 2 2 1 本体概念 2 2 本体技术 第l o 页 国防科学技术大学研究生院学位论文 本体论的研究最早起源于哲学领域。在西方哲学史中。本体论是指关于存在 及其本质和规律的学说。在二十世纪的分析哲学中,本体论正是成为研究实体存 在性和实体存在本质等方面的通用理论。以大写“o ”开头的o n t o l o g y 表示哲学 领域中的“本体论”概念。这一概念最早可以追溯到公元前古希腊哲学家亚里士 多德( 3 8 4 3 2 2b c ) 。它在哲学中的定义为“对世界上客观存在物的系统地描 述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽 象本质。 本体论的概念和方法应用于计算机领域可以追溯到上个世纪8 0 年代,最早 m c c a r t h y 在1 9 8 0 年以及h a y e s 和s o w a 分别在1 9 8 4 年使用过这个名词,而 a 1 e x a n d e r 在1 9 8 6 年发表的文章更被视为本体论在计算机领域获得不同于哲学 领域解释的新的研究起点。近一、= 十年来,关于本体论的研究、开发和应用的 话题,正在计算机科学界逐步传播开来。自2 0 世纪9 0 年代初期以来,国际计算 机界举行了多次关于本体论和本体的专题研讨会。从这些会议的情况可以看出, 把现实世界中某个应用领域抽象或概括成一组概念及概念间的关系,构造出这个 领域的本体,会使计算机对该领域的信息处理大为方便。本体论正逐步成为知识 获取以及表示、规划、进程管理、数据库框架集成、自然语言处理和企业模拟等 研究领域共同关心的一个核心。 在信息技术领域,对本体论的研究主要包括以下三个方面的内容: ( 1 ) 本体论工程。研究本体的开发方法,主要包括两个方面:一是研究如 何创建特定领域的本体,二是研究通用本体的创建方法。 ( 2 ) 本体的表示、转换和集成。研究用于表示各种本体的知识表示系统; 提供形式化方法和工具,促进本体的共享和重用;研究不同本体的比较框架;研 究不同本体的转换和集成方法:研究不同本体间互操作的手段。 ( 3 ) 本体论的应用。研究以特定领域或通用本体为基础的各种应用。 以小写“o ”开头的o n t 0 1 0 9 y 表示本体,是信息技术领域广泛使用的概念。 n e c h e s 等被认为是人工智能界最早给出本体定义的人,他们认为:“本体定义 了组成主题领域的词汇表的基本术语和关系,以及组合这些术语和关系来定义词 汇表外延的规则”。后来越来越多的人研究本体,并给出了许多不同的定义。其 中最著名并被引用得最为广泛的定义是由g r u b e r 在1 9 9 3 年提出的,“本体是概 念化的明确的规范说明”o ”1 。和这个定义类似,n g u a r i n o 和p g i a r e t t a 在对当时流行的本体七种不同概念进行了深入的分析后,于1 9 9 5 年提出“本体 是一个概念化( c o n c e p t u a l i z a t i o n ) 的部分的显式( e x p l i c i t ) 说明或表示一 种逻辑语言的模型”。w n b o r s t 对该定义也进行了引申:“本体是共享的概 念模型的形式化规范说明”。”s t u d e r 等人对这个定义进行分析后认为o n t o l o g y 的概念包括四个主要方面”: ( 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :指通过抽象确定义;( 3)形式化(formal):精确的数学描述,指本体是计算机可读的(即能被 计算机处理) ;第 x 国防科学技术大学研究生院学位论文 ( 4 ) 共享( s h a r e ) :指本体体现的是共同认可的知识,反映的是相关领域 中公认的概念集。 投影规则 概念世界l 概念世界3 概念世界2 图2 1 现实世界到概念世界的投影 本体目前已经成为计算机学科的一个重要研究领域,它为机器可直接理解、 处理语义提供了理论和技术基础。它自身的发展与信息处理等计算机学科的研究 领域发展是分不开的。简单来说,本体为在一些领域需要共享信息的研究者定义 了一种通用的词表,它使用机器可以理解的定义来刻画领域中的基本概念和概念 之间的关系。直观地讲,本体是一个实体,是把现实世界中的某个领域抽象为一 组概念及概念之间的关系。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,从不同层次的形式化模式给出这些词汇( 术语) 和词汇间 相互关系的明确定义,通过概念之间的关系来描述概念的语义。 在信息集成中,本体的建立给了系统一个统一的、一致的用户视图界面,一 方面方便人员对系统知识的共享与交流,另一方面,为系统开发人员提供了事实 上的数据标准,一定程度上起到了建立数据字典和主题数据库的作用,在已有系 统的整合中,可以通过建立本体解决同名异义、异名同义、信息不完全等诸多问 题。 g v a nh e i j s t 将本体分为4 种类型:通用本体( g e n e r i co n t o l o g y ) 、领 域本体( d o a i n0 n t o l o g y ) 、应用本体( a p p l i c a t i o no n t o l o g y ) 和表示本体 ( r e p r e s e n t a t i o n a lo n t o l o g y ) 。2 4 1 通用本体覆盖了若干个领域,通常也被称为核心本体( c o r eo n t o l o g y ) ; 领域本体包含着特定类型领域( 如电子、机械、医药等) 的相关知识。领域本体 在一个特定的领域中可重用,它们提供该特定领域的概念定义和概念之间的关 系,提供该领域中发生的活动以及该领域的主要理论和基本原理等;应用本体包 含特定领域建模的全部所需知识;表示本体不局限于某个特定的领域,它提供了 用于描述事物的实体。如“框架本体”,其中定义了框架、槽的概念。 构造本体的目的都是为了实现某种程度的知识共享和重用。本体的作用主要 第1 2 页 国防科学技术大学研究生院学位论文 有以下两方面n “: ( 1 ) 基于本体的分析澄清了领域知识的结构,从而可以为知识表示打好基 础。本体可以重用,从而避免重复的领域知识分析。 ( 2 ) 统一的术语和概念使知识共享成为可能。 本体的作用还可更具体地从以下三个方面看到,即通信( c o m m u n i c a t i o n ) 、 互操作( i n t e r o p e r a b i l i t y ) 和系统工程( s y s t e m se n g i n e e r i n g ) : a 通信:主要为人一人、人一机和机一机之间或组织一组织的通信提供共同的 术语和词汇。 b 互操作:在不同的建模方法、范式、语言和软件工具之间进行翻译和映 射,以实现不同系统之间的互操作和集成。 c 系统工程:本体分析能够为系统工程提供以下方面的好处: 重用( r e u s a b i l i t y ) :本体是领域内重要实体、属性、过程及其相互 关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共 享的组件( c o m p o n e n t ) 。 知识获取( k n 0 w 1 e d g ea c q u i s i t i o n ) :当构造基于知识的系统时,用 已有的本体作为起点和基础来指导知识的获取,可以提高其速度和可靠 性。 可靠性( r e l i a b i l i t y ) :形式化地表达使得自动的一致性检查成为可 能,从而提高了软件的可靠性。 规范描述( s p e c i f i c a t i o n ) :本体分析有助于确定i t 系统( 如知识库 等) 的需求和规范。 z 2 2 本体建模元语 p e r e z 等人用分类法组织了本体,并且归纳出5 个基本的建模元语, 类( c 1 a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它 表示的是对象的集合,其定义一般采用框架( f r a j n e ) 结构,包括概念的名称, 与其他概念之间的关系的集合,以及用自然语言对概念的描述。 关系( r e l a t i o n s ) 在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r :c 1 c 2 x c n ,如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元组的 集合。 函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形式 化的定义为f :c l c 2 c n l c n ,如m o t h e r o f 就是一个函数, m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 实例( i n s t a n c e s ) 代表元素。从语义上讲实例表示的就是满足某类性质的具体对象。 另外,从语义上讲,基本的关系共有4 种,如表2 1 所示: 第1 3 页 国防科学技术大学研究生院学位论文 关系名 关系描述 p a r t o f 表达概念之间部分与整体的关系。 k i n d o f 表达概念之间的继承关系,类似于面向对象中 的父类与子类之间的关系。 i n d i v i d u a l 一o f表达概念的个体与概念之问的关系,类似于面 向对象中的对象和类之间的关系。 a t t r i b u t e o f表达某个概念是另一个概念的属性。 表2 1 概念之间的关系 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可以 根据领域的具体情况定义相应的关系。 2 2 3 本体描述语言 通过上文的分析知道,本体具有以上提到的种种优势,但毕竟是种概念。 要使它有效的发挥这些优势,因此必须有一种语言来支持本体。本体描述语言是 使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该满足以下要求 2 8 】: 良好定义的语法( aw e l l d e f i n e ds y n t a x ) 良好定义的语义( aw e l l d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有r d f 和r d f s 、o i l 、d a m l 、o w l 、k i f ”1 、s h o e 、x o l 、0 c m l 、o n t 0 1 i n g u a 3 “、c y c l 3 ”、 l 0 0 m ”“。简单把它们归类如下: 和w e b 相关的有:r d f 和r d f s ”,”1 、0 i l “、d a m l l 5 1 、o w l 3 ”、s h o e 3 “、x o l 。 其中r d f 和r d f s 、o i l 、d _ m l 、0 w l 、x o l 之间有着密切的联系,是w 3 c 的本体 语言栈中的不同层次,也都是基于x m l 的。而s h o e 是基于h t m l 的,在h t m l 的 一个扩展。 和具体系统相关的( 基本只在相关项目中使用的) 有:o n t o l i n g u a 、c y c l 、 l 0 0 m 。 k i f 已经是美国国家标准,但是它并没有被广泛应用于互联网,作为一种交 换格式更多的应用于企业级。 o w l 全称w e b0 n t 0 1 0 9 yl a n g u a g e ,是w 3 c 推荐的语义互联网中本体描述语 言的标准。o w l 旨在用于那些需要由应用程序而不是由人类来处理文档中的信息 的情形。o w l 可被用来明确表示词汇表中术语的含义以及术语间的关系。在表达 含义和语义方面,o w l 比x m l 、r d f 和r d f s 有更多的表达手段,因此在w e b 上 表达机器可理解内容的能力也比这些语言强。o w l 是d a m l 十o i lw e b 本体语言的 修改版,在设计和应用方面比d a m l + o i l 更完善。0 w l 语言是通过一系列文档来 说明的,每个文档都有不同的目的,并面向不同的读者。o w l 被设计为满足对 w e b 本体语言的需求。o w l 是w 3 c 一系列与语义w e b 相关的并不断扩大的规范的 一部分。在w 3 c 提出的本体语言栈中,o w l 处于最上层,见图2 2 本体描述语言。 第1 4 页 国防科学技术大学研究生院学位论文 图2 2 本体描述语言 针对不同的需求o w l 有三个子语吉,描述列表如表2 2 所示: 子语言描述例子 o w ll i t e用于提供给那些只需要一个支持基数 分类层次和简单的属性约束的用( c a r d i n a l i t y ) ,只允许 户。 基数为0 或l 。 o w ld l 支持那些需要在推理系统上当一个类可以是多 进行最大程度表达的用户,这里的 个类的一个子类时,它被 推理系统能够保证合理性、计算的约束不能是另外一个类 完备性和可判定性。它包括了o w l的实例。 语言的所有约束,但是可以被仅仅 置于特定的约束下。 o 轷lf u l l 支持那些需要在没有计算保一个类可以被同时 证的语法自由的r d f 上进行最大程表达为许多个体的一个 度表达的用户。它允许在一个本体集合以及这个集合中的 在预定义的( r d f 、o w l ) 词汇表上一个个体。 增加词汇,从而任何推理软件均不 能支持o w lf u l l 的所有特性。 表2 20 w l 子语言 这三种子语言之间的关系是: 每个合法的0 w ll i t e 本体都是一个合法的0 w ld l 本体; 每个合法的o w ld l 本体都是一个合法的o w lf u l l 本体; 每个有效的o w ll i t e 结论都是一个有效的0 w ld l 结论; 每个有效的0 w ld l 结论都是一个有效的0 w lf u l l 结论。 用户在选择使用哪种语言时的主要考虑是: 选择o w ll i t e 还是o w ld l 主要取决于用户需要整个语言在多大程度上给出 了约束的可表达性; 第1 5 页 国防科学技术大学研究生院学位论文 选择o w ld l 还是唧lf u l l 主要取决于用户在多大程度上需要r d f 的元模型 机制( 如定义类型的类型以及为类型赋予属性) ; 在使用o w lf u 儿而不是0 w ld l 时,推理的支持不可预测,因为目前还没有 完全的o w lf u l l 的实现。 这三种子语言与r d f 的关系是: o w lf u l l 可以看成是r d f 的扩展; o w ll i t e 和o w ld l 可以看成是一个约束化的r d f 的扩展; 所有的0 w l 文档( l i t e ,d l ,f u l l ) 都是一个r d f 文档; 所有的r d f 文档都是一个o w lf u 儿文档; 只有一些r d f 文档是一个合法的0 w li t e 和0 w ld l 文档。 0 w l 的语言规范这里不再介绍。具体见参考文献 3 9 4 0 4 1 4 2 儿4 3 。 2 2 4 本体建立方法 本体建立方法主要研究根据一定的结构和步骤建立本体。由于本体工程仍然 处于相对不成熟的阶段,每一个工程都拥有自己独立的方法,没有普遍使用的、 详细的本体建立过程和方法“。到目前为止,本体工程有几种本体建立方法,本 文主要描述其中二种方法: m i k eu s h o l d m i c h e a lg r u n i n g e r 的骨架法“5 1 建立在企业本体基础之上, 是相关商业企业问术语和定义的集合,该方法只提供开发本体的指导方针。“骨 架”法主要有以下主要阶段: ( 1 ) 确定本体应用的目的和范围:根据所研究的领域或任务,建立相应的 领域本体或过程本体,领域越大,所建本体越大,因此需限制研究的范围: ( 2 ) 本体分析:定义本体所有术语的意义及其之间的关系,该步骤需领域 专家的参与,对该领域越了解,所建本体就越完善; ( 3 ) 本体表示:一般用语义模型表示本体。 ( 4 ) 本体评价:按照对本体表示的要求:清晰性、一致性、完整性、可扩 展性,对所建立的本体进行评价。 ( 5 ) 本体的建立:对所有本体按以上标准进行检验,符合要求的以文件的 形式存放,否则转( 2 ) 。 其流程如图2 3 所示: 图2 3 “骨架”法流程图 1 0 1 方法是由斯坦福大学的n a t a l y af n 0 y 和d e b o r a hl m c g u i n n e s s 所 提出“,该方法的步骤如图2 4 所示: 第1 6 页 国防科学技术大学研究生院学位论文 图2 4l o l 方法的步骤 ( 1 ) 确定论域和范围 这一步主要考虑以下一些问题: 本体覆盖的领域是什么; 为什么要使用本体: 本体中的信息用于解决什么类型的问题; 谁将使用和维护这个本体。 ( 2 ) 考虑已有本体的复用 本体的复用可以减少建立本体所需要的工作,特别是对已经在其他应用中使 用的本体或词表的复用,可以提高拟建本体与该应用的交互程度。 ( 3 ) 列举领域中的重要术语 列出该领域所涉及的重要术语,确定什么样的术语才是我们所要讨论的术 语,这些术语都有什么样的特性,是否需要对这些术语作出一定的说明。在这一 步暂时不考虑这些术语是概念还是属性,也不考虑这些术语之间的关系。 ( 4 ) 定义类和类层次 从第三步所得到的术语表中选择可以作为类的术语,只有那些描述可以独立 存在的对象术语才能作为本体的类,并且作为类层次的一个节点。确定类的层次 有三种方法:自顶向下、自底向上、自顶向下和自底向上相结合。 ( 5 ) 定义类的属性 上一步已经从第三步的所得到的术语表中选择了一部分术语作为类,剩下的 术语中大部分是描述这些类的特性的术语,这部分术语就可以作为类的属性。 ( 6 ) 定义属性的约束 属性的约束主要是刻画或限制一个属性的取值的可能范围。常见的属性约束 有三种: 取值类型:指定该属眭值的数据类型; 基数:该属性可以取值的个数; 允许的值:该属性只能在指定的值集合中取值。 ( 7 ) 创建实例 在类层次上选定一个类,给该类的属性赋予具体值,这样就创建了该类的一 个实例。 2 2 5 本体编辑工具 到目前为止,已经出现了许多本体建设工具。根据这些工具所支持的本体描 述语言,大致可以分为两类。 第一类包括o n t 0 1 i n g u a ”1 ,0 n t o s a u r u s 1 ,w e b o n t o 1 等。这三个工具的共 同点是,都基于某种特定的语言( 0 n t o l i n g u a 基于0 n t 0 1 i n g u a 语言,o n t o s a u r u s 基于l 0 0 m 语言,w e b o n t o 基于o c m l 语言) 。 第二类包括p r o t 6 9 6 系列、w e b o d e f s ”、0 n t o e d i t 、o i l e d 3 等。这些工 具最大的特点是独立于特定的语言,可以导入导出多种基于w e b 的本体描述语 第h 页 国防科学技术大学研究生院学位论文 一个属性p 被标记为反函数型的,那么对于所有的x ,y 和z : p ( y ,x ) 与p ( z ,x ) 蕴含y = z 个体 个体就是领域中可以单个识别的具体对象,每一个个体都对应一个类,一个 类可以有很多个体。类是用一组属性来刻画的,当这些属性都取确定的值,这就 形成了一个具体的个体。 关系 关系是领域中概念之间的交互作用。模型中的关系有继承关系、关联关系、 相同关系和不同关系等。 关系可以通过三种方式表达。类的继承关系,可以通过类的层次关系来表现; 类的关联关系,通过类的对象类型属性来表现,例如人员和单位的隶属关系,可 以用人员的一个属性“隶属单位”来表示,该属性的取值范围为“单位”;概念 之间的相同和不同关系,可以直接定义它们相等或不等。 通过这几个建模元语可以完整地表示信息资源管理中信息模型的信息。 在基于本体的信息资源管理活动中,用户可以得到以下的信息: ( 1 ) 信息资源的全局视图 信息模型反映的是组织内信息资源的全局视图,不是某个部门的信息资源的 反映。由于不同部门的人员对信息资源的关注角度不一样,反映的信息也不一样, 例如对于人员信息而言,财务部门关心的是与工资相关的信息,干部部门关心的 是与人员能力和履历相关的信息,卫生部门关心的则是与人员健康相关的信息, 信息模型里的人员信息是所有部门关注信息的全集。信息模型是一个统一的能描 述各部门关心的所有信息资源的模型,通过信息模型可以看到整个组织所关心的 所有信息资源,各个部门也可以看到本部门所关心的信息,不会有遗漏。 ( 2 ) 信息资源的标准数据模型 信息模型反映的是组织信息资源的标准模型,它对数据的类型、取值范围、 数据元状态、信息资源之间的关系以及这些关系所满足的约束都做了定义。软件 开发人员在系统开发过程中需要用到的共享信息在信息模型中有明确的定义。信 息模型使组织内的信息资源术语实现了标准化,各类人员之间交换信息时以规范 化的术语为基础,促使组织内来自各种资源的信息能够更有效地被大家共享。 第2 0 页 国防科学技术大学研究生院学位论文 第三章基于本体的信息资源管理工具与关键技术 根据前面章节的研究,分析了基于本体的信息资源管理工具的用户和功能; 最后研究了工具的相关关键技术。 3 1 基于本体的信息资源管理工具的用户 基于本体的信息资源管理工具是信息资源管理的辅助工具,支持基于本体的 信息资源管理方法、为用户提供便利的系统。基于本体的信息资源管理是围绕信 息模型来实施管理活动的,因此,基于本体的信息资源管理工具也要围绕信息模 型来展开。 基于本体的信息资源管理工具主要面向以下几种用户:知识工程师、信息资 源管理人员、软件开发人员和终端用户。 ( 1 ) 知识工程师 知识工程师是信息模型的创建者,知识工程师创建的信息模型的好坏直接影 响着信息资源管理的效率。知识工程师般要具有知识管理或相关领域学士学位 以上程度,从事本彳亍业两年以上工作经验。知识工程师在创建信息模型时,一般 需要领域专家或者业务人员的配合。 知识工程师的主要职责是依据组织的需要,在领域专家或者组织内的业务人 员的配合下,构建模型中的概念:类、属性和个体,并且确定这些概念之间的关 系,然后将模型用代码表示,让计算机可以阅读。为了完成这些工作,必须要有 工具的支持才行,如果用手工来做的话,不但费时间,而且极有可能出错,因此, 知识工程师需要使用信息资源管理工具编辑模型中的类、属性、个体以及这些概 念之间的关系,而且能自动地将编辑的模型代码化,将编辑好的信息模型存储起 来,方便以后的使用。编辑环境最好是图形化的操作界面,方便用户的使用。 ( 2 ) 信息资源管理人员 信息资源管理人员是信息模型的日常维护者和管理者。由于知识工程师建立 的模型不能满足信息资源管理的要求,信息资源管理人员需要对知识工程师所建 立的模型进行完善;其次,当领域内的信息资源的变更或者业务发生变化时,信 息资源管理人员负责对信息模型做相应的修改:信息资源管理人员还要负责组织 内信息资源的数据元编辑,数据元是是数据共享和共同持有的最小单元,是一种 非常重要的数据类型。信息资源管理人员一般要对组织内的业务比较熟悉,并且 具备一定的知识管理的知识。信息模型的日常维护对于信息模型的应用起着重要 的作用。 信息资源管理人员的主要职责是收集组织中各业务部门对信息的需求,完善 模型中包含的概念,尤其对类的属性及其属性约束进行详细描述,明确概念之间 的关系;根据领域内信息资源的变更和业务的变化,对信息模型进行维护:将完 善的信息模型存储,方便以后的使用;编辑领域内的数据元;将编辑好的数据元 存储,方便以后的使用。 第2 l 页 国防科学技术人学研究生院学位论文 ( 3 ) 软件开发人员 软件开发人员是信息模型的主要使用者之一,软件开发人员在开发信息系统 时,通过该工具了解组织内信息资源的内容,确定信息系统的范围和概念。由于 信息模型清晰地对信息资源概念进行了层次化分类,对信息资源概念的名称、类 型、取值范围和信息资源之间的关系等进行了定义,而且这些术语都是标准化的, 因此,软件开发人员通过查阅信息模型和数据元,可以得到以下的信息: 界定组织包含的信息资源范围 软件开发人员在开发系统时,首先要确定开发系统的信息资源的范围。通过 查阅信息资源管理工具中的信息模型的类概念和属性概念,软件开发人员就可以 知道组织信息资源的范围,根据组织包含的信息资源和应用需求,然后再确定系 统应包含的信息资源。 信息资源之间的关系 软件开发人员在开发系统时,要理清信息资源的之间的关系是很难的。通过 查阅信息资源管理工具中的信息模型的类概念之间的关系,软件开发人员就可以 知道信息之间的输入输出关系。 信息资源的标准命名 软件开发人员在开发系统时,由于没有标准的命名规范,出现了“同名异义”、 “异义同名”的问题,用户很难理解。通过查阅信息模型的属性数据元状态确定 属性是不是数据元,查阅数据元标准确定数据元的具体内容,通过查阅这两个模 型用户就可以确定系统开发的标准术语。 因此,软件开发人员需要通过信息资源管理浏览信息模型的图形化表示,帮 助软件开发人员对信息资源整体概念的把握,查看信息模型,明确信息资源之间 关系,确定哪些是标准数据元;通过信息资源管理工具浏览数据元的图形化表示, 帮助软件开发人员理解数据元的对象词、限定词、特性词和表示词以及它们之间 的关系,查看数据元,确定系统开发时术语的标准命名。 ( 4 ) 终端用户 终端用户指的是组织内各业务部门信息系统的使用人员,终端用户通过信息 模型可以很好地理解组织及其本部门信息资源的概念以及概念之间的关系。对于 信息系统的新使用人员来说,通过查阅信息模型,可以很快地理解信息系统,查 询系统内包含的信息资源。终端用户通过查阅信息资源管理工具中的信息模型, 可以得到以下的信息: 信息模型的全局视图 终端用户可以通过查阅信息模型对所有信息资源的信息描述。 信息模型的子视图 终端用户可以通过查阅信息模型对各个部门信息资源的信息描述。 系统包含的信息资源 终端用户可以通过基于信息模型的共享视图,查询已有系统包含的信息资 源。 因此,终端用户需要通过信息资源管理工具浏览信息模型的图形化表示,帮 助终端用户对信息资源整体概念的把握,查看信息模型中属性的信息提供者,明 第2 z 页 国防科学技术大学研究生院学位论文 确本部门的信息;查询系统内包含的信息资源。 3 2 基于本体的信息资源管理工具的功能 3 2 节分析了信息资源管理工具涉及到的用户,通过对这些用户的研究,可 以知道信息资源管理工具要满足以下的功能( 表3 1 所示) : 知识工程师信息模型编辑 信息模型存储 信息资源管理人员 信息模型完善维护 信息模型存储 数据元编辑 数据元存储 信息资源查询 软件开发人员 信息模型查看 数据元查看 终端用户信息模型查看 信息资源查询 表3 1 信息资源管理工具功能列表 下来详细介绍以下各个功能: ( 1 ) 信息模型编辑功能 信息模型编辑功能是信息资源管理工具的核心和基础,它应该基本满足上文 2 3 节研究的基于本体的信息模型的4 个建模元语,提供图形化的操作界面,满 足知识工程师对信息模型的操作,因此,模型编辑功能应该满足以下要求: a 类编辑 提供图形化的类编辑环境,编辑领域内的信息资源的类概念的名称和类的描 述信息,用图形化的层次结构表示类的继承关系,定义一个类的相同和不同类。 b 属性编辑 提供图形化的属性编辑环境,编辑领域内的信息资源概念的属性名称、属性 之间的关系和属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论