




已阅读5页,还剩53页未读, 继续免费阅读
(地图学与地理信息系统专业论文)基于本体的海洋数据集成方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的海洋数据集成方法研究 摘要 随着海洋科学的发展 我国保存了大量的海洋科学数据 这些数据涉及海 洋科学的各个方面 如海洋物理 海洋生物 海洋化学 海洋气象等许多研究领 域 这些数据被越来越多的不同研究目的的科学团体或个人收集 由于海洋数据 的采集的设备不同 信息处理的平台不同 数据标准不一致 数据存储的格式也 不同 研究目的的不同 这些海洋数据成为异构数据 兼容性 可比性差 利用 率低 这造成了海洋信息资源的极大浪费 为了充分利用这些数据 同时避免数 据资源的重复建设 我们迫切需要对这些异构海洋数据进行集成共享 本体的研究对象是某一领域中所使用的词汇 它定义了组成这些词汇的基 本术语和关系 同样 它也定义了一系列如何将术语与关系组合成词汇的规则 传统的数据集成技术很难解决数据的语义异构 本体对于解决语义异构有着很大 的优势 因此本文利用本体技术来尝试解决海洋数据的语义异构问题 本文首先讨论了当前在数据集成中应用的各类技术 引出本体在解决语义 异构方面的优势 进而详细介绍了本体的概念 本体描述语言 本体分类 重点 研究本体在数据集成方面的关键技术 并以2 个海洋遥感数据源为基础提出了基 于本体的海洋数据集成系统架构 并详细说明了各个层的功能 设计和操作流程 并在此基础上开发了一个测试系统 通过实验和测试 该系统较好地解决了海洋 遥感异构数据的语义异构问题 同时还有较好的可扩展性 可以实现数据源的动 态集成 即增加新数据源时 只需加入对应的局部本体并在全局本体中加入相关 的概念的映射即可 另外 由于所有的数据访问都是通过本体对局部数据源的访 问进行的 所以很好的保证了数据的一致性和实时性 因此 应用本体技术解决海洋数据的异构性 特别是海洋数据的语义异构 对于海洋数据的充分集成和共享 对于提高海洋信息资源的利用率 对于保持数 据资源的一致性 实时性 对于避免大量的数据资源的重复建设都有十分重要的 意义 并且对于用户来说也有着很大的便利性 即用户只需考虑要查询提取的数 据 而不需要考虑哪一个数据源 什么样的数据源 只需要指定想要得到的数据 要求 而不必关注数据的提取 合成等 关键词 海洋数据集成 语义异构 本体 本体映射 本体查询 o n t o l o g y b a s e dr e s e a r c ho nm a r i n ed a t ai n t e g r a t i o nm e t h o d s a b s t r a c t w i 也t h ed e v e l o p m e n to fm a r i n es c i e n c e w eh a v ep r e s e r v e dal a r g en u m b e ro f m a r i n es c i e n c ed a t a w h i c ha r ei n v o l v e di na l la s p e c t so fm a r i n es c i e n c e s u c ha s m a r i n ep h y s i c s m a r i n eb i o l o g y m a r i n ec h e m i s t r y m a r i n ew e a t h e r a n dm a n yo t h e r r e s e a r c ha r e a s s u c hd a t ah a sb e e nc o l l e c t e db ym o r ea n dm o r ed i f f e r e n ts c i e n t i f i c r e s e a r c hg r o u p so ri n d i v i d u a l s b e c a u s et h em a r i n ed a t aw a sc o l l e c t e db yd 证e r e n t e q u i p m e n t w a sp r o c e s s e db yd i f f e r e n ti n f o r m a t i o np r o c e s s i n gp l a t f o r ma n di th a s i n c o n s i s t e n td a t as t a n d a r d s d 疵r e n td a t as t o r a g ef o r m a t d i f f e r e n tp u r p o s et os t u d y t h e s ed a t ah a db e c o m em a r i n e h e t e r o g e n e o u sd a t aw i t hp o o rc o m p a t i b i l i t y c o m p a r a b i l i t ya n dl o wu t i l i z a t i o nr a t e t h i sc a u s e dag r e a tw a s t eo fo c e a n o g r a p h i c i n f o r m a t i o nr e s o u r c e s i no r d e rt om a k ef u l lu s eo ft h e s ed a t a a n dt oa v o i dt h e d u p l i c a t i o no fd a t ar e s o u r c e sb u i l d i n g w eh a v ea nu r g e n tn e e dt oi n t e g r a t ea n ds h a r e t h e s eh e t e r o g e n e o u sm a r i n ed a t a o n t o l o g yi st h ev o c a b u l a r i e su s i n gi naf i e l da n di td e f i n e st h eb a s i ct e r m i n o l o g y a n dr e l a t i o n s h i p sw h i c hc o m p o s e st h e s ev o c a b u l a r i e s e q u a l l y i ta l s od e f i n e sa n u m b e ro fr u l e so nh o wt of o r mt h et e r m i n o l o g ya n dr e l a t i o n s h i p st ov o c a b u l a r i e s t r a d i t i o n a ld a t ai n t e g r a t i o nt e c h n o l o g yi sd i f f i c u l tt os o l v eh e t e r o g e n e o u sd a t a s e m a n t i c s o n t o l o g yh a sg r e a ta d v a n t a g e st or e s o l v i n gh e t e r o g e n e o u sd a t as e m a n t i c s s ot h i sp a p e ru s e so n t o l o g yt e c h n o l o g yt ot r yt or e s o l v et h ep r o b l e ma b o u t h e t e r o g e n e o u sm a r i n ed a t as e m a n t i c s 砸sp a p e rd i s c u s s e dt h ec u r r e n td a t ai n t e g r a t i o nt e c h n o l o g yi nt h ea p p l i c a t i o n a n dt h e ni n t r o d u c e so n t o l o g y s a d v a n t a g e si nr e s o l v i n gt h es e m a n t i co n t o l o g y h e t e r o g e n e o u sa r e a s f u r t h e r m o r et h i sp a p e rd i s c u s s e dt h ed e t a i l so ft h ec o n c e p to ft h e b o d y o n t o l o g yl a n g u a g e o n t o l o g yc l a s s i f i c a t i o n s a n df o c u s e do nt h ek e yt e c h n o l o g y a b o u t 也ed a t ai n t e g r a t i o nu s i n go n t o l o g y d a t ai n t e g r a t i o ns y s t e ma r c h i t e c t u r eb a s e d o no n t o l o g yw a sp r e s e n t e db a s e do ns o u r c e so fm a r i n er e m o t es e n s i n gd a t a f i n a l l y t h i sp a p e rd e s c r i p t st h ed e t a i lo ft h ef u n c t i o no fe a c hp a r t t h ed e s i g na n do p e r a t i o no f p r o c e s s e sa n db a s e do nt h ed a t ai n t e g r a t i o ns y s t e ma r c h i t e c t u r eat e s ts y s t e mw a s d e v e l o p e d t h r o u g he x p e r i m e n t sa n dt e s t i n g t h es y s t e mc a nn o to n l ys o l v et h em a r i n e r e m o t es e n s i n gd a t ah e t e r o g e n e o u sp r o b l e m sw e l lb u ta l s oi n t e g r a t ed a t ad y n a m i c a l l y t h a ti s t oa d dn e wd a t as o u r c e s t h ew o r kj u s tn e e dt od oi sa d d i n gt h ec o r r e s p o n d i n g l o c a lo n t o l o g ya n da d d i n gt h em a p p i n go fr e l a t e dc o n c e p ti n t ot h eg l o b a lo n t o l o g y i n a d d i t i o n s i n c ea l ld a t aa c c e s si st h r o u g ht h el o c a ld a t as o u r c e sv i s i tb yo n t o l o g y s o g o o dd a t ac o n s i s t e n c ya n dr e a l t i m ei sg u a r a n t e e d t h e r e f o r e t h ea p p l i c a t i o no fo n t o l o g yt e c h n o l o g yt os o l v et h eh e t e r o g e n e i t yo f m a r i n ed a t a p a r t i c u l a r l ym a r i n ed a t as e m a n t i ch e t e r o g e n e i t yi so fg r e a ts i g n i f i c a n c e f o rd a t ai n t e g r a t i o na n dt h ef u l ls h a r i n go fi n f o r m a t i o n f o ri m p r o v i n gm a r i n er e s o u r c e u t i l i z a t i o n m a i n t a i n i n gt h ec o n s i s t e n c ya n dr e a l t i m eo fd a t ar e s o u r c e s f o ra v o i d i n g d u p l i c a t i o nb u i l d i n go fd a t ar e s o u r c c s f o ru s e r s i ta l s oh a sg r e a tc o n v e n i e n c e u s e r s o n l yn e e dt oc o n s i d e rf o re x t r a c t i n gd a t a w i t h o u t 也en e e dt oc o n s i d e rw h e r et h ed a t a s o u r c e sa r e w h a tk i n do fd a t as o u r c e sa r c o n l yn e e dt os p e c i f yt h ed a t ar e q u e s t a n d n e e dn o tc o n c c md a t ae x t r a c t i o n d a t as y n t h e s i s a n do t h e rd a t ap r o c e s s e s k e y w o r d s m a r i n ed a t ai n t e g r a t i o n s e m a n t i ch e t e r o g e n e o u s o n t o l o g y o n t o l o g y m a p p i n g o n t o l o g ye n q u i r i e s 独 创 声明 本入声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果 据我所知 除了文中特别加以标注和致谢的地方外 论支中不包含其 他人已经发表或撰写过的研究成果 也不包含未获得 洼 垫遗查基他噩蔓挂型壹盟的 奎拦亘窒2 或其他 教育机构的学位或证书使用过的材料 与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意 学位论文作者盘备 孑衅签字晚矽 罗年厂月降日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 有权保留并 向国家有关部门或机构送交论文的复印件和磁盘 允许论文被查阅和借阅 本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索 可以采用 影印 缩印或扫描等复制手段保存 汇编学位论文 同时授权中国科学技术信息 研究所将本学位论文收录到 中国学位论文全文数据库 并通过网络向社会公 众提供信息服务 保密的学位论文在解密后适用本授权书 导师签字 但 瓣 f u 毕 辞 月 缸 上 多年 名 曙 捌 者 玑 锯 期 掣 1 刘 阳 奶 粹 锄 签 基于本体的海洋数据集成方法研究 1 1 研究背景 1 引言 随着海洋科学的发展 我国保存了大量的海洋科学数据 这些数据涉及海 洋科学的各个方面 如海洋物理 海洋生物 海洋化学 海洋气象等许多研究领 域 这些数据被越来越多的不同研究目的的科学团体或个人收集 由于海洋数据 的采集的设备不同 信息处理的平台不同 数据标准不一致 数据存储的格式也 不同 研究目的的不同 这些海洋数据成为异构数据 兼容性 可比性差 利用 率低 这造成了海洋信息资源的极大浪费 而在信息时代 如何获取海量数据并 从中提取各自需要的信息 如何获取最新的资料 是十分重要的 为解决这一问 题 人们开始关注数据集成研究 数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起 使 用户能够以透明的方式访问这些数据源 1 集成是指维护数据源整体上的数据 一致性 提高信息共享利用的效率 透明的方式是指用户无需关心如何实现对异 构数据源数据的访问 只关心以何种方式访问何种数据 实现数据集成的系统称 作数据集成系统 它为用户提供统一的数据源访问接口 执行用户对数据源的访 问请求 从而实现异构数据的共享 异构数据集成的目的就是提供一个统一的查询接口 屏蔽底层数据源的不 同 使得用户不必再考虑底层数据模型不同 位置不同的等问题 能够通过一个 统一的饿查询界面实现对网络上异构数据源的灵活访问 用户只需要指定想要得 o 到的数据要求 而不必关注数据的抽取 数据的合成等问题 集成系统自动提供 模式转换与集成 全局查询处理等功能 将从多数据源取得的数据以统一的方式 提供给用户 这样就使得对多数据源的操作就像操作一个数据源一样简单 其中 的关键是如何以一种统一的数据模式描述各数据源中的数据 屏蔽他们的平台 数据结构等异构 实现数据的无缝集成 基于本体的海洋数据集成方法研究 1 2 数据集成及国内外研究现状 1 2 1 异构数据概念 异构大致可分为四类 系统 语法 结构和语义 其中系统异构包括硬件 和操作系统 例如 硬件 系统软件 如操作系统 和通信系统之间的差异 语 法异构包括不同的语言和数据表示 结构异构包括不同的数据模型 语义是指数据所代表的概念的含义 以及这些含义之间的关系 是对数据 的抽象或者更高层次的逻辑表示 特别地 在计算机领域中 语义是指用户对于 那些用来描述现实世界的计算机表示的解释 即用户用来联系计算机表示和现实 世界的途径 因此语义异构指在一定领域内专用的词汇意义的共享和交流 由于 不同团体对一定领域事物的认识和表达不同 来自不同数据源关于一定领域的词 汇描述存在着冲突 即横向差异 即使是同一团体 随着时间变化 由于知识水 平得提高或其它原因 对一定领域事物的认识也会有所变化 从而导致在不同时 间产生的关于一定领域词汇描述不一致 即纵向差异 语义异构包括用户信息请 求的语义异构和数据源的语义异构 这些语义异构主要表现在 3 不同的信息源使用多种术语 词汇 表示同一概念 同一概念在不同的信息源表达不同的含义 各信息源使用不同的结构来表示相同 或相似 的信息 各信息源中的概念之间是存在各种联系 但因为各信息源的分布自治性 这 种隐含的关系不能显示出来 海洋领域存在着大量的语义异构现象 造成语义异构的因素主要有 1 海洋科学相对其他科学研究起步较晚 很多概念 公理 公式等还 没得到业界的广泛认可和统一 2 海洋科学具有明显的区域性特征 即使是同一区域 海洋 水文 化学要素及生物分布也是互相各异 多层次性的 适用的海洋规律也是不全一致 3 不同的信息源可能使用多种术语 词汇 表示同一概念 同一概念也 有可能在不同的信息源中表达不同的含义 而且各信息源也可能使用不同的结构 来表示相同 或相似 的信息 4 各信息源中的概念之间是存在着各种联系 但因为各信息源的分布自 治性 这种隐含的联系不能体现出来 对于语义异构问题的解决 用本体的方法 2 基于本体的海洋数据集成方法研究 已逐渐成为共识 并在国内外已有了许多成功的实验和实践 1 2 2 数据集成及国内外研究现状 信息集成技术的研究始于七十年代中期 至今己有二十多年 从一开始的多 数据库集成发展到现在的异构数据源集成 它的范围和作用都在不断扩大 研究 者已提出了很多信息集成的体系结构和实现方案 然而这些方法研究的主要集成 对象是传统的异构数据库系统 a m i t e s e t h t 认为数据源集成的发展可以分为三个 阶段 2 7 0 年代趣0 年代中期 出现的主要技术有多数据库系统和联邦数据库系统 使具有不同软硬件设备的计算机系统进行互连和通信 解决了一定程度上的语法 和结构异构 8 0 年代中期 9 0 年代中期 随着网络的出现 i n t e m e t 的发展及多重类型的数 据的形成 结构化数据库 半结构化数据库 数字多媒体等 出现了支持多种类 型的异构数据集成技术 如中间件技术等 9 0 年代中期 现在 这个阶段比较关注信息源集成过程中的语义异构的解决问 题 更多的运用知识领域的有关技术如本体等来解决数据集成中的各种语义不一 致问题 主要有信息的智能集成 数字化图书馆等 在第一阶段中 多数据库系统和联邦数据库系统的解决方案是将所有的局部 模式一次集成为一个单一静态的全局模式 即将各个数据库之间一一连接 这样 虽然每一个数据源都可以访问其他数据源 但是一个最大的问题就是如果有n 个 数据库 则要写n n 1 个接口的代码来支持相互的查询 因此具有难以加入新 的数据源 难以满足集成用户的多视角查询要求等缺陷 在第二阶段中 中间件技术是比较好的数据集成方法 这种解决方案其实是 一种软件构件 采取三层软件结构 最上层是应用 中间层是 中介器 用以冲 突消解和执行查询 下层是 包装器刀 用以封装和转化局部数据源 它自己不存 储任何数据 而是将用户的查询翻译成一个或者多个数据源的查询 然后将那些 数据源对用户的查询的回答进行综合处理 将结果返回给用户 它通过在中间层 提供一个统一的数据逻辑视图来隐藏底层的数据细节 使得用户可以把集成数据 源看作一个统一的整体 这种模型下的关键问题是如何构造这个逻辑视图并使得 不同数据源之间能映射到这个中间层 3 基于本体的海洋数据集成方法研究 另外 数据仓库技术也是目前比较重要的数据集成方法 它把来自几个数据 源的数据副本存储在单一数据库中 各数据源中的数据按照需要的全局模式从各 个数据源中抽取 并转换 存储在数据仓库中 用户的查询就是对数据仓库中的 数据进行查询 该方法的优点是建立系统的过程很简单 但是由于数据源数据量 大 并且不断变化 因此数据仓库系统面临着初始数据装载和变化后数据更新问 题 如果用户需要实时数据 那么数据即时更新的效率就会影响系统的可用性 数据更新的问题成为该方法的最大弊端 对于第三阶段 主要是针对前面的技术对于解决数据集成中的系统 语法 结构的异构应该是比较成熟的解决方法 但是对于语义异构却显得无能为力 各 研究机构主要关注如何使用本体表达较强概念语义的优势来解决数据集成中的各 种语义不一致问题 语义方法的主要特点是扩展性好 适应动态数据源 支持语 义级的查询 使用本体作为语义层的集成手段 其缺点是比较复杂 比如本体的 创建领域专家建模 概念提取 概念分类等相关处理 目前本体应用在w e b 信息集成中的最有代表性的项目有 o n t o 2 a g e n t o n t o b r o k e r 和s k c 这三个项目也代表三个不同的应用方向 3 o n t o 2 a g e n t 的目标是为了帮助用户检索到所需要的嗍上已有的本体 其主要思想是采用参照本体 r e f e r e n c eo n t o l o g y 来引导用户定位所需要的本 体资源 参照本体是以w w w 上已有的本体作为对象建立起来的本体 它保存有各 类本体的元数据 参照本体与本体之间的关系类似于数据与元数据之间的关系 o n t o b r o k e r 面向的是w w w 上的网页资源 其目标是为用户检索到所需要的网 页 这些网页含有用户所关心的内容 其基本思想是在网页中加入预先定义好的 本体标识 基于h t m l 或x m l 由w r a p p e r 收集这些标识并保存在数据库中 s k c 是s t a n d f o r d 大学正在开展的一个项目 其目标是解决信息系统中的语 义异构问题 实现异构自治系统之间的互操作 国内对本体论的研究已有若干年 主要有信息检索 产品信息建模 虚拟企业 建模 常识知识库等方面 如中国科学院计算技术研究所大规模知识系统的研究 中国科学院数学研究所常识知识库的研究 浙江大学人工智能研究所基于本体论 的产品信息集成研究等 4 在文献中张凯等在 基于本体集成的资源共享平台 中把本体作为知识共享 4 基于本体的海洋数据集成方法研究 的工具 提出了一个基于本体集成的资源共享平台实现方法 并且在其中对本体 集成过程中的不一致检查 处理问题和概念层次统一的问题进行了讨论 邓志鸿 等在文献 面向语义集成一本体在w e b 信息集成中的研究进展 中提出了一种本体 在w e b 信息集成中一种简单的体系结构 另外少数学者在地理信息方面开展了一 些探索性的思考和研究 发表了一些论文 比如 地理信息本体论 孙敏 陈秀 万 张飞州 2 0 0 3 基于o n t o l o g y 的空间知识查询方法及其应用 王敬贵 苏 奋振 杜云艳等 2 0 0 4 用地理本体实现地理信息互操作 崔巍 2 0 0 4 基 于本体和w e b 技术的地理信息系统集成研究 崔巍 2 0 0 4 等 1 3 研究内容 本文对目前国内外发展动态进行资料收集和总结 对比现有的数据集成 技术 分析基于本体的数据集成的特点 重点研究了基于本体的数据集成过 程中的本体建模 本体映射 本体查询三个方面的关键 并在此基础上设计 了海洋遥感数据集成系统 给出了框架体系结构和各模块的功能 并实现了 其中关键部分模块 1 4 论文结构 第一章首先分析了本论文的研究背景和研究意义 然后综合评述了国内外的 数据集成的现状 阐述了本论文的主要研究内容和结构安排 第二章研究了什么是本体 本体的分类 本体描述语言 本体在解决语义异 构中的优势 最后探讨了3 中基于本体的数据集成方法 第三章研究了基于本体的数据集成关键技术 首先研究了本体构建方面的本 体构建规则 本体建模元语 本体建模语言 本体构建方法 本体构建工具等 然后从概念 方法 语法三个方面研究了本体映射 最后研究了本体查询语言 本体查询过程等 第四章根据前面所研究的内容 结合具体数据 建立了一个基于本体的海洋 数据集成测试系统 从实践上证明了本体解决语义异构的优势 第五章总结与展望 对已完成的研究工作进行总结 对下一步的研究工作进 行展望 5 基于本体的海洋数据集成方法研究 2 1 本体概念 2 本体与数据集成 本体论 o n t o l o g y 是一个哲学概念 最早出现于1 6 世纪后期 由德国经院 学者郭克兰纽 1 5 4 7 1 6 2 8 在其著作中第一次提出和使用了o n t o l o g y 词 桑 新民 1 9 9 3 o n t o l o g y 来源于希腊文o n t 和o l o g y 前者是 存在 的意思 等于 英文的 b e i n g 一词 后者是 科学 或 学问 的意思 因此o n t o l o g y 就是指 关于 存在 的科学 即关于 存在 本质 t h en a t u r eo fb e i n g 的哲学理 论研究 是对客观存在的一个系统解释或说明 关心的是客观现实的抽象本质 属于形而上学理论 m e t a p h y s i c s 的分支 与认识论 e p i s t e m 0 1 0 9 y 和方法 论 m e t h o d o l o g y 共同构成哲学的三大基本问题 作为计算机或信息科学领域的专业术语 本体 o n t o l o g y 一词最早由人工 智能界引入 n e c h e s 等 1 9 9 1 最早在a i 领域使用 本体一这个术语 并将本体 定义为 构成某个问题领域词汇的基本术语和关系以及组合这些术语和关系以规 定词汇外延的各种规则 g r u b e r 是将本体方法用于信息科学的先锋之一 他 将本体定义为 概念模型 c o n c e p t u a l i z a t i o n 明确的规范说明 g r u b e r 1 9 9 3 经过十多年的讨论 目前计算机学界对什么是本体还存在分歧 但大多 数学者普遍认可了g r u b e r 的定义 但也有学者认为g r u b e r 的定义过于宽泛以至不 利于实际应用 因此b o r s t 在其博士论文中强调概念模型必须是公共认可的和形 式化的 这样有利于本体的共享和重用及计算机处理 并将本体定义为 共享概 念模型的形式化规范说明 b o r s t 1 9 9 7 s t u d e r 等在对本体做了深入研究 后 综合了上述两个定义的优点 提出了一个被广泛接受的定义 即 本体是共 享概念模型的明确的形式化规范说明 该定义包括四层含义 概念模型 明确 形式化 共享 概念模型 指客观世界的现象的抽象模型 通过抽象出客观世界中的一些 现象的相关概念得到的模型 其含义独立于具体的环境状态 明确 指概念及它们之间的联系都被精确定义 所使用的概念及使用这些 6 基于本体的海洋数据集成方法研究 概念的约束都有明确的定义 形式化 精确的数学描述 指本体是计算机可读的 即能被计算机处理 共享 本体中反映的知识是其使用者共同认可的 指本体体现的是共同认 可的知识 反映的是相关领域中公认的概念集 针对的是社会范畴而非个体之间 的共识 表2 1 列出了本体概念的发展 表2 1 本体概念的发展 范畴提出时间 提出入定义 客观存在的一个系统的解释和说明 客 哲学 观现实的一个抽象本质 1 9 9 1 n e c h e s 等给出构成相关领域词汇的基本术语和 关系 以及利用这些术语和关系构成的规定 计算机 这些词汇外延的规则的定义 1 9 9 3 g m b e r 概念模型的明确的规范说明 1 9 9 7 b o r s t共享概念模型的形式化规范说明 1 9 9 8 s t u d e r共享概念模型的明确的形式化规范说明 本体的研究对象是某一领域中所使用的词汇 它定义了组成这些词汇的基本 术语和关系 同样 它也定义了一系列如何将术语与关系组合成词汇的规则 一 个本体其实就是一套关于某一领域的规范而清晰的描述 它包含类 有时也被称 作概念 每一个概念的属性描述了有关概念的各种特征和属性 还有属性的限制 条件 一个完整的本体还要包含一系列与某个类相关的实例 这些实例组成了一 个知识库 本体的目标是捕获相关的领域知识 提供对该领域知识的共同理解 确定该领域内共同认可的词汇 并从不同层次的形式化模式上给出这些词汇 术 语 和词汇之间相互联系的明确定义 通过概念之间的关系来描述概念的语义 图2 1 用一个简单的有向图 概念图 来表示一个海洋科学调查船的本体 李海 涛 2 0 0 7 7 基于本体的海洋数据集成方法研究 2 2 本体分类 图2 1 海洋科学调查船的本体 为了对本体进行有效的分类 g u a r i n o 在文献 5 中提出以详细程度和领域依 赖度两个维度作为对本体划分的基础 详细程度是相对的 较模糊的一个概念 指描述或刻画建模对象的程度 详细程度高的称作参考本体 详细程度低的称为 共享本体 依照领域依赖程度 可以细分为顶级 领域 任务和应用等4 类 顶级本体 描述的是最普遍的概念及其概念之间的关系 如空间 时间 行为 事件等 与具体的应用无关 其它的本体均为其特例 领域本体 描述的特定领域 海洋 机械等 中的概念及概念之间的关系 任务本体 描述的是特定任务或行为中的概念及概念之间的关系 应用本体 描述的是依赖于特定领域和任务的概念和概念之间的关系 2 3 本体描述语言 本体的目的是使信息成为机器可理解的 本体的广泛运用需要一个重要的先 决条件 即一个描述本体并使得它们能够进行信息交换的语言标准 本体语言使 得用户为领域模型编写清晰的 形式化的概念描述 因此它应该满足以下要求 6 1 良好定义的语法 aw e l l d e f i n e ds y n t a x 2 良好定义的语义 aw e l l d e f i n e ds e m a n t i c s 3 有效的推理支持 e f f i c i e n tr e a s o n i n gs u p p o r t 8 基于本体的海洋数据集成方法研究 4 充分的表达能力 s u f f i c i e n te x p r e s s i v ep o w e r 5 表达的方便性 c o n v e n i e n c eo fe x p r e s s i o n 从w 3 c 到美国和欧洲的科研基金 大量的研究工作者活跃在该领域 因此 诞生了许多种本体描述语言 有r d f 和r d f s o w l o n t o l i n g u a 等 下面叙述 与本文有关的两种r d f 和o w l 2 3 1r d f r d f 是由全球资讯网协会 w 3 c 主导和结合多个元数据团体 如都柏林核 心集等 所发展成的一个架构 因为w 3 c 先前曾致力发展一个元数据 p i c s 因此r d f 受到p i c s 很深的影响 在语法上则遵循另一个w 3 c 致力推广的架构一 x m l 由于目前x m l 已受到业界广泛的支持 如浏览器的两大霸主n e t s c a p e 和 i n t e m e te x p l o r e 都己经各自制作了使用x m 啪式的元数据规格 因此 讧l 和 r d f 的发展可说是备受关注 基本的r d f 是一个与任何特定语法无关的抽象的表述模式 r d f 模型的基 础要素是三种类型的对象 1 资源 r e s o u r c e s 它标识实际的以网络为基础的资源 比如网页和网络应 用程序 统一资源标识符 t j l u 用来标识资源 每一个u r i 指向一个特定的网页 或网络应用程序 可以用r d f 模型里的u r i s 来指向被描述的资源 2 属性 p r o p e r t i e s 指定特定资源的属性或特性 3 声i j y s t a t e m e n t s 是资源和属性的下一级延伸 每个r d f 声明用 虹来表述 结合了u r i s 和属性的声明用r d 聊l 语法来 序列化 序列化是把r d f 模型包装为一系列x m l 声明的处理过程 每个声明通 过标识资源和被描述的特性提供了网络资源的描述 如将描述同一个资源的众多 特性的有序对集结起来 即成为r d f 的声明 总之 r d f 规范用来生成网络资源的描述 这些资源使用对象模型被描述 为资源 属性和声明 属性和资源可以聚合到容器 c m t a i n e r 中 容器由一系列 的特性和资源组成 r d f 描述使用r d f x m l 规范被序列化并作为x m l 来传输 r d f 虽然具有如上许多优点 但它所提供的建模元语却非常基础 只是提供 了一个模型 因此需要对其作进一步扩展 r d fs c h e m a 在r d f 基础上增加了许 多语义元语 用来更进一步增加对资源语义上的描述能力 如类 属性 类和属 9 基于本体的海洋数据集成方法研究 性之间的隶属关系等 1 核心类 包括r d f s r e s o u r c e r d f p r o p e r t y 以及r d f s c l a s s 2 核心特性 包括r d f t y p e r d f s u b c l a s s o f f r 口r d f s u b p r o p e r t y o f 3 核心约束 包括r d f s c o n s t r a i n t r e s o u r c e r d f s c o n s t r a i n t p r o p e t y r d f s r a n g e 和r d f s d o m a l n 这些描述机制是单纯的r d f 所不具备的 r d fs c h e m a 提供了r d f 模型中使用 的一个基本类型系统 但是从r d f s 的原语上 r d f s 的表达能力还是非常有限 2 3 2o w l o w l 己经成为w 3 c 的推荐标准语言 o w l 全称w e bo n t o l o g yl a n g u a g e 是 从欧美一些研究机构的一种结合性的描述语言d a m l o i l 发展起来的 o w i 对 于客观世界的描述主要从概念和属性两个方面进行 与其对应的描述手段是面向 对象域的方式和面向数据类型域的方式 o w l 提供了三种表达能力递增的子语言 以分别用于特定的实现者和用户团 体 o w ll i t e o w ld l o w lf u l l o w ll i t e 用于提供给那些只需要一个分类层次和简单约束的用户 例如 虽然o w ll i t e 支持支持基数限制 但只允许基数为0 或1 提供支持o w ll i t e 的 工具应该比支持表达能力更强的其他o w l 语言更简单 并且从辞典和分类系统 转换到o w ln t e 更为迅速 o w l d l 支持那些需要最强表达能力的推理系统的用户 且这个推理系统能 够保证计算的完全性 c o m p u t a t i o n a lc o m p l e t e n e s s 即所有的结论都能够保证被 计算出来 和可判定性 d e c i d a b i l i t y 即所有的计算都在有限的时间内完成 它包括了o w l 语言的所有成分 但有一定的限制 如类型的分离 一个类不能 同时是一个个体或属性 一个属性不能同时是一个个体或类 o w ld l 旨在支 持已有的描述逻辑商业处理 b u s i n e s ss e g m e n t 和具有良好计算性质的推理系统 o w lf u l l 支持那些需要尽管没有可计算性保证 但有最强的表达能力和完 全自由的r d f 语法的用户 例如 在o w l f u l l 中 一个类可以被同时看为许多个 体的一个集合以及本身作为一个个体 另外一个和o w ld l 的重要区别是 o w l d a t a t y p e p r o p e r t y 数据类型属性 能作为一个o w l h v e r s e f u n c t i o n a l p r o p e r t y 逆函数型属性 o w l f u l l 允许一个本体增加预定义的 r d f o w l 词汇的 1 0 基于本体的海洋数据集成方法研究 含义 这样 不太可能有推理软件能支持对o w l f u l l 的所有成分的完全推理 在表达能力和推理能力上 每个子语言都是前面的语言的扩展 这三种子语言之 间有如下关系成立 但这些关系反过来并不成立 每个合法的o w ll i t e 本体都是一个合法的o w ld l 体 每个合法的o w l d j j g 体都是一个合法的o w l f u l l 本体 每个有效的o w l l i t e 结论都是一个有效的o w l d l 结论 每个有效的o w l d l 结论都是一个有效的o w lf u l l 结论 使用o w l 的本体开发者要考虑哪种语言最符合他们的需求 选择o w ll i t e 还是o w ld l 主要取决于用户在多大程度上需要o w ld l 提供的表达能力更强 的成分 o w l l i t c 的推理机会有良好的计算性质 而o w l d l 的推理机处理的尽 管是一个可判定的子语言 会有更高的最坏情况复杂度 选择o w ld 斑是o w l f u l l 主要取决于用户在多大程度上需要r d f 的元模型机制 如定义关于类的类 使用0 w lf l d l 相比于o w l d l 对推理的支持是更难预测的 t h eo n t o l o g yl a n g u a g es t a c k 图2 2 本体描述语言s t a c k r d f 和o w l 都是w 3 c 的推荐标准 从语言描述能力来看 r d f 只定义了 一些基本的类 属性以及层次关系 而o w l 建立在r d f s 之上 利用r d f s 提供的便利机制 并加入更强大的语义表示能力对x m l 数据进行表述 从针对r d f 和o w l 的查询语言来看 基于r d f 上的r d q l 查询语言较为成熟 基于本体的海洋数据集成方法研究 r d q l 具有类似s q l 的语法 具有较强的查询构造能力 而对于o w l 由于 o w l 的原语比较复杂 目前的查询语言o w o q l 不是很完善 并且由于o w l 的建模语言比较复杂 实现数据源到本体的映射将变得异常复杂 r d f 相对于o w l 推理能力较弱 而利用本体进行不同数据源的集成不需要 太多的推理 2 4 本体解决语义异构的优势 本体解决数据集成中语义异构的优势在于 本体通过概念或类的明确说明 可以避免术语使用上的混乱和歧义 因而可以解决认知和命名这两种语义异质性 杜云艳 2 0 0 5 通过综合各局部d b m s 所建立的不同应用本体来建立一个定义 良好的领域本体 由此产生全局概念模式 即建立了一个丰富的 预定义的词汇 库 可以作为与数据源的稳定的概念接口 并独立于数据模式 从而实现异构系 统的语义互操作 它通过对概念的严格定义和概念之间的关系来确定概念的精确 含义 从一个概念出发可以根据一系列的规则推导出另一个概念 从而能够表示 共同认可的 可共享的知识 使不同的数据源或不同的用户达成一致 实现数据 的集成和共享 在数据库领域里 可以把 本体 看成是对局部领域的概念描述和相互 关系的一种规范 现有一些传统方法都很难对异构数据在语义上的差异进行较 好的解决 而本体通过建立某个领域的知识体系结构 对领域内的概念 规范 规则进行详细而显式的说明 可以屏蔽底层数据在语义上的差别 因此本体在 信息集成中主要起 知识库一的作用 一个本体域可以为一群用户设计一个一 致的存储结构 通过数据匹配机制达到实例化 此时并不要求数据源的数据结 构和本体库结构的一致性 在数据集成过程中 抽取了不同数据源的元数据方 案后 集成处理程序可以通过与本体知识库的交互 实现对元数据概念中语义 信息的辨别和联系 另外 本体也有利于提高数据的查全率与查准率 传统数据库的查询大 多基于关键字的匹配技术 主要借助于目录 索引和关键字技术 这样的方法 虽然简单 灵活 但具有一定的缺点 由于许多用户并不知道数据库的内部结 构 并且对领域知识的表达可能不够完备 因此他们对查询关键字的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025新版人教版二年级上册语文课程优化计划
- IT企业财务部2025年上半年总结及下半年计划
- 五金故事传播活动创新创业项目商业计划书
- 新苏教版四年级科学教学资源整合计划
- 食品毕业设计
- 三年级语文下册线上教学心理疏导计划
- 高校水彩画社团秋季活动计划
- 做四有好老师教育技术融合心得体会
- 社区健康教育教学体系构建
- 金融科技企业估值模型与投资决策案例分析报告(2025年)
- 张克非《公共关系学》(修订版)笔记和课后习题详解
- 货车转让不过户合同协议书
- 化工自动化仪表 选择题805-1556
- GB/T 7631.14-1998润滑剂和有关产品(L类)的分类第14部分:U组(热处理)
- GB/T 4604-2006滚动轴承径向游隙
- GB/T 12008.2-2010塑料聚醚多元醇第2部分:规格
- 既有住宅适老化改造项目可行性研究报告书
- 公司网银盾交接单
- 施工人员安全教育培训课件
- 建筑施工项目成本费用分析手册
- 电磁干扰及防护课件
评论
0/150
提交评论