(计算机应用技术专业论文)基于数据集成中本体自动构建的研究.pdf_第1页
(计算机应用技术专业论文)基于数据集成中本体自动构建的研究.pdf_第2页
(计算机应用技术专业论文)基于数据集成中本体自动构建的研究.pdf_第3页
(计算机应用技术专业论文)基于数据集成中本体自动构建的研究.pdf_第4页
(计算机应用技术专业论文)基于数据集成中本体自动构建的研究.pdf_第5页
已阅读5页,还剩90页未读 继续免费阅读

(计算机应用技术专业论文)基于数据集成中本体自动构建的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e m e t 的飞速发展,信息技术在各行各业的广泛应用,人们 迫切需要将大量异构的数据集成为一个整体以进行分析处理。数据集 成的目的正是用于解决数据源异构这一问题。 当前,制约数据集成的一个主要问题是数据源的语义异构问题。 o n t o l o g y 是共享概念模型的形式化规范说明,对解决数据集成中的语 义异构问题具有重要的作用。目前本体的构建都是由领域专家手工编 辑而成,其存在工程复杂、过分依赖专家、构建速度慢、术语表达不 精确等缺点。如何进行自动或半自动的本体构建,减少对专家的依赖 性,加快本体构建速度,成为当前本体研究的热点。 本文首先介绍了数据集成中存在的问题和本体的相关知识,总结 了现有的基于本体的数据集成方法。然后,作者分析了现实中本体构 建过程中的难点问题。在对本体自动构建的三种方法进行分析比较之 后,作者提出了一种基于词典的本体自动构建方案,其包括基于词典 的概念发现、基于词典的关系发现和基于词典的术语描述三个过程。 针对中南大学信息港数据集成项目背景,作者设计并开发了一个本体 半自动构建的系统原型,其以知识挖掘为手段,通过本体引用、本体 抽取、本体净化、本体提炼四个步骤,不断循环,螺旋上升,逐步实 现领域本体的自动完善。实验结果表明,基于词典的本体自动构建模 型对概念发现、关系发现、术语描述方面具有较好的功能效果,自动 构建出的本体与经专家修正后构建的本体误差比较小。 论文最后对原型系统实现过程中的研究与开发工作进行了总结, 并阐述了将来进一步对该系统进行扩充与完善的一些工作 关键词本体,本体构建,数据集成,知识挖掘,概念相关度 a b s t r a c t a st h ed e v e l o p m e n to fi n t e m e ta n dw i d e l yu s i n go fi n f o r m a t i n t e c h n o l o g yi na l l t h e f i e l d s ,p e o p l e a r ea n x i o u st o i n t e g r a t ea l lt h e h e t e r o g e n e o u s d a t ai n t oo n eu n i o n f o r m sw h i c hc a nb eu s e d c o n v e n i e n t l y t h ea i m so f d a t ai n t e g r a t i o ni sj u s tf o r i t i nt h ec u r r e n t ,s e m a n t i ch e t e r o g e n e o u si sa b i gt r o u b l ef o rd a t a i n t e r g r a t i o n o n t o l o g y i sa l l e x p l i c i tf o r m a ls p e c i f i c a t i o no fh o wt o r e p r e s e n tt h eo b j e c t s ,c o n c e p t sa n do t h e re n t i t i e st h a ta r ea s s u m e dt oe x i s t i ns o m ea r e ao fi n t e r e s t i ti s i m p o r t a n tf o rr e s o l v i n gt h es e m a n t i c h e t e r o g e n e o u s i nt h ec u r r e n t ,m o s to ft h eo n t o l o g i e sa r eb u i l tb yt h eh a n d s o ft h ee x p e a s t h e r ea r es o m ep r o b l e m si ni t , s u c ha sc o m p l e x i t yo ft h e p r o j e e t , s t r o n g l yd e p e n d i n g o nt h e e x p e r t s , t o o s l o wf o r b u i l d i n g o n t o l o g y , t h eu n c l e a rt e r m s h o wt ob u i l do n t o l o g i e sa u t o m a t i c a l l yo r s e m i a u t o m a t i c a l l y , r e d u c i n gt h ew o r ko ft h ee x p e r t sa n ds p e e d i n gu pt h i s p r o c e si sah o t - p o i n tf o rp e o p l e i nt h i sp a p e r , w ei n t r o d u c e dt h ep r o b l e m so fd a t ai n t e r g r a t i o na n dt h e r e l a t i v ek n o w l e d g ea b o u to n t o l o g ya tf i r s t a l s ow es u m u pa l lt h ew a y si n d a t ai n t e g r a t i o nw h i c hb a s e do no n t o l o g y t h e nw ea n a l y z et h ec u r r e n t p r o b l e m si nt h ep r o c e s so fo n t o l o g yb u i l d i n g a f t e rt h ec o m p a r a t i o n a m o n g t h et h r e ew a y so fa u t o m a t i c a l l yb u i l d i n go n t o l o g i e s , w eb r i n go u ta n e wm e t h o dt ob u i l do n t o l o g ys e m i a u t o m a t i c a l l yb a s e do nd i c t i o n a r y , w h i c hi n c l u d e st h r e es t e p p s ,c o n c e p t sf i n d i n gb a s e do nd i c t i o n a r y , r e l a t i o n s f i n d i n gb a s e do nd i c t i o n a r ya n dt e r m sd e s c r i b i n g f o rt h ed a t ai n t e g r a t i o n p r o j e c to fi n f o r m a t i o np o r to fc s u , w ed e s i g n e das y s t e mt ob u i l d o n t o l o g i e ss e m i a u t o m a t i c a l l y i t u s e st h e t e c h n o l o g y o f k n o w l e d g e m i n i n g ,p r o c e e d i n gt h r o u g ho n t o l o g yi m p o r t ,e x t r a c t i o n ,p r u n n i n g , r e f m e m e n tc i r c u l a r l y , d e v e l o p p i n gt h ed o m a i no n t o l o g yb yt h ew a yo f h e l i x t h er e s u l to ft h ee x p e r i m e n ts h o w st ou st h a tt h i ss y s t e mc a l lm a k e a g o o c tf u n c t i o na b o u tt h ef m d i n go fn e wc o n c e p ta n dt h er e l a t i o n s b e t w e e nt h ec o n c e p t s ,t h ed e s c r i p t i o no ft h et e r mg o o d ,a n dt h eo n t o l o g y w h i c hi sb u i l ta u m a t i c a l l yh a sl i t t l ed i f f e r e n c et ot h a tw h i c hi sm o d i f i e d b yt h ee x p e r t s f i n a l l y , t h ep a p e rs u m su pt h ew h o l er e s e a r c hw o r ka n dd i s c u s s e s h o wt oi m p r o v et h es y s t e mi nt h ef u t u r e k e y w o r d s o n t o l o g y ,o n t o l o g yb u i l d i n g ,d a t ai n t e g r a t i o n ,k n o w l e d g e m i n i n g ,c o n c e p ts i m i l a r i t y n i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的成果。尽我所知,除论文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 中南大学或其他单位的学位或证明而使用过的材料。与我共同工作的 同志对本研究所作的贡献已在论文的致谢语中作了明确的说明。 作者签名:么茎! 曼日期:三丝年竺月壁日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文; 学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:查塑t 导师签魁日期:域年卫月日 | 中南大学顾士学位论文第一章绪论 1 1 课题来源及背景 第一章绪论 随着i n t e r a c t 的飞速发展,信息技术在各行各业的广泛应用,人们迫切需要 将大量异构的数据统一成一个整体以进行分析处理。数据集成的目的正是用于解 决数据源异构这一问题。 数据源异构体现为结构异构和语义异构u j 。结构异构指数据源表达数据的结 构存在差异,目前广泛使用的结构有表、对象、文件等。结构异构解决的方法比 较容易。只要建立一个统一的数据结构形式并遵从这个标准就可以了。语义异构 区分为两种类型:一种类型指相同数据在不同数据源中的表现形式存在差异( 属 性名、数据格式和类型) ;另种类型指由于数据维护错误导致的同一数据项在 不同数据源中有不同值。由于计算机不具有像人一榉的语义理解熊力,所以语义 异构问题相对来说比较难以解决。 o n t o l o g y 作为一种能在语义和知识层次上描述信息系统的概念模型和建模工 具,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得 到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和w 曲上异构 信息的处理、语义w 曲郇】等。o n t o l o g y 是共享概念模型的形式化规范说明,通 过概念之间的关系来描述概念的语义【h 】它是通用意义上的概念定义集,是关 于种类和关系的词汇表。这种词汇表,是在各秘事务代理人之间交换意见时所用 到的共同语言。这就为人与人之间或组织与组织之间的通讯提供了共同的词汇, 实现了某种程度的知识共享和重用,同时为机器能自动理解语义提供最根本的支 持。本体的引入,为解决数据集成中的语义异构问题提供了一条新的思路。 本课题的研究是以中南大学信息港的数据集成系统改造项目为背景。中南大 学信息港是以校园网为平台、各部门的应用系统为基础,对全校的各类信息进行 管理和实时查询,实现对学校的人、财、物等各种资源进行有效利用和控制通 过校园信息港,可以对学校基本情况、教学信息、科研信息、管理信息、财务信 息、设备资产信息等各类信息进行融合,实现多层次,多角度、多粒度的查询。 它是横跨三校区校园网的中南大学信息服务平台,对提高中南大学信息化建设水 平,提高我校综合实力具有重要的影响 中南大学信息港原数据集成系统采用x m l 技术较好的解决了数据集成中的 结构异构问题,但对于语义异构问题,并没有提供较好的解决方案,语义异构的 中南大学硕士学位论文 第一章绪论 解决完全依赖于管理员的人工参与:在模式集成时,针对不同的模式异构,管理 员采用不同的策略进行消除;在消除模式异构得到全局模式后,仍然由管理员手 工来定义全局模式与输出模式之间的映射以及输出模式之间的连接条件。如此一 来,虽然整个数据集成系统对用户而言是完全透明的,但对管理员的要求较高, 管理员必须了解各数据源的结构和内容,管理员的负担较重。因此,我们迫切希 望找到一种自动或半自动方法来完成模式集成,从定程度上减轻管理员的负 担。本体( o n t o l o g y ) 作为“概念的精确化描述”,用于描述一定领域的概念以及概 念之间的关系,比较适合解决数据集成中的语义异构问题。中南大学信息港数据 集成系统的改造工程,我们准备以基于本体的数据集成方式进行,利用本体解决 数据集成中的语义异构问题,并通过本体方便原有系统中智能软体( a g e n t ) 的 信息处理。整个改造过程研究的关键技术有:本体自动构建的研究、本体自动映 射的研究和基于本体的智能软体信息查询优化的研究。我们的本体自动构建研究 就是中南大学信息港数据集成系统基于本体的数据集成模式研究的个基础点, 也是一个关键点。 1 2 课题研究现状 当前本体构建,大都是由领域专家使用本体编辑工具手工编辑而成。目前已 有的o n t o l o g y 编辑工具有不少,基于a i 的本体描述语言的一类工具有: o n t o l i g u a 【6 、o n t o s a u r u s 7 1 、w e b o n t o s ,基于w e b 的本体描述语言的一类工具 有:p r o t :9 6 【9 】、w e b o d e 1 0 1 、o n t o e d i d l ”、o i l e d 12 1 。 领域专家通过使用本体编辑工具进行本体构建,其存在工程复杂、专家依赖 性强、本体构建速度慢、本体术语描述不精确等缺陷。这极大的限制了本体的发 展。 当前,国内外许多研究团体正在致力于本体的自动构建方法的研究。 s c a s t a n 0 1 5 7 1 提出了通过解析x m ls c h e m a 文件,如d t d ,d s d ,x m ls c h o n l a 等,进而抽取x m l 文件中的概念,以此构建本体;p a t r i c kc i e r k i n 等【5 8 1 提出通 过层次聚类,发现其中概念,进而构建本体:s o p h i el em o i g n o 等【5 9 l 针对特定的 领域一一医疗领域中的医疗诊断书,根据医疗诊断书中的动名关系、句法上下文 关系,再辅以词频统计,进行概念和关系诊断,以此来构建本体;a d a m f a r q u h a r 等提出了通过合并已有本体来自动产生新的本体的设计模型。 综合总结现有的本体自动构建方法,大致有三种思路:自顶向下法、自底向 上法、中间扩展法。三种方法有同性,也各具特色。然而,这三种方法也仅仅只 为人们提供了一种本体自动构建的大致思路。在本体的自动构建实际工作中,其 实还存在着很多的细节问题需要解决。 2 中南大学硕士学位论文 第一章绪论 实际上,对本体自动构建的研究还只是早期阶段,国外很多科研机构正在探 寻本体自动构建的方法和设计模型。国内对于本体研究起步比较晚,但是令人非 常高兴的是,国内现有一大批人正在致力于本体的研究工作,而且有相当多的一 部分人正对本体自动构建产生浓厚的兴趣。 1 3 课题研究意义 本体技术在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、 软件复用、信息检索和w e b 上异构信息的处理,语义w e b 等。目前国内很多科 研企业已经将本体应用到了实际工程中,如陈晓明等开发的o h d e s 是一个基于本 体模型建立其的流通企业协作系统1 6 1 1 ,朱礼军等开发的a o s 系统是一个农业本 体服务系统1 6 2 1 。 本体构建的好坏,直接影响到这些应用过程。当前的本体建模过程都是人工 编辑而成,工程复杂,对领域专家的依赖性很强,构建速度慢,人为主观因素多, 本体术语的描述并不是很精确。而且,现有的本体建模工具都是国外科研机构开 发而成,不支持中文本体的建模,使得构建中文本体更加麻烦。如何进行本体的 自动构建,减少对领域专家的依赖性,加快本体构建速度,成为国内外科研人员 关注的焦点。而且,对于国内研究机构来说,设计一个能支持中文本体建模的工 具更是迫在眉睫 同时,本课题以中南大学信息港数据集成项目为背景,为其基于本体的数据 集成研究奠定基础。中南大学信息港需要集成多个业务平台的数据,实现全校各 类信息的集中管理与实时查询。原有的数据集成模式不能时刻更新,对管理员的 业务熟悉程度要求比较高,极大的阻碍了工程的维护与发展。本课题就是要探寻 一种能够自动或半自动本体构建方案,减少本体建模过程中领域专家的工作量, 加快本体构建速度。 本课题的研究,从现实意义来说,可以为中南大学信息港数据集成系统改造 工程项目提供支持作用;从理论意义来说,可以为本体技术在应用工程中的发展 提供一定的理论支持作用。总的来说,本体的自动构建研究,其具有比较深远的 价值。 1 4 论文结构安排及主要内容 本文首先对本体的相关知识进行了介绍,包括本体的定义、分类、建模语言、 描述语言、编辑工具等。然后我们分析了数据集成的难点问题语义异构问题。 本体是对领域概念及其关系的精确性描述,其提供的领域术语能够方便知识共同 理解。本体的引入,为解决数据集成中的语义异构问题提供了一种新的解决思路。 3 中南大学硕士学位论文 第一章绪论 接下来,我们分析了本体在数据集成中的作用,并且阐述了基于本体的数据集成 的几种方式,包括单本体法、多本体法、混合本体法。我们的课题以中南大学信 息港数据集成系统改造工程为背景,本体自动构建的研究就是中南大学信息港基 于本体的数据集成研究方案中的一个关键研究点。在本文中,我们还介绍了中南 大学信息港基于本体的数据集成研究方案。接着,我们介绍了几种比较典型的本 体构建工程思想,比较了他们的共性和区别。在实际工程中,手工编辑本体工作 量大、专家依赖性强、术语描述不精确,严重的阻碍了本体的发展及工程的进展。 如何进行本体的自动构建,我们首先分析了三种本体自动构建的方法论,然后总 结了本体自动构建的难点,针对本体自动构建存在的难点问题,我们提出了一种 基于词典的本体半自动构建方案。接下来,我们对基于词典的本体半自动构建原 型系统及其主要功能模块进行了详细阐述。最后,我们通过三个实验对原型系统 的功能进行了检测和分析。论文的主体结构如下: 第二章主要阐述了本体与数据集成的相关知识以及我们的课题背景。在这一 部分,我们首先介绍了本体的基本知识,包括本体的来源、定义、分类、建模语 言、编辑工具等等。然后,我们介绍了基于本体的数据集成方法,包括本体在数 据集成中的作用和基于本体的数据集成方法。最后,我们介绍了我们课题的背 景一一中南大学信息港基于本体的数据集成项目背景,并大致分析了本体的构建 路线。 第三章主要是介绍本体自动构建的方案。首先,我们介绍了本体构建工程思 想,列举了五个典型的本体构建工程思想,分析了他们的共异性。手工构建本体 工程复杂、工作量大、对专家的依赖型强,由此,我们提出自动构建本体的设想。 接着,我们分析了现有的三种本体自动构建方法论,比较他们各自的优缺点。本 体自动构建需要解决概念发现、关系发现、术语描述等问题,在对这三个问题的 细致分析之后,我们提出了基于词典的本体自动构建方案,其包括基于词典的概 念发现过程、基于词典的关系发现过程和基于词典的术语描述过程。最后,我们 阐述了我们的本体自动构建方安的技术路线。 第四章主要是介绍我们设计和开发的本体半自动构建系统原型。首先,我们 介绍了本体半自动构建过程的总体思想,其为:以知识挖掘为手段,通过本体引 用、本体抽取、本体净化、本体提炼四个步骤,不断循环,螺旋上升,逐步实现 领域本体的自动完善然后,我们阐述了系统原型框架结构。最后,我们对系统 原型的主要功能模块作了详细阐述。 第五章主要是对我们的系统的实验过程介绍以及对实验结果分析。在我们的 实验过程中,我们采用了三个实验过程,从不同的几个方面检验我们的系统对概 念和关系的识别、判断能力大小。 4 中南大学硕士学位论文第一章绪论 第六章是对工作总结和展望。在此章中,我们介绍了我们所作的工作,并提 出了工作中遇到的问题。最后是我们对课题研究前景方向作了介绍和分析。 5 中南大学硕士学位论文第二章本体与数据集成 第二章本体与数据集成 本体作为一种能在语义和知识层次上描述信息系统的概念模型和建模工具, 自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了 广泛的应用。本体是对领域内概念及其关系的精确性描述,为知识共享提供了坚 实基础,给解决数据集成中的语义异构问题指明了一条新方向。本章将对本体及 基于本体的数据集成相关知识进行阐述,最后介绍中南大学信息港基于本体的数 据集成方案。 2 1 本体介绍 2 1 1 本体定义 本体论( o n t o l o g y ) 原是哲学的分支,研究客观事物存在的本质。它与认识 论( e p i s t e m o l o g y ) 相对,认识论研究人类知识的本质和来源。也就是说,本体 论研究客观存在,认识论研究主观认知。而本体( o n t o l o g y :0 小写) 的含义是 形成现象的根本实体( 常与“现象”相对) 。 在人工智能领域,知识建模必须在知识库和两个子系统之间建立联系:a g e n t 行为( 问题求解技能) 和环境( 问题存在的领域) 。而长期以来,a i 的研究者较 为注重前一个子系统,而领域知识的表达依赖于特定的任务。这样做的好处是只 需要考虑相关的领域知识。但是,大规模的模型共享、系统集成、知识获取和重 用依赖于领域的知识结构分析。因此,进入九十年代以来,与任务独立的知识库 ( 本体) 的价值被发现,并受到广泛关注。人们引入本体来表达信息,从而使之 成为知识,即实现计算机与信息的交流。 在各种文献中,尽管与本体相关的概念和术语的用法并不完全一致,但是事 实的使用约定已经出现。个比较得到公认的本体定义是:本体是一组描述领域 概念及其关系的精确性描述。 a n o n t o l o g yi s 趾e x p l i c i ts p e c i f i c a t i o no f ac o n c e p t u a l i z a t i o n - - - - c n u b c r 不管本体的定义的具体描述语句是什么,文献1 6 1 7 ,1 s 1 9 , 2 0 都对本体的概念化 和明确化作了重点突出。 o n t o l o g y 的目标是捕获相关的领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇之间相互关系的明确定义。 7 中南大学硕士学位论文第二章本体与数据鬟成 2 1 2 本体分类 根据本体的描述对象不同,可以把本体分为应用本体、领域本体、一般世界 知识本体、问题求解本体和知识表示语言本体等。 1 应用本体:以某一领域中某一任务为描述对象的本体。为某一应用构建 知识定义了一些与之相关的概念。通常应用本体是将领域本体或者一般知识本体 中的概念更加具体化,因此通用性不够,但是就某一应用而言,可以描述的更加 精确。 2 领域本体:以某一领域为描述对象的本体( 区别于领域的问题和任务) 。 3 一般知识本体:定义了涵盖多个领域的基本概念和知识。 4 表示本体:以知识表示语言为描述对象的本体。在表示本体中,类、对 象、关系、属性、槽等术语经过严谨的分析和定义。 。; 2 1 3 本体建模语言 在介绍本体的描述之前,我们先简单介绍一下本体的建模语言。 文献1 2 3 1 中定义了一个比较完备的本体的归纳出5 个基本的建模元语为:( c , i ,kf ,a ) 。其中: c ;概念集合,指任何事务,如工作描述、功能、行为、策略和推理过程。 从语义上讲,它表示的是对象的集合,其定义一般采用框架结构,包括概念的名 称,与其他概念之间的关系的集合,以及用自然语言对概念的描述。 i :概念的实例,代表元素。从语义上讲实例表示的就是对象。 r 定义在概念集合上的关系集合。在领域中概念之间的交互作用,形式上 定义为f l 维笛卡尔积的子集:r :c l x c 2 x x c 。如子类关系( s u b c l a s s o f ) 。在 语义上关系对应于对象元组的集合。 f :定义在概念集合上的函数集合,对于任意一个f f f 是一个n 1 元有 序列到一个概念的映射f = ( c l ,c 2 ,c 3 ,c n - 1 ) 一c n 。 a :谓词逻辑集合代表永真断言。 当然本体的建模语言并不是说必须参照这样完备的集合,对于一些轻量级的 本体仅由c ,i 组成。 2 1 4 本体描述语言 自上个世纪9 0 年代以来,一些基于a i 的本体实现语言陆续被提出,如 k i f 2 4 1 、o n t o l i n g u a f 6 l 、c y c l 2 5 1 ,l o o m 刀,o c m l 2 6 , 2 7 ,f l o g i d 2 8 j 。后来,随着 w e b 的发展,又出现了一系列基于w e b 的本体语言,也叫做本体标记语言,如 8 中南大学硕士学位论文 第二章本体与数据集成 s h o e t 2 0 l 、x o l l 3 0 l 、r d f t 3 1 r d f s t 3 1 1 、o i l l 3 2 1 、d a m l l 3 3 1 、d a m l + o i l 3 3 1 、 o w l 0 4 1 图2 1 给出7 基t - w e b 的本体描述语言的发展历程和相互关系。图2 2 给出了w 3 c 的本体语言栈j 固2 - 1 基于v e b 的本钵描述语言的发展 图2 2w 3 c 的拳体语言栈 在整个w 3 c 的本体语言栈里面,我们要重点介绍一下r d f 语言,因为它是一 个通用本体的描述语言,其在基于本体的数据集成中使用广泛。而且,在我们的 系统原型中,我们也是采用r d f 语言作为本体的描述语言。 1 r d f ,r d f _ s t 2 0 , 2 1 l r d f 即资源定义框架( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) ,它是一种声明语言, 明确定义的尤其是r d f s 定义的概念和特性来对资源进行描述。它以x m l 语 法为基础,提供了描述了网络资源,以及资源之间关系的模型与语法格式。从这 种意义上来说,r d f 是一种资源内容语义的描述框架,通过这个描述框架,可以 将概念体系中的概念和现实世界知识联系起来,实现机器可理解的数据语义。 9 中南大学硕士学位论文第二章本体与数据集成 r d f 作为一套完整的形式化体系包括形式语言和推理机制两个主要部分。要 保证该形式化体系的正确性,需要从语法和语义两个层面上来研究这个形式化系4 统的性质。语法研究形式系统内符号和符号之间的关系,它涉及形式系统的构造: 首先给出系统的字母表、形成规则,公理、变形规则,然后根据变形规则从公理 推出定理。语义层面研究形式系统中符号和它所指称、所刻画的对象之间的关系。 通过解释,可以将形式系统与特定的领域概念连接起来,从而赋予形式系统内的 初始符号和公式以一定的意义,最后机器可以理解利用该形式系统所作出的语义 描述。 2 r d f 形式语法分析 考虑到万维网环境下x m l 所具有的优良特性,2 0 0 3 年1 2 月,w 3 c 的r d f 工 作组提出了r d f 的推荐标准,该标准中) f 的x m l 序列化( x m ls e r i a l i z a t i o n ) 语 法之b n f 5 定义参见附录l ( r d f 标准中的x m l 序列化语法之b n f 5 ) 3 r d f s 词汇解释 r d f s 是w 3 c 所提供的一种简单的知识本体表示语言,它可以定义一些简单 的概念( 类) 和关系( 特性) r d f s 所使用的主要构造子( c o n s t r u c t o r ) 如下: ( 1 ) 核心类包括r d f s :r e s o u r e e 、r d f :p r o p e r t y 以及r d f s :c l a s s 。所有用r d f 表达式 所描述的事物都被看成是r d f s :r e s o u r e e 的实例。r d f :p r o p e r t y 是用来刻画 r d f s :r e s o u r e e 实例的所有特性的类。r d f s :c l a s s 用来定义r d f s 中的概念,每一个 c o n e e p t 必, 须是r d f s :c l a s s 的实例。 ( 2 ) 核心特性包括r d f :t y p e 、r d f s :s u b c l a s s o f 和r d f s :s u b p r o p e r t y o l 其r d f :t y p e 关系建立了资源和类之间的i i l s t a i l c c _ 0 f 关系的模型一个资源可能是一个或多个 类的实例。r d f s :s u b c l a s s o f 关系建立了类之间的包容层次模型,并且它应该是可 传递的( t r a n s i t i v e ) 。r d f s :s u b p r o p e r t y o f 关系建立了特性之间的包含层次关系模型。 如果某个特性p 2 是另一个特性p i 的r d f s :s u b p r o p e r t y o f , 并且资源r 有一个p 2 特性, 其值为v ,这就意味着资源r 也有一个pl 特性,其值也为v 。 ( 3 ) 核心约束包括r d f s :c o n s t r a i n t r e s o u r c e 、r d f s :c o n s t r a i n t p r o p e t y 、r d f s :r a n g e 和r d 矗:d o m a i n 。其中,r d f s :c o n s t r a i n t r e s o u r e e 定义了所有约束的类。 ( 4 ) r d f s :c o n s t r a i n t p r o p e r t y 是r d f s :c o n s t r a i n t r e s o u r c e 和r d f :p r o p e r t y 的子集,它 包括了所有用来定义约束的特性。目前,它有两个实例:r d f s :r a n g e 和r d f s :d o m a i n , 它们用来限制特性的范围和域。不允许对一个特性进行两个或多个范围约束对 域而言,并没有这样的强制要求,多个域可以解释成域的联合。 采用r d f s 规范所提供的构造子,可以对领域概念体系中概念间的关系进行 精确描述,进而达到对特定领域知识本体的充分表达。 1 0 中南大学硕士学位论文 第二章本体与数据集成 2 1 5 本体编辑工具 到目前为止,已经出现了许多本体建设工具。根据这些工具所支持的本体描 述语言,大致可以分为两类。 第一类包括o n t o l i n g u a ,o n t o s a u r u s ,w e b o n t o 、w e b o d e 等。其中,前三 个工具的共同点是,都基于某种特定的语言( o n t o l i n g u a 基于o n t o l i n g u a 语言, o n t o s a u r u s 基于l o o m 语言,w e b o n t o 基于o c m l 语言) ,并在定程度上支 持多种基于越的本体描述语言。 第二类包括p r o t 6 9 6 系列、o n t o e d i t 、o i l e d 等。这些工具最大的特点是独立 于特定的语言,可以导入导出多种基于w e b 的本体描述语言格式( 如x m l 、 r d f ( s ) 、d a m l + o i l 等) 其中,除了o i l e d 是一个单独的本体编辑工具外, 其他都是一个整合的本体开发环境或一组工具它们支持本体开发生命周期中的 大多数活动,并且因为都是基于组件的结构,很容易通过添加新的模块来提供更 多的功能,具有良好的可扩展性。 本文我们重点介绍一下p r o t 6 # 工具。 p r o t 6 # 是由斯坦福大学的s t a n f o r dm e d i c a u n f o r m a t i c s 开发的一个开放源码 的本体编辑器,它是用j a v a 编写的。p r o t 6 9 6 界面风格与普通w i n d o w s 应用程序 风格一致,用户比较容易学习使用。本体结构以树形的层次目录结构显示,用户 可以通过点击相应的项目来增加或编辑类、子类、属性、实例等。他允许用户在 概念层次上进行领域模型设计,所以本体工程师不需要了解具体的本体表示语 言。p r o t 6 9 6 支持多重继承,并对新数据进行一致性检查,并且具有很强的可扩展 性,主要表现在如下几点: 1 p r o t c 9 6 是一个可扩展的知识模型。用户可以重新定义系统使用的表示原 语 2 文件输出格式可以定制。可以将p r o t e 9 6 的内部表示转换成多种形式的文 本表示格式,包括x m l 、r d f ( s ) 、o i l 、d a m l 、d a m l + o i l 、o w l 等系列语 一 g :lo 3 用户接口可以定制。提供可扩展的a p i 接口,用户可以更换p r o t 6 酌的用 户接口的显示和数据获取模块来适应新的语言。 4 有可以与其他应用结合的可扩展的体系结构。用户可以将其与外部语义 模块( 例如针对新语言的推理引擎) 直接相连。 5 后台支持数据库存储,使用j d b c 和y d b c - o d b c 桥访问数据库。 由于p r o t 6 9 6 开放源代码,提供了本体建设的基本功能,使用简单方便,有详 细友好的帮助文档,模块划分清晰,提供完全的a p i 接口,因此,它基本上成 为国内外众多本体研究机构的首选工具。但是,它基本上没有提供合作开发方面 中南大学硕士学位论文 第二章本体与数据集成 的支持,在实际应用中存在很多限制。 2 2 基于本体的数据集成 2 2 1 数据集成的难点问题 异构数据源的数据整合和集成的目的是为企业综合应用系统提供集成的、统 一的、安全的、快捷的信息查询、数据挖掘和决策支持服务。为了满足这个需求 条件,整合、集成后的数据必须保证一定的集成性、完整性、一致性和访问安全 性【1 3 1 。 数据集成的方法一般分为数据仓库集成模式p 4 l 和虚拟数据集成模式【。 数据仓库集成模式在客户端与数据源之间增加一层,称为数据仓库,用来存 储来自各数据源中待集成数据,系统提供对数据仓库的查询机制。这种体系结构 的优点是既可以用于数据集成,又可以用于决策支持查询。该方法存在的问题是, 当数据源中的数据发生变化的时候,数据仓库中的数据也要发生相应的变化。因 此,数据更新不及时,数据发生重复存储。由于这种方法时通过e t l ( e x 仃a c t , t r a n s f o r m ,a n dl o a d ) 工具将数据物理搬迁到数据库,因此也称作“物理数据集 成”,见图2 3 。 统一 e 儿工具定期更新数据 _ 竺坚兰翌i 格式 和模 杉徇嚣 式的 整数据、1 一l 7 i 若 步 数据 : 图2 - 3 数据仓库集成模式 对虚拟数据集成而言,集成系统只是提供虚拟的集成视图和对该集成视图查 询处理机制。系统能够自动的将用户对集成模式的查询转换成对各异构数据源的 查询。由于在该方法中不需要重复存储大量的数据,并皂保证查询到最新的数据, 因此比较适合于高度自治,集成数量多,且更新变化快的异构数据源集成。缺点 是需要维护一个全局模式,当数据源模式发生变化时,维护全局模式非常困难。 由于这种方法只是维护一个虚拟的集成视图,所以也称作“逻辑数据集成”,见 图2 - 4 。 中南大学硕士学位论文第二章 本体与数据集成 图2 - 4 虚拟敷据集成模式 上述两种模式尽管集成方法不同,但研究的重点基本相同,即解决数据源异 构问题数据源异构体现为结构异构和语义异构。结构异构指数据源表达数据的 结构存在差异,目前广泛使用的结构有表、对象、文件等。语义异构区分为两种 类型:一种类型指相同数据在不同数据源种的表现形式存在差异( 属性名、数据 格式和类型) ,解决这种不一致的典型方法时重命名属性、值转化和类型转换。 另一种类型指由于数据维护错误导致的同一数据项在不同数据源中有不同值。 目前的数据集成中所解决的问题大部分都是结构异构的问题,采用 g a v ( g l o b a l - a s - v i c w ) 或者l a v o o c a d a s - v i e w ) i t s l 的模式进行数据集成,能够将不同结 构的数据源以统一模式进行数据集成,以方便信息的查询处理。但是,其仅仅解 决了异构数据源中的结构异构问题,并没有解决语义异构问题。数据中的语义异 构,需要一种能够明确表达数据语义的方式来进行语义描述。如何达成语义的明 确表达,达成理解的共识,正是许多科研机构和科研人员极力想解决的问题。近 十年来,本体( o n t o l o g y ) 和本体工程( o n t o l o g ye n g i n e e r i n g ) 在知识工程及其相 关的应用领域获得广泛的关注。 2 2 2 本体在数据集成中的作用 本体是对领域内概念及其关系的精确性描述,构造本体的目的就是为了实现 某种程度的知识共享和重用。在数据集成过程中,本体担当的角色有: 1 成为知识共同理解的载体。本体自身对领域知识的精确性描述,使得人 与人、人与机器之间能达成事物概念的一致性理解。这就是解决语义问题的一个 基础。 2 本体的概念间的关系将本体中各个概念有机的联系起来,以本体作为数 据集成中的虚拟视图,可以方便对集成数据进行集成的、统一的、快捷的信息查 询和数据挖掘服务。 2 2 3 基于本体的数据集成方法 在数据集成过程中,本体主要是用来描述数据集成中数据源的语义现有的 中南大学硕士学位论文第二章 本体与数据集成 基于本体的数据集成方式主要有:单一本体法、多本体法以及混合本体法。 1 单一本体法 在单一本体法中,只有一个全局本体提供对概念的共享描述,每个信息源都 来关联全局本体,如图2 5 所示。单一本体能解决基于某一领域的统一视图下的 数据集成问题,但是当每个数据源都表示不同子领域的视图,或者数据源信息的 变化,而影响全局本体的概念表达时,这种基于单一本体的方式表现了很大的不 足。 图2 - 5 单一本体法 2 多本体法 在多本体法中,每种数据源都对应一个本体,如图2 - 6 所示。该种方法的好 处是不存在违反本体构建时的最小承诺问题,每个数据源本体的构造不需要考虑 其他数据源或本体。这种结构能够简化本体结构,并且能够适应数据源的变化。 但是由于缺少全局本体,获取不同数据源的本体之间的关系比较困难。 圈2 - 6 多本体法 3 混合本体法 混合本体法是针对单一本体和多本体方式的不足而提出来的,在该种方法中 每个数据源都有一个自己的本体来描述,为了使所有的局部本体变得可以比较, 因而加入了一个全局本体,来描述这些共享概念,如图2 7 所示这种混合模式 具有较好的适应性和可扩展性。 1 4 9 白9 白 一 富 中南大学项士学位论文第二章本体与数据集成 固2 - 混合本体法 因此,一般的基于本体的数据集成系统,采用混合本体法的居多。 2 3 中南大学信息港基于本体的数据集成方案研究现状 中南大学信息港是中南大学的一个信息服务门户平台,其横跨三校区的校园 网,对全校的各类信息进行集中管理与实时查询,并实现对学校人、财、物等各 种资源的有效利用和控制。 整个信息港由数据集成系统、内容管理系统、办公自动化系统和统- - f - j 户网 站四大模块组成。其中,数据集成系统是整个信息港建设的基础,用于集成学校 各应用部门应用系统的各类信息,包括学校基本情况信息、学生信息、教职工信 息、教学管理信息、科研信息、体育卫生信息、办公管理信息、房产与设备信息、 仪器设备与实验室管理信息以及图书管理信息等。用户通过统- - f - 户访问各种信 息。 2 3 1 背景介绍 中南大学信息港项目已经完成交工,运行多日来,其系统的稳定性和功效性 受到师生的普遍好评。整个数据集成系统是基于一个全校统一的、集成的数据字 典,实现对校内所有数据的集成。原有数据集成模式如图2 - 8 所示。 图2 - 8 原有敷据集成模式 1 5 中南大学硕士

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论