(计算机应用技术专业论文)基于本体的主动数据仓库语义匹配.pdf_第1页
(计算机应用技术专业论文)基于本体的主动数据仓库语义匹配.pdf_第2页
(计算机应用技术专业论文)基于本体的主动数据仓库语义匹配.pdf_第3页
(计算机应用技术专业论文)基于本体的主动数据仓库语义匹配.pdf_第4页
(计算机应用技术专业论文)基于本体的主动数据仓库语义匹配.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的主动数据仓库语义匹配.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的主动数据仓库语义匹配 基于本体的主动数据仓库语义匹配 摘要 随着计算机网络技术、信息技术和数据仓库的持续飞速发展,出现越来 越多的分布异构数据源。异构数据源的研究已有很多成果,但由于子数据库 和数据仓库中各种各样的异构依然存在,数据异构仍然是数据仓库与其数据 源语义匹配的一个严峻问题。一个有益的解决思路是在没有人工参与的情况 下,主动数据仓库自动解决语义异构,准确识别数据语义。因此,如何提供 语义匹配服务,帮助主动数据仓库解决语义问题,进一步提高主动性已成为 国内外研究的热点。 基于本体的主动数据仓库语义匹配可解决主动数据仓库在解释、执行主 动规则和数据集成时的语义异构。使用户能够计算各个相应概念的相似度, 系统不用另外的映射程序就能主动准确地集成数据,主动识别规则语义,成 为名副其实的主动数据仓库。 论文主要概述了异构数据和异构数据集成的发展状况,在研究背景的基 础上讨论本体的理论知识及其构建、主动数据仓库的概念和相关内容。初步 实现了一个基于本体的主动数据仓库语义匹配系统。根据系统的需要,按照构 造本体的基本方法和实验的要求,设计了系统所需要的相应本体;算法部分 在弹性匹配的基础上,提出了更加合适和精确判断匹配的概率匹配 ( p r o b a b i l i t ym a t c h i n g ,p m ) 方法;为了度量本体中两个类的相似度,提出 了语义距离( s e m a n t i cd i s t a n c e ,s d ) 的概念并实现了具体的计算方法( 包 基于本体的主动数据仓库语义匹配 括深度距离和长度距离) ;然后在此基础上提出两种相似度函数:一种是长深 距离计算法,一种是共享信息含量法。接着提出了项目和匹配系统的整体架 构和算法的实现,最后完成了系统流程和框架结构的分析设计,并根据系统 的需要测试出合适的阀值,利用各种图表比较和选择上面提出的各种算法。 最后本文对系统的进一步研究工作进行了探讨。 关键词:本体,主动数据仓库,语义异构,语义匹配,概率匹配,相似度 基于本体的主动数据仓库语义匹配 o n t o l o g y b a s e ds e m a n t i cm a t c h i n gi n a c t i v ed a t aw a r e h o u s e a b s t r a c t a l o n gw i t ht h ep e r s i s t e n ta n df a s td e v e l o p m e n to fn e t w o r k ,i n f o r m a t i o n t e c h n o l o g ya n dd a t aw a r e h o u s e ,t h e r ea l em o r ea n dm o r ed i s t r i b u t eh e t e r o g e n e o u s d a t as o u r c e s a l t h o u g ht h er e s e a r c ho fh e t e r o g e n e o u sd a t as o u r c e sh a sg o t t e n m u c ha c h i e v e m e n t ,i ti ss t i l las e v e r ep r o b l e mf o rd a t aw a r e h o u s ea n dd a t a s o u r c e ss e m a n t i c m a t c h i n g d u et ot h e e x i s t i n g o fh e t e r o g e n e i t yi nt h e c h i l d d a t a b a s e sa n dd a t aw a r e h o u s e au s e f u li d e ai st h ea c t i v ed a t aw a r e h o u s e c a nr e s o l v et h es e m a n t i ch e t e r o g e n e i t ya u t o m a t i c a l l ya n di d e n t i f yt h ed a t a m e a n i n ga c c u r a t e l y s oi tb e c o m e st h ef o c u so fr e s e a r c hi na b o a r da n dd o m e s t i c t h a th o wt os u p p l yt h es e m a n t i cm a t c h i n gs e r v e ra n dh e l pt h ed a t aw a r e h o u s e r e s o l v et h es e m a n t i cp r o b l e m o n t o l o g y _ b a s e ds e m a n t i cm a t c h i n gi nd a t aw a r e h o u s ec a nr e s o l v et h ea a i v e r u l e sa n di n t e g r a t et h ed a t a u s e r sc o u l d c o m p u t et h ec o n c e p t s s i m i l a r i t y , a n dt h e s y s t e mc o u l di n t e g r a t et h ed a t aa c c u r a t e l yw i t h o u to t h e rm a p p i n gp r o g r a m s t h e n i 茎王查堡堕圭垫茎塑垒曼堕墨坚里一 t h ea c t i v ed a t aw a r e h o u s ei sar e a la c t i v ed a t aw a r e h o u s e t h i sp a p e rs u m m a r i z e st h ed e v e l o p m e n to fh e t e r o g e n e o u s d a t aa n di t s i n t e g r a t i o n o nt h eb a s eo f r e s e a r c hb a c k g r o u n d ,d i s c u s st h eo n t o l o g y st h e o r y , b u i l da r 通a c t i v ed a t aw a r e h o u s e s c o n c e p t s a n dc o n t e n t sr e l a t i v e l y t h e n i m p l e m e n t t h es y s t e mo fo n t o l o g y _ b a s e d s e m a n t i cm a t c h i n ga c t i v e d a 协 w a r e h o u s e b yt h er e q u i r e m e n to ft h es y s t e ma n dt h em e t h o do fb u i l d i n g a o n t o l o g y ,d e s i g nao n t o l o g ya c c o r d i n g l y ;o nt h eb a s eo fe l a s t i c i t ym a t c h i n g ,p u t f o 朋a r daf i t t e ra n da c c u r a t e rm e t h o dt oj u d g e 一一p r o b a b i l i t ym a t c h i n g ;t o m e a s u r et h es i m i l a r i t i e so ft w oc l a s s e s ,b r i n gf o r w a r dt h ec o n c e p to fs e m a n t i c d i s t a l l c ea n di m p l e m e n tt h em e t h o do fc o m p u t i n g ( i n c l u d i n gt h ed e p t hd i s t a n c e a n dt h el e n g t hd i s t a n c e ) ;t h e np u tf o r w a r dt w of u n c t i o n so fs i m i l a r i t y :o n ei st h e m e t h o do fc o m p u t i n gt h el e n g t ha n dd e p t hd i s t a n c e ;t h eo t h e ri s t h em e t h o do f s h 蕊gt h ei n f o r m a t i o n t h e nb r i n gf o r w a r dt h ea r c h i t e c t u r eo ft h ep r o j e c t ,t h e s y s t e mo fs e m a n t i cm a t c h i n g a tl a s tw ec o m p l e t e t h ed e s i g no fs y s t e mf l o w , a n db a s e do nt h er e q u i r e m e n to f t h es y s t e m ,w eg e taf i tt h r e s h o l d 。 f i n a l l yt h i sp a p e rd i s c u s s e st h ef u r t h e rr e s e a r c ho f t h i ss y s t e m k e y w o r d s :o n t o l o g y , a c t i v ed a t aw a r e h o u s e ,s e m a n t i c h e t e r o g e n e o u s , s e m a n t i cm a t c h i n g ,p r o b a b i l i t ym a t c h i n g ,s i m i l a r i t yd e g r e e 基于本体的主动数据仓库语义匹配 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 签名:彳厕寸 日期:纠年;月乃日 关于论文使用授权的说明 本学位论文作者完全了解浙江工商大学有关保留、使用学位论 文的规定:浙江工商大学有权保留并向国家有关部门或机构送交论 文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸 质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:孝励哿 导师签名: b 期:印7 年;只| e l 俞耳 基于本体的主动数据仓库语义匹配 第一章绪论 第一节本文研究背景及意义 随着i n t e r n e t 和计算机技术的迅猛发展,以及企业规模的不断扩大,越来越多的企 业拥有子公司或分布在各地的经销商。子公司和经销商各自的数据库都积累了丰富的数据 资源,但由于没有统一的数据规范,形成了异构的数据源,其中包括传统的数据库、文件、 h t m l 和x m l 等半结构化的数据,以及声音、图片和多媒体等非结构化的数据。这个异构 的数据源在互操作性方面变得复杂而又困难,在企业各个部门,各个子公司之间,都形成 了独立的信息孤岛。1 。为了能利用这些数据资源分析业务特征或作近一步的数据挖掘,为 企业的最高层做决策支持服务,人们迫切需要集成这些地理上分布、管理上自治、模式上 异构的异构数据源。 然而数据来源普遍存在的异构问题使得数据仓库在集成的时候会出现很多难以解决 的问题,比如系统异构、语法异构、语义异构等问题,虽然目前前两者都有一定的研究成 果,但语义异构问题一直不能很好的解决。在主动数据仓库中这个问题尤其突出,不仅仅 是主动数据仓库集成时数据的语义异构,还有主动规则也会存在语义异构。 将本体的概念和相应技术引入到主动数据仓库,可从根本上解决以上问题。同时,由 于本体具有丰富的语义和广泛的关系,它将变革现有的数据仓库服务,使之成为语义集成 服务,使主动数据仓库实现从自动化到智能化的转变。也就是说,通过合理的设计,可以 充分发挥它们各自的优势,结合本体的语义扩展和主动数据仓库的分布特性,最终提供一 种基于本体的主动数据仓库的语义匹配。 本文介绍了基于本体的主动数据仓库语义匹配的原理及具体实现方法,用于解决数据 源语义异构问题以及在处理主动机制时解析主动规则的语义。该系统能够帮助用户找到最 需要最精确的信息,并且减少许多人工参与的时间,更好地体现主动数据仓库的主动性和 智能性。 基于本体的主动数据仓库语义匹配 一、异构数据 第二节国内外研究现状 异构数据不仅指不同的数据库系统之间的数据异构,如s q ls e r v e r 数据库和o r a c l e 数 据库内存储的数据之间的异构;而且还包括不同结构的数据之间的异构,如结构化f f q s q l s e r v e r 数据库数据和半结构化的x m l 数据。1 。它是一个含义丰富的概念。 数据的异构性对于系统设计者来说既是优点也是缺点。优点是它与系统效率紧密相连, 程序与需要解决的问题匹配度越高,该程序就会工作得越好,在这个过程中会选择一个合 适的编程语言并给出一些需要的假设条件。缺点是它给系统的互操作性带来了障碍,使得 异构系统间的数据不易交换和集成“4 。异构数据系统具有分布性、自治性和异构性的特点 1 朝 o ( 1 ) 分布性:当前有很多的计算机都连接在某种类型的网络上( 特别是i n t e r n e t ) ,通过组 合这些分布在不同地点的应用程序和数据源。它们就能通过网络进行通信。 ( 2 ) 自治性:每个数据源都可以独立地被用户或应用程序访问,而不受其它系统的限制。 ( 3 ) 异构性:由于技术的原因,存在着很多类型的异构。不同源的集成需要解决的问题包 括不一致的命名习惯、不一致的变量度量( 米v s 码) 、不一致的编码结构( d d m m y yv s d a y m o n t hy e a r ) 、不一致的数据物理属性( i n tv s c h a r ) 等。这些年来研究人员和开发人员 一直在努力解决这些异构问题。 目前异构大致可分为四类:系统、语法、结构和语义“”。其中系统异构包括硬件和操作 系统,例如,硬件、系统软件( 如操作系统) 和通信系统之问的差异。语法异构包括不同的 语言和数据表示;结构异构包括不同的数据模型;语义异构包括数据和规则语义的不同。 本文的重点将放在解决语义异构上。由于不同数据源的设计者对于现实世界事物的看 待角度不会完全一样,就会产生语义异构。研究者们对语义异构的分类情况各有不同,本 文在参考各种分类“”的基础上,将语义异构分为四类: 格式异构:采用了不同的计量单位、精度层次和属性的值域,如资金使用人民币或美元 作为计量单位,日期的数据类型可以用d a t e 或s t r i n g 表示。在度量学术级别上使用不 同的粒度( 例如用字母“a ”,“b ”,“c ”,“d ”分别表示优、良、中、差) 。 属性异构:不同的数据源对相同实体的属性采取不同的定义方法,如雇员属性在一个类 中定义为名字,工号,性别,而在另一类中被定义为名字,外貌,体重。 基于本体的主动数据仓库语义匹配 命名异构:相同的数据实体采用不同的名字;不同的数据实体采用相同的名字。这两种 情况也可以看作是我们熟悉的同义词和同形异义词。例如,在不同系统中公司名可能 表示不同:“i n t e r n a t i o n a lb u s i n e s sm a c h i n e s ”可能表示为“i b m ”,还有标准单词 和简写的冲突:“k i l o m e t e r ”和“k m ”。处在不同地理位置的数据模式可能表示相同 概念但名字不同的实体,这样会导致在集成后发生冲突,所以需要寻求一种方式将这 些描述同一实体的名字统一化。 外延异构“”:这种类型的语义异构主要有关类的范围,一个类的范围就是该类所包含的 对象集。根据这一点,类之间的关系可以划分为四种:第一种是等价元素,表示相同 的对象集合,如一个数据库中的“i n s t r u c t o r s ”和另一个数据库中的“l e c t u r e r s ”。 如果在合并的类上要进行统计“讲师”的人数的话要将这两个加起来;第二种是交叉 元素,表示有交叉实体的集合。例如,两个数据库中的“x i a o s h o u y u a n m i n g ”和 “y e w u y u a n m i n g ”类会有重合的人员;第三种是包含元素,一个类的范围是另一个类 范围的子集,如e m p l o y e e n a m e 和x i a o s h o u y u a n m i n g 。 二、异构数据集成方法 数据集成屏蔽了各种异构数据间的差异。因此集成后的异构数据对用户来说是统一 的、无差异的“1 。 数据集成技术研究始于七十年代中期,至今已有二十多年了。从一开始的多数据库集 成发展到现在的异构数据源集成,数据集成的范围和作用都在不断扩大。 a m i t p s h e t h 1 提出异构数据集成的发展可分为三个阶段: 七十年代- - j k 十年代中期:出现多数据库系统和联邦数据库系统,重点在于使具有不同 软硬件设备的计算机系统进行互连和通信,解决了一定程度上的语法和结构异构,实 现了地理分布、数据模式透明的功能,主要的产品有u n i s q l m ( u n i s q l ) ,d a t a l o i n e r ( i b m ) ,o m n i c o n n e c t ( s y b a s e ) ; 八十年代中期一九十年代中期:随着网络的出现、i n t e r n e t 的发展以及多种类型的数 据的形成( 包括结构化数据库、半结构化数据、数字多媒体等) ,出现了一些支持多种 类型异构数据集成的技术,如m e t a d a t a ,m e d i a t o r 、中间件等,主要的系统有t s i 姗i s 、 g a r l i c 、s i m s 、h e r m e s 、i n f o s l e u t h 等; 九十年代中期一现在:这个阶段比较关注数据集成过程中的语义异构的解决问题,更 基于本体的主动数据仓库语义匹配 多的运用知识领域的有关技术。主要有信息的智能集成、数字化图书馆等。 综合这几个阶段的发展,期间出现的技术大约有以下两类: ( 1 ) 虚拟视图法:其中包括联邦数据库系统和中介系统。 联邦数据库系统:是数据库集成的最简单结构。它的构成方式是将所有组件数据库进行 一对一的连接,这种方式的数据集成是一个n 维问题。如果存在n 个数据库,则每个数 据库都需要与其它n 一1 个数据库实现互操作,即如果你有n 个不同的系统或数据源需要 集成,你就需要建立n ( n - 1 ) 个不同的数据交互接口( 接近n 的二次方) ,开发者就必须 编写n ( n - 1 ) 段代码来支持两两之间的查询访问。对于大的公司,n 可能上千位,则n 的二次方则会超过1 0 0 ,0 0 0 ,这看起来是个不可能的问题,所以联邦数据库集成系统适 合于自治数据库的数量比较小的情况。联邦数据库系统的体系结构如图1 1 所示: 图1 1 联邦数据体系结构 中介系统:一种软件构件,通过提供所有异构数据源的虚拟视图进行集成。数据源可以 是数据库、遗留系统( 1 e g a c ys y s t e m ) ,w e b 数据源等。这种集成方式与数据仓库中使 用物化方法集成数据源的方式相似,但它不存储任何实际数据。系统提供给用户一个 全局模式( 也称为m e d i a t e d 模式) ,用户针对全局模式提交查询而不必知道数据源的位 置、模式和访问方法,系统将用户查询翻译成一个或多个对数据源的查询。然后将数 据源的查询结构进行综合处理,并将它返回给用户。中介系统中的数据源是完全自治 的,可以容易地增加、删除数据源。中介系统一般由一个中介器和多个包装器( w r a p p e r ) 组成。包装器用于将数据源的数据转换为集成系统可以处理的某种结构化的数据。中 基于本体的主动数据仓库语义匹配 介器的功能是分析针对全局模式的查询,分解为子查询,并将它们转换为针对相应数 据源的查询,最后合并所有数据源的结果返回给用户。中介系统的体系结构如图1 2 所示: 图1 2 中介系统体系结构 ( 2 ) 物化方法:主要指数据仓库,该方法需要建立一个存储数据的仓库,将来自多个数 据源的数据副本都存储在单一的数据库中,由e t l ( e x t r a c t ,t r a n s f o r m ,l o a d ) 工具定期 从数据源过滤数据,然后装载到数据仓库,供用户查询。不足之处在于数据仓库中的数据 在存储之前要经过一定的筛选处理,而且数据仓库还需要定期更新,所以用户查询到的数 据可能不是最新的。 数据集成模式的集成形式化框架“”: 一个数据集成系统i 是一个三元组( g ,s ,m ) ,其中 g 是全局模式 s 是源模式 m 是g 和s 之间的映射 g 和s 之问的映射存在着不同的方法: ( 1 ) 一种是以全局模式为中心的方法,也称为g l o b a l - a s v i e w ( g a v ) : 假设有三个数据源s l ,s 2 和s 3 ,每个数据源都存着有关产品的数据: 基于本体的主动数据仓库语义匹配 s l : p r o d u c t n o :s t r i n g ,p r o d u c t n a m e :s t r i n g ,d e p a r t m e n t n o :s t r i n g , c o m p a n y n o :s t r i n g ) s 2 :f d e p a r t m e n t n o :s t r i n g ,d e p a r t m e n t n a m e :s t r i n g s 3 : f i r m n o :s t r i n g ,f i r m n a m e :s t r i n g ) 数据源s 1 中存放着产品基本信息,s 2 中存放着有关部门的信息,s 3 中存放着所有关于 关系的信息,其中s 1 中的c o m p a n y n o 和s 3 中的f i r m n o 有着相同的值。所以,我们可以把中 介模式定义为: c a t a l o g : p r o d u c t n o :s t r i n g ,p r o d u c t n a m e :s t r i n g ,d e p a r t m e n t n o :s t r i n g ,c o m p a n y n o :s t r i n g ,c o m p a n y n a m e :s t r i n g ,f i r m n a m e :s t r i n g 在g a v 中,使用下列映射规则来集成各数据源的数据: c r e a t ee v i e wc a t a l o ga s s e l e c tp r o d u c t n o ,p r o d u c t n a m e ,d e p a r t m e n t n o ,c o m p a n y n o f r o ms l u n i o n s e l e c td e p a r t m e n t n o ,d e p a r t m e n t n a m e f r o ms 2 u n i o n s e l e c tf i r m n oa sc o m p a n y n o ,f i r m n a m e f r o ms 3 g a v 的缺点是缺乏扩展性,如果有新的数据源需要集成,则需要修改视图定义。如系 统t s i m m s ,i n t e r v i s o 和g a r l i c 都是使用g a v 方法,采用这种方法的质量依赖于数据源映射 到全局模式的好坏程度,当数据源改变或有新的数据源增加时,全局模式就要改动。 ( 2 ) 一种是以数据源为中心的方法,也称为l o c a l - a s v i e w ( l a v ) : 在l a v 中,对于每个数据源s ,都有一个视图来描述该数据源对应于中介视图的关系。 c r e a t e v i e wc a t a l o g la s s e l e c tp r o d u c tn o ,p r o d u c tn a m e ,d e p a r t m e n t n o ,c o m p a n y n o f r o ms 1 c r e a t ev i e wc a t a l o ga s s e l e c td e p a r t m e n n o ,d e p a r t m e n n a m e f r o ms 2 基于本体的主动数据仓库语义匹配 c r e a t ev i e wc a t a l o ga s s e l e c tf i r m n oa sc o m p a n y n o ,f i r m n a m e f r o ms 3 定义这些规则比较容易,而且当有新的数据源加入时,可以比较容易地扩展整个l a v 数据集成,而不影响其它的映射规则。l a v 主要的缺点是可能产生不完全的查询结果。系 统i n f o r m a t i o nm a n i f o l d ,d w q ,p i c s e l 等都是采用l “方法,采用这种方法的质量依赖于 特征化数据源的好坏程度,l a v 方法还具有高度的模块化程度和良好的可扩展性。如果设 计的全局模式比较好,那么当数据源改变时,只会影响到它的定义,而对整个集成系统没 有影响。但查询过程需要进行推理,即查询重组比较复杂。 ( 3 ) 还有一种结合以上两种方法的混合方法,称为g l a v 。 ( 4 ) 另外还有一种没有全局模式的方法,映射存在于数据源与数据源之间,称为p 2 p 。 以上这些方法在功能上基本能够实现语义匹配,但是其本质还是基于数据之间的映 射,如果要对系统做修改或增加数据,需补充的工作量是非常大的。而本文所采用本体能 够更好地解决以上问题,以不变应万变。 第三节本文研究的主要内容、创新点和章节安排 一、本文研究的主要内容 本文的主要内容是基于本体的主动数据仓库的语义匹配的理论研究与具体实现。将详 细介绍本体和主动数据仓库技术,发现目前主动数据仓库存在的问题,并利用本体解决, 从而能真正地更充分地体现主动数据仓库的主动性语义异构时主动匹配。 本文所实现的系统将以杭州中茂有限公司的系统数据表为例,实现对相同结构不同内 容的数据表的语义匹配,发现内容本质上是相似的、可以合并的表,或找出结构相似但内 容完全不一样的表。分析数据库提取数据库中的重要概念;利用构建本体的工具p r o t 6 9 6 3 :1 1 ,采用o w l 的本体构建语言构建产品及相关信息的本体,实现对不同表的识别;在 以后的过程中对本体进行维护进化;通过计算概念之间的语义距离计算相似度,以确定数 据或者规则的语义是否匹配。 本文拟解决的问题: 基于本体的主动数据仓库的语义匹配的系统框架设计及实现; 基于本体的主动数据仓库语义匹配 分析数据表和主动规则的数据,提取重要概念; 语义距离和相似度的计算方法; 探讨系统的进一步研究方向和发展。 系统实现采用的主要技术: 人工智能中的本体技术; 主动数据仓库中的部分技术: j a v a 语言实现各类算法。 二、本文的创新点 克服了传统异构处理方法一一表格法存在的抽象程度低,需要按照业务和具体的 应用环境更新表格内容等不足;而采用本体映射和进化技术,在较高抽象层次上, 系统地、半自动化地处理数据异构问题,具有更强的异构数据模式的适应能力。 改进了计算语义距离的方法,选择了一种优秀的相似函数和概率匹配方法,提高 了语义匹配的准确率。 不仅解决的数据语义异构的问题,而且对主动规则的语义异构进行了探讨,以及 加入对事件过程的相似度判断。 三、论文章节安排 文章的章节安排如下: 第一章:绪论主要介绍研究的背景和意义,国内外研究现状,包括异构数据以及异构 数据的集成方法,以及本文研究的重要内容和创新点。 第二章:主要介绍本体的相关技术,包括本体的概念和基本的构建方法,以及本体的 优势。 第三章:讨论主动数据仓库的相关技术,包括主动数据仓库的组成、特点和关键技术 以及目前主动数据仓库面临的主要问题。 第四章:主要描述如何构建主动数据仓库中的本体,分析主动数据仓库中子数据库的 结构、主动数据仓库中子数据库与本体的对应关系以及与本体元素之间的转换规则;主动 数据仓库中本体的建立过程。 , 第五章:重点讨论语义距离的概念,算法以及如何改进,并介绍多种相似度函数。 基于本体的主动数据仓库语义匹配 第六章:提出整个系统架构和实现,利用各种图表比较和实现上面提出的各种算法。 第七章:总结本文的研究工作以及对未来的展望。 基于本体的主动数据仓库语义匹配 一、本体的定义 第二章本体的相关技术 第一节本体的概念 本体最早是一个哲学上的概念,从哲学的范畴来讲,本体是对客观存在的一个系统的 解释或说明,关心的是客观现实的抽象本质。在人工智能界,最早给出本体定义的是n e c h e s 等人懈1 ,他们将本体定义为“给出构成相关领域词汇的基本术语关系,以及利用这些术语和 关系构成的规定这些词汇外延的规则的定义”。 1 9 9 3 年,g r u b e r 给出了本体的一个最为流行的定义,即本体是“概念模型的明确的 规范说明”。后来b o r s t 在此基础上,给出了本体的另外一种定义“”:“本体是共享概念 模型的形式化规范说明”。s t u d e r 等对上述两个定义进行了深入的研究,认为本体是共享 概念模型的明确的形式化的规范说明。其中包含了4 层含义嘲:概念模型 ( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。“概念模 型”指抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表 示的含义独立于具体的环境状态。“明确”指所使用的概念及使用这些概念的约束都有明 确的定义。“形式化”指本体是计算机可读的( 即能被计算机处理) 。“共享”指本体中表 示的是共同认可的知识,反映的是相关领域中公认的概念集,即本体针对的是团体而非个 体的共识。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域 内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇问相互关系 的明确定义。 本体描述了知识库中知识的概念化,它是对概念化本身及其含义的明确描述。本体是 关于领域概念化的结构规范。关于本体的一种假设是所有的概念都通过关系明确地关联 着,从一个概念出发可以根据一系列的规则推导出另一个概念。 二、本体研究的对象及组成 本体的研究对象是某一主题领域中所使用的词汇,它定义了组成这些词汇的基本术语 基于本体的主动数据仓库语义匹配 和关系,同样,它也定义了一系列如何将术语与关系组合成词汇的规则。 一个本体其实就是一套关于某一领域的规范而清晰的描述,它包含类( c l a s s e s ) ,有时 也被称作概念( c o n c e p t s ) ,每一个概念的属性( p r o p e r t i e s ) 描述了有关概念的各种特征 和属性( 又称s l o t s ,有时也称为r o l e s 或a t t r i b u t e s ) ,还有属性的限制条件 ( r e s t r i c t i o n s ) ,即f a c e t s ,有时也称为r o l er e s t r i c t i o n s 或c o n s t r a i n t s 。一个完整 的本体还要包含一系列与某个类相关的实例( i n s t a n c e s ) ,这些实例组成了一个知识库( k b k n o w l e d g eb a s e ) 。 一个本体是由基本的五元组所构成的,我们表示为: 0 := ( c ,h c ,r c ,h r ,i ,r i ,a ) 1 1 c 表示概念或者类,它们被安排在层次结构h c 中。r c 表示概念之间的关系。关系和属性 也同样在层次结构h r 中出现。实例i 是一个特殊的概念,它通过实例的关系r i 的属性而相 互联系。另外a 表示公理,用它可以由一个现存的知识推倒出另一个知识。 三、本体的分类 依据包含的内容,本体可以分为:经典本体和混合本体。经典本体只包含概念,例如 概念分类;混合本体论包括本体的关系和事件。按照表示和描述的形式化程度的不同,可 以分为:完全非形式化的、半非形式化的、半形式化的和严格形式化的本体论。形式化程 度越高,越有利于计算机进行自动处理。按照应用领域的不同本体可大致分成3 类:人或 组织之间达成概念共识的通讯;系统间使用本体作为交换格式的互操作;系统工程领域( 可 复用性、知识获取、规范、可靠性) 。根据特定应用领域的规模或视点的级别,本体可分 成4 种汹1 :元级本体、通用本体、领域本体、应用本体。元级本体是描述知识表示语言所 用的基元分类的表示本体;通用本体( 核心本体) 描述独立于特定问题或领域的非常通用 的概念;领域本体通过特殊化高级本体中的术语,分别描述与通用领域或普通工作相关的 词汇;应用本体描述依赖于特殊领域和工作的概念,经常对应于领域实体执行某些活动时 扮演的角色。 第二节本体构建的方法 基于本体的信息描述与获取在目前来说是一种较为合理的语义数据建模方法,该方法 是对数据的一种概念化的显式说明,是对客观存在的概念和关系的描述。由于本体采用精 基于本体的主动数据仓库语义匹配 确的形式语言、句法和明确的语义,使得问题域中的概念与概念、对象与对象、概念与对 象之间的关系更加明确,这就大大减少了对问题域中概念和逻辑关系可能造成的误解。基 于本体的语义信息可以解决系统间的通信、交互操作、重用和共享等问题,在构建本体时 应当遵循相应的标准、指导原则和可操作性强的方法,同时要有一套统一的形式化的语言 来对本体进行编码。 一、构建本体的语言 在具体的应用中,本体的表示方式可以多种多样,主要可分为4 大类:非形式化、半 非形式化、半形式化、形式化语言。可以用自然语言来描述本体,也可以用框架、语义 网络或逻辑语言等来描述本体。虽然具体描述本体的方法很多,但是目前使用最普遍的方 法是o n t o l i n g u a 、c y e l 和l o o m 2 1 。 o n t o l i n g u a 是一种基于k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) ,提供统一的规 范格式来构建本体的语言。o n t o l i n g u a 为构造和维护本体提供了统一的、计算机 可读( 可处理) 的方式。由o n t o l i n g u a 构造的本体可以很方便地转换为各种知识 表示和推理系统,使得对本体的维护与具体使用它的目标表示系统分离开来。可以 把o n t o l i n g u a 转换成p r o l o g 、c o r b a 的i d l 、c l i p s 、l o o m 、e p i k i t 、a l g e r n o n 和标准的k i f 。目前,o n t o l i n g u a 主要是由本体服务器提供的,用于创建本体的 语言。另外有不少项目使用o n t o l i n g u a 作为实现本体的语言。 c y c l 是c y c 系统的描述语言,它是一种体系庞大而非常灵活的知识描述语言。该 语言在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,而且具备一些 二阶谓词演算的能力。在该语言的环境中配有功能很强的可进行逻辑推理的推理 机。 l o o m 是o n t o s a u r u s 的描述语言,是一种基于一阶谓词逻辑的高级编程语言,属 于描述逻辑( d e s c r i p t i o nl o g i c ) 体系。它具有以下的特点: ( 1 ) 提供表达能力强、声明性的规范说明语言; ( 2 ) 提供强大的演绎推理能力; ( 3 ) 提供多种编程风格和知识库服务。该语言后来发展成为p o w e r l o o m 语言。 近年来随着本体和w e b 的发展,出现了一系列基于本体语言,也叫本体标记语言,如 s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n ) 捌,o m l ( o n t o l o g ym a r k u pl a n g u a g e ) ,x o l ( x m l 基于本体的主动数据仓库语义匹配 b a s e do n t o l o g ye x c h a n g el a n g u a g e ) 啪1 等。 2 0 0 2 年7 月,w 3 c 在提交的d a m l + o i l 基础上发展了0 w l 语言。o w l 是本体论w e b 语言 ( o n t o l o g yw e bl a n g u a g e ) 的字母缩写,其设计的最终目的是提供一种可以适用于各种应 用的语言,从而代替只是采用人类易读的形式来表达内容的方式。 o w l 能够被用于清晰地表达词汇表中的词条含义以及这些词条之间的关系,而这种对词 条和它们之间的关系的表达就称作本体1 。o w l 通过添加大量的基于描述逻辑的语义原语 来描述和构建各种本体。例如类型之间的不相交性( d i s j o i n t n e s s ) ,基数( c a r d i n a l i t y ) , 等价性,属性等更丰富的类型,属性特征( 例如对称性) ,以及枚举类型( e n u m e r a t e d c l a s s e s ) 。o w l 根据表示和推理能力分为3 类:o w lf u n 、o w li ) l 和o w ll i t e : o w lf u l l 与r d f 保持最大程度的兼容,具有最大的表示能力,但不能保证计算性能。它允 许在一个本体预定义的( r d f 、o w l ) 词汇表上增加词汇,从而使得任何推理软件均能支持 o w lf u l l 的所有f e a t u r e 。例如一个类可以被同时表达为许多个体的集合以及这个集合中 的一个个体。 0 w ld l 是以描述逻辑为基础,在不失掉计算完全性和可判定性条件下,支持那些需要在 推理系统上进行最大程度表达的客户,这里的推理系统能够保证计算完全性 ( c o m p u t a t i o n a lc o m p l e t e n e s s 即所有的结论都能够保证被计算出来) 和可决定性 ( d e c i d a b i l i t y 即所有的计算都可以在有限的时间内完成) 。它包括了o w l 语言的所有约 束,但是可以被仅仅置于特定的约束下。例如当一个类可以是多个类的一个子类时,它被 约束为不能是另一个类的实例。 o w ll i t e 则局限于对概念( 类) 的层次分类和简单的约束等进行描述。用于提供给那 些只需要一个分类层次和简单属性约束的用户。例如支持基数( c a r d i n a l i t y ) ,只允许基 数为0 或1 。 图2 - 1 总结了本体描述语言的相互关系。 基于本体的主动数据仓库语义匹配 二、构建本体的规则 图2 - 1 基于本体描述语言的相互关系 对于不同问题域和具体工程,本体构造的过程各不相同。目前还没有一个标准的构造 本体的方法,而且主要还是采用手工的方式来构建本体。一般来讲,在构造领域本体模型 时需要领域专家的参与,在构造具体的本体时应注意满足一些基本规则,最有影响的是 g r u b e r 在1 9 9 5 年提出的5 条规则叫: 明确性和客观性:本体应该有效地说明所定义术语的内涵,即能用自然语言对所定义 的术语给出明确、客观的语义定义,其中明确是指本体中所有的术语和关系都有明确 定义,客观是指本体独立于背景而存在。 完全性:所给出的定义是尽可能完整的。完全能表达所描述的术语含义。 一致性:本体应该具有前后一致性,即由术语推理得出的推论应与术语本身的含义是 相容的,不会产生矛盾。如果从一组公理推理出的一个结论与一个非形式化的定义或 实例有矛盾,那么该本体就是不一致的。 最大单调可扩展性:本体应该可以为后期可预见的一些任务提供概念基础,使得本体 建立使用后再向本体中添加通用或专用的术语时不需要修改己有的内容。 最小承诺:构建本体时本体的承诺应该最小,只需要满足特定的共享需求即可,让以 后的共享者能按照各自的需求进行实例化和专门化,所以在对待建模对象时应给出尽 可能少的约束,一般可通过只指定约束最弱的公理和定义最基本的术语来实现本体的 最小承诺。 以上的五个规则是比较概括和抽象的,对于本体的构建具有指导作用。在本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论