(模式识别与智能系统专业论文)一种基于逻辑的数据集成系统研究与实现.pdf_第1页
(模式识别与智能系统专业论文)一种基于逻辑的数据集成系统研究与实现.pdf_第2页
(模式识别与智能系统专业论文)一种基于逻辑的数据集成系统研究与实现.pdf_第3页
(模式识别与智能系统专业论文)一种基于逻辑的数据集成系统研究与实现.pdf_第4页
(模式识别与智能系统专业论文)一种基于逻辑的数据集成系统研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(模式识别与智能系统专业论文)一种基于逻辑的数据集成系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中田科学技术人学坝l j 论文种基于逻辑的数据集成系统研究与实现 摘要 如何充分利用现有各类应用产生的数据资源,即如何在高度异构的企业应用环境下,建 立信息集成应用系统,为管理决策服务,是当前企业信息化系统建殴发展的一个重点方向。 但这涉及数据规范、数据表示、数据分析,以及数据表现等诸多复杂的技术难题。从国内外 这几年在实施电子商务、e r p 或应用集成等大型项目系统的效果看,仅基于传统的数据库 技术,或仅依靠传统软件能力的提高,如采用组件、中间件或采用一些先进的软件工具,来 实施数据集成,效果并不理想。在面向密集型数据或信息处理为核心应用的领域,引进人工 智能的思想和方法,为解决传统数据库技术的缺】i f j 及传统软件能力的不足提供了一种新的手 段和方法。作为一种知识表达语言,描述逻辑( d e s c r i p t i o nl o g i c ,d l ) 早已被广泛应用于人工 智能、知识工程等领域,用作捕捉基于对象的概念知识之形式表示语言。将d l 应用丁| 信息 集成领域,是目前数据集成应用研究的一个新方向。该应用的基本技术特点是:1 ) 用d l 描述数据集成系统的中介模式,并作为系统的信息使用入口;2 ) 利用d l 的有效推理服务, 推理概念模式中概念间的包含关系层次结构和相互关系,由此来辅助检查概念模式的合理 性;3 ) 将d l 的推理服务用于支持数据集成系统的查询处理任务。显然,将d l 用于数据 集成,具有很大的技术优势,不仅有助于向用户提供直观、抽象和知识化的统一接口,而且 也为数据集成查询处理提供了一种新的技术手段。 本论文工作,是项目小绸目前正在研发的“基于描述逻辑的数据集成系统”项目中的一 部分,主要包括基于d l 的中介模式管理和基于移动代理的数据抽取两部分。在我们的集成 方案中,中介模式是应用域概念术语知识和事实知识( 对象成员断言知识) 的集合,它们构 成了所谓的d l 知识库。本文工作在这一部分的工作,主要是设计了一个以图形界面方式工 作的d l 知识库管理工具,可以很方便地编辑指定的d l 知识库中的概念、角色、个体和断言 ! j _ j 属关系。它可以与d l 推理机交互,并利川d l 的推理服务,计算知识库中概念的满足性以 及概念间的包含关系和层次结构。 数据抽取是数据集成系统的一个基本环节。在复杂的网络环境下,采用需要持续连接的 o d b c 、或远程过程调用( r p c ) 等传统的数据链接存取技术,对网络连接的稳定性、带宽要 求很高,无法克服抽取过程中经常存在的大量冗余数据传输问题,网络适应能力很差。而采 用h t t p 协议结合x m l 技术来抽取数据,虽然很灵活、网络适应能力也很好,但当主要针对 数据库为数据源、需要抽取大量结构化数据的应用场合时,也存在传输数据量大、抽取效率 低和组织困难等问题。而移动a g e n t 是基于代码移动理论,它的基本思想是把计算过程移动数 据本地而不是把数据移动到计算本地,传输的是加工结果而不是原始的相关数据。因此,从 本质上,它能很好适应复杂网络环境下的数据抽取应用,而且具有平台无关特性。本文提出 并初步实现了一种基于移耐j a g e n t 技术的数据抽取解决方案:d a t ae x t r a c t i o nu s i n ga g e n t ,它 具有如r 一些特色:1 ) 与平台无关性:2 ) 对网络质量要求较低;3 ) 1 1 有效节约网络带宽:4 ) 部署和维护代价比较低;5 ) 具有很好的分布并行计算能力和较高的抽取效率。 关键字:数据集成:描述逻辑;中介模式;自动推理;数据抽取:移动代理 中国科学技术大学硕士论文种基于逻辑的数据集成系统研究与实现 a b s t r a c t h o wt om a k ef u l lu s eo fe x i s t i n gd a t ar e s o u r c e sg e n e r a t e db yv a r i o u sa p p l i c a t i o n sn a m e l y h o wt ob u i l di n f o r m a t i o ni n t e g r a t i o ns y s t e mu n d e rh i g hh e t e r o g e n e o u se n v i r o n m e n to fe n t e r p r i s e a p p l i c a t i o na n dt os e r v em a n a g e m e n td e c i s i o n - m a k i n gi sa ni m p o r t a n tr e s e a r c hd i r e c t i o no ft h e c u r r e n te n t e r p r i s ei n f o r m a t i o n i z a t i o nc o n s t r u c t i o n b u ti ti n v o l v e sm a n yc o m p l e xt e c h n o l o g i c a l p r o b l e m ss u c ha sd a t ac r i t e r i o n ,d a t ae x p r e s s i o n ,d a t aa n a l y s i s ,d a t ae x h i b i t i o n ,e t c a c c o r d i n gt o t h ep r a c t i c eo ft h e i m p l e m e n t a t i o no fi a r g ep r o j e c t s s u c ha se b u s i n e s s ,e r ei n f o r m a t i o n i n t e g r a t i o ns y s t e ma n ds oo ni nr e c e n ty e a r s ,t h ee f f e c to fi m p l e m e n t a t i o no f d a t ai n t e g r a t i o ni sn o t p e r f e c t ,o n l yb a s i n g o nt r a d i t i o n a ld a t a b a s e t e c h n o l o g y o rr e l y i n go nt r a d i t i o n a l s o f t w a r e t e c h n o l o g yi m p r o v e m e n t ,s u c ha st h eu s eo fc o m p o n e n t s ,m i d d l e w a r eo ru s i n ga d v a n c e ds o f t w a r e t o o l st h ei n t r o d u c t i o no ft h ei d e a sa n dm e t h o d so fa r t i f i c i a li n t e l l i g e n c et ot h ea p p l i c a t i o nf i e l d w h o s ek e m e | i si n t e n s i v ed a t aa n di n f o r m a t i o no r i e n t e dp r o c e s s i n gp r o v i d e san e wm e a n st os o l v e t h ed e f i c i e n c i e so ft r a d i t i o n a ld a t a b a s e t e c h n o l o g ya n d s o f t w a r et e c h n o l o g y a sak n o w l e d g e e x p r e s s i o nl a n g u a g e ,d e s c r i p t i o nl o g i c ( d l ) h a sb e e nw i d e l ya p p l i e df o ra r t i f i c i a li n t e l l i g e n c e , k n o w l e d g ee n g i n e e r i n g ,a n do t h e rf i e l d s ,u s e da saf o r m a le x p r e s s i v el a n g u a g et oc a t c ho nt h e c o n c e p tk n o w l e d g eb a s e d o no b j e c t i ti san e wd i r e c t i o nf o rd a t ai n t e g r a t i o nr e s e a r c ht oa p p l yd l t ot h ef i e l do fi n f o r m a t i o ni n t e g r a t i o n t h et e c h n o l o g yh a sm a n yb a s i cc h a r a c t e r i s t i c s :1 ) u s i n g d lt od e s c r i b et h em e d i a t e ds c h e m ao fd a t ai n t e g r a t i o ns y s t e m ,a n du s i n gi ta st h ee n t r a n c eo f i n f o r m a t i o ns y s t e m 2 ) u s i n gt h ee f f e c t i v er e a s o n i n gs e r v i c e so f d lt oc o m p u t ei n c l u s i v er e l a t i o n s a n dl e v e ls t r u c t u r eb e t w e e nc o n c e p t si nt h ec o n c e p tm o d e l ,t os u p p o r tc h e c k i n gt h er a t i o n a l i t yo f c o n c e p tm o d e l 3 ) u s i n gt h er e a s o n i n gs e r v i c e so f d lt os u p p o r tt h eq u e r yt a s ko f d a t ai n t e g r a t i o n s y s t e m a p p a r e n t l y ,i th a sg r e a tt e c h n o l o g i c a la d v a n t a g e su s i n gd li nd a t ai n t e g r a t i o ns y s t e m i t n o to n l yh e l p st op r o v i d eu s e r sw i t hv i s u a l ,a b s t r a c ta n di n t e l l e c t i v eu n i f i e di n t e r f a c e ,b u ta l s o p r o v i d e san e wm e a n sf o rq u e r yp r o c e s s i n gi ni n f o r m a t i o ni n t e g r a t i o ns y s t e m t h ea i mo ft h i sp a p e ri sp a r to ft h e ”d a t ai n t e g r a t i o ns y s t e mb a s e do nt h ed e s c r i p t i o nl o g i c ” p r o j e c tt h a to u rg r o u pa r ed e v e l o p i n g i tm a i n l yc o n t a i n st w op a r t s :t h em a n a g e m e n tm o d u l eo f m e d i a t e ds c h e m ab a s e do nd la n dd a t ae x t r a c t i o nm o d u l eb a s e do nm o b i l ea g e n t i no u rd a t a i n t e g r a t i o nr e s o l u t i o n ,m e d i a t e ds c h e m ai st h es e to fc o n c e p tt e r m i n o l o g yk n o w l e d g ea n df a c t s k n o w l e d g e ( o b j e c ta s s e r t i o nk n o w l e d g e ) i nt h ea p p l i c a t i o nd o m a i n ,a l l o fw h i c hc o n s t i t u t et h e s o - c a l l e dd lk n o w l e d g eb a s e i nt h i sp a r to ft h ep a p e r , m a i na i mi st od e s i g nam a n a g e m e n tt o o l f o rd lk n o w l e d g eb a s e ,w h i c hc a ne d i tc o n c e p t ,r o l e ,i n d i v i d u a la n da x i o mi na na p p o i n t e dd l k n o w l e d g eb a s ec o n v e n i e n t l y , a n dc a nc o m m u n i c a t ew i t hd lr e a s o n e rt om a k et h ec o n s i s t e n c y c h e c k s g e n e r a t ei n h e r i t a n c er e l a t i o n sb e t w e e nt h ec o n c e p t sa n ds oo n i tc a ni n t e r a c t 、v j t l ld l r e a s o n e r ,a n dm a k e su s eo fr e a s o ns e r v i c ep r o v i d e d b yd lt oc h e c kw h e t h e rc o n c e p t i n k n o w l e d g eb a s ei ss a t i s f i a b l ea n dc o m p u t et h eh i b e r a r c h yo fi n c l u s i v er e l a t i o nb e t w e e nc o n c e p t s a d a t ae x t r a c t i o ni sab a s i c p r o c e s s i nd a t a i n t e g r a t i o ns y s t e m i n c o m p l e xn e t w o r k e n v i r o n m e n t s ,t h et r a d i t i o n a l d a t al i n k i n ga n d v i s i t i n gt e c h o l o g i e ss u c h a so d b cn e e d i n g c o n t i n o u sc o n n e c t i o n sa n dr e m o t ep r o c e d u r ec a , ( p p c ) h a v eh i g hd e m a n d sf o r t h es t a b i i t yo ft h e n e t w o r kc o n n e c t i o na n db a n d w i d t h ,a n dc a r ln o to v e r c o m et h er e g u l a rl a r g er e d u n d a n td a t a t r a n s m i s s i o np r o b l e md u r i n ge x t r a c t i o n h a v ep o o rn e t w o r ka d a p t a b i l i t y u s i n gh t t pp r o t o c o lt o e x t r a c td a t ac o m b i n i n gx m lt e c h n o l o g yi sv e r yf l e x i b l ea n dh a sg o o dn e t w o r ka d a p t a b i l i t y ,b u t t h e r ea r et h ep r o b l e m ss u c ha sl a r g ev o l u m ed a t at r a n s m i s s i m ) ,l o we f f i c i e n c ya n dd i f f i c u l t i e st o o r g a n i z ew h e nm a i n l yi nt h ea p p l i c a t i o nf i e l d su s i n gd a t a b a s ea sd a t as o u r c ea n dh a v i n gl a r g e 中国科学技术大学硕士论文 一种基于逻辑的数据集成系统研究与实现 s t r u c t u r e dd a t at ob ee x t r a c t e dm o b i l ea g e n ti sb a s e do nt h et h e o r yo f c o d em o v e m e n t ,i t sb a s i c i d e ai sm o v i n gt h ec o m p u t i n gt ot h el o c a t i o no fd a t ar a t h e rt h a nm o v i n gt h ed a t at ot h el o c a t i o no f c o m p u t i n g ,o n l yp r o c e s s e dr e s u l t r a t h e rt h a nt h ep r i m a r ya n dr e l e v a n t d a t ab e i n gt r a n s m i t t e d t h e r e f o r e ,e s s e n t i a l l y ,i tc a nw e l la d a p tt oa p p l i c a t i o no f d a t ae x t r a c t i o ni nc o m p l e xn e t w o r k k e y w o r d s :d a t ai n t e g r a t i o n ,d e s c r i p t i o nl o g i c ,m e d i a t e ds c h e m a , a u t o m a t e dr e a s o n i n g ,d a t a e x t r a c t i o n ,m o b i l ea g e n t 中国科学技术大学硕士论文 种基于逻辑的数据集成系统的研究和实现 1 1 研究背景及其意义 第一章绪论 经过多年的信息化系统建设,我国许多大中型企业都逐步建立了各类信息管理系统,以 及自动化的数据采集系统。这些系统的应用,不仅对企业规范管理和工作效率的提高起到了 很好的促进作用,而且也为企业积累了丰富的数据资料。但是,由于这些现有应用系统大都 是由不同厂商用不同的技术平台实施的,基本上都属_ r 分立运行、异构自治的系统,数据资 料分散且存在一定的冲突和不一致,数据共享和数据资源的再利用率很低。目前,企业中应 用环境异构体现在多个方面,如地理分布不同、软硬件平台系统不同、或数据模式异构,既 可能有传统的关系数据库或面向对象数据库等结构化数据源,也可能有e x c e l 电子表格、e d l 文档和网页等以文件形式存放的半结构化数据。 企业中这种各个系统各白孤立运行的现象,目前被形象成为“信息孤岛”。“信息孤岛” 究其根源是由于不同应用系统间,尤其是不同部门间的数据信息不能共享,企业中设计、管理 和生产等不同职能部门之间不能进行有效的信息交流。主要问题表现包括:有些信息需要在 不同的系统中重复输入;信息存在很大的冗余;有大量的垃圾信息;信息交换的一致性无法 保证。“信息孤岛”的问题已经严重地阻碍了企业信息化建设的整体进程,企业越来越多的 高级应用或高层管理辅助决策,都需要对这些分布、异构的各种数据资源进行整合,实现全 局、统一和高效的访问。因此,目前如何充分利用这些异构数据源中的数据资源,建立信息 集成应用系统,为管理决策服务,已成为当前企业信息化发展的新方向。构建集成应用的基 本目标是:在不影响现有应州运行的情况1 f 集成这些应用所产生的数据资料,并为用户建 立一个一致且方便的信息使用入口,使用户不必再去直接面对各类数据组织异构、操纵使用 繁杂的应用系统。 1 2 数据集成的研究现状 1 2 1 数据集成方法概述 数据集成是对各种异构数据提供统一的表示、存储和管理,这些功能在异构数据集成系 统中实现。数据集成屏蔽了各种异构数据间的差异通过异构数据集成系统进行统一操作。 中国科学技术大学硕士论文一种基于逻辑的数据集成系统的研究和实现 因此,集成后的异构数据对用户来说是统一的和无差异的。数据集成技术的研究始于七十年 代中期,至今已有二十多年了。从开始的多数据库集成发展到现在的异构数据源集成,数 据集成的范同和作用都在不断扩大。 a m i tp s h e t h l 2 1 提出数据集成的发展可大约分为三个阶段: i 7 0 年代n 8 0 年代中期:出现的主要技术有多数据库系统和联邦数据库系统,重点在于使 有着不同软硬件设备的计算机系统进行互连和通信,解决了一定程度上的语法和结构 异构,实现了地理分布、数据模式等的透明性,主要的产品有u n i s q l m ( u n i s q l ) 、 m e r m a i n 、d a t a l o i n e r ( i b m ) , f ( 1 0 m n i c o n n e c t ( s y b a s e ) 。 i i 8 0 年代中期到9 0 年代中期:随着网络的出现、i n t e r n e t 的发展以及多种类型的数据的形 成( 包括结构化数据库、半结构化数据、数字多媒体等) ,出现了一些支持多种类型的 异构数据集成的技术,如m e t a d a t a 、m e d i a t o r 、中间件等,主要的系统有t s i m m i s 、 g a r l i c 、s 1 m s 、h e r m e s 和l n f o s l e u t h 等。 越9 0 年代中期到现在这个阶段比较关注数据集成过程中的语义异构的解决问题,更多的 运用知识领域的有关技术。主要有信息的智能集成、数字化图书馆等。 综合这几个阶段的发展,期间出现的技术大致可分为以下两类: ( 1 ) 虚拟视图法:其中包括联邦数据库系统和中介系统。 联邦数据库系统:是数据库集成的最简单结构。它的构成方式是将所有组件数据库进 行一对一的连接,这种方式的数据集成是一个n 维问题。如果存在n 个数据库,则每 个数据库都需要与其它n 一1 个数据库实现 互操作,即如果你有n 个不同的系统或数 据源需要集成,你就需要建立n ( n 一1 ) 个不 同的数据交互接口( 接近n 的二次方) ,开 发者就必须编写n ( n - 1 ) 段代码来支持两 两之间的查询访问。对于大的公司,n 可 能上百位,则n 的二次方则会超过1 0 0 0 0 , 这看起来是个不可能的问题,所以联邦数 据库集成系统适合于自治数据库的数量 比较小的情况。联邦数据库系统的体系结构如图1 1 所示 中国科学技术大学硕士论文一种基于逻辑的数据集成系统的研究和实现 根据对联邦数据库的控制及操作方式,可以将联邦数据库分为松耦合联邦数据库和紧耦 台联邦数据库。松耦合联邦数据库没有全局数据模式存在,用户必须通过特定的多数据库操 作语言及自己对联邦的定义、维护来实现数摒运营,这样联邦数据库中的各数据库就更具有 自治性。紧耦合联邦数据库拥有全局数据模式和全局数据库管理员,由管理员负责创建和维 护全局数据模式,并向州户提供统一的数据操纵接口,由于全局模式耍解决逻辑上的异构, 就需要领域专家决定数据库模式间的对应关系,所以不易增加或删除系统中的数据库。根据 全局模式的数量可以将紧耦台联邦数据库分为单联邦数据库和多联邦数据库。单联邦数据库 只有一个全局模式存在而多联邦数据库则可以为不同用户群建立多个全局模式。 中介系统:一种软件构件,通过提供所有异构数据源的虚拟视图进行集成。数据源可 以是数据库、遗留系统( 1 e g a c ys y s t e m ) ,w e b 数据源等。这种集成方式与数据仓库中使 用物化方法集成数据源的方式相似,但它不存储任何实际数据。系统提供给用户一个 全局模式( 也称为中介模式) ,用户针对全局模式提交查询而不必知道数据源的位置、 模式和访问方法,系统将用户查询翻译成一个或多个对数据源的查询。然后将数据源 的查淘结构进行综合处理,并将它返回给用户。中介系统中的数据源是完全自治的, 可以容易地增加或删除数据源。中介系统一般由一个中介器和多个包装器( w r 印p e r ) 组成。包装器用于将数据源的数据转换为集成系统可以处理的某种结构化的数据。中 介器的功能是分析针对全局模式的查询,分解为子查询,并将它们转换为针对相应数 据源的查询,最后台并所有数据源的结果返回给用户。 ( 2 ) 物化方法:主要指数据仓库方法,该方法需要建立一个存储数据的仓库,将来自多个数据 源的数据副本都存储在单一的数据库中,f 1 e t l ( e x t r a c t ,t r a n s f o r m ,i o a d ) i 具定期从数据源 过滤数据,然后装载到数据仓库,供用户查询。不足之处在于数据仓库中的数据在存储之前 要经过一定的筛选处理,而且数据仓库还需要定期更新,所以用户查饲到的数据可能不是最 新的。 1 2 2 数据集成技术中的问题 在高度异构的企业应用环境下,设计信息集成系统是一项很复杂的任务,需要考虑多方 面的技术和因素,包括: 1 ) 如何指定中介数据模式( 概念模式) 【3 4 】。为统一用户接口,并能在较高的抽象层次 上表达刚户查向,数据集成系统应有一个独立于现有数据源的、抽象层次较高的中介模式, 中国科学技术大学硕士论文一种基于逻辑的数据集成系统的研究和实现 应能从全局的视角反映企业集成应用需求。 2 ) o n l , ,l 处理中介模式和数据源的关系。目前主要有两种方法”:第一种称为 g l o b a l a s v i e w ( g a y ) ,是一种查询基于的( q u e r y b a s e d ) 表示法,要求将中介模式中的每个模 式项用源模式中有关模式项来描述定义;第二种称为l o c a l a s v i e w ( l a v ) ,是一种源基于的 ( s o u r c e b a s e d ) 方法,要求中介模式独立于各数据源,将源模式中的各模式项用中介模式中 有关模式项来描述定义。g a v 方法的集成查向处理简单直接,但扩展性差,一旦数据源变化 需修改中介模式的描述定义:而l a v 法的集成查询处理是间接的,但提供了更好的可扩展性, 当源变化时,不需改变中介模式,只需增加或修改一些源描述即可,l a v 主要的缺点是可能 产生不完全的查询结果。 3 ) 选用何种集成数据存储方式。有物化和虚拟视图两种方式。物化法,也称数据仓库 ( d w ) t 6 1 法,需汁算中介模式的赋值扩展来取代现有数据源。虚拟法,数据始终只驻留在数 据源中,用户查询将最终转为对源数据的存取。两种方法各有利弊,物化法,要求事先按集 成查询需求组织好所有可能的结果数据,回答查询响应快,但数据集中存储库的定时刷新和 维护难度大,也难以灵活适应用户需求的变化。虚拟法由于每次回答用户查询都重新计算, 集成查询较灵活且可免除对中间结果存储库进行更新维护的负担,但这对那些可能涉及大量 数据计算的查询( 每次查询都要重新计算) 效率低f 。 4 ) 如何处理用户基于中介模式提出的查询。用户基于图形化的界面提出的查询需要被 转换成一种基于中介模式的规范化的形式。 5 ) 如何从各种异构数据源中抽取数据。由于互联网技术的快速发展,大部分中小企业 的各个异地部门都采用廉价的互联网来交换数据,而不是租用昂贵的网络专线来构建远程局 域网。在复杂的互联网环境中,对数据集成系统提出了新的要求。 6 1 如何进行数据清洁和协调【”。因各数据源中数据存在不匹配、错误或表示法不一致 等问题,故对从数据源中抽取来的数据进行转换协调,合并等处理,也是数据集成的一项重 要任务。 传统的数据库技术由于缺乏语义及知识表达能力,从应用域分析建模过渡到传统数据 库中的数据表示,不仅缺乏平滑性,而且会使语义知识丢失,存在天生的缺陷。国内外大量 的工程项目实践已表明,试图仅依赖传统数据库技术和软件能力的提高( 如采用o o 技术、 中间件技术、以及一些先进的开发和管理工具) 是无法从根本上解决这些技术难题的。 在数据库应用领域引进人工智能( a i ) 的思想和方法,为解决传统的数据库技术存在 的缺陷、不足和各种难题提供了一种新的方法和思路。作为一种知识表示语言,描述逻辑 一4 中国科学技术大学硕士论文 种基于逻辑的数据集成系统的研究和实现 ( d e s c r i p t i o nl o g i c s ,d l ) 8 1 9 1 早已被广泛应用于人工智能、知识工程等领域,用作表示基于 对象的概念知识和语义的形式语言。目前,基于各类描述逻辑的相关推理问题,包括可满足 性和蕴涵判定问题的算法以及计算复杂性的研究都已经很充分。国外关于描述逻辑引入数据 库应用领域的研究也已经有近十年的历史,其中受到广泛关注的一个研究热点是将描述逻辑 应用于信息集成。该技术的基本应用特点有: a )利用d l 描述数据集成系统的概念模式,概念模式相关说明知识和应用域的具体对 象成员断言知识,构成d l 系统的知识库。 b )通过d l 的模型解释机制,实现基于描述逻辑的知识库和关系数据库相结合。 c )利用d l 的推理服务,计算知识库中概念的满足性和概念问的包含关系的层次结 构,由此来评价、检查概念模式的合理性和正确性。 d ) 将描述逻辑的推理服务用于支持集成系统的查询处理任务。 显然,当用基于d l 描述的概念模式作为集成系统面向用户的统一接口后,用户就不需 要再去熟悉了解各个应用系统及其数据源,从而可以减轻用户的负担;而利用d l 的推理能 力辅助检查、评价企业数据的概念模型,对于构建、完善企业统一面向全局应用的数据模型, 指导企业数据规范都具有重要意义。 1 3 本论文的工作 工作 在项目组提出的基于描述逻辑的数据集成框架体系下,重点负责完成以下几个方面的 1 1 深入研究和调研目前d l 推理器实现的有关技术标准、实现方案,以及目前可用的、 由第三方开发提供的d l 推理器资源。 2 )用j a v a 语言,设计了一个基于d l 的知识库管理的、以图形方式工作的管理工具 模块,实现对数据集成系统中介模式的统一有效管理。 3 ) 改计并实现一种基丁移动a g e n t 技术的数据抽取方案( d e a ) 。它满足以下一些基本 要求:1 ) 与平台无关性:2 ) 对网络质量要求较低;3 ) 能有效节约网络带宽;4 ) 部署 和维护代价都比较低:5 ) 具有很好的分布并行计算能力和较高的抽取效率。 1 4 章节安排 第一章绪论主要介绍了数据集成研究的背景、意义,以及数据集成系统的研究现状 中国科学披术大学硕士论文 种基于逻辑的数据集成系统的研究和实现 和研究中的一些难点问题。 第二章描述逻辑基础介绍了描述逻辑的基本理论和它的标准d i g i 1 。 第二章数据集成系统应j : j 框架 采用一个新的数据集成的构建方案:以描述逻辑 ( d e s c r i p t i o n l o g i c ,d l ) 说明中介模式;采用l a y 方法处理数据源和中介模式的关系。集成查 询处理器( q u e r ya n s w e r i n gp r o c e s s o q a p ) :是本集成体系的核心组件,本章给出q a p 的实现 算法。 第四章数据集成管理模块的设计_ _ f 实现设计了一个基于描述逻辑的中介模式管理工 具,它可以有效的管理中介模式的d l 知识库,更重要的是它能够通过与描述逻辑推理机的 交互具备对知识库的进行推理的功能,验证中介模式的完备性。 第五章基于移动a g e n t 技术的数据抽取模块提出了一种将移动a g e n t 技术应用于复杂 的网络环境中数据抽取的解决方案,并开发了一个数据抽取模块,作为该集成系统的查询处 理器中的子查询处理模块。 第六章结束语总结本论文的研究工作,并提出了下一步的工作目标。 最后是读研期间本人发表的论文和参考文献。 中国科学技术火学硕二l 论文 种基于逻辑的数据集成系统的研究和实现 2 1 描述逻辑简介 第二章描述逻辑基础 在知识表示的研究中,描述逻辑( d e s c r i p t i o nl o g i c ,d l ) i ”是基于对象的知识表示的形式 化工具,它吸取了k l o n e 的主要思想,是一阶谓词逻辑的一个可判定子集,能够提供可判定 的推理服务,并且具有语义特征。在经过二十多年的研究与发展之后,描述逻辑已经基本趋于 成熟并走向应用。除了知识表示以外,描述逻辑还用在其它许多领域,如信息系统、数据库、 软仆l 群、网络智能访问和舰划i l 。描述逻辑被认为是以对象为中心的表示语言的最为重 要的归一形式。描述逻辑的重要特征是很强的表达能力和可判定性,它能保证推理算法总能 停止,并返回正确的结果。在众多知识表示的形式化方法中,描述逻辑在十多年来受到人们的 特别关注,主要原因在于:它们有清晰的模型一理论机制;很适合于通过概念分类学来表示应 用领域;并提供了很有用的推理服务。 在描述逻辑中,用户感兴趣的应用被抽象为一组概念和概念问的关系的知识,其中:概 念被解释为同类对象的集合,两个概念之间联系被称为角色( r o l e ) 关系,则被解释为属于 两类概念的实体对象问的二元关系( r e l a t i o n ) 集合。描述逻辑是建立在概念和角色之上, 由构造算子( c o n s t r u c t o r ) 从原子概念和角色构造出复杂概念和角色。概念对应于逻辑中的一 元谓词,角色对应于二元谓词,构造算子决定着语言的表达能力,类似于逻辑连接词的功能。 2 2 描述逻辑系统的体系结构 描述逻辑系统是由两个部分构成:一是知识库( k n o w l e d g eb a s e ) ,知识库又能分成t b o x 和a b o x 两个部分,一个t b o x 存取一个应用域的概念知识。而一个a b o x 存取断言 知识。二是推理引擎,推理引擎可以实现不同的推理服务。描述逻辑系统通过接口与应用 程序交互。图2i 是描述逻辑的基本结构: 中茸科学技术大学硕:t 论文 一种基于逻辑的数据集成系统的研究和实现 图21 描述逻辑系统的结构 2 2 1 描述逻辑的基本语法和语义 在描述逻辑中,用户感兴趣的应用域被抽象为一组概念和概念间关系的知识。概念 ( c o n c e p t ) 是描述逻辑核,i i , ,概念被解释为同类对象的集合,两个概念间联系被称为角色承o l e ) 关系,则被解释为属于两个概念类的对象间的二元关系( r e l a t i o n ) 集合。而描述逻辑语言则 可以在原子概念和角色关系的基础上,通过有限的构造算子构造出复杂概念( c o m p l e x c o n c e p t ) 和知识库规则。 有多种描述逻辑版本,它们一般是在最基本的描述逻辑a l c 基础上,扩张一些构造算子 而形成。构造算子越多知识表达的能力越强,但相应推理的复杂度会变大,应根据需要折中 选择。本方案使用a l c q ,它在a l c 基础上扩展了两个数量限制算子。a l c q 中概念描述( c 或d ) 的构造语法是: c ,d atf 上fcndcud1 civrcf 了r cf nr cf nr c 其中,a 是原子概念,r 是角色关系,代表非空全域概念,即应用域的任何概念,t 是 任何概念的父概念,也有文献中用t o p 表示,1 是空概念即不能包含任何对象实例,是任 何概念的子概念,也有文献中用b o t t o m 表示,cnd 是两概念的合取,cud 是两概念的 析取,一c 是概念的否定,即概念c 的补,vr c 是全称量词限定,3 r c 是存在量词限定,! n r c 是最大数量限定,;nl c 是最小数量限定。 定义1 :一个解释i 是一个二元组( a 1 ,o i ) ,其中是一个非空域,是一个解释函数。 中国科学技术大学硕士论文一种基于逻辑的数据集成系统的研究和实现 将每个概念名c 映射为中的一个子集c 。,c 1 e a :对每个属性名a ,a 1 是一个从1 映射到 l 偏函数,角色名r 对应为一组二元关系子集r 1 ,r 1 e 1 1 。 基于以上定义的下面的各方程是满足的,它们分别给出了各相关项的语义,见下表 解释语义 t li 上i o ( vl c ) 。 x ez x l v y ( x ,y ) r 一y c 1 ) ( jl c ) 1 x z x l i j y ( x ,y ) r 1ay c 1 ) c - nr c v ( x 1 拌( y :( x ,y ) r 1ay c 1 ) n ) ( 三n t c ) 1 x | 抖( y :( x ,y ) r 1ay c i ) 蔓n ) ( 一c ) 1 1 c 1 ( c 几d ) 1 c 】n d 】 ( c u d ) 1 c j t a d l 表2 1 描述逻辑语义 如果一个解释1 使得一个概念c 满足c 1 0 则称解释1 是概念c 的一个模型,如果概 念c 存在一个这样的解释l ,则称概念c 是满足的。 当且仅当c 1 e _ d 1 时,称解释i 是包含断言c e _ d 的一个模型,当且仅当对所有的解释i 都有c 1 e _ d 1 则称包含断言c e d 是满足的。 2 2 2 描述逻辑系统的知识库 定义2 ( 知识库r d 3 ) :知识库是一个二元组( t ,a ) 。其中,t 是一个t b o x ,用来存储 一个廊用域的术语概念及其相关的关系结构知识;a 是一个a b o x ,用来描述实际世界的状 态,即存放个体成员断言或实例断言知识。 定义3 ( t b o x ) :一个t b o x 是有限的一组a l c q 概念定义。a l c q 概念定义的具体形 一9 中国科学技术大学硕士论文种基于逻辑的数据集成系统的研究和实现 式是c c _ d 或c d 。这里c 是被定义的概念名,d 是基于a l c q 的概念描述体。一个t b o x t 是无环的,如果t 中的每个概念描述名只被定义一次,且其唯一定义式右边没有直接或间 接包含左边的定义名。c o d 这种形式引入了一个原始概念c ,因为只定义了概念c 的一些 必要条件。c 二d 这种形式引入了一个复杂概念c ,它精确说明的概念c 的充分必要条件。 显然,对基于一个t b o xt 定义的概念,可在其定义描述体中引用t 中其它的概念名。 而不基于任何t b o x 定义的概念,其概念定义体中只能包含最基本的原子概念。 我们称一个解释i 是一个t b o x t 的模型,如果i 满足t 中的所有概念定义。 定义4 ( a b o x ) :一个a b o x a 是一个关于断言形式c ( a ) ( 概念断言) 或“a ,b ) ( 角色关 系断言) 的有限集,这里c 是一个概念描述,r 是一个角色名,a , b 是个体名。 解释i 是a b o xa 的一个模型,如果a i c c l ,( a 1 ,b 1 ) ,对a 中的所有断言c ( a ) r lr ( 曲) 都成立。 一个a b o xa 是一致的,如果它存在一个模型。称个体a 是概念c 关于知识库k b ( t , a ) 的一个实例,如果a c 对所有知识库k b ( a ,b ) 的模型i 都成立。 2 2 3 描述逻辑系统的推理服务 可满足性问题是描述逻辑推理中的核心问题,因为其它许多问题( 如包含检测、一致性 问题等) 都可转换为可满足性问题。为了能t | _ | j 计算机自动判断描述逻辑中可满足性问题, s c h m i d t s c h a u b 和s m o l k a 首先建立了基于描述逻辑a l c 的t a b l e a u 算法【9 】,该算法能在多 项式时间内判断描述逻辑a l c 概念的可满足性问题。目前,t a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论