(模式识别与智能系统专业论文)一种分布异构数据集成处理方法的设计与实现.pdf_第1页
(模式识别与智能系统专业论文)一种分布异构数据集成处理方法的设计与实现.pdf_第2页
(模式识别与智能系统专业论文)一种分布异构数据集成处理方法的设计与实现.pdf_第3页
(模式识别与智能系统专业论文)一种分布异构数据集成处理方法的设计与实现.pdf_第4页
(模式识别与智能系统专业论文)一种分布异构数据集成处理方法的设计与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(模式识别与智能系统专业论文)一种分布异构数据集成处理方法的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 如何充分利用各种分散、异构的数据资料,为管理决策服务,已成为当前信 息化发展的一个新课题。构建数据集成系统的基本目标是,在不影响现有应用系 统运行的情况下,集成这些可能是高度分布、异构或分立运行的应用系统所产生 的数据,并为用户或高级应用提供透明、一致的信息服务和统一的数据应用入口。 然而,在数据资源快速增长和高速演化的网络应用环境下,实现这一目标是一个 困难而且复杂的任务。 本文是项目小组正在研发的“基于数据服务匹配的数据集成系统”项尽中豹 一部分,主要目标是为主系统管理( 生成维护发布) 数据服务基本单元( d a t a s e r v i c e sc e l l ,d s c e l l ) ,并为数据服务单元的执行提供分布数据处理支持。数 据服务单元是数据集成处理描述包( d a t ai n t e 鲈a t i o np r o c e s s i n gd e s c r i p t i o n ,d i p d ) 的封装单元,是一种关于数据服务( 瓷源) 豹本体描述文档。通过对d i p d 输出 数据项与领域本体概念的映射,可以实现数据服务单元( 数据产品) 的与主系统接 口标准化。论文的主要研究工作成果如下: 1 。提出用d i p d 包来描述异构数据处理过程,d i p d 包将数据处理过程概括为对 数据源的数据抽取、数据变换、数据加工合成和数据输出等过程的有机组合; 在此基础上,设讨”了一种数据服务管理平台。该平台可以针对局域内的一个 或多个数据源,辅助设计和生成一个或多个d i p d ,并可将d i p d 封装为标 准的d s c e l l ,发布注册到数据服务中心。该平台目前已可以初步运行和工 作。 2 ,在深入分析i 蒯移动a g e n t 平台( a g l e t s 系统) 源码的基础上,对其进行了数 据集成应用方蘧的扩展,来实现分布数据服务单元执行处理的并行化。有关 实验测试结果表明,使用a g l e t s 扩展方案能显著提高系统数据蹑务单元执 行的性能、灵活性和可靠性。 关键字:数据集戒;异构数据处理;数据服务单元;移动a g e n t ;领域本体 a b s r 鑫c t a b s t r a c t h o wt 0m a 缸e 血l ll l s eo fd i s 妊i b u t e d ,h e t e r o g e n e o 毽sd a 【量ar e u r c e st os e r 诣 m 煳g e m e n td e c i s i o n - m a k i n gh 豁b o c o m ean e wt o p i eo f 也ec 址r r e n td e v e f t h es e r v l c e p a t f o r ma n d d l p dp a c k a g ed e f l n i t i o nc a n achievedd a t ai n t e g r a t i o nt a s k si nl a n ,a n dt h er e s u i t sc a nb er e k a s e d foro n eo rm o r ed s c e l lt ot h e outsidew o r i dt o 口r o v l d ed a t a s e r v i c e s j h e s v s t e wc a nu s e n o 、航2 a f t e ro h t l n i n g thet e c h n ;q u ec h a r a e t e f s t ;e so fa g e t 毒a n e x t e n d e d p 潮e c ts c h e m ef o rd a t a integrat0nj sp r o p o s e da n d _ m p l e m e n t e d 1 tc a nb eu s e da sthem a i n technology f o rd a t 8s e r v i c ed i s s e m j n a t i o n ,d a t as e a r c ha n dd a t a 酗teg怕tion。e磴erme髓禹results幽0w that娃seagletscanpcessds-clland珏 论文原钊性和授权使用声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部f - 】或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫攒等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名_ 一金逮 2 瞄年r 月砑日 啦笠。 。b 谂jl ,。 第一章绪论 1 1 研究背景及意义 第一章绪论 综合利用企业中现有的各类管理信息系统o “a n a 薛m e n ti n f o n n a t i o ns y s t e m , m i s ) 的数据资源,为各级管理决策提供强有力的信息支持服务,是当前企业信息 化建设向前迈进过程中最重要的热点应用领域之一。 当今各大中型企业内部都存在着大量的信息数据,两企业闯甚至企业内部各 部门之间的数据都是高度异构的。企业信息系统无论其面向针对性,还是其提供 的功能与形式,都还未摆脱部门级的应用范畴,在企业整体应用框架内属于分散 的、数据资料产生系统。它 f l 的蠢标定位主要还是为满足部门专业工作的需要, 提高部门工作的规范性和效率,同时,为企业收集积累与专业相关的基础数据资 源。因此,这些管理信息系统并不是企业信息化应用的终点目标,它们不能为企 业高层辅助决策提供真j 下有有价值的、适合他们使用的信息。此外,由予现有不 犀应用系统大都是在缺乏统一规划的基础下分别独立开发设计的,它们信息资源 的规划完全是独立进行,整个企业的信息资源被划分几个大的信息孤岛,各职能 部门之间工作与信息交流不畅,业务数据共享程度和利用率很低,不同部分业务 数据之间存在不一致或互相矛盾的现象,因而对企业管理决策支持作用也非常有 限。两随着时间的推移,信息量的加大,这一现象延缓了企业的信息化建设。如 何有效的将数据统一组织,为用户提供一个统一和透明的访问界面来访闯网络之 上的各种数据信息,消除信息孤岛,为整个企业所共享显得越来越重要。 基于数据库的数据集成技术、数据仓库技术和数据挖掘技术,以及工作流管 理技术近几年得到了很大的发展,而且开始逐步走向成熟。将基于数据麾的数据 集成技术与数据仓库技术结合,可以很好地对企业的已有数据进行整合集成和分 析挖掘利用,进而为企业管理决策提供强有力的支持服务。通过工作流管理技术 不仅可以实现企业盼业务重缎和业务流程自动亿,两且可以很好实现对异构环境 下的企业已有应用系统进行集成。 近几年国内外在信息化运用方面比较成功并顺利实现企业管理模式转型的 许许多多发展事实已表明,只有进行统一的信息资源规划和统一应用系统的设计 开发,使企业不尉部门不同层次的系统豆连,走系统集成的道路,傻企业中现有 的各类相辅相成构成统一协调的整体,才能为企业的生产、经营真正提供有效的 信息化的支持。 第一章绪论 1 2 数据集成的研究现状 1 2 1 一些早期的数据集成方法研究 传统上,解决数据集成问题常采用“点对点”和“完全集成”两类方案。 “点对点”的数据集成方案本质上是一个非通用的数据集成解决方案,当一 个新的数据源需要被集成和存取时,通常需要建立一个新的包装器集和一组专门 的数据存取应用。对需要在一组异构数据源系统中维护或保持数据一致性的应用 场合,点对点集成方案是无法实现的。 完全集成系统能解决许多一致性和完整性问题,将异构数据合并到一个公共 视图下。但不幸的是,在包含大量快速演化数据源的应用环境下,这种方法常不 具有可伸缩性。有几个典型早期数据集成系统,如多数据库系统【l 捌和联邦数据 库系统m 】,采用了这种方法,它们通常需要进行大量模式集成。 1 2 1 1 具有全局模式的多数据库系统 这类系统简称m d b s ( m u l t id a t a b a s cs y s t e m ) ,能实现不同模型、或同模型下 具有不同设计模式的多数据库完全集成,维护着一个共享的全局模式,为各成份 数据库提供一致、均匀的视图和统一的数据存取。所有的数据共享、数据交换, 都是通过这个全局模式进行。这相当于在各参与集成的成份数据库之上,形成一 个均一的、面向用户的数据层。这类系统难点是如何指定中介数据模式( 概念模 式) p “】,统一用户接口,在较高的抽象层次上表达用户查询,从全局的视角反 映企业集成应用需求。 m d b s 实现采用自底向上的设计方式,每个数据源有相对的自治性,有自己 的数据模式。m d b s 的主要缺陷是:1 ) 全局模式无法自动生成,需人工理解和 定义全局模式与各数据源模式之间的映射关系,并解决诸如语义、结构方面的异 构问题。2 ) 不适应演化多变的集成环境,任何新数据源加入或原有数据源修改 都会导致全局模式的大量调整。 1 2 1 2 联邦数据库系统 联邦数据库系统f d b s ( f e d e r a t e dd a t a b a s es y s t e m ) ,是多数据库的松散耦 合,通常没有统一全局模式。其集成的程度取决于各数据源间耦合的程度。 在一个松散耦合的f d b s 中,各成份d b 都有一个由本地管理员创建的输出 模式,各成份d b 的用户也是f d b s 的用户,但不同成份d b 用户使用的联邦模 式( 本地数据模式加其它成份d b 向其开放的输出模式) 往往是不同的。联邦数 据库系统将所有组件数据库进行一对一的连接,如果有n 个数据库,则每个数 2 第一章绪论 据库都需要与其它n 1 个数据库系统实现互操作,需要建立n ( n 1 ) 个不同的 数据交互接口,开发者必续编写n + ( n 1 ) 段代鹃来支持两者之问的查询访问, 因此联邦数据库集成系统只适合自治数据库的数最比较小的情况。 f d b s 一般都有一个联邦数据字典,包含各成份的输出模式,以及各成份可 供其它用户共享的权限定义信息,包括有关统计信息等。f d b s 的主要优点和局 限性是,1 ) 松散耦合的f d b s 允许用户创建自己的视图和联邦输入模式,能较 好适应有动态变化的成份数据源。但也带来了重复工作问题一一各用户可能查询 同样的目标数据而创建同样的视图,同时这种重复也会增大全局联邦数据字典的 负荷。2 ) 通常有庞大的联邦数据字典。 1 2 1 ,3 多数据库语言系统 褥比于m d b s 和f d b s ,多数据库语言系统( m d b m l s ,m u l 硅d a 拓l b a s e m a n i p u l a t i o nl a n g u a 黔s y s t e m ) 中参与集成的备成份数据源闻,其有更松散的耦合 和更高程度的自治,完全没有或不维护公共数据模式( 但有公共数据模型) 。专 用的多数据库语言提供了统一的用户接口,其实现的基本方法是:1 ) 系统维护 一个公共的数据模型,被用来表达各成份数据源之闯的数据交换;2 ) 提供一种 基予公共数据模型的通用多库语言;用户对任一个成份数据源的查询,都可雌基 于通用多库语言来表达和提出;3 ) 系统提供了一个多库语言查询处理引擎。4 ) 用户基于多库语言提出的查询,经查询引擎处理后,通常会被分解为多个子查询, 子查询然后再被映射到菜残份d b 的本地查询。各予查询结果返回焉,经查询处 理引擎整合后,返回绘用户。 现有的一些数据集成方法,如用基于公共数握模型x d m 的查询语言x q u e r y 采表达用户查询,就可看作是一种多库语言方案,这里多库语言为x q u e r y 。 m d b m l s 的主要缺陷是,虽然用户不必掌握各成份数据源的本地查询语富, 但必须在很高程度上掌握关于各成份数据源的知识。为了发出一个查询,用户, 必须对各成份数据源都有一个广泛的了解,必须自己解决它们之间的语义冲突。 缺乏位_ 置和分布的透明性是其最大的缺陷。 1 2 2 一些比较现代的数据集成方法研究 1 2 2 。1 数据中贪器( o a t am e d l a t o r ) 方法 数据中介器是集成异构数据的一种较现代的方法m ,9 】。一个数据中介器 ( m e d i a t o r ) 是个软件模块组件,能为它的客户应用提供或实现针对异构数据源 的一致的、集成的数据存取。数据中介器登须捕获所有基于多数据源的数据集成 过程语义,包括集成过程涉及的有关操作、数据交换、潜在冲突解决等。在一 3 第一章绪论 个中介器系统中,一个应用可以基于局部语言和模式发出一个查询,查询将被透 明地变换到用其它语言和模式表达的相关查询。 图1 1 给出了一个具有三层结构的数据中介器系统体系结构图。它由数据源 层( 由参与集成的异构数据源构成) 、数据集成层或中介器层( 从数据层抽取和 集成数据,并向应用层提供一致的、集成的数据) 和客户应用层等三个层次构成。 图1 1 一个典型的中介器系统体系结构图 数据中介器是一种相对轻量级的数据集成方法。大多数已有的方法如 m d b s ,需要对各成份数据源进行完全集成,必须在集成过程中,统一解决所有 参与集成数据源中存在的潜在冲突( 包括结构和语义冲突) ,这不仅是一个耗时、 易出错的过程,且集成新数据源或改变集成语义也往往是件很困难的事。而基于 中介器的数据集成,各成份数据通常只有数据的部分子集参与集成,只需解决该 子集中潜在的冲突。当有新数据源加入或有数据源被修改时,只需对现有的集成 定义做相对很少的修改。 另外,在数据中介器系统中,往往没有一个单独的全局模式。数据中介器系 统通常只是由多个数据中介器一一每个执行一个特定的集成过程一一松散地耦 合在一起,每个成份数据源或遗留系统通常可借助于一个包装器提供标准接口。 因此,改变一个中介器系统的集成语义也是一个轻而易举的事情。下面将简要介 绍几个基于中介器的系统或产品。 ( 1 )t s i m m i s 【1 0 】 t s i m m i s 是较早出现的、相对原始的中介器系统,源于t s i m m i s 工程。它 使用自己的数据模型一一对象交换模型( t h eo b j e c te x c h a n g em o d e l ,0 e m ) 来执 行其集成过程。基于包装器机制来映射数据源到o e m 和映射用户查询到特定数 据源的查询,能很好支持对各种遗留系统的集成。t s i m m i s 提供一个包装器说 明语言w s l ( a w r a p p e rs p e c i f i c a t i o n l a l l g u a g e ) 来辅助自动生成包装器。然而, 4 第一章绪论 这种自动生成的包装嚣功能非常有限。 t s l m m i s 的中介器用来从多个包装器或其谴中介器集成数据。系统也搓供 了一个中介器说明语言( m s l ) ,来自动产生筒单的中奔器。艇其功能是受限制 的一仅能提供多数据源视图,m s l 本质上可视为一种基于o e m 数据模型的视 图定义语言,不能定义诸如集合操作、更新数据源等复杂的集成语义,也没有提 供解决数据语义或结构舅构的设施橇嗣。 ( 2 ) i n f o r m l a 斟f o r m n 巾介器是一个典型的、具有传统三层体系结构的中介器实现原 墅系统。对于不能提供标准接口的数据源,必须提供或实现一个包装器,阻提供 各髑她数据源模式戮f o r m 後数据摸型( o d m g2 。0 ) 的浃射翻变换。 i n f o r m i a 本质上也可视为一个受限的多数据库语富系统,提供了一个功 能较强但受限的通用多库编码语言。所有关于集成过程语义的信息和知识,包括 数攒源信患和映射过程等,都需要预先用这个通用编程语言进行编确,然后再对 编码进行静态编译处理。因此,一量数据源或集成镊义发生变换,必须重薪编译 有关编码。 。2 。2 2 数据仓库方法 数据仓库( d 搬w a r e h o u s e ,d w ) 是一种典型的集中式数据集成技术 1 l l ,用于 支持组织的数据分析和管理决镣。业界公认的数据仓库之父w i i i n m o n 绘数据 仓库鹈下了一个这样的定义:“数据仓库是面向主题的、集成的、随时问交化的、 稳定的数据集合”【1 2 1 。 数据仓库是面向主题的。在操作型系统中,应用的功自和数据是围绕着业务 活动来组织的:而数据仓库环境中,数据是围绕主题或组织关心的一些指标 来组织的,以满足决策支持系统( d e c i s i o ns u p p o r f i n gs y 啦m ,d s s ) 分析处理 的需要; 数据仓库中的数据是随时间变化的、集成致的。数据仓库中同时维护着历 史和当前数据,其数据量怒一个不断递增积累的过程。数据仓库系统通常借 助一币申称为e t l ,( e x t r a c t ,琢a n s f 酾n ,l o 酣) 的工其,定时( 如每日或每月1 次) 从操作数据源中力瑟载数。当数据从操作型环境被迁移到数据仓库环境对,数 据就被集成。这里集成包括了两个方匠的含义:1 ) 原先在各操作型环境中 不一致的相关数据,被修正转换为一致;2 ) 来自各操作型环境的数据,经 转换一致薅,按d s s 处理要求,被合并或整合。 数据仓摩是稳定的。数据被导入到数据仓瘁后,裁很多变动( 更改) ,逶常 是只读的。 5 第一章绪论 数据仓库是支持管理决策的过程。数据仓库的最终目的,不是用来支持业务 上的日常操作,而是用来支持战略性的管理决策。数据仓库可以让组织高层 人员更好地了解有用的数据资源,从过去和现在的数据中看出未来的趋势和 运作各环节对这种趋势的影响,因此,能更好地进行决策分析,提升组织的 竞争能力。 数据仓库本质上是一个为满足管理决策数据分析需要而设计的特殊关系数 据库,维护着集成的、一致的和物化的视图信息。在数据仓库中存储了大量或甚 至是海量的历史数据,其数据模式是组织中高层管理用户的统一入口全局模式或 统一视图。为适应大量数据的只读查询和大量的汇总操作,其模式的逻辑结构设 计与一般操作数据库稍有不同。因数据仓库的全局数据模式或统一数据视图对应 的数据已生成并实际存储在数据仓库中,数据仓库方法也常被称为物化的数据集 成方法。 作为当前数掘集成的一种重要方法,数据仓库技术的主要优点是,因为已事 先将各分布异构的操作数据源中的数据,通过e t l 方式定时迁移转储到仓库中, 且数据在转储过程中已进行了清洁和一致性处理,用户查询的回答结果集基本 上已按预设的查询类型整理好并存储在仓库中,因此,具有响应快、效率高的特 点。其主要缺点是,不能灵活适应查询需求的变化。另外,把所有潜在有用的数 据都集中存储,随着数据的不断增加,对系统资源和维护的要求也会日益加大, 以致难以承受。 1 2 2 3 虚拟数据集成方法 与数据仓库方法不同的是,在虚拟法【u 】中,被集成的源数据始终驻留原地。 虚拟方法的前身是联邦数据集成,但一般都有一个虚拟的公共数据模型。用户查 询通过虚拟的公共数据模型接口提出,并被分解为针对各相关数据源的若干子查 询,各子查询结果返回到一集中处理点进行连接整合,生成最终查询结果。 虚拟法的一个典型应用是建立虚拟数据集成( v i n u a ld a t ai n i c g r a t i o n ,v d i ) 的 系统。v d i 是一种虚拟的、多源松散耦合的、以查询驱动的数据集成方法,具有 灵活性好、适应性强的特点。但因每次查询都要重新从各相关数据源抽取数据、 都要重新计算,因而往往性能低、响应慢。另外,采用传统的关系模型或o o 模 型表达集成系统的虚拟模式,抽象层次低,也进一步限制了虚拟法的应用。 1 2 2 4 基于服务的的数据集成方法 典型的基于服务的集成技术是w e bs e r v i c e 技术i ,在w e bs e r v i c e 框架下, 使用一组w e b 服务协议( 如s o a p ,u d i i ,w s d l 等) ,为每个数据源创建一 个或多个w e b 服务,每个服务提供能通过w e b 调用的a p i 接口;系统服务器有 6 第一章绪论 一个稚务注册库,每个w e b 服务需要在注册库注册;集成时会根据用户的查询 请求是否与服务注鼹库中豹摄务匹配来选择服务并调用服务以获取数据。 因为s o a p 协议使用d l 进行数据传输,匿此这种数据集成方法具有很好 的跨平台性和松散耦合性。同时s o a p 采用h t t p 协议,并非私有的协议,能够 更加安全的穿越防火墙。因此基予服务的集成方法具有究好的封装性、松散拐台, 援范协议高度可集成能力等特性。 。2 。2 5 基于移动a g e n t 的数据集成方法 2 0 世纪9 0 年代扔,g e n e r a lm a 西c 公司第一次提出了移动a g e n t 的概念,即一 个能在异构环境中自主地从一台主机迁移到另一台主机,并可与其它a g e n t 或资 源交互的软件实体。 移动a g e m 将传统的客户服务器结构扩展到了客户a g e n 蹶务器结构,来支 持用户对信息的高效、安全的访问。这耱客户a g e 耐服务器结构是一个三层的无 连接结构,客户机与服务器之间的通信全部交绘a g e n t 完成:a g e n t 位于固定网络 中,可以与服务器位于同一台主机上。当客户机需要启动一个事务时,它向一个 a g e 珏t 发送消息,然后由该a g e n t 代表客户机完成所需的事务处理,并将结果回送 给客户极。因此,客户桃与服务器没有直接的通信连接。丽豆,客户机与a g e n t 之间的连接是面向消息的,一旦a g e n t 接到客户请求,客户机就不必继续保持连 接了。于是,即使客户机此后中断了与a g e m 的无线连接,a g e n t 也将继续执行任 务,并在客户规重新连接时将处理结果发回给客户机。 1 3 未来数据集成系统发展的趋势秘方超 出现于上世纪8 0 年代末期的d w 技术是传统数据庠技术发展并走向成熟的 自然结果。由于它的简单实用性,从其出现到技术成型不过短短2 3 年时闻, 发展非常迅速,并很快成为上世纪9 0 年代主流数据集成技术。但随着信息技术 的发展,d w 技术在灵活性、适应性等方面的局限性体现得越来越明显,同时, 也藤临数据爆炸所带来的越来越大压力。出现于上氆纪9 0 年代末期的虚拟数据 集成( v d i ) 技术,由于其灵活性好、适应性强等特点,受到了业界广泛的关注, 并得到了很大程度的应用。直到几年以前( 2 0 0 3 2 0 0 5 年) ,v d i 技术能否取 代传统的d w 技术还一直是业界争论的一个焦点。但实际上,由于系统性能、 枣缩性等关键问题没能得到很好解决,基于v d i 技术构建数据集成系统不仅风 险大,而且实用性羞,始终没能大规模应用起来。近年来,国内外已有不少知名 研究者倾向于认同这一观点:基于虚拟法的v d i 技术与基于物化法的d w 技术, 不是谁取代谁的问题,面是如何互相融合,取长补短的问题。 7 第一章绪论 ( 1 ) v d i 技术与d w 技术融合。每次查询都要重新计算和从分布的、非本 地数据源抽取数据,是造成v 性能差的一个重要原因。应用d w 工具 e t 【姬x t r a c t 仃r a l l s f b r i 。o a d ) 可以来优化v d i 技术,即将常用的v d i 查询自动移植 为高性能e t l 过程,或对具有高度需求的数据进行预计算处理。 ( 2 ) v d i 技术、d w 技术与其它数据集成技术融合。除了d w 技术和v d i 技术外,自上世纪9 0 年代以来,还出现过其它一些与数据集成系统构建密切相 关的技术,如基于m e d i a t o r 的数据集成技术m 、基于移动a g e n t 的数据迁移集 成技术 阍、基于x m l 的数据集成技术f 1 17 1 、基于逻辑处理的数据集成技术f l s 】 等,瞧它们一般都不驻作为构建数据集成系统的主导技术。 3 ) v d l 技术与基于逻辑处理的数据集成技术融合。基于逻辑处理的技术, 主要用于实现数据集成系统查询处理引擎,是v d i 技术的一个关键部分。传统 的v d i 系统一般采用关系模型或对象描述模型作为中介模式。文献【1 8 】提出了采 用描述逻辑( d e s c r i p t i o nl o g i c s ,d l ) 表达集成系统虚拟模式的方案,从抽象豹概 念知识层次,建立领域数据统一语义视图。 作为一种基于人工智能的典型知识表达语言,d l 具有很强的概念建模和查 询表达能力,能很好表达数据语义。可利用d l 的推理服务来辅助实现概念模式 和d l 知识麾的有效管理,这对完善企业公共数据模式,具有重要意义。另外, 采用具有知识表达能力的d l 概念模式统一企业信息使用入口,对发展未来知识 智能型的用户接口或与专家系统接轨,也将非常有利。 ( 4 ) 企业用户或组织将更多参与数据集成系统的构建过程。未来企业或组 织也将不仅是被动的数据集成系统用户,丽是可能全方位地、积极地参与到数据 集成系统的构建活动中来一一从“语义集成”到“语义管理”,为已存在的数据 或未来的新构建系统,指导领域“术语概念”的选择,积极响应并参与企业数 据规范和数据标准的研究活动。企业数据规范和数据标准研究是集成系统能否真 正成功应用的关键。 ( 5 ) v d i 与语义w e b 技术融合。w e b 服务为实现数据集成提供了一种全 新的机制。它为本地和远程服务的定义、发布和访问提供了一整套开发标准和方 法。应用开发人员建立了一套服务的标准詹,可 奠在不同的系统、不同的平台, 使用不同的语言来方便地访问应用服务,也可以缀合一些服务来形成新的服务。 这种面向服务数据集成方法很好的解决了跨平台和穿越防火墙问题,有效的避开 了模式集成中的模式匹配问题。 综合以上分析我们不难预见,不断融合各种先进的数据集成技术,不断提 高数据集成系统的性能、可伸缩性、灵活性和适应性。将是未来数据集成系统健 壮发展的总趋势。而融入了d w 技术、移动a g e m 技术、x m l 技术、语义w e b 8 第二章相关技术研究 第二章相关技术研究 2 1 移动代理( m o b i l e a g e n l ) 技术 代理( a g e n t ) 是指具商一定智能的包含有状态信息并舷够自治运行的一段 程序:在异构的网络环境中,移动代理是在自我控制之下,可以从一台机器移动 到另一台机器的自治的程序。它通常包含一个任务列表,可以在任意的执行点挂 起,将自己传送到另外一台杌器,然后在这台新的机器上,从挂起点继续执行任 务列表中的任务。移动代理的生命周期可分为创建,发送,挂起,恢复和执行五 个部分。设计者创建好一个代理后,在适当的时候发送到目的主机,在目的主枧 上自主运行,如果需要,主机会发送命令让代理中止执行,即挂起代理,与之对 应的,将挂起的代理重新运行印为代理的恢复。 一般认为,代理应当具有以下四个蒸本特性:( 1 ) 螽治性:代理可以在没有 人或其它代理的直接干预的情况下运作,而且对自己的行为和内部状态有控制能 力 ( 2 ) 社会性:代理和其它代理可以通过代理语言进行信息交流;( 3 ) 反应性: 代理麓够理解周围的环境,并对环境的变化作出实时豹响应;( 4 ) 能动性:代理 不仅简单地对其环境作出反应,也能够通过接受某些启动信息,表现出有巨标的 行为。代理除了具备以上基本特性外,还应具备一些人类才具有的特性,如知识、 信念、义务、意图等。单个a g e m 的智能是有限的,通过适当的体系结构把a g e i l t 组织起来形成多a g e n t 的系统( m u l i a g e n ts y s 托犯) ,从面可以弥补单个a g e n t 的不足,使得整个系统的能力超过单个的a g e n t 。 讦算机技术特别是网络技术的发展,使得计算环境发生了根本性的变革,主 要表现在海量资源的高度分布性和无序性、极强的动态性等特点,对于这些特点, 传统分布式计算客户服务器模型在很多方蘧存在不足。移动主体是传统的客户, 服务器分布计算的扩展方式。移动代理系统在分布式人工智能领域以及分布对象 领域得到越来越多的重视,其原因在于它可以为分布计算带来更多的灵活性、高 效性、可靠性和智能性。在传统的客户服务器模型中,客户程序通过网络调用 远程服务器提供的操作,对返回的中间数据做进一步的处理之后,获得最终的结 果。当中间数据相对较大,且中间数据在客户任务结束后不再有用时,必将浪费 大量的网络带宽。由于移动主体的任务是在服务器上完成的,而只将最终结果带 回,这必将节约大燕的网络带宽,在使用移动计算平台丽网络又是低带宽、高延 迟、高费用的场合这种优势更加明显。显然方法的本地调用无疑比髓络调用快得 多。正如下载j a v aa p p l e t 可以加速与用户的交互,移动到网络服务器上的主体 第一章绪论 第四章移动代理技术在系统中的应用。分析i b m 移动a g e n t ( a g l e t s ) 平台 扩展方法,对a g l e t 进行扩展并用于d s m - d i s 系统在复杂网络坏境下的数据抽取。 第五章结束语。总结本论文的研究工作和成果,提出下一步的工作目标。 1 0 第二章相关技术研究 第二章相关技术研究 2 1 移动代理( m o b i l e a g e n l ) 技术 代理( a g e n t ) 是指具商一定智能的包含有状态信息并舷够自治运行的一段 程序:在异构的网络环境中,移动代理是在自我控制之下,可以从一台机器移动 到另一台机器的自治的程序。它通常包含一个任务列表,可以在任意的执行点挂 起,将自己传送到另外一台杌器,然后在这台新的机器上,从挂起点继续执行任 务列表中的任务。移动代理的生命周期可分为创建,发送,挂起,恢复和执行五 个部分。设计者创建好一个代理后,在适当的时候发送到目的主机,在目的主枧 上自主运行,如果需要,主机会发送命令让代理中止执行,即挂起代理,与之对 应的,将挂起的代理重新运行印为代理的恢复。 一般认为,代理应当具有以下四个蒸本特性:( 1 ) 螽治性:代理可以在没有 人或其它代理的直接干预的情况下运作,而且对自己的行为和内部状态有控制能 力 ( 2 ) 社会性:代理和其它代理可以通过代理语言进行信息交流;( 3 ) 反应性: 代理麓够理解周围的环境,并对环境的变化作出实时豹响应;( 4 ) 能动性:代理 不仅简单地对其环境作出反应,也能够通过接受某些启动信息,表现出有巨标的 行为。代理除了具备以上基本特性外,还应具备一些人类才具有的特性,如知识、 信念、义务、意图等。单个a g e m 的智能是有限的,通过适当的体系结构把a g e i l t 组织起来形成多a g e n t 的系统( m u l i a g e n ts y s 托犯) ,从面可以弥补单个a g e n t 的不足,使得整个系统的能力超过单个的a g e n t 。 讦算机技术特别是网络技术的发展,使得计算环境发生了根本性的变革,主 要表现在海量资源的高度分布性和无序性、极强的动态性等特点,对于这些特点, 传统分布式计算客户服务器模型在很多方蘧存在不足。移动主体是传统的客户, 服务器分布计算的扩展方式。移动代理系统在分布式人工智能领域以及分布对象 领域得到越来越多的重视,其原因在于它可以为分布计算带来更多的灵活性、高 效性、可靠性和智能性。在传统的客户服务器模型中,客户程序通过网络调用 远程服务器提供的操作,对返回的中间数据做进一步的处理之后,获得最终的结 果。当中间数据相对较大,且中间数据在客户任务结束后不再有用时,必将浪费 大量的网络带宽。由于移动主体的任务是在服务器上完成的,而只将最终结果带 回,这必将节约大燕的网络带宽,在使用移动计算平台丽网络又是低带宽、高延 迟、高费用的场合这种优势更加明显。显然方法的本地调用无疑比髓络调用快得 多。正如下载j a v aa p p l e t 可以加速与用户的交互,移动到网络服务器上的主体 第二章相关技术研究 与服务器的本地交互,也必定比网络交互高效。移动主体减少了对网络可靠性的 要求,因为移动主体总是同局部的资源交互,而只是在其移动时才要求网络是可 靠的。移动主体具有灵活的平等协作方式,因为随着面临的需求变化,移动主体 既可以是客户,也可以是服务者,而不是绝对的客户服务器模式。另外移动主 体使得动态部署、测试和安装分布构件成为可能。即使是在主体开始执行之后, 也可以根据变化的网络资源情况做动态的部署,从而使当前的网络客户得以减少 网络等待时间。 2 1 - 1 典型移动a g e n t 平台介绍 t e l e s c r i p t ,由g e n e r a lm a g i c 公司开发的第一个商业移动代理系统,它主要 用在美国电报公司的p e r s o n a j l i n k 网络中。t e l e s c r i p l 网络被分成许多的位置,每 一个位置都是一个代理运行坏境,并且其中存在着静态主体,这样,到达的移动 a g e t i t 就会在静态主体的协助下得到执行,完成任务。t e l e s c r i p t 主体由t e l e s c r i p t 语言编写,它和j a v a ,c h 类似。移动代理在主机之问的迁移正是携带了从程序 编译过来的字节码。1 e l e s 荫p t 可用于邮件系统、电子商务等。比如在邮件系统 中,与传统邮件的发送不同,他会在邮件中嵌入一段程序,接受者查看邮件时程 序就会自动执行。t e l e s c r i p t 主体派遣若干有特定功能的子程序段独立并行运行, 最大范围内,最迅速的将结果返回给用户。 a r a f l 9 】是一个能在异构网络中方便安全的运行移动a g e m 的平台,与其他平 台相比,a r a 能够在尽可能保持现有编程模型和语言的情况下为移动代理提供一 个完整的功能。a m 主要用于那些只要求安全轻便操作的系统。它主要为了克服 当前网络质量不高,需要传输大量数据的场合,比如无线网络和间歇性连接的场 合和广泛分布的数据库。由于对带宽和数据传输量的这一内在限制使得它非常适 合移动代理。 c o n c o r d i a 是一个可进行移动代理应用的开发和管理框架,可延伸到任何j a v a 系统上。有多个部件组成,这些部件用j a v a 语言编写。c o n c o r d j a 是由三菱 ( m i 忸u b i s h i ) 开发的移动a g e n t 系统。一个最简单的c o n c o r d i a 系统应由j a v a 虚拟机、c o n c o r d i a 服务器和一个主体组成。每个服务器彼此记录下来对方的毋 地址。当主体需要移动时,则调用服务器中的方法。该方法请求服务器将主体的 执行挂起,之后为该主体产生一个永久映像。然后服务器检查主体中的旅行计划, 来决定主体应到达的下一个主机。服务器与目的主机联系并将主体的映像传给该 主机。传送结束后,在目的主机的服务器上排队准备执行。轮到该主体执行时, 该主体依据旅行计划中制定的在该主机上的入口方法启动执行。此系统非常注重 安全和容错性,提供了比较丰富的安全管理手段。从主体的存储、传送以及服务 1 2 第二章相关技术研究 根据t i m b e m e r s - l e e 的设想,语义网是由一种分层的体系结构组成,如图 2 1 。这是一个功能逐层增强豹层次化结构,由七个层次构成。删和u i l i c o d e 层是标识语义网对象和统一使用国际字符集的基本手段。x m l 、名称空间和x m l s c h e m a 定义了语义网上语法互操作的标准。r d f 和i fs c h e m a ( 合称r d f ( s ) ) 用来描述和定义语义网上的资源。本体层用来定义不同概念之间的关系,以支持 词汇数演化。逻辑层为基于规则的系统提供一个描述公理的框架。证明层执行规 则并做出相应的评估。信任层为应用程序是否信任一个绘定的证明提供检测机 制。数字签名和加密技术用来检测文档的改动情况,是增强w 曲安全的手段。 语义网主要研究问题包括1 2 埘: l 。知识表示模型。语义网采用本体作为知识表示模型。本体形式化定义了 领域内共同认可的知识,是语义网体系中的核心。 2 语义网逻辑基础。语义网的逻辑基础是描述逻辑,它是一阶逻辑的子集, 它具有可判定性的特点,并适合处理大规模的数据。语义网语言的表达麓力直接 依赖于相应的描述逻辑,推理闻题也可由描述逻辑的推理算法实现。 3 语义网表示语言。表示语言提供了语义网中的领域信息描述的基础,是 语义网的核心。语义网中需要通过袭示语言来描述领域中的资源,包括分类、属 性、子类关系、予属性关系、实例关系、定义域和值域等。目前的语义网表示语 言主要包括x m l 、r d f s 和o w i 等。 4 语义网查询技术。查询技术是语义网的基本技术,语义网的各种应用都 离不开查询技术的支持。语义网查询的对象是以各种语义网表示语言表示的文档 或知识库,因此针对各种表示语言( x m l 、磁蠡和o w l 等) ,发展了各自的蕾淘语 言。 5 语义网安全。安全问题是语义网实现的必要条件。语义网安全事务涉及 语义网结构中的所有层次。安全包含每一层次的安全以及互用性的安全。高层的 安全依赖底层的安全。如果在较 氐层次的安全性存在缺陷乃至蹲络安全暴露出漏 洞,那么再严格的高层安全机制也可能被绕过。 1 5 第二章相关技术研究 获得关于w 的本体,该本体可看成是关于这n 个领域的领域本体。 本体生成是一个螺旋上升的过程。随着领域本体豹不断增多并矗不断地被集 成在一起,会逐渐形成越来越庞大的、虚拟的、关于已知世界的领域本体。这个 关于已知世界的领域本体会越来越接近本体,但永远不会是那个关于整个世界的 本体。语义w e b 需要本体,但任何一个语义w e b 应用都不可能需要用到整个本 体,需要的是领域本体,或者多个领域本俸的集成。 2 。3 2w 曲s e r v i c e 耳e bs e r v i c e 是由u r i ( 统一资源标识) 标识的软伟应用,该应用的接口和 绑定可通过x m l 制品进行定义、描述和发现,同时该应用可以通过基于i n t e r n a t e 的x 札消息协议与其它软件应用直接交互。个w e bs e r v i c e 具有如下特点: 1 ) 良好的封装性,使用者只能看到该对象提供的功能列表。2 ) 适用于构造松耦 合的软i 牛体系结构。3 ) 使用标准的协议趣范。4 ) 跨平台可集成能力。 语义网允许用户自动地定位、选择、使用、组合和监控基于网络的服务,即 w e bs e r v i c e 。为了使用一个w e bs e r v i c e ,软件需要一个计算机可解释的服务 描述,w e b 站点应该使用一个基本豹类和属性的集合采声明和描述服务,这一点 可以在o 盹的0 n t o l o g y 架构下完成,o w l s 承担了这个使命。 2 。3 3o w l s 2 3 3 0 w 卜s 结构 o w l s ( 0 n t 0 1 0 9 yw e bl a n g u a g ef o rs e r v i c e ) 是基于鲫l 语言的w e b 服务本体, 其前身是d a m l s ( d a r p aa g e n tm a k e u pl a n g u a g ef o rs e r v i c e ) 。o w l s 定义了w e b 服务三个方面的语义,分别用s e r v i c e p r o f i l e ,s e r v i c e m o d e l 和 s e r v i c e g r o u n d i n g 三个予本体来实现。 s e r v i c e p r o f i l e 是服务提供者和服务请求者双方的描述模舨,用于服务的发 现。服务请求者将s e r v i c e p r o f i l e 作为表达服务查询条件的语言。而服务提供者 将s e r v i c e p r o f i l e 作为广告发布在服务注册中心。s e r v i c e p r o f i l e 描述服务了做 什么,它给出爝来判断服务是否符合某一缀务请求的一组信息,主要包含三个方 面:服务的基本信息、服务的功能描述信息和服务的其他特征信息。 1 、服务的基本信息包括:服务的名称标识,服务的描述,服务提供者的联 系方式等,这些基本信息分别用s e r v i c e n a m e ,t e x t d e s c n p t i o n 和 c o n t a ;c t c t i n f o r m a t i o n 等三个属牲元素表示。 2 、服务的功能信息包括服务进行 x 第二章相关技术研究 2 3 4 使用0 w l s 构建数据服务 侧l ,s 描述使得w 曲服务具备机器可理解性,解决了如何让计算机两不是人使 用舱b 应用的问题:同样如果待集成的各种异构数据源变被动为主动,将数据集 成过程语义厢滞l s 描述,会使得数据集成更加智能化。本文设计了一种o 礼一s 文档月乘描述数据集成过程语义( 见附录) 。该文栏由两部分缝成:数据驻务 的基本信息和数摄集成过程描述信息。 1 、基本信息包括数据服务的说明( 如服务的名称,服务描述等) 和服 务的输入输出概念集。其中后者蹙数据字段所对应的领域本体概念 集。数摅暇务的基本信息表示提供了什么样的服务,用户挺如的鸯 询会被查询处理弓l 擎转化为针对概念集的查询。判断一个数据服务 是否包含需求的数据,只需要确定查询的输入输出概念集是衙为该 服务输入输出橇念集子集即可。 2 、 数据集成过程描述是数据集成过程的语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论