




已阅读5页,还剩55页未读, 继续免费阅读
(计算机科学与技术专业论文)异种信息源集成技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国笾型堂基丕太堂班窥生隧堂僮j 金塞 信息源集成系统体系结构框架开展较细致的研究,在参照国际公认的o e m 和 x m l 半结构化信息模型的基础上提出了半结构化的信息模型表示语言自定 义模式语言s s l ;本课题详细分析和阐述了调和器关于查询处理和信息对象融合 的关键技术问题以及包装器查询处理和信息集成的实现机制,解决了扩展包装器 功能规则和包装器自动生成技术;扩展了异种信息源集成系统对象通信协议中的 若干机制,扩展了查询服务功能提出触发查询处理技术的实现方案和设计思 想并解决实现过程中的触发查询管理和通信机制扩展等关键技术问题。 这些研究和扩展工作是国内现有异种信息源集成系统研究的一个新课题,为 相关工作研究和技术扩展提供了一些新的思路和方案。本课题在触发查询方面的 设计方案将很好地提高异种信息源集成系统智能查询程度并为其他查询服务和智 能搜索提供参考和实现技术方案。 关键词:s s lm s lw s l 调和器包装器触发查询触发查询管理器 v ,v , v 一7x 。 o 第1页 国防科学技术大学研究生院学位论文 t h ed i g i t a lt i m ei sm e a n tt od i g i t a l i z ea l ik i n d so fi n f o r m a t i o n ,a n d t h ei n f o r m a t i o n p r o p a g a t e db r o a d l yt h r o u g h i n f o r m a t i o n s h a r i n g a n d i n f o r m a t i o n t r a n s p o r t a t i o n t h ep u r p o s e o fh e t e r o g e n e o u si n f o r m a t i o n i n t e g r a t i n gs y s t e m r e s e a r c hi st o i n t e g r a t e a l lk i n d so f d i g i t a l i n f o r m a t i o no nt h en e t w o r k ,a n dp r o v i d e s m o r e c o m p l i c a r e dd i g i t a l i n f o r m a t i o na n dm o r ec o n v e n i e n t ,q u i c ka n di n t e l l i g e n ts e r v i c e st ou s e r s i ti sav e r yi m p o r t a n ts u b j e c td e s e r v i n go fad e e ps t u d y i nt h i st h e s i s ,t h eh e t e r o g e n e o u si n f o r m a t i o ni n t e g r a t i n gs y s t e m a r c h i t e c t u r ei ss t u d i e di ng e n e r a l ,a n do nt h eb a s i so ft h ep o p u l a rm o d e l a n g u a g e ss u c ha so e m a n dx m l ,ak i n do fi n f o r m a t i o ns c h e m al a n g u a g ec a l l e d s e l f - d e f i n e ds c h e m al a n g u a g e ( s s l ) i sp r o p o s e d t h ek e yt e c h n i q u e si nt h e q u e r y i n ga n di n f o r m a t i o nf u s i o np r o c e s si nm e d i a t o r s ,a n dt h ei m p l e m e n t i n g m e e h a n i s mo fq u e r y i n ga n di n f o r m a t i o ni n t e g r a t i n gi nw r a p p e r sa r ed e t a i l e d i nt h et h e s i s s e v e r a le x t e n s i o n st oe x i s t i n gd e s i g n sa r ea l s op r e s e n t e d : e x t e n s i o nt o p r o v i d i n gw r a p p e r f u n c t i o nr u l e s ,e x t e n s i o nt os o m e m e c h a n is m so fo b j e c tc o m m u n i c a t i o np r o t o c o li nh e t e r o g e n e o u si n f o r m a t i o n i f l t e g r a t i n gs y s t e m : a n de x t e n s i o nt os o m e q u e r y s e r v i c e s t h e i m p l e m e n t a t i o n is s u e so ft r i g g e r e dq u e r ya r ed i s c u s s e d ,a n dt h e k e y t e c h n i q u e s i n t r , i g g e r e dq u e r ym a n a g e m e n t a n dc o m m u n i c a t i o nm e c h a n i s m e x t e n s i o na r eg i v e ni nt h et h e s i s k e y w o r d s :s s l ,m s l ,w s l ,m e d i a t o r , w r a p p e r , t r i g g e r e dq u e r y , t r i g g e r e dq u e r ym a n a g e r 第一_ 章概述 1 1 异种信息源集成技术的背景 随着信息交流与通讯科技的发展,各种多媒体文件与资料大量出现,这些文 件和资料主要以数字形式存储于计算机,并通过i n t e r n e t 广泛传播。网络的出现 为人们展现了多姿多彩的信息服务,网络购物、电子商务、远程教育、远程医疗、 视频点播和知识点播等等,所有这些服务都是建立在各种信息共享和信息集成基 础之上。由于网上数据不断激增,对网上信息的应用需求也不断提高,原有的对 文本文件的链接浏览和关键词检索已无法满足一些复杂的应用需求。近年来,大 量的研究致力于将数据库技术应用于网上数据的管理和查询,使查询可以在更细 的粒度上进行,并集成多个数据源的数据。因为网络提供的信息内容繁多,这就 需要将各种各样的信息资源进行统一表示、集成各种不同的信息及信息服务。信 息集成将成千上万种信息通过网络连接起来,而这种连接对用户是透明的,用户 只看到一个包罗万象信息集成平台。用户可以在此平台上迅速而有效地访问、查 询、编辑、存储、传递、管理和收集各类数字信息。 美国等西方发达国家对信息技术的研究和应用比较早,他们的数字图书馆技 术,知识点播应用成功地实现了对异种信息源的集成。我国i t 业对信息集成技术 的研究主要侧重于信息表示、异种数据源信息集成以及计算实现算法和关键技术 方面的研究,目前主要的项目有国家8 5 3 计划的信息领域智能计算机以及9 7 3 规 划的“网络环境下海量信息组织与处理的理论与方法研究项目”等。中国8 6 3 c i m s 主题共建设了1 0 个国际水平的研究开发基地,培育了7 个成果产业化基地,建立 了1 0 个培训中心,培养了近万人的研究、开发、应用队伍,并达成了异构系统信 息集成技术等许多重大关键技术。 信息源集成技术研究的目标是支持对网络上多个数据源的查询。它和异构数 据库集成技术基本相同,但网络的异种信息集成还要处理大量的、数目递增的数 据源。2 l 世纪的人类将进入一个“知识点播”的时代。网络信息集成系统,例如: 数字图书馆、网络购物、电子商务,智能搜索系统等等,将成为未来社会的公共 信息中心和知识枢纽,极大地推动知识的普及、传播和运用,提高全人类的科技 文化水平及文明程度。 信息集成处理技术将是评价国家信息基础设施以及国家文化和科技水平的一 第 1 页 个标准。对于我国来说,信息集成处理技术的研究较晚。因此,对信息集成技术 的研究、开发和应用,对信息互操作以及信息远程传输技术的研究显得更加重要。 1 2 异种信息源集成的概念 分布式信息环境所涉及的信息种类繁多,数量庞杂,但信息一般表现形态为 4 种:数据、文本、声音、图像。数据。通常被人们理解为“数字”,从信息科学 的角度来考察,数据是指电子计算机能够生成和处理的所有事实、数字、文字、 符号等。当文本、声音、图像在计算机里被简化成0 和“l ”的原始单位时,它们 便成了数据。人们储存在“数据库”里的信息,自然也不仅仅是一些“数字”。文本、 声音、图像可以相互转化。最终这些都是以数字形式来表示。而数据的组织形式 既可以是结构化的、也有半结构化的,还有非结构化的形式。信息集成就是指对 输入系统的各种类型各种格式的数据进行统一的处理,避免不必要的冗余,为用 户提供统一和透明的界面,从而达到信息共享的目标。这里所说的透明是指用户 在访问远程数据时不必考虑信息源的物理地址,对各种不同信息的访问就象在本 地访问同一种类的信息一样。 异种信息集成技术研究的目标是支持对网络上多个数据源的查询。信息集成 有两种方法:数据仓库方法和虚拟方法。前者是将各数据源的数据装载到数据仓 库中,用户的查询基于数据仓库的数据;后一种方法基于一个“中间模式” ( m e d i a t e ds c h e m a ) ,数据仍保存在局部数据源中,通过各数据源的“包装程序” ( w r a p p e r s ) 将数据虚拟成中间模式,用户的查询基于中间模式,不必知道每个 专门的数据源的特点,查询执行引擎直接与w r a p p e r s 打交道,将基于中间模式的 查询转换为基于各局部数据源的模式。虚拟方法更适应于数据源数目多、各局部 数据源的自治性很高且局部数据经常变化的信息集成环境。 网络上的每一个站点就是一个数据源,而每个数据源都是异构的,每一站点 之间的信息和组织都不一样,这就构成了一个巨大的异构信息环境。如果想要利 用这些数据,首先,必须要研究站点之间异构数据的集成问题,只有将这些站点 的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中 获取所需的东西。其次,还要解决网络上数据查询问题,因为如果所需的数据不 能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。实现对异种信 息源的集成将减少信息冗余,实现分布式环境下信息一致性和信息共享,便于对 数据的合理规划和分布,便于进行网络信息系统的优化,提高信息访问的效率和 效益。 第2页 1 3 本课题研究目标和工作 异种信息源集成系统的信息种类很多,系统不仅要能够集成信息还应该集成 信息互操作,并为用户提供各种查询和搜索服务。信息集成系统的关键就是解决 异种信息源信息集成的问题。本课题的目标是要研究分布式环境下基于调和器的 异种信息源集成系统体系结构框架和信息表示;要解决调和器查询请求处理技术 的优化和扩展、异种信息源信息融合实现技术的研究;需要了解包装器的结构和 工作过程,并扩展包装器的功能规则;研究分布式环境下信息集成系统的对象通 信机制和实现的关键技术,并扩展这些实现机制和技术实现以支持查询处理和信 息集成。 本课题主要的工作包括研究和扩展信息集成系统的查询处理、信息融合和信 息包装的实现技术以及对象通信实现技术,扩展了现有信息集成系统的相应操作 和服务功能,提出了异种信息源集成系统的信息表示模式描述语言自定义模 式语言( s e l f - d e f i n e ds c h e m al a n g u a g e ) 。在这些研究和扩展的基础上本课题实现 了对异种信息源查询系统触发查询的实现的特殊扩展,并详细阐述了我们关于该 服务扩展的实现方案和设计思想以及实现机制和对象通信处理。这些扩展工作不 仅 1 4 论文的结构安排 第一章对信息集成技术的背景和基本概念进行了简单介绍,并提出了课题研 究的主要目标和课题所做的主要工作。 第二章将详细阐述分布式环境下基于调和器的异种信息源集成系统体系结构 框架和信息表示的基本概念,半结构化模型的特点和基本思想;阐述了对调和器 的查询处理机制和基本实现技术、对信息对象融合机制和基本实现技术的研究; 阐述了包装器机制和包装器自动生成技术。 分布式环境下信息集成系统的所有操作和服务都需要数据通信来支持。第三 章将阐述对分布式信息集成系统的对象通信协议与实现技术的研究和扩展。主要 内容包括:异种信息源互操作通信协议:c o o k i e 通信机制;客户和服务器对象 传输机制;对象传输过程中负载均衡机制等等。 在对信息集成系统体系结构框架和操作服务的研究和实现扩展之后,第四章 详细阐述异种信息源集成系统触发查询服务的实现方案和设计思想并解决服务实 现的关键技术问题,阐述扩展触发查询服务所带来的效益和好处。 第 3 页 国陵整堂拄苤太坐班塞生隧堂焦j 金毫 本章主要介绍基于调和器的异种信息源集成系统总体框架,内容包括:如何 对多种信息统一表示,半结构化数据模型的概念,调和器查询处理过程和信息融 合技术,包装器的查询处理过程和包装器自动生成技术。 2 1 异种信息源集成系统总体框架 2 1 1 异种信息源集成系统的组成 异种信息源集成系统的目标就是处理多种信息源,保持多种信息的一致性, 快速方便地集成结构化、半结构化甚至是非结构化的信息,因此信息集成系统需 要提供一种统一的信息表示模型和建立在该模型上的通用查询语言。异种信息源 集成系统需要一些处理查询和将信息融合成统一信息模式的工具集,这些工具或 结构包括调和器、包装器以及相应的调和器产生器和包装器产生器。调和器工具 集包括调和器生成器,调和器生成器根据调和器定义语言的描述生成调和器:调 和器的功能包括处理查询请求、同时处理和融合那些从不同数据源包装器过来的 结果数据信息。包装器工具集包括包装器生成器,包装器生成器根据包装器定义 语言对特定包装器的描述快速生成对应于某种特定数据源的包装器;包装器为调 和器和用户提供统一的信息模型接口,并将调和器处理过的查询翻译成各种信息 源可识别的特定查询操作,将数据源上查询操作的结果返回给调和器。请看图2 1 , 该图说明了异种信息源集成系统的组成结构。 第4页 包装器 jf 用户查询查询结果对象 直线箭头表示信息的流动方向;曲线箭头表示创建生成过程。 图2 1 异种信息源集成系统结构框架 调和器产生器提供了高级的查询语言m s l ( m e d i a t o r s p e c i f i c a t i o n l a n g u a g e ) 。该语言描述了如何生成一个调和器的若干规则。它包含了便于集成异 种信息的特性,还可以象查询结构化数据那样查询非结构化的数据。首先调和器 定义语言对所要生成的调和器进行规则描述和定义,调和器生成器根据这些规则 定义生成调和器。 包装器定义语言w s l ( w r a p p e rs p e c i f i c a t i o nl a n g u a g e ) 是m s l 上的扩展, 具有描述信息源的能力。包装器生成器根据包装器定义语言所描述的规则自动生 成特定信息源的包装器。 用户查询请求发送到服务器的调和器,调和器使用m s l 规则格式将查询请 求进行规范表示,并将查询分解成规范的子查询组合,在此基础上,调和器制定 一系列合理的查询计划,产生优化的查询步骤。接着调和器将这些子查询按照查 询计划分布到各个与子查询相关的信息源包装器,包装器接受到这些用规范格式 表示的子查询后将之翻译成相对于特定信息源的相应查询,并在该信息源上执行 本地查询操作。本地查询操作的结果信息返回给包装器后,包装器将这些信息按 统一的信息模式表示返回给调和器,调和器根据结果信息的内容融合这些结果信 息、删除冗余、生成查询结果对象,最后由服务器将这些查询结果对象返回给用 户。 异种信息源集成系统的核心任务是集成对多种不同数据源的访问,基于调和 器的异种信息源集成系统是通过调和器将用户然后通过包装器将通用模式的查询 第 5 页 转换成相应的面向特定信息源的本地查询操作。在本地信息源执行查询操作获得 查询结果信息后,通过对象融合技术将查询从各种信息源包装器所获得的多种分 布信息融合成通用模式的查询结果对象。这些过程中的算法和规则以及实现的技 术具有着相当的复杂性。简化和优化调和器的实现技术,是异种信息源集成系统 的核心工作。 各组件之间不仅需要协调的功能协作还需要有很好的通信机制,在调和器和 用户之间的对象通信机制尤为重要,本课题在后续章节将详细介绍异种信息源集 成系统的通信机制和实现技术。在包装器与信息源之间以及调和器与包装器之间 的通信机制和实现技术是本课题待作的工作。 2 1 2 异种信息源集成系统的工作过程和特点 异种信息源集成系统需要各组件之间能够相互通信、协同工作才能完成多信 息源的信息集成和查询操作服务。异种信息源集成系统的工作过程包括如下步骤: 一、给出定义调和器中生成半结构化对象的逻辑规则,使用调和器定义语言 m s l 描述如何生成调和器并创建调和器,调和器提供底层信息集成的统一信息模 式视图。 二、使用包装器定义语言w s l 描述如何生成包装器,并根据这些描述规则 由包装器自动生成器创建包装器。 三、当用户的查询请求发送到服务器时,首先根据调和器定义语言将查询进 行规范化表示( 该过程称为查询标准化) ,并将查询请求翻译成面向多种信息源的 查询规则,经过优化确定访问各种信息源的步骤。 四、各包装器提供特定信息源查询能力的模板,当各查询规则从调和器输出 到包装器时,这些查询谓词和包装器的查询能力模板进行匹配比较,如果匹配成 功,则返回查询结果信息,如果匹配不成功,可以由包装器决定是否将该谓词翻 译成具体信息源内部可表示和可查询的其他谓词组合,再进行本地查询。返回查 询结果。 五、调和器从包装器获得查询结果信息,并根据信息对象融合规则将这些信 息进行融合生成按统一信息模式表示的结果对象,如果需要对查询结果集合实行 过滤,此时可以执行查询后处理进程,最后将所有符合查询条件的结果对象返回 给客户。 异种信息源集成系统相对于一般的系统具有以下特点: 一、采用半结构化的数据模型实现多种信息的集成表示,并实现对多种信息 源信息的透明访问。 第6页 二、将各种不同信息源的数据转换成统一信息模式并提供一种建立在该模型 上的查询语言。包装器采用基于模板的包装方法,大大简化了查询服务和信息的 集成。 三、用户查询到达调和器时,从用户的角度出发将查询翻译成用调和器定义 语言m s l 所表示的一组逻辑规划,该逻辑规划是面向信息源的查询计划,经过 排序制定查询各种信息源的步骤,经过优化实施查询,并将查询结果信息融合成 结果对象后返回给客户。 四、采用远程对象通信机制实现分布式对象的传输,一般采用遵循c o r b a 标准的实现机制,实现分布式对象远程通信和传输。 五、客户和服务器之间的通信传输机制引入了c o o k i e 数据结构,实现了 查询结果对象通信过程中的灵活控制。 这些方法解决了多种信息源的集成表示、多种信息源互操作以及多种信息源 查询搜索的关键技术问题。我们将在下面的章节对这些过程的实现细节进行详细 描述。 2 2自定义模型语言( s e l f d e f i n e ds c h e m al a n g u a g e ) 目前网络的信息来源有两种途径:一种是将大量以不同形式和载体存储的信 息资料,如纸制品资料、图片、声像资料等转化成数字形式存储起来。直接用于 该任务的技术包括文字图像扫描处理、图像和语言的识别以及对数字化初始信息 的各种再加工技术。这一步骤也称为信息获取。另一种是提供直接生成的数字化 信息以便计算机直接使用,如购买电子出版物,从网络上获取信息,图书馆自动 化建设直接形成的标准格式的管藏目录数据库以及一些专题数据库等。对于声频 和视频等需要大量存储空间的信息,为了便于信息的存储,降低信息传送成本, 还应该利用相应的数据压缩与转化技术。 为适应信息网络化以及数据多样性和复杂性的需要,也为了适应网上的信息 发布趋势,希望将所有传统信息共享。将传统数据库技术直接应用于网络的最大 困难在于:网上数据缺乏统一的、固定的模式,数据往往是不规则且经常变动的。 因此,半结构化数据模型,如0 e m 和糊l 等应运而生,其无模式及自描述的特点 适宜于描述网上数据。网络的普及,目前越来越多的信息集成使用h t m l 和x m l , 这两种半结构化模式成为事实上的标准,因为它们可以直接生成标准的可浏览信 息,用户直接使用w e b 浏览器浏览到查询结果信息,同时它们对信息源的模式 不存在太多依赖。这种自描述的半结构化数据的出现推动了w w w 在电子商务、电 第 7 页 国随越堂蕴苤盔堂硪筮生瞳堂焦途塞 子数据交换和电子图书馆等多方面的应用。新的信息表示方式不仅对数据的内容 进行描述,还对数据结构和属性进行了详尽的描述,使得用户进行检索时,能够 精确地定位到信息的某一属性,从而提高了信息的检索速度。但对于如何有效地 存储管理和查询这类数据,目前却莫衷一是,已有的数据库技术,如关系数据库、 面向对象数据库,都不能完全适应于新的应用需求,而专用的半结构化数据管理 系统目前仍处于初步实验阶段。 信息集成中一个比较重要的概念是信息模型,信息模型就是反映类信息系 统基本状况的模型,这种模型主要从概念上和逻辑上对数据及数据流进行合理的 规划,它是使用信息的用户与从事数据处理的专业人员沟通的桥梁。信息源的集 成需要对各种信息源的信息模型集成表示,为了集成多种信息,将各种信息源的 信息通过一种统一的对象模型来表示,并在这个统一的模式下对信息进行查找搜 索以及提供其他服务操作。 信息集成系统采用实现网络信息表示的半结构化数据模型来集成信息的表 示。由于信息集成表示模型的特点都是自定义的和自描述的,本课题我们将根据 信息源集成系统数据源信息表示模型异构数据表示方法、结构和语义异构等特点, 参考国际上著名的模型语言o e m ( o b j e c te x c h a n g em o d e l ) 和x m l ,提出一种 结构简单灵活、语义自定义的半结构化数据模型s s l ( s e l f - d e f m e ds c h e m a l a n g u a g e ) ,它比x m l 和h t m l 简单,我们提出s s l 是为了将所有半结构化模 型的共性和基本特点提出来用于定义异种信息源集成系统结构中的公共集成信息 模型。自定义模型语言的特点和思想都比较简单,它描述一种半结构化的数据表 示模型,采用一种自定义的方式来描述多种信息源信息。s s l 的主要特点有: 一、s s l 采用自定义的方式表示对象。不需要事先定义对象结构,不需要参 考外部模式就可以对模型进行分析,没有固定模式的概念或对象类的概念。这个 能力简化了信息集成系统各组件之间的接口。 二、s s l 数据组织灵活,这个灵活性体现在:结构描述的灵活;对象表示形 式灵活,术语的种类丰富;从同一个信息源所获得信息的具有多样性。 2 2 1s s l 对象结构 s s l 中的每个对象都有一个对象标识,类型,标签,和值。下图是s s l 的对 象结构表示图。 第 8 页 图2 2s s l 对象 s s l 可以被看成是“面向对象的”,这意味着s s l 的基本概念就是“对象”。 然而,s s l 的类型系统很基本。如图2 2 所示,s s l 有四个组成部分。 1 对象标识( o b j e c ti d )用于标识对象的唯一标识,对象标识由调 和器产生,因为调和器了解对象的来处。不同于面向对象的数据库系统,对于一 个查询来说s s l 对象的i d 应该是本地的,但不一定是永久维持的对象。 2 标签( l a b e l )表示对象代表了什么。标签应该尽量使用描述性的方 式来说明对象的意义。 3 值类型( v a l u et y p e )对象值的数据类型,既可以是集合类型也可以 是原子类型,例如字符串类型等等。 4 值( v a l u e )对象的值。可以是原子值,也可以是一组对象。 使用s s l 对象模型可以模拟传统面向对象系统中的各种结构。s s l 对象的类 型有原子类型和复合类型。复合对象的值是一组对子对象的引用。在s s l 对象结 构中有一个s s l 对象被选定作为根对象,或最高级对象。该根对象有一个或多个 子对象。高级对象提供整个s s l 对象结构的入口点,通过这个入口点可以访问到 任何子对象。下面是使用s s l 模型表示的对象关系图。该图表示的s s l 对象结构 代表了包括几个子对象的一个l i b r a r y 对象,根对象的标签为l i b r a r y ,它的值是 一组对象,子对象的标签分别为a u t h o r ,y e a r ,t i t l e 。l i b r a r y 对象的类型就是 集合类型。这一组对象组成图书馆l i b r a r y 对象的值。我们看到了一个标签为b o o k 的图书。图书b o o k 对象的值也是一个集合。然而,不象l i b r a r y 对象,这里的集 合用于模拟记录的结构。例如,一组对象通过记录结构来模拟,每个对象的标签 名命名结构的域。注意,对象并不组织成类,一个查询执行的结果就是要找到所 有匹配查询条件的对象。 从该图可以看出s s l 中的数据对象组成一个树结构。结点表示s s l 对象,从 根结点对象出发可以遍历所有的s s l 结点。 第9页 图2 3 一个s s l 对象例子 s s l 虽然是逻辑数据模型,实际上它还具有一些面向对象数据结构的优点, 例如对复杂结构的自然表示。还可将s s l 视为一种逻辑层次,在这种逻辑层次中, 标签就是断言,它将对象标识符与其他对象标识符或原子值关联起来,这种关联 方式与对象的关联相同。 2 2 2 选择s s l 描述信息交换模型的原因 异种信息源的集成系统采用不需要预设信息源模式的自定义模式语言描述结 果信息对象。这是因为象s s l 这样的半结构化模型语言所描述的模型和其他的面 向对象模型有一些不同。 首先,半结构化模型不指定对象是如何存储于客户方的,但在接收到对象之 后,客户可以按自己的方式来存储对象。半结构化模型比其他面向对象模型更简 单,例如s s l 只支持对象循环和对象属性,没有使用象类,方法和继承等其他特 点。 其次,选择半结构化数据模型进行信息交换主要目的是为了实现信息的集成。 在用于集成时,简单对象模型比复杂对象模型具有优势,因为简单对象模型相应 的数据翻译操作和数据融合操作也相对简单得多。同时,简单模型的功能也很强 大,在必要时可以加入一些先进的特性来扩展简单模型的功能。例如,s s l 对象 具有子对象,使用子对象可以方便地表示信息的细节,s s l 模型使用一种简单的 第1 0 页 方式描述复杂的信息对象。如果一个数据库中包含了父子关系的对象,通过s s l 模型可以很容易查询到对象的父子关系对象。使用子对象表示这些关系可以生成 一个家族关系树,使用浏览工具描述可以浏览这些关系。 最后,象s s l 这样的模型,它使用l a b e l 标签而不象传统的对象模型那样 使用模式s c h e m a ,很显然,在传统的对象模型加入标签是件小事,但对于s s l 来说标签很重要,这个小改变使对象的解释和管理更加直接。因为s s l 没有模式 表示,s s l 所表示的模型更适用于客户事先不知道数据对象标签或结构的情况。 对于传统的对象模型来说,客户必须事先知道模式才能生成查询,而使用s s l 模 型可以在生成查询时发现信息的结构模式等等。这样在面对大量不同种类和形式 的信息源时,s s l 可以扮演全能的角色,在将信息转换和将信息封装到s s l 对象 的同时就可以了解到信息的结构和属性。 半结构化对象模型的简单性、可扩展性使它更适合于集成多种类型和形式的 信息源,而且在不需要事先了解信息源的结构和模式时就可以完美的完成结果信 息的统一表示和多种信息源的互操作。 2 2 3s s l 查询语言s s l q l 异种信息源集成系统访问半结构化数据时应该具有灵活的导航能力,不需要 对所要表示的信息源结构预先详细了解。在表示不规则、不完全或动态变化的数 据时,使用半结构化数据非常方便。半结构化数据排除了结构化数据的强类型和 关于结构化数据输出端口的实现机制。 s s l q l 是建立在自定义模式数据库上的一种说明式查询语言,将现有的类似 于s q l 的语言改造成使用s s l 数据的面向对象的查询语言。s s l q l 具有如下一 些重要特性: 一、 路径表达式:s s l q l 查询使用路径表达式在s s l 数据库里导航,路径 表达式是一组标签,这些标签包含了通配符和一个正则表达式操作符。例如,查 询“s e l e c tdf r o ma ( b 1 c ) + dd ”,选择了所有可以从入口点a ,通过直接到达 或通过更多的标有b 或以字母c 开头的路径可以到达的对象。 二、 自动类型强制转换:执行比较操作或其他操作时,s s l q l 将操作强制 转换成兼容的类型。例如,如果x 是一个原子的s s l 对象,字符串的值是4 , 在进行比较操作x 1 0 时,s s l 将强制将x 的值转换为4 。如果该转换不可能( 例 如x 是一个映像或一个复杂对象) 则判断操作返回f a l s e 结果。必要的时候还 在集合和一个单独的值之间进行强制转换。 第1 1 页 三、无类型错误返回:为了实现半结构化数据灵活的导航,s s l q l 不产生 类型错误。例如,使用不存在的标签从s s l 对象进行导航将产生一个空结果。这 样,在不知道或知道部分结构时,就可以在s s l 数据库执行任何s s l q l 查询, 不会出现运行时错误。 例九:“查找一本名字为a h o 的书” s e l e c t1 i b r a r y b o o k t i t l e w h e r e1i b r a r y b o o k a u t h o r = “a h o ” 该查询应用于根对象图书馆。如果有多个根对象则使用括号来指定一个根对 象。如果在s e l e c t 和w h e r e 之间加入f r o m1 i b r a r y 则通过在查询路径表达式 后面的对象结构路径可以实现该查询操作。 通过半结构化数据模型s s l 访问各种结构的信息源是解决多种信息源集成的 一个很好的方法。如果网络上一个要访问的信息存在于某个站点或某位置的目录 里,就直接访问和引用这些s s l 对象。如果信息不是目录的组成部分,就需要为 这些信息创建一个复合s s l 对象并将相关的信息融合成所要访问的s s l 对象,对 象包含所要查找的所有信息,然后将这些结果对象返回给客户。 2 3 调和器 信息集成系统中的调和器解决异种信息源集成的问题,它集中解决了异种信 息源集成问题的关键技术。调和器在信息集成过程中的地位非常关键,其中最重 要的工作包括处理查询,数据融合等。数据融合就是从多种信息源融合各种各样 结构化、半结构化和非结构化的信息,生成统一表示的半结构化对象s s l ;查询 处理就是处理从客户发来的查询请求,使用调和器定义语言规则将查询分解成多 个谓词的组合,确定该查询的执行计划并进行查询步骤的优化,向多种不同信息 源实施信息源专有的查询操作。 调和器是一个能够回答查询请求的工具,它为用户提供查询服务,同时又需 要其他调和器或信息源包装器所提供的信息。每个包装器是将某个特定数据源的 数据转换成统一模式的地方,同时它还将统一信息模式表示的查询转换成相对于 某个特定信息源的特定查询。不同的信息可以是不同种类的信息或是不同层次的 信息。信息可以是关系数据库的数据或根本不是关系数据库的数据,可以是文件 系统信息也可以是w e b 信息;数据的类型多种多样,例如:工资可以用整数类 型或字符串类型来表示:底层支持的各种表示单位可以是多种多样的,例如:存 储工资的时间单位可以是每个小时存储一次也可以是每个月存储一次:底层服务 支持的概念会有一些微小差别。工资部门和福利部门都将退休人员作为员工处理, 第1 2 页 颡堕融堂埴苤态堂猛究建阻壁焦: 金室 工资部门还可以将顾问作为员工处理,而福利部门不会将顾问作为员工处理;信 息也许不遵循一个固定的模式。笄种信惠源集成系统采用半结构化数据模式来表 示这整纷繁复杂的信息,采绡菜稃离效灵活盼数据横整采集成对多耱信患源的统 一表示,并摄就进行查询操作和摄务。榱据倍怠源集成系统数摄源傣惠表汞模型 异梅数撂表零方法、续搀秘港义异拨等特点,参考戮骣上著名携模魁语言o e m ( o b j e c te x c h a n g em o d e l ) 【l 】和x m l ,本文弓i 用了一季中缕构楚单灵溪、语义自定 义的半结构化数据模型s s l 。 调和器在信息集成的过程中具有非常关键的地位。其中最重要的工作还包括 燕询处理,信息波示等等。接收到套询之后,根据调和器定义的规则,调和器定 义解释器将j 媳速产生一个查询计划,该计划详细规定了蠢询操律如何访问多种信 惠源的步骤,以及查询所产生的查询结采如何被融合到个结采对象中。最后囊 调和器定义解释器将结采对象发送到客产静存穑器。翔果需要更详细翡鸯谗结果, 就需要继续遂归缝将结果对象豹子对象遨霞绘客户,壹雯获褥最深豹子慰象层黪 详缨信息。调彝器最主要豹功能还包括从不嗣揍式、不阉模戏、不鄹结枣句的多秘 馈息源融会傣息。融合功能包括:删除傧息冗余,鳃决多釉信息源之间的一致燃 问题。融合的关键是对那些装入调和器的对象从语法上指定一个对象标识( i d ) 。 这种语法意义上的标识号i d 表明有多少种的信息源对象被装入调和器,并由调 和器输出。 异种信息源集成系统为了生成调和器系统,使用调和器定义语言m s l 定义 谪和器鸯奄生成规粥,调和器是将用户查游翻译成谣两多稀信怠添静凌询计划醵缝 方。包装器将逶瘸鸯诲裁则浃像舞本地镲患源,同辩强调和嚣提供统一鸵半结槐 他模型视塑。 异弛售息源集成系统还废该包含分类和抽取、约束篱理和用户界面这榉的 魑组件。分类和抽取组 牛主要负责从非结构化的数掇源中抽取数据源的关键属性 和数据模式信息,确定信息源的某些格式或模式。约束管理主要定义接口,进行 本地信息约束管理等等。 接收到查询之后,根据调和器定义,调和器定义解释器将迅速产生个查询 瓶剐或怒查询计划,该计划详细兢定了查询搡作如何访闽多种信患源的访问步骤, 该及产垒的鸯谒结果鲡 簿被融合蓟一个线多个结采对象,最后南调鞫器定义解释 器将结果对象发送至l 客户豹存髓器。热栗霭簧委详纲豹在询结果,就震要继续递 归地耀续果对象的予对象返魍绘客户,囊到获缌最深的予对象鼷的详缨售息。 第1 3 页 2 3 1 调和器的概念 异种信息源集成系统对调和器结构的要求是: 一、需要调和器具有一些新型的结构,包括现代编程语言中所拥有的嵌套结构。 二、调和器应该可以处理丢失的数据信息,并能够描述多种不同结构的相关信息。 三、调和器应该可以表示备注信息以及与结构相关的信息,以及表示描述数据的 术语备注信息。 异种信息源集成系统中对调和器的功能要求是:要求调和器可以集成多种不 同信息源,应该能够回答所有与实体相关的查询,使用包装器的相应包装接1 :3 或 其他调和器来响应这些查询请求;运行时,调和器可以根据对调和器的定义处理 查询,重组查询( 基于能力的调和) ,再进行对象融合。 调和器是由调和器生成器根据调和器定义所描述的规则自动生成的。下图描 述了调和器生成器和调和器之间的关系。 团 j 查询请求结果返回 一- f 调和器生成器r 叫 调和器 f ! 到信息源的查询 图2 4 调和器结构 调和器定义中给出定义s s l 对象的逻辑规则,调和器生成器使用m s l 描述 调和器。发送到调和器的查询请求是对调和器里对象的查询。调和器根据m s l 描述的s s l 规则表示信息对象。调和器中的信息对象必须满足规则中的约束条件。 使用调和器定义语言和调和器生成器产生调和器。调和器的信息源已经提到 了s s l ,而包装器的信息源需要对s s l 对象做特殊说明。给定一组信息源和包装 器,就可以建立调和器来集成和优化信息。特别是,调和器提供底层信息集成的 s s l 视图。运行时调和器接受对信息的查询请求,调和器定义解释器根据定义说 明从信息源搜集并集成必须的信息,这些信息源可以是信息源包装器或其他调和 器。 第1 4 页 2 3 2 调和器如何处理查询请求 调和器可以集成多种不同信息源,同时也处理各种与实体相关的客户查询请 求。调和器使用包装器的相应包装接口或其他调和器来响应这些客户的查询请求。 运行时,根据调和器定义的逻辑规则处理查询,重组查询( 基于能力的调和) ,再 对查询到的信息进行对象融合,返回结果对象。 查询处理的过程可以参看图2 5 。 查询请求 图2 5 调和器和信息源的网络 调和器的查询结构包括了查询翻译、制定逻辑查询计划、信息源查询能力模 板匹配。 查询翻译当用户查询到达调和器时,从用户的角度出发将查询翻译成用调和器 定义语言m s l 表示的一组逻辑规划,该逻辑规划是面向每个具体信息源的查询 计划,而不是从信息集成角度出发的查询计划。 实际计划逻辑查询规则并不指定子条件查询的处理顺序。确定可能的子条件查 询顺序表示。根据信息源的查询能力决定物理计划的可行性和有效性。 信息源查询能力描述模板模板表示每一个信息源的查询能力,每个模板对应某 第1 5 页 国陵魁堂拄娄盔堂姐褒生隧茔域i 金衰 个特定信息源所能处理的查询操作。( 需要个功能强犬的信怠源蠢询能力描述 语言,用于描述特定信怠源漪查询能力) 产垒躬逻辑麓爨| l 被抟送捌趣粼生成模块,该模块热鲞询计算出一令实琢哥符 豹诗划。霹露敦实豁计划由下瑶三令维l 牛产生: 驻配器找出赝鸯可以处理逻辑规划某些郏分的特定信息源查询。 j 4 穿器处理逻辑规划中条件查询的排序,形成个实际可行的顾向每个信息 源的物理查询计划。 优化器计划产生过程的最后一步是优化一组可行的查询方察,并选择其中簸 有效的最可行方案,并将该最高效髓计划转换成一个实际可行的物理步骤。 调和器需要一种新的查询语言,这种套询语言能够将新盼谪和器蕊入璜有的 调和器集合中,潋扩展和增强谲和器翡功靛,该语言痘能够向玟有的调粒器孛输 入新豹数据源,痤该提供一些王兵来创建掰豹调和器系统,这终工其痤该毙使用 脚本创建调秘爨更热有效。下瑟将会绍调_ 秘器定义语言m s l 。 2 。3 。3m s l 语言会绍 调和器产生器掇供了高级静查弼语言m s l ,由m s l 定义谣帮嚣,m s l 是疆 囱对象豹逻辑查询瀑言,主要用于s s l 数攥模型。宅包含了便予集成冥耪髅息豹 特性。m s l 借鉴了谗多疆肉逻辑的淫言特点。然露,它限制使用某些集合。其优 点是可以象连询结构化数据那样查询非结丰句化的数据。 个查询包含多个规则,每个规则包含了一个头,后面接冒号“:”,后面 接一个查询体。头描述了调和器使用的对象。套询体描述了源对象需要满足的条 件。通常,头和体基于 格式。如果查询体没有对象标识, 剿表示不关心源信意是从哪里来的。如果头模式没有对象标识,表明应该为所产 生的对象翻建一个难一静对象标识。 一个完整豹m s l 定义,惫括燕式豹语法稻语义。这墨,我们篱要说骥一下 m s l 语塞。该倒子的对象结槐参考图2 2 中提如豹对象结构。 例1 “查找名字为a h o 的l 乍者” : l i b r a r y b o o k q s l 三角括号表示标签和值,花括芍将一组集合的所有成员括在一起:该集合是 某个类型为“s e t ”的对象的值。 该套询皮用于标签为l i b r a r y 的校对象。该穰对象可敬最一个包装器或楚一个 第1 6 燹 调和器的信息源,称为s 1 。通过查找对象结构中的路径,将查询体中的对象模式 和源s l 中的对象结构比较。例如图四中的路径顺序是:b o o k ,a u t h o r ,其实实际 上应该有许多路径。变量x 和b o o k 对象的标题子对象值绑定,该b o o k 对象有一 个作者子对象值为 a h o ”。查询头表示了x 绑定的每个值都包含在结果集中,作 为标有b o o k t i t i l e 的对象的值。 上面例子中的规则其实就是一个查询。然而,上面的这个规则也可以定义一 个小型调和器:将标题为a h o 的书输出到s l 。 下面的例子说明如何使用m s l 语言定义调和器中的对象。 例2 这里有两个包含了计算机科学系人员的信息,第一个信息源是关系数 据库,包含了模式表。 e m p l o y e e ( n a m e ,t i t l e ,r e p o r t s _ t o ) s t u d e n t ( n a m e ,y e a r ) 一个名字为c s 的包装器将该信息作为一组s s l 对象输出。 第二个信息源是大学的“w h o i s ”机构,包含了关于雇员和学生的信息。还包 含了一个人员所在的部系以及人员和大学之间的关系( 学生,雇员等等) 。一个 w h o i s 包装器支持对这些信息的访问操作。 我们现在考虑一个调和器,称为m e d ,它可以访问包装器c s 和w h o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民用航空气象人员执照(气象信息系统)考试题库-上(单选、判断题)
- 蒙古北京八中乌兰察布分校2026届高二化学第一学期期末监测模拟试题含答案
- 河北省兴隆县2025年上半年公开招聘城市协管员试题含答案分析
- 河北省肃宁县2025年上半年事业单位公开遴选试题含答案分析
- 河北省乐亭县2025年上半年公开招聘村务工作者试题含答案分析
- 2025年度物流仓储设备采购合同模板集合2
- 2025版通信行业人才培训与咨询服务合同
- 2025年度写字楼公共区域清洁作业合同范本
- 2025店长聘用协议:超市连锁店店长招聘与聘用标准
- 2025年度国际项目外籍工作人员劳动合同书
- 阿特拉斯变频无油螺杆空压机说明书
- 统编本四年级上册语文课堂作业本参考答案
- DBJ50-T-389-2021 高性能混凝土应用技术标准
- 项目经理带班检查记录表(每周一次)
- 智能消防应急照明与疏散指示系统方案
- 人卫九诊断学发热
- 《特困人员集中供养服务协议》
- 说明书hid500系列变频调速器使用说明书s1.1(1)
- 人教版五年级下册期末测试数学试卷【含答案】
- 铁路路基重力式挡土墙施工方案
- T∕CMES 35004-2021 增材制造 激光粉末床熔融316L不锈钢技术要求
评论
0/150
提交评论