




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)模型管理技术中的匹配操作的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 模式匹配是模型管理技术的核心操作之一,并已成为模型管理的一个 重要组成部分。本文对模型管理中模式匹配技术进行了综合分析,提出了 两种模式匹配算法,并把它们应用到所设计的x m l 视图后期更新和维护 的原型系统中,具体内容如下。 首先,对基于重复数据的模式匹配算法_ s m d f s c h e m am a t c h i n g 戚n gd u p l i c a t e s ) 算法进行了分析,针对该算法存在的不足和局限性,提出 t i s m d ( i n t e g r a t e ds c h e m am a t c h i n gu s i n gd u p l i c a t e s ) 算法,通过实例和实 验对算法进行了分析和验证,该算法能够有效地提高匹配的准确度。 其次,对基于不透明列名和数据值的模式匹配算法进行了分析,针对 其交互信息计算量大的问题,提出了过滤节点算法,通过实验验证可知该 算法能有效地过滤不合理节点,减小交互信息的计算量。在此基础上,对 基于不透名列名和数据值的模式匹配算法进行了改进,并提出了s m o c d ( s c h e m am a t c h i n gw i t ho p a q u ec o l u m nn a m e sa n dd a mv a l u e s ) 算法,与原 算法相比,该算法降低了时问复杂度,能够较为准确地找到模式中的匹配 节点。 再次,利用了模型管理的基本思想,设计了对x m l 视图发布进行后 期更新和维护的原型系统,来实现己发布的x m l 视图后期更新和维护工 作的自动化。 最后,通过实验对所提出的算法进行了验证。 关键词模型管理;模式匹配;相似度;熵;交互信息 燕山大学工学硕士学位论文 a b s t r a c t s c h e m am a t c h i n gi so n eo fo d r eo p e r a t o r si nt h et e c h n o l o g yo fm o d e l m a n a g e m e n t , a n dh a sb e c o m ea ni m p o r t a n tp a r to fm o d e lm a n a g e m e n t t h e t e c h n o l o g i e s o fs c h e m am a t c h i n gi nm o d e lm a n a g e m e n ta r e a n a l y z e d s y n t h e t i c a l l y , a n dt h e nt w oa l g o r i t h m sf o rs c h e m am a t c h i n ga r ep r o p o s e di n t h i sp a p e ra n da r ea p p l i e dt oap r o t o t y p ew h i c hi sd e s i g n e dt od e a lw i t ht h e u p d a t ea n dm a i n t e n a n c ea f t e rp u b u l i s h i n gx m lv i e w s ,t h ec o n c r e t ec o n t e n t s a r ea sf o l l o w s f i r s t l y , s m d ( s c h e m am a t c h i n gu s i n gd u p l i c a t e s ) a l g o r i t h mi sa n a l y z e d , a c c o r d i n g t oi t s s h o r t c o m i n g s a n dl i m i t a t i o n s ,i s m d ( i n t e g r a t e ds c h e m a m a t c h i n gu s i n gd u p l i c a t e s ) a l g o r i t h mi sp r o p o s e d t h e ni s m da l g o r i t h mi s a n a l y z e da n dv e r i f y i e dr e s p e c t i v e l yt h r o u g hi n s t a n c ea n de x p e r i m e n t , w h i c h c a ni m p r o v ec o r r e c t n e s se f f e c t i v e l y s e c o n d l y , t h ea l g o r i t h mf o rs c h e m am a t c h i n gw i t ho p a q u ec o l u m nn a m e s a n dd a t av a l u e si sa n a l y z e d a c c o r d i n gt ot h el a r g ec o m p u t a t i o n , t h en o d e sf i l e r a l g o r i t h mi sp r o p o s e d , w h i c hc a nf i l t e rt h ei r r a t i o n a ln o d e sa n dr e d u c et h e c o m p u t a t i o no f m u t u a li n f o r m a t i o n b a s e do nt h e s e ,t h ea l g o r i t h mf o rs c h e m a m a t c h i n gw i t ho p a q u ec o l u m nn a m e sa n dd a t av a l u e si si m p r o v e d , a n dt h e n s m o c d ( s c h e m am a t c h i n gw i t ho p a q u ec o l u m nn a m e sa n dd a t av a l u e s ) a l g o r i t h mi sp r o p o s e d , w h i c hd e d u c e st h et i m ec o m p l e x i t ya n dc a nf i n dt h e m a t c h i n gn o d e sc o r r e c t l yc o m p a r e dw i t ht h ep r i m a lo n e t h i r d l y , a p p l y i n gt h eb a s i ci d e ao fm o d e lm a n a g e m e n t , ap r o t o t y p ei s d e s i g n e dt o d e a lw i t ht h eu p d a t ea n dm a i n t e n a n c ea f t e rp u b u l i s h i n gx m l v i e w st or e a l i z et h eu p d a t ea n dm a i n t e n a n c eo fp u b l i s h e dx m lv i e w s a u t o m a t i c l y f i n a l l y , t h ea l g o r i t h m sp r o p o s e di n t h ep a p e ra r ev a l i d a t e d t h r o u g h a b s t r a c t e x t e n s i v ee x p e r i m e n t s k e y w o r d sm o d e lm a n a g e m e n t ;s c h e m am a t c h i n g ;s i m i l a r i t y ;e n t r o p y ;m u t u - i l l 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文模型管理技术中的匹配 操作的研究,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他 人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和 集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签字 主、1 面 日期:知。年汨“日 燕山大学硕士学位论文使用授权书 模型管理技术中的匹配操作的研究系本人在燕山大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学 所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完 全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关 部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕 山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的 全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密叮。 ( 请在以上相应方框内打“4 ”) 作者签名: 言t i 趋 日期:劲。占年穸月巧日 导师签名:争i u日期沙矿f 月妒 第1 章绪论 1 1 研究背景 第1 章绪论 随着i n t e m e t 的发展,基于 n t e r n e t 的电子商务不断得到发展。i n t e m e t 为各种类型的商业实体提供了发现新客户、新供应流、新服务的各种机会。 随着信息技术的不断发展变化,可扩展标记语言m 川( e x t e n s i b l em a r k u p l a n g u a g e ) 逐渐成为跨越所有领域实现方案的一个关键组成部分。x i v l l 不 仅提供了h t m l 2 1 ( h y p e r t e x tm a r k u pl a n g u a g e ) 所不具有的可扩展性,而且 还提供了与已有系统进行交互的能力。因此,软件供应商都尝试着把x m l 的功能集成到自己的软件中。 正是由于i n t c m e t 在人们日常生活中的地位越来越重要,再加上x m l 自身具有强大的功能,将有用信息以x m l 文档形式发布到i n t e m e t 上变得 至关重要。 x m l 已成为数据交换的一个重要介质,同时也被作为一个接口,即关 系数据库的一个视图。因此,x m l 的作用日趋重大。x m l 的数据发布技 术成为当前数据库研究的一个热点,并且已经有了比较成熟的发布技术。 另外,利用x m l 视图查询关系数据库方面的问题也已经有了比较深入的 研究。与此同时,对已发布的x m l 视图进行后期的更新和维护管理问题 日益突出,研究人员已经开始重视对这一问题的研究。 目前,对已发布的x m l 视图,大多是采用手工操作来决定如何对发 布的x m l 视图进行相应的变化更新。很显然,这种手工操作方法是费时 费力的,是不可取的。为了解决这些问题,就需要找到一种快速而且自动 的模式匹配方法,从而实现x m l 视图发布后期的更新和维护管理工作的 自动化。 关于模式匹配的研究早在上个世纪8 0 年代就已经开始了。早期的模式 匹配工作是为模式集成酣诹务的。进入九十年代,随着模式集成技术的研 燕山大学工学硕士学位论文 究和发展,模式匹配开始应用于将数据源集成到数据仓库的过程中,用于 发现数据源模式与数据仓库模式之间的映射关系,以完成对数据源中数据 的抽取和转换 5 1 。在最近的二十年,电子商务晦7 1 的出现进一步推动了模式 匹配的研究。由于交易伙伴经常交换描述商务交易的信息,而通常情况下, 每一个交易伙伴使用他自己的信息格式,因此不同的消息模式间的转换也 需要模式匹配操作。 由于需求的不同,模式匹配工作大部分仍以人工( 领域专家或系统开发 人员) 定义方式为主,费时费力且容易出错,而这个问题也随着w e b 数据 源的快速增加和电子商务的一体化而日趋严重。同时,随着系统处理数据 库模式的日益复杂,数据库中数据规模的不断扩大,需要完成更多的匹配, 手工工作量与需要完成的匹配数目成正比。因此,需要找出一种通用的、 自动化程度高的、可以应用于不同数据模型和应用领域的综合的模式匹配 方法。 1 2 研究现状 虽然存在很多的x m l 数据发布技术,而且x m l 视图发布技术的研究 也已经日趋成熟,但是对于发布后的x m l 视图的更新和维护工作,目前 的研究尚处于起步阶段。 对于关系数据库上x m l 视图的可更新性 8 1 ,首先考虑的是如何通过一 个x m l 视图更新一个关系数据库,把嵌套的关系代数作为一个关系数据 库的x m l 视图,然后再考虑这个视图何时需要更新和维护。 解决x m l 视图的更新和维护这一问题一般都是采用手工操作。当得 知发布的x m l 视图发生了变化,需要更新时,由视图的管理人员或专家 将发生的变化一一找出,然后人为的决定如何进行相应的变化,最后根据 这些变化对发布的x m l 视图进行相应的更新。虽然这种操作方法能够解 决x m l 视图发布之后的更新和维护问题,但是采用这种方法不能达到及 时更新,并且操作费时费力。 近些年来,模式匹配作为数据管理应用中的基础性问题受到了全球的 2 第1 章绪论 普遍关注。通过模型管理中的模式匹配操作可以实现x m l 视图发布后期 的更新和维护管理工作的自动化。模式匹配技术的研究开始得比较早,已 经有了一定的研究成果,相应的出现了一些模型管理的原型系统和模式匹 配算法 9 - 2 2 1 。下面分别介绍国内外具有代表性的研究成果。 1 9 9 9 年s i l v a n ac a s t a n o 等人提出了a r t e m i s 系统【9 】,2 0 0 0 年l u i g i p a l o p o l i 等人提出了d i k e 系统【,它们都是混合的基于模式的匹配器, 它们都应用了元素级和结构级的匹配技术。 2 0 0 0 年w e n s y a nl i 等人提出了s e m i n t 系统f l ,它是一个基于实例 的模式匹配系统,并且是一个应用混合匹配技术的模式匹配系统。它主要 应用神经网络技术去确定匹配候选,在两个模式的单属性间建立一个映射, 即它的匹配基数是1 :1 。s e m i n t 描述了一个强大的、灵活的、混合的匹配 技术,但s e m i n t 不支持基于名字的匹配或图形匹配。 2 0 0 1 年v l d b ( v e r yl a r g ed a t ab a s e s ) 会议上,e r h a r dr a h m 等人提出 了d e l t a 系统【1 2 1 ,它把一个属性所有可以获得的元数据组合到一个文本 字符串当中,然后应用信息检索技术来进行模式匹配。与s e m i n t 相同, 它也没有应用基于模式结构的匹配技术。 2 0 0 1 年v l d b 会议上,p r a s e n j i tm i t r a 等人提出了s k a t 系统1 1 2 a 3 】, 它是一个基于规则的半自动化的模式匹配原型系统,其匹配方法主要采用 了名称匹配和简单结构匹配。s k a t 对用户定义的依赖度很高。 2 0 0 1 年v l d b 会议上,j a y a n tm a d h a v a n 等人提出了c u p i d 系统【】, 它应用的是一种通用化的混合匹配方法,把一个名字匹配器与一个结构化 匹配算法相结合,根据这个结构化算法可以推导出元素的相似度,而元素 的相似度是根据元素组件( 主要是元素名字和元素的数据类型) 的相似性得 出的。为了解决元素的共享问题,将模式图转换成树的形式,在树中通过 增加附加的节点来解决共享节点和它的父亲节点之间的多重关系。但是, c u p i d 系统也只对模式匹配问题做了更进一步的工作,并没有完全解决这 个问题,仍需要加入其他的技术( 如应用于实例的机器学习、通用的语言技 术和面向重用的匹配模型等) 来使c u p i d 更加完善。 2 0 0 2 年a n h a id o a n 等人提出了l s d 系统【1 6 】,它是一个自动模式匹配 燕山大学工学硕士学位论文 系统,是目前最具代表性的基于机器学习方法的自动模式匹配系统。 2 0 0 2 年v l d b 会议上,h o n gh a id o 等人提出了c o m a 系统【1 7 j ,该 系统应用的是一种合成的模式匹配方法,它提供一个承载了多个不同匹配 器的外部知识库,并且支持多种结合匹配结果的方法。其中的匹配器利用 的是模式信息,如元素属性和结构属性,也就是说应用的是基于模式的匹 配技术。它还提供了一个特殊的匹配器来对以上匹配器产生的结果进行筛 选过滤。c o m a 虽然提供一个承载了不同匹配器的外部知识库,并且支持 各种结合匹配结果的方法,但c o m a 只解决了关于1 :l 的匹配。 2 0 0 2 年i c d e ( i n t e m a t i o n a lc o n f e r e n c eo nd a t ae n g i n e e r i n g ) 会议上, s e r g e ym e l n i k 等人提出了s f 模式匹配算澍h 1 ,它是一种基于图形结构的 模式匹配方法。首先输入要匹配的两个模式,然后将这个模式转换成两个 图形的表示,再依据数据库模式中的列名和数据类型进行定点计算,多步 迭代之后,最后输出图中对应节点间的映射,得到匹配的结果。s f 算法是 一种通用的模式匹配方法,它可以用来匹配不同的数据结构。 2 0 0 3 年s i g m o d ( s p e c i a li n t e r e s tg r o u po nm a n a g e m e n to fd a m ) 会议 上,s e r g e ym e l n i k 等人提出了r o n d o 模型管理原型系统( 1 9 】,它应用模型管 理的思想来解决两个模式间发生变化的元素的传送问题。s f 算法被用于 r o n d o 原型系统中,以实现其中的m a t c h 操作符。 2 0 0 4 年s i g m o d 会议上,r o b i n d h a m a n k a r 等人提出了i m a p 模式匹 配系统【2 0 】,该系统不仅能够半自动的发掘模式间的l :1 匹配,而且能够较 准确的发掘出复杂匹配,但也有其自身的缺点。由于每个检索程序都要对 所有的候选匹配进行检索,而且所有可能的候选匹配是无限多的,导致需 要检索的候选匹配规模太大。 2 0 0 5 年n d b c ( n a t i o n a ld a t ab a s ec o n f e r e n c e ) 会议上,李由等人提出 了s m d d 模式匹配方法【2 1 1 ,它是一种基于数据实例分析特征的模式匹配方 法,通过分析模式元素所包含数据的分布特征,利用神经网络的模式识别 功能找出具有相似数据分布规律的元素集合,并进一步计算模式元素之间 的相似度,最后将推荐的候选匹配返回给用户。该方法的匹配质量很大程 度上依赖于数据源中数据分布的规律性。 4 第l 苹绪论 2 0 0 5 年i c d e 上,a 1 e x a n d e rb i l k e 等人提出了s m d ( s c h e m am a t c h i n g u s i n gd u p l i c a t e s ) 模式匹配算法【2 2 】,它利用两个模式中具有重复数据值的元 组来进行模式之间的匹配操作。对于某些属性存在匹配关系但在这些属性 值上不存在重复数据的情况,s m d 算法不能进行匹配判断。 国内模式匹配技术的研究还处于刚刚起步阶段,到目前为止,国防科 技大学对此领域有较深入的研究,并且将模式匹配技术应用于军事,得到 了国家科研项目的支持。 1 3 研究意义 模型管理中关键技术的研究,特别是模式匹配技术的研究在数据库领 域具有深远的影响和巨大的作用。近些年来,模式匹配技术越来越受到人 们的重视,这主要是由于模式匹配技术在多种实际应用中的重要性。下面 就从两个方面来简要阐述这一课题的研究意义。 首先,关于模型管理1 2 3 】。模型管理是近几年才提出的一个概念,模型 管理的目的是在开发元数据密集型应用中减少对编程数量的需要。它能够 简化元数据密集型应用的程序设计,在数据库设计、数据集成、数据转化、 模型驱动万维网站点管理、数据仓库等领域中都有着极其广泛的应用。目 前,模型管理的主要研究目标就是开发一个高级代数操作符的集合,如 c o m p o s e 、m a t c h 和m e r g e 等。这些操作符是用来综合在各种元数据应用 之间的变换操作,而其中所有操作的基础与核心就是m a t c h 操作,也就是 说,模式匹配是模型管理中的一个重要组成部分,因此,模式匹配技术是 人们研究的一个重点。 其次,关于x m l 视图发布后期的更新和维护工作。x m l 可以按照客 户需要与不同的数据源进行交互,这些数据可能来自不同的数据库,因此 它们都有各自不同的复杂模式,但是客户只能通过一种标准语言与这些数 据库进行交互,那就是x m l 。由于x m l 的自定义性及可扩展性,它足以 表达各种类型的数据,也正是由于x m l 本身所具有的强大功能,现在的 数据发布普遍采用x m l 文档的形式。虽然当前对于x m l 数据发布技术的 5 燕山大学工学硕士学位论文 研究已经日趋成熟和完善,并取得了很多优秀的研究成果,但是如果对发 布的x m l 视图的更新和维护还是采取手工操作的方法,会浪费大量时间 和人力,造成工作效率下降。因此,对于x m l 视图发布后期的更新和维 护管理工作自动化的研究也就显得日益重要。模型管理思想的应用可以加 大发布的x m l 视图的更新和维护工作自动化程度,所以模型管理中模式 匹配技术的研究在x m l 视图发布后期具有重要意义。 为了更好地分析和说明本课题的研究意义,下面来考虑如下两个实例。 实例1 1 :电子商务中的应用。在电子商务中的应用是模型管理中的 一类典型问题。如果一个电子商务公司需要为它的一个交易伙伴提供所购 买的订货数据,而这些数据是存储在一个关系数据库中,也就是源模式。 为了顺利地进行数据交换,两个公司都同意使用一个通用的x m l 模式, 而这个通用的x m l 模式的格式与源模式在项目的结构和命名上是不同的。 而且,由于交易具有动态特性,源模式会在交易的过程中产生周期性的变 化。例如,有些列会被删除,有些列是新增的,还有些列被重新命名。因 此,需要把这些变化找出来,然后相对应地传送到x m l 模式。 实例1 2 :公司的吞并问题。公司吞并问题是一个经典的模式匹配问 题。为了实现两个公司的合并,必须把两个公司的数据库结合起来,所以 必须要考虑的问题就是如何确定其中一个公司的表中的属性是否和另一个 公司的表中的属性匹配,是否能够形成映射关系,然后才能够根据匹配和 映射实现数据库的合并。 从上述两个实例不难看出,模型管理和模式匹配在现实生活中都是很 常见的问题,因此,模型管理是解决数据库领域内类似问题的一种新的而 且是非常重要的方法。本文所提出的模式匹配技术,解决对已发布的x m l 视图的后期更新和维护问题,可以看作是x m l 数据发布系统的一部分, 对x m l 视图发布技术有着重要的意义。 1 4 研究内容 根据上面所阐述的研究背景和研究现状,课题的研究内容是实现x m l 6 第l 章绪论 视图发布之后的更新和维护自动化,主要包括以下两个方面:一方面是对 于已发布的x m l 视图,能够根据源模式的变化,实时地进行相应的维护 更新,从而达到模式的一致性。另一方面是对已发布的x m l 视图,如果 它需要与另一个模式进行合并时,通过对已发布视图和所给模式进行匹配 操作,从而直接得到合并之后的结果视图。 根据以上两方面的内容,对现有的模式匹配技术进行了分析比较的基 础上,提出了本文的观点,主要分为以下三个方面。 第一,对基于不透明列名和数据值的模式匹配算法进行改进。对基于 不透明列名和数据值的模式匹配算法进行分析,将原有算法计算交互信息 的过程进行改进,增加一步预处理,从而减少了算法的计算量,简化了算 法的计算过程,降低了时间复杂度,提高了算法的性能。 第二,对应用在模型管理中的模式匹配算法s m d 算法进行改进。 在对s m d 算法进行详细分析的基础上,针对其局限性,提出了i s m d ( a n i n t e g r a t e ds c h e m am a t c h i n ga l g o r i t h mb a s e do nd u p l i c a t e s ) 算法,使它能够 返回更完整的匹配结果,并对算法进行分析。 第三,基于上述研究成果,设计并实现一个基于模型管理的x m l 视 图发布后的更新和维护的原型系统,用以解决对于x m l 视图的后期更新 维护和管理工作的自动化的问题。 1 5 本文组织结构 本论文总体上分为6 章,从第2 章开始具体布局如下。 第2 章主要介绍了基础知识。首先介绍了x m l 视图的发布维护,然 后具体阐述了模型管理的相关知识及其研究意义,最后对模型管理中模式 匹配的相关知识及其研究意义进行简要的介绍。 第3 章主要研究了i s m d 模式匹配算法。首先介绍了s m d 模式匹配 算法的主要思想,并分析了该算法的局限性,然后针对存在的局限性提出 了完整模式匹配算法的思想,并给出了具体的i s m d 模式匹配算法,最后 对算法的正确性进行了证明,并通过实例对算法进行了分析说明。 7 燕山大学工学硕士学位论文 第4 章主要研究了不透明列名和数据值的模式匹配算法。首先对原有 基于不透明列名和数据值的模式匹配算法进行了分析,然后根据定义和定 理提出了过滤节点算法,根据该算法的思想,提出了新的基于不透名列名 和数据值的模式匹配算法一s m o c d 算法,并通过实例对算法进行了分 析说明。 第5 章主要研究了模式匹配的原型系统。对模式匹配原型系统的开发 环境和设计方案进行详细说明。 第6 章主要是算法的实验验证。对第3 章、第4 章所提出的算法进行 了实验验证,并在实验的基础上分析了实验结果。 最后,总结了本文的工作并提出了下一步设想。 8 第2 章基础知识 2 i 引言 第2 章基础知识 x m l 的数据发布技术是当前数据库研究的重点,对已发布的x m l 视 图进行后期的更新和维护管理问题日益突出。为了解决该问题,应该通过 模型管理中的模式匹配操作来实现x m l 视图发布后期的自动化更新和维 护管理。本章将详细介绍有关x m l 视图发布与维护、模型管理和模式匹 配的基础知识。 2 2 x m l 视图发布与维护 x m l 的出现源自于应用的需求,它将大幅度改善人们在网络世界里的 交流方式。随着i n t e m e t 的不断深入和m ,的迅速发展,x m l 已经成为一 种在i n t e m e t 上共享信息的强大途径,主要有以下原因。 ( 1 ) 可扩展性x m l 在两个意义上是可扩展的。首先,它允许开发者创 建他们自己的d t d ,有效地创建可被用于多种应用的可扩展的标志集。其 次,使用几个附加的标准,开发者可以对x m l 进行扩展,这些附加标准可 以向核心的x m l 功能集增加样式、链接和参照能力。企业可以用x m l 为电 子商务和供应链集成等应用定义自己的标记语言,作为该领域信息共享与 数据交换的基础。 ( 2 ) 互操作性x m l 可以在多种平台上使用,而且可以用多种工具进行 解释。因为文档的结构是相容的,所以解释它们的语法分析器就可以较低 的费用建立x m l 支持用于字符编码的许多主要标准,允许它在全世界许 多不同的计算环境中使用。 ( 3 ) 开放性x m l 标准本身在w e b 上是完全开放的,可以免费获得,其 文档自身也较为开放,任何人都可以对一个结构良好的x m l 文档进行语法 9 燕山大学工学硕士学位论文 分析,如果提供了d t d ,则还可以校验这个文档。 ( 4 ) 灵活性x m l 提供了一种结构化的数据表示方式,使得用户界面 与结构化数据分离。在x m l 中可以使用样式表,另外,x m l 文档之间的 超链接功能由独立的x l i n k 来支持。 ( 5 ) 自描述性x m l 文档通常包含一个文档类型声明,因而x m l 文档 是自描述的。x m l 文档中的数据可以被任何能够对x m l 数据进行解析的 应用所提取、分析和处理,并以所需格式显示。x m l 表示数据的方式,真 正做到了独立于应用系统,并且这些数据能重用。 x m l 数据描述机制意味着它已经成为在互联网上进行数据表示和交 换所使用的标准语言阱】。 x m l 现在正迅速成为数据发布、数据交换、电子商务、数据集成等众 多领域的首选技术,特别是集成电子商务系统。在电子商务领域中,如果 一个公司要建立b 2 c 、b 2 b 和外部网解决方案,那么它们都希望用x m l 来简化后端系统集成和经由防火墙的数据传输。虽然许多公司只是希望用 中间层x m l 解决方案来解决其数据通讯方面的问题,但是,无庸置疑, 以x m l 文档形式的数据发布、数据交换、数据传输、数据存储等都具有 巨大的价值。 所谓数据发布就是将其他的数据形式,例如,关系数据和面向对象数 据形式,以h t m l 或x m l 文档形式发布到i n t e m e t w e b 上。在x m l 出现 之前,数据的发布主要是以h t m l 文档形式,但是随着i n t e m e t 在人们生 产、生活和工作中变得越来越重要,基于h t m l 文档形式的w e b 应用已 经不能满足人们各种各样的需求。在这种情况下,x m l 被推出并作为w e b 上进行数据发布、传输与交换的标准,而且由于在关系模型中数据表示的 非直观性,它也越来越多地作为查询和更新关系数据库的一种机制。 x m l 视图是基于x m l 的关系数据发布系统中的一个重要概念。为了 将关系数据库中的数据发布为x m l 形式,需要寻找一个关系数据到x m l 的映射。通过构建这种映射,也就开发了x m l 视图。 x m l 视图就是在外部x m l 格式或者非x m l 格式的数据源上创建虚 拟的、实时的信息“快照”,使它们统一成x m l 的格式来简化在应用上的 1 0 第2 章基础知识 集成。 x i v i l 视图也可被视为传统数据库上的抽象层。通过提供这种x m l 视 图,用户能够以分层的半结构化方式来公开或者发布传统的关系数据,因 此,这种方式通常是用来公开业务对象的更自然的方式。 近年来出现了很多的x m l 数据发布技术 2 5 3 0 1 ,它们的发布模型基本 上是相似的,如图2 1 所示。信息发布的主要处理过程是发布系统在i n t e r n e t m ,c b 上为用户提供一个能够包含底层数据库的结构与内容信息的x m l 视 图,用户根据这个x m l 视图,利用各种查询语言( 如l o r e l f 3 1 1 ,x m l q l 3 2 j 3 1 , x q u e r y 3 4 3 5 1 等) 提出查询请求并提交给发布系统,发布系统对用户提交的 查询进行解释,并将其转换为s q l 查询语句,然后对底层数据库执行查询, 从而得到原始结果,随后发布系统将原始结果x m l 文档化,并确保所得 的x m l 文档的良构性,最后将结果以x m l 文档形式返回给用户。 l 用户 j 1 f ,、 ( 应用界面 ) 查。 茎询 、_ 1 舸罾言) 舰: ,一 h x m l 视图 ,一。 i 查询重写i 文档生成i s q 弋原始结果 r d b m s 图2 - 1x m l 数据发布模型 f i g u r e2 - 1p u b l i s h i n gm o d e lo f x m l d a t a l l 燕山大学工学硕士学位论文 x m l 数据发布技术的基础就是整个数据库x m l 视图的生成技术,文 献【2 5 】阐明了如何查询x m l 视图。文献 2 9 1 提出了一种名为r x l 的语言 用来创建x m l 视图,它需要程序员应用r x l 语言来创建x m l 视图。文 献【3 6 】从数据库设计的角度,提出了一种e r 模型到d t d 的转换方法,在 数据库设计的同时完成了x m l 视图的创建,其中提出的从e r 图到x m l 视图的发布方法,不仅考虑了如何发布已经存在的数据库中的数据,而且 还考虑了在数据库设计的同时,如何进行现实世界中信息的发布。 综上所述,国内外对于x m l 视图的发布技术的研究都获得了很大进 步,并且有着较为深远的意义。 当x m l 视图发布之后,随之而来的问题就是对x m l 视图的更新和维 护,这也是本课题所要研究的内容。 2 3 模型管理 模型管理是近几年才提出的一个概念,它能够简化元数据密集型应用 的程序设计。大多数的信息系统都依赖于元数据设计工件【3 1 来存储、传输 和交换信息,如数据库模式、接口规范或者视图定义。生成和操作这些元 数据设计工件的应用非常复杂,且很难建立。模型管理研究的目的就是开 发一系列功能强大的操作符来简化这些应用的程序设计,从而大幅度地提 高开发者的生产率。模型管理技术能够很好地解决x m l 视图发布的后期 更新和维护。 2 3 1 模型管理的概念 模型管理【3 8 1 是简化元数据密集型应用【3 9 1 的程序设计的一种方法。相对 于当前的技术,它能够提供更高级的程序设计接口。模型管理的目标在于 提供一个通用的、强大的环境,能够快速开发元数据密集型应用。 在模型管理中,模型【2 3 】、模型之间的映射是两个较为抽象的概念。模 型是指一种设计的因素,包括关系模式、接口定义、x m l d t d 、语义网络 和工作流定义等。在抽象的级别上,可以认为模型是一个有向标记图,其 第2 章基础知识 中的边标记具有相对复杂的结构。从一个模型m i 到另一个模型m 2 的模型 映射( 模型之间的映射) 是指m 1 和m 2 中的元素通过一定的语义关系而形成 的对应一致性。 在一个模型管理系统中,其所配置的各种工具可以把模型和映射包含 到它们自身的知识库中,或者可以开发模型管理系统的持续能力。这些工 具还需要负责模型实例的管理,例如,存在于正在运行的数据库、x m l 文档、w e b 页面或者设备说明书中的数据。而且,它们还需要具有执行映 射的能力,例如,把一个模型中的实例传送到另一个模型实例中。 2 3 2 模型管理的高层体系结构 通过使用简短的程序或者脚本,可以将模型管理操作用于解决模式演 变 4 0 l 、数据集成和其他应用方案,而一个模型管理系统恰恰能够执行此类 操作。图2 - 2 描述了模型管理的一个高层体系结构【4 1 1 。 图2 - 2 模型管理的高层体系结构p 1 1 f i g u r e2 - 2h i 曲1 e v e la r c h i t e c t u r eo f m o d e lm a n a g e m e i l t 4 l j 1 3 燕山大学工学硕士学位论文 e t l 工具就是对操作数据库中的业务数据进行抽取、转换,并将其载 入数据仓库中存储库的数据集成工具,该工具的主要作用在于对各类业务 数据进行清理、标准化和汇总,为基于数据仓库的决策分析应用提供高质 量的数据。 2 3 3 模型管理的意义和发展 模型管理能够简化元数据密集型应用的程序设计,它在数据库设计、 数据集成、数据转化、模型驱动万维网站点管理、数据仓库等中都有着极 其广泛的应用。 通用化的模型管理是一个研究重点,它的最终目的是建立模型管理系 统【4 2 1 来帮助解决最具挑战性的元数据管理问题。模型管理为开放性问题提 供了一个广泛的应用领域,在技术上是非常具有挑战意义的,并且随着用 户需求的不断变化,也必然推动模型管理的进一步的发展。 模型管理的核心是一系列的代数操作符 4 3 】,这些操作符概括了在各种 元数据应用中所用的操作符。模型管理中的部分代数操作符可以简述如下 五种。 ( 1 ) m a t c h m a t c h 是半自动化或自动化生成两个模型之间的映射。 佗) c o m p o s ec o m p o s e 是将两个连续的映射组合成一个。 ( 3 ) m e r g em e r g e 是利用两个模型之间的映射来将两个模型合并成一 个模型。 ( 4 ) e x t r a c t e x t r a c t 用来返回映射中的一部分。 ( 5 ) d i f fd i f f 用来返回不是映射中的一部分。 显而易见,其中的m a t c h 是最基础的操作符,其余操作符都是以m a t c h 操作所产生的映射为前提条件的,所以找到映射关系是一个关键。模型管 理技术的核心操作之一就是模式匹配操作,它是最难实现完全自动化的一 种操作。 近年来,数据库和软件工程的研究人员一直在研究模型管理的某个单 独的方面。然而,提取模型管理的通用化组件已经成为当前研究的一个热 点,其研究的主要目标就是开发一个代数操作符集合,如c o m p o s e 、m a t c h 1 4 第2 章基础知识 和m e r g e 等,通过对这些操作符的综合使用,来实现在各种元数据应用之 间的变换操作。这些操作符作为一个整体应用到模型和映射中来简化对元 数据应用的编程。这些操作符是通用的,可以应用在不同种类和类型的模 型和脚本中。 虽然,很多模型管理任务都可以实现自动化,但是仍然存在一些临界 点,在这些临界点上需要人类决策,因此,这些自动化的操作中有一些在 本质上仍然是半自动化的,并且需要在操作符执行之前、期间或之后需要 人类决策和反馈。 对于模型管理的整体研究,也就是创建操作符集合的研究是近几年才 开始的。到目前为止,模型管理的原型系统已经有两个,它们都是由s e r g e y m e l n i k 开发的,下面对这两个原型系统进行简要的介绍。 ( 1 ) r o n d o 该原型系统【1 9 ,9 4 1 1 是s e 曙e ym e l n i k 等人在2 0 0 3 年开发的, 它是模型管理最早的原型系统。 r o n d o 不仅实现了所有的模型管理操作,而且提供了一个图形用户接 口来显示并编辑映射。r 加d o 的核心组件是一个执行脚本的注释器。此注 释器可以在命令行处运行,或被外部应用和工具调用。其主要任务是使操 作中的数据流协调的结合在一起。各种类型的操作符可以通过提供一个本 地设备或者通过不同的模型管理脚本方法来进行定义。模型和映射用一个 普通的元数据模型m l 中的结构化对象的形式来表示,并且可以存储到一个 数据库管理系统或文件系统中。 r o n d o 系统能够执行由高级操作符编写的模型管理脚本,并且把模型 和映射作为基类对象来操作。而这些高级操作符能够处理模型和模型之间 的映射。但是,其中的这些模型管理脚本需要由高级操作员编写。在文献 2 3 】和【3 7 】中,通过详细描述对不同类型的模型管理问题的分析,来阐述元 数据管理是否可以用一种通用化的方式实现的问题。 ( 2 ) m o d a 该原型系统【4 3 】是s e r :g e ym e l n i k 等人在2 0 0 5 年提出的,它 是一种支持可执行映射的原型系统。 在m o b 系统中,各种操作符直接被c 群程序所调用,同时,操作符对 关系模式和作为内存中数据结构的映射进行操作,该原型系统的体系结构 燕山大学工学硕士学位论文 如图2 - 3 所示。 a p p l i c a t i o n ( s c r i p t f f i c # p r o g r a m ) v o i d m y s c r i p t ( o u t i m a p p i n g t _ s ,i n i m a p p i n g t _ s o i n i m o d e l ( v ) ) i m a p p i n gsv ;m wr m a p p i n g ( t s , t g t m o d e l , v , r ( x p t ( x ) ) ; a 夕 o p e r a t o r s f o r m u l a r m a n i p u l a t i o n d a m d n l c m c o m p o u n i f i c a t i o n s c h e m a = ( o , z ) m e r g e r e s o l u t i o nm a p p i n g s :( s l ,互1 2 ) e x t r a c t ( d e - s k o l n n i z a t i o n ) d i 行n o r n l a lf o r m s 2 4 模式匹配 图2 - 3m o d a 原型系统的体系结构p 3 l f i g u r e2 - 3a r c h i t e c t u r eo f m o d ap r o t m y p c h 模式匹配是模型管理技术的核心操作之一,并已成为模型管理的一个 重要组成部分。用于确定模型间语义映射关系的操作符m a t c h ,即模式匹 配,它是最难实现完全自动化的一种操作,同时也是模型管理中其他关键 技术研究的基础。 2 4 1 模式匹配的概念 定义2 1 :模式匹配附1 。模式匹配是在作为输入的模式中有对应语义 关系的元素间产生一个映射。 模式匹配的目标是寻找两个或多个模式元素之间语义上的对应关系。 1 6 第2 章基础知识 关于模式匹配的定义从不同的角度有着不同的描述,下面从三个角度 分别对模式匹配的定义进行描述: 定义2 2 :解释和非解释的匹配1 4 5 令m i = m a t c h ( r ( r l 皿,如) f m ( s m ) ) , 其中m i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大专的语文考试题及答案
- 高招生物模拟试题及答案
- 护士晋级考试试题及答案
- 临床护士笔试题目及答案
- 2025年滴滴客服考试题目及答案
- 2025年麻醉科局部麻醉技术检测答案及解析
- 2025年超声诊断学胸部超声检查解读考核答案及解析
- 2025年妇产科常见妇科疾病筛查模拟考试答案及解析
- 2025年皮肤美容美容学专业皮肤美容整形技术操作模拟考试卷答案及解析
- 2025年医学影像技术应用考核试卷答案及解析
- 体育馆行业音视频系统建设与应用解决方案
- GB/T 19494.2-2023煤炭机械化采样第2部分:煤样的制备
- 2023年【汽车驾驶员(技师)】考试题及汽车驾驶员(技师)试题答案
- 催化重整(石油加工生产技术课件)
- (完整版)袱子的书写格式和称呼
- 证监会行业分类结构与代码
- 安全仪表系统SIS课件
- Φ1397套管开窗侧钻操作规程
- 《寻梦环游记(2017)》完整中英文对照剧本
- RB/T 089-2022绿色供应链管理体系要求及使用指南
- 某某集团年度经营计划编制指引
评论
0/150
提交评论