




已阅读5页,还剩70页未读, 继续免费阅读
(计算机软件与理论专业论文)面向数据集成的数据质量控制系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕上学位论文籀要 摘要 数据集成技术为企业解决跨多平台,异构数据的集成问题提供了一条解决途 径。数据集成系统可以把企业内部的各种相关数据资源进行集成、共享,为消除 信息孤岛,也为企业的信息资源规划提供了可能。数据集成过程是一个从分布的 数据源( 包括数据库、应用系统等) 抽取数据,进行转换、集成和传输,以目标 系统希望的数据形式加载到目标系统中的过程。在此过程中,数据质量控制是一 个至关重要的基本组件和功能,它对“脏”数据进行屏蔽,防止“脏”数据进入 目标系统,同时负责解决数据源之间模式关联和映射问题。在实际的数据集成过 程中如果缺少对数据质量的有效控制,常常会导致集成过程的失败。 “如何根据数据集成的特点,设计面向数据集成的数据质量控制系统,减少 数据集成中的数据质量问题”是论文研究的重点。 论文首先从数据集成过程的特点出发,讨论了数据集成过程中数据质量控制 的特点和难点,确立了本论文关于数据集成中数据质量控制的研究方向,即:分 别从模式集成和实例数据清洗两个方面进行数据质量控制问题研究。 论文分别在模式集成和实例数据清洗两个层面提出了自动化和基于规则相 结合的数据质量控制策略。在模式集成的研究中,论文提出了一种模式自动匹配 算法用来辅助进行模式集成,并将模式转换和模式冲突检测结合到模式集成过程 中。在实例数据清洗研究中,提出基于统计分析的异常数据自动检测方法。同时, 提出了一种针对中文的相似重复记录的检测算法,能够有效地检测多语言的相似 重复记录。在上述研究基础上,论文提出了基于规则的数据质量控制策略,通过 用户自定义的模式集成规则、实例数据清洗规则,解决更多的模式冲突问题,提 高实例数据清洗的准确率。 最后,本文针对o n c e d i3 0 中的数据集成模型和o n c e d i3 0 体系结构设计 了o n c e d i3 0 数据质量控制子系统,在设计中通过设计模式的应用增加系统的 可扩展性。 关键词:数据质量,数据集成,模式集成,数据清洗 中国科学技术大学硕士学位论文 a b s t r a c t a b s t r a c t d a t ai n t e g r a t i o ng i v e sas o l u t i o nt ot h ee n t e r p r i s ei n f o r m a t i o ni n t e g r a t i o nc r o s s i n g m u l t i p l a t f o r ma n dh e t e r o g e n e o u sd a t as o l l r e e s t h ed a t ai n t e g r a t i o ns y s t e mn o to n l y s h a r e sa l lr e l a t e dr e s o u r c e si nt h ee n t e r p r i s e ,a n de l i m i n a t et h e i s o l a t e di s l a n d i n f o r m a t i o ns y s t e m s ,b u ta l s op r o v i d e saw a yo ft h ee r ei nt h ed a t ai n t e g r a t i o n p r o c e s s d a t aq u a l i t yc o n t r o lp l a y sa l li m p o r t a n tr o l e i tf o r b i d st h ed i r t yd a t at o e n t e r i n gt h et a r g e td a t a b a s es y s t e m ,a n di ti sr e s p o n s i b l ef o rt h ea s s o c i a t i o na n dt h e m a p p i n gb e t w e e nt h es c h e m a so fd a t as o a r v 2 s i ft h e r ei sn oe f f e c t i v ed a t aq u a l i t y c o n t r o l ,af a i l u r ew i l lo c c u ri nt h ep r o c e s so fd a t ai n t e g r a t i o no rt h ec r e a t i o no ft h e d a t aw a r e h o u s e h o wt od e s i g nad a t aq u a l i t yc o n t r o ls y s t e mt os o l v et h ed a t aq u a l i t yp r o b l e m si n a na p p r o p r i a t ew a yi nt h ed a t ai n t e g r a t i o n i st h et h e m eo f t h i st h e s i s t h et h e s i sf i r s t l yd i s c u s s e st h ec h a r a c t e r i s t i ca n dt h ed i f f i c u l t i e so fd a t aq u a l i t y c o n t r o li nt h ed a t ai n t e g r a t i o na n de s t a b l i s h e st h et w or e s e a r c hd i r e c t i o n s :s c h e m a i n t e g r a t i o na n di n s t a n c ed a t ac l e a n i n g i ne a c hr e s e a r c hd i r e c t i o na b o v e ,t h et h e s i sp r o p o s e sac o m b i n e ds t r a t e g yo f a u t o m a t i cm e t h o da n dr u l e - b a s e dm e t h o d i nt h er e s e a r c ho fs c h e m ai n t e g r a t i o n , t h e t h e s i sp r o p o s e sas c h e m am a t c h i n ga l g o r i t h mt os p e e du pt h ep r o c e s so fs c h e m a i n t e g r a t i o nw h i c ha l s oi n c l u d e st h es c h e m ac o n v e r s i o na n ds c h e m ac o n f l i c td e t e c t i o n i nt h er e s e a r c ho fi n s t a n c ed a t ac l e a n i n g , a l la u t o m a t i cd i r t yd a t ad e t e c t i o nm e t h o d b a s e do nt h es t a t i s t i c si sp r e s e n t e da n dan e w d u p l i c a t ed a t ad e t e c t i o na l g o r i t h mw h i c h c a ne f f e c t i v e l yh a n d l et h ec h i n e s ec h a r a c t e r si sp r o p o s e d f u r t h e r m o r e ,t h et h e s i s b r i n g sf o r w a r dar o l eb a s e dw a y t oe n h a n c et h ef u n c t i o n a l i t yo ft h es y s t e m t h r o u g h t h es c h e m ai n t e g r a t i o nr u l e s , s y s t e mc a l ls o l v em o r es c h e m ac o n f l i c t s o nt h eo t h e r h a n d ,t h ec l e a n i n gr o l e sg i v eaw a yt oc l e a nt h ei n s t a n c ed a t aa c c o r d i n gt ot h e r e q u i r e m e n t sa n de n h a n c e t h ea c c u r a c yo f t h ed a t ac l e a n i n g c o n c e r n i n gt h ei m p l e m e n t a t i o n , b a s e do nt h ed a t aq u a l i t yc o n t r o lt e c h n i q u e s a b o v ea n dt h e3 - t i e ra r c h i t e c t u r eo f o n c e d l3 0 ,t h et h e s i sg i v e so u tt h ed e s i g na n dt h e i m p l e m e n t a t i o no fd a t aq u a l i t yc o n t r o ls u b s y s t e mi no n c e d l3 0 as e r i e so fd e s i g n p a r e r n sa r eu s e di nt h ed e s i g nt oe n h a n c et h ee x t e n s i b i l i t yo f t h es y s t e m k e y w o r d s :d a t aq u a l i t y , d a t ai n t e g r a t i o n ,s c h e m ai n t e g r a t i o n ,d a t ac l e a n i n g 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 墨塑磐 l 乃年弋其卜b 中国科学技术大学硕士学位论文 绪论 第1 章绪论 本章概要介绍了研究背景以及论文的组织 1 1 研究背景 随着信息技术和互联网的大规模普及,与企业建设配套的信息化系统成了一 项新的挑战,企业管理信息化成为是现阶段我国推进信息化工作的核心和重点。 企业信息化存在以下特点: 企业需求的多样惶:企业需要及时地适应市场变化进行自身的组织调整和生 产调整,这使得企业的信息系统很难找到一个统一的解决方案, 企业信息系统的多样性:软件来自不同的软件厂商,软件各具特点, 企业问协作的增多使企业面临原有不同的信息系统的整合问题。 企业需要将各种数据集成起来,构成企业管理决策的网络信息平台。但是, 各个企业、部门或机构由于业务和功能归属不同,因此往往缺乏统一规划,所采 用的计算环境由不同平台组成,这些由不同核心技术构建的信息系统就像一个个 “信息孤岛”。为实现各部门之间的协凋工作,就必须解决在各个环节之间普遍 存在的数据集成,交换和部门协同的问题。而每个部门或单位就是一个数据源, 每个数据源都是异构的,因而它们之问的信息和组织就构成了一个巨大而复杂的 异构数据库环境下的数据集成和交换的问题。企业信息集成的驱动力源于企业内 外客户需要把企业看成一个整体,需要统一的视图,从而消除信息孤岛,打通业 务流程,加快企业的运行效率。 异构数据集成为企业解决多平台、多结构数据的集成问题提供了一条解决途 径。一方面,通过这样一个集成系统,可以把企业内部的各种相关数据资源进行 整合,为企业的信息资源规划提供了可能,从而搭建起整个企业的信息平台。另 一方面,数据集成在企业间整合分布的数据资源,为多种数据平台提供了一致的 访问接口,使用户不必考虑数据模型的异构性,增强了企业间信息系统的互操作 性。这两个方面的数据集成使企业能够有效地对数据进行统计分析,对企业的正 确决策起到了重要的推动作用。 为了达到异构数据源集成,首先要解决模式集成问题。在数据集成领域中, 由于数据源系统多是独立开发的,数据源是相当自治的,因此描述数据的数据模 型或存储结构经常会出现不同的情况,使得不同的数据源模式的集成变得困难。 中国科学技术大学硕士学位论文 绪论 数据源的自治性和数据源模式匹配的复杂性加大了模式集成的难度。来自不同数 据源的数据,对同一个概念有不同的表示方法。在集成多个数据源时,需要消解 模式冲突。 根据“进去的是垃圾,出来的也是垃圾( g a r b a g ei n ,g a r b a g eo u t ) ”这条 原理,在企业信息管理中,要求数据集成系统或是数据仓库中管理的数据必须可 靠,没有错误,准确地反映企业的实际情况。在通过模式转化和集成获得一致的 数据源模式以后,在实例层上仍然需要消除不一致性。无论是多数据源还是单数 据源,实例数据中都有可能存在明显的错误和不一致。例如,某个字段是一个自 由格式的字符串类型,比如地址信息,参考文献等,那么数据实际格式可能与预 期表示意义不符。由于录入错误或其它原因,数据库中一个人的年龄可能为4 8 5 等。又如,同一个现实实体在数据源记录可能由于采用不同的主键来标识,从而 造成相似重复记录。数据实例清洗的目的是检测实例数据集中存在的错误和不一 致,剔除或改正它们,提高数据质量。 数据集成中的数据质量控制包含模式集成和数据实例清洗这两个方面。无论 是在模式集成还是数据实例清洗过程中,都要求尽量减小人工干预,应该和数据 转换过程相结合。 文献 1 以形式化的方法定义了数据的一致性、正确性、完整性和最小性。 数据质量被定义为这四个指标在信息系统中得到满足的程度。 正是在这样的背景下,我们在数据集成中间件o n c e d i 中引入了数据质量控 制子系统。我们根据o n c e d i 系统工作特点,针对数据集成中关键的 e t l ( e x t r a c t i o n t r a n s f o r m a t i o n - l o a d i n g ) 过程设计数据质量控制子系统。这 个子系统根据实际需求,在模式集成和数据实例清洗两个方面对数据质量进行控 制。本文综合数据质量控制几个方面的关键技术,主要研究了模式匹配算法,基 于统计的数据分析算法和相似重复记录检测算法以及基于规则的数据质量控制 方法。我们根据o n c e d l 3 0 的三层体系结构在o n c e d l 3 0 中设计实现了该系统。 1 2 论文的主要工作 本文在研究数据集成过程特点基础上,围绕数据集成过程中数据质量问题展 开研究。完成了以下工作: 1 数据集成中数据质量控制特点 本文先介绍了数据集成的概念和数据集成中间件o n c e d i 。并针对数据集成中 的数据抽取,转换和加载过程( e t l ) 讨论了数据集成中数据质量控制的特点,对 中国科学技术大学硕士学位论文 数据质量问题进行了总结分类,确立数据集成过程中数据质量控制的研究方向, 即从模式集成和数据实例清洗两个方面讨论相关技术,为后边工作打下基础。 2 数据质量控制关键技术研究 数据集成的目标是为用户访问多个有效的,异构的数据源提供统一的应用界 面。在数据集成过程中的数据质量问题包含异构数据源之间存在的模式层和实例 层的冲突。 论文对模式集成和数据实例清洗两个阶段中的数据质量问题提出解决方案。 针对模式集成,论文提出一种模式匹配算法,同时提出了自动化的模式冲突检测 机制。针对数据实例,论文综合基于统计技术进行自动化异常数据清洗方法,同 时提出一种针对汉字的相似重复记录检测算法。提出基于规则的数据质量控制策 略,通过用户定义的模式集成数据清洗规则辅助数据质量控制。 3 o n c e d l 中数据质量控制子系统的设计和实现 数据集成中间件o n c e d i3 0 采用客户端一控制中, i - - d i 服务器的三层体系结 构,各部分之间采用松散耦合的方法,分离了数据集成的配置,管理和执行过程。 本文基于o n c e d i3 0 的结构设计实现数据质量控制子系统。在客户端一控制 中心一d i 服务器的三个层次上分别设计不同的数据质量控制模块。实现数据质量 规则的定制,分派和数据质量控制策略的执行。在设计中通过一系列设计模式的 应用提高系统的可扩展性。 1 3 论文的组织 论文的后续章节按以下方式组织: 第二章介绍了数据集成、数据集成中间件和o n c e d i 的体系结构。 第三章总结数据集成中的数据质量问题的特点。对数据集成中的数据质量问题进 行了总结和分类,讨论了研究的难点和研究的方向。 第四章介绍面向数据集成的数据质量控制关键技术研究。论文针对模式集成和数 据实例清洗两个阶段中的数据质量问题提出解决方案。 第五章介绍了o n c e d i3 0 中数据质量控制系统的设计与实现。针对o n c e d i3 0 的三层体系结构,将模式集成和数据实例清洗两阶段的数据质量控制策略引入 o n c e d l3 0 中。 第六章对全文进行总结,并且提出进一步的工作方向。 中国科学技术丈学硕士学位论文 数据集成和o n c e d ! 简介 第2 章数据集成和o n c e d l 简介 数据集成技术已经广泛地应用在企业数据资源管理上本章中介绍了已有的 数据集成技术,重点探讨了基于中间件的数据集成同时介绍了数据集成中间件 o n c e d i 2 1 数据集成技术 2 1 1 数据集成概述 数据集成的主要作用是在企业应用中处理和管理分布的数据资源,为上层应 用提供一致和高质量的可用数据。它在企业应用集成中发挥着越来越重要的作 用。数据集成技术的涉及面非常广泛,主要包括:1 ) e t l ,即跨操作系统、跨数 据源的数据抽取、转换和装载;2 ) 数据档案和质量管理,即记录管理集成过程 中数据的变化、来源等档案信息;3 ) e d i ,即企业间的电子数据交换;4 ) 联邦 数据库,集成多个局部数据源为一个虚拟的数据源,支持局部数据源对用户的透 明;5 ) 数据复制,数据集成过程中保证分布数据变动的一致性;6 ) 适配器,为 访问异构数据源提供连接支持;7 ) e a i ,即应用集成技术;8 ) 建模和元数据管 理。如图2 - 1 所示: a p p l i c a t i o ni n t e g r a t i o n m o d e l i i g , a d a p t e r s :, 一m i d d l e w a r el e a s l m e t a d a l t a 图2 - 1 数据集成技术涉及的应用范畴 数据集成根据集成的侧重点分为结构集成( s t r u c t u r a li n t e g r a t i o n ) 和语义 中国科学技术大学硕士学位论文 数据集成和o n c c d l 简介 集成( s c h e m a t i ci n t e g r a t i o n ) 。结构集成注重解决结构上的异构,如数据模型 异构:有的使用s o l 语言,有的使用q u e l 语言这通常是为了适应历史遗留系 统而引起的。语义集成注重解决语义的不匹配。语义不匹配可能发生在模式级别 上,也可能发生在数据级别上,通常要采取某种形式的语义冲突解决策略 3 3 1 2 1 2 主要集成方案 我们参考文献 3 3 ,考查目前三种主要的数据集成方案:联邦数据库,数据 仓库和数据集成中间件系统。 2 1 2 1 联邦数据库 联邦数据库( f e d e r a t e dd a t a b a s e s ) 是多数据库系统的一种特殊形式,它是 多个互相协作的自治数据库的集合。根据组织方式的不同,它分为紧耦合和松耦 合的两种。在紧耦合的联邦数据库中,管理和操作针对整个联邦,而在松耦合的 联邦数据库中,成员数据库有某种程度的管理独立性。 成员数据库自治是联邦数据库的最大特征。自治有多方面的含义,包括设计 自治( d e s i g na u t o n o m y ) 、通信自治( c o m m u n i c a t i o na u t o n o m y ) 和执行自治 ( e x e c u t i o na u t o n o m y ) 等。设计自治允许成员数据库的设计者在选择数据模型和 查询语言等方面有更多的自由。然而,自治与共享数据的需要是相矛盾的,因此, 在实现数据互操作的前提下,通常要牺牲某种自治性。 我们通常使用五层体系结构来表示一个典型的联邦数据库系统。如图2 2 所 示。在这样的五层体系结构下,存在着五种数据模式,通过在五种模式间转换查 询,来实现数据的互操作。这五种模式是:( 1 ) 本地模式( l o c a ls c h e m a ) :与传 统的三层模式中逻辑模式对应;( 2 ) 组件模式( c o m p o n e n ts c h e m a ) :适应于在联 邦数据库间共享数据的模式,由本地模式转换而来;( 3 ) 导出模式( e x p o r t s c h e m a ) :组件模式中与成员数据库联邦相关的部分模式;( 4 ) 联邦模式 ( f e d e r a t e ds c h e m a ) :整个数据库联邦的集成模式,各个成员数据库的导出模式 可以与其映射;( 5 ) 外部模式( e x t e r n a ls c h e m a ) :提供给应用或用户的外部视图。 中国科学技术大学硕士学位论文数据集成和o n c c d ! 简介 2 1 2 2 数据仓库 图2 - 2 联邦数据库体系结构 数据仓库从功能上来说超越了数据集成的研究范围。建立数据仓库的目的, 通常是在企业应用环境中,对一系列分布的数据源进行收集、清洗和集成,然后 把合格的数据集中存储。之后,可能进行某些聚集操作或联机分析处理。典型的 数据仓库应用如图2 3 所示。 图2 - 3 数据仓库模型 由于在构建数据仓库时,数据处理大多数是应用相关的,且数据量非常庞大, 人们通常使用特殊的技术来实现数据的聚集,如多维数据库和数据方体等。在上 述体系结构中,包装器( w r a p p e r ) 和仲裁器( m e d i a t o r ) 负责数据集成。在这个过 程中,通常采用积极和懒惰的两种数据更新策略,前者指成员数据库一旦有数据 中国科学技术大学硕士学位论文 数据集成和o n d | 简介 变化,即更新其实视图的数据,而后者只有在使用数据时才查询变化。 包装器和仲裁器体系结构是数据集成的一种主要模式,其主要思想是为每个 数据源提供一个包装器,通过它与统一的仲裁器协作完成数据集成,而仲裁器则 以标准的形式提供全局事务处理及数据访问的方法。该集成方式通过定义全局模 式与各本地模式的映射来提供数据互操作,但是通常不能定义算法来解决数据冲 突。 2 1 2 3 数据集成中间件 数据集成中间件提供了一种轻量级的数据集成方案,利用它能够灵活地完成 绝大部分的数据集成工作。在数据集成过程中,实现数据互操作要通过转换查询 或转换数据。无论数据从可用系统流入数据库中,还是从旧的可用系统流入重构 的系统中,数据的e t l 工作必不可少,即我们必须能够实现数据的抽取、清洗、 传输转换和加载等操作。一个数据集成中间件体系结构如图2 - 4 所示: 审圈审囤畛囤 c a p t u r o c o m p o n e n t 申回巾围妇圆 l o a dtransport c o m p o n e n tc o m p o n e n t t r a n s f o r m a t i o n c o m p o n e n t 图2 - 4 数据集成中问件体系结构 该体系结构下数据集成的流程或需要进行的主要工作如下: 1 数据抽取 文档化需要转换的数据源:原始的数据源可能是无格式的,甚至是没有 机器存储的,这需要我们首先鉴别感兴趣的数据,分析商业数据的意义、数 据间的关系和商业规则等,然后按需要格式化存储数据; 决定数据抽取的方法;一般情况下,我们采用抽取工具或数据处理语句 获得所有感兴趣的数据,然而对于具有大数据量的系统,需要能够敏感的发 圈 睁巾 卤粤 中国科学技术大学顽士学位论文 数据集成和o n c e d l 简介 现变化的数据,包括增加、修改和删除了的数据,以提高效率; 保证数据的合法性:数据抽取过程中还需要保证数据符合现实需求,合 乎预定义的商业规则,满足数据间的约束关系等,以提商数据的质量。 2 数据传输 提供灵活的数据传输方式,保证在资源缺乏的情况下,至少有一种可用 的数据传输渠道; 提供可靠的数据传输方式,保证数据可靠的到达目的端,并且在传输过 程中采取压缩和加密等措施。 3 数据转换 提供全局模式供各个本地模式间互相转换,包括从源数据模式到全局模 式的转换和全局模式到目的模式的转换。 4 数据加载 确保成功的把传输过来的源数据加载到目标系统中,按一定的策略解决 可能造成的数据冲突。 相对于其他形式的数据集成方法,数据集成中间件有以下优点: 1 支持多种模式的集成 双向集成:指源数据系统和目标数据系统都能够发起数据的传输过程, 这可以保证数据两端的实时同步,能适应任何一端的数据变化。 异步集成:异步集成避免了多个数据库引擎之间可能的死锁,可以按照 预定义的发送序列避免了由于网络等资源的中断而失败。 端端集成:在数据仓库等集成应用中,需要大量的中间数据缓存,在那 里进行数据转换工作,增加了网络负担和资源开销,端端集成的数据转换工 作在目的端的数据加载过程中完成。 层叠集成:中间件方法的集成应用中,允许数据逐级传输,而不是从每 一个元数据系统直接到达目的系统,在一些应用场景下,这种集成模式减少 了时间开销。 2 功能灵活 持续镜像:可以灵活的定义实时集成策略,能保证任何数据的变化都能 中国科学技术大学硕士学位论文数据集成和c m c c d i 简介 反映在相关的系统中。 捕获数据变化:通过定义触发器或采用系统日志的方法可以实时地捕获 变化的数据,直接反映在目标系统中。 全数据迁移:可以把整个数据库系统完整的迁移到目的数据库中,完成 类似于数据库厂商的导入导出功能。 独立于业务的逻辑:主要功能是控制数据的流向,基本不涉及应用内部 的业务逻辑,灵活性和可扩展性很好。 3 灵活的元数据管理 元数据是关于数据的数据,它包含数据从哪里来,什么时问传输和传输 到哪里去的一系列信息,提供给数据管理者一种追踪数据的方法。在中间件 数据集成中,元数据被存储在服务器端,以关系数据或x m l 格式管理,可以 方便地展现给数据管理者。 2 3 数据集成中间件系统0 n o e d l 0 n c e d i 是中科院软件所软件工程技术中心研制的开放网络计算平台o n c e 平 台中,负责数据集成的一个关键子平台 3 4 。它可以灵活的定制开发,满足不同 的数据集成需求,具有跨平台,跨多种数据源( 包括常见的各种数据库产品,以 及文本文件,文件夹,x m l 文档等) 的特点,具有增量传输、冲突解决等多种实 用机制,并提供完善的安全和管理工具。同时在数据传输方面,支持f t p ,e m a f , o n c e m q 等传输渠道。0 n c e d i 功能示意图如图2 5 所示: 中国科学技术大学硕士学位论文 数据集成和o n c c d l 简介 图2 - 50 n c e o i 功能示意图 o n c e d i 数据集成平台自上而下分为三层,流程控制层、数据处理层和数据 通信层。流程控制层主要包括流程设计、部署、调度、执行和监控等功能;数据 处理层包括数据抽取、质量控制、实例转换、冲突处理和数据加载等功能。数据 通信层提供加密解密、压缩,解压缩、签名认证等功能,从而提供安全有效的通 信渠道。 系统的主要功能和特点: 1 ) 操作的任务化及自动化 o n c e d l 支持数据提取、转换、和加载( e t l ) 的全过程的操作,通过任务定义 的方式定义数据处理流程,完成在各种网络条件下的数据复制和传送操作。任务 可以手工执行和自动执行,特别是可以灵活定义触发条件,如确定时刻触发、确 定间隔触发,实现数据的自动复制;同样,也可预先设定任务停止触发的时间。 用户一旦定义了自动执行的任务,就不再需要人工干预,系统会根据设定的 条件自动地将数据从源数据端复制到目的数据端,并进行自动加载。 2 ) 支持异构数据源 中国科学技术大学硕士学位论文数据集成和o n r 2 d l 简介 图2 - 60 n c e 0 1 支持的异构数据源 o n c e d l 支持多种类型的数据作为信息交换的对象,包括关系数据库的数据、 x m l 文件和普通文件,如图2 6 所示 数据发送端和数据接收端可以为异构的数据资源,系统自动实现之间的相互 转换,如o r a c l e 数据库到s y b a s c 数据库、关系数据到x m l 文档等。除了关系 数据库和x m l 文件,系统还任意的普通文件作为数据源。对于普通文件,系统 负责从指定的位置抓取文件,并存放在接收端的指定位置。 为满足不同用户的需求,如有的用户强调可靠性,而有的用户强调利用已有 的通信方式,o n c c d i 的数据传送方式可以是通过f r p ,也可以是利用中科院软 件所自主开发的消息通信中间件o n c e m q 。 3 ) 增量数据复制 在很多应用中,数据传输操作是一个定期的、频繁的工作,同一个传输任务 可能需要每月,每周,甚至每天执行,或者隔一个时间间隔就得执行一次,为了 能够节省资源和提高性能,系统提供增量复制功能,即保证在上一次已经传输过 的数据只要在这期间没有任何变动,下一次传输时将被忽略。 4 ) 流程管理和监控 o n c c d l 中提供了控制中心服务器,增加了流程控制管理、系统监控功能。 系统按照流程中的任务进行执行和任务流转,同时系统对数据集成过程每一步的 执行情况进行监控,对集成过程中发生的事件进行相应。o n c c d l 中包含了可视 化的流程和e t lj o b 建模工具,便于数据集成系统的快速构建、部署和实施 中国科学技术大学硕士学位论文数据集成和o n c e d l 简介 5 ) 适配器、插件的动态加载和卸载 适配器、插件的动态加载和卸载是o n c e d i 的一个重要特色,使系统具有更 高的灵活性和可扩充性。动态加载要求在不重新编译系统核心甚至在系统运行 时,可以将满足某个要求的功能适配器或插件模块集成到系统中,或者从系统中 删除某个适配器和插件模块。 此外,o n c e d i 在数据操作和传输过程中提供完善的安全机制。系统提供用 户管理和身份认证功能,只有合法的用户才能通过发送端管理器( 接收管理器) 或发送端c l i ( 接收端c l i ) 连接到发送服务器( 接收服务器) 中并迸行与其权 限相应的操作。系统通过数字证书进行关键信息的加密,保证传输数据的完整性、 防伪造;通过对传输数据加密保证信息传输渠道的安全;通过增加压缩解压缩 机制,提高信息传输的效率。系统还可以使用o n c em q 通信系统的安全机制增 加系统安全性。 中国科学技术大学硬士学位论文数据集成中的数据质量控制 第3 章数据集成中的数据质量控制 本章概要介绍了数据质量控制的概念分析了数据集成过程中数据质量问题 的特点,并对数据集成中的数据质量问题进行了细化分类同时,我们分析了数 据集成中处理数据质量问题的难点,提出了研究方向 3 1 基本概念 , 当建立一个信息系统时,即使进行了良好规划和设计,也不能保证在所有情 况下所存放的数据都是正确的,都能满足用户的要求。用户录入错误,企业合并 以及企业环境随着时间的推移而改变,这些都会影响所存放数据的质量。 数据质量问题是创建数据仓库以及数据集成工作中的关键问题。如果没有很 深刻地分析数据中存在的问题,就盲目进行开发和集成,不仅会造成数据仓库创 建及数据集成过程的失败,更有可能造成严重的决策失误 8 。 文献 1 以形式化的方法定义了数据的一致性、正确性和完整性。文献 2 提 出了数据工程中数据质量的需求分析和模型,认为存在很多候选的衡量数据质量 的指标,用户应根据应用的需求选择其中一部分。数据质量指标分为两类:数据 质量指示器和数据质量参数。前者是客观的信息,比如数据的收集时间、来源等, 后者是主观性的,比如数据来源的可信度、数据的及时性等 在单数据源中,例如数据库和文件,存在数据质量问题。例如数据录入时出 现的拼写错误或其它不合法数据。当多数据源集成时,由于不同数据源数据描述 方式不同,数据质量问题会变得更加突出。 数据质量控制过程必须满足如下几个条件: 无论单数据源还是多数据源,都要检测并去除数据中明显的错误和不一致, 要尽可能地减少人工干预和用户的编程工作, 数据质量控制应该和数据转化相结合。 3 2 数据集成过程中的数据质量问题 数据集成的目标是为用户访问多个有效的、异构的数据源提供统一的界面 6 。数据的抽取,转换和加载( e t l ) 过程是数据集成中的一个重要组成部分。我 们认为,伴随着数据集成中e t l 过程的特点,数据集成过程中的数据质量控制也 有以下特点: 中国科学技术大学硕士学位论文数据集成中的数据质量控钼 1 在数据集成的e t l 过程中,数据经常处于异构数据库中,不可避免会发生模 式冲突。因此数据集成过程中的数据质量控制首要面临的问题是解决异构数 据库的模式冲突。在通过模式转化和集成得到一致模式之后,在实例层仍然 需要消除不一致性。数据集成中的数据质量控制应当分为模式集成和数据实 例清洗两步进行。 2 在数据集成中的e t l 过程中,数据抽取、转换和加载往往不在同一个地方, 在抽取和加载之间需要进行数据的远程传输【5 】。如果通过对抽取时的数据质 量进行控制进而初步剔除不满足用户需要的数据,就可以减轻数据传输时的 负担。同时,在数据集成的e t l 过程中,由于抽取和加载时所处的业务部门 不同,在加载时需要按照加载端的业务规则对数据进行进一步清理。 数据质量控制过程贯穿于数据集成的e t l 过程始终,一方面在e t l 过程中需 要进行异构数据源之间的模式集成,另一方面实例数据清洗和转换也蕴含在e t l 过程中 7 ,如图3 一l : ) p e h l l o n o p m 旺啪l 5 0 n 埘5 糜角 畦蜜 = 蟊一 国圜 匕一; k 翊 黧 矽 固i l q 耐钲冷m 吐抽n 晡晰榭t 如棚l 啪m 蚺酶k 帆哪“_ 啊 ( r e a l 山h 地自时 ,c h e i b o 嘲哮d i l l l o wt m m 妇f 蜘 阳岫i _ 嘲h 聃幽 3 3 数据质量问题分类 图3 - ie t l 中的数据质量控制 我们首先对数据集成中面l 临的数据质量问题进行分类,在后边的章节中将针 对其中具体的数据质量问题提出解决方案。 1 数据质量问题分类 中国科学技术大学硕士学位论文数据集成中的数据质量控制 根据处理的是单源数据还是多源数据,以及问题出现在模式层还是实例层, 可以将数据质量阀题分为四类:单数据源模式层问题,单数据源实例层问题,多 数据源模式层问题,多数据源实例层问题【7 】。图3 - 2 表示了这种分类。 图3 - 2 数据质量问题分类 在数据集成领域中,数据的抽取和加载往往不是同一个数据源,首先需要解 决不同数据源之间的模式冲突【7 】。在数据抽取后;需要对实例数据集进行过滤 清洗。因此我们主要探讨多数据源下的模式冲突和单数据源下的实例级的数据质 量问题。为了便于讨论,我们以一个图书馆数据库作为例子,在文献【9 】分类的 基础上对数据集成中面临的数据质量问题进行分类。下边数据质量问题的描述都 将围绕这个例子进行展开: n o 1 主图书馆 t a b l en a m ea t t r i b u t e sg e n e r a ld e s c r i p t i o n i r e m ( i 撑,t i t l e ,a u t h o r - n a m e ,l i b r a r yi t e m s s u b j e c t , t y p e ,l a n g u a g e ) n u n l ( i 群,c - l e t t e r , f - d i g i t ,s - d i g i t , l i b r a r yo fc o n g r e s s c u t t e r i n g ) n u m b e r p u b l i s h e r ( i 群,n a m e ,t e l ,s t r e e t ,c i t y , p u b l i s h e r z i p ,s t a t e ,c o u n t r y ) l e n d i n f o ( i 群,l e n d p e r i o d ,l e n d i n gi n f o r m a t i o n l i b u s e o n l y , c h e c k e d o u t ) c h e c k o u t - i n f o ( i 荐,i d - n u m ,h o u r , d a y , b o r r o w e r sa n d d u e m o n t h ,y e a r ) d a t e 表3 1 主图书馆表定义 n o 2 工程图书馆 t a b l en a m ea t t r i b u t e sg e n e r a ld e s c r i p t i o n i t e m s l ( i 群,t i t l e ,a - l l a m e ,c - l e t t e r , jl i b r a r yi t e m si 中国科学技术= 学硕士学位论文 数据集成中的数据质量控制 f - d i g i t ,s d i g i t ,c u t t e r i n g ) i t e m - s u b j e c t( i 撑,s u b j e c t )s u b j e c to f e a c hi t e m i t e m l a n g u a g e( i d + ,l a n g u a g e )l a n g u a g e u s e di n e a c hi t e m p u b l i s h e r ( i 撑,p - n a m e , s t r - n u m , p u b l i s h e r s t r - n a l l l e ,c i t y , z i p ,s t a t e ) l e n d i n f o ( i 撑,l e n d p e r i o d ,l e n d i n gi n f o n u a t i o n l i b - u s e o n l y , c h e c k e d - o u t ) c h e c k o u t - i n f o ( i 叛i d - n u l l l ,h o 峨d a y , b o r r o w e r sa n dd u e m o n t h ,y e a r ) d a t e n o 3 社区图书馆 表3 2 工程图书馆表定义 t a b l en a m ea t t r i b u t e sg e n e r a ld e s c r i p t i o n i t e m ( 球,l c n u m b e r , t y p et i t l e ,l i b r a r yi t e m s a - n a m e ) p u b l i s h e r - i n f o ( i # ,彬,n a n l e ,t e l ) p u b l i s h e r s p u b l i s h e r - a d d ( i 样,s t - n u m ,s t n a m e , p u b l i s h e r sa d d r e s s r o o m r u m ,c i t y , s l a t e ,z i p ) c h e c k o u t - i n f o ( i 以i d ,d a y , m o n t h ,y e a r ) b o l t o w e r sa n d d u ed a 把 l c h u m ( i # ,c a t e g o r y , u s e r - n a m e )l i b r a r yc a r dn u m b e r 表3 3 社区图书馆表定义 2 模式级数据质量问题 我们将模式冲突划分为表表冲突和字段字段冲突。 表表( t a b l ev s t a b l e ) 冲突 表表冲突发生在当不同数据库采用不同的定义表达信息时。表表冲突可 以被分解为一对一表冲突和多对多表冲突。 一对一表冲突 当不同的数据库采用不同的方式定义相同的信息时会发生这类冲突, 它可以分解为以下三类: 表名称冲突:不同数据库中数据表名称
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年彭州市第二人民医院招聘笔试真题
- 2024年宁波余姚市公益性岗位招聘笔试真题
- 2024年南平市第二医院招聘笔试真题
- 有效的内容营销策略计划
- 战略创新与风险管理考题及答案
- 法学概论的法律理论与试题及答案分析
- 2025年法学概论考试的法律语境变化与试题及答案
- 基于云端的AI服务架构设计试题及答案
- 2025法学概论考试高分秘籍及试题答案
- 2025届吉林省大安市第三中学八下数学期末学业水平测试模拟试题含解析
- 汽车维修合作协议书范本
- HG-T 4062-2023 波形挡边输送带
- 牛背山岩桑坪生态旅游客运索道项目对大熊猫国家公园生态影响评价报告
- 乙状结肠癌根治术手术
- 提水试验过程及数据处理
- (正式版)SHT 3046-2024 石油化工立式圆筒形钢制焊接储罐设计规范
- 呼吸系统(0001)课件
- 单位食堂美食节策划方案
- 小学高段学生数学应用意识培养的实践研究 开题报告
- GA/T 2015-2023芬太尼类药物专用智能柜通用技术规范
- 唱片行业前景分析
评论
0/150
提交评论