




已阅读5页,还剩98页未读, 继续免费阅读
(计算机软件与理论专业论文)数据集成关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 y 5 7 8 9 8 2 随着网络应用和企业决策支持系统的需求持续增长,数据集成的需求也目益旺盛。 集成系统带来的巨大效益又吸引更多的企业投入大量资金用于集成,因此一些企业和 研究团体倾注了大量的努力,使得数据集成成为时下的一个研究热点。 数据集成是数据转换、清理以及加之其上的操作的集合。异构数据源集成时,其 中的一些数据源包含有脏数据的可能性很高,数据格式也存在很大差异,因此往往需 要对数据进行清理和转换;另一方面,集成系统的目的是为为用户提供高质量的服务, 集成系统上的操作也是一个数据集成的一个重要内容。 目前数据转换在功能、效率、以及支持自动转换等方面存在不足,作者对转换方 法、数据转换的优先次序算法、x m l 与关系模式之间的自动转换算法等进行了研究。 在数据清理方面,作者研究了重复记录的识别算法、基于模糊理论的等值理论以及人 工交互的便利性等问题。在操作方面,数据立方作为一种能有效分析数据的集成系统 得到了广泛的应用,因此作者对数据立方的范围查询问题进行了研究。在结合前人研 究成果的基础上,探讨了基于国产数据库d m 4 的集成工具d m c l e a n e r 的系统设计。 作者首先研究了从一种关系模式到另一种关系模式的转换,提出了两阶段转换的 方法,并给出了该方法基于x m l 的算法实现。传统转换工具采用一个阶段完成转换 工作,不能直接实现复杂的诸如多表聚集等功能的转换,需要用户编程,缺乏重用性。 该方法采用两个阶段实现数据转换,通过指定第一阶段的操作将数据转换到一个中间 模式,然后通过指定第二阶段的操作实现从中间模式到最终目的的转换,能有效支持 聚集操作。为解决有外键约束存在时由于转换次序选择不当导致的转换失败问题,提 出了转换优先次序算法。 在关系模式到x m l 模式的转换方面,分析了f t 、n e t 、c o t 算法,并提出了简 化算法,通过将属性集快速分解为非关键字列集和关键字列集的方法,能够快速得到 和n e t 算法同样的结果,避免了费时的n e s t 操作,因此提高了关系模式到x m l 模式 的转换速度。 在x m l 到关系的转换方面,基于正则树语法的转换算法存在生成的关系数目过 多的缺点,作者通过限制元素生成的关系数的方法,减少了关系的数目。 在数据清理方面,作者首先深入研究了重复记录识别算法,将模式匹配算法引入 到数据清理的记录内算法中,对其进行了分析和改进,并提出了一些新的算法。第一, 启发式剪枝改进算法将过滤算法和启发式剪枝算法相结合,加快了算法的执行速度。 i 求经弦曩导酃弼意 翱全文公布 第二,引入了长度约束条件。长度约束条件可有效减少关键字段属性不等长时的比较 次数,提高记录内算法的执行速度。试验表明,长度约束条件和启发式剪枝改进算法 具有较明显的效果。第三,提出了基于动态规划的缩写发现算法。该算法考虑了数据 清理过程中缩写形式造成的重复记录识别问题,能够进行中英文缩写发现,并能识别 存在缩写时的重复记录。第四,增量式多路优先队列算法i m p q 通过指定聚类队列的 最大长度的方法,减少了队列数据的数量,从而减少了比较次数,提高了执行效率。 第五,提出了数据仓库更新的增量式清理的方法。数据仓库数据庞大,数据刷新频繁, 不清理难以保证数据质量,增量式清理方法为此提供了一个可行的思路。 等值理论是用于决定给定数据是否重复的理论,是数据清理的一个核心问题之一。 而传统等值理论是非此即彼式的,容易产生规则冲突现象,使得清理规则的编写和选 择十分困难,而基于语义的等值理论受到人工智能的约束,在较长的一个时间里难以 实现。因此,作者提出了基于模糊理论的等值理论,引入了相关的模糊运算和等值度 的计算方法,解决了规则冲突问题,并能根据等值度对数据进行区间浏览。同时,通 过设置关键字特别是关键字“r e p o r t ”,使用户生成较小的、内容相似的曰志文件,便 于用户查看和人工干预。这些大大缩短了操作的时间,有利于数据质量的提高。基于 模糊理论的等值理论还在一定程度上符合语义清理趋势,丰富了数据清理的等值理论。 重复记录识别过程中,正确数据的确认目前还需人工处理,因此作者提出了聚类 清理方案和聚类闭包算法。通过聚类闭包算法计算重复记录闭包,将重复记录聚类显 示,用户能一次性处理完一个重复的数据聚类,大大提高了重复记录的人工处理速度。 在集成系统的操作上,作者研究了数据立方的范围查询技术,提出了基于最末分 支节点l b n 的相关前缀和算法,更新速率有较大的提高,在整体上提高数据立方查询 更新的性能的同时节省了空间,并且使数据立方具有了一定的结构独立性。 最后,作者在前人的基础上结合自己的研究成果,提出了基于d m 4 的数据集成 工具的系统设计方案。 【关键词】数据集成;数据清理;数据转换;等值理论;两阶段转换;数据立方 i i a b s t r a c t d a t ai n t e g r a t i o nh a sb e e na na c t i v er e s e a r c ht o p i c w i t ht h en e t a p p l i c a t i o n s a n dt h e d i c i s i o n m a k i n gs y s t e m ss t a n d f a s t l yi n c r e a s i n g ,t h ed e m a n d i n g f o rd a t a i n t e g r a t i o n i n c r e a s e s t h ee n o r m o u si n t e r e s tf r o md a t ai n t e g r a t i o ns y s t e m sa t t r a c t sm u c h i n v e s t m e n t d a t ai n t e g r a t i o ni n c l u d e sd a t at r a n s f o r m a t i o n ,d a t ac l e a n i n ga n d c o r r e s p o n d i n go p e r a t o r s o nt h e m b e c a u s et h ed a t af o ri n t e g r a t i o na r ef r o mh e t e r o g e n e o u ss o u r c e s ,w h i c hc o n t a i n h i g hp r o b a b i l i t yo fd i r t yd a t aa n dd i f f e r e n td a t af o r m s i na d d i t i o n t h ei n t e g r a t e ds y s t e mi s f o r a p p l i c a t i o n s a n ds e r v e su s e r s w e l l ,w h i c hd e m a n d st h eo p e r a t i o nr e s e a r c ho nt h e s y s t e r n s a tp r e s e n td a t ai n t e g r a t i o nd e m a n d st ob ef u r t h e rs t u d i e do ns u c ha s p e c t so f f u n c t i o n , e f f i c i e n c ya n da n ds u r p o r t i n g a u t o m a t i o nt r a n s f o r m a t i o n ,t h u st h ea u t h o rs t u d i e st h em e t h o d o ft r a n s f o r m a t i o na n dt h ep r i o ro r d e ra l g o r i t h m o nt h ea s p e c to fd a t ac l e a n i n g ,t h ea u t h o r s t u d i e st h ea l g o r i t h mo fi d e n t i f y i n gd u p l i c a t e dr e c o r d s ,t h ee q u i v a l e n c et h e o r yb a s e do n f u z z yt h e o r ya n dt h ec o n v i n e n c eo fi n t e r a c t i o n o nt h ea s p e c to fo p e r a t i o n s ,t h ea u t h o r s t u d i e st h er a n g e q u e r y o n d y n a m i c c u b e s t h ea u t h o rs t u d i e st h et r a n s f o r m a t i o nf r o mo n er d b m st oa n o t h e rr d b m s ,p r e s e n t s t w o - s t e p t r a n s f o r m a t i o n m e t h o da n di t sr e a l i z a t i o n b a s e do nx m l t r a d i t i o n a l t r a n s f o r m a t i o nt o o la d o p t so n es t e pm e t h o dw h i c hc o u l dn o tr e a l i z ec o m p l e xt r a n s f o r m a t i o n d i r e c t l y a n dd e m a n d su s e r st h e m s e l v e st om a k e p r o g r a m s h o w e v e r , t w o s t e p t r a n s f o r m a t i o nm e t h o da d o p t st w os t e p st ot r a n s f o r md a t a f i r s t ,i tt r a n s f o r m sd a t a t oam i d d l em o d e t h r o u g h t h eu s e r - d e f i n e df i r s t s t a g eo p e r a t o r s ,t h e ni tt r a n s f o r m sd a t af r o m m i d d l em o d e lt ot h ed e s t i n a t i o nt h r o u g ht h eu s e r - d e f i n e d s e c o n d - s t a g eo p e r a t i o n s ,t h e m e t h o dc o u l ds u p p o r ta g g r e g a t i o n o p e r a t i o n se f f e c t i v e l y f u t h e r m o r e ,t h ea u t h o ra d d r e s s e s p r i o ra l g o r i t h m t oa v o i dt r a n s f o r m a t i o nf a i l u r ed u et ot h e f o r e i g nk e ya n dc h o i c eo f t r a n s f o r m a t i o n0 r d e r o nt h e a s p e c to ft r a n s f o r m a t i o nf r o mr d b m st ox m l ,f ta n dn e ta l g o r i t h ma r e a n a l y z e da n dt w os i m p l i f i e df e a t u r e sa r ep u tf o r w a r d t h et w oc a nd i v i d et h ea t t r i b u t es e t i n t o n o n - k e ys e ta n dk e y - s e t u n d e rt h ec o n s t r a i n s ,t h es i m p l i f i e da l g o r i t h mc a ng e tt h e s a m er e s u l ta sn e t a l g o r i t h md o e s ,w h i c ha v o i dt i m e c o n s u m i n gn e s to p e r a t i o n s t h u st h e t r a n s f o r m a t i o nf r o mr d b m st ox m l s p e e d su p i i i f o rd a t ac l e a n i n g ,t h ea u t h o rs t u d i e st h ea l g o r i t h m so f i d e n t i f y i n gd u p l i c a t e dr e c o r d si n d e t a i l ,i n t r o d u c e st h es t r i n ga p p r o x i m a t em a t c h i n ga l g o r i t h mi n t od a t ac l e a n i n g ,a n a l y z e s a n di m p r o v e st h ea l g o r i t h m s ,a n dp u tf o r w o r ds o m en e w a l g o r i t h m s f i r s t i m p r o v e dt h e h e u r i s t i cc u t o f fa l g o r i t h m ,w h i c hc o m b i n a t et h ef i l t e r a l g o r i t h ma n dh e u r i s t i cc u t o f f a l g o r i t h m ,s p e e du p t h ee x e c u t i o n s e c o n d ,t h e l e n g t hc o n s t r a i nc o n d i t i o ni si n t r o d u c e d t h e c o n d i t i o nc a nr e d u c ec o m p a r i s i o nt i m e se f f e c t i v e l yw h e nt h ea t t r i b u t e so f k e yf i e l da r en o t a tt h es a m e l e n g t h t h et e s t s h o w st h a tt h e l e n g t hc o n s t r a i nc o n d i t i o na n di m p r o v e d h e u r i s t i cc u t o f f a l g o r i t h mp o s s e s so b v i o u s e f f e c t i v e n e s s t h i r d ,f i n d i n g a b b r e v e a t i o n a l g o r i t h mb a s e do nd y n a m i cp r o g r a m m i n gi sp r e s e n t e d t h ea l g o r i t h md e a l sw i t ht h e p r o b l e m s o f i d e n t i f y i n gd u p l i c a t e d r e c o r d sc a u s e d b ya b b r e v i a t i o nf o r m s f o u r t h , i n c r e m e n t a lm u l t i p r i o rq u e e na l g o r i t h mi m p qr e d u c e st h em a xl e n t ho faq u e e n ,w h i c h r e d u c e st h ec o m p a r i s i o nt i m e sa n di n c r e a s et h ee x e c u t i o ne f f i c i e n c y f i f t h ,i n c r e m e n t a l c l e a n i n gm e t h o du s e dt or e f r e s hd a t aw a r e h o u s ei sa d d r e s s e d b e c a u s eo fb u l k yd a t aa n d f r e q u e n td a t ar e f r e s h m e n t ,w h i c hi n f l u e n c ed a t aq u a l i t yn e g a t i v e l y , i n c r e m e n t a lc l e a n i n g m e t h o d p r o v i d e saf e a s i b l ew a y t oc l e a n d i r t y d a t at oe n s u r ei t sq u a l i t y e q u i v a l e n c et h e o r y , a p p l i e dt od e t e r m i n e w h e t h e rt h eg i v e nd a t aa r ed u p l i c a t e dr e c o r d so r n o t ,i so n eo ft h ek e yp r o b l e m si nd a t ac l e a n i n g t r a d i t i o n a le q u i v a l e n c et h e o r yi si nt h e f o r mo f “e i t h e rt h i so rt h a t ”a n dl i k e l yt oc a u s er u l e c o n f l i c tp h e n o m e n a w h i c hm a k ei t d i f f i c u l tt og e n e r a t ea n dc h o o s ec l e a n i n gr u l e s m o r e o v e r , t h ee q u i v a l e n c et h e o r yb a s e do n s e m a n t i c si sc o n s t r a i n e db ya 1w h i c hc o u l db eh a r d l yr e a l i z e di nal o n gt i m e t h ea u t h o r p r e s e n t st h ee q u i v a l e n c et h e o r yb a s e d o n f u z z yt h e o r y , r e l a t i v ef u z z yc a l c u l a t i o nm e t h o d s a n d e q u i v a l e n td e g r e e c a l c u l a t i o nm e t h o dt or e s o l v er u l e c o n f l i c tp r o b l e m sa n db r o w s ed a t a i na na r e aa c c o r d i n gt ot h ee q u i v a l e n td e g r e e i na d d i t i o n ,t h ea u t h o ri n t r o d u c e sk e yw o r d s , i np a r t i c u l a r , r e p o r t ”w h i c hh e l p su s e rb u i l ds m a l l e ra n ds i m i l a r - c o n t e n tl o g f i l e st h a ta r e c o n v e n i e n tf o rb r o w s i n ga n dm a n u a li n t e f e m n c e 。t h e yr e d u c eo p e r a t i o nt i m eg r e a t l ya n d e n s u r ed a t aq u a l i t y f u r t h e r m o r e ,t h ee q u i v a l e n c et h e o r yb a s e do nf u z z yt h e o r yc o n f o r m st o t h es e m a n t i cc l e a n i n gt e n d e n c ya n de n r i c h e st h ee q u i v a l e n c et h e o r yi nd a t ac l e a n i n gf i e l d b e c a u s em a n u a lh a n d l i n gi sn e e d e dt oi d e n t i f yc o r r e c td a t ai nt h ec o u r s eo fi d e n t i f y i n g d u p l i c a t e dr e c o r d s ,t h e a u t h o r p u t s f o r w a r d c l u s t e r i n g c l e a n i n g m e t h o da n d c l u s t e r i n g c l e a n i n gc l o s u r ea l g o r i t h m w i t ht h ec l u s t e r i n g - c l e a n i n gc l o s u r ea l g o r i t h m t o c a l c u l a t ed u p l i c a t e dr e c o r d sc l o s e ra n dd i s p l a yd u p l i c a t e dr e c o r d si nc l u s t e r s ,u s e r sc a n f i n i s hh a n d l i n gad u p l i c a t e dd a t ac l u s t e ro n et i m e ,w h i c hg r e a t l yi n c r e a s e st h es p e e do f m a n u a l h a n d l i n g o f d u p l i c a t e dr e c o r d s - a st ot h eo p e r a t i o n so ni n t e g r a t i o ns y s t e m s ,t h ea u t h o rs t u d i e st h er a n g eq u e r yo fd a t a c u b ea n dp u t sf o r w a r dr e l a t i v ep r e f i xs h i na l g o r i t h mb a s e do nl b n t h ea l g o r i t h ms p e e d s u pt h es p e e do fq u e r ya n du p d a t i n go p e r a t i o na taw h o l e ,a n ds a v e st h es p a c ea n db r i n g sa c e r t a i ns t r u c t u r ei n d e p e n d e n c e c o m b i n i n g w i t ht h e p r e v i o u sr e s e a r c h e s ,t h e a u t h o rd i s c u s s e dt h e d e s i g n o ft h e i n t e g r a t i o nt o o lp r o p o t y p ed m c l e a n e r , w h i c h i sb a s e do nd o m e s t i c p r o d u c t d m 4 k e yw o r d s :d a t ai n t e g r a t i o n ;d a t ac l e a n i n g ;d a t at r a n s f o r m a t i o n ;e q u i v a l e n c et h e o r y ; t w o - s t e pt r a n f o r a m t i o n ;d a t a c u b e v 1 绪论 1 1 研究背景、目的及意义 数据仓库与联机分析处理技术【l 2 】是信息领域中近年来发展起来的数据库新技术。 数据仓库的建立能充分利用已有的数据资源,把数据转化为信息,利用一些工具从中 挖掘出知识,辅助决策,最终为企业创造效益。随着人们对决策支持系统的需求日益 增长,数据分析市场在过去几年早成长迅速,数据仓库在金融、保险和政府部门等各 个行业的广泛应用,吸引了众多的数据库厂商,一些著名的数据库公司纷纷在其传统 的数据库基础上增加了数据仓库功能。 数据仓库具有四个最基本的特点【2 】:1 面向主题( s u b j e c t o r i e n t e d ) ;2 集成性 ( i n t e g r a t e d ) :3 时间变异性( t i m e v a i l a n t ) ;4 稳定性( n o n v o l a t i l e ) 。其中集成性 是数据仓库的一个基本特点之一。 现代社会信息的交流越来越多,而不同的系统之间存在不同数据类型和数据格式, 甚至存在冗余、重叠的数据。在数据集成时,就需要数据转换,并清理冗余、重复的 数据;另一方面,随着业务和计算机应用的发展,任何企事业单位内部、政府部门等 都有可能需要数据集成,所以数据集成的用途是极其广泛的。 下述五个方面是目前需要或已经用到数据集成的领域: 1 搜索引擎。网络搜索引擎和f t p 搜索引擎是急需数据清理和集成的地方。这些 搜索引擎获得的信息往往非常巨大,用户则常常因为需要的信息湮没其中而得不到正 确的数据。如果能够对检索到的数据进行清理和集成,就可以减少大量的垃圾,避免 用户陷入信息的海洋。 2 电子政务系统。电子政务系统是一个庞大的工程,业务范围广,数据来源复杂, 大部分部门、企事业单位内部已经建立了一些应用系统,因此数据清理、数据转换和 集成是电子政务项目中不可缺少的重要工作。 3 ,磁盘空间管理。尽管磁盘容量在不断增长,但是依旧跟不上数据的膨胀。用户 磁盘可能充满了不少重复冗余的文件,通过清理算法可以发现这些重复的文件,节省 磁盘空间。 4 g i s 和空间数据集成。g i s 系统的应用也是越来越广泛,如g p s 定位系统、地 图浏览、消防系统的火警定位等。g i s 数据管理系统也比较多,其中各系统的数据格 式、数据模型都不太一致。随着数据仓库以及系统集成的发展,空间数据集成也越来 越重要。在国外,空间数据集成正在成为一个研究的热点。空间数据集成主要解决以 下几个问题:( 1 ) 尽可能标准化数据的定义、格式和值;( 2 ) 文档和交叉引用的问题; ( 3 ) 符合未来标准。 5 各种系统集成项目。企业规模扩大和业务发展会需要新的系统,且要求能够存 储处理遗留系统的历史数据。 另外数据清理转换和集成也是数据挖掘的基础,如果数据仓库中的数据质量不能 保证,那么挖掘出来的信息就可能失去意义。同时,数据清理、转换或集成的思想还 可以和许多的方向结合起来,发挥重要的功能。如和图像检索系统等基于内容检索的 技术结合起来可以起到过滤、清除重复图像等作用。 数据仓库技术和网络技术的发展使得异构数据集成的需求同益增长,市场前景一 片光明,因此数据集成成为许多大公司和研究团体的研究热点。国外许多大型的数据 库公司投入了大量的研究力量和资金,并取得了相当的成果。企业方面,除了专门从 事数据清理和集成的公司外,像微软的s q ls e r v e r 、s a s 、o r a c l e 、i b md b 2 等 数据库提供商都声称自己的数据库集成了数据转换、清理、集成的工具,甚至一些开 发语言也提供了简易的数据转换的工具。研究团体方面,目前正在研究数据集成包括 数据清理和数据转换的有:美国的华盛顿大学、哥伦比亚大学、斯坦福大学、威斯康 新大学、f l o r i d a 大学、加州大学、加拿大的多伦多大学以及香港大学等。但是国内对 数据集成的研究则显得较晚,成果相对较少,即使在数据库系统方面产品也极少,仅 达梦、东大阿尔派等几家公司,和国外尚无法抗衡。 总的来说,数据集成是一个长期的问题。一方面,每出现一种新的信息表达形式 或数据管理系统就存在了数据清理转换和集成的需求,因此数据集成将是数据库领域 的一个长期的问题;另一方面,只要企业的应用不是一次可以完成所有的数据模式设 计工作,日后的数据集成就不可避免。尽管在数据集成方面国外机构团体做了大量有 益的工作,但是它仍然有许多问题有待解决。具体表现在下面四个方面。 1 数据的重复、错误是难以避免的,必须数据清理。 2 可扩展和重用的集成工具。目前商用集成工具功能有限,使用起来并不方便, 而且大部分处理比较粗糙,功能有限,需要过多的人工干预,对于较复杂的情形无能 为力,只能应用于特定的领域,扩展能力和重用性较低。 3 语义集成以及高效查询。异构数据库之间存在语法和语义的差异是一个信息遗 留问题,集成信息以实现高效准确的查询依旧是个困难而且复杂的课韪。由于这个问 题太混乱且难以处理,目前还很难找到一般性的方法。 4 自动化或部分自动化。自动完成数据转换、清理或集成是数据集成的最终目标, 然而目前离实现这一目标的距离还很遥远。 2 数据集成的巨大市场前景以及众多的技术难题使得数据集成将在长期内持续成为 研究的热点。微软研究员s r i a mr a g h a v a n 指出,“异构数据的集成曾经是现在是将来 也是一个a c t i v er e s e a r c ht o p i c ”。f 是这一原因,i e e e 的数据工程( d a t ae n g i n e e rjn g ) 杂志在不到两年的时间里出了三期关于数据清理、转换、集成的专题;不少数据库会 议增加了数据集成、清理、转换的议题。 总的来说,数据集成的发展和研究方向将来主要集中在:实现一个通用化的可以 完成大部分数据集成功能的工具;文本、对象、关系、半结构化数据等数据类型之间 的数据集成;集成工具的可视化、智能化研究;基于语义的数据集成;集成的自动化 执行;分布式数据库的数据集成;可重用的和可扩展的数据集成工具的研制等。 因此,本文的主要研究目标是:1 ,跟踪国外发展动向,研究数据集成的相关理论 和方法;2 数据转换和数据清理的一些关键技术以及集成系统上的操作问题,着重研 究能支持复杂转换的数据转换方法、约束条件下的转换优先次序、数据清理的等值理 论以及重复记录识别算法、集成系统上的查询优化等;3 探讨数据集成工具的系统设 计和实现。在前面理论研究工作的基础上 以支持基于d m 4 的数据集成工具的研制。 1 2 国内外概况 数据集成是数据仓库建立的基 础,数据集成时往往还需要对数据进 行清理和转换 4 - 3 6 a 4 - 1 0 0 】。如图1 1 ,在 所谓e t l ( e x t r a c t i o n 。g a n s f o r m a t i o n , l o a d i n g ) 过程中,数据集成工具从各 个异构的数据源中抽取数据并进行清 理和转换,然后装载到数据仓库中。 如图1 1 所示的,所有的数据清理和 转换工作都在那些已被转换的数据装 探讨与数据集成工具系统设计的相关问题 图1 1 数据仓库e t l 过程示意图 载到数据仓库之前完成,且处于一个独立的阶段,现在已有许多工具可用来支持e t l 任务,但是一个重要部分数据的清理和转换不得不用人工或者低级程序来处理, 难以维护和书写。这使得数据集成成为创建数据仓库中最为费时费力的操作,可能占 到2 3 的工作时间。 数据清理、转换和集成在近年来常常被混用。目前这个领域的研究员都倾向于将 这三者统一到数据集成上来,或者数据转换、数据集成并举,这是因为在以前的研究 中,这三者的任务覆盖了许多共同任务。此外,数据集成系统上的操作1 6 4 , 7 3 , 8 5 - 8 7 , 9 4 j 得到 了不少团体的关注和研究,它们从另一角度阐述和充实了数据集成。作者认为还应当 从狭义上重新定义数据转换、清理与集成,以便确认数据清理与数据转换各自的任务, 同时有利于更深入地了解数据集成。 因此,本文中定义数据集成为数据转换、数据清理及其上的操作的集合,数据转 换为数据格式和数据类型的映射,数据清理为源数据质量检测及问题清除。根据这个 定义,作者将分别介绍有关数据转换、数据清理和数据集成上的操作的研究情况。 1 2 1 数据质量问题 首先应当知晓数据的质量问题所在,对症下药,才能解决数据质量问题。 数据质量很大程度上依赖于模式和完整性约束控制许可的数据值。对于那些没有 模式的数据源,如文件系统缺少限制以致任何数据可以数据和存储,发生错误和不一 致的概率较高。数据库系统则增强了数据类型、数据值、完整性约束等限制,但是也 有可能因为模式设计不好,输入错误等出现数据质量问题,使得它也需要清理。 文献 3 2 对此作了较为系统的论述,将数据质量问题分为单数据源问题和多数据 源问题以及模式和实例等四种形式。显然模式问题反映到实例级。模式级问题可通过 模式设计、模式转换、模式集成解决;另一方面,如数据错误或不一致等实例级问题 并不反映到模式级,它们目前主要通过数据清理来解决。数据质量问题如图1 2 所示。 t 夕掣型- s c h e m al e v e l ( l a c ko fi n t e g r i t y c o n s t r a i n s ,p o o r s c h e m ad e s i g n ) 一u n i q u e n e s s r e f e r e n t i a l i n t e g r i t y 1 单数据源问题 i n s t a n c el e v e l ( d a t ae n t r ye l t o r s ) - m i s s p e l l i n g s - r e d u n d a n c y d u p l i c a r e s - c o n t r a d i c t o r y v a l u e s m u l t i s o u s e 八 s c h e m al e v e l ( h e t e r o g e n e o u s d a t am o d e l sa n d s c h e m ad e s i g n s ) - n a m i n g c o n f l i c t s s t r u c t u t a l c o n f l i c t s 图1 2 数据源数据质量问题 i n s t a n c el e v e l ( o v e r l a p p i n g c o n t r a d i c t i n g a n d i n c o n s i s t e n td a t a ) i n c o n s i s t e n t a g g r e g a t i n g i n c o n s i s t e n tt i m i n g 表1 1 显示了单数据源的模式级的主要质量问题【3 2 】。经分析,可以发现,这些问 题产生的主要原因是缺乏足够的约束。 表1 1 单数据源模式级问题示例 范围问题脏数据( d i r t yd a t a ) 注释 属性( a t t r i b u t e )值不合法b d a t e = 3 0 1 3 ,7 0 超出范围( 月份:1 3 ) 属性依赖 记录( r e c o r d ) a g e = 2 2 ,b d a t e = 3 0 0 2 7 0 年龄可计算出来 冲突 记录类型唯一性冲 e m p l = ( n a m e = j o h ns m i t h ”,s s n = 1 2 3 4 5 6 ) 这里s s n 麻该唯一 ( r e c o r dt y p e )突 e m p 2 = ( n a m e = ”p e t e rm i l l e r ”,s s n = 1 2 3 4 5 6 ) 引用完整 数据源( s o b r e e ) e m p = ( n a m e = j o h ns m i t h ”d e p m o = 1 2 7 ) 部门号1 2 7 不存在 性冲突 在关系模式的实例级,除了因缺少足够的模式约束而出现的数据质量问题外,还 有拼写错误、信息来源本身问题等导致的质量问题。具体来说主要有如下几种情况, 如表1 2 所示 ”1 。 表1 2 单数据源实例级数据质量问题示例 范围问题脏数据( d i r t yd a t a )注释 属性值缺乏 p h o n e = 9 9 9 9 曲9 9 9 9 9 拼写错误c i t y = b e i g i n “打印、语音导致错误 含糊不清、简写 e x p e r i e n c e = b ” o c c u p a t i o n = ”d bp r o g 包含过多 n a l t l e = ”j s m i t h1 2 0 2 7 0n e wy o r k ” 包含太多的内容 不正确的字段值c i t y = ”g e r m a n ” 记录属性依赖冲突c i t y = w u t m n ”z i p = 4 4 0 0 0 0 城市和邮编不对应 。 单词换位n a m e l = ”j s m i t h n a m e 2 = ”p e t t e rm 自由格式的文本 记录类 重复记录 e m p l = ( ”j o h ns m i t h ”) 输入错误导致 型 e m p 2 = ( ”j s m i t h :”,) b o o k l = ( 商务入门”,1 9 9 5 ) 矛盾的记录同一蜜体被描述成不同的值 b o o k 2 :( “商务入门”,1 9 9 6 ) 源数据错误的引用 e m p = ( n a m e = ”j s m i t h ”,d e p m o = 1 2 7 )d e p m o = 1 2 7 不存在 2 多数据源问题 多数据源的数据质量问题比单数据源复杂。首先,所有单数据源存在的问题在多 数据源都存在。其次,除了这些,多数据源还存在许多问题:( 1 ) 在模式级,主要问 题在于命名冲突和结构冲突。命名冲突是因为常常用相同的名字表示不同的对象或者 用不同的名字表示相同的对象;结构冲突发生在同一个对象在不同的数据源中表现形 式不同,如性别,有的数据源用0 、1 表示,有的用“男”、“女”表示等。( 2 ) 在实例 级,还有可能出现相同的属性名和相同的数据类型但是表现形式不同或者解释不同, 比如属性销售额的单位是美元还是人民币的问题。 可见,在具有较好的集成模式前提下,数据质量问题可分为两种:一是数据格式 问题,二是数据重复、错误等问题。格式问题可用数据转换解决,而数据重复错误问 题则需进行数据清理。 1 2 2 数据转换 数据转换的目的是将遗留系统迁移到一个更现代的应用、查询优化、从一个数据 模式到另外的一个数据模式、集成异构系统到联邦数据库或数据仓库、实施数据净化 或清理,实现企业范围的集成。因此,数据转换在信息管理系统中是一个支柱( b r e a d a n db u t t e r ) 技术,涉及系统的多个方面。 数据转换的研究起步较早,在五六十年代文件系统时期就存在数据转换的需求。 现在数据仓库的兴起等引起了更大的数据转换需求,多种多样的集成以及新的数据格 式的不断产生,使得数据转换的任务也越来越复杂。目前要转换的数据模型有网络模 型、关系模型、面向对象模型,现在又增加了x m l w e b 模型。 由于数据集成中数据转换的重要性,一些大的数据库商家都研制并推出了一些数 据转换工具,如微软的d t s 、i b m 的w a r e h o u s em a n a g e r 、o r a c l e 的w a r e h o u s eb u i l d e r 、 s a s 公司等,研究团体也给予了足够的关注。象a b i t e b o u l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电子行业5G技术应用前景研究报告
- 2025年智能农业技术在农产品运营管理中的应用前景研究报告
- 2025年养老行业智能养老服务市场前景研究报告
- 2025年区块链技术在智能合约行业的应用与发展前景研究报告
- 2025年金属行业新材料应用前景研究报告
- 2025年电子竞技行业电子竞技市场规模与发展前景分析研究报告
- 安定区2025年甘肃定西市安定区融媒体中心选调工作人员笔试历年参考题库附带答案详解
- 宁夏2025年宁夏回族自治区生态环境厅事业单位自主公开招聘急需紧缺高层次人才公笔试历年参考题库附带答案详解
- 商洛市2025陕西商洛学院工程训练中心人员招聘考试2人笔试历年参考题库附带答案详解
- 华池县2025年甘肃庆阳华池县事业单位引进急需紧缺人才11人(第一批第三次)笔试历年参考题库附带答案详解
- 2025年常州市规划馆公开招聘工作人员1人考试参考题库及答案解析
- 分期贷款利息计算表
- 两篇古典英文版成语故事塞翁失马
- 名著阅读《朝花夕拾 狗猫鼠》课件-部编版语文七年级上册
- 燃气轮机介绍课件
- 2022年国家公务员考试申论真题及答案解析(地市级)
- 名师成长的路径与修炼(教师版)课件
- 西方经济学导论全套课件
- “基础教育精品课”PPT课件模板
- 第8部分消防设施标识可视化
- 通用顶管监理规划
评论
0/150
提交评论