




已阅读5页,还剩58页未读, 继续免费阅读
(机械电子工程专业论文)数据仓库的数据质量分析与评价.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 信息技术的广泛应用使企业的运营更加高效、灵活,但同时也带来了“数据爆炸 的问题,许多遗留下来的历史数据被束之高阁,人们面对浩如烟海的数据显得手足无 措,如何有效地组织和存储数据,把其内部隐藏的信息转化为商业价值,为企业效益 提供服务成为决策者们迫切关心的问题。数据仓库作为高效集成、管理数据的技术, 为各级决策者洞察企业的经营管理状况,及时发现问题,为提高决策水平提供了基础。 目前数据仓库逐渐被越来越多的企业应用。 但是,数据仓库的核心还是数据,数据仓库需要高质量的数据作为支撑。如果数 据仓库中存在太多“问题数据”,那么用户从数据仓库中提取信息时可能会有误,这样 在用户进行决策支持分析活动时候,对他们只能起到误导作用,有时可能带来不可估 量的损失。所以,能否有高质量的数据支撑是数据仓库项目成功与否的关键因素之一。 鉴于这种情况,数据仓库的数据质量已成为国内外研究的热点。在前人研究的基础上, 本文从综合层面对数据仓库的数据质量进行分析研究。首先,根据国内外研究,总结 了数据仓库数据质量的定义,并归类其应该具有的数据质量维度。并提出了一种通用 的数据质量管理流程,并对其实施作深入的分析;其次,提出了一种定量分析模型, 分析数据源的相关质量指标,确定哪些数据适合作为数据仓库的量值或维度,以在数 据仓库设计时作为参考。同时,此模型也可以对所设计的数据仓库的设计质量进行评 估;再次,针对数据质量管理中的数据质量评估和改进环节作了深入研究。提出了面 向数据存储区层、数据集层、角色层、指标层和规则层的数据质量评估体系,再在评 估体系的基础上提出基于评估体系中五元素的评估模型,通过评估角色自定义评估规 则,然后对相关数据集的数据质量进行评估打分。之后,介绍了国内外常用的数据质 量问题改进方法,以对评估所得有数据质量问题的数据进行改进;最后,通过相关例 子对前面的研究进行实例分析。 关键词:数据仓库;数据质量;数据质量管理;数据质量评估;数据质量改进 广东工业大学硕士学位论文 a b s t r a c t t h ee x t e n s i v ea p p l i c a t i o no fi n f o r m a t i o nt e c h n o l o g ye n a b l e se f f i c i e n ta n df l e x i b l e e n t e r p r i s eo p e r a t i o n s ,b u ti t a l s ob r i n g st h ep r o b l e mo f “d a t ae x p l o s i o n al o to fu s e f u l h i s t o r yd a t aa r ep u ta w a y , a n dp e o p l ea r el o s ti nt h eo c e a no fn e wd a t a t h e r e f o r e ,h o wt o o r g a n i z ea n ds t o r ed a t ae f f e c t i v e l ya n df i n dc o m m e r c i a lv a l u eh i d d e ni nc o m p l i c a t e d i n f o r m a t i o nb e c o m e sah i g h l yr e g a r d e dq u e s t i o no fd e c i s i o nm a k e r s d a t aw a r e h o u s e t e c h n o l o g y , w h i c hi sa ne f f e c t i v ea n dm u l t i f u n c t i o n a lm e t h o dt om a n a g ed a t a ,c a l lh e l p d e c i s i o nm a k e r so fa l ll e v e l st oe s t i m a t eo p e r a t i o np e r f o r m a n c eo fe n t e r p r i s e sa n df i n do u t p r o b l e m si nt i m e i th e l p st os e t t l eas o u n db a s i sf o rm a n a g e r s c u r r e n t l y , m o r ea n dm o r e c o m p a n i e sb e g i nt oa p p l yd a t aw a r e h o u s et e c h n o l o g y t h ec o r eo fd a t aw a r e h o u s et e c h n o l o g yi s “d a t a t h eq u a l i t yo fd a t ai st h e s t r o n g s u p p o r to ft h i st e c h n o l o g y i ft h e r e a r et o om a n y “i s s u ed a t a i nt h i sw a r e h o u s e ,t h e i n f o r m a t i o nw h i c hu s e r sa t t a i nm a yb em i s t a k e n ,a n di tc a nm i s l e a dt h e i rd e c i s i o n s ,f i n a l l y l e a dt oi m m e a s u r a b l el o s s s ow h e t h e rw eh a v eh i g h - q u a l i t yd a t at os u p p o r td a t aw a r e h o u s e i st h ek e yp o i n ta f f e c t i n gt h er e s u l to ft h ew a r e h o u s ep r o j e c t u n d e rt h i sc i r c u m s t a n c e ,t h e d a t aq u a l i t yo ft h ed a t aw a r e h o u s eh a sb e c o m eah e a tt o p i ca m o n gr e s e a r c h e r si nh o m eo r a b r o a d t h i sa r t i c l ew i l lb e g i nac o m p r e h e n s i v ea n a l y s i sb a s e do nt h er e s e a r c h e si nt h ep a s t f i r s t ,a c c o r d i n gt ot h ed o m e s t i ca n df o r e i g nr e s e a r c h ,t h ed e f i n i t i o nf o rd a t aq u a l i t yo fd a t a w a r e h o u s ei ss u m m a r i z e d a n dt h en e c e s s a r yd a t aq u a l i t yd i m e n s i o n so fd a t aw a r e h o u s ea r e c l a s s i f i e d a l s o ,t h i sp a p e rp r o p o s e sac o m m o nd a t aq u a l i t ym a n a g e m e n tp r o c e s sa n d a n a l y s e si t si m p l e m e n t a t i o n a n dt h e n ,aq u a n t i t a t i v ea n a l y s i sm o d u l ew i l lb er a i s e dt o e s t i m a t eq u a l i t yi n d e xo fd a t as o u r c e ,a n dh e l pt of i n dw h a tk i n do fd a t aa r es u i t a b l et ob et h e v a l u eo rd i m e n s i o no fd a t aw a r e h o u s e t h e s es u i t a b l ed a t ac a l lb er e f e r e n c e sw h e nd e s i g n i n g aw a r e h o u s e a l s o ,t h i sm o d u l ec a nb eu s e dt oa s s e s st h eq u a l i t yo fd a t aw a r e h o u s e b e s i d e s , t h ep a p e rw i l ls t a r tad e 印r e s e a r c ho nt h ee s t i m a t i o na n di m p r o v e m e n to fd a t aq u a l i t y a n e s t i m a t i o ns y s t e mw i l lb er a i s e di n c l u d i n gf i v ee l e m e n t s ,d a t as t o r a g e ,d a t as e t , d a t ar o l e , i n d e xa n dr e g u l a t i o n a n da l le s t i m a t i o nm o d u l ew i l lb eg i v e nb a s e do nt h ef i v ee l e m e n t s h a b s t r a ( 了 t h i sm o d u l ec a nh e l pt od e f i n er u l e st oa s s e s sr o l e so fd a t a , a n dm a r kf o rt h ed a t aq u a l i t yo f r e l a t i v ed a t as e t s a f t e rt h a t ,t h i sa r t i c l ew i l li n t r o d u c es e v e r a li nh o m ea n da b r o a dc o m m o n u s e dm e t h o d sf o ri m p r o v i n gd a t aq u a l i t y , i no r d e rt oi m p r o v et h eq u a l i t yo fp r o b l e md a t a a t t a i n e di nd a t ae s t i m a t i o n a tl a s t ,s o m er e l a t i v ec a s e sw i l lb ee x p l a i n e dt op r o v et h ef o r m e r r e s e a r c h e s k e yw o r d s :d a t aw a r e h o u s e ;d a t aq u a l i t y ;d a t aq u a l i t ym a n a g e m e n t ; d a t aq u a l i t ya s s e s s m e n t ;d a t aq u a l i t yi m p r o v i n g i i i c o n t e n t s c o n t e n t s a b s t r a c t ( i nc h i n e s e ) i a b s t r a c t ( i ne n g l i s h ) i i c o n t e n t s ( i nc h i n e s e ) i v c o n t e n t s ( i ne n g l i s h ) v i i c h a p t e r1 i n t r o d u c t i o n 1 1 1s u b j e c to r i g i n 1 1 2b a c k g r o u n do f r e s e a r c h i 1 3r e s e a r c hs t a t u sa th o m ea n da b r o a d 2 1 3 1d e f i n i t i o no fd a t aq u a l i t y 2 1 3 2d a t aq u a l i t ym a n a g e m e n t o 3 1 3 3d a t aq u a l i t yd r i v e st h ed e s i g no fd a t aw a r e h o u s e 4 1 3 4a s s e s s m e ma n di m p r o v i n go fd a t aq u a l i t y 4 1 4r e s e a r c ho f t h i sp a p e r 5 c h a p t e r2 d a t aw a r e h o u s ea n di t sd a t aq u a l i t y 7 2 1c o n c e p ta n da r c h i t e c t u r eo f d a t aw a r e h o u s e 7 2 1 1c o n c e p to fd a t aw a r e h o u s e 7 2 1 2a r c h i t e c t u r eo fd a t aw a r e h o u s e 8 2 2d e f i n i t i o no fd a t aw a r e h o u s e 9 2 3o r i g i na n di n f l u e n c i n gf a c t o r so f d a t aq u a l i t yi s s u s e sf o rd a t aw a r e h o u s e 1 2 2 3 1o r i g i no f d a t aq u a l i t y 1 2 2 3 2i n f l u e n c i n gf a c t o r so fd a t aq u a l i t y 13 2 4d a t aq u a l i t ym a n a g e m e n to fd a t aw a r e h o u s e 13 2 4 1i m p l e m e n t a t i o na n a l y s i so fd a t aq u a l i t ym a n a g e m e m 1 4 2 4 2p e o p l er o l e sa n dt h e i rd u t yo fd a t aq u a l i t ym a n a g e m e n t 17 2 5s u m m a r y 18 c h a p t e r3d a t aq u a l i t yf a c t o r si nd a t aw a r e h o u s ed e s i g n 2 0 3 1d a t aq u a l i t yd r i v e st h ed e s i g no fd a t aw a r e h o u s e 2 0 v 广东工业大学硕士学位论文 3 2c o n s i d e r i n gd a t aq u a l i t yf a c t o r si nd e s i g n 2 2 3 2 1t a b l ei n d i c a t o r s 2 2 3 2 1 1r e c o r dr a t e 2 3 3 2 1 2a t t r i b u t er a t e 2 3 3 2 2a t t r i b u t ei n d i c a t o r s 。2 4 3 2 2 1r a t eo f n u l lv a l u e s 2 5 3 2 2 2c l u s t e r i s a t i o nd e g r e eo f a t t r i b u t e 2 5 3 2 2 3d i s p e r a t i o no f v a l u e s 2 6 3 2 2 4t y p e so f a t t r i b u t e s 2 6 3 2 2 5k e y s 2 7 3 3d e s i g nq u a l i t yo fd a t aw a r e h o u s e 2 7 3 4s u m m a r y 2 8 c h a p t e r4 a s s e s s m e n ta n di m p r o v i n go fd a t aq u a l i t yf o rd a t aw a r e h o u s es y s t e m 2 9 4 1a s s e s s m e n to fd a t aq u a l i t y 2 9 4 1 1a s s e s s m e n gs y s t e mo fd a t aq u a l i t y 3 0 4 1 2a s s e s s m e n tm o d e lo f d a t aq 砌i t y 3 1 4 1 2 1d e f i n i t i o no f a s s e s s m e n tm o d e lf o rd a t aq u a l i t y 31 4 1 2 2a s s e s s m e n ts t e p so fd a t aq u a l i t y 3 3 4 1 2 3c o m p u t i n go f a s s e s s m e n tm o d e lo f d a t aq u a l i t y 3 5 4 2d a t aa u d i to fd a t aw a r e h o u s e 3 5 4 2 1t c l t a la u d i t 3 5 4 2 2c o m p o n e n ta u d i t 3 6 4 2 3a u d i ta u t o m a t i o n 3 6 4 2 4a u d i tr e p o r t s 3 7 4 3i m p r o v i i 玛o fd a t aq u a l i t yi s s u s e s 3 9 4 3 1i m p r o v i n gi nd a t as o u r c e 3 9 4 3 2i m p r o v i n gi ne t l 4 0 4 3 3i m p r o v i n gi nd a t aa p p l i c a t i o n 4 1 4 4s u m m a r y 4 1 c h a p t e r5a p p l i c a t i o ne x a m p l ea n a l y s i s 4 3 v i i i c o n t e n t s 5 1c o n s i d e rt h ed a t aq u a l i t yf a c t o r si nd a t aw a r e h o u s ed e s i g n 。4 3 5 1 1s e l e c tt h ea p p r o p r i a t et a b l e st oe x t r a c td a t a 4 3 5 1 2s e l e c tt h ea p p r o p r i a t ea t t r i b u t e s 4 4 5 1 3c a l c u l a t et h ed e s i g nq u a l i t y 。4 8 5 2a s s e s s m e n ta n di m p r o v i n gi m p l e m e n t a t i o no fd a t aq u a l i t y 4 8 5 2 1a s s e s s m e n ti m p l e m e n t a i o no fd a t aq u a l i t y 。4 8 5 2 2i m p r o v i n gi m p l e m e n t a t i o no fd a t aq u a l i t y 4 9 5 3s u m m a r y 5 0 s u m m a r ya n dp e r s p e c t i v e 51 r e f e r e n c e 5 2 p a p e r l i s t 5 6 o r i g i n a l i t ys t a t e m e n t 5 7 d i s s e r t a t i o nc o p y r i g h tl i c e n s es t a t e m e n t 5 7 a c k n o w l e d g e m e n t s 5 8 i x 第一章绪论 1 1 课题来源 第一章绪论弟一早瑁y 匕 本课题所开展的研究工作来源于国家自然科学基金模具制造系统负荷均衡化与生 产进度控制方法研究( 项目编号:5 11 7 5 0 9 4 ) 、广东省部产学研结合项目面向模具、 装备定制型离散制造业信息化服务平台关键技术研发及示范应用( 项目编号: 2 0 1 0 a 0 9 0 2 0 0 0 5 4 ) 、广东省教育厅产学研结合示范基地项目模具数字化设计与制造产 学研结合示范基地( 项目编号:2 0 1 0 8 0 9 1 i 0 1 0 0 7 ) 。 1 2 研究背景 近年来,随着信息化的发展和技术的进步,信息已成为人类社会不可或缺的资源。 社会的信息化使得信息量急剧增长。面对数据量的急剧增长和应用要求的不断提高, 数据库技术的发展和应用也有了更高的作用和价值。数据库技术一直力图使自己能胜 任当前的变化发展,完成从事务处理、批处理到分析处理的各种类型的信息处理任务。 但是,对于决策分析,在业务操作层面上进行分析判断还存在这很大的局限性。于是, 人们尝试对来自操作型处理数据库中的数据进行再加工,形成一个综合的、面向分析 环境的,以更好地支持决策分析,这就形成了数据仓库技术。数据仓库是以计算机应 用为基础的信息系统,用来支持在各个领域的决策分析。数据仓库作为一个集成了许 多数据源的中央数据库系统,从许多不同的( 分散的、互不联系的、异构的) 联机事 务处理数据源收集和提取数据,并通过一系列汇总计算将数据组织成易于分析的形式, 从而为企业提供了一个信息集成平台,为管理人员和决策者迅速地提取信息以提供决 策支持。 无论对于传统的事务处理系统还是数据仓库系统,都要有很好的数据作为支撑。数 据仓库抽取了各个事务数据源中的历史数据,然后经过一系列的加工,最后集成到数 据仓库中,以作决策支持分析之用。在这个过程中,数据仓库流程通常分为多个步骤, 包括数据清洗,装载,查询,展现等等。从各个环节来讲,由于数据源本身就存在脏 广东工业大学硕士学位论文 数据,在e t l ( 抽取、转换、装载) 环节中没能对问题数据进行很好地处理并最终流入 数据仓库,或者在e t l 过程中产生脏数据,并流入数据仓库中,或者在数据仓库系统 前段展示过程中产生问题数据等等。所谓“垃圾进,垃圾出( g a r b a g ei n ,g a r b a g eo u t ) ”, 因为数据仓库中存在大量有质量问题的数据,那么决策者从数据仓库中提取的信息是 失真的,这些信息对他们的决策支持活动只能起到误导作用,这造成的损失可能是不 可估量的。另外,由于数据质量问题,可能增加了数据仓库系统建设的周期和对系统 维护的难度,这些都将造成建设和应用成本的增加,这势必会增加企业或组织的负担。 甚至,由于数据质量问题一直不能解决,甚至能导致数据仓库项目的失败。所以,对 于数据仓库来说,数据质量是非常重要的。 如何有效地保证数据质量是关系到数据仓库建设成败和数据能否有效应用的关键 问题f l 】。正是因为数据仓库数据质量的重要性,其已成为国内外研究的一个热点。在此 基础上,本文试图对涉及数据仓库数据质量的各个环节进行梳理,在前人研究的基础 上,从宏观上对数据仓库数据质量的管理进行了研究。具体环节上,对数据仓库设计 的数据质量因素和数据质量的评估和问题数据的处理等作了深入的分析。 1 3 国内外研究现状 1 3 1 数据质量的定义 提到数据质量,人们往往想到的就是数据正确与否,然而这只是数据数据质量评 价指标体系中的一个方面,也就是我们通常所说的准确性。所以传统的数据质量定义 就是通过一些质量维度来表示,主要有数据完整性( c o m p l e t e n e s s ) 、一致性 ( c o n s i s t e n c y ) 、正确性( c o r r e c t n e s s ) 、有效性( v a l i d i t y ) 等指标在系统中的 满足程度。但是,数据质量是一个融合主观和客观的概念,对于不同的角色,数据质 量的定义往往不一样,所以当今没有一个统一意义上的概念,综合国内外学者的研究, 我们可以将数据质量的定义归纳为以下几种定义i 御。 ( 1 ) 数据质量指多大程度上可以满足数据使用者的使用要求引。 ( 2 ) 数据质量的信息应该具备超越数据使用者期望的特征 4 1 。 ( 3 ) 数据质量的信息一定要符合数据使用者制定的规范和需求 4 1 。 ( 4 ) 数据质量的信息对数据使用者有多高的价值d 6 j 。 2 第一章绪论 ( 5 ) 数据质量的信息从价值、形式、时间特性和内容上满足数据使用者的程度 6 1 。 ( 6 ) 数据质量定义为为达到某个目标所需要的信息与实际获取信息的差距忉。 ( 7 ) 数据质量定义为信息产生者、使用者、管理者、相关专家所需求的信息满足 技术、功能、美学和认知学的特性【8 l 。 1 3 2 数据质量管理 质量管理的概念包含了质量方针、质量策略、质量计划、质量控制、质量保证和质 量改进这几个方面 9 , m j t ,被广泛被接受的一种概念就是全面质量管理( t q m ) 。全面质 量管理已经成功应用于制造领域,且适用于服务业和数据质量等领域 3 5 , 3 6 , 3 t j 。全面质量 管理就是指一个组织以质量为中心,以全员参与为基础,目的在于通过客户满足和本 组织所有成员及社会收益而达到长期成功的管理途径。根据全面质量管理的原理和方 法,人们提出了可将全面质量管理应用于数据质量管理,比较有代表性的是麻省理工 学院提出的全面数据质量管理( t d q m ) 。关于数据仓库系统的数据质量管理的概念, 主要包含了基本的三个方面1 3 5 , 3 7 , 3 5 j 9 i 1 、管理数据库首先必须采用各种手段保证高品质的数据质量。除了要规划数据质 量,明确使用目的,更要注意制定保证数据质量的准则和策略。 2 、数据质量管理就是要构建一个质量管理体系。这个体系的基础包括组织框架、 程序构造、标准规范、指导方针和各项条规。为了保证组织结构、各项程序和标准的 更新提高,定时的检查工作也必不可少。 3 、为了实现数据库的有效管理,应当给予雇员适当的方法、技术和工具来支持他 们完成质量管理程序。 操作层面的数据质量管理主要有以下四个功能:1 数据质量规划。质量规划就是指 收集用户的要求和期望,然后把这些要求转入到数据程序和指令当中t 删。然后经过系 统挑选分类,最后确定适当的数据质量标准【4 i j 。2 数据质量控制。质量控制就是控制数 据的传输程序使之和指令规范相符。做到这一点需要制定合适的方法然后一步步开展 起来。首先必须评估产品和程序的质量并用定量指数表示出来。控制数据的关键是要 做质量检验 4 0 4 1 。3 数据质量保证。数据管理可以侦测系统风险,进而避免它们。4 数 据质量改善是数据管理第四项意义所在。数据管理可以促进持续积极的数据质量改善。 在分析和提高数据质量之前,最重要的是要做好规划,确定数据质量的达成目标, 广东工业大学硕士学位论文 并评估现存数据的质量水平( 质量规划和质量控制) 。所以数据质量规划和控制是数据 质量管理成功与否的关键,只有做好规划和控制才能认清现在的数据水准。拿当下的 数据水平对比改善后的结果才可以判断出数据质量的变化趋势,估测出数据改善的效 果。这个是成本受益分析的基础。 1 3 3 数据质量驱动数据仓库的设计 数据仓库的数据质量应该在其设计、建设、应用和维护各个阶段都应该有所考虑, 有些认为没必要在数据仓库的设计阶段考虑数据质量因素,其实这是一个误区。如果 能在数据仓库的设计阶段就将数据质量因素考虑进去,这将大大提高数据仓库的设计 质量,减少在后续阶段数据质量问题出现的几率。所以,近年来国内外开始有学者对 数据仓库设计时的数据质量问题进行研究。文献 1 3 提出了一种支持数据仓库物理设 计的框架,这种结构考虑了支持设计的一些质量因素。文献 1 4 提出了一种方法用以 检查所选择的数据视图是否达到数据完整性和一致性的要求和是否达到最终数据流通 质量的目标。文献 1 5 描述了一种数据质量元模型,这个模型不仅可以用于数据仓库 的设计,也可以用于衡量最终数据仓库的质量。文献 1 6 提出了一种如何应用质量因 素和达到用户质量要求的方法。文献 1 7 通过统计数据仓库架构的一些指标,如星形 数据集市维度表的数目等,然后通过h z u s e 提出的软件评估框架 1 8 1 去确定哪些指标 是可行的,从而最终评定数据仓库的设计质量。 1 3 4 数据质量分析评估与改进 对数据仓库的数据质量进行评估和分析,是为了更好地能帮助企业准确地了解数 据的内容、质量和结构,这样才能更好了解数据质量产生的原因,这将对数据质量提 高有很大的帮助。因为数据仓库系统的数据量庞大且数据结构和数据的流通都比较复 杂,所以数质量评估是数据仓库质量研究的重点和难点。就目前来讲,数据质量并没 有一个统一完整的定义【t 9 , 2 0 , 2 1 , 2 2 l ,但是,其基本都是按照不同的质量类别予以分层,不 同层次有不同的质量维度 2 4 ,比如我们常见的准确性、完整性、有效性、时效性等。 而数据质量的评估和分析就是以这些质量维度为指标,目前,数据质量的评估分为定 性和定量策略两种策略。文献 2 5 的r i c h a r d y w a n g ,h e n r yb k o n 等人认为,数据质 4 第一章绪论 量分为客观的质量指标和主观的质量参数,用户应根据自己的选择去评估数据质量。 文献 2 6 提出了直接和间接的评估手段,直接评估采用问卷调查的方式,而间接评估 结果由直接评估结果计算所得。文献 2 7 提出了简单比率、最大最小运算和加权平均 值的客观评价算法,认为数据质量的评估应采取主客观结合的方式。文献 2 2 ,2 8 主要 量化了关系数据库数据质量的完整性和精确性两个维度,并分析了数据质量对关系代 数运算的影响。国防科学技术大学的陈卫东 2 1 在p a r s s i a n 元组粒度的数据质量评价模 型基础上,提出了一个数据项粒度的数据质量评价模型,并量化了此模型。 在改进企业数据质量的时候,由于改进计划的不同,导致了最终的成本和产生的 影响都不同。鉴于这些情况,人们通常将数据质量改进策略分为两种:在数据源头改进 数据质量的方法称为“上游 方法,而在数据集成过程或者系统应用阶段中改进数据 质量的方法称为“下游”方法。上游策略可能涉及到更改应用程序的逻辑,添加或者 删除数据表等,通过这些方式从源头上解决数据质量问题。但是,“上游策略实施 起来相对比较复杂,可能带来不可预料的后果,且实施成本比较高。目前对上游策略 的研究主要集中在数据质量相关模式的研究,从数据质量角度来讲,数据模式的研究 侧重于如何理解数据 2 9 1 和如何根据已有的数据实例重新设计数据模式【圳。下游策略主要 从数据仓库系统的e t l 及其后阶段解决数据质量问题,处理过程相对来说没有那么复 杂,而带来的成本代价没有那么高。数据清洗就是下游策略的主要研究内容。目前, 数据清洗的研究主要集中在重复对象检测、缺失数据处理、异样数据检测、逻辑错误 检测、不一致数据处理等。 1 4 论文研究内容 本文从综合层面对数据仓库的数据质量进行研究,重点针对数据质量评估与改进等 难点问题进行了深入研究。具体的研究内容如下: 第一章绪论,对课题的来源、研究背景、国内外研究现状、相关理论和主要内容进 行了介绍。 第二章对数据仓库相关理论知识进行了阐述,主要介绍了数据仓库的概念和体系结 构。根据国内外的研究,总结了数据仓库数据质量的定义并归类了其应该具备的一些 数据质量维度。最后,从总体上分析了数据仓库的数据质量管理,提出了一种通用的 数据质量管理流程,并对具体实施作深入的分析。 广东工业大学硕士学位论文 第三章首先介绍了数据仓库的常用设计方法和设计模式,然后分析了数据质量因素 在数据仓库设计中的重要性和为什么要采用数据质量驱动设计的方式。在此基础上, 提出了“用户驱动+ 数据驱动+ 数据质量驱动”的设计模式和一些定量分析方法,主要 分析数据源的一些质量指标,看哪些数据适合作为数据仓库的量值或者维度,以在数 据仓库时提供参考。另外,还可以联合分析的数据源指标计算最终的数据仓库设计质 量值。 第四章针对数据质量管理环节中的数据质量评估和改进进行分析。提出了一种基于 数据存储区层、数据集层、角色层、指标层和规则层的数据质量评估体系。根据所分 析的评估体系提出了一种定量分析的数据质量评估模型,通过用户角色自定义评估规 则,然后根据评估规则评估数据集的数据质量得分。最后,介绍了常用的数据质量问 题改进方法,主张通过人工改进和自动改进结合的方式评估得出的有质量问题的数据。 第五章为应用实例分析,主要根据前面章节的研究,选取相关例子进行分析。主要 分析数据仓库设计中的数据质量因素和数据仓库数据质量的评估和改进。 对于具体的章节安排,可见如图1 1 的章节结构图。从图中可知,从第二章到第五 章是一个总分总的关系。第二章对数据仓库的概念和体系结构进行了综合阐述,并从 层面提出了一个通用的数据质量管理流程。第三章则具体分析数据仓库设计过程中应 该要考虑的数据质量因素。第四章则具体分析数据质量管理中的数据质量评估和改进 环节。第五章则是针对第三第四章的一个实例分析。 具体分析 第一章:绪论 l 综合论述第二章:数据仓库及其数据质量 i 第三章:数据仓库设计中的数据质量因素 第四章:数据仓库系统的数据质量评估与改进 。 实例分析 第五章:应用实例分析 i 结论与展望 图1 1 论文总体结构图 f i g 1 - 1s t r u c t u r ed i a g r a mo ft h i sp a p e r 6 第二章数据仓库及其数据质量 第二章数据仓库及其数据质量 2 1 数据仓库的概念和体系结构 2 1 1 数据仓库的概念 业界公认的数据仓库概念为数据仓库创始人w h i n m o n 在建立数据仓库f 4 2 l 一书中的定义:数据仓库是面向主题的、集成的、非易失的和随时间变化的数据集合, 它用以支持决策经营管理中的决策制定过程。 1 、面向主题 在操作型数据库中,各个业务系统可能是相互分离的。而数据仓库是面向主题的。 逻辑意义上,每一个商业主题对应于企业决策包含的分析对象。 2 、集成的 不同操作型系统之间的数据一般是相互独立、异构的。而数据仓库中的数据是对 分散的数据进行抽取、清理、转换和汇总后得到的,这样保证了数据仓库内的数据关 于整个企业的一致性。 3 、非易失的 数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查 询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。数 据仓库中一般有大量的查询操作,但修改和删除操作很少。因此,数据经加工和集成 进入数据仓库后是极少更新的,通常只需要定期的加载和更新。 4 、随时间变化的 数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星 期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的 经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数 据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘 出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。 7 广东 r = l k 大学硕士擘位论文 2 1 2 数据仓库的体系结构 数据仓库系统通常是对多个异构数据源的有效集成,集成后按照主题进行重组, 包含历史数据。存放在数据仓库中的数据通常不再修改,用于做进一步的分析型数据 处理。数据仓库作为一个系统而言,包含了不同的阶段和部分。只有宏观上对其体系 结构具体了解,明白其工作原理和方式才能确定数据仓库数据质量问题的来源和产生 的原因,这是对数据仓库数据质量进行管理的基础。图2 1 是数据仓库的通常体系结 构,按照功能可以分为以下几个部分: l 、元数据( m e t a d a t a ) :数据是对事物的描述,元数据就是描述数据的数据,它提 供了相关数据的环境。元数据实际上是要解决任何人在何时何地为了什么原因及怎样 使用数据仓库的问题,再具体一点说,元数据在数据仓库管理员眼中是数据仓库中包 含的所有内容和过程的完整知识库及其文档,在用户眼中就是数据仓库的信息地图。 元数据在数据仓库中起着既特殊又重要的角色,它是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年北京市外来人口租赁合同管理与服务办法
- 2025年《合同法》讲座
- 2025财产委托管理合同书新范文
- 2025年动产质押借款合同
- 石化过程强化学习优化-洞察及研究
- 出入境人员安全培训课件
- 2025担保抵押合同范本
- 2025合同违约责任规定协议范本
- 2025咨询合同协议方案技术支持合同
- 冲压作业安全培训心得
- 高三秋季开学第一课:语你相遇文暖我心+课件+2025-2026学年统编版高一语文必修上册
- 心内科常见疾病健康宣教
- 闭经中医课件
- 煤粉锅炉培训课件
- 面塑教学 课件
- 2025年小学体育课程标准考试测试卷及参考答案
- 急性心肌梗死2025诊疗指南总结
- 建筑业标准员培训
- CNC初级技术员考试试题及答案
- 2025至2030中国高速公路服务区行业市场发展分析及前景趋势与投资价值报告
- 水处理故障应急预案
评论
0/150
提交评论