




已阅读5页,还剩66页未读, 继续免费阅读
(运筹学与控制论专业论文)基于ods的数据仓库与挖掘及其在钢铁企业中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
辽宁科技大学硕士学位论文 摘要 摘要 信息技术发展的浪潮使人们进入到了信息爆炸的时代,海量信息需要人们去处 理与应用。数据处理已经不是信息技术的重点,代之而来的是如何充分使用这些 信息。现在众多的企业都进行着信息化建设,随着企业信息化的不断深入,人们 对企业数据进行整合与分析的需求也更加强烈,也越来越重视企业统一的数据仓 库平台建设。因此如何建立高效的、企业级的数据仓库决定着企业信息化的成效。 数据挖掘技术是2 0 世纪9 0 年代迅速发展起来的技术,能从企业的“数据海洋” 中挖掘出有效的、具有潜在效用的规律或模式。利用数据仓库进行数据挖掘可以 提高企业经营决策的f 确性,大大提高企业的经济效益。 本文对数据仓库的建设与数据挖掘的技术进行了深入研究,并在某钢铁企业具 体实现了建立数据仓库的步骤、挖掘出有益的结论。我们实现了建立数据仓库的 一个完整循环,为钢铁企业甚至别的行业建立数据仓库提供了宝贵的经验。钢铁企 业的生产具有连续性、业务逻辑复杂、数据量大等特点,对数据分析的实时性要 求也比较高:针对这种具体的企业特点与需求,提出了建立具有o d s 层的数据仓库 体系架构。数据仓库的建设中,数据质量是关键的问题,为此我们将传统的e t l z 个步骤扩展为e c c d 四个步骤,为提供高质量的数据打下了坚实的基础。在详细分 析了数据仓库e t l 的构建过程、数据清洗的原理及其设计要点的基础上实现了从数 据源系统中抽取数据、经过清洗、整合处理,最后加载到数据仓库中的完整过程。 在对数据挖掘的现状与功能的分析的基础上,总结了数据挖掘需重点开展的工作。 并利用km e a n s 聚类算法对客户进行了聚类分析,为企业的营销提供了技术支持, 并带来了巨大的经济效益。 关键词:o d s ,数据仓库,e t l ,数据清洗,数据挖掘,聚类 辽宁科技大学硕士学位论文 a b s tr a c t t h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yh a sb r o u g h ta b o u ta ne r ao f i n f o r m a t i o ne x p l o s i o ni nw h i c hp e o p l eh a v et od e a lw i t hag r e a td e a lo fi n f o r m a t i o ni n d a i l yl i f e w i t ht h ef i a r t h e rd e v e l o p m e n t ,t h en e e dt oi n t e g r a t ea n da n a l y s ed a t ab e c o m e s m o r ei n t e n s e ,a n dg r e a t e ri m p o r t a n c ew i l lb ea t t a c h e dt ob u i l d i n ga ni n t e g r a t e dd a t a w a r e h o u s ef i a tb yt h o s ee n t e r p r i s e s ,m a n yo fw h oh a v ea c t u a l l yb e g u nt h ew o r ko f i n f o r m a t i o nc o n s t r u c t i o na l r e a d yt h u sh o wt ob u i l dah i 曲l ye f f i c i e n t ,e n t e r p r i s el e v e l d a t aw a r e h o u s ed e t e r m i n e st h es u c c e s so fd a t ac o n s t r u c t i o nf o ra ne n t e r p r i s e d a t a m i n i n gt e c h n o l o g yc a nh e l pf i n do u tt h ep o t e n t i a l l ye f f e c t i v el a w sa n dp a t t e r n sf r o mt h e “s e ao fd a t a ”f r o me n t e r p r i s e s t h e r e f o r e ,c o n d u c t i n gd a t am i n i n gb yu s i n gd a t a w a r e h o u s ec a ne n h a n c et h ec o r r e c t n e s so fd e c i s i o n - m a k i n gi na l le n t e r p r i s e so p e r a t i o n , t h u st oh e l pa ne n t e r p r i s eg a i nm o r ee c o n o m i cb 锄e f i t t h i sp a p e ri sa b o u taf u l t h e rr e s e a r c ho fb u i l d i n gd a t aw a r e h o u s ea n dd a t am i n i n g , t h er e l a t e de x p e r i m e n t sh a v eb e e nd o n ei na ni r o na n ds t e e lc o m p a n y , a n dt h es t e p s n e e d e dt ob u i l dad a t aw a r e h o u s eh a v e b e e nw o r k e do u ta n ds o m eb e n e f i c i a l c o n c l u s i o n sh a v eb e e nd r a w n aw h o l ec y c l eo fb u i l d i n gad a t aw a r e h o u s eh a sb e e n a c h i e v e da n dt h i sc a l lb ev a l u a b l ee x p e r i e n c e sf o ri r o na n ds t e e lc o m p a n i e sa n de v e nf o r c o m p a n i e si no t h e rf i e l d s t h es t e e li n d u s t r yh a si t so w nc h a r a c t e r i s t i c s t h e r e f o r e ,w e s u g g e s tb u i l d i n gd a t aw a r e h o u s ea r c h i t e c t u r ew i t ho d sl a y e r s i n c ed a t aq u a l i t yi st h e k e yf a c t o ri nb u i l d i n gad a t aw a r e h o u s e ,t h et r a d i t i o n a lt h r e e s t e pp r o c e s se t lc a nb e t r a n s f o r m e dt oaf o u r s t e pp r o c e s se c c d ,w h i c hl a y sas o l i df o u n d a t i o nf o ri m p r o v i n g t h eq u a l i t yo f d a t a t h r o u g hac a r e 如la n a l y s i so f t h eb u i l d i n gp r o c e s so f e t l ,i t sd e s i g n , a n di t sd a t ac l e a n i n gt h e o r i e s ,d a t ac a nb ec h o s e nf r o mi t so r i g i n a ls y s t e m ,a n dt h e n c l e a n e da n di n t e g r a t e d ,a n dt h e nl o a d e dt ot h ed a t aw a r e h o u s e b a s e do nt h ea n a l y s i so f t h ec u r r e n ts i t u a t i o no fd a t am i n i n g ,t h i sp a p e rs u m m a r i z e st h em a i nt a s k sn e e d e dt ob e d o n ei n b u i l d i n gd a t aw a r e h o u s e ,a n d a l s oa p p l i e st h ec l u s t e ra r i t h m e t i cm e t h o d k - m e a n st oc o n d u c tc u s t o m e ra n a l y s i s ,w h i c hc a nb et e c h n o l o g i c a l l ys u p p o r t i v et ot h e s a l eo f a ne n t e r p r i s ea n dt h u sb r i n ga b o u tg r e a tb e n e f i t k e yw o r d s :o d s ,d a t aw a r e h o u s e ,e t l ,d a t ac l e a n i n g ,d a t am i n i n g , c l u s t e r i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 辽宁科技大学或其它教育机构的学位或证书而使用过的材料,与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 签名:毯盟垒日期:丝! :墨! 关于论文使用授权的说明 本人完全了解辽宁科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅:学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:继塑羹导师签名: 辽宁科技大学硕士学位论文 第一章绪论 1 1 背景介绍 第一章绪论 随着企业信息化的不断深入,人们已经越来越重视企业商业智能的建设,对 企业数据进行整合与分析的需求也更加强烈。对一个统一的商业智能平台来说, 作为后台数据支持的数据仓库技术有着不容忽视的作用,因此如何建立高效的、 企业级的数据仓库决定着企业信息化的成效。利用数据仓库进行数据挖掘可以提 高企业经营决策的正确性,大大提高企业的经济效益。 随着数据仓库的建设,原来两层的数据仓库体系( d b o w ) 有一些问题暴露出 来。两层的数据仓库解决了对历史数据分析的问题,但是在多数情况下,这种数 据仓库体系并不能完全满足企业对数据的处理需求。因为数据仓库对实时的数据 处理效率低下,只适合长期的决策支持和数据挖掘,而实际的数据处理需求往往 是多层次的,既要求对数据进行分析又要求数据具有很强的实时性,因此导致了 o d s ( 操作数据存储) 的建立。数据仓库演变为三层体系:d b o d s d w 。利用o d s 存储最新的和近期、详细的操作数据并进行分析,数据仓库存储全部的历史数据, o d s 中的数据定期的加载到数据仓库中。基于o d s 的三层数据仓库在时效上、性 能上优于两层的数据仓库。 1 2研究意义 目前,数据仓库和数据挖掘技术是国际上数据库、信息决策和机器学习等领 域最前沿的研究方向之一,随着计算机的普及以及信息时代的发展,传统的数据 库出现了无法满足对大容量的历史数据进行分析与查询、不同部分的数据难以集 成等缺点,于是数据仓库技术应运而生。数据仓库的出现是数据库发展到一定阶 段的产物,实际上,数据仓库是一个用来存放大容量的只读数据的分析性数据库, 它提供了一组以分析为主的工具。随着数据仓库技术的迅速发展以及数据仓库管 理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要 的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目 前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数 辽宁科技大学硕士学位论文第一章绪论 据背后隐藏的知识,导致了面对海量的数据我们却知识缺乏,即是“数据爆炸但知 识贫乏”的现象。数据仓库与数据挖掘技术就是企业利用现有的数据,帮助企业利 用已有的信息财富创造和累计知识、以辅助企业的经营决策并及时发现潜在的经 营问题,从而使企业采取有效的经营活动。 建立数据仓库的目的决定了数据仓库的建设不同于其它数据库的建设。数据 仓库的目的是提供企业的数据整合平台,以提供分析、决策支持。数据仓库的数 据来自多个系统,对数据的分析也是多种多样;而且数据来源和分析需求也经常 变化,所以它的需求不如其它数据库的需求清晰。相对的,建设的复杂性也增加, l 霸此如何成功建设一个满足企业需求的数据仓库很值得研究,这具有很强的实际 价值。数据仓库的数据多是从其它系统中导入的数据,不同系统的数据格式、定 义等有很多不同;如何将这些数据抽取、整合成数据仓库所需的数据,这是数据 仓库建设成功的关键,它具有很强的理论价值与实际价值。从数据中获取信息, 挖掘出知识是一项理论要求比较高、同业务联系比较紧密的工作;使用不同的方 法从不同的角度对同一批数据进行分析,会获得最有价值的知识。 1 3 本文所做的工作 我们针对钢铁企业的具体情况建立企业级的数据仓库。在对企业需求调研的 基础上,提出建立基于o d s 的数据仓库,利用数据仓库的数据进行数据分析,从 而挖掘出知识金块,为企业提供决策支持。主要工作有: 从全局角度构建了企业的数据仓库;根据企业的需求特点,选定具有o d s 层的 数据仓库体系架构。将e t l 过程扩展为e c c d 四个步骤,并在此基础上实现了数据仓 库的构建过程。 建立销售数据集市,确定主题域。利用聚类、分类等数据挖掘技术对数据进 行分析,为企业管理与营销提供知识支持。 1 4 论文结构 本文由七章组成: 第一章绪论概述本文背景、研究意义、所做的工作及论文结构。 第二章介绍了数据仓库产生与发展、与其它系统的关系:说明了具有o d s 的 数据仓库体系架构:简要说明了元数据、数据模型和粒度等关键技术的概念与重 要性。 辽宁科技大学硕士学位论文第一章绪论 第三章主要讨论了数据仓库的构建工具e t l 和o d s 。对e t l 过程的数据清洗和 整合原理进行详细说明,指出现阶段e t l 过程的难点与热点问题,总结了设计e t l 需遵循的原则。对o d s 的特点及类型进行了介绍,说明企业应用o d s 的优点。 第四章对几种数据仓库产品进行了介绍,说明了数据仓库工具应具备的主要 技术特征及产品选择策略。 第五章讨论数据挖掘的概念,对数据挖掘的现状、来源、主要技术及功能进 行了详细说明与讨论;介绍了几种数据挖掘工具;指出数据挖掘方向应做的重点 工作。 第六章根据冶金行业自身的特点,结合钢铁企业的具体情况,开发建立了基 于o d s 层的数据仓库平台。阐述了企业数据仓库的具体实现,包括e t l 的构建、数 据集市的确定,销售主题域的确定。展示了数据挖掘的几个结果。 第七章总结全文,提出下一步需完成的工作和发展方向。 最后是参考文献和致谢。 辽宁科技大学硕士学位论文 第二章数据仓库体系介绍 2 1产生与发展 第二章数据仓库体系介绍 从计算机应用初期的电子数据处理( e d p ) 到今天的执行信息系统、决策支持系 统和商业智能( e i s 、d s s 、b 1 1 ,都始终伴随着对数据仓库的探求。从企业发展的 角度来看,在不同历史阶段企业内部许多部门建立了各自的信息处理系统,这些 系统之间相互隔离,结构各异,企业的决策者很难得到企业全局的决策信息;企 业的高层管理者还需要使用数据( 历史的、现在的) 进行各种复杂分析,如长期趋势 分析和数据挖掘等以支持经营决策。从大量的历史数据中获取信息,必定要求系 统保存大量的历史数据,而且还要进行复杂的分析处理( 每次处理都涉及大量数 据) 。这些应用对于业务处理频繁的操作数据库系统而言,将成为沉重的负担。数 据仓库面向复杂的数据分析以支持决策过程,而且可以集成企业范围内的数据, 它把支持决策分析的数据事先进行收集、归纳、处理,使企业的业务操作环境和 信息分析环境分离,从而有效地为决策提供实时的信息服务。 2 2 数据仓库概念 按照w h i n m o n 的定义,数据仓库是在企业管理和经营决策中面向主题的、 集成的、时变的、稳定的数据集合,主要用于支持经营管理中的决策制定过程。 与其他数据库应用不同的是,数据仓库更像一种过程,是对分布在企业内部各处 的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。 数据仓库是面向主题的是因为数据仓库是按照主题组织数据,这样就可以在一 个主题域得到用户所关心的,独立的数据。对于一个生产商来说,主题域可能是 订单,产品,原料单与货物成品。不同企业具有不同的主题集合。 数据仓库是集成的主要体现在对多个不相同的数据源的抽取,清洗,转换和汇 总等方面,消除了数据源中存在的不一致性,最终得到的数据在数据仓库中具有 单一的物理映像,保证数据仓库中的数据在整个企业范围内是全局一致的。 数据仓库是时变的,是指数据仓库中的某一数据单元只是在某一时间是准确 的,该时间单元在任何情况下都以某一时间标志来说明它在何时是准确的。例如 辽宁科技大学硕士学位论文 第二章数据仓库体系介绍 在记录中加时间戳。 数据仓库是稳定的,数据仓库中的数据具有只读性,仅能为管理人员决策分析 使用,在数据仓库更新时,是以批量的方式装载的,新的数据装载入数据仓库是 以静态快照的格式进行的,这样保存了数据仓库的历史。 数据仓库具有以下特点: 数据仓库是良好整合后的数据存储; 数据仓库是一个开放的数据平台; 数据仓库不是简单的数据备份,而是一个数据环境,可以让分析、决策所需要 的信息能迅捷地表达出来。 数据仓库的效益来源于对数据仓库数据的有效利用。 2 3数据仓库体系 含有o d s 的数据仓库的系统架构( 如图2 1 ) 由三层组成“。:数据仓库构建层、 数据仓库管理层和数据分析层。这种系统架构也恰恰反映了数据仓库的基本逻辑 结构以及每个层次所包含的组件,数据仓库主要由以下组件构成。 ( 1 ) 数据仓库构建层:确定项目实施所需的数据清洗工具,定义数据从事务系 统到数据仓库系统的e t l 技术方案,最终完成数据的收集、清洗、转换、加载的工 作。本层包括了e t l 组件,它将实现数据的抽取、转换和加载。分段数据存储即0 d s 层,为操作数据的临时存储区。构建层具体实趣数据仓库的构建过程,为数据仓 库提供高质量的数据,决定了数据仓库建设的成败。 图2 1 辽宁科技大学硕士学位论文 第二章数据仓库体系介绍 ( 2 ) 数据管理层;是系统存储数据的区域,包括了目标数据仓库和数据集市组 件。数据存储是数据仓库系统的中心,通过元数据可以实现数据仓库的查找和管 理,该组件是系统管理的核心部分。 ( 3 ) 数据分析层:是由数据仓库体系中决策支持所需的表示工具和分析工具组 成。本层包括了分析型应用程序、预定义报表、o l a p 、数据挖掘等组件,这些组 件实现用户的查询分析。 2 3 1e t l 与o d s e t l 目p 数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、装载( l o a d ) 的过程。它是 构建数据仓库的重要环节。 o d s ( o p e r a t i o n a ld a t as t o r e 操作数据存储) 的概念可以定义为:o d s 是面向 主题的、集成的、可变的数据,是当前的或是接近当前的支持企业日常全局应用 的数据集合。 e t l 过程与o d s 的建立是构建数据仓库的重要步骤。我们将在第三章详细讨论 它们。 2 3 2 元数据、数据模型、粒度 ( 1 ) 元数据是描述数据的数据( d a t aa b o u td a t a ) ,是数据仓库的一个重要 组成部分。元数据在数据仓库的设计、运行、维护和使用中起着极其重要的作用, 它描述了数据仓库中的各个对象,涉及数据仓库的所有方面,是整个数据仓库的 核心。元数据的工程性很强,不同的企业应用对数据的描述都不同。 元数据( m e t a d a t a ) 描述了数据仓库的数据和环境。元数据定义了数据仓库的 作用,指明了数据仓库中信息的内容与位置,刻画了数据的抽取和转换规则,存 储了与数据仓库主题有关的各种业务信息,而且整个数据仓库的运行都是基于元 数据的,例如修改跟踪数据、抽取调度数据、同步捕获历史数据等。 元数据相当于数据库系统中数据字典的内容。但是,数据仓库中的元数据内 容比数据库系统中的数据字典内容要丰富许多”“。元数据与指向数据仓库内容的 索引相似,处于数据仓库的上层,并且记录数据仓库中对象的位置。一般地,元 数据对以下各项存储进行了记录: - 程序员所知的数据结构; 辽宁科技大学硕士学位论文 第z - 章数据仓库体系介绍 一d s s 分析员所知的数据结构; 数据仓库的源数据; _ 数据进入数据仓库时进行的转换; 数据模型: - 数据模型和数据仓库的关系; 抽取数据的历史记录; 一些典型的元数据包括:数据仓库表的结构、数据仓库表的属性、数据仓库的 源数据( 事务系统) 、从事务系统到数据仓库的映射、数据模型的规格说明、抽取 日志、访问数据的公用例行程序等。 ( 2 ) 数据模型是数据仓库的实现和应用开发的基础。从模型的抽象层次来看, 模型分为概念模型、逻辑模型和物理模型。常用的概念模型有e r 模型和多维模 型。常用的逻辑模型主要是关系模型。而物理模型与具体的实现有关,包括索引 的选择和存储分配等。逻辑模型和物理模型的建模方法与关系数据库有很多相似 之处,我们主要讨论概念建模技术。 概念模型中e r 模型主要应用于关系数据库中;数据仓库采用e r 模型可以 很好的与操作数据库结合( 适应性) ,采用多维模型可以提高效率。现在一般的模 型有星型模型、雪花模型、事实表模型。 星型模型如下图( 图2 - 2 ) ,这是一个定单的例子。事实表位于星型连接的中 央,它是被大量载入数据的实体,周围的其它实体是维表。通过数据预连接和建 立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。 在星形模型的基础上,可以扩展为雪花模型和事实表模型。 在进行数据建模的时候,必须遵守下面十条规则: 必须回答紧迫的问题 必须有正确的事实表 将有正确的维表,描述必须按最终用户的业务术语来表达 必须理解数据仓库所影响的企业过程或影响数据仓库的企业过程 对于事实表,应该有正确的“粒度” 根据需要存储正确长度的企业历史数据 以一种对于企业有意义的方式来集成所有必要的数据 创建必要的总结表 创建必要的索引 能够加载到数据仓库中并使它以种适宜的方式可用 辽宁科技大学硕士学位论文 第二童数据仓库体系介绍 供应商艘债 图2 2 星型模型 ( 3 ) 粒度指的是数据仓库中数据单元的细节程度或综合程度的级别。细节程度越 高,粒度级别就越低;相反,细节程度越低,粒度级别就越高。当面临大量数据 时,粒度是一个必需仔细考虑的问题。粒度化的数据是重用性的关键,可以从不 同的角度观察数据,也可以利用数据仓库对数据进行一致性协调、而且可以满足 对将来未知的需求。通常情况下,为提高数据存储与访问的效率及满足分析详细 数据的需求,企业一般都采用双重粒度,即在数据仓库中对同一数据不但保存粒 度低的详细数据,而且保存经过概括的、粒度比较高的综合数据。 元数据、数据模型与粒度的管理与设计是建立数据仓库的重要方面。现在关 于这些方面的讨论比较多,也比较成熟。在实际应用中充分考虑实际情况,结合 企业的现有情况及以后的企业发展做出设计并使具有及时调整的能力。 2 3 3 数据集市 关于数据集市( d a t am a r t ) 有许多描述。i b m 公司对数据集市的定义是; “支 持个特定的用户组进行决策支持时面向主题的、集成的、随时间改变的数据集 合”。般认为,数据集市相当于部门级数据仓库,是一个小型的、面向部门的 辽宁科技大学硕士学位论文 第二章数据仓库体系介绍 或工作组的数据仓库。例如,财务部门拥有自己的数据集市,用来进行财务方面 的报表和分析;销售部门用数据集市进行客户分群;生产、质量管理等部门也拥 有各自专用的数据集市。由于每个部门有自己特定的需求,因而对数据集市的要 求也不样。数据集市中数据选取的基本原则是能满足本部门的需求。 数据集市具有以下特征。 面向部门,规模小,针对待定的应用,与分析工具紧密集成; 一提供更详细的、预先计算的数据仓库的概括数据,便于快速分析; 2 3 4o t a p 与数据挖掘 o l a p ( o n l i n ea n a l y t i c i a lp r o c e s s i n g ) 是指在线事务分析,它是数据仓库 的主要应用之一。o l a p 可以提供对大量数据的分析、查询。它给报表人员提供了 良好的界面和查询能力。 o l a p 的基本特征是支持用户对企业的数据迸行动态的多维分析。它的主要功 能包括以下几点: 给出数据仓库中数据的多维逻辑视图,包括上卷、下钻、切片、切块等 提供分析建模功能 多维的可视化界面。可以利用图表等展示查询结果 多维数据存储管理。可按阵列存储数据,也可按二维关系表存储数据( 存 储于维表和事实表中) 数据挖掘是一个交叉学科。随着现代数据的集中,从数据中获取知识,进而 指导社会实践的需求越来越强烈,数据挖掘应运而生。从基本的统计分析至现在 的各种挖掘算法、人工智能处理;从简单的单机数据到大规模的数据仓库中的数 据;数据挖掘的应用越来越广泛。其中数据仓库对数据进行了整合,为数据挖掘 提供了高质量的数据,数据挖掘的结果和效率都有所提高,所以这种应用方式越 来越多。数据挖掘现在已经成为一个广受注目的学科,我们将在第五章详细讨论 它的现状、主要技术和功能。 o l a p 与数据挖掘都是对数据进行分析,但它们有着本质的区别: o l a p 是一种自上而下、不断深入的分析工具,是对过去事件的分析,是验证 型分析工具。用户提出问题和假设,o l a p 负责自上而下深入地提取出关于该问题 的详细信息,并以可视化的方式呈现给用户。o l a p 需要对用户的需求有全面而深 入的了解,通过计算公式和转换规则从现有的数据中生成新的信息,并加以展示。 数据挖掘是在基于历史数据的分析基础上,预测未来的发展趋势。它对数据 辽宁科技大学硕士学位论文 第二章数据心库体系介绍 的分析是自动的。数据挖掘的用户不必提出问题,数据挖掘根据规则自动从数据 中发现新的模式。新的模式需要人们进行分析与验证后,才能确定是否有效。 2 4数据仓库与传统数据库的区别 数据仓库是由数据库发展而来的,数据库技术以及数据库的数据组织方法等 在数据仓库中也得到了充分的体现和应用。但数据仓库与数据库存在本质上的区 别,主要特性如下。 大规模性:数据仓库中的数据量巨大。其规模一般都超过上百g b ,甚至t b , 而且会越来越大。如何从如此巨量的数据中有效地挖掘有用的信息,需要采用新 的技术和设备。例如,具有大规模并行处理能力的计算机、支持并行处理的分布 式数据库系统、超大规模的海量存储技术、网格计算技术等。 历史性:传统数据库存储数据的时间都比较短。而数据仓库的基本特征就是 进行历史数据的存储,短则5 一1 0 年,长则几十年,这使得企业可以进行数据长期 趋势的分析,为决策者的长期决策行为提供有效的支持。 数据集成的综合性:数据仓库中对数据不同粒度的集成和综合,能够更有效 地支持多层次、多分辨率和多种知识的分析与发现。 查询和分析的高效性:数据仓库通常为只读方式,最终用户不能直接更新数 据仓库数据仓库的体系结构尽力保证查询和分析的实时性。数据仓库对查询的 强大支持使数据分析效率更高,分析过程可以做到实时交互。 从另一方面来看,数据仓库的数据是经过一段时间的收集,用于比较、趋势 分析和预测。若用联机事务处理( o l t p ) 系统存储的数据傲决策支持,将会遇到以 下问题。 决策分析要求对历史数据进行比较、进行趋势分析和预测。通常这些信息在 o l t p 系统中是无法得到的。 数据必须从o i j t p 的数据存储中提取。随着时间的推移,这些提取的工作量也 会不断扩大。数据的可靠性、有效性和通用性都无法确定,因为创建各种分析需 要的副本时,已生成了原始数据源的多个副本和多个大小不同的数据子集。 在o l t p 系统中的数据是按一个特殊的活动而规范化的,它并不考虑企业决策 的需要。为了做出可靠的业务决策或者回答简单的业务问题,分析者必须花费大 量的时间从不同的数据源中局部化或整合有关的信息。 o l t p 系统是经常更新的。当数据经常改变时,就难以对企业的问题做出一致 的回答。如果这种回答经常变化,则会混淆决策过程。 辽宁科技大学硕士学位论文第二章数据仓库体系介绍 o l t p 系统对大量细小的事务进行优化。数据仓库用户分析操作的重复性本质 以及处理大量数据的需要,与o l t p 数据库的设计目标是相冲突的。 2 。5 本章小节 本章简要介绍了数据仓库的产生和概念。数据仓库与传统数据库的主要区别 就是数据量的规模、数据存放的时间、数据更新的模式等。展示了具有o d s 的数据 仓库的体系架构。对数据仓库的相关概念做了简要的介绍。 辽宁科技大学硕士学位论文 第三章数据仓库构建工具 第三章数据仓库构建工具 数据仓库构建层主要i 扫e t l ( 数据的抽取、转换、装载) 过程、o d s ( 数据的存 储) 层构成。e t l 过程按固定格式形成数据仓库所需要的数据;o d s 作为数据的临时 存储区,保存数据。 3 1e t l 过程 e t l ( e x t r a c t t r a n s f o r m - l o a d ) 过程是数据仓库的基础。”。 e t l & p 数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、装载( l o a d ) 的过程。它是 构建数据仓库的重要环节。抽取是指从数据源系统中获取所需的数据;转换指将 数据按一定的规则组织成目标系统所需的数据内容与格式;装载指数据进入到目 标系统中的过程。转换是e t l 过程中的难点问题。 一个经过恰当设计的e t l 过程可以从数据源系统中抽取出数据,通过数据质量 标准、一致性标准后形成一致的数据。以便从不同分散的系统中获得的数据可以 结合在一起使用,并且最终形成以预先定义的格式安排好的数据,这些数据可以 使应用开发者建立应用程序、使最终用户做出决策。e t l 为数据仓库提供高质量的 数据。数据质量问题是当今数据仓库的1 0 大趋势之一”1 。 e t l 过程决定了建立个数据仓库是否成功。一个e t l 过程的建立是个后台 活动,它对最终用户是不可见的,但对实现和维护一个数据仓库来说,它却很容 易消耗构建数据仓库7 0 左右的资源。e t l 过程使数据有了显著的价值。它比简单 的从数据源系统中得到数据后直接转到数据仓库中要有价值的多。随着应用的发 展,可以将其传统的基本过程e t l ( e x t r a c t t r a n s f o r m - l o a d ) 细化,扩展为e c c d ( e x t r a c t c l e a n c o n f o r m - d e l i v e t ) 四个步骤,即数据抽取一清洗一整合一更新。 将转换分解为清洗与整合两个步骤,有效的数据清洗为提供高质量的数据打下了 坚实的基础;数据整合的步骤更加清晰明了,方便数据管理。 特别的,e t l 过程有以下特征: - 消除错误数据、修正丢失数据 _ 提供数据可信度的证明 一能够抓获事务数据流以便进行安全保护 - 整合从不同系统中得到的数据以便在一起使用 辽宁科技大学硕士学位论文第三章数据仓库构建工具 结构化的数据可以被终端用户的工具使用 3 i i e t l 过程步骤与线索 e t l 过程中每一步都可以分解为一系列的工作和任务,具体列表如表3 1 所示: 决定数据仓库中需要的所有的目标数据 表3 - i 表3 一l 列出了组成整个数据e t l 过程的工作和任务的类型。在实际应用中,建 立一个e t l 过程必需同时掌握两个设计线索:规划与设计线索和数据流线索。如下 两图( 图3 1 、图3 - 2 ) 所示: 图3 1 规划与设计线索 图3 - 2 数据流线索 辽宁科技大学硕士学位论文 第三章数据仓库构建工具 规划与设计线索主要解决e t l 的业务需求与如何实现的问题。这些包括:业务 需求、数据外形和数据源的情况、一致性和安全性需求、数据整合与反应时间、 数据世系、管理与发展能力、许可、数据测试与分发等。在设计e t l 过程中要仔细 考虑这条线索。 数据流线索中主要解决数据处理的问题,它包括数据抽取、数据清洗、数据 整合、数据更新四个步骤。其中数据清洗和整合是关键的步骤。 e t l 的规划与设计线索主要从过程管理的角度设计e t l 过程。数据流线索将杂 乱的数据整合成为一致的高质量数据,是从数据质量的角度设计e t l 过程。这两条 线索交互出现,组合在一起,保障7 e t l 处理过程的成功实现。现在有很多e t l i 具,很多数据仓库厂商也在其产品中集成了e t l 功能,e t l 的管理过程比较明确。 因此我们主要讨论数据流线索。 3 1 2e t l 数据抽取 数据抽取( e x t r a c t ) 是从数据源获取所需数据的过程。数据抽取过程会过滤 数据仓库中不需要的数据源的字段或数据记录。在数据抽取之前,首先要考虑数 据源环境和e t l 开发环境的接口问题。对于不同平台、不同形式、不同业务和不同 数据量的数据源应采取不同的数据抽取接口。典型的数据源接口有数据库接口 ( o d b c 、o l e d b 、专用数据库接口等) 和文件接口。在实际e t l 的使用中要考虑抽 取的效率和可靠性,选择合适的数据源接口。 数据抽取可以采用p u s h 和p u l l 两种方式。p u s h 就是指由数据源系统按照双方 定义的数据格式,主动将符合要求的数据抽取出来,形成接口数据表或数据视图 供e t l 过程使用。p u s h 方式要求对数据源系统进行改造:文件系统可以采用定时批 处理的方式、数据库系统可以采用触发器进行处理。采用p u s h 方式会对数据源系 统或其他开发团队产生依赖,对数据源系统的性能和网络有较高要求。p u l l 方式 则是指e t l 过程直接访问数据源系统,从中抽取数据供自己使用的方式。这种方式 e t l q - 作比较独立,但是要自己进行数据抽取工作。两种方式各有优缺点。当数据 源系统要对一组数据进行分析与判别的时候,使用p u s h 方式推到数据仓库中进行 分析,实时性很高;当从不同的系统中抽取数据进行整合的时候,采用p u l l 方式 进行处理的速度较高。在实际应用中,应根据实际项目要求选择合适的方式。 辽宁科技大学硕士学位论文第三章数据仓库构建工具 3 1 3e t l 数据清洗与整合 数据仓库系统中有可能存在着大量的脏数据,引起的主要原因有:滥用缩写 词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、不同的计量单位和 过时的编码等。即便是一个规划和设计良好的数据仓库系统,如果其中存在着大 量的脏数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾 出”( g a r b a g ei n ,g a r b a g eo u t ) ,系统根本就不可能为决策分析系统提供任何支 持。为了清除脏数据,必须在数据仓库系统中进行数据清洗。 数据清洗( d a t ac l e a n i n g d a t as c r u b b i n g ) 是一个减少错误和不一致性、 解决对象识别的过程“。数据整合是将数据整理成一致的结构,满足数据仓库所需 数据的应用过程。 3 1 3 1 数据清洗的原理及在e t l 中的应用 数据清洗的目的是保证数据仓库的数据质量。 1 ) 数据质量 对于什么是数据质量,可以将其定义为数据的一致性( c o n s i s t e n c y ) 、正确 性( c o r r e c t n e s s ) 、完整性( c o m p l e t e n e s s ) 和最小性( m i n i m a l i t y ) 这4 个指标在信 息系统中得到满足的程度”1 。根据处理的数据是单数据源还是多数据源以及问题是 模式层的还是实例层的,可将数据质量问题分为4 类“。:单数据源模式层问题( 如 缺少完整性约束、糟糕的模式设计等) 、单数据源实例层问题( 如数据输入错误) 、 多数据源模式层问题( 如异构数据模型和模式设计等) 、多数据源实例层问题( 如 冗余、冲突、不一致的数据等) 。 单数据源中出现的问题在多数据源中也有可能出现,并且这种现象也是普遍 发生的。模式层次上的问题也会体现在实例层次上。模式层次的问题可以通过改 进模式设计、模式转化和模式集成来解决。但实例层次的问题在模式层次上是不 可见的。所以数据清洗主要针对实例层次的数据质量问题。 2 )数据清洗原理 数据清洗实际就是利用有关技术如数理统计、数据挖掘或预定义的数据清洗 规则将脏数据转化成满足数据质量要求的数据。按数据清洗的实现方式与范围, 可将数据清洗分为四种“。: _ 手工实现方式:用人工来检钡l 所有的错误并改正。这只能针对小数据量的 辽宁科技大学硬士学位论文 第三章数据仓库构建工具 数据源。 - 通过专门编写的应用程序:通过编写程序检测改正错误。但通常数据清 洗是一个反复进行的过程,这就导致清理程序复杂、系统工作量大。 _ 某类特定应用领域的问题,如根据概率统计学原理查找数值异常的记录。 _ 与特定应用领域无关的数据清洗,这一部分的研究主要集中于重复记录的 检测和删除。 3 )数据清洗过程 数据清洗分为以下几步: 元素化:将非标准的数据格式化成结构数据。 _ 标准化:将元素标准化,根据字典消除不一致的缩写。 这里的字典是用户通过分析样本表预先制定的一些规则的集合。样本表是根 据概率统计从表中选择一部分记录所形成的一个表。 校验 对标准化的元素进行一致性校验,即在内容上修改错误。 主要工作是赋缺省值,在数据仓库中定义取值不为空的字段在源数据对应的 字段可能存在没有取值的记录,这时根据业务需要,可能有两种处理办法,一是 将该记录写入到拒绝文件中,由业务部门根据拒绝文件检查并修补源数据,另 种是在数据变换阶段直接赋一个缺省值。 匹配 在其它记录中寻找相似的记录,发现重复记录。对整个表中两个记录如果所有 字段的数据全都相同,那么这两条记录就是重复记录。 _ 消除重复记录 根据匹配结果进行处理,删除部分记录或者合并多个记录为一个具有完整信息 的记录。 归档 将前5 个步骤的结果写入元数据存储中心。这样可以更好地进行后续的清洗过 程,而且可以更加容易理解数据源,以便在数据仓库中进行切片、切块等操作。 对于一些相似的记录,它们也有可能代表的是月一条记录,找出这些相似重 复记录也有很重要的意义。可以采用下面的一种方法或者结合使用这三种方法来 辽宁科技大学硕士学位论文第三章数据仓库构建工具 检测相似重复记录: 基于契比雪夫定理的统计学方法:这种方法可以随机选取样本数据进行分 析,加快了检测速度,但是却以牺牲准确性为代价的。 模式识别的方法:基于数据挖掘和机器学习算法来查找数据,主要牵涉关 联规则算法。 基于距离的聚类方法:这也是数据挖掘中的算法,重点在于它的类的评测 标准为欧几里德距离,通过这种距离来发现数据集中的重复记录。 数据清洗的主要应用在构建数据仓库和数据挖掘中对数据的清洗。 3 1 3 2数据整合 数据整合的目的是产生一致的维度和事实,保持数据的一致也是为了达到这 个目的,这也是提高数据质量的另外一个关键步骤。在某种程度上,需要将不同 的数据整合到一个数据表中,这就需要一致的结构,需要对空缺记录进行填充, 对数据的内容进行标准化等等,以产生新的一致的形象为数据载入做准备。也可 以将一个数据源表中的数据按不同的条件通过数据抽取和变换过程分成多个文件 以对应于不同的目标表的转换和加载。数据整合可以分为模式整合、数据概括与 聚合两个方面。 _ 模式整合 数据整合针对的是模式层次的问题。主要问题就是模式之间存在语义不一 致,或者称为语义冲突问题。主要模式问题有: 1 ) 模式结构级冲突 模式结构级冲突是指来自两个不同模式中的关系在定义上的冲突,分为三 种:关系命名冲突、关系结构冲突和关系约束冲突。 关系命名冲突包含两种情况:周义异名,即同义词,对同一事物的不同称 呼;同名异义,同一称呼,但表示不同的事物。 同义异名 解决策略1 :别名( a ii a sn a m e ) 方法。对发生冲突的关系通过赋予一个别名, 进行换名处理:别名可以统一保存在别名表中,以方便维护和查找。 解决策略2 ;同义词表方法。建立关系同义词表,登记所有的同义异名的关 系。 同名异义 解决策略l :别名( a l i a sn a m e ) 方法。对发生冲突的关系通过赋予一个别名, 辽宁科技大学硕士学位论文第三章致据仓库构建工具 进行换名处理。别名统一保存在别名表中,以便维护和查找。 解决策略2 ;异义词表方法。建立异义词表,登记所有的同名舅义关系。 2 ) 关系结构冲突 关系结构冲突是指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东公共课自考试题及答案
- 狼中考试题及答案
- 矿山管理考试题及答案
- 课件时间设置
- 课件日知录教学课件
- 溴化丁基橡胶装置操作工专业技能考核试卷及答案
- 电动自行车装配工专业知识考核试卷及答案
- 增材制造设备操作员工艺考核试卷及答案
- 闪速炉熔炼工质量追溯知识考核试卷及答案
- 杜美丝制造工职业考核试卷及答案
- 黑河市重点中学2025届八下数学期末统考模拟试题含解析
- 郑远元加盟合同协议
- 慢性粒细胞白血病汇报课件
- 石化金属管道工程施工质量验收规范
- 口腔科病历书写规范课件
- 2025年湖南科技职业学院单招职业适应性测试题库必考题
- 《社会工作伦理》课件:实践原则与案例分析
- 建筑工程三级安全教育内容
- 采购作业流程管理细则
- 泥工 清包合同
- 儿童肥胖症心理干预-全面剖析
评论
0/150
提交评论