版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘,1,PPT学习交流,主要内容,1. 概述 2. 数据仓库与OLAP技术 3. 数据挖掘技术 4. 数据挖掘应用 数据挖掘工具 6. 数据挖掘实例,2,PPT学习交流,1 概述,1.1 背景 1.2 数据挖掘定义 1.3 基本概念 1.4 主要功能 1.5 数据挖掘模型 1.6 实现流程 1.7 数据挖掘的应用 1.8 未来趋势,3,PPT学习交流,1.1 背景,二十世纪末以来,全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,
2、无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。,4,PPT学习交流,1.1 背景,数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(Artificial Intelligence,人工智能) ) 1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。 随后,在1991年、1993年和1994年都举行KDD专题讨论
3、会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。,5,PPT学习交流,1.1 背景,现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining),数据挖掘是KDD中一个非常重要的处理步骤。 数据挖掘是近年来出现的客户关系管理(Customer Relationship Management, CRM)、商业智能(Business Inte
4、lligence, BI)等热点领域的核心技术之一。,6,PPT学习交流,Data Mining. Finding patterns in data Describing the patterns - one way is by rules Predicting from the rules - classification - forecasting,or Knowledge Discovery in Databases Extracting knowledge Representing knowledge acquired Using the knowledge for future ex
5、amples,1.2 数据挖掘定义,7,PPT学习交流,1.2 数据挖掘定义,技术角度的定义 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,8,PPT学习交流,1.2 数据挖掘定义,商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主
6、要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。 简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。,9,PPT学习交流,Data mining context,Business intelligence model Levels of data analysis method,hidden,shallow,surface,simple database queries,statistical
7、 analysis,data mining,10,PPT学习交流,What sort of data? Consider here only textual type data characters or numbers Data that has been structured in some way Data can also be be visual, aural or tactile Pattern recognition in other data visual analysis of data later,What Data?,11,PPT学习交流,Data sets,Data s
8、et concerning bridges in USA E13,A,33,CRAFTS,HIGHWAY,?,2,N,THROUGH,WOOD,?,S,WOOD E15,A,28,CRAFTS,RR,?,2,N,THROUGH,WOOD,?,S,WOOD E16,A,25,CRAFTS,HIGHWAY,MEDIUM,2,N,THROUGH,IRON,MEDIUM,S-F,SUSPEN E17,M,4,CRAFTS,RR,MEDIUM,2,N,THROUGH,IRON,MEDIUM,?,SIMPLE-T E18,A,28,CRAFTS,RR,MEDIUM,2,N,THROUGH,IRON,SHO
9、RT,S,SIMPLE-T E19,A,29,CRAFTS,HIGHWAY,MEDIUM,2,N,THROUGH,WOOD,MEDIUM,S,WOOD E20,A,32,EMERGING,HIGHWAY,MEDIUM,2,N,THROUGH,WOOD,MEDIUM,S,WOOD E21,M,16,EMERGING,RR,?,2,?,THROUGH,IRON,?,?,SIMPLE-T E23,M,1,EMERGING,HIGHWAY,MEDIUM,?,?,THROUGH,STEEL,LONG,F,SUSPEN E22,A,24,EMERGING,HIGHWAY,MEDIUM,4,G,THROUG
10、H,WOOD,SHORT,S,WOOD E24,O,45,EMERGING,RR,?,2,G,?,STEEL,?,?,SIMPLE-T E25,M,10,EMERGING,RR,?,2,G,?,STEEL,?,?,SIMPLE-T E27,A,39,EMERGING,RR,?,2,G,THROUGH,STEEL,?,F,SIMPLE-T E26,M,12,EMERGING,RR,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,S,SIMPLE-T E30,A,31,EMERGING,RR,?,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-T E29,A,2
11、6,EMERGING,HIGHWAY,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,?,SUSPEN E28,M,3,EMERGING,HIGHWAY,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,S,ARCH E32,A,30,EMERGING,HIGHWAY,?,2,G,THROUGH,IRON,MEDIUM,F,SIMPLE-T E31,M,8,EMERGING,RR,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,S,SIMPLE-T E34,O,41,EMERGING,RR,LONG,2,G,THROUGH,STEEL,LONG,F
12、,SIMPLE-T E33,M,19,EMERGING,HIGHWAY,MEDIUM,?,G,THROUGH,IRON,MEDIUM,F,SIMPLE-T E36,O,45,MATURE,HIGHWAY,?,2,G,THROUGH,IRON,SHORT,F,SIMPLE-T E35,A,27,MATURE,HIGHWAY,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-T E38,M,17,MATURE,HIGHWAY,?,2,G,THROUGH,IRON,MEDIUM,F,SIMPLE-T E37,M,18,MATURE,RR,MEDIUM,2,G,THRO
13、UGH,STEEL,MEDIUM,S,SIMPLE-T E39,A,25,MATURE,HIGHWAY,?,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-T E4,A,27,MATURE,AQUEDUCT,MEDIUM,1,N,THROUGH,WOOD,SHORT,S,WOOD E40,M,22,MATURE,HIGHWAY,?,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-T E41,M,11,MATURE,HIGHWAY,?,2,G,THROUGH,IRON,MEDIUM,F,SIMPLE-T E42,M,9,MATURE,HIGHWAY,LON
14、G,2,G,THROUGH,STEEL,LONG,F,SIMPLE-T,format is simply comma separated values,12,PPT学习交流,Data sets,Data set concerning geotechnical parameters,format taken directly from a spreadsheet,13,PPT学习交流,Data structured into three parts Relations have Attributes which have Instances Example,Relation about cups
15、 of coffee coffee has attributes of size, sugar, temperature etc size has instances of small, medium, large sugar has instances of yes or no temperature has instances of 39.8, 54.7 or 41.0 Celsius,Data Structure,14,PPT学习交流,Each cup of coffee has attribute-values (records) Instances can be numerical
16、or nominal Data preparation, filtering and discretization can be considerable as much an art as science,Data,15,PPT学习交流,Example,Cappuccino coffee relation,missing data,attribute-value,attribute as number,or name,note this attribute,process of discretization,16,PPT学习交流,Coffee?,Cappuccino coffee relat
17、ion Best rules found: 1. milkiness=over 3 = size=large enjoy=yes 3 2. size=large milkiness=over 3 = enjoy=yes 3 3. milkiness=over enjoy=yes 3 = size=large 3 4. milkiness=over 3 = enjoy=yes 3 5. milkiness=over 3 = size=large 3 6. size=small 3 = enjoy=no 3 7. size=large chocolate=ok 2 = milkiness=over
18、 enjoy=yes 2 8. milkiness=over chocolate=ok 2 = size=large enjoy=yes 2 9. size=large milkiness=over chocolate=ok 2 = enjoy=yes 2 10. size=large chocolate=ok enjoy=yes 2 = milkiness=over 2,New (test) data poses question medium,over,?,ok,Wheatley,yes,a b - classified as 1 0 | a = yes 0 0 | b = no,17,P
19、PT学习交流,What do we want to do?,The enjoy attribute has values of either yes or no In the example we want to discover if there are any combinations of conditions that lead to some coffee being more enjoyable than others Consequently, can I predict whether I will like a particular coffee?,18,PPT学习交流,Wh
20、at will data mining try to do?,Data mining will try to find rules or relationships that link the data with instances of either yes or no In other words, what is in the data that is common to the yes (or no) instances?,19,PPT学习交流,How does it work?,Data mining algorithms analyse the data Numerous type
21、s of algorithms for analysis inferring rules from the data looking for patterns or associations within the data Data for known examples training data Results derived from analysis can be used on new data test data to generate. decision trees classifications predictions,20,PPT学习交流,Data mining mixture
22、 of mathematics, logic, statistics, artificial intelligence For example - algorithm for simple classification rules.,More than just statistics,for each attribute, for each value of that attribute, make a rule as follows: count how often each class appears find the most frequent class make a rule tha
23、t assigns that class to this attribute-value calculate the error rate of the rules choose the rules with the smallest error rate,maths,stats,AI,stats,logic,21,PPT学习交流,Multivariate data,Another way to see what is going on Numerical data.,X Y plot shows little pattern,22,PPT学习交流,Multivariate data,Anot
24、her way to see what is going on Numerical data.,X Z plot also shows little pattern 3D plot,23,PPT学习交流,Multivariate data,Another way to see what is going on Numerical data.,Y Z plot indicates a relationship,Z values have a relation with X and Y each variable affects the relation with other variables
25、in another dimension many more variables are possible - multivariate,24,PPT学习交流,Example,Simple example of data mining method Weather data,Relation about the weather for going cycling attribute name values, values, values attribute outlook sunny, overcast, rainy attribute temperature real attribute h
26、umidity real attribute windy TRUE, FALSE attribute cycle yes, no,data from previous events outlook,temp,humid,wind,cycle sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunn
27、y,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no,use algorithms to find patterns in data form rules from the patterns use rules for prediction or classification,25,PPT学习交流,Example,Test mode: 10-fold cross-validation = C
28、lassifier model (full training set) J48 pruned tree - outlook = sunny | humidity 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8,Weather relation rules generated from training data,26,PPT学习交流,Exa
29、mple,Weather relationship data analysed for associations and displayed as a tree one of many analysis and display options rules induced and applied to new situations build expert systems,strongest associations at root of tree,27,PPT学习交流,Example,Weather relation new data,New (test) data Decide not to
30、 go cycling is that the right decision? data sunny,70,85,FALSE,no,= Confusion Matrix = a b - classified as 0 0 | a = yes 0 1 | b = no,result,interesting result why?,28,PPT学习交流,Value of data mining,Business uses and benefits,Somerfield Stores used data mining to explore patterns of bread buying to ma
31、ke better predictions about sales volumes Leeds Building Society used data mining for identifying mortgage accounts likely to default on repayments Norwich Union Life 描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告; 探索数据:对数据做简单的统计分析,例如关键属性的分布等; 检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。,59,PPT学习交流,1.5 数据挖掘模型,3数据准备(Data P
32、reparation)阶段 具体地,包括: 数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择; 数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等; 数据创建:在原有数据的基础上是生成新的属性或记录;,60,PPT学习交流,1.5 数据挖掘模型,数据合并:利用表连接等方式将几个数据集合并在一起; 数据格式化:把数据转换成适合数据挖掘处理的格式。,61,PPT学习交流,1.5 数据挖掘模型,4建立模型(Modeling)阶段 具体地,包括: 选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法; 测试方案设计:设计某种测试模型的质量和有效性的机制
33、; 模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型; 模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。,62,PPT学习交流,1.5 数据挖掘模型,5模型评估(Evaluation)阶段 具体地,包括: 结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果; 过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误; 确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。,63,PPT学习交流,1.5 数据挖掘模型,6部署(Deployment)阶段 具体地,包括: 部署计划:对在业务运
34、作中部署模型作出计划; 监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型; 作出最终报告:项目总结,项目经验和项目结果; 项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。,64,PPT学习交流,1.5 数据挖掘模型,为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告: 业务理解报告 原始数据收集报告 数据描述报告 数据探索报告 数据质量报告 数据集描述报告 模型训练报告 模型评估报告 部署计划 监控和维护计划 总结报告 通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。,65,PPT学习交流,1.6 实现
35、流程,各步骤之间互相影响、反复调整,形成一种螺旋式上升过程。,66,PPT学习交流,1.6 实现流程,数据准备 KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不合适直接在这些数据上进行知识挖掘,需要做一些准备工作,也就数据的预处理。数据预处理包括数据的选择(选择相关数据)、净化(消除噪音、冗余数据)、推测(推算缺值数据)、转换(离散型数据与连续型数据之间的转换)、数据缩减(减少数据量)等。 数据准备是KDD的第一个步骤,也是比较重要的一个步骤。数据准备得好坏将直接影响数据挖掘的效率和准确度以及最终模式的有效性。,67,PPT学习交流,1.6 实现流程,数
36、据挖掘 数据挖掘是最为关键的步骤,它根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。,68,PPT学习交流,1.6 实现流程,模式的评估、解释 通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式。此外,大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。,69,PPT学习交流,1.6 实现流程,知识运用 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需看知
37、识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。 KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。,70,PPT学习交流,1.6 实现流程,数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类: 1)业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 2)数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 3
38、)数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。,71,PPT学习交流,1.6 实现流程,从上可见,数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。这一过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。,72,PPT学习交流,数据挖掘,Increasing potential to support business decisions,End User,Business Analyst,Data Analyst,DBA,Making Decisions,Data Presentation,Visualization Tec
39、hniques,Data Mining,Information Discovery,Data Exploration,OLAP, MDA,Statistical Analysis, Querying and Reporting,Data Warehouses / Data Marts,Data Sources,Paper, Files, Information Providers, Database Systems, OLTP,73,PPT学习交流,1.7 数据挖掘的应用,数据挖掘技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。数据挖掘技术在市场分析、业务管理、决策支持等方面
40、有广泛的应用,是实现CRM和BI的重要技术手段之一。具体涉及数据挖掘的商业问题有数据库营销(Database Marketing)、客户群体划分(Customer Segmentation 相反,细化程度越低,粒度级就越大。 粒度深深地影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。 在数据仓库中的数据粒度与查询的详细程度之间要做出权衡。,114,PPT学习交流,2.1.3 数据仓库的数据模型,当提高粒度级别时,数据所能回答查询的能力会随之降低。换言之,在一个很低的粒度级别上,几乎可以回答任何问题,但在高粒度级别上,数据所能处理的问题的数量是有限的。,115,PPT学习交
41、流,左图是一个低粒度级,每个活动(在这里是一次电话)被详细记录下来,数据的格式如图所示。到月底每个顾客平均有200条记录(全月中每个电话都记录一次),因而总共需要40000个字节; 右图的边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样的记录大约只需200个字节。,116,PPT学习交流,问题:“上星期某某顾客是否给某某人打了电话?” 在低粒度级别上,完全可以回答这一问题,虽然这种回答将花费大量资源去查询大量的记录,但是问题结果是可以确定的。 在高粒度级别上,则无法明确地回答这个问题。假如在数据仓库中存放的只是所打电话的总数,那么就无法确定其中是否有一个电话
42、是打给某人的。,117,PPT学习交流,2.1.3 数据仓库的数据模型,数据仓库的数据模型 星型结构 雪花型结构 星型雪花型结构 数据仓库的数据事实数据维度数据 不论是星型、雪花型或者是星型雪花型结构都是以事实表为中心。不同点只是在外围维度表相互之间的关系不同而已。,118,PPT学习交流,2.1.3 数据仓库的数据模型,星型架构的维度表只会与事实表生成关系,维度表与维度表之间并不会生成任何的关系。 雪花型架构描述可合并在一起使用的维度数据。,119,PPT学习交流,星型结构的实例,Sales Fact Table,time_key,item_key,branch_key,location_k
43、ey,units_sold,dollars_sold,avg_sales,Measures,120,PPT学习交流,雪花结构的实例,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,121,PPT学习交流,星型雪花型结构的实例,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shippin
44、g Fact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,122,PPT学习交流,2.1.4 数据仓库与数据库的关系,到目前为止,数据仓库在国外已经发展了十几年的时间。在国内,虽然起步较晚,但发展较为迅速。 目前有很多的大公司或企业正在建或计划建设不同规模的数据仓库和数据集市。,123,PPT学习交流,2.1.4 数据仓库与数据库的关系,数据仓库建立在传统事务型数据库的基础之上,为企业决策支持系统、OLAP及数据挖掘系统提供数据源。,124,PPT学习交流,2.
45、1.4 数据仓库与数据库的关系,数据库的应用包括:事务型应用和分析型应用 物理数据库实际存储的数据包括: 事务型数据(或称操作数据)和分析型数据(也可称为汇总数据、信息数据)。 起初,两类数据放到一起,即分散存储在各底层的业务数据库中。 后来,随着企业规模的扩展、数据量的增加、以及希望在决策分析时得到更多支持需求的日益迫切,并且考虑保证原有事务数据库的高效性与安全性。因此将分析型数据与事务型数据相分离,单独存放,即形成了所谓的数据仓库。,125,PPT学习交流,2.1.4 数据仓库与数据库的关系,数据仓库只不过是因为用户需求增加而对某一类数据库应用的一个范围的界定。单就其是数据的存储容器这一点
46、而言,数据仓库与数据库并没有本质的区别。 而且在更多的时候,我们是将数据仓库作为一个数据库应用系统来看待的。 因此,不应该说数据库到数据仓库是技术的进步。,126,PPT学习交流,数据仓库与数据库的区别,数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是
47、为分析数据而设计,它的两个基本的元素是维表和事实表。,127,PPT学习交流,数据库与数据仓库的区别,128,PPT学习交流,演变过程,60年代 数据收集、数据库创建、信息管理系统( IMS )和网络数据库管理系统(Network DBMS) 70年代 关系数据模型以及关系型DBMS,129,PPT学习交流,演变过程,80年代至今 高级数据模型 (具有扩充关系的, 面向对象的, 演绎的等等) 和 面向应用的 DBMS (空间的, 科学的, 工程的等等) 90年代至今 数据挖掘和数据仓库,多媒体数据库和Web数据库。,130,PPT学习交流,演变过程,在20世纪70年代之前,数据一般存储在文件中
48、,由应用程序直接管理;之后有了简单的数据收集和数据库的构造;后来发展到对数据的管理,包括数据存储、检索以及数据库事务处理;再后来发展到对数据的分析和理解,这时候出现了数据仓库技术和数据挖掘技术。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,并且能够预测未来的数据。,131,PPT学习交流,数据库的局限性,传统数据库所能做到的只是对已有的数据进行存取以及简单的查询统计,即使是一些流行的OLAP工具,也无非是另一种数据展示方式而已。人们仍然无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。这也直接导致了目前“
49、数据爆炸但知识匮乏”的现状。,132,PPT学习交流,2.2 ETL过程,2.2.1 ETL的概念 2.2.2 ETL的功能 2.2.3 ETL的目标 2.2.4 ETL的流程 2.2.5 ETL的框架 2.2.6 ETL的组成 2.2.7 ETL的相关技术 2.2.8 ETL的实现方法 2.2.9 ETL的工具 2.2.10 ETL的应用,133,PPT学习交流,2.2.1 ETL的概念,将原来业务系统的数据经过抽取、转换、加载到数据仓库所在的中心存储库的过程称为ETL (Extraction, Transformation and Loading)过程,制定这个过程的策略称之为ETL策略,
50、而完成ETL过程的工具则是ETL工具。相对于数据仓库中的表而言,业务系统数据库中的表称为源表,业务系统数据库称为源数据库,数据仓库中所有的数据都来自于业务系统数据库。在打造一个数据仓库的过程中,ETL的实施是一项繁琐、冗长而艰巨的任务,因为它关系到数据仓库中数据的质量问题,如果导入的数据漏洞百出,对决策者来说无疑是个噩耗。 ETL过程是搭建“数据仓库”时最重要的和最易误解的步骤之一。,134,PPT学习交流,2.2.1 ETL的概念,ETL过程不仅仅是数据的迁移(Migration)或净化(Cleansing),也应该是企业数据管理策略中不可缺少的一部分。 ETL过程的功能是:发现数据仓库需要
51、的数据,将其从源系统中抽取出来,并进行一定的处理,然后装载到数据仓库中去。,135,PPT学习交流,2.2.2 ETL的功能,提高数据质量 搭建数据仓库 (Warehousing Processes) 操作型活动 (Operational Activities) 数据获取 (Data Acquisition) 仓库存储 (Warehouse Storage) EAI的数据集成,136,PPT学习交流,ETL功能提高数据质量,数据清洁 补充缺失值,平滑噪声数据,识别与删除异常数据以及有效解决数据的一致性问题 数据集成 多个数据库、数据立方体或文件的数据整合 数据转换 实现数据的归一化 数据简化
52、在不影响分析结果的前提下,缩减数据量 数据离散化 对于数值型数据可通过取样实现离散化以降低数据量,137,PPT学习交流,ETL功能提高数据质量,138,PPT学习交流,ETL功能搭建数据仓库,139,PPT学习交流,ETL功能搭建数据仓库,现有数据的特点 分散的 非整合的 难以访问的 多种的数据源 多种的平台 低劣的数据质量 冗余的数据 难于理解 不能分析 数据量很大,甚至是海量的,140,PPT学习交流,ETL功能搭建数据仓库,“数据仓库”中的信息为战略经营提供决策支持 整合的 便于多维分析和报表 根据历史信息预测未来的发展趋势,141,PPT学习交流,ETL功能搭建数据仓库,本质上,ET
53、L过程完成了将“生数据”(Raw Data)转化为“信息”(Information)的过程,即传递有用的数据至数据仓库(中央数据库)中; 首先是从各种操作型数据源中抽取“有用”的数据; 然后,将操作型数据转换成“具有战略意义”的信息; 最后,将“具有战略意义”的信息装载到数据仓库中,以备决策支持使用。,142,PPT学习交流,ETL功能 EAI数据集成,使用相应的工具完成现有应用数据的集成(即数据的抽取、转换和存贮),143,PPT学习交流,2.2.3 ETL的目标,提高数据质量 提供一种统一的、跨平台的存取数据方法 将数据“信息化”,为企业决策者的经营分析提供信息来源,144,PPT学习交流
54、,2.2.4 ETL的流程,抽取 转换/清洁 装载,145,PPT学习交流,2.2.4 ETL的流程,(1)预处理。这是正式开始作业之前的准备工作,包括清空工作区、检查过渡准备区。如果需要直接访问操作型数据源系统时,要检查远程数据库服务器状态,并核对目标区数据加载状态,以核算出加载作业的参数,如加载数据的时间间隔和范围(是24小时的数据,还是前3天的数据)。 (2)启动数据加载的批作业。,146,PPT学习交流,2.2.4 ETL的流程,(3)因为维度表有事实表所参照的主键,所以要先完成对维表的加载,生成维表主键,并作为以后加载事实表所需要的外键。在加载维表时,有时要处理好缓慢变化的维的问题,
55、并可能涉及到版本号的处理问题。 (4)加载事实表。这中间也涉及到键查找的问题,即从有关维表中找到相应的主键,并以此作事实表的外键。,147,PPT学习交流,2.2.4 ETL的流程,(5)事实表加载完成后,再对总计方阵体系进行刷新,以保障总计方阵与它的基础数据同步。 (6)应设计具有完善的出错处理机制和作业控制日志系统,以监测和协调整个加载的过程。,148,PPT学习交流,ETL流程数据抽取,数据提取是ETL处理的首要部分,解决的主要问题是确定需要提取的数据,并确定适当的提取方式。 指从一个或多个源数据库中通过记录选取进行数据复制的过程。抽取过程将记录写入ODS(Operational Dat
56、a Store)或者临时区(Staging Area)以备进一步处理。,149,PPT学习交流,ETL流程数据抽取,预抽取 识别数据(Formal;Informal) 元数据(Metadata) 元数据定义(实体、记录、数据项、模型、主键、外键) 源应用系统(操作系统、DBMS、位置) 更新的频率 数据(交易)量 源数据的拥有者(IS管理员、经营部门主管) 业务含义描述 可靠性、完整性评估(通过浏览数据),150,PPT学习交流,ETL流程数据抽取,后台技术结构(Back Room Tech Architecture) 单文件系统平面文件、COBOL、VSAM 早期的DBMSsIMS,IDMS
57、,Adabas,Mark IV, 第三方应用软件 ERP系统一些已经具有数据仓库能力,但很有限 企业报表系统很难回溯到原始数据 ODS操作型数据存储(Part of DW/not part of DW,最细粒度、面向主题、整合的、经常新增交易数据、企业视点、星型模型),151,PPT学习交流,ETL流程数据抽取,预抽取(续) 选择数据源(原则) 可访问性 操作型活动的最近阶段 最接近真实的数据(不是派生的) 与新开发的OLTP系统一致 注意:任何没有被选中的数据源,应该记录原因 分析源数据 理解源系统的元数据(数据字典) 业务规则获取( Business Rule Capture ),152,
58、PPT学习交流,ETL流程数据抽取,Both Data and Metadata,153,PPT学习交流,ETL流程数据抽取,数据抽取策略(从操作型DBs到DW): 陈旧的存档数据 少见;保险公司;危险品公司 现存于操作型环境中的全部数据 只获取与上一次抽取相比更新的数据 时间戳(time-stamped) DELTA 文件 日志文件 触发器 比较两次数据库快照(Snapshot),154,PPT学习交流,ETL流程数据抽取,其中最重要的是变化数据捕获(Change Data Capture, CDC )。有几种方法实现CDC:时间戳、读取RDBMS系统的日志文件、使用源系统中的触发器或者自己
59、开发CDC程序来检查日志文件。 使用时间戳是最简单的,也是相当普遍的方法。前提是所有的源表都有时间戳。 例如:超市的业务系统数据库中几乎每个表都保障有“插入记录日期”、“更新记录日期”两个字段。这是规范数据库的一个基本标准。,155,PPT学习交流,数据抽取的实现,在多数情况下,数据源系统与数据仓库并不处于同一个数据服务器中,它们往往是独立的,并处在远程系统中。数据的提取往往是以远程的、分布式的提取模式进行,并涉及各种各样的方法和手段,其中包括: (1)应用SQL*Plus提取到文本文件; (2)应用OCI or Pro*C程序,或者Oracle UTIL_FILE提取到文本文件; (3)应用Oracle Export Utility实用程序提取到Oracle Export Files文件;,156,PPT学习交流,数据抽取的实现,(4)远程数据复制 (5)信息流,157,PPT学习交
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学生公寓对老师奖惩制度
- 公司卫生评比奖惩制度
- 中餐厅出新菜奖惩制度
- 家庭教育儿童奖惩制度
- 水电工奖惩制度实施细则
- 烘焙门店员工奖惩制度范本
- 电力工程项目部奖惩制度
- 企业与生产管理奖惩制度
- 小学劳动实践课奖惩制度
- 数学集体备课奖惩制度
- 10kV配电网电流保护系统设计
- 雨课堂在线学堂《信息素养-学术研究的必修课》作业单元考核答案
- 2025内蒙古单招计算机试题及答案
- 消防自动报警系统培训
- 消防思想政治教育
- 灭火系统运行管理规定细则
- 加油站防雷安全生产责任制度
- DB4201∕T 533.1-2017 清洁服务规范 第1部分:分类与一般要求
- 春秋三传经典常谈课件
- 学校后勤管理处行政部副主任2025年个人工作总结
- 《中国人寿保险新基本法》课件
评论
0/150
提交评论