




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲数据抽取、转换和装载,数据抽取、转换和装载,目标:广泛了解ETL的功能检查数据抽取功能(挑战、技术、评估和应用)数据转换功能的任务和类型理解数据整合和合并的意义认识数据装载功能的重要性,了解将数据应用到数据仓库的主要方法理解为何说ETL非常重要、耗时和艰巨的任务,ContentsETL概览数据抽取数据转换数据装载ETL总结,ETL概览,Contents最重要和最具有挑战性耗时而且费劲ETL的需求和步骤关键因素,1.最重要和最具有挑战性,ETL功能具有挑战性,是因为源系统的性质源系统彼此悬殊,种类多样,通常需要应付多个平台上的不同操作系统很多源数据都是陈旧的应用系统采用的是过时的技术旧系统中的数据质量各不相同,需要花很多时间进行处理历史数据通常不会被保存在操作型系统中,但对于DW至关重要。源系统之间普遍缺乏一致性。在不同的源系统中,相同的数据可能会用不同的形式来代表,且缺乏解决方法,导致不一致问题更加严重源系统的结构随着时间会发生变化,因为新的商业条件不断出现。ETL功能也必须相应的调整大多数源系统的数据格式和类型对用户没有实际的含义,而且很多展现方式模糊而晦涩的。,2.耗时而且费劲,5070的时间花费在ETL上抽取:what?where?when?转换:How?定义结构、缺失值补充、格式转换装载:LongTime(测试)抽取和应用变化着的数据有困难,事实表的ETL,维度表的ETL,为所有的数据装载编写规程,组织数据缓存区域和检测工具,为聚集表制定计划,决定数据转换和清洗规则,建立全面的数据抽取规则,准备从源到目标数据元素的的数据映像关系,决定所有的数据源,包括内部和外部,决定数据仓库中需要的所有的目标数据,ETL处理过程的主要步骤,3.ETL的需求和步骤,ETL过程涉及的各个方面,将几个数据源结构组合成数据仓库目标数据库中的行将一个源数据结构分成若干个结构放入目标数据库中的若干行从源系统数据字典和目录中读取数据从多种文件结构中读取数据,包括平面文件、索引文件、旧系统数据库装载大量原子事实表的细节为大量聚集表或事实表做聚集将数据从源系统平台上的一种格式转换成目标平台上的另一个格式将晦涩的数值改变成对用户有意义的值,4.关键因素,数据抽取、转换复杂性源于源系统巨大的差异性硬件平台OSDBMSProtocol遗留的旧系统与数据装载相关最初装载和定期装载本身都需要大量时间(必须找和合适的时间)增量转载中的特殊问题如何捕获源系统的变化,且不影响源系统工作不影响DW用户使用情况下装载,ContentsETL概览数据抽取数据转换数据装载ETL总结,二、数据抽取,两个因素增加了抽取工作的复杂度(相比操作型系统的ET)1.更多不同的系统中抽取2.增量装载数据抽取的一些要点:数据源确认:确认数据的源系统和结构抽取方法:针对每个数据源,定义抽取过程是人工抽取还是基于工具的抽取(工具自己编写的还是购买的)抽取频率:对于每个数据源,确定数据抽取的频率,每天、每星期、每季度等等时间窗口:对于每个数据源,表示出抽取过程进行的时间窗口工作顺序:决定抽取任务中某项工作是否必须等到前面工作成功完成,才能开始异常处理:决定如何处理无法完成抽取的输入记录,数据抽取:1.数据源确认,关键因素:是否可以提供数据仓库需要的值?大量的时间和复杂彻底的分析例子:利用订单数据提供战略信息订单:订单数量、折扣、佣金、希望运输时间、实际运输时间、不同处理阶段时间等维度表:产品、订单部署、运输渠道、客户,数据源确认过程,数据源,目标,订单处理,客户,产品,运输合同,出货跟踪,存货管理,产品数据,客户,运输渠道数据,部署数据,时间数据,订单量度,列出对事实表进行分析所需要的每一个数据项或事实从所有维度中列出每一个维度属性对于每个目标数据项,找出源系统和源数据项如果一个数据元素有多个来源,选择最好的来源确认一个目标字段的多个源字段,建立合并规则确认多个目标字段的一个源字段,建立分离规则确认默认值检查缺失值的源数据,数据抽取:2.数据抽取技术,源系统中的数据是依赖时间变化的在数据仓库中不能忽略历史信息如何从源系统中捕获历史数据?数据如何存储在源系统中的。源系统中的数据如何保存?当前值存储的值是代表当前属性的值,可能会改变,但何时改变则无法预知。为保存历史变化的DW在这类系统中抽取数据很棘手。周期性的状态例如随时间变化的政策(利率等)变化的数据存储在源系统中,为DW而进行的抽取相对容易例子,数据抽取,从源操作系统中捕获数据1.静态数据一般用于在数据仓库初始装载的时候进行是相关数据源在某个时刻的快照静态数据的抽取包括当前值的抽取周期性数据的抽取:每个时间点的值的获取2.修正数据,2.修正数据:追加的数据捕获是最后一次捕获数据后的修正追加的数据捕获可能是立刻进行的或者延缓进行的立即型数据捕获:数据抽取发生在源系统中发生交易的时候,数据抽取是即时的或者实时的。三种不同的方法延缓型数据捕获:非即时的或实时的数据抽取两种不同的方法,源操作型系统,数据库管理系统,源数据库,源数据,选择1:通过交易日志捕获,交易日志文件,从源系统中抽取文件,输出触发程序文件,数据缓存区域,选择3:在源应用程序中捕获,选择2:在数据库触发器中捕获,立即型数据抽取:可选方法,触发程序,数据抽取,立即型通过交易日志捕获数据:日志本来就是DBMS所应该存储的为应付突发情况的备份。没有额外开销。需要保证日志刷新之前,已抽取了所有记录。缺点:如果源数据不是基于DB的则无法进行此方式的数据捕获使用数据库复制技术从数据库触发器中捕获数据缺点1:只能捕获基于DB的数据缺点2:建立和维护触发器以及触发器的执行增加了开销从源应用程序中捕获数据优点:适用于所有的系统(基于DB的或者文件系统的)缺点:1程序的开销2可能会降低应用程序的性能,数据抽取,延缓型基于日期和时间标记的捕获通过日期比较来选择应该抽取的数据:前提是源系统中有时间戳记录删除了如何抽取?删除先做标记(逻辑删除),待抽取后物理删除。但增加了开销。通过文件的比较来捕获保存副本,然后比较昨天的副本和今天的副本以决定抽取那些数据。缺点:如果数据文件很大,则比较费时间优点:对于没有交易日志或者时间标记的而言,唯一可行的方法,数据抽取,技术的评估静态数据捕获:初次数据装载时使用修正数据捕获通过交易日志捕获:DB通过数据库触发器捕获:DB、书写触发器在源系统中捕获:程序书写开销基于日期和时间标记的捕获:有时间戳、删除的问题(逻辑删除、物理删除)通过文件的比较来捕获:比较会很费劲、但实用,主要考察:灵活性?对源系统性能的影响对已有应用程序的影响与旧系统的兼容性能用在文件系统中吗?需要内部开发还是可用第三方软件,ContentsETL概览数据抽取数据转换数据装载ETL总结,数据转换,根据标准对数据进行转换,因为他们来自不同的系统,必须保证所有数据放在一起后,数据的组合不能违反任何商业规则。Contents基本任务主要转换类型数据整合和合并维度属性的转换如何实施转换,数据转换,1。基本任务选择:从源系统得到的整个记录或部分记录。通常构成抽取功能本身的一部分。分离或合并:包括数据处理类型。转化:多种对单独字段的基本转化:标准化和可理解化汇总:最细事务粒度上的前期汇总丰富:从多个源字段构成一个目标字段时,创建一个更好的数据视图。,数据转换,2。主要转化类型格式修正:数据类型与字段长度字段的解码:使得晦涩的值变得用户易于理解和有意义计算值和导出值单个字段的分离:姓和名;邮编和地址信息合并:从不同源系统中得到某个新的实体的过程。特征集合转化:编码的转化:ASCII码、BCD码、Unicode、Big5、GB2312等等度量单位的转化:日期、时间格式的转化:汇总:键重构:,数据转换,3.数据整合ETL功能的真正挑战:从多个不同的分离的源系统中将所有数据有机的组织在一起供决策分析使用。数据整合就是将所有相关的数据组合成一致的数据结构,准备装载到DW中。实体识别的困难订单系统、客服系统、市场系统客户信息如何匹配这三个不同系统中同一个客户的问题:算法或者手工识别多数据源多个数据源可以得到同一个数据字段,但值不一样?如何取舍?,数据转换,4.维度属性的转换三种慢速变化的维度属性的修改方法第一类第二类第三类,数据转换,5.如何实施转换数据转换的复杂性决定了手工操作的困难性。使用转换工具昂贵高效率高准确性元数据的产生即使是最先进的工具也可能需要手工的配合使用手工技术编写程序适用于小的DW增加了后期的维护成本不能产生元数据,即使是产生元数据也因为后期的维护产生额外的工作维护负担。,ContentsETL概览数据抽取数据转换数据装载ETL总结,数据装载,数据装载易出现问题且是很困难需要大量的时间,而且时间不好估计装载的过程可能是不顺利的:计划制定(维度表与事实表的不匹配)数据准备区和数据仓库数据库分别处在何处?装载牵涉到维度表、事实表装载需要专门的程序,数据装载,几个名词初始装载:第一次对所有数据仓库的表进行迁移增量装载:根据变化需要定期对DW中的表进行更新完全刷新:完全删除DW中的一个表或多个表,然后重新装载新的数据,Chapter12数据抽取、转换和装载,ContentsETL概览数据抽取数据转换数据装载ETL总结,ETL总结,数据仓库的ETL包括了很广泛的概念而且是一个不断重复的周期性的过程数据仓库的ETL需要工具的支持商用的ETL工具支持ETL的各个过程;大多数ETL工具采用常见的语言编写,因而我们容易对此进行必要的二次开发可选择的ETL工具非常广泛商用ETL工具的最大好处就是可以产生维护所产生
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网络编辑师考试网络编辑人工智能与智能数据清洗技术试卷
- 文件存档及资料管理系统设计规范
- 外包加工制造协议规定内容说明
- 2025年汽车维修工(汽车维修行业人才培养)职业技能鉴定全真试题卷
- 2025年无损检测员(初级)职业技能鉴定真题模拟解析技巧
- 期中试卷数学试卷
- 《树和喜鹊》课件 统编版语文一年级下册
- 宁夏的中考数学试卷
- 去年江西省会考数学试卷
- 七宝实验小学数学试卷
- 化工装置静设备基本知识
- 电脑节能环保证书
- 江西师范大学研究生院非事业编制聘用人员公开招聘1人(专业学位培养办公室助理)(必考题)模拟卷
- 2021社会保险法知识竞赛试题库及答案
- 露天矿山危险源辨识汇总
- 罐头食品加工工艺课件
- 口腔修复学-纤维桩-PPT课件
- 《排课高手》用户手册
- 变压器套管课件
- 血液透析管路及透析器安装操作评分标准
- 物业交接表格全
评论
0/150
提交评论