




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ETL
Unit
5TextAContents
NewWords
Abbreviations
Phrases参考译文NewWordsNewWordsNewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA提取、转换和加载1.什么是ETL?ETL是一个从不同源系统提取数据,然后转换数据(例如应用计算、连接等),最后将数据加载到数据仓库系统的过程。ETL的完整形式是提取、转换和加载。你会认为创建数据仓库就只是从多个来源提取数据并将其加载到数据仓库的数据库中。这远非事实,它需要复杂的ETL过程。ETL流程需要包括开发人员、分析师、测试人员、高层管理人员在内的各种利益相关者的积极投入,这在技术上具有挑战性。为了保持其作为决策者工具的价值,数据仓库系统需要随业务变化而变化。ETL是数据仓库系统的经常性活动(每天、每周、每月),并且需要敏捷、自动并且文档完备。2.为什么需要ETL?在组织中采用ETL的原因很多:•它可以帮助公司分析其业务数据以做出关键的业务决策。•它可以回答事务数据库无法回答的复杂业务问题。参考译文•它提供了一种将数据从各种来源移到数据仓库中的方法。•设计良好且文档完备的ETL系统对于数据仓库项目的成功至关重要。•它允许验证数据转换、聚合和计算规则。•ETL过程允许在源系统和目标系统之间进行样本数据比较。•ETL过程可能执行复杂的转换,并且需要额外的区域来存储数据。•它有助于将数据迁移到数据仓库中并将其转换为各种格式和类型以保持系统的一致性。2.数据仓库中的ETL过程步骤1.提取在此步骤中,从源系统提取数据并存储到暂存区域中。(如果有的话)转换在暂存区域中进行,因此源系统的性能不会降低。此外,如果将损坏的数据直接从源复制到数据仓库中,回滚将是一个挑战。暂存区提供了在提取的数据移入数据仓库之前对其进行验证的机会。参考译文参考译文数据仓库需要集成具有不同DBMS、硬件、操作系统和通信协议的系统。数据来源可能包括传统应用程序(例如大型机)、定制应用程序、接触点设备(例如ATM)、呼叫交换、文本文件、电子表格、ERP以及来自供应商及合作伙伴等的数据。因此,在物理上提取和加载数据之前,需要一个逻辑数据映射。该数据图描述了源数据和目标数据之间的关系。共有三种数据提取方法:•全提取•部分提取——没有更新通知•部分提取——有更新通知无论使用哪种方法,提取都不应影响源系统的性能和响应时间。这些源系统实时产生数据库。任何放缓或锁定都可能影响公司的最终盈利。在提取过程中会进行一些验证:•使记录与源数据一致。•确保没有垃圾邮件/不需要的数据被加载。•检查数据类型。•删除所有类型的重复数据。•检查所有关键数据到位与否。步骤2.转换从源服务器提取的数据是原始数据,不能以其原始形式使用。因此,需要对其进行清理、映射和转换。实际上,这是ETL流程的关键步骤,它增加了数据的价值,而且改变数据可以生成具有洞察力的商务智能报告。在此步骤中,你对提取的数据进行了一些处理。不需要任何转换的数据称为直接移动。在转换步骤中,你可以对数据执行定制的操作。例如,如果用户想要销售总额的收入,而该收入不在数据库中。或者,如果表中的名字和姓氏在不同的列中。可以在加载之前将它们关联起来。以下是数据完整性问题:•同一个人,名字Jon、John拼写不同。•有多种表示公司名称的方法,例如Google、GoogleInc.。•有不同的名称,例如Cleaveland、Cleveland。•可能会有不同的应用程序为同一位客户生成不同的帐号的情况。•所需文件中的某些数据是空的。参考译文验证在此阶段完成:•过滤——仅选择某些列来加载。•使用规则和查找表进行数据标准化。•字符集转换和编码处理。•度量单位的转换,例如日期时间转换、货币转换、数字转换等。•数据阈值验证检查。例如,年龄不能超过两位数。•从暂存区域到中间表的数据流验证。•必填字段不应留为空白。•清理(例如,将NULL映射为0或将“GenderMale”映射为“M”,将“GenderMale”映射为“F”等)•将一列拆分为多列以及将多个列合并为一列。•转置行和列•使用查找合并数据•使用任何复杂的数据验证(例如,如果一行中的前两列为空,那么自动拒绝对该行进行处理)参考译文步骤3.加载将数据加载到目标数据仓库是ETL过程的最后一步。在典型的数据仓库中,需要在相对较短的时间内加载大量数据。因此,应优化加载过程。如果发生加载故障,应将恢复机制配置为从故障点重新启动而不会丢失数据完整性。数据仓库管理员需要根据当前服务器的性能来监管、恢复或取消加载。加载类型:•初始加载——填充所有数据仓库表。•增量加载——当需要时定期进行持续更改。•完全刷新——擦除一个或多个表的内容并重新加载新数据。加载验证:•确保关键字段数据不丢失也不为空。•根据目标表测试建模视图。•检查组合值和计算结果。•检查维度表和历史记录表中的数据。•检查BI报告中已加载的事实和维度表。参考译文参考译文4.ETL工具市场上有许多可用的数据仓库工具。此处罗列了其中一些最著名的。4.1MarkLogicMarkLogic是一种数据仓库解决方案,可使用一系列企业功能使数据集成变得更加轻松快捷。它可以查询不同类型的数据,例如文档、关系和元数据。4.2甲骨文甲骨文是行业领先的数据库。它为本地和云提供了广泛的数据仓库解决方案。它通过提高运营效率来帮助优化客户体验。4.3亚马逊RedShift亚马逊Redshift是数据仓库工具。它是使用标准SQL和现有商务智能工具分析所有类型数据,是简单且经济高效的工具。它还允许对拍字节级结构化数据运行复杂的查询。5.ETL过程的最佳实践5.1永远不要尝试清理所有数据每个组织都希望所有数据都是干净的,但是大多数组织不原意支付等待的费用或不想等待。清理全部数据将花费很长时间,因此最好不要尝试清理所有数据。5.2计划清理内容始终制定清理内容计划,因为构建数据仓库的最大原因是提供更干净、更可靠的数据。5.3确定清理数据的成本在清理所有脏数据之前,确定每个脏数据元素的清理成本非常重要。5.4将汇总数据存储到磁盘磁带中为了降低存储成本,请将摘要数据存储到磁盘磁带中。而且,需要在要存储的数据量及其详细用法之间进行权衡。在数据的粒度级别上进行权衡以降低存储成本。
参考译文6.总结•ETL代表提取、转换和加载。•
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车间蒸汽处理方案(3篇)
- DB23-T2955-2021-直播电商信用评价规范-黑龙江省
- DB23-T2922-2021-水曲柳腋芽微繁技术规程-黑龙江省
- 医院财务发票管理制度
- 国美培训时间管理制度
- 工厂保险分担方案(3篇)
- 国企公司仓库管理制度
- 别墅材料维护方案(3篇)
- 图书合作方案(3篇)
- 关于生产口罩管理制度
- 授受关系课件-高三日语一轮复习
- 2009年《四川省建设工程工程量清单计价定额》
- 生产设备点检记录表
- 钢管桩支护工程检验批质量验收记录表
- 假发行业知识产品
- GB∕T 33628-2017 风力发电机组高强螺纹连接副安装技术要求
- GB∕T 16895.21-2020 低压电气装置 第4-41部分:安全防护 电击防护
- 超高压技术介绍、应用和工艺
- 公司治理完整测试题【附答案】
- 汽车维修工时收费标准二类企业
- 奚旦立四环境监测物理性污染监测PPT教案
评论
0/150
提交评论