数据挖掘 ETL演示 数据仓库_第1页
数据挖掘 ETL演示 数据仓库_第2页
数据挖掘 ETL演示 数据仓库_第3页
数据挖掘 ETL演示 数据仓库_第4页
数据挖掘 ETL演示 数据仓库_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ETL(Extraction,Transformation,Loading)即数据的抽取、转换与装载。ETL工具可将业务系统中分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为联机分析处理、数据挖掘的基础,为辅助决策、分析、查询提供统一的数据依据。 将原始数据从业务系统中读取出来的过程。 确定如何抽取源数据并非易事,需要对业务深刻了解,因此需要慎重规划:在数据抽取前要充分理解数据源和数据定义规划需要的数据源和数据定义制定可操作的数据源制定增量抽取的方案 转换主要是针对数据仓库建立的模型,通过一系列的转换来实现数据从业务模型到分析模型。数据转换是真正将源数

2、据变为目标数据的关键环节,包括以下内容:数据格式转换数据类型转换数据汇总计算数据拼接 清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的记录先剔除出来,然后根据实际情况调整相应的清洗操作。主要的数据质量问题有以下几种:缺失数据错误数据数据重复数据冲突 数据加载主要是将经过转换和清洗的数据加载到数据仓库中,这时的数据已经是基于分析模型组织起来的。数据加载通常分为以下几种方式初始加载。一次对整个数据仓库进行装载。增量加载。保证数据仓库与源数据变化的同期性。(触发器、时间戳、日志表、全表删除插入、全表比对)完全刷新。周期性地重写整个数据仓库

3、,也可能只对一部分数据进行刷新。姓姓名名单价单价销量销量张三.552李四1.13员工编号员工编号姓名姓名1张三2李四姓名姓名单价单价销量销量张三.552李四1.13姓名姓名销售额销售额张三1.1李四3.3员工编号员工编号销售额销售额11.123.3导入合并计算查找S1ODSExtractDWLoadS2S3缓冲层DMOLTP报表、查询OLAP & Data Mining部门OLAPMDD增量历史数据质量管理元数据管理报表平台(OLAP OLTP Portal.)OLTP:联机事务处理,即传统的关系型数据库的主要应用。ODS:Operational Data Store,在业务系统和数据

4、仓库之间形成一个“隔离层”MDD:由模型驱动的开发方式在用友BQ中, ETL就是通过查询定义数据仓库目标表,利用智能查询的强大功能作数据抽取(Extraction)(从不同数据源取数、跨数据源取数)、生成计算字段(自定义计算项)、转换类型、和数据清洗(Transformation),并通过数据泵出加载到数据仓库(Load)。简单的数据清洗(排除非法数据),可在查询条件中定义,复杂的可通过查询的内置VB脚本去做。用友用友BQBQ通过查询对象,从不同数据源取数、跨数据源取数取出自己所需的字段。数据清洗在查询中实现,如生成计算字段(自定义计算项)、转换类型、和数据清洗。复杂的清洗可通过查询的内置VB

5、脚本去实现。一个能生成高性能数据集成解决方案(包括数据仓库中数据的提取、转换和加载(ETL)的平台。其集成的含义主要就是指把ETL集成在一起,通过一个统一的环境向用户提供了数据转换服务(DTS)所能提供的所有功能,并且大大减少了用户花在编写程序和脚本上的精力和时间。可视化环境使管理功能和数据加载自动化SQL Server SQL Server 集成服务(集成服务(SSISSSIS)DEMODEMO:将:将TXTTXT中历史货币数据,写入数据中历史货币数据,写入数据仓库的仓库的FactCurrencyRate FactCurrencyRate 事实数据表事实数据表源数据是一组包含在平面文件 Sa

6、mpleCurrencyData.txt 中的历史货币数据。源数据有以下四列:货币的平均汇率、货币键、日期键和当天汇率。 例: 1 USD7/1/2001 0:000.99980004 1 USD7/2/2001 0:001.000900811 1 USD7/3/2001 0:000.99960016 1 USD7/4/2001 0:001 .目标表:步骤步骤1 读取源数据,设置列名,设置数据类型。AverageRateAverageRateCurrencyIDCurrencyIDCurrencyDateCurrencyDateEndOfDayRateEndOfDayRate1USD7/1/2

7、001 0:000.999800041USD7/2/2001 0:001.0009008111USD7/3/2001 0:000.999600161USD7/4/2001 0:0012 查找转换AverageRateAverageRateCurrencyIDCurrencyIDCurrencyDateCurrencyDateEndOfDayRateEndOfDayRateCurrencyKeyCurrencyAlternateKey表DimCurrency表DimTimeTimeKeyFullDateAlternateKey字段映射字段映射AverageRateAverageRateCurrencyKeyCurrencyKeyTimeKeyTimeKeyEndOfDayRateEndOfDayRate源字段目标字段AverageRate

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论