中文les11_数据变换_数据仓库教学课件 中文oracle99版_第1页
中文les11_数据变换_数据仓库教学课件 中文oracle99版_第2页
中文les11_数据变换_数据仓库教学课件 中文oracle99版_第3页
中文les11_数据变换_数据仓库教学课件 中文oracle99版_第4页
中文les11_数据变换_数据仓库教学课件 中文oracle99版_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据变换,概要,目标,在完成此课以后, 你应该能够做到以下要求: 解释数据质量的重要性 定义术语 “变换” 确定变换的一系列问题 描述变换数据需要的技术 列出可被用做变换数据的工具,数据质量的重要性,颠峰运动,好莱坞,快递比萨,数据质量的好处,数据必须清洗是为了: 选准客户 确定购买模式 辨认客户的性质: 私有和商务 匹配客户 辨认历史数据 脏数据必须被移除,标准,定义一个质量策略 . 决定一个最优的数据质量级别.,质量改进,考虑操作数据的修改规则 记录数据来源 建造一个数据管理工作程序 仔细设计清洗过程 初始清理和刷新程序可能不同,指导方针,操作数据不应该被直接地在数据仓库中使用 操作数据每次增量后必须清洗 操作数据不是通过修改应用程序而简单的被确定,解决方法,常规COBOL, 4GL 专业工具 定制的变换过程 业务专家,调查 条件 标准化 集成化,管理,粗糙的数据质量 拥有 承担责任 解决问题 数据质量管理员,变换,变换避免了操作数据所带来的异常现象 清洗 标准化 显示面向主题数据,提取,变换,仓库,输送 (装载),源数据的不一致,无唯一键 数据命名和编码不一致 组之间数据不一致 拼写和文本矛盾,90328575 Oracle Corp 100 NE 1st Street, Tampa,90328575 Oracle 100 NE. First St., Tampa,90238475 Oracle Services 100 North East 1st St., FLA,90233479 Oracle Limited 100 N.E. 1st St.,90233489 Oracle Computing 15 Main Road, Ft. Lauderdale,90234889 Oracle Corp. UK 15 Main Road, Ft. Lauderdale, FLA,90345672 Oracle Corp UK Ltd 181 North Street, Key West, FLA,客户号 名称 地址,变换的顺序,清洗数据 排除不一致 添加元素 合并数据 集成数据 装载之前转换数据,变换数据: 问题和解决方法,复合主键,城市 代码,销售 范围,产品 号码,推销员 代码,产品代码 = 12M65431345,If field not in (m,1,male) then else if field is NULL then ,变换数据,复合编码 必须找出错误数据,m , f,1 , 0,male, female,m, f,m, f,mle, female,1 , NULL,变换数据,多个局部标准 使用工具或过滤器预先处理,cm,inches,cm,DD/MM/YY,MM/DD/YY,DD-Mon-YY,1,000 GBP,FF 9,990,USD 600,多文件问题,多个源文件增加了复杂度 从简单做起,提取出的数据,多个源文件,利用逻辑查出 正确来源,从多个源文件中转换数据,文件,文件,文件,文件,文件,文件,文件,文件,文件,值丢失问题,解决方法 忽略 等待 标记行 抽取有时间戳的数据,If NULL then field = A,A,多重值的问题,解决方法 SQL 自连接技术 利用RDMBS 约束机制,ACME Inc,ACME Inc,ACME Inc,ACME Inc,SELECT FROM table_a, table_b WHERE table_a.key (+) = table_b.key UNION SELECT FROM table_a, table_b WHERE table_a.key = table_b.key (+),解决方法 CTAS SQL*Loader (create table as ),元素命名问题,用户,用户,客户,联系人,名称,元素的语义问题,客户名字,所有客户详情,除名字以外所有详情,客户详情,避免理解错误 复杂的解决方案 元数据中的文档语义,输入的格式问题,ASCII,EBCDIC,12373,“123-73”,ACME Co., ,Beer (Pack of 8),参考完整性的问题,解决方法 SQL 反连接 服务器约束 专用工具,Department 10 20 30 40,Emp Name Department 1099 Smith 10 1289 Jones 20 1234 Doe 50 6786 Harris 60,名称和地址的问题,无唯一键 丢失数值 个人和商用名称混用 同一成员地址不同 同一成员名字和拼写方式不同 同一行中有多个名字 一个名字位于两行,数据库 1,数据库 2,名字,位置,ZIEFLED, DIANNE 100,ENFIELD, HARRY H 589,MULLEN, SARA AND FRED 300,名称和地址的问题,单字段格式 多字段格式,Mr. J. Smith,100 Main St., Bigtown, County Luth, 23565,Name Mr. J. Smith Street 100 Main St. Town Bigtown County County Luth Code 23565,清洗和组织,1. 产生原子值. 2. 标准化格式. 3. 核对数据准确性 . 4. 与其它记录相匹配. 5. 判断是私人住户还是公司的地址. 6. 元数据中的文档. 要求有灵活智能的工具和技术,合并数据,可操作的事务数据与仓库数据通常不是一对一映射 数据仓库使用的数据被合成并被用来提供信息分析,比萨销售/返回日期、小时、分钟,合并数据,Sale 1/2/98 12:00:01 Ham Pizza $10.00,Sale 1/2/98 12:00:02 Cheese Pizza $15.00,Sale 1/2/98 12:00:04 Sausage Pizza $11.00,Sale 1/2/98 12:00:02 Anchovy Pizza $12.00,Return 1/2/98 12:00:03 Anchovy Pizza - $12.00,Sale 1/2/98 12:00:01 Ham Pizza $10.00,Sale 1/2/98 12:00:02 Cheese Pizza $15.00,Sale 1/2/98 12:00:04 Sausage Pizza $11.00,添加一个时间戳,能够进行时间分析 为带有时间戳的数据加标签 为事实和多维数据增加时间维,添加一个日期戳,Store 表 Store_id District_id Time_key,Product 表 Product_id Time_key Product_desc,Sales Fact 表 Item_id Store_id Time_key Sales_dollars Sales_units,添加一个数据戳,事实表 增加触发器 重新编码应用 比较表 维表 时间表示法 时间点 时间跨度,为数据添加主键,#1 Sale 1/2/98 12:00:01 Ham Pizza $10.00,#2 Sale 1/2/98 12:00:02 Cheese Pizza $15.00,#3 Sale 1/2/98 12:00:02 Anchovy Pizza $12.00,#5 Sale 1/2/98 12:00:04 Sausage Pizza $11.00,#4 Return 1/2/98 12:00:03 Anchovy Pizza - $12.00,数据值 或人工键,概要数据,在数据聚集区抽取过程中建立 在装载数据入仓库服务器以后建立,操作型环境 的数据库,数据聚集区,仓库 数据库,保持元数据的转换,包含转换规则、算法和日志,资源,提取,聚集区,转换,规则,装载,公布,查询,保持元数据的转换,关键字的调整 编码的差异 多种来源的数据 异常规则 格式差异 参考完整性的确定 汇总数据,数据归属和责任,操作和应用开发团队 数据仓库开发团队 用一个团队的方法获取企业效益,转换时间和位置,执行转换: 装载之前 并行 可能在不同的点初始化,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12,12,12,M,m,m,65431,65421,65421,12,12,12,M,M,m,65431,65421,65421,不太可能,可能,合理,选择一个转换点,工作量 环境影响 CPU 使用 磁盘空间,网络带宽 并行执行 装载窗口时间 用户信息需求,监控和跟踪,转换应该做: 自动记录文档 提供概要数据 处理异常,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12,12,12,M,m,m,65431,65421,65421,12,12,12,M,M,m,65431,65421,65421,设计变换过程,分析: 源和目标的映射,业务规则 关键用户, 元数据, 粒度 设计选项 : PL/SQL,复制,惯例, 第三方工具 设计问题: 性能 活动区大小 异常处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论