开题报告面向etl过程的数据质量控制框架设计与实现_第1页
开题报告面向etl过程的数据质量控制框架设计与实现_第2页
开题报告面向etl过程的数据质量控制框架设计与实现_第3页
开题报告面向etl过程的数据质量控制框架设计与实现_第4页
开题报告面向etl过程的数据质量控制框架设计与实现_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向ETL过程的数据质量控制框架设计与实现硕士生: 刘闵 导 师: 叶丹软件工程技术中心2009-12-24内容提纲v选题依据及意义v国内外研究现状v研究内容与研究方案v工作进展与工作计划v参考文献选题依据及意义v ETL (Extract, Transform, Load)ETL完成跨操作系统、跨数据源的数据抽取,并将数据经过一定的转换 操作,最终加载到目的端数据源,是数据集成,数据交换系统的重要 组成部分。OnceDI2.0就是典型的ETL工具。v ETL的特点任务往往具有事务特点增量数据具有不可重复性要求ETL尽可能的能 一次性地成功执行但低劣的数据质量往往导致ETL的失败选题依据及意义v ETL中存在的数据质量问题数据质量问题 单数据源问题多数据源问题模式层实例层模式层实例层低质量的数据会导致 ETL的执行失败,同时 错误的数据会影响企业 的分析决策,为企业带 来损失,因而迫切需要 在ETL中集成数据质量 控制框架。不符合唯一性不符合外键拼写错误重复记录冲突记录名称冲突结构冲突数据时间不一致字段格式不同重复记录OriginalData Source1999-10-16ETL1999-10-16Target Data SourceOriginal Data Source10-16-1999选题依据及意义vETL缺乏统一的数据质量控制框架v现有数据质量系统业界的质量工具往往只针对某些特定的问题, 没有与 ETL系统很好的结合。目前数据质量工具与大量用户交互行为, 而大多数的 ETL过程往往需要周期性自动执行, 当ETL运行时,人为 交互的要求不能满足。v启发将数据质量控制框架集成到ETL过程中,细化ETL过程,提供可配置的方法将数据质量工具作用于ETL,提高 ETL过程执行的成功率.选题依据及意义OriginalExtract, Transform, LoadTargetsourcesExtractionTransformationLoadingsources51234Data staging areaData profilingColumnStructureBusiness RuleData FilteringFiltering rulesData CleansingRecord linkageStandardizationEnhancementMonitoringConflict ManagementLog ManagementData Quality FrameworkMetadata flow Data flow13Instance characteristics (real metadata)2Translation rules4 Mappings between source and target schema5 Filtering and aggregation rules选提依据及意义v研究目标设计并实现面向ETL的数据质量框架, 将数据质量工 具作用于ETL过程.提供适合于ETL的数据质量工具集合.设计一套可扩展接口,便于用户定制或集成新的数 据清洗操作.国内外研究现状v 商用数据质量工具关注以下问题字段的解析和标准化重复记录检测数据的分析统计数据转换过程中的监控数据加强v 现有的数据质量工具 商用的: Data Explorer & Data Quality (Informatica), First Logic (Business Object), Oracle OWB (Oracle), WinPure (WinPure) 开源的: Data Cleaner,Talend 学术界: AJAX, Potters Wheel, IntelliCleanv 特点这些数据质量工具与ETL相对独立,往往只针对特定的数据质量问 题。国内外研究现状工具的比较名称ProfilingParseStandardizeCorrectEnhanceMatch与ETL结合Data Explorer有无无无无无无Data Quality有有有有有有无First Logic有有有有有有无OWB有有有有有有有WinPure有有有有无有无Data Cleaner有有有无无有无Talend无有无有无有无AJAX, Potters Wheel, IntelliClean主要从数据质量建模角度出发, 刻画数据质量过程. Oracle OWB 中数据质量工具与ETL工具相互结合, 为业界ETL发展的趋势.研究内容及研究方案Control CenterDI的数据质量控制系统框架Project Manager Process ManagerQuality ManagerMonitor ManagerSchedule ControllerAppFtpRelation DBFlat FileAppE-MailETL jobSystemAutonomous SourcesControlMetadata ManagerDBadapterFlat fileadapterFiltering ManagerStatisticalSource AdaptProfiling ManagermetadataFile ChannelCleansing SetLog ManagerConfiguration ManagerSecurity ManagerTask ManagerSession Manager Plug-in ManagerParsing Standardization Enhancement Record LinkageDaccessData ictionaryDI ServerData Quality Framework数据统计分析(Data Profiling)v作用了解数据质量,分析元数据辅助ETL的设计过程辅助数据清理v数据统计的维度字段属性结构属性Columns PatternFormatFormat % CompliantHdate YYYY-MM-DD Date 82% SSN 9(3)-9(2)-9(4) US Social Security Number 3% Phone 9(3)-9(3)-9(4) US Phone Number 16%UniqueId9(5)N/AYesContactAA.AEmail99%No数据统计分析(Data Profiling)v字段属性 标准度量:Row Count, Null Values, Empty Value, Highest Value, Lowest Value字符型度量:字符数,单词数,大小写的百分比,字段的最多单 词数和最少单词数,非字母单词的百分比数值型度量:最大值,最小值,字段的平均值,标准差,方差时间类型度量:时间格式,最大值,最小值,时间分布字段模式度量数据字典及数据分布v结构属性主键字段参照完整性约束(主外键关系)v考虑的问题及思路大多数的数据统计算法都是在线的,并且基完整的数据集合,所花费的时间较长,如 ETL每次执行时都进行分析将严重影响性能。思路: 对数据进行抽样统计分析 结合ETL中增量的需求较多的特点,对算法做增量统计的改进数据过滤 (Data Filtering)v用户通过定义过滤规则抽取源端数据.v源端的数据可能是不一致的多个自治的数据源源端不存在约束而目的端存在约束一些操作异常引起的不一致orderlineitem不满足目的端约束数据过滤 (Data Filtering)v在抽取时过滤不满足约束的元组通过一阶逻辑denial约束定义过滤规则将约束转化为SQL条件,完成源端数据的抽取v难点多个约束涉及多个相同属性, 导致不一致元组具有传递 性v解决方案ic1ic2t1t2t3由于t1和t2违反ic1,因而t2为不一致元组,t3由于 与t2之间存在ic2,因而t3 也是不一致元组.提出一种类似于bellman-ford的算法,将多个约束转化 成一个统一约束,进而改写成SQL条件.数据清理操作集数据转换v 源数据源与目标数据源在实例层次方面的差异相同的属性名和不同的数据类型,不同的表示相同的属性名和数据类型,不同的表示值相同的属性名和数据类型,不同的值解释(dollar/yuan)相同的属性名和数据类型,不同的聚集层次(每周/每天,每个产品/ 每打产品)大小写冲突v 解决思路利用原有的DI2.0的插件体系提供制定函数和简单逻辑, 将插件实现可配置化Input Da taCorre cte d Da taNa m e :Josephine RandomNa m e :Ms. Josephine RandomTitle :Senior ManagerTitle :Sr. Mgr.Com pa ny Na m e : OracleCom pa ny Na m e :Oracle Corp.Addre ss:500 oracle parkayAddre ss:500 Oracle PkwyLine 1:redwood, az 94065City:Redwood CitySta te:CAPosta l Code :94065-1675Line 2:USACountry:USAPhone :506 7000Phone :650 506 7000E-m a il:E-m a il:Ge nde r:F数据清理操作集匹配与记录合并v 匹配与记录合并重复记录 当多个异构的数据源集成到一个目的数据源 源端的数据缺少主键约束,或者由于某些人为错误引起的ETL过程重复记录的特点 数据结构化 自动的ETL执行过程往往不能人为的参与解决思路 存在大量成熟算法,选择基于规则的重复记录检测算法. 设计重复记录缓存机制,当正常记录加载完毕后再由进行用户 交互,选择如何处理这些重复记录,以保证ETL过程顺利的执行.工作进展及工作计划v 工作进展对业界质量工具的进行调研 完成对data profiling的概要设计及算法调研完成data filtering一致性算法的设计与实现(小论文) 对data linkage的算法调研v 工作计划2009.1.1-2009.1.16 数据统计模块的实现工具2009.2.1-2009.2.10 进对重复记录检测的做进一步的算法分析与 性能比较.2009.2.11-2009.3.5 数据清理工具集的实现与性能分析.2009.3.5起 对相关工作进行整理并完成毕业论文参考文献1 M. Lenzerini: Data Integration: A Theoretical Perspective. PODS 1997.2 D. Aebi, L. Perrochon. Towards improving data quality. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993.3 C. Batini, M. Scannapieco. Data Quality: Concepts, Methodologies and Techniques. 20064 E. Rahm and H. H. Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 2000.5 C. C. Shilakes and J. Tylman. Enterprise information portals,Nov. 1998.6 V. Raman and J. M. Hellerstein. “Potters Wheel: An Interactive Data Cleaning System”. In VLDB, 2001.8 J. Chomicki and J. Marcinkowski. “Minimal-Change Integrity Maintenance Using Tuple Deletions”. Information and Computation, 197(1-2):90121, 2004.9 E. Franconi, A. L. Palma, N. Leone, S. Perri, and F. Scarcello. Census data repair: a challenging application of disjunctive logic programming. In LPAR, 2001.10 J. Wijsen. Condensed representation of database repairs for consistent query answering. In ICDT, 2003.11The.Object.Constraint.Language.Getting.Your.Models.Ready.For.MDA.2nd.Edition, Addison Wesley.参考文献12 W. E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论