开题报告面向ETL过程的数据质量控制框架设计与实现.docx_第1页
开题报告面向ETL过程的数据质量控制框架设计与实现.docx_第2页
开题报告面向ETL过程的数据质量控制框架设计与实现.docx_第3页
开题报告面向ETL过程的数据质量控制框架设计与实现.docx_第4页
开题报告面向ETL过程的数据质量控制框架设计与实现.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

软件研究所 硕士研究生开题报告暨中期考核表研究生姓名李君导师姓名叶丹学 号200828010129007学科专业计算机软件与理论所在部门软件工程技术中心拟定学位论文题目面向 ETL 过程的数据质量控制框架设计与实现已完成总学分: 33.5 分,其中:公共学位课 7 分,专业学位课 12 分。一、选题的依据和意义数据集成是把不同来源、格式、性质的数据在逻辑上物理上有机地集中,从而为企业提供全 面的数据共享。目前通常采用联邦式数据库、基于中间件模型和数据仓库等方法来构造集成系 统。ETL(Extract, Transform, Load)在这些方法中起着极其重要的作用。ETL 过程过完跨操作系 统、跨数据源的数据抽取,并将数据经过一定的转换,最终加载到目的端的数据源,是数据集 成,数据交换系统的重要组成部分。ETL 任务往往具有事务特点,同时增量数据的抽取具有不可重复性,这需要 ETL 过程能够尽 可能地顺利执行。然而在 ETL 过程中存在着许多的数据质量问题导致 ETL 过程的失败,给企业带 来巨大的损失。一方面,数据经常处于异构数据库中,不可避免地会发生模式方面的冲突;另一 方面,源端的数据质量并不满足用户需要,因而要在数据抽取时进行数据过滤,并在转换与加载 时按照一定的业务规则对数进行清理。将数据质量控制框架集成到 ETL 中能够使用户更好地了解数据的质量信息,并根据数据质量 信息,在 ETL 过程的各个阶段配置相应的数据转换与清理操作,同时为用户提供了一套可扩展的 数据操用作插件机制,方便用户集成新的数据转换操作,从而提高 ETL 过程的执行成功率,同时 增强目的端的数据质量以满足用户的需要。所以,该系统具有十分重要的现实意义。二、国内外研究状况分析目前数据集成的数据质量问题依旧是研究的热点。无论是学术界还是商业界对各类的特定的 数据质量的问题的研究都取得了一定的进展。一些研究人员着重研究相似重复记录的识别与剔 除,以及一些数据清洗操作;一些研究人员提出了数据清洗系统框加,他们围绕这样的框架,提 出了数据清洗的模型和语言。在这些模型中,有的在 SQL 基础上扩展有了新的数据清洗操作,如 Merge,Cluster 等,有的采用了分层抽象方法,通过定义逻辑层的数据清洗流程,现映射到物理层 的具体操作来完成数据清洗操作,如 AJAX,Potters Wheel 等。同时在商业界,也存在着许多的 数据质量工具,如 Data Explorer, Data Quality, First Logic 等。然而,这些数据质量系统往往只针对 某些特定的问题,没有与 ETL 很好的结合,同时需用要大量的用户交互行为。大多数的 ETL 过程 往往需要周期性的自动执行,当 ETL 运行时,人为交互要求不能很好的满足。ETL 作为数据集成中一个重要的组成部分,其中的数据质量问题按数据源的类型可以分为单 数据源类型和多数据源类型,文献4在此基础上又根据该数据质量问题是否可以通过对数据模式 的重构,转换与集成,将其分为四类:单数据源模式层问题,如:不符合唯一性,不符合外键 等;单数据源实例层问题:如拼写错误,重复记录等;多数据源模式层问题,如:模式名字冲 突,模式结构冲突;多数据源实例层问题,如:数据时间不一致,字段格式不同。目前商用的数据质量工具主要从以下几个方面关注数据质量问题:u字段的解析和标准化:对数据字段进行分解,统一成符合某种特定标准的数据,如特定格式 的地址表达方式,用户自定义的表示模式。u重复记录检测: 识别并合并集合中相同或相似的记录。u数据的分析统计:对数据进行分析得到统计数据,对数据质量进行度量以解决数据质量问 题。u数据转换过程中的监控:在数据转换过程中对数据实行监控以满足数据质量的要求。u数据加强:对原有数据进行丰富,如人口统计中对地理信息的扩充。下表从功能性及是否集成到 ETL 过程中的几个方面对目前商业界以及学术界的主流的数据质 量工具进行统计:名称ProfileParseStandardizeCorrectEnhanceMatch与 ETL 结合Data Explorer有无无无无无无Data Quality有有有有有有无First Logic有有有有有有无OWB有有有有有有有WinPure有有有有无有无Data Cleaner有有有无无有无Talend无有无有无有无由于大多数的数据质量工具只关注于特定的数据质量问题,并需要大量的用户交互,因而不 能完全的应用于 ETL 过程。因此,在 ETL 过程集成适应于其自身特点的数据质量控制框架,细化 ETL 过程,提供可配置的方法将数据质量工具作用于 ETL,将在很大程度上保障 ETL 的顺利执 行,提高执行成功率。参考文献1 M. Lenzerini: Data Integration: A Theoretical Perspective. PODS 1997.2 D. Aebi, L. Perrochon. Towards improving data quality. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993.3 C. Batini, M. Scannapieco. Data Quality: Concepts, Methodologies and Techniques. 20084 E. Rahm and H. H. Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 2000.5 C. C. Shilakes and J. Tylman. Enterprise information portals,Nov. 1998.6 V. Raman and J. M. Hellerstein. “Potters Wheel: An Interactive Data Cleaning System”. In VLDB, 2001.8 J. Chomicki and J. Marcinkowski. “Minimal-Change Integrity Maintenance Using Tuple Deletions”.Information and Computation, 197(1-2):90121, 2004.9 E. Franconi, A. L. Palma, N. Leone, S. Perri, and F. Scarcello. Census data repair: a challenging application of disjunctive logic programming. In LPAR, 2001.10 J. Wijsen. Condensed representation of database repairs for consistent query answering. In ICDT, 2003. 11The.Object.Constraint.Language.Getting.Your.Models.Ready.For.MDA.2nd.Edition, Addison Wesley. 12 W. E. Winkler. Methods for evaluating and creating data quality. Inf. Syst., 29(7):531550, 2004. 13 Using UML/OCL Constraints for Relational Database Design,199914 OCL as a Specification Language for Business Rules in Database Applications,2001 15 OCL2Sql. /docs/api/tudresden/ocl/sql/OCL2SQL.html 16谭红星,数据集成技术研究及数据集成中间件产品的研制,博士后出站报告,2004 17 Extending Dependencies with Conditions. vldb. 200718 Improving Data Quality- Consistency and Accuracy. Vldb, 200719 Conditional Functional Dependencies for Data Cleaning. ICDE, 2007三、研究内容和研究方案本文的研究目标集中于以下几个方面:u设计并实现面向 ETL 过程的数据质量控制框架,将数据质量工具作用于 ETL 过程的各个阶 段。u提供适合于 ETL 近程的数据质量工具集合。u设计一套可扩展接口,便于用户定制或集成新的数据清洗操作。1 数据质量控制框架数据质量控制框架通过对 ETL 过程的各个阶段配置相应的数据质量操作,来实现对 ETL 过程 的数据质量控制的目的。当用户进行 ETL 设计时,质量控制框架将控制部署在数据源上的服务器 的数据质量分析(Data Profiling)模块,对数据进行分析,并将数据分析的结果作为一种元数据存放 到控制中心,为的数据质量控制过程设计服务。随后,用户根据数据统计信息,在 ETL 过 程中选择性地配置数据清洗操作。当 ETL 过程执行时,DI 服务器自动地完成数据的抽取,转换与 加载,并在此过程中调用相应的数据转换清洗操作,以保证 ETL 过程的顺利执行,同时尽可能地 减少人工的干预。2 数据分析统计 数据分析统计的目的在于对数据实例进行分析,获得数据的大致质量信息,以辅助 ETL 过程的设计,包括源端到目的端的模式匹配,用户根据数据的分布信息制定相应的数据抽取的过滤规则等。同时用户可以根据数据分析的结果,选择相应的数据清理操作来保证 ETL 过程的顺利执 行。本文将着重从字段属性与结构属性两个维度来考虑数据的统计分析。字段属性度量包括标准 度量、字符型度量、数值型度量、时间类型度量、字段模式度量及数据分布。结构属性度量包括 主键字段与参照完整性约束。度量的方式包括两类:通过 SQL 语句直接在数据源端进行分析;通 过统计与数据挖掘的方法,并结合 ETL 中增量的特点,对算法做增量统计的改进。3 数据过滤源端的数据由于某些原因往往是不一致的,如:源端包含多个自治的数据源,源端不存在约 束而目的端存在约束等,因而用户需要通过定义过滤规则,在抽取数据时过滤不满足约束的元 组。本文提出一种类似于 bellman-ford 的算法及 SQL 重写算法,将多个一阶否定(Denial)约束转化 成统一的一阶逻辑约束,进而改写成 SQL 语句,完成源端数据的抽取。4 数据清洗工具集数据清洗工具集是数据质量控制框架的重要组成部分,它为 ETL 过程提供必要的数据清洗操 作。本文主要针对数据转换与重复记录检测两类数据清洗操作。由于源数据源与目标数据源之间 存在着各种差异,如:相同的属性名不同的数据类型,相同的属性名与数据类型而不同的聚类层次等,因而在数据质量控制框架中提供一套数据转换插件机制尤为重要。同时重复记录检测与合 并作为数据清洗中重要的操作,本文将在根据大量现有的成熟算法,结合 ETL 过程中数据结构化及自动化要求程度较高的特点,对特定的算法实行改进。四、学位论文研究工作进展情况、已取得的阶段性成果数据质量控制框架通过对业界已的数据质量工具的分析,在 OnceDI 的基础上,对设计面向 ETL 过程的数据质量 控制框架,进行了深入的研究,提出了设计策略和初步的系统模型, 完成了部分系统模块的功能 设计。 完成对 Data Profiling 调研工作 对现有的数据分析工具进行了深入的调研,对数据统计分析的方法积累了相应的基础,并对其利弊作了一定的分析,提出了初步的设计策略。完成 Data Filtering 一致性算法的设计与实现(小论文)通过对国内外研究成果成的改进,并结合 ETL 过程的特点,设计并实现了 SQL 重写算法,将一阶 逻辑约束转化成 SQL 语句,以过滤源端不一致数据。 对 Data Linkage 的算法调研通过对国内外研究成果的分析,对重复记录检测合并算法有了一定的了解,这部分内容主要 是集中在对已有的文章进行阅读,分析比较了各种实现技术的关注点,以及一些关键算法优缺 点,对其利弊作了一定的分析。五、下一步的工作计划和研究内容结合目前完成的阶段性成果,以及下一步项目的开展方向以及实验室的指导精神,制定如下的工 作计划:1. 继续学习调研相关的准备性知识,包括对现有开源的数据统计分析工具的调研,重复记录检测 算法的进一步的分析与性能比较,同时完成数据质量控制框架的整体架构设计。2. 在充分调研的基础上,在两个月的时间内完成整体框架的实现及数据统计分析模块与数据清理 工具集的设计与实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论