




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据质量和数据清理在电信数据仓库中的应用Data Quality, Data Cleaning and Applying to Telecom Data Warehouse关键词:数据仓库;数据质量;数据清理;ETL;构件Keywords: Data Warehouse; Data Quality; Data Cleaning; ETL; Component摘要:在研究数据质量问题相关理论的基础上,面对电信企业高质量数据需求,设计了面向电信应用的数据质量控制体系,接着,详细介绍了包含概念定义层、逻辑规范层和物理实现层三层的数据清理框架,最后描述了采用基于构件的设计模式,实现的以数据清理为主要功能的数据加载(ETL)系统。目前该系统已经应用于某电信运营企业数据仓库项目中,效果显著。Abstract: Based on the research of the theories related to data quality problems, and for the requirements of high level data quality to telecom enterprises, a data quality control architecture oriented telecom applications is designed. A data cleaning framework with three tiers, such as notion defined tier, logic normalized tier and physical implemented tier, is discussed. An ETL system for the purpose of data cleaning is implemented by using design pattern based on component. The system is in used by a telecom enterprise, and worked well now.1 引言当今企业已建设或正在建设数据仓库系统以辅助决策,提高其核心竞争力,这需要将长期积累的大量反映各种业务环境的数据,按照相应主题从同构或异构平台,通过一定的ETL方法和过程将它们进行抽取、过滤、清洗、转换,然后加载到中央数据仓库中进行整合,形成完整的企业业务视图。数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程1。数据仓库也被看作是一种过程,即对企业中同(异)种数据源中的数据进行整合、加工和分析的过程。ETL(Extraction, Transformation, Loading)即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系统向数据仓库加载的主要过程。现实世界中的数据源极易受空缺、不一致和噪声数据的侵扰。根据GIGO(garbage in ,garbage out)原理,没有良好的数据质量作后盾,再先进的数据处理技术和分析工具也不能发挥作用,要想数据仓库真正发挥作用,就必须提高业务系统的数据质量。由此看来,数据质量的控制成为数据仓库建设发展过程中越来越引起重视的突出问题,而解决这些问题的过程称为数据清理。数据清理(data cleaning,data cleansing或者data scrubbing)在文献2中被定义为:发现和清除数据中的错误和不一致来提高数据的质量。在数据仓库环境下,数据清理是ETL 过程的一个重要部分,要考虑数据仓库的集成性与面向主题的需要。数据清理目的是检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量2。业务系统数据清理是提升业务系统数据质量的有效手段,是数据仓库实施过程中数据质量管控的源头,是整个数据仓库项目成功的关键。业务系统数据清理工作一方面能有效提升业务系统的数据质量和系统可用性,另一方面也能有效降低整个数据仓库ETL的复杂度和工作量,保证数据仓库中的数据质量。2数据质量问题数据清理主要是针对源数据库,对其中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行相应的清洗操作,在清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从谈起。21数据质量定义文献3 中数据质量定义为:数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)在信息系统中得到满足的程度。文献4认为:存在数据质量指示器和数据质量参数两类数据质量衡量指标,用户应根据应用的需求选择其中一部分,在此基础上提出了数据工程中数据质量的需求分析和模型。依据文献,结合电信运营企业的特点,对于数据质量,可以从以下四个方面来定义:l 完整性(Completeness),数据是否按规则填写完整;l 正确性(Correctness),数据是否满足域定义和业务逻辑要求;l 一致性(Consistency),不同系统之间关联的数据在定义、含义、取值及操作等方面是否一致;l 当前性(Currency),数据是否能够反应当前状态。以上四个方面,我们称之为4C。高质量的数据应该是完整的、正确的、一致的、当前的。22 数据质量问题的分类文献2 根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层,将数据质量问题分为4类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。文献5根据用户角色的不同将数据仓库质量分为四类:设计与管理质量、软件实现质量、数据使用质量以及数据质量。其中每一类又定义了包括正确性、完整性、可靠性等指标。电信数据仓库数据源具有多样性,在实际工作中,以参与人为主题,对几个生产系统进行了信息探索,对数据质量问题在正确性、完整性和一致性基础上做了进一步细分,根据业务专家的经验,采用了60个规则对数据质量进行检查。这些规则的分布如下表所示:表 1 分类应用及错误实例大类细类规则出错实例完整性记录中的关键字段值缺失108身份证字段为空或不全 系统设计时缺少必要的字段88无婚姻状况字段正确性数据格式错误22日期格式错误(20001210.00)内容错误86用户类型应为“城市用户”的系统数据被定义为“农村用户”;数据不符合业务逻辑158出现安装时间为 “2077-12-10”一致性不同的业务系统之间信息不一致108地域码在不同系统中定义不同,如长沙市定义为:“CSS”、“CS”、“1351”业务系统内部不同的表之间信息不一致77某表按照num_id与主用户表进行关联,有部分num_id在公共用户表中不存在对本次信息探索中遇到的数据质量问题,对其中代表性问题归纳如下:(1) 在数据模型上,实体语义定义、属性定义、命名规则、编码规则自成体系,难于与其他系统做匹配;(2) 系统间存在同一实体数据记录数不一致的现象;(3) 存在信息残缺现象,缺乏分析所用的部分数据;(4) 系统中存在非结构化数据;(5) 历史数据的准确性完全没有保证。由此可见数据质量的改进存在若干难点,比如:数据量大,数据格式不统一;数据质量标准不容易制定;数据清理的边界不容易定义;生产系统不断升级改造、人员岗位调整等因素容易造成前清后乱等等。23 数据质量控制方法及实现从对数据仓库自身数据的监控到对数据形成过程的管理,数据仓库中用于数据质量控制的方法有很多,但不论何种方法,面向数据仓库的长期建设,必须建立有效的数据质量评估体系。文献6提出:数据质量将逐渐与企业业绩和价值挂钩,企业应当开始采用方法来评估他们的数据质量能力和成熟度,就此提出了数据质量成熟度模型的评估理论。文献7 针对专门的数据质量模型进行计算的质量评估软件不能适应这种动态性的需求,将质量模型的描述作为元数据进行定义,在一个质量元模型下,可以定义多个质量模型。在此基础上提出了一个可扩展的数据质量控制元模型,该元模型是对企业数据质量模型的抽象,由三层组成:核心层、初始层以及扩展层,目的是为企业的数据质量体系定义提供一个完整的框架。电信运营企业的业务需求是非常严格的,在领域专家的协助下,并采用了元模型定义的方法,设计了以下呈螺旋上升趋势的数据质量控制方法模型。如图 1 所示,首先明确清理主题,以及主题域定义的数据源及数据模型;接着对数据源进行抽样分析,对数据问题进行分类;第三步,在业务专家协助下,提出并验证商务规则和清理尺度来确保数据质量;最后,通过对业务规则的巩固和进一步核实,确认数据质量需求。整个过程通过有限循环,最终产生了较完善的业务规则和数据质量分析报告。图 1 电信运营企业数据质量控制方法3 数据清理3. 1 数据清理原理存在不完整的、含噪声的和不一致的数据是现实世界数据库或数据仓库的共同特点。数据清理原理就是利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据8。数据清理的原理如图29 所示。图 2 数据清理原理3. 2 数据清理框架数据清理过程必须满足如下几个条件:不论是单数据源还是多数据源,都要检测并且除去数据中所有明显错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源;应该和数据转化结合;要有相应的描述语言来指定数据转化和数据清理操作,所有这些操作应该在一个统一的框架下完成10。文献11设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清理为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。文献12提出了一个数据清理框架,试图清晰地分离逻辑规范层和物理实现层。用户在逻辑层设计数据处理流程,确定清理过程需要执行的数据转化步骤;物理层实现这些数据转化操作,并对它们进行优化;同时文献12提出了一种描述性语言。该描述性语言可以在逻辑层上指定数据清理过程所需采取的数据转化操作,并指定何时可以抛出异常,要求用户的交互。该描述性语言还可以指定一些数据转化操作的参数,比如记录匹配操作所使用的距离函数等。文献13提出了一种交互式的数据清理框架,它由主要的四个部分构成:数据源,数据转换引擎,在线记录器以及自动差异监测器。用户利用系统提供的基本的数据转化操作,无须书写复杂的程序就能够完成数据清洗任务,而且用户能够随时看到每一步转化操作后的结果,没有很长的延迟。不论采用何种清理方法,数据清理过程一般由四个阶段构成:清理主题定义;数据(质量)分析、定义错误类型;针对分析结果,定义清理技术;实现程序,搜索识别、修正错误。结合文献12的思想和电信运营企业的具体环境,设计了一个三层的数据清理框架,分别为:概念定义层、逻辑规范层和物理实现层。如图3所示。图 3 电信运营企业数据清理框架图图3数据清理框架包含以下四个方面的内容:(1)概念定义层。主要定义了数据清理的主题和数据质量需求。以电信为背景,根据数据仓库项目的需求,定义了:客户资料清理,用户资料清理,定单数据清理,产品和服务清理,套餐和协议数据清理,账单数据清理,话单数据清理,客户服务数据清理和结算数据清理等九大清理主题及其相应数据质量需求。(2)逻辑规范层。主要是将概念转换为业务逻辑,描述数据流,并且实现业务逻辑向处理逻辑的转换。例如,客户资料清理可以划分为:核对有效客户数,数据源间客户资料对比及核实,补充缺失的客户关键字段,进行客户属性编码的统一和客户归并与切割等五个步骤,根据每个步骤对质量的需求,将业务需求转换为相应的处理逻辑,例如,客户归并与切割可映射到重复记录查找,数据备份/恢复/删除,聚类/孤立点检测等处理逻辑。(3)物理实现层。实现具体的清理程序以及算法,进行数据错误的修正和迁移,以及异常后人为干预是物理实现层的主要功能。(4)层的映射关系。文献14给出了一种采用XML描述网络映射的模式。在电信数据仓库应用中,采用了类似的描述形式,代码片段如图4: 图 4 层级映射代码片段 图4相关结点的功能:节点Subject描述清理主题;节点Processes描述清理步骤;节点LMethods描述逻辑方法;节点CProcessList描述清理算法构件列表;节点CProcess描述具体清理算法构件。3.3 数据清理例程的设计和实现3.3.1 基于构件的设计思想数据清理例程的设计采用了基于构件的模式。构件是可以被复用的软件实体,是系统中可以明确辨析的构成成分。在可复用构件的设计时,必须明确:构件的描述对构件的成功复用至关重要。一个好的描述是有效检索与理解的基础14。在当今面向网络的应用中,普遍采用了基于XML的构件刻面分类描述模式。图5给出了清理算法构件的刻面树结构和XML描述实例。图5(a) 构件刻面树结构中,构件头信息(CHeader),描述构件创建的一些具历史信息开发、维护信息;构件标识(CID),用于惟一标识某一构件,描述算法、程序等文件;构件类别(CClass),用于标识该构件所属的领域功能,操作对象等;构件实现(CImplement),描述构件的功能及与实现有关的一些信息,如方法名和输入、输出参数。图5(b)给出了贝叶斯构件XML描述模型。(a) 构件刻面树 (b) 贝叶斯构件XML描述图 5算法构件刻面树结构和XML描述实例3.3.2 数据清理系统的实现在数据仓库应用中,数据清理并不是一个单独的部分,需要和ETL过程统一使用,在数据质量控制下,进行循环处理。数据清理系统采用了基于构件的设计思路,实现了以数据清理为主的ETL工具。主要功能及流程包括:通用数据访问接口,该接口能够跨平台(网络)访问数据,支持在异构数据源间建立连接,可选多种数据访问接口方式,如JDBC、0DBC、OLEDB等;数据抽取,包括模式数据和实例数据抽取,此过程需要处理噪声数据,补充部分特殊空缺值,并建议使用增量的抽取方法;数据集成和变换,经过数据抽取后可以得到多个模式和多个实例数据集,在此过程中,需要进行数据规范化和一致性校验;数据规约,经过数据集成后的数据集中还包含许多相似重复记录,此过程要完成重复数据查找,进行数据的归并或切割;数据装载,此过程需要自动或异常后在人工干预下将清理后数据装载至目标数据模型,支持数据备份和恢复功能;元数据管理,元数据是描述数据的数据,系统使用元数据来描述数据质量对象及其属性7,描述数据清理构件对象及属性和构件的检索方法等属性,此过程伴随系统运行的始终。4 结束语数据是数据仓库系统的血液,数据仓库能否为决策提供有效支持的关键就在数据质量,数据质量建设的成功与否直接决定着数据仓库的应用质量。数据清理就是为了解决数据质量问题,而采取的手动或人工智能的方法进行的清理操作。文章以某电信运营企业数据仓库项目为例,探讨了数据质量问题的相关理论,设计了面向电信服务的质量控制体系,然后针对提出的数据质量问题,设计了数据清理框架三层模式,并采用软件构件的思想,实现了以数据清理为主的ETL工具。参考文献1 W.H.Inmon. Building the Data Warehouse. New York:John Wiley&Sons,1996.2 Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):313.3 Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273281. 4 Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670677.5 Jarke M., Jeusfeld M., Quix C. Architecture and Quality in Data Warehouse: An Extended Repository Approach. Information Systems. 1999, 24(3):229253.6 方幼林, 杨冬青, 唐世渭等. 数据仓库中数据质量控制研究. 计算机工程与应用,2003,13:14.7 管尊友, 冯建华. 一个可扩展的数据质量元模型. 计算机工程,2005,31(8):7476, 226.8 M Hernandez. A Generation of Band Joins and the Merge/Purge ProblemR. Technical Report CUCS200521995, Department of Computer Science, Columbia University,1995.9 LEE M L, LING T W, LOW W L. IntelliClean: A knowledge-based intelligent data clea
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国银杏西洋参胶襄行业发展监测及投资前景展望报告
- 2025至2030年中国纳米四氧化三铁行业市场全景监测及投资策略研究报告
- 2025至2030年中国硝酸钾行业发展潜力预测及投资策略研究报告
- 2025至2030年中国苍蝇拍行业市场全景评估及投资前景展望报告
- 医护知识测试涵盖导尿消毒休息休克热型等内容试卷
- 无限极梦想的力量课件
- 【一年级上册语文统编版(2024)-第五单元阅读】4.四季第一课时课件
- 新能源微电网在能源互联网中的稳定性保障与风险控制报告
- 高中地理世界地理与区域教学教案
- 2025年制冷压缩机行业当前发展现状及增长策略研究报告
- 金属技术监督管理制度JSPC
- ISO14001环境内审检查表
- 国际烟花爆竹市场竞争态势分析
- 垃圾中转站运营管理投标方案
- 终身学习的课件
- 样品不合格分析及改良流程图
- 黄土湿陷性计算模板(自带计算公式)
- 供应商评价表模板
- 云南省安全员A证考试题库及答案
- 病理组织的脱水改
- 安徽万合佳尔生物科技有限公司年产6000吨胍基乙酸、28500吨二甲酸钾、5000吨三甲胺乙内酯及三甲胺乙内酯盐酸盐、15000吨复合制剂项目环境影响报告书
评论
0/150
提交评论