一个可扩展的数据质量元模型.doc_第1页
一个可扩展的数据质量元模型.doc_第2页
一个可扩展的数据质量元模型.doc_第3页
一个可扩展的数据质量元模型.doc_第4页
一个可扩展的数据质量元模型.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一个可扩展的数据质量元模型 收稿日期: 修改日期: 该项目受中国石油天然气集团公司“中国石油数据中心建设”项目的资助.作者简介: 管尊友,硕士研究生,主要研究领域为数据仓库、数据质量管理与控制及信息规划等;冯建华,副教授, 管尊友,冯建华(清华大学计算机科学与技术系,北京100084)摘要对数据质量的研究现状及大型企业的数据质量应用需求进行了研究,指出了数据质量研究中存在的一些问题,总结了大型企业数据质量的特点。基于这些研究并针对大型企业对高质量数据需求的实际,基于数据质量控制体系,提出了一个可扩展的数据质量控制元模型,该元模型是对企业数据质量模型的抽象,由三层组成:核心层、初始层以及扩展层。根据不同的需求,可以对这三个层进行相应的扩充,以实现不同需求在不同层上得到数据质量保证的目的。目前该模型已经应用于大庆石油信息系统,实际应用表明:该数据质量元模型能够为企业提供了一个完整的、可扩充的数据质量控制功能。中文图法分类号:关 键 词:数据质量,质量元模型,质量管理One Extensible Data Quality Meta ModelGUAN Zunyou, FENG Jianhua(Department of computer Science and Technology, Tsinghua University, Beijing,100084)Abstract Data quality status and application requirement of data quality for large-scale enterprise are researched, some issues existed are pointed out, according to these research and high quality data requirement for in large-scale enterprise, an extended data quality control meta model is proposed, this model is an abstract model for enterprise data quality control, which is composed of kernel level, initial level and extensible level. Based on different application requirements, these levels can be extended to satisfy data quality requirement in different level. Now, this architecture model has been applied in information system for Daqing, the practical application shows: this architecture model can provide an integrated and extended function for enterprise data quality control. Keywords Data quality, Quality meta model, Quality management1 前言 大型企业信息化建设中,集中反映在数据的规划,而目前数据规划的建设反映在数据库建设方面,数据库建设是一项基础性工作。企业数据库建设经过了从小到大,从单一部门到全企业数据集成的过程。在数据集成过程中,最突出的问题就是数据质量问题。建立有效的数据质量控制体系是大型企业信息化建设中一个非常重要的工作。影响数据质量的因素很多,既有管理方面的因素,也有技术方面的因素。无论由哪个方面的因素造成的,其结果均表现在数据库中的数据没有达到预期的质量指标。如何定义数据质量指标,并可通过计算判断数据质量指标是否在指定的范围内是数据质量检测的本质,也是进一步进行数据清洗,提高数据质量的依据。本文分析了当前有关数据质量的各种特性,对这些特性进行了抽象,提出了一个可扩展的数据质量元模型。该元模型可以从多个层次上对数据库对象进行约束,应用可以根据实际的需求扩展数据质量指标,并以元数据的方式定义数据质量的度量参数。2 数据质量相关的研究成果和大型企业数据质量特点为了提高数据质量,许多文献1对影响数据质量的因素以及提高数据质量的方法进行了研究。当前主要研究是针对数据仓库中的数据质量问题提出度量数据质量的指标和计算指标的算法,为数据清洗提供依据2。文献3以形式化的方法定义了数据的一致性、正确性、完整性和最小性,而数据质量被定义为这4个指标在信息系统中得到满足的程度。文献4提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量度量指标,用户应该根据应用的需求选择其中一部分。文献5将数据仓库质量根据用户的不同分为四类:设计与管理质量、数据应用质量数据使用质量以及数据质量。每一类适用不同的用户,并定义了不同的质量指标,包括正确性、完整性、一致性等。文献6将数据质量问题分为4类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。通过上述分析,我们认为当前对数据质量的研究主要存在以下几个方面的问题:(1)数据质量定义问题:到目前为止,还没有关于数据质量的精确定义2。数据质量定义的不统一,导致人们对数据质量理解的多样性,难以提出有效的解决方法,因此,建立数据质量控制体系必须明确数据质量的定义。(2)数据质量的标准模型问题:目前还没有形成一个权威性的数据质量标准模型或参考模型。许多数据质量的研究都是针对某一个单一问题展开的,主要是针对系统中比较重要的质量指标,如一致性问题、完整性问题、重复性问题等。4比较系统地研究并提出了质量建模的观点,给出了建模的步骤,但它并没有给出控制数据质量的体系结构模型。(3)没有形成系统化的数据质量评估指标。尽管在数据建模理论中,对参照完整性、一致性等指标的定义已经非常完善和严格,但这些指标只是复杂数据质量指标中的一小部分。可见,从不同的角度对数据质量进行度量,其指标是不同的。存在这些问题的主要原因是:当前的研究大多是针对数据库的某一个或几个方面的质量需求进行的,提出的质量描述属于单一的质量模型,不能构成完整的质量体系。这种单一的质量模型难以满足大型企业对数据质量控制方面的需求。通过多年对大庆油田数据质量问题的研究,我们发现大型企业的数据质量具有如下特点: (1)数据质量是数据内在和外部特性的总和,以此构成其满足给定需求的能力。该定义参照了美国质量管理协会(ASQC)对“质量”的解释。企业数据是企业的重要资产,应该和一般的产品一样,对数据提出质量要求。该定义把数据当作一种产品看待,并以需求为中心定义数据的质量。通过这一定义可以看出:数据质量实际上是某一具体产品的内在特性。(2)数据质量反映在多个方面:数据采集方面的质量、数据传输方面的质量以及数据存储方面的质量。不同业务领域的数据质量是不相同的,在大型企业里,各方面的数据质量问题同时存在。为了反映各个方面的差异,我们将每一方面的数据质量的描述定义一个数据质量模型,所以大型企业的数据质量体系是由一系列数据质量模型组成的。(3)数据质量约束对象是多样的。在每一个数据质量模型中,需要对不同的对象进行质量约束定义。例如,在数据存储方面,数据库中的数据约束是针对所有数据库对象,具体来讲,这些数据库对象包括数据库系统、数据库、数据集、实体、实例、属性、域、类型等,这是一种多层次的划分方式。有些数据对象可以在模式中直接定义,而另外一些可以根据需要在实例中定义。数据库中的数据是结构化的,对非结构化或半结构化的数据,数据对象的组织具有很大的随机性,如XML中,每一个标记和标记的属性都可以看作是一个数据对象,数据对象的组织层次可以是任意层。(4)数据质量对象可以用若干个质量特性描述。我们把一个数据质量特性称为该质量对象的一个质量属性。质量属性是数据属性的扩展,与数据属性不同的是,质量属性描述了对象在数据质量方面的约束,该约束通常需要通过对数据属性的值进行计算,得到数据质量的指标值。例如,一条WHERE规则或一条唯一性规则就属于质量属性。(5)数据质量元素是相对稳定的。数据质量元素是指数据约束的类型,如完整性、一致性等。到目前为止,关于数据质量元素的概念还没有一个统一的定义。但许多系统,包括一些专业领域都在试图定义局部的数据质量元素规范,以形成对数据质量定量或非定量的度量标准。如中国可持续发展信息研究中心定义了专门的空间数据质量模型8,其中将数据质量元素分为定量元素和非定量元素,数据质量定量元素描述数据集质量的定量成分,包括六个方面的内容:完整性、逻辑一致性、位置精度、时间精度、专题精度、用户定义元素。我们把数据质量元素称为质量属性的类型。一个质量属性的定义应是质量元素中的一个。在大庆油田数据质量的研究中,我们定义了一致性、完整性、整体性、深度性、准确性、潜伏性、冗余性等6个数据质量元素。(6)数据质量指标的计算是复杂的。数据质量元素定义的是一种概念,每一个数据质量元素都是需要用定量或定性的指标进行说明,这些指标的计算需要用一定的算法描述。简单的算法可以是用一个约束表达式来描述,如关系数据库中的表与表间的参照完整性,字段值的取值范围等,关系数据库理论对模式上的约束定义已经非常完善,但其它方面的算法则需要进行更深入的研究。(7)数据质量内容的定义是变化的。随着企业业务的发展和计算机技术的更新,数据质量的定义需要经常进行调整。例如,早先对数据冗余性的控制,随着存储器价格的降低,在逐步放宽。随着数字化技术的发展,企业要求对历史资料数字化,这就需要对各种图纸、文档进行扫描存入计算,要求增加工程图像采集质量的定义。可见,大型企业的数据质量非常复杂。质量的多方面性使得单一质量模型满足不了大型企业建立质量体系的需求,必须从更加抽象的层次来描述数据质量。质量内容的变化性要求数据质量模型具有较大的灵活性和可个性化定制,针对专门的数据质量模型进行计算的质量评估软件不能适应这种动态性的需求。解决这一问题的可行方法是从质量元模型的角度出发,将质量模型的描述作为元数据进行定义,在一个质量元模型下,可以定义多个质量模型。数据质量评估软件针对质量元模型,具有很强的通用性。3 数据质量元模型图1 数据质量元模型预定义约束表达式数据质量属性数据质量体系定义函数数据质量元素数据质量对象由.组成由.组成定义属于包含数据质量模型由.组成通过对数据质量的分析研究,并结合中国石油企业大型数据库系统中数据质量问题的研究,提出了一个数据质量元模型,见图。数据质量元模型的目的是为企业的数据质量体系定义提供一个完整的框架。质量元模型的实例是一组质量模型。在元模型下,质量模型是通过元数据进行描述的,质量元数据是质量模型结构的描述,质量模型是质量元数据的实现。数据质量元模型是对数据质量模型的抽象。一个数据质量体系由若干个数据质量模型组成。数据质量模型是对数据质量的抽象,每一个数据质量模型是针对企业的某一个业务主题定义的质量描述,它能满足单一类型业务对数据质量控制的需求。数据从采集到应用的不同环节都需要有不同的质量模型,不同类型的数据(如图象数据和数值型数据)会有不同的质量模型。在一个数据质量模型中,可以定义若干个数据质量对象。从质量角度看,数据质量对象是数据的产生、传输、存储、使用过程中需要约束的对象。一个数据质量对象可能由多个更小的质量对象构成,因此数据质量对象是有层次的。最典型的数据质量对象是数据库对象,如数据库系统、数据库、数据集、实体、实例、属性、域、类型等。数据质量对象不仅满足结构化数据的质量定义需求,还满足半结构化数据的质量定义需求。如XML数据是典型的半结构化数据,其每一个元素可以作为一个对象看待。数据质量属性用来定义数据质量对象的各种质量特性。数据质量属性是数据属性的扩展,描述了对象在数据质量方面的约束,该约束通常需要通过对数据属性的值进行计算,得到数据质量的指标值。例如,一条WHERE规则或一个唯一性规则就是一个质量属性。一个数据质量对象可以定义多个数据质量属性。数据质量元素是一种数据元,是描述数据集质量的定量或非定量的成分,相当于数据属性的数据类型。数据质量属性是数据质量元素在数据质量对象中的具体应用。如“参照完整性”是一个数据质量元素,而数据对象中可以定义一条或多条参照完整性约束规则,每一条规则用一个数据质量属性来定义,这些质量属性具有相同的“类型”,即“参照完整性”。一个数据质量元素可以被多个数据质量属性引用,但一个数据质量属性只能引用一个数据质量元素。数据质量元素是一个企业定义的数据质量基本单元的总和。在许多专业领域的质量控制体系中,通常要把数据质量元素作为行业或企业的标准发布7。根据大庆油田数据质量的具体情况,在质量体系结构模型中,定义了一致性、完整性、整体性、深度性、准确性、潜伏性、唯一性等6个数据质量元素。每一种数据质量元素都有自己专门的质量约束表达式语法。例如,唯一性的约束表达式为:数据属性,数据属性。是多个数据属性的列表,中间用逗号分开,表示这些数据属性的组合值不能重复。针对每一种质量元素,需要提供相应的计算模块来计算相应类型的约束表达式值。约束表达式定义了数据质量属性的具体描述。约束表达式有一套完整的语法规则,通过一组函数对数据的质量指标值进行计算,并用一组逻辑谓词将函数运算和算术运算组成逻辑表达式。每一种质量元素对应的一种约束表达式语法。函数是用来对数据质量指标进行计算的,一个企业建立数据质量控制体系时,可根据企业数据系统提供的能力,预置一组基本的函数,这些函数由数据库产品或现有产品直接提供。如参照完整性计算与唯一性计算,一般的数据库管理系统都提供这一功能。而一些复杂的计算则可以通过组件或服务的形式进行扩展,来满足诸如记录相似重复性计算功能等。数据质量元模型表达了数据质量体系的整体框架。根据数据质量元模型的定义,建立企业数据质量体系时,可以按下面步骤进行:(1) 根据数据质量元模型定义来建立数据质量元数据库。(2) 根据企业整体需求,定义数据质量元素。对每一种数据质量元素,定义相应的质量约束表达式语法。根据业务数据库采用的数据库管理系统的类型,可以定义一组与之一致的标准化的数据质量元素,相应的质量约束表达式语法必须与之相对应,必要时,开发数据质量元素的解释计算模块。(3) 建立企业质量模型,采用面向对象的方法,依据业务主题分析数据质量对象类,确定数据质量属性,并定义相应的约束表达式。(4) 开发数据质量审计工具,该工具将根据数据质量元数据对业务数据进行计算,检查其合法性,生成审计报告。根据该框架建立企业的数据质量模型,数据质量模型以元数据的形式存入元模型下,因此可以建立数据质量元数据库。大型企业通过建立质量元数据库,可以在企业二级业务部门之间实现数据质量控制共享,建立标准化的数据质量控制体系。4.质量元模型的扩展性分析质量元模型的建立为企业建立数据质量体系提供了一个框架,为质量模型的建模提供了一个规范,就象数据字典结构为数据模型的描述提供规范一样。质量模型的建模实际上就是向元模型中填入元数据。从元模型的定义可知,数据质量元素和函数是预定义的,即在质量建模之前,要先建立质量元素和函数描述,同时提供函数的实现并定义对应约束表达式的语法。如果数据质量是针对数据库系统的,许多质量元素的约束表达式语法可以直接使用底层数据库产品定义的语法。如关系型数据库产品的许多语法直接采用ISO SQL 92或ISO SQL 93标准。这样做的好处是质量约束的计算可直接由底层DBMS完成,而不必开发专用的计算模块。依据数据质量体系的建立顺序,首先确定框架,即定义元模型,其次确定预定义的内容。最后定义数据质量模型。这一顺序实际上确定了数据质量体系的扩展层,该扩展层包括三层:(1) 核心层:由数据质量体系框架组成,该框架包括一些定义数据质量的基本原则,因此核心层即是元模型及相关规范。(2) 初始层:根据企业的总体需求,在框架中预先定义一些元素,如一些基本的质量对象和一些基本的数据质量元素。(3) 扩展层:在初始层的基础上,根据实际应用的需求,建立质量模型,定义一些特殊的对象、质量元素和指标计算算法。核心层适用于不同的企业,初始层适用于某一个具体的企业,扩展层适用于具体的应用。从核心层到扩展层实现上是从通用层到专用层的扩展过程。在企业质量体系的实现运作过程中,可以建立多层次的扩展,实现多级定制。5.结束语与未来的工作数据质量元模型是对数据质量的高度抽象,通过建立数据质量、数据质量模型、数据质量元模型三级抽象层次以及建立核心层、初始层、扩展层三级质量模型扩展层,可以为企业提供一个完整的数据质量控制体系框架。该元模型不仅用于关系数据库的质量定义,还适用于基于XML类型的半结构化数据质量的定义。目前,体系结构模型已在我国最大的石油企业大庆油田中得到应用,以可扩展的数据质量元模型为基础,建立了基于元数据的数据质量控制体系。下一步,我们将围绕这一质量控制体系结构模型,进行更细致的研究工作。重点研究并开发可视化的数据质量建模工具。为大庆石油企业信息化系统以及高层决策提供可靠的、高质量的数据。参 考 文 献1 郭志懋, 周傲英. 数据质量和数据清洗研究综述. 软件学报,2002,13(11),:20762082.2 阿不都克里木, 高永强, 迟忠先. 数据仓库质量及其应用. 计算机工程, 2004,28(4):2830.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论