版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
省级BI规范-数据质量管理系统建设方案实用文档(实用文档,可以直接使用,可编辑优秀版资料,欢迎下载)
省级BI规范-数据质量管理系统建设方案实用文档(实用文档,可以直接使用,可编辑优秀版资料,欢迎下载)
中国移动通信企业标准QB-X-001-2006
中国移动通信企业标准QB-X-001-2006
中国移动省级经营分析系统
中国移动省级经营分析系统数据质量管理系统建设方案(v1.5)
发布2006版本号:1.52006发布2006版本号:1.52006实施中国移动通信发布
目录TOC\o”1-4”\h\z\u1。概述51。1。背景51.2。适用范围51。3。引用标准51.4。起草单位51。5。解释权51.6。符号和缩略语61。7。术语和定义62。总体说明82。1。数据质量含义82。2。主要内容82.3.系统建设目标92.4.实施建议93.数据质量管理需求113。1.数据质量问题113.2。系统实施定位154.系统架构164。1.系统体系164。2.源系统层164.3.存储层174。3.1。元数据存储174。3.1。1.业务元数据174.3.1.2。技术元数据184.3。1。3.管理元数据224。3。2.质量稽核过程信息224。4。功能层234.4.1.元数据支撑功能234.4。1。1.元数据维护234.4.1.2.同步检查244。4。1。3.模板化导入/导出254。4。1.4。实体查询264。4。1。5.过程查询264。4.1。6.实体活力分析264。4。1.7.过程追溯264.4.1.8.过程追踪274.4.2。质量检查基本功能274.4。2.1.数据稽核274。4.2。2.处理过程检查304.4。2。3.处理环境检查304.4.2。4。稽核配置管理314.4.3.辅助功能314.4.3.1。告警处理314.4。3.2。问题管理314。4。3。3。数据质量知识库管理324.4.3。4.系统管理334。5.应用层334.5。1。信息地图334。5.2。数据质量评估344.5.3。接口数据异常分析364.5.4.指标一致性分析404。5.5。需求变更影响评估434.5。6.项目管理支撑应用455。数据质量管理流程475.1。概述475。2.管理机制475.2。1。组织机构职责475。2.1.1.角色与职责475.2.2.相关外部组织505。3.质量控制流程505.3.1.需求变更控制流程515。3。2.数据质量问题处理流程525.3.3。指标口径及业务规则问题处理流程545.3.4。元数据变更维护流程575.3.5.错误数据维护流程585.4.质量检查605.4.1。管理流程检查605。4。2.元数据质量检查615。4.2。1.及时性检查615。4。2.2.完整性检查625.4.2。3.准确性检查626.系统管理636。1。概述636。2.系统安全管理646.2。1。系统的监控与告警646。2.1.1。监控的对象646。2。1。2。监控的要求646.2.1.3.监控的实施656.2.2.系统登录认证管理656.2.2。1。帐户管理656.2.2.2。登录管理666。2.3.系统审计与日志管理666。2。3.1。操作日志管理666。2。3.2。系统日志管理676.2。4。系统备份与恢复管理676.2。4。1.数据备份686.2。4.2。数据恢复696.3.系统版本管理706.4.系统访问控制管理716。4.1.用户管理716.4。2。角色管理726。4.3.权限管理73
概述背景中国移动省级经营分析系统(以下简称为省级经营分析系统)经过多年建设,已经初步完成数据整合工作。随着省级经营分析系统价值的不断显现与稳步提升,以及IT系统安全管理、风险内部控制等重大管理举措的实施,各省公司对省级经营分析系统如何保障数据质量提出了更高要求。为更好地及时分析、查找、评估和解决省级经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,需要构建一套经营分析系统内部控制的管理体系,为数据质量管理工作提供强有力的系统支撑。
适用范围本方案适用于中国移动省级经营分析系统数据质量管理系统的建设.引用标准《中国移动经营分析系统元数据管理规范V1。0》《中国移动省级经营分析系统数据质量控制指导意见》起草单位本方案由中国移动通信负责起草。解释权本方案的增补、修订及解释权属中国移动通信.符号和缩略语缩写英文描述中文描述BOSSBusiness&OperationSupportSystem业务运营支撑系统ODSOperationalDataStore操作型数据存储CORBACommonObjectRequestBrokerArchitecture公共对象请求代理体系结构CORBAIDLCORBAInterfaceDefinitionLanguageCORBA接口定义语言CWMCommonWarehouseMetamodel公共仓库元模型ETLExtraction&Transformation&Loading抽取、转换和加载JMIJavaMetadataInterfaceJava元数据接口OLAPOn—lineAnalysisProcess在线分析处理XMIXMLMetadataInterchangeXML元数据交换
术语和定义序号名词解释1元数据是描述经营分析系统中数据的数据,为数据质量管理等业务功能提供信息支撑。2技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、ETL、数据仓库和数据集市、OLAP、一经接口等子系统的数据特征。3业务元数据业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信息,供业务人员使用。4管理元数据管理元数据主要是指经营分析系统日常建设过程中,涉及开发、运维等管理流程的基本信息。5CWMCWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。6信息地图信息地图是在元数据基本功能基础上对经营分析基础元数据信息的全局、多视角的展现。总体说明数据质量含义在不同时期,经营分析系统对数据质量有不同的概念和标准,早期对数据质量的标准基本上是以提高数据准确性为出发点,但随着系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等方面,这些内容也属于数据质量的范畴。根据中国移动省级经营分析系统前期的建设经验,经营分析系统关注的数据质量问题主要包括以下几个方面内容:数据质量的六大基本要素是否满足,所谓六大基本要素是指:完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;唯一性:指主键唯一和候选键唯一两个方面;一致性:指统一的数据来源、冗余存储和统一的数据口径;精确度:指计量误差、度量单位等方面的精确度;合法性:主要包括格式、类型、域值和业务规则的有效性;及时性:指数据刷新、修改和提取等的及时性和快速性。如何从用户视角衡量数据质量,重视用户对数据的满意程度;如何通过建立有效的数据质量管理体系保障和提升数据的价值。主要内容本方案贯穿了省级经营分析系统数据质量管理系统建设的全过程。描述了经营分析系统数据质量管理需求及范围,描述了数据质量管理体系总体应用框架,明确了数据质量管理系统中的元数据功能,确定了数据质量管理功能和流程。本方案的附件《附件1省级经营分析系统元数据管理功能实现》同时给出了元数据管理相关建设步骤的参考,包括省级元数据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据管理工具选型参考标准等,为元数据管理功能的建设提供参考依据。
系统建设目标为解决数据质量管理问题,制定了《省级经营分析系统数据质量管理系统建设方案》(以下简称《方案》),指导和规范各省经营分析系统数据质量管理系统的建设和工程实施。本方案借鉴了先期元数据试点省份的建设经验,同时参考了《经营分析系统元数据管理规范V1。0》和OMG组织的CWM国际标准等文献,规划重点实现以下建设目标:建立贯穿经营分析系统各环节的数据质量保证机制,完善系统审计、稽核功能,为分析应用结果提供数据质量保障:对纳入系统管理的数据实体和数据处理过程建立有效的监控机制,提供全面及时的数据告警,控制预防错误范围的扩大;与源系统数据质量相互验证,分析源系统事件,监控业务数据合理性,对源系统的部分数据起到一定的检查作用;将数据质量管理落实到各环节的可检查项中,实现流程化管理,提供常见问题的自动处理方法;建设数据质量管理体系中符合CWM标准的元数据管理平台,为全网经营分析数据质量管理体系的建设、扩充和数据交换打下基础;逐步丰富数据质量问题知识库,实现知识共享.实施建议本方案是省级经营分析系统数据质量管理系统规划和建设的基本指导,各省在实施过程中,可根据实际需要以本方案为基础进行扩充与细化.建议如下:在建立数据质量管理系统后,需要建立配套的管理机制,确保有专人依照流程对数据质量问题进行管理和维护;元数据管理是本次经营分析数据质量管理系统的重要功能,是将来实现元数据交换的基础。元数据提供了对数据本身的描述,是关于数据的数据,主要包括技术元数据、业务元数据和管理元数据。各省在遵循CWM标准的前提下,可以根据自身实际情况,决定自行建设还是采购元数据管理工具;各省可以根据自身业务情况扩展本实施方案中的元数据存储逻辑模型,但必须遵循CWM元模型的扩展规则;本方案中列举的各类应用,如信息地图、数据质量评估、接口数据异常分析、指标一致性分析、需求变更影响分析、项目管理支撑等应用是本期建设重点关注的内容,各省可以根据实际情况增加其它相关应用。
数据质量管理需求数据质量问题经营分析系统数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。如图3-1所示。图3-1信息问题域
信息问题域图3—2信息问题域信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题.产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。元数据描述及理解错误中的相关元数据主要包括:业务元数据—-主要包括业务描述、业务规则、业务术语、业务指标口径等。技术元数据——主要包括接口规范、执行顺序、依赖关系、ETL转换、数据建模和工具等方面的内容.数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。技术问题域图3-3技术问题域
技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷.数据质量问题的产生环节主要包括数据创建、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容:1、数据创建质量问题主要包括业务系统话单延迟入库、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。2、数据获取质量问题主要包括采集点不正确、取数时点不正确以及接口数据在获取过程中失真。如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等.3、数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。4、数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。5、数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理.6、数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。流程问题域图3—4流程问题域
流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节:1、创建流程质量问题主要指操作员数据录入时缺乏审核流程;2、传递流程质量问题主要指通信流程沟通不畅;3、装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;4、使用流程质量问题主要指数据使用流程缺乏流程管理;5、维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;6、稽核流程质量问题主要指缺乏数据错误反馈流程。管理问题域
图3-4管理问题域管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、培训和奖励等方面的措施不当导致的管理缺失。人员管理所产生的质量问题主要指:(1)针对省级数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责;(2)没有明确的数据质量目标;(3)经营分析系统中的数据质量问题的优先级不够;(4)集团公司缺少管理数据质量的管理办法等;人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;通过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流程和技术三个方面的数据质量问题相对集中和可控,是本系统实施的重点。对于管理,本方案侧重于提供对开发、运维管理流程方面的支撑,并对管理元数据及其管理范围进行了明确定义,具体参见第4章管理元数据的相关定义。系统实施定位在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人员的经验,问题处理效率和正确性难以保证。因此有必要引入元数据的相关功能,提供对数据模型、指标口径及数据处理过程等元数据信息的灵活展现。本方案介绍如何在基于元数据管理的基础上建立数据质量管理系统,并通过制定相关管理流程来保证经营分析数据质量的日常管理,管理流程部分的内容参见第5章。数据质量管理系统的核心是元数据管理支撑功能的实施。根据系统定位,数据质量管理系统与元数据管理支撑功能之间的关系阐述如下:数据质量管理包含元数据管理元数据管理功能为数据质量管理系统提供支撑
系统架构系统体系数据质量管理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构如图4—1所示:图4—1数据质量管理系统体系结构源系统层源系统层定义了数据质量管理系统管理数据的范围,主要包括源系统接口数据、ETL、数据仓库、OLAP、前端应用等.存储层存储层中信息主要包括两个部分,一部分是存储在元数据库中的各类元数据,包括技术元数据、业务元数据和管理元数据,为数据质量管理系统提供信息基础;另一部分是数据质量检查功能从经营分析系统提取的有关系统运行状况的信息及质量稽核过程信息,分述如下:元数据存储元数据是数据质量管理系统实现的基础,是描述和控制经营分析系统中数据的数据,对上层功能提供信息支撑。元数据库中的数据主要分为三类:技术元数据、业务元数据和管理元数据。业务元数据本部分将业务元数据划分为业务规则、业务描述、业务指标和业务术语四个部分,其中业务规则与业务术语、业务描述共同完成对业务相关信息的事实表述,数据质量管理系统通过对这些业务元数据的映射,可以得到对应的数据质量检查规则。各省公司可以根据自身业务需求对本方案附件一中提出的业务元数据主题进行扩充,扩充的元数据主题必须遵循CWM元数据扩展规则。业务规则业务规则是一种描述信息,定义/约束了部分业务逻辑,可以用于对业务逻辑结构进行验证,用于控制或者影响业务逻辑的行为。业务描述提供对移动各项主要业务的统一描述,这部分内容应与仓库模型的主题信息、相关业务的统计指标建立关联,描述内容包括:业务基本描述业务管理规定,包括业务组织、业务流程、资费标准业务统计业务描述是一个完整的描述,通过动词来连接术语使其成为一个有效的声明,例如:开通具体业务的客户必须至少拥有一个有效的账户。业务指标业务指标表示与业务指标解释、追踪等相关信息,面向业务分析人员。指标系统主题需要提取的元数据主要包括指标标识、指标名称、描述信息、建立时间、所属部门、创建者、类别、数据来源等。业务术语是一个名词或者名词短语,是对一种共识的定义,例如:一个有效的账户被定义为此账户有余额且其有效期未过。技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、OLAP、一经接口等子系统的数据特征.根据经营分析系统的特点和经营分析系统数据质量管理的具体要求,本部分将技术元数据分为数据源接口、ETL过程、数据仓库存储、经营分析应用层、运行环境信息、质量管理过程6个方面,对各层中所需包含的实体进行说明.数据源接口经营分析系统的数据来源主要是外部的操作型应用系统,经营分析系统管理的数据源接口元数据主要是关于BOSS、客服、网管等外部系统与经营分析系统间接口的相关信息,包括:运行环境相关信息主要包含相关系统的主机信息、操作系统信息、数据库信息等;数据接口定义信息描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、实体内部列定义、关键字、索引定义等)、接口数据实体间关系。ETL过程ETL过程中的元数据管理内容主要是ETL规则,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等,主要内容有:接口抽取描述数据抽取过程的相关信息,针对具体接口,主要包含:接口抽取条件:接口抽取的前置条件和数据条件;接口抽取周期:日、月等;接口抽取时间:周期内的抽取时间;接口抽取方法:增量、全量等;数据清洗、转换、装载描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等。数据仓库存储数据仓库存储涉及ODS、仓库底层数据、集市数据等基本信息,以及数据流处理逻辑相关信息的提取,具体包括:数据仓库逻辑模型逻辑数据模型对任何企业元数据来说都是相当重要的,其实现方式主要是将建模工具(例如:ERWIN)中的模型信息纳入到元数据管理中.数据存储结构信息这部分内容相对于数据仓库逻辑模型而言,反映需纳入管理实体的物理信息.数据仓库内部的结构数据管理内容繁杂,主要有ODS和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码描述、数据库目录以及文件规划等信息。其中,数据库目录包括需纳入管理的表、关系以及索引和视图的定义等。数据流及其处理逻辑这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程序模块接口等系统全局性的信息。数据流向和数据处理逻辑信息是进行系统开发、维护、升级前和数据变更前的影响分析的重要信息源。经营分析应用层基于数据仓库基础上,经营分析系统提供了KPI、OLAP、综合报表、数据挖掘、一经接口等应用,经营分析应用层元数据主要指这些上层应用的相关信息,主要包括:指标技术定义信息包含指标定义、对应维度定义、指标统计口径、指标关系等信息;多维数据信息主要指对多维数据相关信息的提取,主要包括:多维主题基本信息:包含主题与指标、维度等的关系;多维数据库信息:由于主流的多维数据库都支持CWM标准,针对各省的建设情况,可以考虑选用相关元数据工具进行相关信息的提取;一级经营分析接口作为数据分发过程,与ETL处理过程对应,主要包括一级经营分析接口的定义、标准代码定义、数据转换规则以及其它涉及一经接口数据生成上传的元数据信息;数据挖掘信息运行环境信息描述经营分析系统运行环境的相关信息,主要有:任务调度信息经营分析系统处理涉及多个环节的大量任务,通常由一个统一的任务调度系统集中控制这些任务的执行,获取这些任务的相关信息对于了解和优化系统至关重要.主要提取信息有:任务基本信息、任务依赖信息、任务执行信息等。系统运行环境信息包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录信息、数据库信息、表空间信息等。质量管理过程质量管理过程中的元数据主要是根据数据质量管理的要求,为支撑数据质量检查的相关功能,从监控经营分析数据及系统运行情况角度,抽取出的数据质量检查方法和标准。质量管理过程中的元数据的规则有两个来源:一个来源是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什么周期内什么时间段内完成才正常,主机资源、表空间、文件系统的使用应该控制在什么样的阈值下系统处理才不会有问题;另一个来源是业务规则、指标口径等业务元数据,通常会把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指标合理性的度量标准,则会根据业务发展情况而不断变化。主要包括以下内容:规则库是数据质量检查的具体角度,主要包括经营分析数据的约束规则和合理性规则,以及检查数据处理过程及处理环境是否正常的规则等。规则分为三类:约束规则、计算规则和条件规则:约束规则描述了一种无条件必须为真或者假的强制规则。这种约束可以是结构化的(structural)约束,也可以是行为的(behavioral)约束.结构化的约束:当创建术语或者改变术语之间的关系的时候,结构化的约束能够保证术语的完整性;行为的约束:典型地被定义为“前置条件”和“后置条件”。只有符合“前置条件"的情况下操作才能够正确地执行;“后置条件”保证了操作结果的正确性,“后置条件”表示该行为是否满足了其预期的结果。例如:客户在开户时余额为0,在能够使用移动业务之前,必须先充值,这里前置条件就是必须先充值,而后置条件是指所办理的业务是否成功办理;计算规则反映一种计算的关系,例如:月末余额=上月末余额+本月充值金额-本月消费金额;条件规则反映当一定条件成立时,触发相关的事件或事务,例如:预付费客户的帐户余额小于0,则对其实施停机操作。
算法库主要是指为了支撑上述检查规则所需要的基本算法的集合,结合具体的规则由数据质量检查相关功能调用。度量信息度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是数据质量管理系统技术元数据的一个重要组成部分。度量信息是经验的积累,需要在数据质量不断的建设过程中逐步精确化,随着衡量标准的不断细化和精确,经营分析系统数据质量也会不断提高。管理元数据管理元数据主要是指经营分析日常建设过程中,涉及开发、运维管理各方面的基本信息,本方案明确要求对管理元数据进行存储,在此基础上对系统需求开发和日常运维管理流程提供IT化支撑,从管理流程角度对经营分析数据质量提供保证。管理元数据主要包括:管理流程定义指经营分析需求开发、运维各管理流程及其具体步骤、步骤输入输出和参与角色的描述;角色及职责定义指参与经营分析需求开发、运维各管理流程的角色及其具体承担职责的描述;人员组织信息及工作内容分配指需求开发和系统运维过程中各参与人员承担的角色及具体负责的工作内容描述,如具体某个需求开发由谁牵头负责,ETL某个加载转换过程由谁负责维护等系统访问情况信息。
以上信息各省可以根据各自的管理流程情况,制定相关模板,进行手工整理。质量稽核过程信息是质量检查基本功能执行过程中产生的中间信息,主要描述系统运行状况的信息,包括数据、指标的周期取值,处理过程的运行情况,处理环境等各种度量数据。如处理的数据量,表空间等是否超过阈值等。数据质量管理系统根据预定义的规则、算法和度量等数据质量元数据信息,获取系统的数据质量稽核过程信息。功能层功能层提供了数据质量管理系统所能提供的基本功能,它为前端的应用提供了基本的功能支撑。主要包括元数据支撑功能、质量检查功能及辅助功能三个基本功能域,具体内容如下:元数据支撑功能作为数据质量管理系统的基本支撑,方便用户对系统的理解,并在系统数据质量出现问题时,便于问题的定位。主要包括:元数据维护完成对元数据的增加、删除、修改等基本操作,另外,还应支持实体、实体间关系的建模,数据处理过程的描述等功能。对于元数据的增量维护,要求能保留历史的版本信息。元数据的维护操作是原子操作,这些原子操作的实现需要借助于元数据管理平台提供的JMI接口或者CORBAIDL接口来完成。在实施元数据维护操作的过程中,需要对这部分操作的过程进行一定的约束和限制。元数据定义为如下的4种状态:审核状态对于需要进行维护的元数据,首先进入审核状态,从而等待审核人员
的核查,确定该元数据是否需要进行修改;
公示状态审核通过后,进入公示状态,即处于对元数据定义征求意见的状态,没有最后定稿,公示状态有一定的期限要求;发布状态公示状态期限的限制到期后,根据在公示状态期间回馈的意见,给出元数据维护的准确的方案,进入发布状态;维护状态用户提交修改元数据请求后,相关元数据进入维护状态,对相关元数据的维护需要保留其历史版本信息。同步检查主要是指对于数据质量管理系统中抽取的元数据,定期从经营分析系统中抽取,并与元数据库的信息比较,及时发现经营分析系统的应用变更,保证元数据的及时同步更新.从经营分析系统中抽取元数据,主要分为两类:自动的元数据抽取和人工抽取。因此,有如下两类同步检查方法:自动同步检查对于需要检查的元数据,利用CWM模型中提供的CORBAIDL接口对数据质量管理系统中的元数据进行直接查询访问.然后,利用从这个元数据对应的源系统中,利用提供的接口直接抽取出相应的元数据,然后进行比较,从而确定相应的元数据是否保持了同步;人工同步检查数据质量管理系统中的元数据可以利用平台提供的自定义函数进行直接访问,但是,源系统中对应的元数据往往是借助人工的方式导入的,无法自动抽取出来实施同步检查。因此,需要人工在源系统中进行比较,确定是否保持一致。
同步检查的过程可以描述如下:同步检查时机同步检查时机分为如下的两类:实时同步检查能够适用于实时同步检查的元数据,指那些可以自动抽取的元数据。触发检查的时机是源系统中的元数据发生了变更或者是数据质量管理系统中的元数据发生了改变。定期同步检查适用于定期同步检查的元数据,主要包含如下的几种情况:当用户手工修改源数据系统或者是数据质量管理系统的元数据时,则需要对元数据进行同步检查;对于整个数据质量管理系统而言,需要定义一个周期(1天或者1周等),从而进行元数据同步检查;同步检查度量元数据同步检查主要包含如下几个方面:及时性:指定类型的元数据在某一抽取检查周期内按一定时间要求抽取的元数据项和应抽取项的比率;完整性:指定类型的元数据在某一抽取检查周期内抽取的元数据项和应抽取项的比率;正确性:指定类型的元数据在某一抽取检查周期内抽取比对无误的元数据项和应抽取项的比率;具体内容参见元数据质量检查的相关描述。同步检查过程在同步检查发现差异时,原则上不能直接修改元数据存储,而是给出各类元数据的差异报告,并由数据质量管理员确认后,利用元数据维护工具进行元数据的更新.可以参考第五部分的数据质量控制流程。
模板化导入/导出是对元数据自动提取的一个补充。为非结构化无法自动抽取的元数据的批量导入提供了一个渠道。通常采用预定义模板格式的元数据描述文档,整理出元数据基本信息文档,通过该功能导入系统,并自动转化成元数据存储;同样也支持把元数据信息导出到预定义格式的文档中,并提供下载,方便交流。对于不满足CWM规范的元数据(如大部分指标数据等),其通常需要借助XMI来定义相应的模板。该模板满足CWM规范,可以利用编制的相应程序进行这部分元数据的导入和导出.采用XMI开发元数据模板,将原有的Word、Excel文件中元数据信息转换为格式固定的XMI文件;批量将格式固定的XMI文件导入数据质量管理平台。实体查询指对系统中的数据实体基本信息的查询功能,通过该功能可以查询数据库表、维表、指标及其它纳入管理实体的基本信息,查询的信息按处理的层次及业务主题进行组织,实体查询返回实体及其所属的相关信息.实体查询要求能支持对历史版本信息的查询,以了解具体实体的历史变更情况。过程查询是对一个具体的数据转换、汇总等处理过程,查询其具体用途、参与的输入、输出实体等详细信息,从而帮助对数据处理过程的理解。过程查询要求能支持对历史版本信息的查询,以了解处理过程的历史变更情况。在CWM规范当中,有专门的仓库过程(WarehouseProcess)以及转换(Transformation)等过程实体,过程查询可以直接返回过程本身的详细信息。过程查询还可以基于过程实体本身包含的关联信息的基础上,得到关联的相关实体信息。实体活力分析实体活力分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,从而形成一张关系和所参与数据处理过程的网络,进一步可以了解该实体的重要程度.该功能可以用来支撑需求影响评估的应用。在实体查询和过程查询的支持下,实体的活力分析可以得到有效的实现。在CWM模型中的每个实体当中,可以有一个单独的对象(或者类)函数,它可以在实体关联信息的支持下,返回该实体所关联的所有实体和参与的所有过程。过程追溯是指从某一实体出发,往回追溯其处理过程,直到经营分析的数据输入的源头,也就是源系统接口数据。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的可能是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成处理的过程。除了数据接口实体由源系统提供,作为经营分析系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程,数据追溯正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生了什么样的输出。实现过程追溯,首先,对于任何输入的实体,首先可以调用该实体的过程查询功能,查询得到该实体的所有的前驱实体,然后过程调用返回若干实体。然后再以返回的每个实体递归的执行上述过程.结束的条件所有实体到达数据源的接口或者是实体没有相应的前驱实体。过程追踪是指从某一数据处理过程出发,检查依赖其执行完成或者其依赖的的其它处理过程,从系统作业执行角度,反映数据处理过程之间的相互关系。过程追踪是过程追溯的逆过程,具有类似的技术实现和过程描述,这里不再重复。质量检查基本功能作为数据质量管理系统的基本功能,及时发现系统数据质量问题,主要包括数据稽核,处理过程检查和处理过程监控等.数据稽核数据稽核是数据质量检查的基本功能,是根据预先配置的规则、算法和质量检查度量,对数据的准确性、合理性等多角度的检查,以及时发现问题。根据省级经营分析系统的特点,数据稽核包含以下内容:接口数据检查接口数据是经营分析系统数据的源头,接口数据质量问题的改进是经营分析系统数据达到较高的数据质量的最基本要求。接口数据质量管理主要通过ETL处理的日志记录,对接口的数据质量进行评估。其中,对于文件接口的数据,主要从接口的完整性、正确性及合理性等方面进行检查,系统根据接收文件的时间、数据量、入库是否异常等角度进行分析.具体功能要求如下,主要包含以下方面:1、文件传送完整率2、文件记录合法率3、文件传送及时率文件加载正确率关于这四个方面的具体定义参见《中国移动省级经营分析系统数据质量控制指导意见》.仓库数据检查仓库数据检查从仓库模型约束、实体属性、数据实体关系、数据实体表述业务特征等角度,根据预定以规则,检查数据合理性,及早发现异常,保证仓库对分析、报表等所提供数据的可用性与正确性.主要包括以下方面的内容:1、实体主键取值合法性2、实体属性的完整率3、实体关键属性的完整率4、外键取值合法率属性合法率关于这五个方面的具体定义参见《中国移动省级经营分析系统数据质量控制指导意见》.关键指标稽核经营分析系统需要进行指标检查的指标主要分布在经营分析系统的KPI、OLAP、报表、一经接口等分析应用中。目前系统主要关注的指标分类如下:客户分析类指标;业务量类指标;收入类指标;大客户类指标;合作服务方类指标;市场竞争类指标;服务类指标。主要的检查方法分为以下几类:数值检查定义主要是通过对单个指标值的监控来发现数据的异常、突变等情况。检查原理通过对指标与阈值上下限的比较来进行检查。适用范围主要适用变化趋势平稳的业务关键指标,对于波动变化较大的业务数据,不建议采用此方法检查.波动检查定义是通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况。对于系统内的指标,分为月指标和日指标。其中,月指标支持与上月比较,日指标可以与前日、上周、上月进行波动比较。检查原理通过对指标不同周期之间的增减幅度与阈值范围上下限的比较来进行检查。阈值范围上下限是一个数值区间,一般在—1到1之间取值。适用范围主要关注的业务发展指标.扩展检查定义是通过对两个指标(也可以是一个指标的两个周期)按某几个维度展开后的增减幅度来发现数据的波动、变化情况。该检查的两个指标分别命名为左指标和右指标,即第一个选择的为左指标,后选的为右指标。检查原理通过对左右指标不同维度切面的增减幅度与阈值范围上下限的比较来进行检查.阈值范围上下限是一个数值区间,一般在-1到1之间取值。适用范围需要进行维度细分检查的指标,如检查某项业务在省内各地市发展的一致性,相关用户数和收入是否同增同减等。比较检查定义是通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。在这个简单四则运算中,可以带入常量运算,支持括号。检查原理左比较项=(〉,〉=,〈,<=,〈>)右比较项定义需要进行相关性检查的指标。
处理过程检查处理过程检查是指根据预先配置的规则和质量检查度量,对数据处理过程的检查稽核.本期方案重点关注处理过程的及时性,即根据预先设定的时间范围,从经营分析系统各数据处理环节进行的处理效率角度进行检查,得出处理超出要求时间范围的接口及其具体的处理环节。处理环节包括接口数据的抽取、传输、清洗转换、加载,集市数据汇总生成,应用展现等。处理环境检查处理环境检查是指根据预先配置的规则和质量检查度量,对经营分析系统处理环境的检查,以保证系统资源利用和环境状况始终在合理的范围内,主要包括表空间监控、文件系统监控、处理通道、处理目录、系统资源情况以及源系统事件等检查。稽核配置管理稽核配置管理主要是对上述质量检查基本功能所用到的规则、算法及度量标准进行配置管理。应支持不同的维护人员关注角度不同,提供度量信息的个性化配置。辅助功能辅助功能是指一些数据质量管理流程上的支撑,主要包括告警处理、问题管理、知识库管理以及系统管理等组成。告警处理告警功能用来对数据质量的各类问题进行自动管理、实时监控与及时通知,是用来进行经营分析系统数据质量管理的重要手段和方法。告警处理包括告警定义、告警生成与告警提示等功能.告警定义用户通过系统提供的界面,可以定义相关告警内容,如:告警名称、告警描述、告警所涉及人员、告警发布方法、告警重要程度、告警所涉及数据、告警计算规则、告警阀值等内容。告警生成告警生成是指结合预定义稽核配置对所采集信息进行分析,得出异常情况,生成告警。告警提示系统按照实现所定义的告警提示方式与时间设定自动提示的与该告警相关的各类人员。问题管理问题管理是对数据质量相关问题处理的一种IT化支撑功能,在发现问题、处理问题的过程中,可以通过问题报告的形式登记问题、指派处理人员,并提交问题处理情况,体现流程化的管理.问题发现数据质量的问题可以来自两种情况,第一种是人工报告发现的问题,第二种是通过告警等其他辅助手段发现的各类数据质量问题。人工报告发现的问题,由问题的发现人负责将问题的名称、描述、类型等关键因素录入到问题管理模块中进行问题触发与发现。通过在告警等环节设置问题发现程序,预先设定一定的事件触发条件和规则,发现程序一旦侦测到数据存在的异常并符合问题的触发条件,则产生一个数据质量问题。无论是人工报告的问题,还是监视程序自动捕获的问题,都通过系统将该问题事件发送到问题列表,等待管理人员进行下一步处理。问题发布由数据质量问题的管理人员进行对问题的确认和核实,并将其发布至与该问题相关人员。问题处理与跟踪在某一问题由该问题的负责人员进行初步的处理后,将处理意见、时间、期望的改正结论等相关内容,录入系统,在不同的问题处理阶段需对该问题的处理状态进行更新。对该问题已授权的用户可以查询到问题的处理意见和处理步骤,及当前最新的处理状态。问题解决问题的负责人可以随时关闭问题,关闭问题时需填写问题总结报告.问题关闭后,就进入只读状态,不能再进行任何反馈或者回复操作。数据质量知识库管理该功能提供对常见数据质量问题的现象、原因、处理办法等内容的经验总结,并形成知识库,便于后续相类似问题的解决和系统维护。知识积累在任何的数据质量问题发布、处理、解决后需对该问题的内容和总结报告以知识库的形式进行积累和存储,并以关键字的形式进行知识的索引管理.知识使用知识的使用是指维护人员在发现数据质量问题时,可以通过输入关键字的方式查找之前发生过的类似问题的处理办法。以达到知识重用的目的。系统管理系统管理是指对数据质量管理系统所进行的一系列管理,具体参见第6章.应用层在数据质量管理系统提供的三大功能域的基本功能支撑下,应用层面向数据质量管理的实际问题提供应用解决方案,主要包括信息地图、数据质量评估、接口数据异常分析、指标一致性分析、需求变更影响分析、项目管理支撑应用等.信息地图信息地图是在元数据基本功能基础上对经营分析系统基础元数据信息的全局、多视角的展现。该应用针对不同的使用角色应有不同的视角展现其关注的元数据,业务人员关注指标口径、业务规则等业务元数据。信息地图的展现应支持以下要求:数据实体展现视图:按照经营分析系统分析处理的各个环节,分层组织和展现数据实体,层次划分包括源系统接口数据实体、仓库数据实体、指标实体等;数据处理过程展现视图:支持从经营分析系统处理过程角度的视图展现,展现不同层次实体间的加工处理过程;指标视图:支持对指标业务口径及统计过程的展现,指标按使用部门和应用主题进行分类组织;支持不同展现视图间的灵活跳转。信息地图的展示应满足如下要求:角色分类系统中的元数据信息按照不同的角色组织和分类,不同的角色访问不同的元数据内容。元数据分类不同人员关心不同类型的元数据,包括业务元数据、技术元数据和管理元数据.指标实行统一管理、统一查询和统一维护将现有经营分析不同功能模块下实现的指标,实现统一查询,统一维护管理,满足:可以集中查询不同模块下的指标定义、指标计算规则,详细信息;提供指标比较分析,对歧义指标进行直观的不同规则的理解;为今后指标统一、规则定义提供信息管理平台;数据质量评估数据质量评估是对经营分析系统数据质量状况的一个全面展现,以便于经营分析系统运维人员从各个角度了解系统目前的数据质量状况,发现问题则进行告警,该应用是接口数据异常分析、指标一致性分析等具体数据质量问题解决应用的基础。数据质量评估应用结构如图4-2所示:图4—2数据质量评估应用结构图数据质量评估应支持以下要求:静态数据质量评估:分层展现经营分析系统处理周期内各个层次静态数据的质量状况,包括源系统接口数据、仓库数据、指标数据、其它应用数据等,应用展现的内容包括:处理周期、数据实体层次、数据实体名称、要求生成时间,实际生成时间、相关度量指标(如:周期数据量、业务度量如用户实体周期新增数等)。数据处理过程评估:按经营分析系统不同处理环节类型展现处理周期内数据处理过程执行状况,包括接口数据清洗转换过程、底层仓库加载过程、仓库汇总层处理、指标生成过程、CUBE数据加载过程等等,应用展现的内容包括:处理周期、要求开始时间、要求处理时长范围、处理状态(未执行、执行中、已完成、异常退出等)、实际开始时间、实际处理时长、总处理数据量、异常数据量、未处理处理量、是否有异常、异常原因等。系统首先展现各类型数据处理过程总体情况,对于有问题处理过程,支持过程明细的查询和进一步的问题现象描述展现及问题的具体定位。系统运行环境评估:从经营分析系统运行环境角度对数据质量状况给出评估,使经营分析系统运维人员及时得知系统环境状况,以便从侧面了解系统整体的数据质量状况.主要包括系统资源(内存、CPU)、文件系统、表空间使用情况、任务调度系统运行状况(任务派发、任务并发、资源分配等情况)。个性化视角展现:数据质量评估应用应支持多种角度查看系统的数据质量状况,以支持不同运维人员的要求.数据质量评估报告:系统应支持定期不定期的数据质量评估报告生成及下载功能,运维报告的内容包括经营分析数据质量关注的数据、处理过程、环境等方方面面,对于存在的数据质量问题,给出改进建议,以便系统运维人员整体了解一段时间内系统的数据质量状况,并促进经营分析数据质量的持续提高。接口数据异常分析源系统是经营分析系统数据的源头,接口数据质量问题是经营分析系统数据达到较高的数据质量问题的最基本的要求。接口数据异常主要表现在接口数据与源系统数据的不一致、接口数据抽取不及时等方面。与源系统的数据不一致具体表现在文件数量不一致、记录长度不一致、文件大小不一致、处理时间不一致、取数时间点不一致、数据结构不一致、编码转换规则不一致。接口数据抽取不及时具体表现在接口文件生成不及时、接口文件抽取不及时。对接口数据异常问题的分析可以通过数据质量管理系统的数据质量检查、元数据支撑功能、辅助功能三个基本功能域相关功能的调用,实现对该类数据质量问题处理的IT化支撑。解决方案包括:利用系统的元数据支撑功能实现对所有与接口相关联的接口部分的元数据展现,所涉及的范围包括源系统元数据、省级经营分析系统与源系统之间进行ETL转换所涉及的元数据。1)通过输入、扩充和发布信息,用系统的元数据作为交互知识库;2)用系统创建接口到源系统之间的元数据端到端统一视图;3)利用系统提供的转换主题的数据逻辑模型建模;利用系统的数据质量检查基本功能发现接口数据质量问题,结合元数据基本功能完成问题的定位,并分析问题.利用系统的辅助功能进行问题报告管理、问题知识库管理.使用系统界面为用户提供安全、易用的系统元数据视图操纵界面。其具体应用结构如图4-3所示:图4—3接口数据异常分析应用实现框架如上图所示,接口数据问题分析应用根据问题分析的阶段,可以分为以下几个阶段,下面对每个阶段应用需要提供的系统支撑做相关描述:1、定义初始度量主要是利用稽核规则配置管理配置接口数据异常度量标准,下面列出的接口数据异常度量指标和标准供参考:度量指标指标解释计算公式度量标准接口文件度量指标文件传送完整率每日传送至省级经营分析系统中的完整的接口文件百分比(其中,完整的接口文件指文件的名称、格式、时间标识、文件大小等均符合经营分析系统接口规范规定的接口文件)。(每日传送至经营分析系统中的符合相应接口规范的接口文件个数/每日传送至经营分析系统中的接口文件总个数)*100%高于99%文件记录合法率接口文件记录中各数据项长度、类型及值域均符合接口规范定义的百分比(接口文件中数据项均合法的记录数/接口文件中记录总数)*100%大于99%文件传送及时率在接口规范中规定的文件传送时间窗口内传送至经营分析系统的文件个数百分比。
(每日在规定时间窗口内传送至经营分析系统的文件个数/每日应传送至经营分析系统的文件个数)*100高于99%文件加载正确率每日接口文件加载到经营分析系统时的正确百分比。加载正确的接口文件个数/接口文件的总个数*100%大于99%接口数据度量指标数据提供及时率每日在规定时间窗口内,能够允许经营分析系统进行数据抽取工作的接口表百分比。每日在规定时间内能够进行数据抽取工作的接口表个数/每日应进行数据抽高于99%取工作的接口表总个数大于99%数据抽取及时率在接口规范中规定的数据抽取时间窗口内完成数据表数据抽取工作的数据表百分比每日在规定的数据抽取时间内完成数据抽取工作的接口表个数/每日应完成数据抽取的接口表总个数大于99%
2、及时发现质量问题接口数据是以文件的形式提供的.通过对接口数据一致性和及时性等方面的检查及时发现问题,以保证在数据在进入数据仓库之前不存在数据质量问题和隐患。首先利用系统的数据稽核指标功能域对接口文件和接口表进行度量,每个接口文件是一个数据实体,每个数据实体对应有文件记录完整率、文件记录合法率、文件传送及时率、文件加载正确率附加信息,每个接口表是一个数据实体,每个数据实体增加数据提供及时率、数据抽取及时率附加信息.通过预先配置的接口问题指标度量标准判断接口的哪个部分数据出现问题,如发现不满足度量标准,通过界面异常显示或短信告警等方式通知相关系统维护人员,如涉及源系统问题可以通过提交问题报告通知源系统进行核查。3、查找问题根源对于不满足度量标准的指标可以利用系统的质量检查功能基本确定接口数据问题原因。接口文件数据实体和接口表数据实体中有不满足度量标准的利用质量检查功能域中的“过程回溯”沿着数据实体的转换流向,确定数据实体所影响的范围,再利用“过程查询"和“实体查询”确定问题根源。具体过程如下图所示:接口数据异常接口数据异常接口文件生成、传送、加载、数据抽取过程回溯接口文件加载过程查询接口数据抽取过程查询接口文件传送过程查询接口文件生成过程查询接口数据抽取实体查询接口文件加载实体查询接口文件传送实体查询接口文件生成实体查询接口数据抽取问题报告接口文件加载问题报告接口文件传送问题报告接口文件生成问题报告图4-4接口数据异常分析流程下面通过举例说明问题分析方法和问题查找步骤过程:通过配置的稽核规则对接口数据抽取及时率度量指标告警,则可以将问题定位在接口数据抽取过程;利用系统的过程回溯功能对接口数据抽取过程进行回溯;利用过程查询功能对接口数据抽取的过程具体步骤进行查询,依次查询进程是否异常、查询调度配置、查询调度是否正常、查询加载文件过程、查询日志报告、查询该过程关联的其它过程,用排除法依次排除问题;利用系统的实体查询功能查询接口数据抽取过程每一个步骤定义的实体、对象和规则;例如:进程运行涉及的实体包括:进程名称、对应单元、对应文件、运行时间、运行日志、运行报告等等;调度配置涉及的实体包括:调度名称、对应主体、依赖关系、优先级、启动时间、调度次数、间隔时间等等;文件加载涉及的实体包括:文件、来源、接口单元、传输网络、加载方式、加载周期、加载日志、加载时间等等;最终定位问题根源,在系统上登记问题报告。4、解决问题找到问题根源后,如果是源文件的问题可以提交问题反馈报告给相关源系统改造,如果是接口表数据的问题可以通过“元数据维护"相关功能实施元数据的修正,同时完善问题处理报告.5、监控改进情况在问题解决后,需要继续监控是否还有类似数据问题,并将此类问题的监控级别提高一级并根据问题解决情况,增加新的稽核监控配置。最后,把问题处理经验在系统上形成知识库.对于以上接口数据问题的查找方法,各省可以考虑在执行一致性分析应用中增加相关流程的支撑,并利用系统的辅助功能进行问题报告管理、问题知识库管理问题。指标一致性分析指标一致性问题主要表现在经营分析统计指标与源系统统计指标不一致,以及经营分析内部不同应用模块的统计指标不一致。指标一致性应用分析通过对数据质量检查、元数据支撑功能及辅助功能三个基本功能域相关功能的调用,实现对该类数据质量问题处理的IT化支撑,并配合一些口径一致性问题查找的基本方法.其具体应用结构如图4-5所示:图4—5指标一致性分析应用实现框架如上图所示,指标口径不一致分析应用根据问题分析的阶段,可以分为以下几个阶段,下面对每个阶段应用需要提供的系统支撑做相关描述:定义初始度量,主要是对需要保持一致的指标配置相关的稽核规则,如A指标值=B指标值。一般应用于经营分析内部不同应用模块的统计指标之间的一致性.及时发现质量问题,主要是应用根据预先配置的指标一致性稽核规则,对系统中需要保持一致的指标进行数据稽核检查,如发现不一致,通过界面异常显示或短信告警等方式通知相关系统维护人员。查找问题根源,对于发生差异的指标,应用首先利用“指标回溯”功能展现经营分析相关指标的的系统实现过程(包括ETL、仓库处理、指标汇总整个流程);对于具体过程,应支持进一步通过“过程查询"功能,展现具体过程的实现细节、输入和输出实体的信息;对于涉及的实体,应支持进一步通过“实体查询”功能,展现参与实体的明细信息。以上几项功能展现可以较好的帮助锁定问题的范围,并方便问题查找人员了解系统实现细节。另外,通过“知识库管理功能”,让问题查找人员获取问题相关经验。对于口径一致性差异的具体原因查找,可以考虑参照如下方式,给出具体的问题查找方法论或问题查找步骤:(一)假设有两个口径一致的指标A和B的一致性出现问题,其中A为经营分析某应用统计指标,B为经营分析其它应用模块统计指标,其基本的差异查找思路如下对指标A,根据“指标回溯”和“实体查询"功能,定位经营分析统计指标A的数据来源,一般是底层仓库表或者相关汇总中间层;对指标B,根据“指标回溯”和“实体查询”功能,定位经营分析统计指标A的数据来源,一般是底层仓库表或者相关汇总中间层;对比A、B指标取数条件,如有差异,记录相关问题;根据A、B指标的指标过程回溯,对比统计口径差异,如有差异,记录相关问题;修改相关差异,重新比较指标一致性。(二)如A为经营分析统计指标,B为源系统统计指标,其基本的差异查找思路如下定位数据源,对指标A,根据“指标回溯”和“实体查询"功能,定位经营分析统计指标A的数据来源AS,一般是底层仓库表或者相关汇总中间层,对源系统指标,由数据质量管理员协调源系统配合相关工作.比较数据源的一致性:根据指标A的取数条件,从数据来源AS中,统计相关指标,如:针对用户数的指标,可以把对应的品牌、状态等作为条件,从数据源统计相关联的指标,并记录相关值;定位源系统数据源;按相同口径条件,从源系统对应数据源统计相关指标值,并记录;比较经营分析统计指标数据源与源系统数据源的一致性.如数据源不一致,则问题出在源系统到A指标数据源的某处理环节:检查源系统统计时间点是否与经营分析有差异(时点误差);如源系统数据源截止信息可取到,则比较两系统对应数据源的记录级差异,得出具体原因;否则,转入接口处理相关应用分析定位具体数据源差异原因如数据源一致;对比A、B指标取数条件,如有差异,记录相关问题;根据A、B指标的指标过程回溯,对比统计口径差异,如有差异,记录相关问题。修改相关差异,检查指标一致性问题是否得到解决。对于以上两种指标一致性问题的查找方法,各省可以考虑在执行一致性分析应用中增加相关流程的支撑,并通过问题报告的形式记录整个问题的定位过程。解决问题,找到问题根源后,如果是经营分析应用处理问题,通过相关“应用变更流程”(具体参加第9章相关描述)实施应用变更,同时通过“元数据维护”相关功能实施元数据的修正,同时完善问题处理报告.监控改进情况,在问题解决后,继续监控是否还有相关指标一致性问题,并根据问题解决情况,增加新的稽核监控配置。最后,把问题处理经验在系统上登记形成知识库.需求变更影响评估需求变更影响评估应用主要利用元数据支撑功能域的相关基本功能,对经营分析维护开发过程提供需求变更评估方面的IT化支撑,减少对人的依赖,在提高需求变更评估效率的基础上,使需求变更的影响评估更全面可靠.经营分析的需求变更主要有以下几种情况:源系统数据变更引起经营分析相关应用或相关数据的调整;经营分析使用部门所提出的新的需求;经营分析系统内部发起的需求变更;按照需求变更的类型,又可以分为两种类型:A。 需求变更涉及已有应用和数据的调整;B。 需求变更不涉及已有应用和数据的调整,仅需新增数据实体和应用;
A.已有应用和数据进行调整B.需新增数据实体和应用1.源系统数据变更1A1B2.业务部门所提出的新需求2A2B3.经营分析系统内部发起的需求变更3A3B
对于B类需求变更,需通过规范需求开发管理流程,并利用元数据维护基本功能,进行管理和要求.对于A类需求变更,是定位给系统分析设计人员提供的应用支撑.利用元数据支撑功能和问题管理功能贯穿经营分析系统应用建设从数据源到用户界面各个环节的监控和数据采集,通过对相关需求所涉及的数据实体、处理过程等元数据基本要素的收集,形成受影响的实体、处理过程的影响及修改建议报告,作为后续需求设计和开发的输入,提供相关指导.需求变更影响评估应用结构如图4—6所示:图4—6需求变更影响评估应用结构需求变更影响评估应用应满足以下要求:关联实体影响评估:通过确定需求涉及数据实体,利用实体活力分析基本功能,分析与其关联的数据实体(包括源系统数据接口、仓库数据实体、指标以及其它应用实体),从静态数据层面给出影响评估,对于实体结构的调整及实体间关系的调整给出建议,用于后续接口定义变更、数据库模型调整以及指标口径变更等.受影响实体关联处理过程评估:根据需求涉及数据实体及其关联数据实体的分析,得出其参与的处理过程,得到受影响处理过程的影响评估,作为后续应用开发的范围,给出具体每个处理过程的调整建议,并可以据此评估需求变更工作量(需要人工经验的配合)。维表变更影响评估:对于需求涉及的代码定义或者维表取值的变更,可以给出该代码定义或维表具体的使用范围,包括数据实体与处理过程,可作为后续维度调整及指标取数条件调整的依据。灵活展现:影响评估具体应用的展现要求灵活方便,可以展现全局的影响,也可以深入分析具体某个实体或者处理过程的详细信息及变更影响评估.影响评估报告:支持以固定模板的方式生成需求评估报告,由数据质量管理系统根据输入的条件要素自动产生,评估结果包括受影响的数据接口、仓库表、指标、etl数据处理过程、集市指标汇总处理过程等,以及建议的修改方式。基本内容:报告时间、条件要素(数据、程序模块、指标等)、数据条件要素变更方式、受影响要素、受影响要素建议变更方式(增加维度定义、程序模块修改、指标统计口径变更等)项目管理支撑应用数据管理系统同时也是一个实施日常管理的良好平台,可以通过它实现对项目日常管理的工作的支撑,主要包含如下的几个方面:工作分配管理经营分析系统中的日常运作和开发管理都需要记录不同阶段不同子系统的人员记录,从而明确各个部分的实施情况。通过人员和系统元数据的结合,可以在数据质量管理系统中对这些设计到系统日常管理的内容进行记录,明确各开发、维护参与人员的职责。例如,ETL部分的某个模块是有那个开发人员进行的编码,谁进行的测试,谁进行的维护,以及谁进行的抽取等。经营分析系统使用状况分析经营分析系统的使用状况分析是指通过数据质量管理系统了解经营分析系统以及各子系统、子模块的使用状况,从而为用户了解经营系统的使用状况做出一个全面的评价,也为系统的升级和维护提供参考意见。所有用户对经营分析系统各模块及模块内具体内容的访问和操作在数据质量管理系统中都有详细的记录,因此通过数据质量管理系统可以对经营分析系统的使用状况进行全面的检查和分析.
数据质量管理流程概述基于元数据的数据质量管理流程,主要包含两个方面:元数据自身的数据质量管理以及基于数据质量管理系统之上的经营分析系统管理流程.下面首先通过从管理机制、质量控制流程、质量检查等方面分别介绍数据质量管理流程。管理机制元数据管理的引入为数据质量提供了系统的保证,但由于经营分析系统的需求不断变化,而元数据涉及一些手工整理的业务和技术元数据,经营分析数据质量的提高必将是一个长期、持续的过程,因此,有必要成立一个有效的组织机构保障经营分析数据管理工作的顺利进行。组织机构职责数据质量管理小组的职责有:制定数据质量检测标准;制定数据质量管理、保障、控制和维护流程;监控数据质量问题处理的整个流程并进行结果评估;以月例会、季度总结会的方式召开数据质量管理小组会议,讨论和总结经营分析系统数据质量工作;每月对经营分析系统进行数据质量状况评估,并形成《数据质量状况月报》;每季度对经营分析系统进行数据质量状况评估,并形成《数据质量状况季报》;角色与职责数据质量管理涉及以下几个角色,包括项目负责人、项目经理、数据质量管理员、业务系统接口员,其中数据质量管理员是整个组织机构的核心角色。项目负责人工作职责:支持数据质量管理小组的部门或系统间协调工作。项目经理工作职责:全面负责经营分析的建设和维护领导经营分析数据质量管理员进行数据质量管理工作数据质量管理员数据质量管理员是数据质量管理小组的工作核心。在管理小组的组织结构中属于常设岗位,各省公司必须指派专职的经营分析系统数据质量管理员。工作职责:编写和维护数据质量管理工作相关文档,如数据质量检查报告、数据质量控制流程;定期组织相关力量对经营分析系统需求影响分析报告的正确性和完备性进行评估;对经营分析数据及元数据的维护流程进行监控,对过程文档进行评审,保证维护工作的正确性定期、不定期地进行数据质量评估;数据质量相关知识及流程的培训;收集各业务系统接口对数据质量管理系统提出的问题和需求;组织协调相关力量对异常或有争议数据质量问题进行协商解决;建立、维护数据质量问题解决的经验集;
业务系统接口员工作职责:负责经营分析系统与业务系统间的协调和工作落实;参与质量方案的评估和方案制定;负责监督和管理相应业务系统建设、维护单位进行的与经营分析元数据有关的活动;根据实际使用情况,对元数据系统的建设提需求和建议;文档的设立和维护在元数据质量管理小组的日常工作中应提交和维护以下文档:编号文档名称文档描述编制人批准MQ001《数据质量状况月报》描述数据质量的现状、存在问题、解决方案、系统使用情况、本期工作成果、下阶段工作目标等数据质量管理员数据质量管理小组MQ002《数据质量状况季报》描述系统数据质量的现状、存在问题、解决方案、系统使用情况、本期工作成果、下阶段工作目标等数据质量管理员数据质量管理小组MQ003《数据质量检查标准》描述系统各种数据的质量标准及定义,提供各质量标准的检查手段数据质量管理员数据质量管理小组MQ004《数据质量问题及解决方案集》描述各类质量问题的预防、发现和解决方案,提供可行的标准管理和控制流程,指导具体操作数据质量管理员数据质量管理小组MQ005《系统需求变更影响评估报告》对系统需求变更影响的完备性评估记录,作为需求变更开发设计的必备环节的文档输出数据质量管理员数据质量管理小组MQ006《数据质量评估报告》定期、不定期进行的系统数据质量检测和抽测工作记录,提供各方参考数据质量管理员数据质量管理小组MQ007《数据质量管理维护日志集》日常数据质量管理维护的处理记录数据质量管理员数据质量管理小组
相关外部组织包括业务系统维护单位、经营分析系统需求/使用单位、经营分析系统建设单位、经营分析系统维护单位.质量控制流程由于中国移动业务的不断发展和经营分析系统需求的不断变更,数据质量管理系统实施上线后,如何保证元数据后期的持续正确维护,对发挥整个经营分析系统的作用至关重要.按照数据提取方式,可以把纳入元数据管理范围的元数据分为两种类型:自动提取型元数据:主要包括ETL、数据仓库、多维数据库等技术元数据,对这部分元数据,系统后期的维护流程主要是:周期性提取相关元数据并与系统内部元数据进行差异比较对于差异部分,通过相关流程决定处理方式手工整理型元数据:主要指业务元数据和部分非结构化的技术元数据,无法支持自动提取,通常采用文档模板的方式进行手工整理,然后通过专用的接口导入元数据系统。由于经营分析需求持续不断变化的特点,无论是上面哪种类型元数据的维护,都需要相关的流程加以控制,以保证所管理元数据的正确性,从而达到整个经营分析系统数据质量持续提高的目的。本节基于数据质量管理系统的应用需求,定义了经营分析系统数据质量持续改进过程,并规范了常见数据质量问题的处理流程。主要包括以下五个流程:需求变更控制流程、元数据变更维护流程、数据质量问题处理流程、指标口径及业务规则问题处理流程以及错误数据维护流程.其中需求变更控制流程是基础的流程。而根据元数据提取类型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年宿迁市重点中学初三下第二次段考试数学试题(理)试题含解析
- 护理三基培训:生命体征监测
- 护理伦理与患者生命价值
- 2026年学校防汛防台风工作方案及预案
- 护理教学能力竞赛模板
- 护理记录中的个体化信息
- 护理学导疗:护理干预与效果评价
- 临床医学教材课件内科学第八篇风湿性疾病第十章特发性炎症性肌病
- 以统编语文教材六年级下册第四单元为例
- 2026五年级数学上册 等式的性质一
- 互联网金融风险控制课件模板
- 小学科学湘科版五年级下册全册教案2023春
- DB32T 4740-2024 耕地和林地损害程度鉴定规范
- 污泥技术污泥运输方案
- 《广州市黄埔区 广州开发区房屋市政工程安全风险分级管控和隐患排查治理双重预防机制建设实施指南(2023)》
- 牛津3000正序和乱序词汇表
- 盖板玻璃基础知识玻璃加工过程介绍讲课
- 机械基础课程教学大纲
- 2024无缝钢管尺寸、外形、重量及允许偏差
- Cpk及Ppk计算电子表格模板
- 癫痫患者的心理疗法:认知行为疗法和心理动力疗法
评论
0/150
提交评论