




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
138/154中国移动通信企业标准
中国移动通信企业标准
QB-QB-J-XXX-2007中国移动省级经营分析系统数据质量治理系统中国移动省级经营分析系统数据质量治理系统业务技术规范(征求意见稿)
版本号:2.0TheBusinessandTechnicalSpecificationonDataQualityManagementSysteminBusinessAnalysisSupportSystemV2.02007-05实施2007-052007-05实施2007-05公布中国移动通信有限公司公布目录TOC\o"1-7"\h\z\u1. 范围 12. 引用标准 13. 术语和定义 14. 符号和缩略语 25. 概述 26. 总体讲明 26.1 数据质量治理概述 26.2 要紧内容 36.3 系统建设目标 36.4 实施建议 47. 数据质量治理需求 47.1 数据质量问题 47.1.1 信息问题域 57.1.2 技术问题域 67.1.3 流程问题域 77.1.4 治理问题域 87.2 系统功能需求 87.2.1 元数据治理 97.2.2 数据质量监控 97.2.3 项目治理支撑 98. 系统架构 98.1 系统体系 98.2 源系统层 108.2.1 经营分析系统数据处理流程 108.2.2 数据质量监控点 108.3 存储层 118.3.1 元数据存储 118.3.1.1 业务元数据 118.3.1.1.1 业务术语 118.3.1.1.2 业务描述 118.3.1.1.3 业务指标 118.3.1.1.4 业务规则 128.3.1.2 技术元数据 128.3.1.2.1 数据源接口 128.3.1.2.2 ETL过程 128.3.1.2.3 数据仓库和数据集市存储 138.3.1.2.4 分析应用 138.3.1.2.5 运行环境信息 148.3.1.2.6 质量治理过程 148.3.1.3 治理元数据 158.3.2 运行状态信息存储 168.3.3 质量治理知识存储 168.4 功能层 168.4.1 元数据治理 168.4.1.1 元数据维护 178.4.1.2 元数据导入/导出 178.4.1.3 同步检查 188.4.1.4 实体查询 198.4.1.5 过程查询 198.4.1.6 阻碍分析 198.4.1.7 血统分析 208.4.1.8 实体关联度分析 208.4.1.9 实体差异分析 208.4.1.10 版本治理 208.4.1.11 变更通知 218.4.2 质量监控支撑功能 218.4.3 知识库治理 218.4.3.1.1 知识积存和维护 218.4.3.1.2 知识使用 218.4.4 系统治理 218.5 应用层 218.5.1 数据质量监控 218.5.2 信息地图 228.5.3 需求变更阻碍评估 228.5.4 数据集市支撑 248.5.5 项目治理支撑 248.5.5.1 工作分配治理 248.5.5.2 系统使用状况分析 248.5.5.3 项目需求治理 248.5.5.4 项目组织架构治理 259. 数据质量监控模块 259.1 概述 259.2 数据质量监控模块的目标 259.3 数据质量监控模块功能要求 259.3.1 数据质量监控流程 259.3.2 采集 269.3.2.1 指导原则 269.3.2.2 信息采集 269.3.3 检查 279.3.3.1 数据质量检查差不多功能 279.3.3.1.1 数据稽核 279.3.3.1.2 处理过程检查 309.3.3.2 数据质量检查点的部署方式 309.3.4 报告 319.3.4.1 检查结果报告差不多过程 319.3.4.1.1 报告定义 319.3.4.1.2 报告生成 319.3.4.1.3 报告提示 319.3.4.2 检查结果报告的内容 319.3.4.3 告警治理 329.3.4.3.1 告警界面 329.3.4.3.2 告警形式 329.3.4.3.3 告警升级 339.3.4.3.4 告警恢复 339.3.5 处理 339.3.5.1 问题处理的时期划分 339.3.5.2 问题隔离时期 339.3.5.3 问题处理时期 349.3.6 总结 349.3.6.1 总结的类型 349.3.6.2 问题总结 349.3.6.3 时期性总结 349.4 数据质量监控模块技术实现 359.4.1 技术实现架构 359.4.2 数据质量检查代理 369.4.2.1 目录扫描模块 369.4.2.2 检查规则读取模块 369.4.2.3 数据质量检查模块 369.4.2.4 检查结果生成模块 369.4.2.5 代理活动采集模块 369.4.2.6 通信模块 379.4.3 数据质量监控服务器 379.4.3.1 用户治理模块 379.4.3.2 检查规则处理模块 379.4.3.3 代理配置处理模块 379.4.3.4 代理活动监控模块 389.4.3.5 检查结果处理模块 389.4.3.6 数据库接口模块 389.4.3.7 通信模块 399.4.4 数据质量检查客户端 399.4.4.1 检查规则查看 399.4.4.2 检查规则配置 399.4.4.3 代理配置 399.4.4.4 代理活动监控 399.4.4.5 检查结果查看 409.4.4.6 用户治理 409.4.4.7 通信模块 409.5 实施要求 409.6 场景描述 4110. 数据质量治理流程 4410.1 概述 4410.2 治理机制 4410.2.1 组织机构职责 4410.2.1.1 角色与职责 4410.2.1.1.1 项目负责人 4410.2.1.1.2 项目经理 4410.2.1.1.3 数据质量治理员 4510.2.1.1.4 业务系统接口员 4510.2.1.1.5 文档的设立和维护 4510.2.2 相关外部组织 4610.3 质量操纵流程 4610.3.1 需求变更操纵流程 4710.3.1.1 流程进入条件 4710.3.1.2 流程产生文档 4810.3.2 数据质量问题处理流程 4810.3.2.1 流程进入条件 4910.3.2.2 流程产生文档 4910.3.3 指标口径及业务规则问题处理流程 5010.3.3.1 流程进入条件 5110.3.3.2 流程产生文档 5110.3.4 元数据变更维护流程 5210.3.4.1 流程进入条件 5210.3.4.2 流程产生文档 5210.3.5 错误数据维护流程 5310.3.5.1 流程进入条件 5310.3.5.2 流程产生文档 5410.4 质量检查 5410.4.1 治理流程检查 5410.4.1.1 组织结构检查 5410.4.1.2 治理流程及相关标准的检查 5510.4.1.3 质量治理流程执行情况检查 5510.4.2 元数据质量检查 5510.4.2.1 及时性检查 5510.4.2.2 完整性检查 5610.4.2.3 准确性检查 5611. 系统治理 5611.1 概述 5611.2 系统安全治理 5711.3 系统版本治理 5712. 编制历史 57前言为更好地及时猎取、分析、评估和解决省级经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,需要构建一套省级经营分析系统数据质量内部操纵的治理体系,利用数据质量监控模块进一步提升数据质量治理系统对经营分析系统的支撑能力,特制订本规范。本标准由中国移动通信有限公司提出并归口。本标准以中移有限业【2007】XX号印发。本标准起草单位:中国移动通信有限公司。本标准要紧起草人:本标准解释单位:中国移动通信有限公司。范围本规范包含了中国移动经营分析系统数据质量内部操纵的治理体系,以及数据质量治理系统业务技术规范方面的内容。本规范适用于中国移动省级经营分析系统数据质量治理系统(v2.0)的建设。 本规范重点描述了以元数据治理为基础的数据质量监控功能,引入数据质量监控模块,并提出了数据质量全程监控的概念。旨在为数据运营打下基础,提升数据质量治理能力,使经营分析系统具有更高的有用价值。引用标准《中国移动省级经营分析系统数据质量治理系统业务技术规范(v1.5)》《中国移动经营分析系统元数据治理规范V1.0》《中国移动省级经营分析系统数据质量操纵指导意见》术语和定义序号名词解释1元数据是描述经营分析系统中数据的数据,为数据质量治理等业务功能提供信息支撑。2技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、ETL、数据仓库和数据集市、OLAP、一级经营分析系统接口等子系统的数据特征。3业务元数据业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信息,供业务人员使用。4治理元数据治理元数据要紧是指经营分析系统日常建设过程中,涉及开发、运维等治理流程的差不多信息。5CWMCWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。6信息地图信息地图是在元数据差不多功能基础上对经营分析基础元数据信息的全局、多视角的展现。7数据质量监控自动猎取经营分析系统各环节的数据质量信息,结合元数据库中的有关检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告。8数据质量监控代理(Agent)是指部署在经营分析系统数据处理流程各时期上的,完成数据质量情况采集、检查、报告等功能的驻留程序。9数据质量监控服务器对分布式数据质量监控代理进行治理和服务的程序模块。符号和缩略语缩写英文描述中文描述BOSSBusinessOperationSupportSystem业务运营支撑系统ODSOperationalDataStore操作型数据存储CORBACommonObjectRequestBrokerArchitecture公共对象请求代理体系结构CORBAIDLCORBAInterfaceDefinitionLanguageCORBA接口定义语言CWMCommonWarehouseMetamodel公共仓库元模型ETLExtractionTransformationLoading抽取、转换和加载JMIJavaMetadataInterfaceJava元数据接口OLAPOn-lineAnalysisProcess在线分析处理XMIXMLMetadataInterchangeXML元数据交换概述中国移动省级经营分析系统(以下简称为省级经营分析系统)通过多年进展,已初步建立了数据质量治理机制,有效保障了经营分析系统的数据质量。随着省级经营分析系统价值的不断显现与稳步提升,以及IT系统安全治理、风险内部操纵等重大治理举措的实施,各省公司对经营分析系统如何保障数据质量提出了更高要求。为了全面及时地采集、检查、报告、解决和总结经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,中国移动特制定《中国移动省级经营分析系统数据质量治理系统业务技术规范(v2.0)》(以下简称“本规范”),旨在指导和规范各省(直辖市、自治区)公司的数据质量治理系统的建设、工程实施以及日常运维治理工作。总体讲明数据质量治理概述在经营分析系统进展的不同时期,经营分析系统对数据质量的关注点也有所不同。早期对数据质量的关注点要紧是提高数据准确性,随着系统功能和定位的不断延伸,用户关注的重点逐步由数据准确性扩展至完整性、一致性、及时性等方面,这些内容也属于数据质量的范畴。依照中国移动省级经营分析系统前期的建设经验,目前系统关注的数据质量问题要紧包括以下几个方面内容:数据质量的六大差不多要素是否满足,所谓六大差不多要素是指:完整性:要紧包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;唯一性:指主键唯一和候选键唯一两个方面;一致性:指统一数据来源、统一冗余存储和统一数据口径;精确度:指计量误差、度量单位等方面的精确度;合法性:要紧包括格式、类型、域值和业务规则的有效性;及时性:指数据刷新、修改和提取等操作的及时性和快速性。如何从用户视角衡量数据质量,重视用户对数据的中意程度;如何建立基于CWM规范的元数据治理功能平台,支持数据质量治理,为今后全网共享元数据奠定基础;如何建立数据质量监控手段,及时发觉、报告、处理经营分析系统数据质量问题;如何通过建立有效的数据质量治理体系来保障和提升数据的价值。要紧内容本规范用以指导经营分析系统数据质量治理系统建设的全过程。描述了经营分析系统数据质量治理需求及范围、数据质量治理总体应用体系框架,明确规定了数据质量治理系统中的元数据支撑功能及其它支撑功能,确定了数据质量治理的差不多功能和流程,重点强调了数据质量监控模块的功能和作用。有关元数据建设的详细内容请参见《中国移动省级经营分析系统数据质量治理系统业务技术规范(v1.5)》中的《附件1省级经营分析系统元数据治理功能技术规范.doc》和《附件2中国移动经营分析元数据治理规范.doc》,上述两个附件给出了元数据治理建设步骤的参考,包括省级元数据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据治理工具选型参考标准等,为元数据支撑治理功能的建设提供参考依据。系统建设目标本规范借鉴了先期元数据试点和经营分析系统数据质量治理系统(v1.5)部分省份的建设经验,同时参考了《经营分析系统元数据治理规范v1.0》和OMG组织的CWM国际标准等文献,本期重点实现以下建设目标:在经营分析系统数据处理要紧时期设置数据质量监控点,支持对数据质量的全程监控。在各数据监控点上,实现多角度、多方式、可配置的约束规则,提供常见问题的自动处理方法。完善数据质量监控模块,建立有效的数据质量监控机制,提供全面及时的数据质量报告,操纵和预防错误范围的扩大。加强数据质量监控技术与治理手段的配合,着重关注经营分析系统数据来源和数据输出的数据质量,明确相关责任。建设符合CWM规范的元数据治理平台,为全网经营分析系统的数据质量治理、数据资源治理和数据运营奠定基础。实施建议本规范是省级经营分析系统数据质量治理系统规划和建设的差不多指导,各省在实施过程中,可依照实际需要以本规范为基础进行扩充与细化。建议如下:在建立数据质量治理系统后,需要建立配套的治理机制,确保有专人依照流程对数据质量问题进行治理和维护;元数据治理是本次经营分析数据质量治理系统的重要功能,是今后实现元数据共享和交换的基础。元数据提供了对数据本身的描述,是关于数据的数据,要紧包括技术元数据、业务元数据和治理元数据。各省在遵循CWM标准的前提下,能够依照自身实际情况,决定自行建设依旧采购元数据治理工具;各省能够依照自身业务情况扩展《中国移动省级经营分析系统数据质量治理系统业务技术规范(v1.5)》附件中的元数据存储逻辑模型,但必须遵循CWM元模型的扩展规则;本规范中列举的各类应用,如数据质量监控、信息地图、需求变更阻碍分析、项目治理支撑、数据集市支撑等应用是本期建设重点关注的内容,各省能够依照实际情况增加其它相关应用。
数据质量治理需求数据质量问题经营分析系统数据质量问题按照问题的来源和具体缘故,能够分为信息、技术、流程、治理四个问题域。如图7-1所示。图7-1数据质量的四个问题域信息问题域图7-2信息问题域信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。产生这部分数据质量问题的缘故要紧有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。元数据描述及理解错误中的相关元数据要紧包括:业务元数据——要紧包括业务描述、业务规则、业务术语、业务指标口径等。技术元数据——要紧包括接口规范、执行顺序、依靠关系、ETL转换、数据建模和工具等方面的内容。数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量要紧包括完整性、唯一性、一致性、准确性、合法性。变化频度要紧包括业务系统数据的变化周期和实体数据的刷新周期。技术问题域图7-3技术问题域
技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接缘故是技术实现上的某种缺陷。数据质量问题的产生环节要紧包括数据创建、数据猎取、数据传递、数据装载、数据使用、数据维护等方面的内容:1、数据创建质量问题要紧包括业务系统话单延迟入库、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。2、数据猎取质量问题要紧包括采集点不正确、取数时刻点不正确以及接口数据在猎取过程中失真。如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。3、数据传递质量问题要紧包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。4、数据装载质量问题要紧包括数据清洗算法、数据转换算法、数据加载算法错误。5、数据使用质量问题要紧包括展示工具使用错误、展示方式不合理和展示周期不合理。6、数据维护质量问题要紧包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。流程问题域图7-4流程问题域
流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,要紧来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节:1、创建流程质量问题要紧指操作员数据录入时缺乏审核流程;2、传递流程质量问题要紧指通信流程沟通不畅;3、装载流程质量问题要紧指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;4、使用流程质量问题要紧指数据使用流程缺乏流程治理;5、维护流程质量问题要紧指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;6、稽核流程质量问题要紧指缺乏数据错误反馈流程。治理问题域图7-5治理问题域治理类问题是指由于人员素养及治理机制方面的缘故造成的数据质量问题,如人员治理、培训和奖励等方面的措施不当导致的治理缺失。人员治理所产生的质量问题要紧指:(1)针对省级数据质量问题,没有建立治理数据质量的专门机构,出现数据质量问题后无专人负责;(2)没有明确的数据质量目标;(3)经营分析系统中的数据质量问题的优先级不够;(4)集团公司缺少治理数据质量的治理方法等;人员培训所产生的质量问题要紧指对数据质量相关人员缺少长期培训打算;通过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流程和技术三个方面的数据质量问题相对集中和可控,是本系统实施的重点。在治理方面,本规范侧重于提供对开发、运维治理流程方面的支撑,并对治理元数据及其治理范围进行了明确定义,具体参见第8章治理元数据的相关定义。系统功能需求在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依靠具体人员的经验,问题处理效率和正确性难以保证。因此有必要引入元数据治理的相关功能,提供对数据模型、指标统计口径及处理过程等数据实体和处理的标准定义和描述。数据质量治理系统利用元数据库存储技术、业务、治理方面对数据质量的约束规范;利用知识库存储数据质量问题和处理过程;通过制定相关治理流程来保证经营分析数据质量的日常治理。本规范介绍如何在基于元数据治理的基础上建立数据质量治理系统,并通过制定相关治理流程来保证经营分析数据质量的日常治理。数据质量治理系统的基础是遵循CWM标准的元数据治理支撑功能的实施。 依照系统定位,数据质量治理系统与元数据治理支撑功能之间的关系如下:数据质量治理包含元数据治理元数据治理功能为数据质量治理系统提供支撑元数据治理为了实施数据质量治理,需要业务数据的有关统计口径、数据来源、数据约束关系等元数据的支撑。数据质量治理系统要求建立符合国际主流规范CWM的元数据治理支撑平台。它负责治理整个经营分析系统的技术、业务和治理三类元数据,形成元数据全局视图,展现经营分析系统数据实体的组成、关系以及处理转换的过程。数据质量监控在数据质量治理系统中,数据质量监控是基础功能。数据质量监控实时采集数据处理过程的各个质量监控点上的质量信息,执行数据质量监控流程,进行数据稽核诊断,然后直观展现检查结果。数据质量治理人员可依照告警信息,采取相应的质量操纵行动。最后,还应评估总结本次数据质量监控活动的有效性和及时性,以利于以后质量治理工作的改进。在数据质量监控工作中对质量问题的监控、诊断和处理结果应整理形成质量问题处理案例,并记录到知识库中,以便进行知识共享。项目治理支撑数据质量治理也涉及经营分析系统相关项目的日常治理。将项目治理的内容纳入质量治理,可全面、及时记录系统的建设状况和使用情况,有效支持经营分析系统的全员使用。项目治理支撑包括:工作分配治理、系统使用状况分析等。系统架构系统体系数据质量治理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构如图8-1所示:图8-1数据质量治理系统体系结构源系统层经营分析系统数据处理流程经营分析系统的数据处理流程要紧涉及源系统接口数据、ETL过程、数据仓库、数据集市、前端应用等处理时期。数据质量治理系统对数据的治理和监控范围涵盖了全部这些处理时期。数据质量监控点数据质量治理系统在数据处理的各时期都应设立数据质量监控点,并使稽核诊断工作尽量前移。本期系统规定的数据质量监控点设置如下:(1)各数据源接口(2)ETL处理过程(对数据抽取、转换的要紧时期,以及加载到数据仓库前都应设置监控点)(3)数据仓库(对各种数据粒度的汇总应设置监控点)(4)数据集市(对地市和部门的集市分不应设置监控点)(5)前端展现应用存储层存储层中存储的信息要紧包括三个部分:(1)元数据库:存储技术元数据、业务元数据和治理元数据,为数据质量治理系统提供差不多的数据实体和处理描述及其映射关系,是质量治理的支撑基础;(2)运行状况信息库:存储从各个数据质量监控点上采集的有关系统运行状况的信息及质量稽核过程信息,是稽核诊断的要紧输入信息;(3)数据质量知识库:存储数据质量治理中对质量问题的识不、诊断和处理结果的记录信息,作为解决质量问题的知识共享。以上三种数据库,在逻辑上可进行独立设计,在物理实现上能够部署在同一台服务器上。元数据存储元数据是数据质量治理系统实现的核心,是描述和操纵经营分析系统中数据的数据,为数据质量治理体系架构的功能层和应用层提供信息支撑。元数据库中存储的元数据分为三类:技术元数据、业务元数据和治理元数据。业务元数据本部分将业务元数据划分为业务术语、业务描述、业务指标和业务规则四个部分,其中业务规则、业务术语和业务描述共同完成对业务相关信息的事实表述。数据质量治理系统通过对这些业务元数据的映射,能够得到对应的数据质量检查规则。各省公司能够依照自身业务需求对业务元数据主题进行扩充,扩充的元数据主题必须遵循CWM元数据扩展规范。业务术语是一个名词或者名词短语,是对一种共识的定义,例如:一个有效的账户被定义为此账户有余额且其有效期未过。业务描述提供对省公司各项要紧业务的统一描述,这部分内容应与仓库模型的主题信息、相关业务的统计指标建立关联,描述内容包括:业务差不多描述业务治理规定,包括业务组织、业务流程、资费标准业务统计业务描述是一个完整的描述,通过动词来连接术语使其成为一个有效的声明,例如:开通具体业务的客户必须至少拥有一个有效的账户。业务指标面向业务分析人员,对业务关键信息的解释。业务指标需要提取的元数据要紧包括指标标识、指标名称、描述信息、建立时刻、所属部门、创建者、类不、数据来源等。业务规则业务规则是一种描述信息,定义和约束了部分业务逻辑,能够用于对业务逻辑结构进行验证,用于操纵或者阻碍业务逻辑的行为。技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、一级经营分析系统接口等子系统的数据特征。依照经营分析系统的特点和经营分析系统数据质量治理的具体要求,本部分将技术元数据分为数据源接口、ETL过程、数据仓库和数据集市存储、分析应用、运行环境信息、质量治理过程六个部分,对各部分所包含的实体进行讲明。数据源接口经营分析系统的数据来源要紧是外部的操作型应用系统,经营分析系统治理的数据源接口元数据要紧是关于BOSS、客服、网管、智能网、DSMP、彩铃等外部系统与经营分析系统间接口的相关信息,包括:运行环境相关信息要紧包含相关系统的主机信息、操作系统信息、数据库信息等;数据接口定义信息描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、实体内部列定义、关键字、索引定义等)、接口数据实体间关系。ETL过程ETL过程中的元数据治理内容要紧是ETL规则,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等,要紧内容有:接口抽取描述数据抽取过程的相关信息,针对具体接口,要紧包含:接口抽取条件:接口抽取的前置条件和数据条件;接口抽取周期:日、月等;接口抽取时刻:周期内的抽取时刻;接口抽取方法:增量、全量等;数据清洗、转换、装载描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等。数据仓库和数据集市存储数据仓库存储涉及ODS、仓库底层数据、集市数据等差不多信息,以及数据流处理逻辑相关信息的提取,具体包括:数据仓库逻辑模型逻辑数据模型是企业元数据的重要组成部分,事实上现方式要紧是将建模工具(例如:ERWIN)中的模型信息纳入到元数据治理中。数据存储结构信息这部分内容反映了数据仓库的物理实体信息。数据仓库内部的结构数据治理内容繁杂,要紧有ODS和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码描述、数据库目录以及文件规划等信息。其中,数据库目录包括需纳入治理的表、关系以及索引和视图的定义等。数据流及其处理逻辑这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程序模块接口等系统全局性的信息。数据流向和数据处理逻辑信息是进行系统开发、维护、升级前和数据变更前的阻碍分析的重要信息源。数据生命周期信息存储和检索该部分内容要紧记录了数据在不同生命周期所存放的位置。通过元数据治理系统对不同类型以及不同生命周期的数据进行有效治理,支持对处于生命周期不同时期的数据进行信息检索。数据生命周期治理的具体解释请参见《中国移动省级经营分析系统规范总册(v2.0)》。分析应用在数据仓库或数据集市基础上,经营分析系统提供了KPI、OLAP、综合报表、数据挖掘、一级经营分析系统接口等应用,分析应用元数据是指这些上层应用的相关信息,要紧包括:指标技术定义信息包含指标定义、对应维度定义、指标统计口径、指标关系等信息;多维数据信息要紧指对多维数据相关信息的提取,要紧包括:多维主题差不多信息:包含主题与指标、维度等的关系;多维数据库信息:鉴于主流的多维数据库都支持CWM标准,针对各省的建设情况,能够考虑选用元数据工具进行相关信息的提取;一级经营分析系统接口作为数据分发过程,与ETL处理过程对应,要紧包括一级经营分析接口的定义、标准代码定义、数据转换规则以及其它涉及一级经营分析系统接口数据生成上传的元数据信息;数据挖掘信息应用使用状况信息要紧记录各业务应用的使用频次、使用人数等信息。运行环境信息描述经营分析系统运行环境的相关信息,要紧有:任务调度信息经营分析系统处理涉及多个环节的大量任务,通常由一个统一的任务调度系统集中操纵这些任务的执行,猎取这些任务的相关信息关于了解和优化系统至关重要。要紧提取信息有:任务差不多信息、任务依靠信息、任务执行信息等。系统运行环境信息包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录信息、数据库信息、表空间信息等。质量治理过程质量治理过程中的元数据要紧是依照数据质量治理的要求,为支撑数据质量检查的相关功能,从监控经营分析数据及系统运行情况角度,抽取出的数据质量检查方法和标准。质量治理过程中的元数据的规则有两个来源:一个来源是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什么周期内什么时刻段内完成才正常,主机资源、表空间、文件系统的使用应该操纵在什么样的阀值下系统处理才可不能有问题;另一个来源是业务规则、指标口径等业务元数据,通常会把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指标合理性的度量标准,则会依照业务进展情况而不断变化。要紧包括以下内容:规则库规则是数据质量检查的具体标准,要紧包括经营分析数据的约束规则和合理性规则,以及检查数据处理过程及处理环境是否正常的规则等。规则分为三类:约束规则、计算规则和条件规则。约束规则描述了一种无条件必须为真或假的强制规则。这种约束能够是结构化(Structural)约束,也能够是行为(Behavioral)约束。结构化约束:当创建术语或者改变术语之间的关系的时候,结构化约束能够保证术语的完整性;行为约束:典型地被定义为“前置条件”和“后置条件”。只有在符合“前置条件”的情况下,操作才能够正确地执行;“后置条件”保证了操作结果的正确性,“后置条件”表示该行为是否满足了其预期的结果。例如:客户在开户时余额为0,在能够使用移动业务之前,必须先充值,那个地点前置条件确实是必须先充值,而后置条件是指所办理的业务是否成功办理;计算规则描述计算关系,例如:月末余额=上月末余额+本月充值金额-本月消费金额;条件规则描述当条件成立时,触发相关的事件或事务,例如:预付费客户的帐户余额小于0,则对事实上施停机操作。算法库要紧是指支撑上述检查规则所需要的差不多算法的集合,结合具体的规则由数据质量检查相关功能调用。度量信息度量信息是数据质量检查的差不多依据,它反映了数据质量的衡量标准,也是数据质量治理系统技术元数据的一个重要组成部分。度量信息是经验的积存,需要在数据质量不断建设的过程中逐步精确化,随着衡量标准的不断细化和精确,经营分析系统数据质量也会不断提高。治理元数据治理元数据要紧是指经营分析日常建设过程中,涉及开发、运维治理各方面的差不多信息,本规范明确要求对治理元数据进行存储,在此基础上对系统需求开发和日常运维治理流程提供IT化支撑,从治理流程角度对经营分析数据质量提供保证。治理元数据要紧包括:治理流程定义指经营分析需求开发、运维各治理流程及其具体步骤、步骤输入输出和参与角色的描述;角色及职责定义指参与经营分析需求开发、运维各治理流程的角色及其具体承担职责的描述;人员组织信息及工作内容分配指需求开发和系统运维过程中各参与人员承担的角色及具体负责的工作内容描述,如具体某个需求开发由谁牵头负责,ETL某个加载转换过程由谁负责维护等系统访问情况信息。以上信息各省能够依照各自的治理流程情况,制定相关模板,进行手工整理。运行状态信息存储运行状态信息库存储在数据质量检查点上产生的,描述系统运行情况的各种度量数据,包括数据量、数据处理周期、数据处理过程运行情况等。系统运行状态信息包括以下几类:(1)源数据状况要紧包括:文件传送完整状况、文件记录合法状况、文件传送及时状况、文件加载正确状况等。(2)ETL运行状况要紧包括:作业运行成功状况、作业失败信息、抽取和变换数据量、加载数据量及正确状况、作业调度和操作状况等。(3)数据仓库运行状况要紧包括:实体主键取值合法状况、实体属性的完整状况、外键取值和引用合法状况、属性合法状况、数据汇总状况等。(4)数据集市运行状况要紧包括:实体主键取值合法状况、实体属性的完整状况、外键取值和引用合法状况、属性合法状况、实体合法状况(属于某地市或部门)、数据汇总状况等。(5)前端运行状况要紧包括:OLAP加载状况、OLAP运行状况、OLAP存储情况、应用运行合法和成功状况、应用中意状况等。质量治理知识存储数据质量知识库存储数据质量问题的识不、诊断、处理各时期的相关信息。这些信息可作为解决质量问题的历史档案进行知识共享。这些知识以关键字的形式进行索引和分类治理。知识库中的内容可分为以下几类:(1)源数据类型问题(2)ETL类型问题(3)仓库类型问题(4)集市类型问题(5)前端类型问题功能层功能层提供了数据质量治理系统所能提供的差不多功能,它为前端的应用提供了差不多的功能支撑。要紧包括元数据治理和数据质量监控模块,具体内容如下:元数据治理作为数据质量治理系统的元数据差不多支撑,方便用户对系统的理解,并在系统数据质量出现问题时,便于问题的定位。要紧包括:元数据维护元数据维护提供对元数据的增加、删除、修改等差不多操作,另外,还应支持实体、实体间关系的建模,数据处理过程的描述等功能。关于元数据的增量维护,要求能保留历史的版本信息。元数据的维护操作是原子操作,这些原子操作的实现需要借助于元数据治理平台提供的JMI接口或者CORBAIDL接口来完成。在实施元数据维护操作的过程中,需要对这部分操作的过程进行一定的约束和限制。元数据定义为如下的4种状态:审核状态关于需要进行维护的元数据,首先进入审核状态,从而等待审核人员的核查,确定该元数据是否需要进行修改;公示状态审核通过后,进入公示状态,即处于对元数据定义征求意见的状态,没有最后定稿,公示状态有一定的期限要求;公布状态公示状态期限的限制到期后,依照在公示状态期间回馈的意见,给出元数据维护的准确的方案,进入公布状态;维护状态用户提交修改元数据请求后,相关元数据进入维护状态,对相关元数据的维护需要保留其历史版本信息。元数据导入/导出元数据导入/导出实现元数据的自动加载、批量导入/导出和模板化导入/导出,是元数据维护功能的手工操作的重要补充。具体实现方式参见《中国移动省级经营分析系统数据质量治理系统业务技术规范(v1.5)》的有关附件。(1)自动加载自动加载能够提供自动方式快速地从各种软件或存储中(如数据库、OLAP软件、前端展现工具)中提取元数据信息,并存储到元数据库中。这种方式通常采纳API或Web服务直接连接各软件的元数据库。(2)批量导入/导出批量导入/导出功能将按XMI文档格式组织的元数据批量导入元数据库,或者将元数据库中的指定部分导出为XMI文档。系统对导入/导出过程进行日志记录。元数据的XMI文档中描述元数据内容、属性、以及对新增、修改、删除动作的标记。用户通过执行批处理命令或屏幕菜单选择批量导入/导出元数据,并支持即时调用或后台定时自动执行。(3)模板化导入/导出模板化导入/导出是为非结构化、无法自动抽取或非XMI文档的元数据提供的批量导入/导出支撑功能。通常采纳预定义模板格式的元数据描述文档,整理出元数据差不多信息文档,通过该功能导入系统,并自动转化成元数据存储;同样也支持把元数据信息导出到预定义格式的文档中,并提供下载,方便交流。关于不满足CWM规范的元数据(如大部分指标数据等),其通常需要借助XMI来定义相应的模板。该模板满足CWM规范,能够利用编制的相应程序进行这部分元数据的导入和导出。采纳XMI开发元数据模板,将原有的Word、Excel文件中元数据信息转换为格式固定的XMI文件;将格式固定的XMI文件批量导入数据质量治理平台。同步检查同步检查要紧是指关于数据质量治理系统中抽取的元数据,定期从经营分析系统中抽取,并与元数据库的对应信息比较,及时发觉经营分析系统的应用变更,保证元数据的及时同步更新。从经营分析系统中抽取元数据,要紧分为两类:自动抽取和人工抽取。因此,有如下两类同步检查方法:自动同步检查关于需要检查的元数据,利用软件API或CORBAIDL接口对系统中的元数据进行直接查询访问,获得相应的元数据,然后进行比较,从而确定相应的元数据是否保持了同步;人工同步检查对无法进行自动抽取检查的元数据需要人工在源系统与元数据库之间进行比较,确定是否保持一致。
同步检查的过程能够描述如下:同步检查时机同步检查时机分为如下的两类:实时同步检查能够适用于实时同步检查的元数据,指那些能够自动抽取的元数据。触发检查的时机是源系统中的元数据发生了变更或者是相应系统中的元数据发生了改变。定期同步检查适用于定期同步检查的元数据,要紧包含如下的几种情况:当用户手工修改源数据系统或者是元数据库时,则需要对元数据进行同步检查;关于整个数据质量治理系统而言,需要定义一个周期(1天或者1周等)进行元数据同步检查;同步检查度量元数据同步检查要紧包含以下几个方面:及时率:指定类型的元数据在某一抽取检查周期内按一定时刻要求抽取的元数据项和应抽取项的比率;完整率:指定类型的元数据在某一抽取检查周期内抽取的元数据项和应抽取项的比率;正确率:指定类型的元数据在某一抽取检查周期内抽取比对无误的元数据项和应抽取项的比率;同步检查过程在同步检查发觉差异时,原则上不能直接修改元数据存储,而是给出各类元数据的差异报告,并由数据质量治理员确认后,利用元数据维护工具进行元数据的更新。实体查询实体查询指对元数据库中的数据实体差不多信息的查询功能,通过该功能能够查询数据库表、维表、指标及其它纳入治理实体的差不多信息,查询的信息按处理的层次及业务主题进行组织,实体查询返回实体及其所属的相关信息。实体查询要求能支持对历史版本信息的查询,以了解具体实体的历史变更情况。过程查询过程查询是针对具体的数据转换、汇总等处理过程,查询其具体用途、参与的输入、输出实体等详细信息,从而关心对数据处理过程的理解。过程查询要求能支持对历史版本信息的查询,以了解处理过程的历史变更情况。在CWM规范当中,有专门的仓库过程(WarehouseProcess)和转换过程(Transformation)实体,过程查询能够直接返回过程本身的详细信息。过程查询还能够基于过程实体本身包含的关联信息,得到与其关联的实体信息。阻碍分析阻碍分析(ImpactAnalysis,也称冲突分析)是指从某一实体动身,查找依靠该实体的处理过程实体或其他实体。假如需要能够采纳递归方式查找所有的依靠过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,进行阻碍实体范围的评估。阻碍分析应能够以图形的方式展现所有实体和关联关系。血统分析血统分析(LineageAnalysis,也称血缘分析)是指从某一实体动身,往回追溯其处理过程,直到经营分析的数据输入的源头,也确实是源系统接口数据。关于不同类型的实体,其涉及的转换过程可能有不同类型,如:关于底层仓库实体,涉及的可能是ETL处理过程;而关于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而关于指标,则除了上面的处理过程,还涉及指标生成处理的过程。除了数据接口实体由源系统提供,作为经营分析系统的数据输入,其它的数据实体都通过了一个或多个不同类型的处理过程。血统分析正是提供了如此一种功能,能够让使用者依照需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生了什么样的输出。为实现血统分析,关于任何指定的实体,首先获得该实体的所有前驱实体,然后对这些前驱实体递归地获得各自的前驱实体,结束条件是所有实体到达数据源接口或者是实体没有相应的前驱实体。血统分析应能够以图形的方式展现所有实体和处理过程。实体关联度分析实体关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,从而形成一张关系和所参与数据处理过程的网络,进一步能够了解该实体的重要程度。该功能能够用来支撑需求变更阻碍评估的应用。关于关系数据表,能够分析与某个表有关的实体或处理过程,查看具体数据的使用情况,从而推断该表的重要程度。该功能有助于查找数据库中关键表和冗余表,为系统调优提供支持。在CWM模型中的每个实体当中,能够有一个单独的对象(或者类)函数,它能够在实体关联信息的支持下,返回该实体所关联的所有实体和参与的所有过程。实体差异分析实体差异分析是对不同实体的元数据进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血统、对系统其他部分阻碍的差异等。在经营分析系统中存在许多类似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在微小的差异,甚至有部分属性名字都相同,但处于不同的应用中。由于各种缘故,这些微小的差异直接阻碍了数据统计结果,我们需要清晰了解这些差异。该功能有助于进一步统一统计口径,评估近似实体的差异。版本治理版本治理是不同时期进入元数据库的同一实体的元数据进行治理。要求的差不多功能是能够显示同一实体的元数据的修改历史。另外还提供版本差异分析,版本变更分析等。变更通知变更通知是当元数据发生改变时,系统自动发信息(邮件、短信)给订阅用户。用户能够主动订阅自己关怀的元数据,关心了解与自身工作相关的业务系统变更情况,提高工作的主动性。质量监控支撑功能质量监控支撑功能包括数据质量监控模块的核心支撑功能,形成监控应用的服务后台,其要紧功能子模块包括:信息采集、质量检查、结果报告、改进处理和处理总结模块。这些子模块共同构成数据质量监控流程。质量监控支撑功能的详细讲明及其相互关系参见第9章。知识库治理知识库治理提供针对数据质量知识库的增、删、改、查询功能和其他日常维护功能。知识积存和维护在每个数据质量问题公布、处理、解决后,需将该问题的内容和总结报告存储到知识库中,并提供知识库的维护功能,即增加、修改和删除功能。知识使用知识的使用是指维护人员在发觉数据质量问题时,能够通过输入关键字的方式查找之前发生过的类似问题的处理方法,以达到知识重用的目的。该功能应提供按问题、现象和处理方法的关键字查找,并提供有关知识的分类统计。系统治理系统治理是为数据质量治理系统提供的一系列治理支撑功能,具体参见第11章。应用层在数据质量治理系统功能层的支持下,应用层对数据质量治理的实际问题提供应用解决方案,要紧包括数据质量监控、信息地图、需求变更阻碍分析、数据集市支撑、项目治理支撑应用等。数据质量监控数据质量监控应用在质量监控支撑功能模块上对经营分析系统提供全面的数据质量监控应用。数据质量监控应用提供数据质量监控模块的人机交互界面,形成监控应用的展现前台,其要紧功能模块包括:数据质量评估、诊断报告展示和接口异常分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《公差配合与技术测量》课件-第7章:滚动轴承(章节版)
- 数字人民币跨境支付跨境支付系统性能优化与升级报告
- 医疗美容行业2025年医疗美容行业人才培养与市场监管策略报告
- 金融与投资行业:金融与投资行业:2025年金融行业科技应用案例分析
- 养殖公司管理办法
- 兼职取薪管理办法
- 内审跟踪管理办法
- 内网办公管理办法
- 内部考勤管理办法
- 军计价管理办法
- 火电厂运行管理
- 销售人员人才画像
- 泵站安全鉴定规程(SL 316-2015)
- 水稻病虫害统防统治 投标方案(完整技术标)
- 职校中式烹饪赛题(国赛)考试复习题库(含答案)
- 电梯维保重点难点分析
- 《英语大字典》word版
- 中国医疗卫生体制改革培训课件
- HY/T 150-2013海水中有机碳的测定非色散红外吸收法
- GA/T 486-2015城市道路单向交通组织原则
- GA/T 2000.21-2014公安信息代码第21部分:人口管理死亡原因代码
评论
0/150
提交评论