版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、52/52云平台数据治理项目技术方案目 录 TOC o 1-4 h z u 第1章 整体方案 PAGEREF _Toc41230706 h 41.1 项目需求理解方案 PAGEREF _Toc41230707 h 41.1.1 项目背景 PAGEREF _Toc41230708 h 41.1.2 项目概述 PAGEREF _Toc41230709 h 41.1.2.1 项目现状 PAGEREF _Toc41230710 h 41.1.2.2 项目目标 PAGEREF _Toc41230711 h 61.1.2.3 项目内容 PAGEREF _Toc41230712 h 71.2 总体设计方案
2、PAGEREF _Toc41230713 h 81.2.1 总体定位及目标 PAGEREF _Toc41230714 h 81.2.2 设计原则及约束 PAGEREF _Toc41230715 h 91.2.2.1 总体设计原则 PAGEREF _Toc41230716 h 91.2.2.2 总体设计约束 PAGEREF _Toc41230717 h 101.2.3 总体应用架构设计 PAGEREF _Toc41230718 h 111.2.4 总体数据架构设计 PAGEREF _Toc41230719 h 121.2.4.1 数据框架设计 PAGEREF _Toc41230720 h 131
3、.2.4.2 数据框架细化设计 PAGEREF _Toc41230721 h 141.3 数据治理方案 PAGEREF _Toc41230722 h 161.3.1 概述 PAGEREF _Toc41230723 h 161.3.2 数据管理制度与机制 PAGEREF _Toc41230724 h 161.3.3 数据标准与规范建设 PAGEREF _Toc41230725 h 171.3.3.1 一致性维度标准 PAGEREF _Toc41230726 h 191.3.3.2 基础数据项体系标准 PAGEREF _Toc41230727 h 191.3.4 元数据管理 PAGEREF _To
4、c41230728 h 221.3.4.1 元数据管理总体分析 PAGEREF _Toc41230729 h 221.3.4.2 元数据管理设计 PAGEREF _Toc41230730 h 271.3.5 数据质量管理 PAGEREF _Toc41230731 h 301.3.5.1 数据质量管理总体分析 PAGEREF _Toc41230732 h 311.3.5.2 数据质量管理设计 PAGEREF _Toc41230733 h 321.3.6 数据生命周期管理 PAGEREF _Toc41230734 h 351.3.6.1 数据生命周期总体分析 PAGEREF _Toc4123073
5、5 h 361.3.6.2 数据生命周期管理设计 PAGEREF _Toc41230736 h 411.3.7 数据归集 PAGEREF _Toc41230737 h 441.3.7.1 数据归集流程设计 PAGEREF _Toc41230738 h 441.3.7.2 数据归集方法设计 PAGEREF _Toc41230739 h 451.3.8 数据资产管理 PAGEREF _Toc41230740 h 461.3.8.1 数据资产分类 PAGEREF _Toc41230741 h 471.3.8.2 数据资产盘点 PAGEREF _Toc41230742 h 471.3.8.3 数据质量
6、评估 PAGEREF _Toc41230743 h 471.3.8.4 数据资产使用情况监控 PAGEREF _Toc41230744 h 471.3.9 数据安全管理 PAGEREF _Toc41230745 h 481.3.9.1 安全管控机制建设 PAGEREF _Toc41230746 h 481.3.9.2 数据访问权限管理 PAGEREF _Toc41230747 h 491.3.9.3 数据分级分类管理 PAGEREF _Toc41230748 h 491.3.9.4 数据脱敏管理 PAGEREF _Toc41230749 h 491.3.9.5 数据安全审计 PAGEREF _
7、Toc41230750 h 49整体方案项目需求理解方案项目背景云平台数据管理项目基于大数据技术和理念,以云平台为基础,集中、拓宽和整合内外部数据资源,统一规范数据应用范畴,为各需求主体提供更为全面丰富的决策和参考支持,构建开放协作的税务数据生态环境。项目自开工建设以来,始终以“用数据服务征管方式转变”为建设主线,在大数据算法应用、海量用户支持、关系云图、风险动态积分、用户画像等方面进行了积极探索、实践,出色完成了设定任务,达到了预期效果。目前,云平台数据管理项目已从验证阶段转为生产应用阶段,实现了以数据为中心,以技术基础平台为依托,以分析类应用实现为目标,涵盖数据“采、存、通、用”全生命周期
8、的一体化生态系统,是大数据、互联网、云计算等理念、方法论、技术手段和解决方案的集成展现。在云平台数据管理项目建设完成的基础上,总局云平台数据管理升级完善及运维和机构改革软件服务工作的主要任务是:以云平台数据管理项目建设内容为基础,做好现有硬、软件运行维护与优化升级;进一步拓宽数据集成范围、拓展数据应用、深度挖掘数据价值;根据机构改革后云平台数据管理工作的新内容、新要求,对数据层、应用层进行调整、优化,保障云平台平稳运行;有力加强数据治理、提高数据质量,满足当前数据管理工作需要,支撑各类型数据应用工作需求,助力推动征管模式变革和各项税收政策改革,最终形成推动数据管理思维变化,营造良好税收数据生态
9、。项目概述项目现状云平台数据管理项目以云平台为基础,以云服务器软件、负载均衡软件SLB、对象存储软件OSS、大数据计算服务软件ODPS、数据可视化引擎DataV等18款大数据产品为依托,构建了以数据治理为核心、以一体化云平台为载体、满足各类用户需求的税收大数据平台。主要完成平台层、数据层、应用层的建设:1.平台层建设。主要包括计算存储和网络设备、系统软件工具集、安全及运维监控管理的建设,从硬件和技术层面有效解决传统技术结构不足以支撑海量数据及非结构化数据分析应用需求的矛盾,搭建灵活、可随时调用计算资源的数据云环境,并构建完整的三层服务模式。通过建设IaaS层,为全国数据大集中环境提供包括CPU
10、、内存、存储、网络、操作系统等基础设施资源,提高资源的利用率,降低采购成本;通过建设PaaS平台,基于IaaS提供的能力,以服务的方式提供计算平台和软件组合,为最终用户提供云环境下的应用开发、部署和运行平台,解决应用软件开发的规范化问题,降低系统运行维护成本;通过建设SaaS层,全国数据大集中环境为总局、省局、纳税人、相关部门提供个性化的数据服务。2.数据层建设。通过构建数据治理体系和开展数据分析处理,将云平台和工程规划范围内的其他数据平台集于一体,使金三生产系统数据、总局保留软件数据和多来源的外部交换数据相互贯通,实现各类数据的集中定义和管理,为建立统一数据视图、数据集市、各类分析业务的定义
11、、指标和规则定义以及数据集成定义提供语义基础,同时提供对各类数据的审核管理和维护机制,维护数据的完整性、准确性以及一致性,实现数据生命周期管理、数据标准、数据审计等各项功能。通过数据治理过程,使得数据标准、数据内容以及数据质量都能够得到持续的提升,保证数据资产的长久价值。(1)基础层完成了对税务数据、外部数据和互联网数据三类数据的集成,共集成了六千余张表,同时完成了数据清洗、数据标准化以及非结构化数据转结构化数据等操作。(2)中间层完成了四大主题库和标签体系的建设。四大主题库分别是:组织库(法人和法人分支机构),涉及模型近200个;自然人库,涉及模型近百个;税务机关库,涉及模型近200个;关系
12、库(单位纳税人之间、单位纳税人与自然人之间),涉及模型几十个。同时构建了企业、自然人、税务机关标签体系,包含:企业标签(一般纳税人标签、小规模纳税人标签、千户集团标签)、自然人标签、税务机关标签。(3)模型层完成了面向应用的数据模型构建。在建设模型层的过程中,以构建面向应用类数据模型和构建分析挖掘类分析模型为原则,基于税收动态监控、票流分析、关系云图、增值税发票查询分析系统等应用共设计数百个数据模型,上千个指标口径。3.应用层建设。基于全务数据,建立多层次、多类型、多渠道的数据服务体系,为总局各司局和省局不同类型用户提供多维数据服务,满足各级税务机关在决策、管理、执行、研究等方面的工作需求。应
13、用层前期建设立足于税收业务特点、现状和需求状况,重点选取部分应用进行验证性和示范性开发。已开发用户画像、票流分析、纳税人关系云图、纳税人关系分析、增值税发票查询分析系统、风险情报系统、单管户查询、企业信息自助查询、数据资源需求管理、数据质效考核、税收动态监控大屏版、税收动态监控桌面版、云平台访问监控以及涉税专业服务动态监控等应用。4. 数据治理工作主要从五个方面开展:元数据管理、数据资产管理、数据标准管理、数据质量管理和数据安全管理。在数据标准方面继承了国家标准化内容,把控数据建设标准。同时结合业务需要积累并整理了核心征管系统业务表单和物理表的对照关系,形成了包含:核心征管系统、个税系统、防伪
14、税控系统、外部交换系统、出口退税系统等业务系统的数据字典。在数据质量方面制定数据质量规则指标二百多项,推动全国数据质量持续优化。5.数据服务云平台数据管理项目运行一年以来,为总局多个业务司局提供数据加工服务;承接总局稽查局的选案工作;承接纳税服务司纳税信用等级评定指标调整测算工作,为信用评价指标调整提供数据依据等;开展新办企业预警模型、非正常户预警模型、进销不匹配模型等指标设计测算工作。项目目标本项目旨在根据业务需求,对平台层、数据层、应用层实施有效的运行维护,完成云平台整体升级优化完善,并根据机构改革要求及进程完成云平台调整优化各项工作,保障云平台平稳运行。1.做好云平台数据管理项目升级完善
15、工作,包括:基于云平台开发、开放更多数据应用,丰富优化云平台的现有功能应用场景,创新应用功能,提升云平台数据管理项目的应用价值和潜能等内容。根据国家与各省局需要,做好云平台应用的增加及数据开放范围的扩大工作。对各司局的迁移软件,做好技术及软件方面的对接工作,满足其数据库创建、扩容、变更等需求。2.做好云平台数据管理项目的运行维护与数据治理工作,包括应用系统日常巡检和监控、故障综合分析及应急处理、性能持续优化等服务,以保障云平台数据管理项目平稳运行。对云平台的硬件扩容提供相应的技术支持,做好对机器的版本升级和应用的性能测试等工作,保障数据处理和各类应用能够正常适应新的硬件平台。按照关于数据治理组
16、织机构、流程制度以及配套支撑工具等要求,做好元数据管理、数据标准、数据模型,数据质量、数据安全等工作,强化数据治理能力,提高数据管理水平,确保整体数据环境可靠、高效、安全,有力支撑征管改革和税制改革。3.做好机构改革涉及云平台调整优化工作,根据国家制定的国合并改革方案,在完成金三系统合并、调整与地方税费全国集成基础上,完成云平台数据层、应用层的相应调整优化与功能开发工作,以保障数据及时、准确集成至云平台,并按照最新的需求展示和供应数据。项目内容云平台数据管理升级完善及运维和机构改革软件服务工作,重点需要完成对云平台数据管理项目的运行维护、对已有功能的优化完善及新增数据需求、应用功能的处理与设计
17、开发以及机构改革涉及云平台调整优化有关工作。重点包括但不限于以下内容:云平台数据管理升级完善及运维和机构改革软件服务项目是在云平台数据管理项目建设成果基础上,做好云平台数据管理升级完善及运维工作与机构改革涉及云平台调整优化工作两项内容:总体设计方案总体定位及目标云平台数据管理项目是工程第二阶段的重要组成部分,项目基于目前最新的大数据处理技术手段和理念,借助金三全面上线的有利契机,以大数据云平台为基础,集中、拓宽和整合内外部数据资源,统一规范数据应用范畴,为各需求主体提供更为全面丰富的决策和参考支持,构建开放协作的税务数据生态环境。项目定位集中体现了基础性、创新性和示范性。基础性。一是构建硬件基
18、础,通过搭建灵活的、可随时调用计算资源的数据云环境,从硬件和技术层面有效解决传统技术结构不足以支撑海量数据及非结构化数据分析应用需求的矛盾。二是夯实管理基础,以打造成熟完善的数据治理体系为重点,为保障数据资产质量提供支撑。三是提供应用基础,为各司局、省局自行开发应用项目提供基础数据和工具,鼓励多样性应用开发。创新性。一是数据利用创新,遵循总体架构要求,继承前期建设成果,在保持四大应用系统总体格局不变的情况下,实现数据全国大集中。二是管理思维创新,整合数据资源和管理资源,以统一平台来解决之前总局各司局数据利用各自为政、重复建设、标准不一致、成果不能共享等问题。三是服务模式创新,体现“众包协助”要
19、求,以提供基础数据服务为主,形成数据统一加工和应用多样开发结合的格局。示范性。为全国各省局数据开发利用提供从硬件建设、数据治理和应用开发的示范性模板,推进全收数据利用水平提升。云平台数据管理项目实现了税收征管数据的全国集中和规范管理,为各级税务机关提供了强大计算处理能力,有机整合大数据技术,全面集成内部数据、积极拓展外部数据、强化数据治理能力,实现了数据的过程监控;建立了税务数据的资产化管理模式,并以用户为核心提供差异化的数据服务,形成了开发协作的税务数据生态环境。同时,加强外部数据交换,实现了税务数据与外部门数据的有效共享整合,为国家信息共享化建设提供了税务方案。云平台数据管理项目升级完善及
20、运维和机构改革软件服务项目以云平台数据管理项目的建设内容为基础,根据的业务需求和国合并工作要求,对平台功能进行持续性升级完善,集中、拓宽和整合内外部数据资源,统一规范数据应用范畴,提升数据治理能力,为各需求主体提供更为全面丰富的决策和参考支持,并提供必要的基础运维,保障云平台正常运行。设计原则及约束总体设计原则大数据云平台建设与开发,需要协调“整体与局部、集中与分散、先进与实用、近期与长远、统一与个性”之间的矛盾,涉及到数据库、数据仓库、联机分析处理(OLAP)、数据挖掘等多技术、多学科的交叉,是一项复杂的工程。项目建设应遵循“整体规划、大胆创新、分步实施、统一规范”的总体原则,在总体规划上要
21、体现体系化、规范化,在具体设计上体现前瞻性、创新性,在项目实施中分步骤、保重点,按照工程计划逐步实现建设目标。大数据云平台建设与开发应满足但不限于以下原则要求:实现结构上稳定、灵活、可扩展底层的数据治理和上层应用开发在架构上保持松耦合。上层应用可根据用户需求不断开发、优化或调整,数据资源层提供标准化接口,以服务的形式封装数据,屏蔽底层物理数据库信息和数据结构,增强系统灵活性,在充分满足现有需求的基础上兼顾后期发展,在相对稳定的架构下,选择成熟的产品与技术,满足税务未来(5年)业务需求及技术的发展变化。设计上开放、一致、安全在设计时从纵向、横向、前向、后向多维互联角度充分考虑,建立完整的数据管理
22、体系,遵守统一的数据源、统一的数据模型、统一的数据接口、统一的接口标准等原则,保障数据的一致性。同时兼顾系统的开放性,充分考虑各类应用需求,包括大数据应用、传统数据应用,涵盖统计监控、宏观决策、微观分析、公众服务等。且不设置应用总集成概念和实体,以利于各司局、部分省局及其他相关主体自主开发各类应用。此外设计上也不局限于分析类应用,可尝试海量并发查询类应用等应用模式。最终实现对敏感数据与应用访问的权限控制和轨迹跟踪,加强核心数据的管控,确保系统数据安全。管理数据权限并实施数据访问控制,针对各应用系统组织实施安全审计。标准上规范、易懂、通用完善业务、技术、管理标准规范体系,包括制定和推广总体标准、
23、信息系统标准、管理标准和业务规范等,确保各类命名规范,业务规则定义,度量方式等的规范性和通用性,并使用统一的业务语言进行描述,易于业务人员和技术人员的理解使用。同时建立配套的运行维护和数据治理机制,保障系统的有机生命力,支撑业务发展的需要。用户体验上友好、便利、易用基于SOA架构开发数据应用,在技术选择上,充分利用云计算、大数据等前沿应用技术的最新成果,借助云的灵活性,更好的满足税务行业可变业务的需求,借助云的敏捷性,更快的响应业务要求,通过大数据提供的海量数据处理能力,更充分的挖掘税收数据的价值。在业务展示上充分利用数据可视化新技术,借助于图形化手段,从不同的维度观察数据,从而对数据进行更深
24、入的观察和分析。在数据应用集成层提供丰富的数据分析工具,支持模块的拖拽和自由组合。总体设计约束总体设计包括总体架构设计和数据治理机制设计两个部分。数据治理机制设计目标根据数据本项目数据治理要求与约束,完成国家数据治理机制建设。设计要求数据治理涵盖了人员,流程和技术,是一系列改变数据使用行为的过程,它从根本上改变业务和信息技术的使用方法。在内容上,要求实现元数据管理、数据标准管理和数据质量管理三个方面的机制和流程建设。设计约束遵循本项目数据治理机制要求和约束。总体应用架构设计根据招标文件中要求,云平台数据管理项目是以大数据云平台为基础,集中、拓宽和整合内外部数据资源,统一规范数据应用范畴,为各需
25、求主体提供更为全面丰富的决策和参考支持,构建开放协作的税务数据生态环境。主要包括平台层建设、数据层建设和应用层建设。云计算支撑平台:系统搭建灵活、可随时调用计算资源的数据云环境,并构建完整的三层服务模式,包括计算存储和网络设备、系统软件工具集、安全及运维监控管理的建设,从硬件和技术层面有效解决传统技术结构不足以支撑海量数据及非结构化数据分析应用需求的矛盾。大数据支撑平台:大数据支撑平台是用于各项数据相关工作的云计算产品和大数据工具软件集合,利用现有或者采购的相关软件产品,构建数据治理体系和开展数据分析处理,将大数据云平台和工程规划范围内的其他数据平台集于一体,使的金三生产系统数据、总局保留软件
26、数据和多来源的外部交换数据相互贯通,持续提升数据标准、数据内容以及数据质量,实现数据“好用、足用”的目标。应用平台层:在全收数据大集中和外部数据扩展基础上,为总局和各司局及部分省局提供方式灵活、内容丰富的自主应用开发的平台。本项目实现主体画像、全国视角的纳税人遵从分析和税收动态展示3类验证和示范应用。 总体数据架构设计根据总局数据层平台的要求,我们将需求细分为数据集成、数据治理、主体汇总、数据应用等4个技术支撑平台,以承担所有数据活动涉及的数据获取、模型组织、信息加工、质量管理、结果展现等处理功能。数据框架设计1 数据集成负责数据集成,通过调度控制和规则管理实现对数据集成的任务管理,数据集成平
27、台将源数据(核心征管、电子税务、出口退税、外部数据等)通过ETL/数据复制的数据加工、清洗、转换,完成从源数据数据准备区统一数据视图。加工中出现的错误预警提交给数据治理平台的数据质量管理应用。2 数据汇聚汇聚数据是将基础数据区的数据按照纳税人、业务日期、业务状态等维度进行的轻度汇总的事实表和事实表关联的维度表。3 数据应用由查询统计、征管状况分析、报表管理、风险管理、政策评估、绩效管理、知识管理、税收收入核算分析系统、电子档案管理等部分和日常应用管理组成。本包负责:查询统计、征管状况分析、报表管理、税收收入核算分析系统、电子档案管理的建设和大数据平台的日常应用管理建设。4 数据治理负责环境的数
28、据治理,它是结合数据治理相关的组织、制度和流程和数据标准完成对数据的治理,治理内容包括:数据质量的管理、元数据的管理、数据生命周期的管理、以及数据审计管理等。数据框架细化设计1、基础数据层基于目前总局数据状况,数据采集的源头主要包含:各类税收业务系统数据、外部交换数据、互联网开放数据。税收业务系统:税收业务系统是本次数据体系中最主要的数据源头,税务业务相关的数据主要从这些系统中获取。核心征管系统数据覆盖13个业务域的业务数据,同时发票数据和出口退税数据虽然系统还没有统一,但是会统一采集到核心征管数据体系内。交换数据:交换数据分为两个部分,总局统一交换数据和各省局交换数据。在基础数据层会单独规划
29、交换数据域,统一规划数据交换模型,将总局交换数据中数据价值度高、数据质量高、数据稳定性好的数据和选取几个省局的交换数据,合并数据结构,采集到统一的数据交换域。互联网数据:互联网是一个开放式的数据源,在本次数据体系和应用的建设中,需要依赖互联网的开放数据作为应用的基础数据,参与税务数据价值挖掘过程中。互联网的数据获取会利用平台的爬虫工具,定向的获取互联网数据。本次需要建设互联网爬数的平台,能够满足甲方不断增加数据源,调整数据爬取深度的要求,满足爬取数据从非结构化到结构化存储的要求;2、数据中间层数据中间层的建设主要的目的是将采集和整理后的基础数据,以某个主体或者关系,将数据联系起来。设计扩展性强
30、的数据模型,随着原始业务数据的逐步丰富,不停丰富主体的描述、行为及管理类的数据。 数据中间层在整个数据体系建设中起到通的作用,以主体维度联通各种来源数据。联通后的中间层数据,将提供给下游模型和挖掘应用更丰富、更标准、更易用的生产原料。总局大数据云平台将具有强大得数据计算和存储能力。基于平台的能力和互联网数据建设的设计思路,在数据中间层的建设中不会做复杂的业务逻辑加工,保留业务的事实明细数据。增强数据中间层的扩展性和复用性,业务逻辑的加工放在应用和挖掘层完成。这样会压缩整个数据处理的过程,同时有利于数据口径的统一和数据质量的控制。基于目前总局对于大数据应用的要求,本次数据中间层的建设将着重三个主
31、体库的建设:企业库、自然人库、关系库。3 数据挖掘层数据挖掘是指利用打通后的数据,针对需要数据支撑的业务,进行数据模型的建设和数据价值的挖掘。基于本次云平台数据管理项目的业务需求,数据模型和挖掘将包含征管分析模型、企业风险控制模型、个人风险控制模型、企业标签体系模型、自然人标签体系模型。征管分析模型:基于目前总局对于征管工作所规划的指标体系,提炼出当前业务状态下最关键和重要的指标,对这些指标进行数据建模,每日生产出数据指标数据,并持续跟踪指标的变化情况,为征管工作分析应用提供数据支撑。 企业标签体系模型:针对目前总局对于企业征税管理的需要,设计对企业进行分类、刻画的描述标签,制定标签业务含义及
32、数据算法,通过对企业库的数据进行数据挖掘,获得刻画企业的标签数据。自然人标签体系模型:针对目前总局对于自然人征税管理的需要,设计对自然人进行分类、刻画的描述标签,制定标签业务含义及数据算法,通过对自然人库的数据进行数据挖掘,获得刻画自然人的标签数据。数据治理方案概述数据治理体系将云平台和工程规划范围内的其他数据平台集于一体,使金三生产系统数据、总局保留软件数据和多来源的外部交换数据相互贯通,实现各类数据的集中定义和管理,为建立统一数据视图、数据集市、各类分析业务的定义、指标和规则定义以及数据集成定义提供语义基础,同时提供对各类数据的审核管理和维护机制,维护数据的完整性、准确性以及一致性,实现数
33、据生命周期管理、数据标准、数据审计等各项功能。通过数据治理过程,使得数据标准、数据内容以及数据质量都能够得到持续的提升,保证数据资产的长久价值。数据管理制度与机制数据管理规章制度是将数据管理体系实施中的重要步骤、行动和任务的处理方式、途径和评估等进行规范和固化,概括和规定如何实施数据管理体系、如何考核实施结果以及如何进一步完善整套机制,为数据管理体系建设的参与者提供可以遵照执行的原则和具体方法。政策规章制度以固化的、标准化的形式来描述管理决策分析平台数据管理模型中设计的组织架构、岗位职责、工作流程等各项内容。这些规范与以往经营活动中发布和执行的很多数据管理相关的政策规章制度是类似的,但数据管理
34、的政策规章制度是针对数据管理各管理主题本身要解决的问题以及管理主题之间的协调性问题做出相应的规定。在此定义的数据管理框架还应包括:明确数据管理框架的目的和重大意义、基本原则和定位、所遵循的外部或内部要求、各相关方的义务和权利、绩效考核手段、可供使用的业务手段和技术手段、数据标准、数据传输、数据质量控制和监控、需要补充完善的规章制度等。数据管理制度与机制要求如下:1.按照数据治理体系要求,根据数据治理工作具体实践持续协助完善数据管理制度和机制,修订数据治理体系规范。2.按季度编写数据治理报告,报告应基于该季度数据治理工作情况编写,并针对数据治理中的问题提出分析改善方案。数据标准与规范建设数据标准
35、规范是总局信息化标准的一部分,是对总局管理所涉及的各项数据的定义与解释,以及数据质量及安全性要求的统一定义。数据标准规范着重于对税务局各业务部门使用的通用及共享数据制定一套大家共同接受的业务概念及技术实施时的统一定义。数据标准主要内容包括:业务数据、数据模型、数据交互等;数据元素定义的业务规则;数据实施的相关技术要求,例如:数据的存储格式、质量问题等。由于税务业务在不断的发展和变化,反映税务业务的数据标准也是一个动态的管理目标。在数据标准的制定工作初步完成后,数据标准的日常维护和更新工作就成为保证数据标准得以遵照和执行的基础。数据标准管理流程作为数据管理的重要组成部分,它的主要目标是明确定义数
36、据标准的维护流程,明确数据标准管理的组织架构,为数据标准的管理提供一套端到端的管理机制和维护环境。以下管理流程的建立方法着重说明在数据管理流程的框架设计下,数据标准的管理流程是如何建立起来的。数据标准管理工作负责制定和维护全部业务经营涉及的数据标准,通过系统的实施逐步推广数据标准的落实。数据标准管理体现在数据标准的制定、审核、执行、反馈和争议协调等各个工作环节中。数据标准的制定需要参考标准机构制定的数据标准,同时也应参考各个部门内部使用的特定数据的定义。数据标准管理的对象是税务局所有生产、管理决策的数据,不包括为维护系统运行而设置的参数型数据,如系统日志的数据定义等。数据标准采用数据分类管理的
37、方式对数据进行定义和管理。参考领先实践的经验,数据标准可以结合以下两种分类方式进行管理: 按照共享程度分类根据数据的共享程度,税务的数据可归为三大类:通用数据、共享数据、部门特定数据。其中,通用数据是指那些由各业务部门共享的数据,如查询统计数据、报表数据等;共享数据是指那些由多个业务部门共同使用的数据;而特定数据是指那些专属于某些应用系统或业务部门的数据。数据标准管理的对象范围包括这三类数据,但数据标准的推广实施可先从通用数据开始,最后将部门特定数据进行标准化管理; 按照数据产生方式分类根据不同产生方式,数据可归为三大类:基础数据、衍生数据、公共代码类数据。其中,基础数据由系统生成或直接录入,
38、衍生类数据由基础数据通过转换和计算产生,公共代码类数据是通用的共享代码,是特殊的基础数据。根据的具体情况并参照以往标准化工作的实践,数据标准管理工作应参照以下指导原则:数据标准的推广执行必须遵循循序渐进的原则。数据标准管理小组不仅是标准的制定和管理组织,而且还是提供数据标准咨询的内部服务组织,为各项目的顺利开展提供数据标准定义的解释和数据标准使用的培训。数据标准的制定应参照国际、国内、行业等标准,并结合税务行业的实际需求。数据标准的定义要与行业、国内及国际的数据标准相适应,在充分考虑和尊重现有数据情况等的基础上,结合系统现实和未来的切实需要,编制或补充相应的数据标准。数据标准定义应具有前瞻性。
39、数据标准定义的前瞻性,要求已经定义的数据标准能够在一段时间内相对稳定地满足总局对数据标准化的要求,而不是频繁地更改与修订。完善的数据标准审阅流程。鉴于数据标准的重要性及跨业务领域共用的特点,为保证数据标准定义的质量满足准确性、通用性、前瞻性等要求,需要建立完善的数据标准审阅流程。审阅过程要充分征求业务部门、数据标准主管部门、业务部门业务专家等各方面的意见,并据此制定相对完善的、可用性强的数据标准。一致性维度标准一致性维度是指具有一致的维度关键字、一致的属性列名字、一致的属性定义以及一致的属性值(将转化成一致的报表标签与分组标识),不管是在同一数据库中还是基于配有多种数据库平台的数据仓库范围内,
40、对于某个特定的维度,这些内容都是一样的。简单来说,只要在数据层范围内,不管物理上部署了多少个数据库,不管什么应用系统,对于某个指定的维度,都具有相同的表结构和相同的数据。一致性维度作为一根总线,不仅使这些内部系统能够以一个统一的标准结合在一起,还使所有基于数据平台的外部系统能按照这根总线的标准插入其中,构成一个总线矩阵,以实现数据层大平台的概念。在设计一致性维度时,不依赖、不照搬生产系统数据层中特定的表,而是充分考虑各个系统之间的差异,集成多个系统。基础数据项体系标准通过抽象与归纳税务领域中的各类凭证数据和大量常见的、公共的分析指标,以数据层中经过加工的各类事实数据为基础,把这些凭证数据和分析
41、指标在数据层面上定义为各种基础数据项,从而形成税务领域的基础数据项体系,为各类查询统计、分析评估、预警监控等分析型应用提供统一和标准的数据支撑。在业务层面,基础数据项体系规范了不同分析型应用之间的口径描述,使得不同系统间对某个特定的分析指标具有一致的定义,解决了同名不同义和同义不同名的情况。在数据层面,基础数据项体系保证了不同子系统间分析结果的唯一性,解决了同一个分析指标在不同系统间出现不同的分析结果、分析结果相互矛盾的情况。所有分析应用系统对某些凭证数据的查询和公共的分析指标的利用都来源于统一的基础数据项部分(当然还会有其它非公共的数据,这些非公共的数据从数据层的其它部分获取),保证了多子系
42、统间分析口径的一致性和数据的唯一性。基础数据项的定义基础数据项是对税务系统内各类常见的凭证数据和分析指标在数据层面的解释和实现。例如,登记户数、应申报户数、已申报户数、税收收入等。它包含三个要素:1、口径在业务上,用于规范基础数据项的业务口径,使基础数据项不是笼统的、模糊的。在设计实现时,用于明确每个基础数据项进行取数的事实表和表的字段,以及取数时的限制条件等。2、维度维度用来确定基础数据项的属性,明确可以从哪些视角出发来分析某个特定的基础数据项。因为一致性维度标准的建设,所以基础数据项体系中维度这个要素保证了基础数据项在不同应用子系统之间的一致性,使不同子系统间对同一个基础数据项、同一个维度
43、的分析都能得到唯一的值。在基础数据项体系中,与它关系密切的一致性维度包括:(1)税务机构税务机构维用于确定某个基础数据项的分析数据的空间范围,包括市、区县和所三个层次,可以在三个层次间上卷下钻来灵活取数。(2)时间时间维用于确定某个基础数据项的分析数据的时间范围,包括日期、旬、月、季度、半年和年六个层次,可以在六个层次间上卷下钻来灵活取数。时间维和上面描述的税务机构维几乎是所有基础数据项必定包含的两个维度,只有从某个特定的空间和时间范围内来分析数据才有意义。(3)行业行业维用于确定某个基础数据项的分析数据所属的行业,因为很多数据只有在同个行业内比较才有意义,包括明细行业、中类、大类、门类和产业
44、五个层次的内容,可以在五个层次间上卷下钻来灵活取数。(4)登记注册类型登记注册类型维用于确定某个基础数据项的分析数据所属的登记注册类型,包括小类、中类、大类三个层次的内容,可以在三个层次间上卷下钻来灵活取数。(5)征收项目征收项目维用于确定某个基础数据项的分析数据所属的征收项目。(6)其它跟特定的基础数据项有关的维度,比如,对税收收入这个基础数据项,除了上面列的维度外,可能还会比较关心预算科目维和预算级次维。3、值在确定基础数据项的口径和选择特定的维度及维度的值后,就能量化这个基础数据项,得到基础数据项的值。基础数据项体系建设在讨论基础数据项的定义时明确了基础数据项包含口径、维度和值三大要素,
45、那么,在进行基础数据项体系的建设时,也将主要围绕这三要素展开。1、确定口径和维度对于每个基础数据项,在分析其业务上的含义后,明确这个基础数据项必须支持的维度,确定其在数据层中的事实表和字段(包括各维度对应的字段和基础数据项的值对应的字段),以及条件限制等取数上的口径。2、取得值对于根据第一部分确定的口径和维度能直接从分析主题中取得值的基础数据项,直接进行下面将要介绍的基础数据项管理即可。而对于不能直接从分析主题中取得值的基础数据项,则需要经过数据加工过程,利用各类技术手段把基础数据项所需的数据预先加工好。3、基础数据项管理基础数据项的口径整理清楚了,值也能取到了,但是如果不对它们进行统一的管理
46、,那么它们还是一盘散沙,发挥不出基础数据项体系的优势。通过指标库,把那些散落在数据仓库中的基础数据项集中管理起来。对技术实现人员,能从税务指标库中了解每个基础数据项的物理存储及数据加工过程;对用户,能从指标库中获取每个基础数据项的口径描述及如何使用它们。元数据管理元数据管理包括但不限于以下内容:1、数据血缘影响分析。根据数据资产链路进行数据血缘影响分析工作。2、元数据配置维护。对云平台26项技术、业务元数据进行配置和维护;3、新增功能建设。投标方应根据招标方的要求开发元数据管理相关功能,包括但不限于以下内容:(1)关系配置管理,用于对应用、功能、数据项等基础数据进行灵活配置管理。(2)数据项管
47、理,用于收集云平台应用数据项内容录入及管理。(3)数据需求管理,主要用于收集云平台各项数据需求内容。元数据管理总体分析元数据管理的范围在云平台数据管理项目规划和建设过程中,我们针对税务行业的现状,管理技术元数据、交易业务元数据、统计业务元数据。1、技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。主要包括涉及到的所有数据源DB。2、业务元数据是从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。主要包括交易业务元数据、统计业务元数据。其中交易业务元数据主要是的税务行业涉及到的凭
48、证及数据项信息,统计业务元数据主要是税务行业涉及到的指标、纬度、基础编码、业务术语、业务规则、业务描述等。详细范围分类如下表:应用模块具体功能子功能备注建设阶段元数据实体管理技术元数据各个数据源涉及的表和字段按照业务源系统分类组织自动获取交易业务元数据凭证元数据根据业务梳理凭证库自动获取,或者模板整理,批量导入数据项元数据根据业务梳理凭证库自动获取,或者模板整理,批量导入业务术语、业务规则、业务描述根据业务梳理模板整理,批量导入统计业务元数据维度元数据根据业务梳理指标库自动获取,或者模板整理,批量导入指标元数据根据业务梳理指标库自动获取,或者模板整理,批量导入元数据关系梳理技术元数据数据库表D
49、B实体间字段级关系梳理按照数据流关系梳理ETL中自动获取,或者模板整理,批量导入交易业务元数据各个凭证数据项之间的关系梳理按照业务数据流向梳理模板整理,批量导入统计业务元数据指标、维度之间关系梳理按照业务数据流向梳理模板整理,批量导入元数据应用基本功能应用图形分析功能血缘分析技术元数据表查询查询功能指标查询查询功能元数据分类分析元数据是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据,元数据是描述数据仓库内数据的结构和建立方法的数据。根据不同语境中描述一个数据的属性角度及内容不同,可将描述一个数据的元数据划分为业务元数据、技术元数
50、据和管理元数据,如下图:业务元数据是在业务语境中对一个数据的业务属性部分的描述,从商业和业务的角度描述数据仓库的数据,提供了良好的语义层定义,如数据的业务说明、语境、关系等,业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。技术元数据是在技术语境中对一个数据的技术属性部分的描述,描述关于数据处理技术细节的数据,如数据的字段名、字段长度、小数点位数等,这些元数据应用于开发、管理和维护数据整合系统。管理元数据是在管理语境中对一个数据的管理属性部分的描述,如数据的版本号、提交单位、批准单位、应用状态等。一个数据的业务、技术和管理元数据共同构成此数据的完整元数据描述。元数据用于支持管理决策分析
51、平台的技术活动、管理活动和业务活动,其应用覆盖管理决策分析平台技术、管理和业务等各个方面。元数据覆盖范围分析根据软件开发的大体阶段,结合每个阶段对数据的处理加工工作,给出了每个阶段中涉及的元数据的大体范围,如下图:标准规范在软件开发初始阶段,需要制定数据的标准规范,从而产生数据初始的标准规范部分的元数据,标准规范的元数据包括数据元定义、数据项定义、表证单书定义等。数据建模数据建模阶段对标准阶段定义的业务数据项或数据集进行整理、重组,结合软件的功能需求,形成符合软件功能需求的数据组织形式,产生数据重组过程的不同集合形态的元数据,数据建模的元数据包括概念模型元数据、逻辑模型元数据及物理模型元数据。
52、创建数据存储对建模阶段的物理模型进行物理落地创建,创建后形成数据的实际物理存储的元数据,本项目中物理存储的元数据包括源数据库、统一视图库、数据仓库和各数据集市库的元数据。数据集成数据集成对数据进行抽取、清洗、转换等处理,在此过程中需要对数据的转换规则、转换过程进行定义,形成数据转换规则、转换过程定义的元数据。应用展现或数据展现应用展现通过方案的手段形成各种各样的数据展现内容和样式。在制定方案的过程中就形成了不同方案的元数据,包括查询统计方案、报表方案、征管分析方案以及挖掘方案等的元数据。数据治理数据治理中包括对数据质量的业务定义、检查规则定义、检查的手段及流程管理的元数据。还包括对数据生命周期
53、的定义、数据迁移规则及迁移方式描述的元数据。元模型分类元模型是元数据的模型,是确定元数据的存储形式和存储内容。元模型是由元数据类型来确定的,如:数据库的元数据应有一套的数据库各元数据的元模型与之对应,以便数据库的各种信息能够全面的、准确的、完整的、不丢失的采集起来。理论上来说,在开发过程产生的元数据都应该采集起来,但有些过程元数据采集来用处不大,可以不需要采集,如:数据建模的元数据。元模型有如下几种分类:类型说明标准规范元模型描述数据标准或规范,如:表单、代码表、接口、税务业务数据元技术元模型描述系统技术元数据,如:数据库、ETL、ER模型等业务元模型描述业务口径,如:指标、报表、统计规则元模
54、型描述质量检查规则等生命周期元模型描述生命周期的元数据元数据管理设计应用架构元数据管理的体系架构如下图所示:元数据管理体系架构包括:元数据获取层、元数据存储层、元数据功能层和元数据应用层,详细描述如下:1、获取层获取层描述了元数据获取的各种途径。元数据覆盖数据源系统涉及的所有数据的整个生命周期,基本采用以自动方式进行获取(如数据字典、数据模型等)。另外提供手工获取功能实现对业务、技术和管理元数据的补充获取。2、存储层存储层定义了元数据存储所遵循的元模型,存储从获取层得到的各类元数据的属性要求和存储格式要求,包括业务元数据、技术元数据和管理元数据。元数据管理元模型是元模型设计工具实现。3、功能层
55、功能层为各类元数据应用提供了基本的功能支撑,主要包括元数据基本功能、元数据分析功能、元数据服务接口和元模型管理四个部分。4、应用层应用层在元数据管理模块功能层的支持下,元数据应用层通过调用功能层的功能,对元数据管理的实际问题提供应用解决方案。技术架构元数据管理的技术架构具有良好扩展性,以及元数据能力公开的特性,另外提供方便的集成方式,其前端界面集成到业务工作门户的数据治理平台中。如下图所示:详细描述如下:1、工作门户提供统一访问应用功能的入口。2、集成层提供对系统访问的控制,如:权限集成、页面集成等。3、业务应用层专用工具层采用成熟的元数据管理工具 MetaOne。基础服务是为了支撑上面两层功
56、能而提供的通用的统一的基础数据应用服务。这部分的功能由工具软件提供保障。4、应用功能是数据治理平台的最上层,提供了直接满足于业务需求的功能服务,应用功能层包含基本功能、分析功能、元模型管理、元数据服务接口、元数据获取组件等。5、技术服务层:提供数据访问、网络访问、文件访问及其他访问等服务。6、资源层用于存储云平台数据管理涉及的元数据。部署架构数据质量管理数据质量的好坏是决定数据利用率的重要因素,数据质量管理旨在发现并有效提升数据质量,数据质量管理包括但不限于以下内容:1、数据质量检查。制定检查规则,并针对2017年度建设的二百多项数据质量规则根据业务变化情况开展更新维护,提供评审;根据检查规则
57、编写(更新)检查脚本。2、数据质量问题分析。结合云平台基础层、中间层加工过程和数据查询服务过程,分析确认数据质量分析点,开展数据质量问题验证和分析;提取云平台日常运行中出现的数据质量问题;根据数据质量检查规则和脚本扫描问题。3、编写数据质量分析报告。针对上述几点产生的问题数据进行分析,形成问题解决方案,编写分析报告;并对处理后的问题数据跟踪检查。4、数据绩效考核支持。对总局发起的定期数据绩效考核工作进行支持,包括但不限于考核需求分析、脚本编写、数据提取及归类分析以及问题解答等工作。5、数据质量考核工作支持。对总局发起的定期数据质量考核工作进行支持,包括但不限于考核需求分析、脚本编写、数据提取及
58、归类分析以及问题解答等工作。数据质量管理总体分析经过对本项目的数据质量管理的需求的分析,从本项目的宏观角度来看,数据质量管理的范围包括以下几个方面:数据标准与规范的建立;数据模型的统一、规范;建立元数据管理并实现以元数据为源头的主动管理;业务系统中的界面层及逻辑层的数据逻辑符合性检查;数据从采集到展现给用户的整个加工过程中的数据质量检查及涉及的数据质量问题的数据维护。在以上的数据质量管理的范围中,并不是所有的数据质量范围都由数据质量管理平台来负责实现,而只是有很少范围内的数据质量问题由数据质量管理平台来负责实现,并结合其它的应用功能或子平台共同形成一个整体的数据质量管理体系,具体的数据质量范围
59、管理的划分如下图:数据质量管理设计应用架构数据质量管理应用按层次划分为获取层、存储层、功能层和应用层。详细描述如下:获取层获取层是数据质量功能和应用的基础,主要是实现数据的采集功能。数据质量管理采集、保留系统以及云平台所需的质量监控数据。采集的数据范围包括数据源采集、统一视图采集、数据仓库采集、数据集市采集和数据集成采集等。存储层存储层中主要包括二个部分:规则信息:规则信息包括数据质量检查规则、数据维护方案、数据部署信息和高度信息等;数据质量信息:存储数据质量信息包括质量告警信息、质量评估信息和数据质量问题处理信息等;功能层功能层是对数据质量管理的支撑,主要包括三部分内容的功能:数据质量评估:
60、包括基础数据质量评估和平台指标关联性分析。配置管理:包括基础信息管理、质量规则管理、检查流程管理和数据制质量检查等等。质量问题管理:数据质量问题处理是按照问题处理流程对系统监控所发现的问题进行处理的过程,包括问题生成、问题分析、问题处理(包括流转)和问题总结。应用层应用层包括数据质量的所有功能,主要包括数据质量检查、纳税人信息主题评估、数据质量知识应用、数据质量维护等等。技术架构数据质量管理的技术结构包括数据质量信息库、功能组件、数据质量应用和数据质量对外服务接口等部分,如下图所示:详细描述如下:1、工作门户提供统一访问应用功能的入口。2、集成层提供对系统访问的控制,如:权限集成、页面集成等。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医患关系名人案例集
- hiv合并hcv抗病毒病案 课件
- 切粒机介绍教学课件
- 手工皮具制作工艺承诺书6篇
- 2026福建龙岩市武平焕章医院招聘备考题库及1套参考答案详解
- 中国汽研2026届春招备考题库及参考答案详解一套
- 2026重庆人力所属企业重庆人才服务股份有限公司招聘派往两江新区某学校保安备考题库及完整答案详解
- 分拣技术教学课件
- 2026年海员职称晋升《机工业务》考试真题题库及答案解析
- 致橡树朗诵专题
- 江苏省南京市南京师范大学附属中学2025年高二上生物期末联考试题含解析
- DBJ50-T-516-2025 危险性较大的分部分项工程安全管理标准
- 维修飞机基础知识培训课件
- 地下水库工程设计导则(2025版)
- 炸街车检测设备采购服务方案投标文件(技术方案)
- 销售部安全工作总结
- 外墙漆脱落维修施工方案
- 二甲医院评审实施流程
- 密码学培训课件
- 机房精保洁施工方案
- 2025年工会干事招聘面试题库及解析
评论
0/150
提交评论