某县大数据中心大数据资源平台建设与应用解决方案_第1页
某县大数据中心大数据资源平台建设与应用解决方案_第2页
某县大数据中心大数据资源平台建设与应用解决方案_第3页
某县大数据中心大数据资源平台建设与应用解决方案_第4页
某县大数据中心大数据资源平台建设与应用解决方案_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目编号:某县大数据中心大数据资源平台建设与应用解决方案项目编号:2022-XX-XX编制单位:XX市XX中心编制日期:二〇二二年二月目录1.1建设目标 11.2总体设计 21.2.1设计原则 21.2.2总体架构 31.2.3功能架构 41.2.4技术架构 51.3建设内容 51.3.1数据汇聚建设方案 51.3.2数据治理建设方案 101.3.3数据管理建设方案 291.4建设效果 481.4.1全量化数据资产 481.4.2可视化数据管理 481.4.3多样化数据服务 501.4.4高效数据应用开发 541.4.5智能化数据监控 56平台建设目标结合某县全县的经济社会发展、社会治安总体状况和城市总体规划布局,以服务公安各警种为出发点,建立数据资源池,部门间共享数据,全面提升信息化应用效益,以云计算、大数据、人工智能等新技术为关键支撑,以服务业务应用为根本目标,对多源、海量、异构、实时视频数据的接入、汇聚,实现数据标准化、数据融合化、数据标签化、数据模型化等数据治理工作,为各部门提供标准数据服务和增值数据服务。具体目标:构建模型驱动架构(MDA)的能力。支持业务化的模型设计和技术实例化,实现模型、模型分层的联动以及集中化存储和管控,保障需求-设计-实现-运行的一致性。构建面向数据处理的统一管控框架。实现系统后台数据处理的业务透明度,彻底杜绝技术实现的黑盒化,实现数据资产业务化的“可视、可管、可控”。实现业务需求的快速响应。通过标准化的生产方式,最小化重复的体力工作,提高开发效率,提升系统总体产能力。实现数据处理过程中元数据、数据质量的统一管控。实现对元数据的强制前向获取、规范性的数据处理、数据质量控制方法和技术管理手段,大幅细化、下潜数据质量控制粒度,提升数据质量问题收敛速度。实现模型和数据处理的标准化、规范化。通过标准化数据处理流程和代码编写规范,对命名规则、分层模型进行统一管理,能够对数据处理过程的元数据进行规范性、完整性、时效性检查控制,将数据标准和开发管理规范100%落实到日常的数据处理开发和运维中。构建自描述的知识系统。通过IT系统的技术手段保证数据处理经验的有效传承,让有相关经验的人员在无人协助且无文档帮助的前提下可以快速理解和掌握系统,降低人员的个性和流失带来影响。构建可定制的扩展能力。提供灵活开放的接口层,让第三方可以不依赖平台厂商和应用厂商的支持的前提下,独立完成各种开发管控和数据管控的用户需求。总体设计方案设计原则大数据中心建设遵循以下基本原则:1、数据治理产品化数据治理的成果和内容,必须落实到相应的产品来严格实现。这些成果和内容不再是简单的文档和管理流程,而是要通过切实可行的IT手段严格落地。2、数据处理工厂化数据处理工作,包括但不限于数据输入、数据加工、数据输出等,必须实现工厂化的建设和管理,以“极速、低成本、高质量”要求来响应海量的客户个性化数据需求。通过实现数据处理全过程业务化的“可视、可管、可控”,让业务人员可以参与数据处理的全过程,实现“需求-设计-实现-产品”的一致性贯穿。3、数据模型标准化按照数据治理的要求,通过平台将数据模型的要求严格落地,杜绝不满足标准的数据模型出现在系统中。4、数据运营全员化体现“平台化、开放性”的思想,提高数据开放的可视化,实现人人参与数据治理、数据建设和数据运维。

5、数据安全可控化体现安全的重要性、必要性,保障服务开放过程中数据的安全可控。总体架构业务模型的引入,有效保障了设计与需求的一致性;业务模型到数据模型、技术实现的自动转换,保障了实现与设计的一致性。各环节的一致性保障,才能确保数据的高质量(即数据结果与用户需求的吻合度)。建设数据资源池,为系统提供数据的存储和计算能力。主要包含数据汇聚、数据治理、数据管理和数据服务。数据汇聚层将政府部门数据、社会单位数据做汇聚接入形成原始数据,同时,也包含了上下级、跨网级联的管理和插件管理。数据治理是包含对数据进行去重、清洗、转换等标准化处理,形成基础库数据。并可进一步通过关联分析、聚类分析和标签计算进行数据的深度加工处理。利用大数据集成系统,实现对海量异构数据的集成整合经处理的数据,形成基础库、主题库、专题库等。管理主要包含数据资源目录、日志管理、告警监控、任务监控、服务监控、权限管理、查询配置等。数据服务层可以将所有的数据资源通过对外服务的方式提供数据,包括数据查询、数据订阅、数据开放等基础数据服务。同时,可提供标签建模、智能搜索、特征研判、模型碰撞等智能数据服务。功能架构提供可视化的标准开发环境,进行数据需求开发。开发人员只需按模板填充相关的描述或参数即可完成开发,技术代码由平台统一实现;提供元数据获取和管理功能,标准化的开发使得开发过程即为填写元数据的过程,如果元数据未填充或填充不完整,平台可以不允许开发人员提交,达到元数据强制前向获取;提供数据质量管理功能,在设计阶段即对数据在哪个阶段需要进行哪些质量检查进行定义,设计好的数据质量检查作为开发的一部分并落实到数据处理过程,规则出错可中断调度运行;提供统一开发调度平台,以一个业务量生产过程为例,传统做法是通过接口通信表或时序依赖进行协同生产。在统一调度平台中以数据流作为驱动,通过控制中心进行作业命令下发,状态收集进行控制,达到各个异构系统,多个子系统的协同调度提供与各类底层平台对接功能,通过部署代理到各个底层平台实现双方的互通,开发完成后,任务将自动发布到指定平台中运行;提供对象化接口模块,可将平台中的元数据、数据质量信息、数据标准、任务调度等提供给外部系统,同时也能通过外部系统导入。技术架构基于某县大数据中心的建设目标,结合某县公安数据与业务特点,采用了当前最主流的大数据平台技术架构,构设了某县大数据中心,系统建设以模型为主体,把元数据、数据处理、数据质量、数据标准等功能融合在模型中统一处理和调度。技术架构图如下:平台建设方案数据汇聚建设方案数据汇聚实现将外部各种数据源的数据汇聚到本地数据池的功能,包括数据源注册、数据接入、数据同步和数据级联等。数据注册数据源注册模块可将外部数据源包括PostgreSQL、Oracle、HBP、HBase、mpp、ftp、Kafka、Mysql等数据注册到数据资源平台,包括连接信息,访问信息等。数据接入根据不同数据源采用相应的技术实现数据接入,如Sqoop、FTP/SFTP、DB2API、Flume和Hadoop技术等。数据的接入方式支持全量数据接入和增量数据接入两种,其中增量方式分为按时间递增和按序列递增。数据接入支持并行处理,能够有效提升数据接入效率。在数据接入过程中,提供数据校验来保障数据质量。数据校验依附在数据接入任务完成后,通过对数据源与目标数据库之间的数据进行对比分析,发现与解决在数据接入过程可能产生的异常错误信息。数据接入引擎根据接入数据类型的不同,分别使用不同的技术实现数据接入。采用Sqoop实现各种关系型数据如MySQL、Oracle、PostgreSQL等数据库与分布式文件系统HDFS之间的数据转移。采用Flume实现海量日志数据接入。数据接入引擎还支持FTP、WebService接口等多种方式的数据接入数据接入能力大数据中心具备对多种不同类型数据源的接入适配能力,支持从关系型数据库(例如Oracle、SQLServer、DB2、MySQL、PostgreSQL)、数据接口(例如RESTful和SOAPWebService接口)、文件(例如Excel、CSV、Txt等类型)、大数据文件系统(例如HDFS)、FTP文件系统等异构数据源进行统一接入,为多业务系统的数据整合提供通路,满足企业级数据融合汇聚的需求。1)从数据库接入数据大数据资源中心基于Sqoop数据转移工具实现从关系型数据库接入数据加载到HDFS集群。本质上Sqoop是Hadoop的一个Job客户端,根据创建的数据接入任务,定义Hadoop的接入Job,然后将该Job提交到Hadoop集群执行。Sqoop可以通过Hadoop的MapReduce把数据从关系型数据库中导入数据到HDFS,实现将数据在关系型数据与Hadoop之间的迁移。大数据资源中心采用Sqoop从关系型数据库接入数据,具有如下特点:使用元数据模型来判断数据类型,并在数据从数据源转移到Hadoop时确保类型安全的数据处理;大数据批量传输的能力,能够分割数据集并创建Hadoop任务来处理每个区块;支持增量更新,将新记录添加到最近一次导出的数据源上,或者指定上次修改的时间戳。2)从FTP接入数据大数据资源中心支持从FTP文件服务器中接入数据到Hadoop集群。产品基于FTP协议,将FTP文件读入并传送到HDFS上,实现对海量数据以文件方式进行传输。由于采用基于内存的方式实现FTP数据转移,避免了将数据写入本地磁盘的中间过程,大幅提升数据接入的效率。另一方面,为防止异常导致任务中断,对FTP数据接入支持断点续传功能。3)从HDFS接入数据系统支持从HDFS分布式文件系统中接入数据到大数据资源中心,主要基于Hadoop的Shell命令将文件从源路径复制到目标路径来实现。从接口接入数据大数据资源中心支持对主流接口数据的接入,如基于WebService、Socket等接口进行数据接入。数据接入数据源根据调研情况,目前大数据中心,一期建设需要对接的数据源,以及对接的数据情况如下表数据科目对接系统对接数据内容数据类型当前数据量日增数据量对接方式数据返回方式当前进度公安业务数据绍兴公安大数据平台1.公安资源数据(法制、交警、科通、网警、刑侦、治安……)

2.社会资源数据(数据已基本不更新1.数据库结构化数据

2.图片以二进制方式存储在数据库207类数据

10亿条100万条Http-Api/数据库视图1.结构化返回XML,解析后提取数据

2.图片数据返回Base64码流数据,解析后提取图片非热点存量数据已完成省厅众智平台公安社会资源数据结构化数据库待确认待确认待确认待确认目前公安无相关权限社会数据舆情系统社会热点、居民动态、群体情绪分析、安全隐患风险……1.数据库结构化数据

2.有少量图片、视频//数据接口/中间库/文件按接口方式返回数据对接中(1w/年的定价,客户未明确要接入)智安小区数据电子巡更、车辆出入、人员出入、入侵报警、身份验证、门禁等…1.结构化数据库

2.车辆出入图片等非结构化数据TB级别/经智安小区管理平台通过网闸接入公安视频专网智安小区汇聚与管理平台待确认对接中(绍兴市要求10月完成、目前对接优先级靠后)物联感知数据海康平台1、雪亮工程监控视频

2、车脸图片

3、村级和治安监控1、结构化数据库(监控点位、设备信息)

2、车脸图片数据TB级别1、现有11000多路视频,分布式存储(200TB)

2、车脸数据每天200-300万1、点位信息可通过数据库视图方式直接获取

2、视频流和视频文件需要走接口方式获取(以获取人脸、车辆或特点事件视频数据为主,数据先由AI平台处理)

3、车脸图片数据公安1400协议下接口方式获取已完成旷视人脸平台1000路抓拍人脸照片数据实时人脸图片,对应的抓拍设备编号、抓拍时间点,包含人脸的小图和人脸所在大图的URLTB级别50-100万张照片公安1400协议下接口方式获取按接口方式返回数据已完成MAC1.终端特征信息2.被采集热点信息结构化数据库TB级别20GFTP服务器接收zip压缩包,含xml索引文件和bcp数据文件已完成数据拓扑图如下图所示,视频专网到公安内网已打通,实时Mac数据、海康车脸数据、旷视人脸数据已接入公安内网数据同步数据同步实现将数据同步到数据资源池,同步策略包括以下几种:(1)支持设置外部数据结构和目标数据之间的映射关系。(2)支持设置目标数据源的类型,包括:FTP、kafka和MPP。(3)支持全量同步和增量同步,增量同步需要设置增量字段。(4)支持周期性同步和一次性同步,周期性同步支持按月、按周、按天、按小时、按分钟、按秒同步,一次性同步支持设置同步时间。(5)支持监听kafka消息,同步实时数据。(6)支持文件同步与数据库同步数据级联数据级联实现多个数据资源池之间通过数据级联功能实现数据交换共享,包括向上级联、向下级联和同级级联多种类型。根据网络情况,支持同网级联和跨网级联,满足用户跨网级联的需求。系统可根据不同数据池的数据需求,按需推送数据,也可根据本级数据池的需求,按需接收其他数据池推送的数据。同时支持查询级联任务的相关信息,并可对级联任务进行编辑和删改。数据治理建设方案总体建设方案概述数据治理将分散、多样化的数据通过汇集、标准化、清洗等操作对数据的质量进行全面的提升和监控,形成某县城市大数据的管理和控制机制,并提供一站式数据治理体系,持续不断的挖掘和提升数据的应用价值。从功能角度,数据治理系统包括数据标准管理、数据目录管理、数据质量管理、数据集成、工作流、数据地图/数据血缘、数据管理数据安全、多租户、元数据管理、系统安全等功能。制定相关标准规范及管理制度,通过相应平台工具汇聚县内各单位公共数据及市级落地数据资源,形成县级数据池,同时经过数据清洗、转换、融合、治理后高质量的公共数据资源,形成县级综合数据平台。数据治理系统通过对数据全生命周期、端到端的全链路透明化管控,实现“数据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化”,实现数据资产的统一管理及全业务流程的实时监控,有效解决数据资源不可知、数据质量不可控、数据关系不可联、数据脉络不清晰的痛点问题。数据治理就是将数据转化为资产的手段和方法,采用的数据治理子系统和工具,以分布式存储和运算为基础,通过人工智能和机器学习技术,辅之以适量的人工训练和专家反馈不断优化数据理解和数据关联。数据治理子系统给围绕某县大数据资源平台的应用建设目标,包含数据地图、数据质量、智能监控、数据保护伞以及安全卫士,提供全面的数据治理能力,提供数据提取、数据清洗、数据标准化、数据转换、数据关联、数据比对等方面服务。在数据打通过程中,同时做好数据质量管理,主要包括四个方面数据缺失补缺、数据重复去重、数据错误纠正、数据不可用补救。数据治理论述大数据治理工作从数据汇聚开始,到最终服务业务,主要包括以下几个阶段:第一阶段:数据汇聚,融合管理从互联网、物联感知网、公安内网、政务外网收集各类数据,形成大数据中心的数据基础,并对汇集的原始数据开展基于数据管理视角和业务应用视角的治理及应用工作。基于数据管理视角,对业务元数据、技术元数据进行集中采集和管理,从站位全局服务某县大数据创新应用的角度梳理大数据资产,构建数据资源目录和数据资产管理应用,达到数据资源的规范化和可视化;汇聚后的原始数据仍处于零散、不可直接使用的状态,为数据使用者提供一站式的集成开发环境,从而满足数据资源平台下,数据开发者进行ETL开发、数据挖掘算法开发、数据主题库建设等需求;对数据融合处理的全过程通过质量管理工具进行管理监测,保障数据质量;因公安政府数据的机密性、高敏感性等特点,需对数据资源层中各数据项进行安全上的分类分级,确保数据使用合理、安全可控。基于业务应用视角,对汇聚的基础数据开展模型治理,通过数据清洗加工、基于业务背景及要求的处理加工、以及面向应用专题场景的开发,依次构建整合数据资源层、主题数据资源层、应用数据资源层,形成指标口径一致、统存统用的大数据资源层。第二阶段:基于数据,提炼抽象信息,形成知识因政务大数据涉及的来源广泛、数据采集背景及方法多样甚至特殊、复杂,导致因不同的汇集场景等因素,各个实体对象往往存在多个ID,需要对ID间关系做计算,通过IDMapping,建立ID和实体人/物间的关系,从而串联起实体人/物的属性/行为信息。数据中的各种人/物、事件、活动轨迹也不是孤立存在的,需要对各个部份的数据做动态关系识别、轨迹匹配等操作,形成统一的关系库、轨迹库等。基于业务需求引导和对数据资源信息的价值梳理,对数据进行进一步提炼加工和算法计算,将数据标签化,基于“四大库”构建全息档案等标签库,支撑专题应用库建设,并通过标签中心产品对用户及开发者开放。第三阶段:构建应用,服务业务按照业务场景需求,将基础库、主题库和专题库等进一步组合利用,可构建起各类业务创新应用,如监控大屏、全息画像、预警中心等应用。通过数据服务平台,可以把数据和标签在线服务化提供给开发者和用户。数据治理流程标准录入数据治理平台会包含部分5大库数据标准,行标、部门标准等需由实施人员从客户处采集后录入系统同步数据结构由于数据治理过程需采集数据元并标准化,故需先将生产库需桥接库表的数据结构录入前置库元数据采集将数据结构采集入数据治理平台标准化实施人员为采集来的元数据挂接数据标准,标准化其元数据格式属性、值域等落标及数据桥接部门管理员根据标准化的字段属性,将生产库数据桥接到前置库质检及整改中心管理员对前置库数据进行质量检查及整改数据集成中心管理员将质检后数据集成到治理库逻辑质检中心管理员对治理库的数据根据业务需求进行逻辑层质量检查资源挂载部门管理人员对已完成数据治理的治理库数据进行资源挂载基础库治理步骤针对于基础库的治理主要流程如下:基础库准备基础物理库以及基础库元数据通过产品初始化脚本创建。默认基础库模型中的字段约束,包括字段类型,长度,规则等参考基础库基础目录技术规范,例如人口库:数据集成以人口库为例,将前置库中的部分数据和人口数据元进行关联。以人口基本信息表单(T_RK_BaseInfo)和人口扩展信息(T_RK_Summary)为目标,主要验证:多个表的数据合并:户籍人口和流动人口汇集到人口库基本信息表。默认字段赋值;人口基本信息表中的rowguid、personguid需要uuid赋值。一张表到多张表;户籍人口和流动人口汇集到人口库扩展信息表,并且扩展信息表的personguid需要与基本信息的personguid一致。规则过滤;自动过滤不满足身份证校验的数据;自动过滤不满足代码项的数据,其中不满足部门代码项的、满足部门代码项但是人口库中没有对应的代码项的数据都需要过滤。代码项转换;性别和名族代码项,部门代码项实际值与人口库代码项的值不一致的,通过显示值进行匹配后自动转换成人口库的值。其他来源的字段更新。人口基本信息表的死亡标识状态由民政局的死亡信息目录进行更新。需要满足条件的才会进行更新。溯源分析通过可视化图形,展现人口库和公安、民政等部门的溯源关系。治理过程产出通过数据治理工作后,形成的数据治理成果物。数据治理建设方案数据标准管理数据标准规范了业务术语,元数据,参考数据,基础数据,指标数据的规范定义、获取原则、管理要求等。包括设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立全局数据标准流程,制定总体落地计划,推动数据标准落地执行,增强内部对数据标准的理解,指导信息化建设中对数据标准的参照。数据标准管理规范数据标准管理体系主要包含数据标准管理、落地实施机制、及数据标准管理平台维护三部分。平台通过对数据标准管理、落地实施机制、及数据标准管理平台维护三部分进行数据资源管理,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计。落地实施机制从规范推广、技术平台支撑两方面保障;数据标准平台维护主要包括建设数据标准技术平台,支撑数据标准日常管理工作两方面。数据标准管理机制设计设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立企业级数据标准流程,制定总体落地计划,推动数据标准落地执行,增强对数据标准的理解,指导信息化建设中对数据标准的参照。数据标准分类规范数据标准是对数据的名称、含义、结构、取值等信息的统一定义,达成对数据的业务理解、技术实现的一致性。基于数据模型理论将数据标准延伸至5个分类,涵盖技术、业务多个视角。业务术语:从一致性、通用性等方面统一业务术语定义。数据项标准:用来描述实体的某种属性,包含数据项的名称、编号、别名、简述、数据项的长度、类型、数据项的取值范围。参考数据标准:识别参考数据,并建立参考数据的统一标准样例,使参考数据可在不同系统中被使用而保持统一标准值。主数据标准:主数据编码是应用系统中的重要数据类型之一,通常用来描述业务操作的具体对象及其特征,注重唯一性,特征一致性,稳定性及有效性。唯一性:在一个系统,一个平台甚至整个范围内同一主数据编码要求具有唯一的识别标志(代码,名称,特征描述等),用以明确区分业务对象,业务范围和业务的具体细节特征一致性:主数据在不同系统中,均按统一标准出现稳定性:主数据相对稳定,本身属性不会随交易过程而被修改有效性:贯穿该业务对象的全生命周期过程,只要该业务对象存在,则此数据不会丧失有效性指标数据标准:需要收集指标的管理信息、业务定义、以及维度定义,需要兼顾通用性和个性化,个性化方面支持各使用部门个性化定制数据标准设计规范以分析型应用建设和操作型应用集成为导向,两套方法结合,建立数据标准设计体系分析型应用建设导向:以分析应用指标范围为依据,重点结合业务战略及管理要求,自上而下追溯数据源,聚焦数据标准范围。操作型应用集成导向:自上而下的原则,基于实际业务流程及操作,重点识别跨业务、跨流程的集成点及关键步骤,分析提炼共享数据,完成业务流程和应用共享的数据映射,删除冗余、非重点数据,精简数据标准建设范围。数据元管理数据元管理主要包括数据元新增、数据元导入、数据元发布、数据元修改、数据元删除、数据元停用、数据元检索等功能。同时支持数据元版本管理及版本之间的差异核对功能以及支持基于基础库、主题库的元数据快速创建标准数据元,并建立和相关元数据的关联关系。标准代码配置标准代码配置支持代码的分类、标准代码项的新增、导入、导出功能,提供了标准代码维护的能力;可关联到国标、地标代码字典,为数据的规范性提供了更加详细的描述,为后续的数据质量、数据标准等工作提供支撑。标准数据元具有唯一的编码(标准代码),按照实际的业务领域进行分类之后,可以形成带有业务领域特征的相关编码,比如“FR00001”代表法人相关的数据元标准代码。常用规则配置数据元的值有部分需要满足固定格式的标准,治理过程中需要通过固定的值组成规则来规范数据源值的格式,例如身份证、电话号码、电子邮箱等格式。包括通用规则及各部门根据自身需求实际制定的规则,常用规则配置会针对公共数据的特性内置部分常用的规则,同时提供了规则的配置修改能力。元数据管理按照数据整合的层次结构、主题域划分,需要实现各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。元数据管理目标元数据建设以服务项目管控需要为出发点,立足于项目建设实际,通过合理规划和全面分析,以项目中的关键点和问题点作为优先和重点突破方向,实现元数据的逐步演进和完善。元数据管理内容元数据内容涉及到整个大数据资源平台的各个数据环节,包括数据采集、逐层加工稽核,数据服务到最终应用展现的处理,元数据管理贯穿了整个流程,并与各环节实现有效互动。元数据管理分类按照元数据的定义分类,综合价值分析系统元数据管理分为业务元数据、技术元数据、管理元数据三类。其中:(1)业务元数据使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息;对业务元数据来源的管理和差异性对比;(2)技术元数据系统结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义等);整合数据层的机构单位的数据模型描述(以描述关系表及其关联关系为形式);对数据稽核规则的定义、汇总数据层模型描述与装载描述(包括维度、层次、度量以及相应事实表、概要表的抽取规则);(3)管理元数据系统内部用户的数据处理操作规则,包括抽取、转换、加载、汇总等各类操作的用户权限、操作时间窗管理、异常处理规则等;外部访问用户(主要针对该系统对外提供的数据服务)的操作规则和方式,包括所提供的数据服务接口、数据访问方式、操作;各类用户的操作记录日志,包括操作用户、登录方式、操作对象、持续时间、操作类型等相关信息。元数据管理组织为了保障元数据管理目标的顺利达成,需要从组织架构层面建立专业的元数据管控组织予以保障,确保元数据管控要求得以落实、制度得以执行。元数据管理流程元数据维护管理流程是以需求提出作为开始,经历规划设计、开发实施、需求验收等项目阶段的元数据建立和校验,最后实现元数据的发布和运维管理。在这些阶段中,元数据管控组负责元数据信息的全生命周期流程的管理和监控。元数据管理功能元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元数据检索、数据模型管理、元数据管理、血缘关系等功能组成等。元数据管理功能架构元数据自动获取对元数据获取数据源以及这些数据源之间的关系进行集中登记管理,并形成自动获取数据源的全局视图,实现元数据自动获取数据信息。要实现元数据的自动获取,需要在集成的元数据平台中配置自动获取策略和调度时间等,使元数据能够按预设的调度策略触发相应的元数据自动获取过程,满足元数据自动获取的时效性。调度策略包括时间周期触发、事件触发两种方式。例如,在每周星期一凌晨00:00到01:00之间触发数据资源平台元数据的自动获取过程,或者在数据处理程序更新后12小时内触发相应的映射关系元数据自动获取过程。元数据维护包括元数据的定义、变更及版本管理,对主机信息、数据库信息、用户信息、数据对象信息、业务规则信息、加工逻辑等进行维护和管控。元数据扫描支持以手动或定时的方式扫描指定的数据库资源,并提取和解析相关的信息在比较扫描数据和原有数据的差异后自动将差异数据维护到指定的元数据目录。元数据检索在元数据管理首页用户通过输入关键字后,系统采用全文检索的方式迅速查找和关键字匹配的权限范围内的元数据信息,并将信息返回给用户。用户能够通过展示的路径信息快速定位到元数据组织树上的节点。元数据版本版本管理分为元数据对象版本管理与基线版本管理两种类型。元数据对象版本:对元数据的每次提交形成版本(上一版本形成历史版本),提供历史版本间,历史版本与当前版本对比功能;基线版本,对某一阶段产生的元数据对象形成数据集,提供不同阶段产生的数据集的版本比较权限管理及查询统一实现数据库的访问和操作管控,对用户进行角色权限、对象权限、数据权限等方面的管控和查询;元数据的导入/导出在系统层面实现元数据的导入/导出功能,以保证数据模型、数据对象能够灵活的迁移,支持模型间的检查和比对,以便于数据模型的维护和扩展。数据质量管理数据质量管理主要包含对数据完整性、准确性、鲜活性、权威性的分析和管理,并对数据进行跟踪、处理和解决,实现对数据质量的全程管理,提高数据的质量。能够提供规则配置、质量监控、问题处理等功能,及时发现并分析数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,挖掘数据更大的价值。质量模型配置数据质量分析的基本单元,一个质量模型由可以由一套实体表、一套规则以及多套质检方案组成,用户在定义质检方案时,可以根据业务需要选择实体表和规则,方案与方案之间相互独立,互不干扰。通过执行模型下的质检方案,可以得到用户关心的数据质量分析结果,如问题数据明细信息、数据质量分析结果等。质量规则管理数据质量规则是数据质量审核的逻辑校验标准,是数据质量监控管理的基础。系统支持多种规则类型,提供了全方位的视角来为用户解析数据质量。一套规则能在多套方案中复用,在保证多角度准确数据质量分析的前提下,大大减少了用户投入的精力与时间,为用户提供了一种灵活而全面的数据质量分析方式。系统包括以下质量规则:空值检查空值检查用于检查关键字段非空值域检查值域检查用于检查关键字段的取值范围,支持数值型、字符型、日期型字段检查规范检查规范检查用于检查指标值的格式是否规范,支持身份证、手机号码、邮箱、日期等多种数据类型的检测,支持自定义正则表达式逻辑检查逻辑检查用于检查指标之间是否满足一定的逻辑关系重复数据检查重复数据检查用于检查表内是否有重复数据。规则算法:groupby重复依据字段,count(1)>1的算重复及时性检查及时性检查,用于检查数据的及时性,衡量数据抽取或数据上报是否及时。规则算法:算出上报时间字段的值,如果没写上报时间表达式,则最佳上报时间都是以下一期的第一天做为参照依据,再将上报时间与最佳上报时间做为比较,看是否在允许误差最大天数范围内缺失记录检查记录缺失检查用于判断记录是否完整,是否缺少数据行。根据比照表字段检查目标字段是否缺少数据,检查实体表字段与比照字段的数据量、数值是否完全一致。规则算法:对检查表字段和比照字段进行groupby并求count,根据两个字段groupby的结果来outerjoin,count不相等或检查字段值和比照字段值有一个为空时,此行结果都算错引用完整性检查引用完整性检查用于判断实体表中的数据是否完全存在于比照表中。实体表检查字段中的数据必须全部存在于比照表的比照字段中。规则算法:实体表的检查字段关联distinct后的比照表的字段,关联后,如果比照字段为空,则检查字段的值非来源于比照表,则该规则对应结果为false方案配置调度依据质量规则执行的实际治理需求,通过图形化界面配置多种质检规则组成可执行方案,依据执行规则管控平台自动执行质量规则检查。质量规则执行触发方式支持按固定时间周期(如月、周、日)、事件触发等执行方式,并且在控制台可以查看质检方案执行历史,对数据质检全流程进行管控。界面配置通过图形化界面配置多种质检规则组成可执行方案,通过界面进行数据传参。触发方式质量规则执行触发方式支持按固定时间周期(如月、周、日)、事件触发等执行方式。全流程管控固定时间监控业务系统运行的各类数据,及时发现并整改数据异常,完善系统运行机制。质检结果查看基于质检方案执行过程,反馈每次质检产生的异常数据,根据问题数据所配置的规则提供问题详情、比对及整改重检的能力。结合实际可执行和可实现的原则,分析系统存在的数据质量问题:分析与检测着重于在数据的定义基础上,利用数据的逻辑和业务规则度数据质量进行检测和分析。整改与重建着重与在数据的分析和检测基础上,利用起结果对数据,特别是源数据的数据管理提出整改意见,重建数据质量的管理能力。具体系统方案如下:质检分析报告基于质检方案及质检结果,对每次质检的检查数、问题数、整改数等进行统计,形成统计图。支持按日、按月统计及柱状图、折线图。数据集成管理数据集成主要在数据治理平台承担数据管道作用,通过数据集成现实不通业务数据的汇聚、数据中心基础库的清洗等流程,通过在线简单灵活的可视化页面针对不同的数据汇聚、清洗流程进行配置建立,平台直接对接调度底层的数据传输工具进行数据管道的打通;实现了数据集成建模与数据集成汇聚快速、高效流转的全过程。数据建模配置提供数据集成中数据单元集模型配置,数据模型即为数据集成中的数据单元集。集成方案管理根据实际数据集成需求,系统提供了统一的集成方案配置,集成方案可以通过构建的数据模型实现多维度的数据汇聚、清洗等数据处理流程,解决了公共数据中大量的数据梳理处理工作,大大减少了人工对数据对比、校准、映射等繁杂的工作,同时实现数据在前置库、基础库等之间的快速汇聚能力。支持数据汇聚(来源表全表到目标表)、更新(基于目标表主键从不同来源获取所需字段)及全量、增量功能。同时,数据集成过程中,支持不同元数据代码项之间的映射转换功能,基本的数据格式验证以及任务调度配置。数据来源统计用于统计集成模型中所有数据的来源方向,以及各库表、各字段的精确来源,并且提供基于领域的快速筛选数据管理建设方案数据资产管理数据资产管理平台主要负责对数据资产进行统一注册和管理,实现数据资产体系化管控。主要包括数据资产注册管理、数据资产分类管理、数据资产查询、数据地图、数据资产分析、数据资产版本管理、数据资产变更管理、资产运行审计管理、资产统计分析,接口管理、数据质量等功能。数据资产注册管理平台提供数据源管理、数据资产注册管理、数据资产注册审核、生成数据库管理等功能。提供采集器、在线维护、自动注册接口等方式来注册数据资产。数据源管理 平台提供对数据源注册管理的功能,主要是对数据提供者所在数据库、Hadoop库的注册管理。数据库注册管理,主要负责数据库基本信息的注册配置,包含但不限于以下内容:数据库类型数据库版本数据库服务IP数据库服务端口数据库SID数据库表空间……Hadoop库注册管理,主要负责Hive库基本信息、HDFS文件信息的注册配置,包含但不限于以下内容:HIVE数据库服务IPHIVE数据库服务端口HDFS文件系统服务IPHDFS文件系统服务端口……数据资产注册管理 平台提供对数据资产注册管理的功能,主要包括对表、视图、序列、文件、ETL过程、Hadoop等进行注册管理。1)业务系统信息收集与资产注册,包含但不限于以下内容:业务系统名称业务系统描述业务系统服务IP业务系统服务端口2)数据库信息采集与资产注册,包含但不限于以下内容:数据库类型数据库版本数据库服务IP数据库服务端口数据库SID数据库表空间3)表结构信息采集与资产注册,包含但不限于以下内容:表名称表中文名称业务信息描述表结构定义表数据处理逻辑4)视图信息采集与资产注册,包含但不限于以下内容:视图名称视图中文名称业务信息描述视图结构定义5)字段信息采集与资产注册,包含但不限于以下内容:字段名称字段中文名称字段详细描述字段类型定义6)指标信息采集与资产注册,包含但不限于以下内容:指标名称指标中文名称指标业务描述指标统计口径指标统计周期7)报表信息采集与资产注册,包含但不限于以下内容:报表名称报表中文名称报表业务描述报表格式报表统计周期8)hadoop平台信息采集与资产注册,包含但不限于以下内容:Hadoop集群名称Hadoop集群描述Hadoop集群主节点IPHadoop集群从节点IP9)hadoophive库表信息采集与资产注册,包含但不限于以下内容:Hive数据库服务IPHive数据库服务端口Hive表名称Hive表中文名称Hive表业务描述信息Hive表结构定义10)ETL过程信息采集与资产注册,包含但不限于以下内容:ETL作业名称ETL作业业务描述信息ETL过程处理逻辑ETL作业运行周期ETL来源表名称ETL来源文件路径ETL目标表名称ETL目标文件路径11)文件接口信息采集与资产注册,包含但不限于以下内容:接口文件名称接口文件业务描述信息接口文件路径接口文件大小接口内容与表字段映射关系12)OLAP信息采集与资产注册;13)webservice接口信息采集与资产注册,包含但不限于以下内容:webservice接口名称webservice接口描述webservice接口负责人数据资产注册审核 平台提供对数据资产注册的审核功能,通过在平台中定义数据资产的相关命名规范,可实现对数据资产的自动审核,主要包括对表/视图、文件等数据资产进行审核分析。当数据资产命名不符合规范时,平台会提示错误信息,并阻止资产的注册操作,当数据资产命名审核通过后,交由相应的审核人进行审核,保障数据资产的完整和规范性。生成数据库管理 平台可基于数据资产(表),通过在平台中指定生成表的数据库及表空间等信息后自动生成相应数据库的建表脚本并在数据库中生成数据表,如下图所示:数据资产分类管理平台提供对数据资产的分类管理功能,在数据资产注册同时或注册后,可在数据资产上标识不同的属性标签,通过属性标签完成对数据资产的分类整理,为资产查询、资产统计、资产盘点等功能提供支撑。常见的属性标签包括:资产类型:数据表、文件、接口、指标、报表等数据来源:B域、O域、M域等主题域:参与人、服务、资源、事件、市场营销、企业管理、公共。所属层级:接口层、轻度汇总层、中度汇总层、高度汇总层、应用层等存储周期:按年、按季度、按月、按周、按日等数据资产分类体系在数据资产的分类管理中,平台按照数据资产的生命周期对数据资产进行分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到大数据平台,输出层是指大数据平台数据输出到外部渠道或内部渠道,加工层指数据在大数据平台内进行加工处理的过程。数据资产分类查询平台提供数据资产分类查询功能,可通过选取分类标签中具体的属性标签对数据资产进行筛查。数据资产分类统计平台提供数据资产分类统计功能,可对各种标签属性的数据资产进行分类统计,并形成统计报表,供使用人员查询不同属性数据资产的整体统计情况。数据资产目录管理数据资产目录资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类目下资产数据进行搜索、展现以及权限申请。数据资产查询平台提供数据资产查询功能,主要分为通用查询和高级查询两种方式。通用查询:通过在通用查询搜索框中输入查询关键字,可对数据资产进行模糊查询。高级查询:根据指定数据资产属性信息的具体值对数据资产进行精确查询,包括数据资产名称、资产编码、资产分类标签等属性。数据资产地图管理平台提供数据地图功能,通过可视化的图形界面,对大数据平台各系统、各层次之间的脉络关系进行全面、多层次的展示,并提供从系统、数据库、表间以及字段级的关联关系下钻分析功能,帮助用户从不同粒度了解数据资产之间的关联情况,同时可动态了解数据资产的执行情况。数据资产版本管理平台提供数据资产版本管理功能,主要包括版本发布、版本查看、版本比对、版本恢复等功能。版本发布,通过版本发布功能提供对数据资产信息的版本更新和固化;版本查看,可查看数据资产的版本变更历史;版本比对,通过选择历史版本可与当前发布的数据资产版本进行差异比较;版本恢复功能,支持恢复到以前历史版本的资产信息;数据资产变更管理平台提供数据资产变更管理功能,可对数据资产信息中除定义名称以外的其他信息进行变更,并提供在变更发布前的数据资产信息规范审核。数据资产审计管理平台提供资产运行审计管理功能,主要包括数据资产模型审计、数据资产表数据审计等部分。1)数据资产模型审计:可对表、视图、文件、Hadoop等静态结构进行审计,根据元数据的配置,与数据库内实际的表/视图信息、实际生成的文件信息以及Hadoop中实际的结构信息进行比对,实现数据资产定义在整个应用中的一致性检查。2)数据资产表数据审计:可对数据资产中的表数据进行审计,包括元数据表字段上的空值、字典值等。数据资产统计管理平台提供数据资产统计分析功能,主要包括统计综合查询、数据资产一致性检查、数据资产更变统计、数据资产属性检查、数据资产空值检查、数据资产字典值检查等功能。数据资产统计分析1、统计综合查询,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产进行查询。2、数据资产一致性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图信息、实际生成的文件信息、Hadoop中实际的结构信息等内容进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为《数据资产规范性检查报告》的组成部分。3、数据资产变更统计,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产变更历史进行统计查询。4、数据资产属性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图的属性信息、与实际生成的文件内的属性信息、与Hadoop中实际的结构信息进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为《数据资产规范性检查报告》的组成部分。5、数据资产空值检查,平台提供以报表的形式,对元数据表字段上的空值配置进行检查,在检查结果不一致的情况下给出提醒,并输出《数据资产空值检查报告》。6、数据资产字典值检查,平台提供以报表的形式,对元数据表字段上的字典值配置进行检查,在检查结果不一致的情况下给出提醒,并输出《数据资产字典值检查报告》。数据资产报告针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。数据资产盘点 平台提供数据负资产盘点功能,通过分析系统中孤立未使用的库表,即数据负资产,并以报表形式输出分析结果,为用户清除数据负资产或转存提供帮助。数据异常管理异常对接管理开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。异常问题列表开发展示异常问题信息,按等级进行分类或主动推送,同时对异常问题进行归类整理,并定义规则进行选择性忽略或提醒的功能。人工处理管理开发人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。系统处理管理开发统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该类信息往往不需要人工干预的功能。实时数据质量管理针对实时流数据需要提供数据质量管理功能,即提供对实时流的数据质量规则的设置、维护、调度、优化等规则的管理功能,以及对实时流数据源接口关键数据、数据实体和处理过程的监控告警,辅助数据质量管理人员快速定位问题的原因及处理方案,并定期生成针对实时流数据的数据质量评估报告的功能。数据质量定制化开发通过自定义扩展规则能力,灵活方便的自定义扩展能力,可以灵活定制质量监控的规则、问题数据的检测规则和问题数据的清洗回收的方式。异常数据分析基于集成方案,反馈统计分析集成过程中不符合方案中各字段清洗规则的异常数据结果,同时支持多维度的问题分析以及排查。异常处理统计分析开发按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表的形式展现便于管理人员汇总分析的功能。数据架构管理平台支持定义全企业的数据架构,包括数据的主题、层次,所涉及的部门、所用到的数据库类型。功能包括数据架构节点的增加,删除。业务架构管理从数据架构中选择适合团队的数据架构,并绑定到团队,以约束开发团队在开发过程中选择数据架构。存储架构管理在异构数据库的环境下,不同的数据库有不同的参数设置,为减少开发人员在模型开发过程中的操作,同时也保障模型在落地到物理环境的正确性,通过在存储架构中设置默认的参数配置来保障开发的准备性。数据开发管理流数据处理平台支持对流数据的处理与管理,流数据的处理过程为数据实时采集-->数据实时计算-->数据实时查询服务。实时采集主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延迟为核心驱动点,具备毫秒级数据触发能力,实现秒级单位时间窗口的数据统计分析能力。需要支持的数据源类型可以分为以下四类:网络协议数据源,包括Socket、JMS、HTTP、HTTPS等常见类型的网络协议。本/异地文件数据源,包括目录扫描、文本文件,FTP,SDTP等数据。分布式文件系统数据源,包括HDFS,HBase,Hive等数据。关系型数据库数据源,包括DB2,Teradata,vertica等数据。支持物联网网关采集:将物联网数据从物联网网关接入,提供协议适配和标准化处理,以及满足海量物联网数据的入湖。来自多种数据源的实时信息,因为其时效性高,数据的有效期短暂,需要实时提取和分析来自各种分布式系统的信息,并分发到不同的应用中进行处理。同时,系统必须高效、可靠、可管理、可监控并且具有一定的对外开放能力。流数据引擎开发提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的数据计算提供支撑的功能流数据计算模型管理开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能流数据计算公共模型开发开发提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型可以供其他用户调用,可重复使用的功能流数据计算结果接口开发开发提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式供可视化调用或其他应用的功能流数据计算模型查询开发提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其他用户查看计算模型逻辑,进行模型再利用,减少其他用户开发工作量的功能。数据开发平台数据开发完成多种环境的全量与增量数据处理能力,简化开发过程。统一数据开发入口,支持可视化开发和原生态开发两种开发模式,实现原生态开发与可视化编排的互相转换,提升开发效率。支持可视化开发支持原生态开发统一调度管理平台支持对数据开发与管理任务的统一调度,包括流程设计与管理、调度策略管控、任务调度控制、标准化控件等功能模块,通过作业/任务管理、作业/任务调度、作业/任务执行实现对采集、转换、加载、调度、监控,从而形成统一的调度与管理。以一个业务量生产过程为例。传统做法是通过接口通信表或时序依赖进行协同生产。在统一调度平台中以数据流作为驱动,通过控制中心进行作业命令下发,状态收集进行控制,达到各个异构系统,多个子系统的协同调度。数据运维管理监控运维监控运维为数据开发者和维护者提供一站式的数据运维管控能力,可自主管理作业的部署、作业优先级、以及生产监控运维平台提供数据监控运维、任务运行情况监控、异常情况告警、日常运维数据统计等功能。运维概览运维概览主要用来展示调度任务的指标数据情况,目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论