版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据治理平台与数据运营体系建设方案构建高效、安全、规范的大数据治理管理与运营体系目录数据治理总体解决方案01数据治理平台建设方案02数据治理运营实施方案0301数据治理总体解决方案对数据治理的总体认识数据治理定义:数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。狭义上:数据治理是指对数据质量的管理、专注在数据本身。广义上:数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。数据治理要素明确数据治理责任,建立数据治理组织管理出成效,制度是保障数据规范:没有规矩,不成方圆数据治理活动,理论结合实践专业的数据治理平台数据治理方法论数据治理要素大数据管理典型方案大数据管理与应用平台AI图谱技术大数据云计算数据整合可视化数据展示功能设计应用发布需求分析数据应用模型设计辅助决策价值挖掘数据智能经营分析数据资源数据计算管理治理开发调度数据模型计算模型数据源关联业务目标表单样式计算任务调度机器学习数据应用与推送整合数据资源连接各类人员数据应用/服务集市实现数据资产的保管与增值让数据赋能业务数据采集数据安全大数据平台典型架构数据源业务系统数据物联网数据实时数据流非结构化数据互联网数据……数据采集离线采集实时采集FTP采集接口采集流式采集……数据资源中心存储RDMS消息队列分布式存储……存储非结构化数据图片数据文本数据实时数据实时存储时实模型离线数据应用租户计算区离线计算实时计算标准层数据湖数据治理管理元数据管理数据标准管理数据开发管理统一调度管理数据资产管理数据架构管理数据服务管理数据质量管理数据管理门户&数据可视化数据应用经营分析辅助决策潜客挖掘用户画像业务预测风险预警……数据应用服务管理统一运维基础资源监控应用服务监控监控告警故障管理运维作业管理运维流程管理数据安全统一身份管理统一认证管理数据脱敏管理安全日志管理安全告警……安全审计管理大数据平台典型架构基础支撑平台分布式数据存储消息队列RDB存储数据存储图数据库分布式文件存储并行大数据计算与分布式存储(HADOOP)并行分布式关系型数据库(MPP
DB)数据采集平台数据采集离线采集实时采集流媒体采集数据导入上报准实时采集政务数据(区级、委办单位)公共事业数据行业数据(金融、电信)物联网数据(气象、摄像头…)数据源基数据湖SRC近源数据层:区级条线业务数据,以及结构化的视频及物联网感知数据ODS源数据层:区级条线业务数据,以及结构化的视频及物联网感知数据法人组织自然人空间地理…电子证照基础库主题库专题库一网通管一网通办城市规划民生幸福经济发展……环境保护应急管理物联管理宏观经济医疗健康……数据资源中心数据资产管理数据架构管理数据集成管理元数据管理数据异常管理数据标准管理数据开发管理数据质量管理数据治理数据管理智能标签数据智能数据探索画像分析数据DNA治理管理平台数据共享开放数据共享申请服务开发共享服务交换级联服务监控服务申请授权管理数据共享管理审计数据共享安全管控数据开放门户数据服务互动交流其他开放服务数据开放清单资源查询资源申请资源使用资源详情数据目录统一数据管理门户管理应用门户数据安全平台
统一身份管理统一权限管理敏感数据发现数据分类分级数据防泄漏加密秘钥管理安全日志采集存储统一安全审计分析数据脱敏管理统一运维平台监控资源管理基础资源监测应用系统监控业务服务监控服务启停数据质量监控运维流程管理故障预案管理(管理与开放)门户数据共享开放平台数据治理平台数据资源中心(数据湖、基础数据库、基础库、主专题库)数据基础支撑平台数据采集平台数据源统一运维管理平台数据安全管理平台数据治理在整个大数据平台中的定位数据治理平台数据资产管理(元数据、标准、质量、资产、目录)应用建模数据采集数据共享数据加工数据源数据基础支撑平台数据采集平台数据资源中心质量稽核统一维护平台数据安全平台数据采集任务调度数据处理提取与存储集中监控维护信息安全保障数据共享开放平台数据管理与应用门户数据资产&服务调度开放控制&下发调度是整个大数据资源平台管理与应用开发的统一入口是对数据资源及数据资产进行管理与应用控制的主要界面提供数据加工处理的核心能力,并串联、集成其他能力模块完成面向需求的数据生产,是实现将原始数据资源转换为数据应用服务的中心枢纽12435540资产管理数据治理总体方案利用数据治理平台所覆盖的从标准、设计、采集、开发到使用,再到交付和运维的全数据治理流程,帮助组织实现一站式数据治理运营服务,可满足数据共享交换、数据开发、数据运营多种应用场景,并通过构建数据工厂,实现数据治理的标准化、流程化与组件化。数据服务数据生产者业务数据日志数据视频数据物联数据各类文件互联网数据…数据消费者内部管理者内部业务部门兄弟单位合作伙伴外部机构…内部下属单位大数据资源中心数据治理规范标准(元数据、标准、质量、资产、目录)大数据治理平台数据建模数据采集数据共享清洗加工质量稽核资产管理数据生命周期管理持续反馈数据归集数据安全管控数据治理·数据采集方案委办1委办2委办3委办N委办局政务网VPC(批数据)互联网(流数据)委办1委办2委办3委办NoracleDB类型DM其他数据类型API接口结构化文件非结构化文件MySQL大数据平台数据采集采集数据存储采集数据量数据入湖存储入湖数据量比对采集和入湖数据量数据一致性检查数据湖断流告警状态监测批数据处理:通过数据采集平台任务调度的方式,根据时间戳定时探查委办局前置库数据以及结构化文件的变动,通过数据采集平台的解析,抽取增量数据到数据湖。流数据处理:通过数据湖内独立部署kafka消息系统,采用委办局推送或自动拉取的方式,接入流数据。数据抽取过程中进行监测,实施监测目前抽取的状态、抽取进度,断流告警,一致性检测结果等。并通过分布式部署提高数据抽取速度。数据治理·数据应用开发模型开发程序开发程序测试审核上线数据探索2-模型定义创建模型基础信息、定义模型的元数据3-构建表结构添加模型字段信息提供手工/批量方式4-编辑模型应用程序①可视化开发:固化程序命令,拖拽式使用,自由配置逻辑②脚本开发:支持sql、Python、java、shell等类型的脚本5-程序在线测试提供WEB界面可视化测试功能;查看执行时长、执行状态等信息,方便开发人员调试,性能分析7-提交审核并上线开发人员建立上线任务,提交审核并上线6-调度配置1-数据探索根据业务逻辑做需求分析,通过探索了解相关数据情况数据治理·统一调度方案数据采集平台采集任务调度对接数据治理·开发调度平台元数据同步数据治理·资产管理平台数据支撑平台JDBC接口流数据处理数据共享开放应用平台库表数据下发任务调度数据采集平台的采集任务完成后,通知开发调度管理平台的库内处理程序进行调度任务的衔接;数据支撑平台提供JDBC接口,供开发调度管理平台调用,实现数据库操作的调度开发调度管理平台对数据支撑平台发布流数据处理任务;数据资产管理平台提供元数据同步接口,把模型元数据同步给开发调度管理平台做库内处理开发;数据调度平台完成相关数据应用计算后,将库表数据推送给数据开放平台,对外开放使用。数据治理·数据资产管理逻辑资源层(计算、存储、网络资源)政务云管理存储管理网络管理资源调度系统管理元数据存储库业务库主题数据库元数据数据资源基础设施层用户管理专题数据库基础数据库指标…部门数据库部门数据库人口库法人库…互联网+监管健康卫生…城市运行经济运行…根据提供方供数责任,对接入数据资源进行编目,维护其业务属性和管理属性,使其初步具备应用条件;参照数据标准设计数据模型结构、业务代码,通过建立变更管理和版本控制,实现数据模型管控;通过基础元数据定义数据资产规格(如:库表、文件、文件夹、接口等),并借助统一平台实现资源接入。数据资产管理模型管理模型维护代码关联版本管理关系关联对标分析元数据目录管理目录维护目录分类目录浏览资源编目目录标签目录级联质量管理质量定义规则管理数据纠正规则库数据检核质量报告标准管理标准维护标准浏览代码映射标准导入落地检核版本管理资源管理数据源管理资源注册资源发布资源审核前置节点库表资源文件资源接口资源...共享管理应用场景事项字典预算项目应用系统共享申请共享审核共享授权共享统计...数据治理项目实施方案数据治理项目实施方案数据管理平台建设数据治理开发运营平台工具支撑应用需求推动利器工事建设一套大数据管理与应用平台以构建一个能持续高效运转的数据治理体系为目标建设县数据湖开发建设人口与法人基础库建设市场监管、工业、全民健康、惠民资金监管、农业五大示范应用逐步构建一套大数据治理应用与服务体系技术工具能力专业团队管理分析理论4PSTP理论PEST分析方法能力成功经验用户使用行为5W2H生命周期逻辑树……数据处理管理HadoopAI技术机器学习管理治理数据仓库数据分析对比分析交叉分析回归分析数据标签回归聚类分类神经网络语音识别图像识别ETL…交付流程项目需求分析系统开发与测试平台上线应用平台运营支撑功能/模型迭代平台工程师数据工程师项目管理运营支撑架构与功能设计应用开发平台建设咨询服务公式法对比法二八法漏斗法统计分析方法大数据平台建设数仓/BI建设数据治理数据建模应用开发数据分析咨询专题主题开发运营支撑…功能/模型迭代算法工程师数据咨询师02数据治理平台建设方案平台总体概述提供多种数据采集或集成,包括业务系统数据ETL,外部文件、第三方接口抽取,实时消息采集等。采集/集成环节支撑多种数据加工方式,包括批量数据加工,实时交互计算,机器学习等。加工/计算环节支持用户个性化需求、自主数据探索,提供固定主题的报表、指标,临时报表需求、自助取数,数据探索、数据实验等功能。决策/探索环节数据治理平台适用于分析型系统数据处理的各个过程,负责数据的加工处理以及加工处理过程数据标准、元数据和数据质量的管理。平台可以提供数据输入、数据加工、数据输出等数据流图各个过程的全生命周期、全流程的数据处理,并在数据处理全过程提供中提供数据治理和数据管控的一站式解决方案。大数据时代组织普遍要面对数据多样化,缺少统一标准,集成困难;数据分散,形成信息孤岛,共享困难;数据质量低下,导致统计不准确的诸多问题。如何有效管理数据资源使之能够驱动业务的快速发展,成为数据治理产品的核心价值所在。平台设计理念·一个标准化工厂数据治理产品以为组织打造通用的数据工厂为设计理念,以构建流水式数据产线为核心,帮助组织快速实现从“数据原料”
到“数据产品”
整个过程的加工处理、价值转化以及规范管控。标准化生产自动化生产精益化管理由场景理解、场景抽象、抽象实现、抽象配置、方案生成、调度等工序组成由数据上下文形成自动化的数据流由多个工序最终生成一体多面的数据治理流程平台设计理念·四大治理原则平台设计理念·五大治理标准数据模型标准化数据运营全员化数据安全可控化数据治理产品化数据处理工厂化数据安全可控化
体现安全的重要性、必要性,保障系统数据安全和数据服务开放过程中数据的安全可控。数据模型标准化
通过数据治理平台将数据模型的要求严格落地,杜绝不满足标准的数据模型出现在系统中。数据运营全员化
体现“平台化、开放性”的思想,提高数据开放的可视化,实现人人参与数据治理、数据建设和数据运维。数据治理产品化数据治理的成果和内容,必须通过切实可行的IT手段落实到系统来严格执行。数据处理工厂化
数据处理工作,必须实现工厂化的建设和管理,以“极速、低成本、高质量”要求来响应业务部门的个性化数据需求。平台设计理念·三大实施策略1)有实现数据全程的可见、可管、可控,最小化业务和技术沟通成本的理论和机制;2)有实现数据的全生命周期管理的理论和机制;3)有实现开发管理规范和数据管理规范低成本的严格执行的理论和机制;4)有实现系统建设过程中问题的低成本监管和解决的理论和机制;5)有实现引入第三方独立监管供应商来负责系统的监控和维护的理论和机制。1)有保证业务元数据与技术元数据的一致性的理论和机制;2)有保证元数据与数据加工环节的一致性的理论和机制;3)有实现基于历史经验的告警机制;4)有低成本高效地解决传统调度面临的问题定位和修复问题最小代价等难题的理论和机制。1)有保证文档与实现的一致性机制;2)有实现对文档系统的低依赖性的机制。质量管控2系统管控1知识管控3平台总体架构元数据管理数据标准管理数据开发调度数据资产管理数据质量管控数据共享服务…服务能力解决方案金融零售制造业交通农业用户群体行业应用基础平台数据开发人员数据分析师业务用户数据科学家数据管理员数据操作员组织、用户、角色、权限管理数据源管理数据采集插件管理数据管理基础平台大数据存储与计算引擎日志管理元数据智能管理调度中心建模设计数据治理服务能力数据共享数据服务引擎服务门户数据门户(Web
UI)数据治理(Web
UI)元数据管理元数据血缘元数据维护元数据解析元数据采集数据标准管理业务标准管理技术标准管理命名标准管理维度标准管理数据质量管理质量统计分析质量报告管理质量稽核管理质量规则配置数据资产管理数据资产检索数据资产总览数据资产地图数据资产目录数据开发管理统一任务调度数据模型设计可视化开发数据脚本开发数据服务管理订阅审核服务监控服务审核服务管理算法库消息管理互联网…电子政务教育平台技术架构采用工厂化的数据处理和管理模式,通过数据生产计划、数据生产执行和数据生产管理三大子模块,保障数据处理全过程透明可控,实现工具化、流程化和自动化的开发、运维、管理,提升数据开发、生产效率,保持系统健康、持续、稳定的发展。数据处理管理模块:负责软件开发和数据规范的管控数据生产计划模块主要功能为:需求设计、设计确认等数据处理执行模块:负责数据处理计划的执行、数据的生产和数据质量控制等工作提供元数据获取和管理功能提供数据对象设计功能提供对象化接口模块提供数据质量管理功能提供可视化的标准IDE环境提供与各类底层平台对接功能提供基于元数据血缘图的调度功能平台功能特性·组件化应用提供各类组件,支持通过拖拉组件的方式快速形成数据生产线,缩短应用的开发周期、节约应用的开发成本、提高应用的开发质量,帮助用户更快地完成数据模型、数据处理的开发。组件采用松耦合式的架构,支持自定义扩展。分为三种类型:功能组件、模板组件、管控组件。01)功能组件02)管控组件03)模板组件04)自定义扩展功能组件对常用的数据处理、系统交互等方法进行封装,实现快速的数据处理开发。包括:1)数据采集组件;2)数据处理组件;3)数据加载组件;4)数据分发组件;5)数据校验组件;6)质量告警组件。管控组件为系统管理员对开发人员开发的规范性提供管控手段。包括:1)命名规范组件;2)元数据完整性组件;3)表关联合理性组件;4)余度限制组件;5)危险操作控制组件;6)质量规则组件;7)告警处理组件;8)分析报告组件。模板组件为开发人员提供数据模型快速开发的手段。包括:1)HDFS模板;2)HIVE模板;3)MR/Spark模板;4)HBase
模板;6)RDBMS模板。平台的组件具备可扩展能力,支持组件的新增、删除、修改。组件扩展采用热插拔机制,且无需重启平台。平台功能特性·元数据管理提供元数据管理功能,获取和管理在开发过程中沉淀的各类元数据信息,并提供开放开视图,以支持管理人员、业务人员和技术人员快速准确地了解系统,同时支持数据质量管理、安全管理、应用优化、应用开发等功能。元数据前向获取统一管理和开放元数据一致性保障为确保元数据能够真实反映系统现状,平台提供业务元数据与技术元数据、技术元数据与技术实现、元数据血缘与数据调度等一致性的保障功能。1)业务元数据与技术元数据的一致性保障;2)技术元数据与技术实现的一致性保障;3)元数据血缘与数据调度的一致性。提供元数据前向获取功能,让开发人员在完成应用程序开发的同时,完成元数据的收集。元数据获取分两类:1)技术元数据的获取;2)业务元数据的获取。提供元模型设计、元数据填充、血缘分析等元数据管理功能平台功能特性·数据处理根据不同的数据生产环境,具备不同的数据处理能力,可根据自身需求,基于平台扩展自主的数据处理功能。数据治理平台提供数据处理各项能力的开发功能,提供包括数据采集、处理、装载、分发、校验等功能开发。具备执行标准的开源Hadoop接口调用能力,以及基于个性化Hadoop接口封装能力。如果数据存储是以数据库表形式,应支持基于SQL的数据处理开放。开发者可以通过集成开发环境编写相应的SQL语句,发送到相应的数据库运行。基于SQL的数据处理基于Hive提供类SQL的数据处理能力的开放。开发者通过集成开发环境编写相应的HiveQL
语句,并发送到Hive执行,以处理存储在分布式文件系统HDFS中的数据。类SQL的数据处理Spark是基于MapReduce
算法实现的分布式计算,它立足于内存计算,能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce
的算法。SparkSQL基于Spark提供SQL方式的数据访问。基于Spark的数据处理支持在集成开发环境中进行MR作业开发,对开发者屏蔽Hadoop底层的复杂性。基于Map/Reduce的数据处理开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能流处理,支持流式计算平台功能特性·质量管理平台提供从设计、开发到运行全过程的数据质量管理功能,以及从数据来源、数据加工到数据输出的全流程监控功能。设计阶段质量在平台中数据质量规则是设计出来的,并作用于数据处理过程,具备灵活调整的特性,可实现PDCA循环的落地.开发阶段质量在开发阶段,平台提供规则配置和规范检查功能。包括:1)规则配置;2)规范检查。全流程监控平台提供全流程监控功能,各层的监控包含但不限于以下规则:1)数据来源质量监控规则;2)数据加工质量监控规则(包括临时表);3)数据输出质量监控规则。PDCA优化1)P(plan)计划,分析现状,制定质量监控规则;2)D(Do)执行,执行监控规则;3)C(check)检查,检查执行结果是否达到了预定的目标;4)A(act)修正,对检查的结果进行处理,对准确的质量监控规则予以标准化。运行阶段质量运行阶段,平台提供系统自动化保障和质量规则监控告警功能。包括:1)质量规则监控告警;2)系统自动化保障。平台功能特性·统一调度提供统一的调度管理,用于数据层和应用层的任务调度。在统一调度下,每个任务都是一个个的数据对象,任务的前后关系严格按照元数据血缘关系进行调度,实现数据从源头到目标的全程的元数据血缘与数据调度的一致性。在统一调度下,可进行调度关系管理、调度周期管理、调度状态管理和调度资源管理。调度状态管理提供调度状态查看和控制功能:1)通过列表或图形化界面,可查看调度运行过程中任务的状态;2)提供可对错误进行分析和处理的操作;3)提供历史调度信息库;调度周期管理提供各类不同类型的调度周期:1)固定调度;2)定时调度;调度关系管理自动和手动的调度机制,提供调度关系管理功能,包括:1)调度关系设置功能;2)调度关系分析功能;3)调度重跑最小代价分析功能;4)调度关系维护功能;调度资源管理提供调度资源的管理功能,包括:1)队列设置;2)并发数设置;3)优先级设置;4)任务分配;跨平台统一调度支持异构计算引擎下的任务调度,能够按照数据流向关系组成数据流图,即不同环境下的任务,能同时存在于同一数据流调度图中。平台功能设计平台应用案例·某运营商大数据体系离线采集(ETL平台)数据采集B域数据O域数据M域数据互联网数据社交数据…实时采集(Flume/Kafka)互联网采集(采集平台)DPI数据模型数据仓库操作数据存储层市场基础模型政企基础模型大数据平台位置数据模型信令数据模型通信数据模型数据存储经分系统政企产品运营平台标签库数据应用数据集市业务网管参与建设重点建设政企应用模型市场应用模型统一GIS平台政企客户分析平台营销管理平台全面、深度的参与了某运营商大数据管理与应用体系的建设,深耕政企数据管理与运营分析,先后建设了政企产品运营平台,政企客户分析平台,统一GIS平台,营销管理平台,并主导建立了某运营商政企数据经营分析全流程体系。平台应用案例·某公安大数据资源平台总体方案公安大数据中心构建TB级大数据采集、存储、计算、挖掘、分析与应用能力汇聚数据资源形成数据资产保护数据安全挖掘数据价值形成业务洞察建立数据服务城市管理者城市运营者城市企业城市监管机构城市居民公安各系统数据物联网数据社会数据政府机构数据互联网数据…智慧公安数据检索数据计算决策依据洞察&建议数据统计、经营分析、风险预警、智能服务、辅助决策&兑现数据价值、赋能公安实战、提升治安水平、推动社会发展平台应用案例·某ZX中心工厂化生产管控平台利用数据治理平台产品,建设了某ZX中心数据仓库的建管一体化平台,通过对某ZX中心数据仓库的全面重构以及建管一体化的新生产方式的实施,解决了长期困扰某ZX中心的数据仓库内部模型和代码黑盒化的问题。采用了工厂化的数据处理和管理模式,改变了传统的数据处理和管理方式,实现数据“统一采集、统一存储、统一管理、统一运营、统一服务”;构建了面向数据处理的统一管控框架;实现了模型和数据处理的标准化、规范化;实现了数据处理过程中元数据、数据质量的统一管控;建立系统知识库,沉淀数据资产、管理规则与应用模型相关知识。完成了某ZX中心数据仓库全面的重构;建立并实施了建管一体化的全新数据管理与生产方式。平台应用案例·某证券统统一调度平台利用数据治理平台产品,为某证券搭建了数据管理与应用的统一调度平台,解决了某证券跨系统跨计算引擎的统一调度所存在的效率、异常与管理等方面的问题。建立了统一的数据采集、作业调度管理和监控平台,并引入配套的平台运维服务;为BI、风控和CRM等系统提供了准确、高效、安全的调度平台和数据服务,支持某证券大数据管理平台的建设,实现了数据的采集、作业的调度和监控统一管理。支持关系型数据库、Perl、存储过程、Shell、SQL、Sqoop、Hive、Spark、Impala等多种平台或技术的调度任务;可在同一视图中统一管控数据和各平台任务,以可视化的监控平台提供给用户使用。平台应用案例·某评价机构大数据工厂该机构是国内一家通过利用大数据理论和云计算创建的客观信用评价体系机构。利用数据治理产品,为该机构大搭建了数据工厂,解决业务过程中的数据生产效率问题。建成大数据工厂,终结了以人工为主的数据加工作业方式,重新组织“人、数据、技术”三要素,构建了管理落地、权责明晰的内部机制;大数据工厂可快速搭建起数据加工生产线,更高效高质的满足分析需求,并实现机器学习加速模型迭代优化;落实“设计-开发-实现”的一致性机制,将人为影响降到最低,还原数据真实面貌,使最终交付数据(如数据报告)更加可靠。以数据流水线的方式协同数据金领、业务金领和数据蓝领分工合作,(通过更高效的训练集准备和模型训练)迅速组建智能数据生成线并可自动调整升级,大大解决了数据科学家的生产效率问题,提升了组织效率03数据治理运营实施方案数据治理运营体系与原则大数据治理运营支撑体系数据治理组织数据标准规范治理平台工具数据治理活动数据管理制度大数据治理运营实施原则平台建设先行长期治理运营1+N运营模式(即统一数据平台支持多个治理运营组)数据治理运营以业务线划分平台建设以功能线划分平台建设与治理运营团队相独立政企数据治理运营构建一个能持续高效运转的政务数据治理运营体系始终以数据服务业务为目标,持续建设高价值的数据资产与服务数据治理运营总体流程数据准备准备资产编目数据采集规范设计开发调度质量监控数据仓库数据应用数据源数据湖数据仓库历史数据全量迁移源连接和目标连接迁移作业运行作业业务数据增量采集定义增量设置触发运行作业资产数据维护数据源维护数据仓库数据规范主题设计标准管理码表管理数据标准关系建模维度建模指标管理流程框架业务指标技术指标脚本开发批处理作业实时处理作业业务指标监控指标规则业务场景运行检查数据质量监控规则模板作业质量运行检查数据地图业务资产技术资产数据权限数据安全申请审核创建发布使用运营数据治理运营业务流程公安系统社保系统教育系统市监系统……委办系统各委办前置库大数据中心-数据湖&数据库ODS贴源层DWD基础库人口、法人、电子证照、空间地理主题库互联网+监管、城市管理、…专题库婚姻死亡、经侦、…共享库共享前置库数据归集清洗加工分发分发分发分发分发分发文件下发库表下发分发内部单位外部机构数据调用接口调用数据使用单位基于业务与管理规则,进行实施与管控数据治理运营·数据资源归集库表归集:数据源为前置库表信息附件归集:数据源中有照片数据或者pdf、word等非结构化数据API接口归集:数据通过接口获取,目前如健康云API接口调入,以10分钟的频率采集文件归集:数据源是不同的文件形式(CSV、excel、TXT、dat)流数据归集:数据源为实时流数据编制目录数据预处理(清洗、转换、标准化)文件接入服务接口接入库表接入实时流接入选择归集目录创建归集任务配置归集频率自动挂接资源编目归集预处理数据治理运营·基础库建设流程大数据管理中心委办局(供给)提出主题库建设需求开始明确责任需求清单三清单管理确认责任清单共享数据推送主题库应用/数据共享结束委办局(需求)沟通方案(三方)建主题库并分配资源主题库开发生成资源目录数据治理运营·专题/主题应用开发与运营整合了大数据汇聚、整合、融合分析与应用运营能力,建立了垮多委办之间的协作机制,打造了一体化全流程主题/专题应用库建设体系,可快速实现从模型构建到模型的落地应用,为政府提供高效的基础/专题/主题库应用开发与运营服务。需求立项模型建构模型调优模型发布迭代数据服务分析报告模型应用说明政务服务社会服务+模型建构模型发布主/专题应用反馈数据汇聚应用发布模型构建数据分析参数调优数据预处理模型评估汇聚相关委办对应数据处理空值,属性值转换分析数据与需求相关性选择合适的算法进行建模调整数据模型参数基础/主/专题发布评估模型准确性,合理性数据治理运营·数据应用开发通过大数据平台基于用户信息及用户行为综合特征,知识图谱以及地理空间关联特征,进行融合汇聚和深度挖掘关联分析,形成多维标签体系,进而支撑从各类数据挖掘应用与开发,实现数据价值最大化。大数据标签汇聚与应用开发能力属性标签事件标签静态稳定标签短期时序事件和专题事件车辆属性:品牌、型号、出厂年份、行驶公里数。线路属性:线路起点、线路终点、时刻表、车辆数、班次。驾驶员属性:性别、年龄、驾龄、行驶证类别。车辆行驶情况:行驶时间,是否晚点。停靠情况:车辆进场时间,车辆出厂时间驾驶员驾驶情况:当天驾驶时长、上班时间违章事件:车辆违章、车辆事故。保养事件:保养记录、维修记录。专题事件:节假日、特定事件等关键事件。建立多层级实体模型,模型覆盖车辆、线路、驾驶员、停车场等实体。建立多维标签覆盖从静态属性到动态行为标签。从无到有,打造出一套连接线上线下的时间序列,满足应用要求。动态行为标签…………旨在建造更专业更精准的标签体系,为客户实现数据价值最大化,推动标签在企业在应用中发挥价值。除了数据监控、精准营销方面外,结合数据挖掘算法与主流的机器学习框架TensorFlow,在自然语言、图像识别、知识图谱等方面可以挖掘非结构化数据,形成高效、灵活的应用。算法设计建立模型数据整合业务分析应用开发数据治理建设中容易踩的几个”坑”取数据先行而不是编数据目录先行,导致后续对平台中数据的管理与使用失控元数据管理后置引发不一致(元数据和实体数据资源、设计和实现、文档和实现)灾难缺乏统一数据开发技术标准与规范,导致重复开发,总体开发成本大、效率低,问题多、隐患大采用以代码为主的数据应用开发方式,导致数据应用黑盒问题严重,问题定位困难,维护成本高前置业务的数据库表自行修改,导致数据汇聚失败或者引发后续数据质量问题缺乏权责明确、清晰的管理与约束手段导致业务单位提交数据不到位、不及时由供需部门直接对接,数据部门没有发挥出协同中心作用,导致业务单位要数据难,效率低、怨言大没有建立基于明确权责划定的多部门沟通与协调机制,导致反复沟通、信息不同步、整体工作效率低避坑指南·数据治理运营基本心法前置-定义数据治理与管理相关的技术、业务与管理标准及规范编制数据资产目录元数据信息配置数据质量标准定义数据开发技术标准数据上报提交规范与要求数据应用需求受理开发流程数据使用申请与使用规范综合运用技术、管理甚至行政手段,来保障这些规范的落地与执行强元数据前置控制数据标准执行控制技术标准执行控制智能化监控与告警明确数据中心职责目标范围强调数据治理各方权责配套管理、沟通与考核机制坚定的业务目标强力的组织领导强大的系统工具独立的运营团队高效的技术支撑避坑指南·构建数据治理运营服务能力数据汇聚对接实施服务企业数据治理运营服务能力专业数据治理运营团队完善治理运营服务流程丰富治理运营服务经验多样服务实施交付方式治理服务综合数据应用咨询服务系统平台运行维护服务数据模型设计开发服务业务数据开放运维服务数据清洗处理实施服务避坑指南·
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AI在智能水务管理中的应用
- AI在智能财务系统应用与运维中的应用
- 医院档案管理制度
- 万荣县汾河旅游公路(万荣段西范至西范桥)建设工程水土保持方案报告表
- 东宁中俄跨境智慧物流枢纽及国际商品集散中心建设项目水土保持报告书
- 网络信息安全基础(AIGC版)随堂前测练习题及参考答案 项目7-任务3-前测练习-单选题5
- 年产6000吨电池级碳酸锂及500吨三氯乙酸项目环境影响报告书
- C语言程序设计课件 第8章 文件
- 广东省医疗器械质量监督检验所动物DSA实验室建设项目环境影响报告表
- 2026辅警综合类面试题目及答案
- 220kV升压站电气设备调试方案
- 2026年二年级道德与法治下册1-4单元全套试卷
- 2026年山东省济南市人才引进计划面试模拟题与解析
- JJF 1221-2025 汽车排气污染物检测用底盘测功机校准规范
- 中电信数智招聘在线测评
- 深度解析(2026)《YDT 6225-2024 大数据 数据脱敏工具技术要求与测试方法》
- (2025年)杭州市临安区网格员笔试真题及答案解析
- 2025年中央企业团支部书记工作总结及2026年工作计划
- 人工智能与医学人文的伦理融合
- (全套表格可用)SL631-2025年水利水电工程单元工程施工质量检验表与验收表
- 解读(2025版)头痛问诊要领中国专家建议课件
评论
0/150
提交评论