数据中台数据整合治理挖掘运维应用解决方案_第1页
数据中台数据整合治理挖掘运维应用解决方案_第2页
数据中台数据整合治理挖掘运维应用解决方案_第3页
数据中台数据整合治理挖掘运维应用解决方案_第4页
数据中台数据整合治理挖掘运维应用解决方案_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据中台解决方案2目录一、XX对数据中台的理解二、XX数据中台解决方案三、XX数据中台实践汇报3业界对数据中台的定义互联网公司近年接连实施“大中台”战略,构建符合互联网大数据时代的,具有创新性、灵活性的“大中台、小前台”的 机制,即作为前台的一线业务会更敏捷、更快速的适用瞬息万变的市场,而中台将集合整个集团的运营数据能力,产品技术能 力,对各前台业务形成强有力的支撑。数据中台的概念由阿里巴巴首次提出,它是一个承接技术、引领业务、 构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标 是为了高效满足前台数据分析和应用的需求。全域数据采集与引入:以需求为驱动,以数据多样性的全域思想为指

2、导,采集与引入全业务、多终端、多形态的数据;标准规范数据架构与研发:统一基础层、公共中间层、百花齐放应用 层的数据分层架构模式,通过数据指标结构化规范化的方式实现指标 口径统一;连接与深度萃取数据价值:形成以业务核心对象为中心的连接和标签 体系,深度萃取数据价值;统一数据资产管理:构建元数据中心,通过资产分析、应用、优化、 运营四方面对看清数据资产、降低数据管理成本、追踪数据价值。统一主题式服务:通过构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表基于阿里云平台的企业中台架构4XX对数据中台的理解与认识数据中台本身还是围绕向上层应用提供数据服务构

3、建的。中台建设肯定会涉及上面提到的管理层面(组织、流程、考核)、 平台层面(开发、服务、治理、运营)、数据层面(资产的类别、清单、质量、运维)、功能层面(数据的实时加工、批量加 工、数据展现、数据搜索、数据存储)。思维模式:经营思维把数据当作资源,且最大程度上发挥数据资 源的价值。组织管理数据中台是个独立部门,不仅仅是成本中心,更是利润中心,责任中心平台演化数据平台为了更好(更快、更灵活)地提供 数据服务,融合数据服务平台、数据开发平 台和数据管理平台,整体统称数据中台知识共享中台的核心是知识沉淀及共享,数据知识包 括数据模型架构、流转规则、使用规范、安 全质量等,数据中台是以数据为载体的知识

4、 提炼、存放、使用系统服务导向数据中台的核心是数据服务,服务的规范化、透明化、共享化数据治理数据中台就是数据资产管理及数据全面治理的落脚点数据创新Copy paste fonts. Choose the only option to retain text.5数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后, 会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。数据中台包括数据模型,算法服务,数据产品, 数据管理等等。XX对数据中台的理解与认识回归服务的本质-数据重用规避数据冗余,优化数据质量,最大程度避免“重复数据抽

5、取和维护的成本浪费”统一 数据基础模型将相关业务领域的数据做了汇聚,奠定了数据核 对和认知的基础数据中台需要不断的业务滋养规避企业信息资产的“烟囱式”数据生产模式或者项目制建设方式数据模型不需要“稳定”,而需要不断的滋养,只有在滋养中才能 从最初的字段单一到逐渐成长为企业最为宝贵的模型资产。企业的数据创新一定要站在巨人的肩膀上,即从数据中台开始,不 能总是从基础做起,数据中台是数据创新效率的保障。比如运营商中 要获取3个月的ARPU数据,如果没有融合模型的支撑,得自己从账单 一层层汇总及关联,速度可想而知。数据中台是培育业务创新的土壤数据中台是人才成长的摇篮数据中台让新人摆脱了在起步阶段对于导

6、师的过渡依赖,能快速的 融入团队,在前人的基础上进行创新。数据中台天然的统一,集成的 特性,有可能让新人打破点线的束缚,快速构筑起自己的知识体系,成为企业数据领域的专家。核心快速响应业务!6数据中台发展及演进过程:XX对数据中台的理解与认识数据运营阶段数据治理阶段数据整合阶段基础数据平台资源管理平台数据运维平台数据共享平台数据治理平台数据服务平台数据挖掘平台数据应用平台7目录一、XX对数据中台的理解二、XX数据中台解决方案三、XX数据中台实践汇报8建设思路数字化中台模式:前店后(厚)厂。“厚平台、薄应用”的架构体系,敏捷支撑企业快速变化的管理和业务需求一体化管控统一资源配置资源共享按需敏捷扩张

7、便捷接入平台化基础设施 云服务平台云服 务基础设施 服务标准应用 平台标准化,规范化的应用组件服务,提供业务应用的共享功能支撑,与业务无逻辑关联组件涉及的标准应用服务功能广泛(包括应用和数据技术共享组件),存在简单的业务逻 辑关联业务共享 组件技术共享 组件主要是业务层面的封装,实现具备更高结构独立性、内容自包含性和业务完整性的可复用 组件服务应用系统的构建由代码编写转为主要通过服务间的快捷组合及编排,完成更为复杂的业务 逻辑的按需提供和改善,从而大大简化和加速应用系统的搭建及重构过程应用基础设施相关的软硬件资源,包括:计算资源,存储资源,网络资源,中间件资源,数据 库资源,操作系统,软件资源

8、(软件安装介质,虚拟镜像,自动化部署脚本)等,以服务 的形式通过云管理平台展现,完成标准、统一的管理。API 开放集成应用系统业务用户架构及 IT 用户管理人员内、外部 开发者供应商合作伙伴平 台 化9整体架构L1构建统一的技术中台,为数据中台和业务中台提供能力支撑,并不断沉淀与业务相关的各种能力,纳入能力中心,支撑OSS未来各种应用的快速开发迭代。开发者中心运营管控中心服务注册调用链分析服务目录服务监控服务发现.区块链智能合约数字资产 共享账本 鉴证服务 数据资产物联网网络运维 资源管理 设备管理 卡/套餐管理 连接管理应用开发WEB开发 大屏开发 手机开发 流程开发AI智能问答 知识图谱

9、标注平台 训练平台 基础算法库能力开放能力商城能力生产管理能力消费管理能力开放开发社区运维管控数据自定义即席查多维分 数据开放 数据共享数据交换报表询析分析全景视图数据质量数据数据资资产可非结构化数据资产 数据标准元数据产视化管理数据安全多租户管理数据任务管理任务调度 任务监控 传输通道-云端 云端集成自动化运维采集框架管理物联网XX探针 传输通道-本地 地端大数据基础服务(Hadoop、MPP、流计算、时序数据库、对象存储等)能力开放微服务管控PaaSDevOps项目管理轻代码管理 量级版本管理在线测试CD/CI区物块联链网应AI用开发数 据 采 集 与 交 换 共 享容器管理服务(Dock

10、er、K8S、镜像仓库) + VM10系统架构L2大数据基础平台HadoopMPP流计算时序数据库图数据库对象存储首页数据目录服务超市数据需求挖掘 模型融合 模型基础 模型数据 集成数据 资产数据 分析互联网数据采集离线数据采集实时数据采集ETL任务调度/监控自动化运维多租户管理数据标准元数据非结构化数据管理数据资产资产可视化全景视图运维管控数据共享数据交换自定义报表即席查询多维分析数据 开放数据安全数据质量网络 体验 服务位置 洞察 服务价值 征信 服务偏好 识别 服务行为 预测 服务潜在客户内容偏好离网预测客户业务资源.资源主题告警主题性能主题XX数据中台是数据“采集、融合、治理、开放”的

11、运营支撑平台11XX数据中台基于大数据及AI等新建技术构建技术架构Cloud SecurityDEVOPSCLIENT APPLICATIONSOpen APIAPP STOREHYBRID APPLICATIONSMICRO SERVICES ARCHITECTURECloudOperationDATACONTAINERCONNECTEDAS A SERVICEAS A SERVCEAS A SERVICEDATA CENTER OPERATING SYSTEM(DCOS)DISTRIBUTED AND ELASTIC COMPUTINGPrivate CloudManaged CloudP

12、ublic Cloud12数据中台能力介绍2.1、数据中台-数据开发能力数据建模:基于元数据的建模工具、模型盘点、模型管控可视化在线建模模型盘点支持在线建立模型、模型变更、下 线等操作,支持批量模型导入(Excel、PDM)支持Hadoop(hive、spark、 Impala)、MPP( vertica 、gp、 gbase、IQ)、RDB(Oracle、MySQL)等模型审核支持物理库与元数据库信息的 一致性盘点核查可从差异直接确认同步到元数 据库模型设计审核流程、模型实施审核流程审核后直接写入元数据系统13数据中台能力介绍2.1、数据中台-数据开发能力分布式ETL工具:采用调度中心+决策

13、中心相结合的分布式数据采集处理架构调度/决策中心池调度/决策中心调度/决策中心HA架构的调度/决策中心任务信息、模型算法信息直接写入元数据库数据采集、处理(清洗转换/标准化/解码等)任务分布到各执行端进行处理提供采集、处理组件的自定义扩展能力,通过采用注入C/C+、Java代码方式进行特 殊数据处理逻辑的实现14数据中台能力介绍2.1、数据中台-数据治理能力数据治理体系:围绕“数据标准”,基于“元模型驱动”实现数据资产的体系化管理【一体化的数据资产管理体系】数据字典规范化数据字典数据标准完善的数据标准体系元数据数据资产元模型在线元模型设计字典引用标准引用数据资源目录注册元模型驱动的元数据管理基

14、于主题库的数据资产目录元模型驱动15数据中台能力介绍2.1、数据中台-数据治理能力数据标准管理:提供全面的统一数据标准化管理数据标准管理字典管理标准管理数据对象分类缩写标准数据接口标准报表数据标准稽核规则数据标准指标数据标准模型数据标准分词、字段库标准字段数据标准程序编写标准封装代码标准标签数据标准运营商大数据标准体系16数据中台能力介绍2.1、数据中台-数据资产管理能力数据资产管理:提供对企业内部全量数据资产的数字化管理,理清大数据平台内数据及数据间的脉络及关系接口离线采集接口、实时采集接口、互联网爬取接口模型缓存层模型、基础层模型、汇总层模型、应用层模型.任务采集任务、数据汇总任务、数据挖

15、掘任务、数据清理任务服务数据API服务、数据交换服务、数据报告服务、数据应用服务指标PI、KPI、KQI、QoE全生命周期的 数据统一管理17数据中台能力介绍2.1、数据中台-数据资产管理能力定义对外开放的数据目录信息,支持数据目录的动态调整与扩展将平台管理的数据发布为对外可见的数据资源信息。将数据资源一键发布为数据API服务,支撑对外开放数据目录数据资源资源发布数据资产管理:提供对企业内部全量数据资产的数字化管理,理清大数据平台内数据及数据间的脉络及关系18数据中台能力介绍2.1、数据中台-数据治理能力数据质量管控:从网管数据的生产环境、采集、处理、消费全过程进行质量监控与保障统一的数据质量

16、监控多方式质量问题分析灵活规则设置质量告警监控质量问题呈现知识库管理与查询血统/影响分析帮助问题定位质量规则的统一管理灵活的规则设置19数据中台能力介绍2.1、数据中台-数据可视能力数据可视:OLAP多维透视分析,构建灵活、直观、快速的数据可视化能力20数据中台能力介绍2.1、数据中台-数据可视能力数据查询:基于SQL语句的自定义页面设计与呈现工具提供灵活的页面布局、展示内容、展示方式、操作动作等的编排设置能力,系统根据根据设 置内容自动生成页面数据集设置页面布局设置页面呈现21数据中台能力介绍2.1、数据中台-数据运维管控能力全景视图:提供面向数据生产、数据资产、数据服务、数据质量的全景视图

17、。数据生产情况数据资产情况平台运行情况数据服务情况22数据中台能力介绍2.1、数据中台-数据运维管控能力数据安全:严守数据安全红线,提供360 全方位的数据安全保障体系。集群安全数据安全访问安全统一认证鉴权:提供统一的认证鉴权功能平台功能访问控制:提供对平台各项功能的访问控制敏感数据访问:支持对敏感数据的金库模式访问控制数据分级分类管理:提供对数据的分级分类管理数据脱敏/加密:支持数据模糊处理、数据加密导出水印:提供在线数据水印和数据文件加密大数据安全体系Kerberos认证:提供对集群的统一身份认证多种授权策略:提供面向组件、库、表、字段、记录的授权策略数据加密区:提供数据加密区能力,从底层

18、确保数据的安全23数据中台能力介绍2.1、数据中台-数据运维管控能力运维监控:提供针对系统IT基础设施、Hadoop平台、应用服务等的统一监控、告警、短信通知等能力:应用/服务监控及在线启停硬件集群监控及告警Hadoop运维监控24数据中台能力介绍2.1、数据中台-数据运营门户能力运营门户:提供面向数据运营的统一对外开放门户首页提供一站式的搜素及最新的数 据、服务动态情况数据目录提供当前系统内已具备的数据目录情 况,提供分领域、专题的数据目录导 航指标目录提供当前系统内已具备的指标 情况,提供分业务、数据源的 指标目录导航服务超市提供发布的API类型的数据 服务列表,支持服务的购买调用数据供需

19、提供最新的数据供需情况, 支持快速的数据需求发布资讯展示当前与数据中台相关的一些热门资讯25数据中台能力介绍2.1、数据中台-数据运营门户能力数据目录:提供当前系统已经对外发布的数据目录信息支持多种维度的数据分类检索支持一键式的数据资源查询支持对数据资源的评价打分支持数据资源详情查看26数据中台能力介绍2.1、数据中台-数据运营门户能力服务超市:提供系统对外开放的API服务清单API服务列表API服务详情在线测试在线申请27数据中台能力介绍2.1、数据中台-数据运营门户能力数据供需:提供数据供需列表及数据供需的发布能力。0201数据需求发布数据供需撮合数据需求详情、交付格式、联系方式等审核发布

20、后的供需需求,快速建立供需合作28数据中台能力介绍2.3、数据挖掘能力AI运行环境管理(AI Station)知识图谱服务智能问答服务智能搜索服务NLP服务离网客户分析伪卡交易侦测产品推荐端到端流量预测提供大数据的提取、转换及加载能力支持机器学习模型训练与调试固化、积累通用AI开放服务基于开放服务的应用场景快速实现数据预处理平台标注平台(iETL)(iTAG)提供面向不同角色端到端一体化数据挖掘支撑能力01.数据准备02.模型训练03. 开放服务04.AI应用模型发布核心模型服务(iAI Platform)(iAI Service)数据接入特征处理模型训练模型评估AutoML29数据中台能力介

21、绍2.3、数据挖掘能力提供面向不同角色端到端一体化数据挖掘支撑能力AI应用场景:家宽用户精准营销、4G离网用户预测、端到端流量预测等AI核心模型:提供内置积累模型(位置定位、关系识别、NPS等)AI开放服务:提供成熟的AI智能服务(NLP、图像识别、智能搜索、智能问答等)标注平台:提供文本、图像、视频的标注能力训练平台:提供面向不同能力开发人员的训练平台(AutoML,IAI,NoteBook)计算框架:全面的AI计算框架支持( Sk-Learn、TensorFlow、Caffe-MPI、MLLIB)AI Station:提供AI运行资源管理、分配、可视化部署云化基础设施资源池:主机服务、计算

22、服务、存储服务、网络服务等30数据中台能力介绍2.3、数据挖掘能力AI Station:面向机器学习集群,支持多种机器学习框架,能够快速部署机器学习训练环境,对计算集群的CPU及GPU资源进行统一的管理、调度 及监控,有效的提高计算资源的利用率和生产率 。硬件层GPU服务器训 练CPU服务器训练万兆/IB 网络共享存储 系统系统层OS(RHEL/CENTOS/FEDORA)Container caffe2Container Caffe-MPIContainer TensorFlowContainer Sk-learnContainer MXnet管理服务层Web ServiceDockerTo

23、rque计算资源管理GPU/CPU调度GPU/CPU监控资源统计及分析31数据中台能力介绍2.3、数据挖掘能力AI Station:硬件统一管理,框架一键部署。资源管理GPU资源智能化调度自动调度性能最优GPU组单卡多任务,释放资源负载均衡,公平共享资源监控资源监控性能监控故障监控资源使用情况监控实时监控应用运行性能环境构建一键部署机器学习容器环境GPU计算资源+深度学习框架按需部署:容器数量,容器配置弹性伸缩:动态添加或删除容器镜像管理:公有镜像,私有镜像性能分析/优化系统性能分析及瓶颈优化深度学习框架镜像优化GPU配额策略:负载均衡,公平共享优化多机多卡并行,优化框架优化数据读取流程,及数

24、据缓存优化GPU分配策略,独享/共享32数据中台能力介绍2.3、数据挖掘能力AI Station:硬件统一管理,框架一键部署。GPU资源分配硬件性能可视化机器学习环境一键部署集群资源监控实时性能分析算法分析33数据中台能力介绍2.3、数据挖掘能力AI标注:通过标注平台可以对文本、图像、知识进行标注,并且对标注质量进行自动、人工审核,保证数据质量标注质检智能处理自动质检人工质检协同众包任务分派权限管理版本管理分包质检知识标注实体标注事件标注属性标注关系标注视频标注候选物标注跟踪标注视频分割视频审核多形状选择图片标注分类标注标框标注区域标注描点标注文本标注词典编辑语料处理语料基线分词词性分类标注关

25、键词标注数据源TXTWORD图片网页34数据中台能力介绍2.3、数据挖掘能力AI标注:通过标注平台可以对文本、图像、知识进行标注,并且对标注质量进行自动、人工审核,保证数据质量全流程数据标注客户提交原始数据和需求描述,第一时间定制开发标 注工具并实施数据标注,标注结果经质检人员核验后进行交付数据隔离方案将数据资源调用、标注前端模块部署至内网环境,严 密的数据访问策略保证数据安全。平台把控项目进度, 保障数据标注质量私有化部署为客户本地化部署具有自己的兼具需求管理、自主创 建标注工具、标注任务管理、人员管理、众包管理等 功能的数据标注平台可为特殊需求免费定制化设计医用模板平台完成全流程,用户无需

26、分担经历数据不出用户环境,,保证数据安全标注项目全程面管理标注平台免开发可自主运营和管理项目人员35数据中台能力介绍2.3、数据挖掘能力AI标注:通过标注平台可以对文本、图像、知识进行标注,并且对标注质量进行自动、人工审核,保证数据质量词典创建/管理语料管理预处理/打基线任务众包/审核知识实体标注关联标注36数据中台能力介绍2.3、数据挖掘能力AI训练:旨在降低机器学习使用门槛,提供可视化的操作界面实现模型的训练、评估和预测过程,无缝衔接数据分析和预测应用,降低机器学习模型的生命周期管理难度,为用户的数据挖掘分析业务提供易用、高效、高性能的平台服务工作台UI服务/模型管理模型发布模型分享模型存

27、储服务管理训练流程设计可视化编排流程解析引擎AutoMLNoteBook会话任务监控模型服务数据集管理数据导入数据预览TensorFlowTensorFlow算法组件库TensorFlowTensorFlowTensorFlowTensorFlowcaffe2MXNet计算框架SK-LearnMLib37数据中台能力介绍2.3、数据挖掘能力AI训练:是强大且便捷的机器学习和深度学习建模平台,同时提供模型生产化能力,平台的开放性也可以让用户更容易扩展算法、迁移模型并与既有IT框架集成。异构多引擎融合架构R、Spark、Python等 Docker、Hadoop、GPU 数据抽象、混合编排深度学习

28、支持与TensorFlow、caffe2等框架无缝结合大规模分布式深度学习框架 神经网络可视化编程Docker微服务&Devops将AI模型融合现有微服务环境运行 服务的负载均衡与高可用 完整的监控告警体系开箱即用”白盒”算法库内置200多种算法模型机器学习、深度学习可以查看、修改、升级、编写自己的算法模型拖拽建模&AutoML&Jupyter面向不同开发层级的建模工具 支持图形化、拖拽式工程建模支持自动模型选择、自动超参数优化、自动模型评估、模型定期优化、自动更新包含特征工程的模型输出调用API无需考虑特征工程复杂性直接输入业务字段38数据中台能力介绍2.3、数据挖掘能力AI训练:是强大且便

29、捷的机器学习和深度学习建模平台,同时提供模型生产化能力,平台的开放性也可以让用户更容易扩展算法、迁移模型并与既有IT框架集成。数据管理特征工程可视化建模AutoML模型评估应用上线39数据中台能力介绍2.3、数据挖掘能力AI开放服务:对具有通用性的模型进行能力封装,对外以API、核心模型的方式直接提供服务AI核心模型关系识别模型位置定位模型业务量预测模型NPS评估模型智能服务智能搜索数据可视化智能问答知识图谱本体建模 实体抽取数据导入事件抽取知识建模与存储知识抽取属性抽取知识存储关系抽取图谱管理 实体链接NLP/NLU图像处理AI基础服务查询理解 分词词性标注实体识别文本理解关键词提取 自动摘要 文本分类情感理解文本相似 依存句法 共指消解OCR目标检测 目标识别人脸识别人脸比对图像匹配40数据中台能力介绍2.3、数据挖掘能力AI开放服务:对具有通用性的模型进行能力封装,对外以API、核心模型的方式直接提供服务自然语言处理多算法结果切换方便易用的NLP服务接口丰富的行业语料库.知识图谱多源异构超媒体数据融合提供全息、多维、动态、虚实结合的超级档案基于图谱的图形化数据过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论