版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
丁凯平,郭贺飞,金雪松,孙建楠,项登荣数字经济步入全面发展阶段,大数据技术在各行业中被广泛应用,企业生产、营销、运营等各环节中大数据都发挥重要的作用与价值,但数据应用开发需求的持续增长、与数据用户角色的日益复杂,致使企业数据开发、数据运维工作量以及数据应用交付协调难度大大增加,海量数据的爆发式增长给数据价值挖掘带来了一系列的挑战。DataOps作为一种新兴的数据处理与管理方法,强调数据驱动自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据生产者与数据消在此背景下,华为云联合华为终端云撰写本白皮书,从行业发展背景、数据文化转变、构建端到端流程体系和工程能力解决方案等方面,详细阐述华为终端云DataOps平台在数据合规、安全、高效、自治的实践过程,及如何使能数据实体间的高效合规共享01背景 1(一)行业背景 1(二)终端云DataOps演进历程 102DataOps关键技术及行业趋势 2(一)核心概念 2(二)关键技术 3(三)行业趋势 503华为终端云DataOps目标 6(一)数据作业合规 6(二)数据共享安全 6(三)协同交付高效 6(四)数据资产可治理与自治理 704华为终端云DataOps组织与流程 8(一)业务场景 8(二)理念统一 9(三)流程设计 (四)组织设计 (五)DataOps实践七步法 05华为终端云DataOps能力框架 13(一)架构 (二)数据接入 (三)数据生产 (四)数据调度与运行 (五)数据治理 (六)数据运维 (七)开放平台 06未来展望 3207华为终端云实践案例 33(一)《基于DataOps实现数据高效接入&AI实时推荐》实践 (二)《DataOpsPipeline数据开发与运维》实践 (三)《元数据管理(数据实体&信息架构树)》实践 (四)《声明式数据接入管理》实践 (五)《数据安全(分类分级)管理》实践 (六)《数据质量评测体系》实践 背景(一)行业背景随着数字化转型的普及和深入,大数据技术在各类行业中普遍落地使用,企业生产、营销、运营等各环节中的数据将普遍被采集,数据应用开发需求增长与数据用户角色的复杂致使企业数据开发、数据运维工作量以及数据应用交付协调难度大大增加。海量数据的爆发式增长给数据价值挖掘带来了一系列的挑战:数据孤岛阻碍数据的共享与统一,数据在各部门间协作困难,单点自动化难以支撑整体效能提升。DataOps作为一种新兴的数据处理与管理方法,强调数据驱动自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据生产者与数据消费者的协同效率,成为企业数字化转(二)终端云DataOps演进历程阶段一阶段一(2014-2018年),基础能力建设:华为终端云大数据平台初步构建统阶段二阶段二(2018-2021年),全流程工程能力平台:启动构建全流程工程能力平阶段三阶段三(2021年至今),“可信、高效、自治”的一站式平台:对齐业界DataOps理念,在组织内倡导“合规、安全、高效、自治”的数据文化,打造涵盖数据开发、运维、治理的端到端流程体系和工程能力平台WiseDataOps。提供“可信、高效、自治”的一站式体验,支撑数据管理员、工程师、分析师等专业角色在可信合规前提下实现数据实体的高效共享和快速交付,实现终 DataOps关键技术及行业趋势DataOps关键技术及行业趋势(一)核心概念截止2022年2014年2015年2017年2018年业界对DataOps定义的解读说法较多,对DataOps的概念理解存在共通之处。各类观点普遍强调数据的价数据相比与软件业务的一些典型特征不同,因此在对人员的具体能力要求、交付方式、设计思想和生命周期管理上ecaevoGnoitsegnModelingrcOestratenuRCorotiecnorevoGedocuildyoletareOtestMotecaevoGnoitsegnModelingrcOestratenuRCorotiecnorevoGedocuildyoletareOtestMotDataOpsOpsDevOpsDataDevOpsDevOps大数据系统需要解决各类场景下的采集与数据集成问题,如不同数据部署方式(本地部署、云部署、跨云部署等)、多种数据形式(结构化、半结构化、 DataOps关键技术及行业趋势随着结构化数据和非结构化数据数量的不断增长,以及分析数据来源的多样化,之前的存储系统设计已经无法满足大数据应用的需求,存在很多挑战,如容量问题、延迟问题、安全问题、成本问题、高可用诉求、灵活性诉求。为了应对大数据对存储系统的挑战,数据存储领域内在不懈努力提升数据存储系统的能力,主要提升有3个方批计算处理的是“固定的”、有界的数据集。数据的导入与计算通常是严格地分成两个阶段,即先将数据导景下,数据会不停地产生,当数据产生之后要立刻对其进行分析与处理。在这种情况下,数据的导入与计算往往是体,包括计算的批流一体和存储的批流一体,这样可以降低系统维护成本、保障数据质量和一致性,进一步混合调湖仓一体是一种将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的新型融合架构,类似于在湖边搭建了很多小仓库,有的负责数据分析,有的运转机器学习,有的用来检索音视频等,数据源流都可以从数据湖里 DataOps关键技术及行业趋势轻松获取。这样就打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询多维数据中的维是指人们观察事物的角度,同样的数据从不同的维度进行观察可能会得到不同的结果,同时也使人们更加全面和清楚地认识事物的本质。多维分析可以对多维形式组成的数据进行切片、切块、上卷、下钻、旋转等分析操作,使分析者、决策者能够从多个角度、多个侧面去观察数据、对比数据,从而深入了解包含在数据中数据可视化主要旨在借助于图形化手段,清晰有效的传达与沟通信息。但是,这并不意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效的传达思想概念,美学形式与功能需要齐头并进,通过直观的传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入数据血缘是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。数据血(三)行业趋势 华为终端云DataOps目标华为终端云DataOps目标治理的端到端流程体系和工程能力平台WiseDataOps。提供“可信、高效、自治”的一站式体验,支撑数据管理员、工程师、分析师等专业角色在可信合规前提下实现数据实体的高效共享和快速交付,实现华为终端云服务业务针对华为终端云EB级数据量的数据湖仓系统,进行日常运营、搜索、推广及AI训练的任务是海量的,这就要求WiseDataOps平台构建具备百万级任务在线、秒级任务响应、力,以支撑华为终端云数十类业务的运营分析人员的同时 华为终端云DataOps目标引入数据资产“生养管治”理念,构建面向数据域的资源管控体系,对数据全生命周期进行实时管控,支撑数同时,引入逆向治理概念,作为数据正向治理的补偿措施,解决数据湖仓中各种非标、异常、不规范导致的 华为终端云DataOps组织与流程华为终端云DataOps华为终端云各类消费者业务日常的运营及经营管理过程普遍存在数据应用场景,比如:经营分析报表、用户画像标签、运营自助分析、推荐/广告等业务特性或者经营活动都依赖于高质量的数据、高效率的数据作业,才能高效、精准实现数据价值挖掘与变现。如何提升数据开发和治理端到端效能,高效构建数据模型和数据应用是我们面画像标签推荐模型男性已婚人士IT/互联网从业者资产状况有车有房年龄25-35岁旅游爱好者餐饮美食茶饮爱好者男性已婚人士IT/互联网从业者资产状况有车有房年龄25-35岁旅游爱好者餐饮美食茶饮爱好者体育运动爱好者话剧演出爱好者购物高消费人群用户属性行为偏好用户属性游戏游戏APP活跃出行APP安装短视频类APP安装个数安装多款游戏APPAPP卸载时间设备价格屏幕尺寸机身颜色设备品牌兴趣意向设备属性兴趣意向taDeyololeveD(Re-)TrainVerifyMotInferencetaDeyololeveD(Re-)TrainVerifyMotInferenceOpsML 华为终端云DataOps组织与流程ADS:数据应用层DWS:公共汇总宽表层DIM:一致性维度表ODS:操作数据层DWD:明细宽表层……数据生产DataOps的实践过程第一步需要从业务的数据战略开始,建立数据领导力。因此在引入环节需要与各级业务主•及时、高质量的数据更好地帮助了解用户、市场,提•利用数据改善内部运营,提升内部效率接下来调研围绕数据应用开发和部署场景、数据应用和治理面临的痛点问题,识别主要矛盾,设定DataOps模式下更有效的解决方案。DataOps解决方案需要综合考虑数据协作文化理念对齐、组织设定和角色优化、数据开发与治理流程设计、先进的技术工程实践引入、通用工程工具平台构建等不同层级的落地策略。如下为华为终端云业全功能团队:产品经理、数据工程师、数据分析师、运维、运营跨功全功能团队:产品经理、数据工程师、数据分析师、运维、运营跨功WiseDataOpsWiseDataOpsSLAKCPSOD矩阵MLOpsDataOps促进数据生产者和消费者的协作,通过自动化数据开发和治理,在合规前提下提高数据分析质量并缩短数DevOps连接模型构建团队和业务团队,建立标准化的模型开发、部署与运维流程,使组织更好地生产和应用机器AI与算法工程师SLAKCPSOD矩阵MLOpsDataOps促进数据生产者和消费者的协作,通过自动化数据开发和治理,在合规前提下提高数据分析质量并缩短数DevOps连接模型构建团队和业务团队,建立标准化的模型开发、部署与运维流程,使组织更好地生产和应用机器AI与算法工程师 华为终端云DataOps组织与流程(三)流程设计为了标准化支撑典型数据应用作业,将业界DataOps的理念融入到数据作业流程中,统一语言。华为终端云构建了“管理终端业务数据”作业流程,包含端到端数据生产和消费的作业流,将数据开发与运维、数据治理相关要求内嵌到作业活动中,在合规前提下实现数据的高数据应用开发与运维(DataOpsPipeline) 数据应用需求规划数据开发与发布数据应用开发与发布数据运维与数据内部数据外部数据(内容…)数据发布部署与与数据应用价值数据治理(DataGovernance)业务系统A 公共数据业务A数据业务B数据数据同步生产环境A生产环境B业务系统B软件服务基础设施数据资产基础设施终端业务数据管理专业组织终端业务数据管理专业组织 华为终端云DataOps组织与流程传统的数据组织架构与企业数据管理的规模和价值流模式息息相关。通常会形成业务维度或者职能维度(IT系统平台建设方)各自建设的形态,由于数据所有权的不同,带来数据标准统一、互通共享等不同方面的问题。因为数据拉通治理的需求,有的企业也会形成专业的数据管理团队,但数据管理团队由于与业务价值流分开运作,所以DataOps模式下更倡导以业务为导向的全功能团队设计,从而让效率提升、价值快速交付成果更容易实现。为了拉通DataOps工程能力建设和湖仓数据治理,还需要建立相应的数据治理管理组织和平台支持团队,如下为终端业务2全功能团队业务1全功能团队其中终端业务数据开发与治理联合工作组负责体系建设,拉通安全、隐私、法务等行业组织和各个业务单元,共建数据开发和治理规范、流程和工程能力;数据Owner是数据资产管理的第一责任人,对数据资产的开发与治理承担管理职责;数据管家协助数据Owner管理数据资产,组织领域数据治理工作;全功能团队负责数据及数据应用 华为终端云DataOps组织与流程(五)DataOps实践七步法围绕企业业务战略,对现有的数据战略、数据架构、流程和团队进行评估,确定企业面临的挑战和需求。基于此,制定数据战略和文化,以确保企业各个部门在数据管理方面的行为和决策与企业数据战略的一致性。这将有助程和职责划分。同时,制定标准、规范和流程,以确保数据处理和分析流程的安全、高效、高质量。同时,设计业设置满足DataOps理念要求的岗位,并明确其岗位职责、考核要求与发展路线。为不同的数据岗位提供必要的培训和技能提升机会,以确保其具备所需的技能和知识,满足企建立从数据采集、清洗、处理、分析、交付和维护的完整数据流程,并明确各个流程环节的规则和标准。通过明确核心实现技术栈,技术选型。在整体数据研发运营管理生命周期流程中引入适合的自动化工具和技术,以提高研发效率和准确性。应用持续集成(CI)、持续测试(CT)和持续交付(CD)的原则,通过自动化测试和部建立数据质量和性能等维度的数据全链路监控,以便及时发现问题并进行优化。构建度量和反馈体系机制,持续评估数据管理和分析的有效性,并通过反馈循环和迭代,不断改79端侧数据源 WiseDataOps湖仓服务器812多维分析标准出湖云侧数据源服务端日志实时数据62 7业务系统 3 47声明式出湖3数据库数据2计算加速DCS 离线引擎5数仓DMQ批数据OBS4计算集群实时引擎579端侧数据源 WiseDataOps湖仓服务器812多维分析标准出湖云侧数据源服务端日志实时数据62 7业务系统 3 47声明式出湖3数据库数据2计算加速DCS 离线引擎5数仓DMQ批数据OBS4计算集群实时引擎5 华为终端云DataOps能力框架华为终端云DataOps(一)架构WiseDataOps平台作为终端云数据湖仓数据应用产品运营报表自助分析画像DMP营销运营报表自助分析画像DMP营销991端侧接入 2接入中间件部署3344云测接入数据授予5数据开发与运行(含即席) 6数据集成数据出湖能力开放数据出湖 能力开放数据开放事件开放数据数据定位数据BCM数据运维数据数据能力开放数据开放事件开放数据数据定位数据BCM数据运维数据数据数据地图数据数据治理数据质量 华为终端云DataOps能力框架华为终端云在WiseDataOps湖仓基础推荐业务搜索业务广告业务营销风控智能客服AIOps小艺相机推荐业务搜索业务广告业务营销风控智能客服AIOps小艺相机DPPWiseDataOpsLakeHouseWiseDataOps平台逻辑架构WiseDataOps统一门户DataData作业台Ops作业台DGP作业台个人工作台系统配置DataOps仪表盘DataDataPipeline持续部署持续开发建模消费设计编排运行接入部署监控数据开发数据数据数据建模数据数据数据建模接入端侧接入Runtime数据调度运行公共DMDB(统一元数据)运行公共数据运行LakeHouse批计算引擎批计算引擎流计算引擎流计算引擎(二)数据接入数据源与大数据平台数仓的关键通道,提供标准化、高可靠IF2监控注册IF5入库任务调度IF3上报推送日志IF3上报运行日志华为终端云DataOps能力框架IF2监控注册IF5入库任务调度IF3上报推送日志IF3上报运行日志为解决上述痛点问题,通过梳理云侧数据接入的主流场景与流程,分析当前瓶颈,构建自助式数据接入的产品WiseDataOpaWiseDataOpa平台 服务器日志数据湖外 1、接入管理服务:支持源数据的设计、接入、审核能力,离线/实时数据的接入管理能力,并通过调用数据建IF1任务下发IF6告警上报IFIF6告警上报IF4任务状态监控IF4:配置获取IF9:数据解析IF6:数据采集配置IF5:端侧数据上报IF4:配置获取IF9:数据解析IF6:数据采集配置IF5:端侧数据上报 华为终端云DataOps能力框架为解决上述痛点问题:通过端到端分析端侧数据从设计、上报、接入、落盘、分流、解密、解析、治理全流程,构建端侧事件管控能力,支持事件的设计、审核、上报、解密、解析等能力,满足端侧数据上报的可管可控、隐私合规要求,包含事件管理服务、事件配置下发服务、数据采集配置服务、数据解析服务、数据采集服务、鸿蒙鸿蒙APP事件IF8:数据接入配置获取IF3:端侧数据IF7:端侧数据入仓5、数据采集服务:提供高可靠、高性能的CDN能力(归档)变量、UDF(沙箱、探索)(归档)变量、UDF(沙箱、探索)探查/对比CodeReview(云眼)灰度(双跑)(跨站点) 华为终端云DataOps能力框架(三)数据生产维指标等场景提供多模式、多环境的数据协同开发、发布与部署等能力,提升数据开发敏捷性、效率及数据质量,(SQLScan) 华为终端云DataOps能力框架数据测试支持数据任务在不同环境的静态检查、数据调度与运行通过基于云原生架构构建流/批一体执行调度引擎,针对数据接入、数据集成、数据开发、数据质量、数据出湖等场景下生成的海量任务提供百万级并发、秒级响应能力,提升海量任务并行运行效率、可靠MRST1T2T3T4T5MRST1T2T3T4T50MQ 华为终端云DataOps能力框架X-X-SchedulerDispatcherMemCacheflflinksparkflflinksparkCCEflflinksparkSFSSFS(client)YARNYARNDataops调度层融合批和流调度架构,通过构建统一任务调度元数据管理系统,及根据任务负载弹性部署调度和Worker节点,在保证业务并发扩容的同时,能够减少人工运维的工作量,同时达到调度和执行能力动态扩展。当前调度系统支持hive、spark-jar、spark-sql、flink-jar、flink-sql、shell、http、seatunnel等件式调度,新接入类型只需简单适配插件即可实现对应任务的调度能力。支持分钟、小时、天、周、月任务,自定义偏移时间调度。为了支持各业务之间的数据百万级任务可以轻松下降到十万甚至万级任务。分布式调度系统一般需要分布式事务或者锁来控制,因为系统中任•横向扩容:调度任务数量随着调度节点的扩容线性增长,通过•时间片算法:通过时间轮,叠加优先级队列,快速将任务实例推向下游Worker节点。5959 华为终端云DataOps能力框架达到执行时间生成实例就绪完成下发执行任务启动•事件触发:对于存在依赖的任务调度,依赖任务完成后通过事件触发,加速任务调度就绪状态判断。对于无依赖的任务,通过时间片轮训,到时间直接下发。耗•故障容错:调度节点故障,由调度节点自动接管。执行节点故障后,调度不再下发任务,将任务协调到其•执行灰度:云服务业务按照BU划分集群,为了支持集群灰度升级等场景,执行节点支持灰度发布,将某些(五)数据治理数据治理通过构建数据资产管理、数据质量管理、数据安全等能力,提供大数据场景下的全生命周期治理能力,提升数据运行效率、质量,降低数据安全风险, 华为终端云DataOps能力框架据治理定义是:数据治理是通过组织、制度、流程、技术的结合与实践活动,用以管理、维护和开发作为企业信息数据治理不同于数据管理,管理是你做出的决定,治理就是为这些决定制定愿景、政策、标准、流程和规则。治理是执政的行为,它涉及到定义期望值,授予权力(决策权),并且对结果进行验证。治理是统一的管理,有凝聚力的政策、指导、流程和规则,以确保我们在合适的时间,以正确的方式在做正确的事情。治理将为企业建立一个愿景,并制定相应的政策,企业愿景,指导原则,标准和规则,管理是确保这些政策,标准,原则和规则的实际应用,并在新的和现有的系统中体现。治理把与业务战略相关的决生管治养生管治01020304从部门-数据域-子数据域超级APP维度展示血缘管理影响分析血缘管理影响分析任务血缘数仓血缘采集血缘自定义血缘字段溯源治理管理资源管控治理事务管理治理度量 华为终端云DataOps能力框架数据资产数据资产API数据留存数据留存留存期规范留存期审计留存期配置统一元数据管理统一元数据管理(DMDB)标签数据字典非结构化数据融合数据资产和建模元数据,构建统一、完备的元数据信息库(),表元数据信息包括:基础信息、字段信息、血缘信息、数据量监控、生产信息、影响分析、历史版本,覆盖数数据的全生命周期如下图所示,生命周期状态包括:草稿、调试、激活、去激活及归档和删除。表上线、表下通过生命周期管理实例,对表分区存储周期删除,提供生命周期总览,每日周期删除数据量和Top存储大表的 华为终端云DataOps能力框架数据血缘分析可以梳理系统、表、视图、存储过程、ETL、程行可视化展示。简单地说就是通过可视化展示数据的来源2、多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工生成的,而且这种4、层次性。数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同结合业界、集团数据质量管理标准和框架,提炼云服务数据质量管理框架,构建数据质量自动化检测和评测能梳理历史问题,不断丰富数据典型失效模式数据质量管理框架设计质量*40%执行质量*60%对领域所有业务对象的数据架构建设情况进行评估+聚焦影响“财报”和“业务运营”的关键数据,对准质量六性评估资产数据资产模型完整性完整性一致性及时性设计执行数据数据标准数据分布唯一性唯一性准确性有效性数据质量服务具有多种功能,主要包括数据质量总览,规则管理、任务管理、质量告警和数据评估,保证了数据在生产及使用过程中的可靠性和合理性,从而避免因为数据质量问题而导致数据失信、决策失误。依据监控规则任务开发通知告警但下游任务继续执行提交上线质量校验质量异常任务开发通知告警但下游任务继续执行提交上线质量校验质量异常弱规则 华为终端云DataOps能力框架规则强弱规则强弱强规则下游流程熔断下游流程熔断定义关键数据项,持续的数据质量检查和监控。根据数据质量评分标准,对业务的数据质量进行评分,输出质理者根据端到端流程进行维护,数据从一个数据管理者移交到另一个主题,需要遵守SLA的约定,企业范围的数据质量倡议者需要推动端到端的数据质量治理,确保数据跨越不同的数据管理者,数据安全遵循湖外严控,湖内提效原则,提供事前声明、事中监控、事后审计能力,降低数据安全风险,提升数据资产的识别、注册与盘点是管理数据资产的基础,各业务领域应按要求进行数据资产信息的识别与注册,各业务部门是本业务领域数据资产化和管理的第一责任人(数据Owner应采取相应措施落实相关责任和要分类分级分类分级访问控制数据安全体系化监控分析应急响应 华为终端云DataOps能力框架数据处理活动须遵从适用的网络安全与隐私保护相关法律法规、合同义务和华为自身的明确要求(如明确的对对分类分级的数据进行与之相匹配的安全管理,采取管理和技术措施确保数据以及承载数据的IT基础设施及系数据资产应在安全合规的前提下充分共享,数据生产/保管部门不应拒绝合理的数据共享需求。对于合理的数数据处理应当遵循透明可控原则,数据收集、使用、共享应当提供可视化的自证清白的能力。对于数据采集/终端云服务数据安全治理体系数据安全治理目标数据安全治理目标数据识别数据识别(消费者云服务总裁授权组织)可追溯可审计消费者BG数据安全管理要求分类分级规范/安全隐私管理指导书治理原则组织和责任政策要求技术管理分类分级职责明确确保安全合规合约法律法规数据传输数据传输数据共享数据使用数据存储数据收集数据销毁数据活动合规(基于数据生命周期)产品安全安全 华为终端云DataOps能力框架数据安全主要承载平台安全合规相关能力,力求做到数据全流程合规可控,为平台的数据安全保驾护航。构建统一的数据全流程安全体系,遵从湖外严控,湖内提效的策略,支持事前声明、事中监控、事后审计的能力。基于终端业务数据安全隐私管理规范要求,基本能力已具备。同时在安联合安全、合规部门建立统一的数据分类分级方法,由数据开发与治理联合共工作组例行发布终端业务数据分类分级定义与应用全景图如下图(数据分级分类的变更和定义采用相同的管理过程)。其中数据分类分级将在数据开发和治理过程中进行定义和标记,从而在数据各类应用环节中影响到对数据的具体管控要求数据分类分级定义及应用数据分类分级定义及应用数据分类分级定义数据分类分级应用数据分类分级标记在数据的整个生命周期处理活动中,各领域都有义务保护数据安全,合法合规使用数据,根据数据的类型、数其中在数据入湖和数据出湖时,应保证足够的安全。一方面要禁止不合规的数据进入数据湖,如未经过用户授权的个人敏感数据,杜绝法律风险;另一方面,在数据出湖时,应严控 华为终端云DataOps能力框架网络隔离网络隔离数据入湖数据入湖数据域A数据域B探索环境数据分类分级数据出湖网络隔离网络隔离数据监管团队(数据管家、产品经理、隐私代表、法务代表)数据监管团队数据管家终端云服务主要的数据内部共享和对外开放操作需要遵从整体数据分类分级对数据安全和隐私的管理要求,在遵循湖内合规管控策略:湖外严控,湖内提效;事 华为终端云DataOps能力框架(六)数据运维数据运维构建面向数据域的运维能力,主要提供数据诊断、故障预防、数据操作等功能,提升用户自运维效业务不断演讲,现网愈发复用户的资源需求超过资源供给能力,资源需求的峰谷差异导依托EB级数据量的大数据系统的运维经验,构建贯穿事前(智能预防),事中(智能监控)、事后(智能保障)的端数据应用开发与运维(DataOpsPipeline) 数据应用需求规划数据开发与发布数据应用开发与发布数据运维与数据内部数据外部数据(内容…)价值数据应用与与2、智能调度策略不灵活,跨集群资源弹性、跨队列资源调度困难,无法方便的将繁忙数据域的任务调度到空(BU)MRS集群队列A队列B队列C(BU)MRS集群A队列A2公共资源141队列B队列BA3混部集群(CH等)5队列C(BU)MRS集群队列A队列B队列C(BU)MRS集群A队列A2公共资源141队列B队列BA3混部集群(CH等)5队列CA子数据域管理队列A队列A队列C(BU)MRS集群2、智能监控&诊断通过构建基于调用链、日志的智能诊断平台,实现任务并发、依赖关系、集群资源等关键调度、诊断数据的实时可视,常见故障一键获取故障根因并给出对应解决措施,显著提升定位效率和使用体验,同时也为用户自运维打调度调度智能监控/诊断智能监控/诊断执行预测依赖检查自定义监控根因分析资源预测资源采集•IF2:从调度模块获取任务执行实例•IF3:根据子租户ID从子数据域获取使用的队列•IF4:任务执行完之后,TaskOptimizer对任务进行解析,任务执行信息汇总•IF6:通过YarnAPI获取正在执行的任务占用资源情况,和队列执行中的任务列表在海量数据存储成本长期高企的背景下,如何有效降低存储成本成为关键运维方向之一。在该背景下DataOps数据运维完成智能存储能力构建,通过自动化的冷热数据归档、生命周期日落,在数据存储量级不变、使用体验不数据转存数据搬迁1.脚本运行对比(结果一致,耗时一致)2.数量对比(数量一致,内容一致)2.数据同步aoneWork模式3.配置增量同步任务准备动作任务调测操作权限准备任务搬迁数据转存数据搬迁1.脚本运行对比(结果一致,耗时一致)2.数量对比(数量一致,内容一致)2.数据同步aoneWork模式3.配置增量同步任务准备动作任务调测操作权限准备任务搬迁2.任务同步导入数据转存报表系统校验2.新搭建报表系统替换数据开发任务 华为终端云DataOps能力框架建表热数据周期(天)表创建分区生成分区转归档分区转热数据分区生命周期完结建表热数据周期(天)冷备数据周期(天)冷备数据周期(天)(子)数据域/(子)数据域/Hive表设置归档策略执行归档 降成本效果计算数据操作系统(子)数据域3、清晰的查看表分区的归档情况(待归档,归),据支撑(即分区文件大小)搬搬迁1.任务分层,(数据源层:o层,部分D层业务和模型层:部分D层和A层)2.分层迭代搬迁,根据实际情况跳过相应步骤务配置表表迁移表表迁移表表迁移表表迁移 任务下线2.下线无反向依赖D层任务通过构建统一开放能力,面向标签、特征、数据开发、事件监控的应用场景,提供能力开放、数据开放、事件开放等能力,具备统一鉴权、权限管理、流量控制、质量监控、访问审计等,提升业务数据构建与应用的效率,帮 华为终端云DataOps能力框架2、业务数据无法得到共享,各业务需自行构建一个独立、安全、可靠的数据服务,导致重复烟囱式的开发,协同能力,进而提升业务在数据产品平台上构建数据应用的2、构建OpenData,提供高效易用、安全稳定的数据开放平台,帮助业务快速构建数据开放API,减少各业务分布式限流、熔断API全生命周期监控审计日志应用授权统一鉴权多模式API注册API调试API发布分布式限流、熔断API全生命周期监控审计日志应用授权统一鉴权多模式API注册API调试API发布API下线事件定义事件发布事件订阅事件下线能力开放数据开放事件开放关键能力1:能力开放(OpenAPI)关键能力2:数据开放能力(OpenData)关键能力3:事件开放能力(OpenEvent) 未来展望•数据即代码:清晰定义数据实体及业务过程,明确价值边界,并实现逻辑模型与物理实现的解耦;以便•AIinDataOps:动态态势预测与智能调度能力解决资源平滑使用,提升资源利用率;智能安全、隐私感知,提升数据分级分类效率与准确性;智能分析辅DevOpsMLOpsDataOps数据治理真实、有效的数据集 数据应用需求规划数据开发与发布数据应用开发与发布数据运维数据反馈 与与DevOpsMLOpsDataOps数据治理真实、有效的数据集 数据应用需求规划数据开发与发布数据应用开发与发布数据运维数据反馈 与与与 (再) (一)《基于DataOps实现数据高效接入&AI实时推荐》实践DataOps适用于数据产品服务端到端开发场景,连接数据团队和业务团队,建立标准的数据接入、建模、开发、部署、运维流程。使组织更好的开展数据应用开发与运维(DataOpsPipeline)。从业务立项和需求提出开持续开发持续开发为AI为AI提供数据集和数华为终端云WiseDataOps平台在端到端数据价值构建基本能力如下:华为终端云WiseDataOps平台支持端侧数据接入、建模、为推荐模型训练提供基础数据,并与MLOps联合实 WiseDataOps历史WiseMLops练理APP范围skd WiseDataOps历史WiseMLops练理APP范围skdABTest人 112233(二)《DataOpsPipeline数据开发与运维》实践力,才能实现敏捷流程的目标,实现端到端的数据流在业务日常的数据应用场景中,由于团队边界导致数据的生命周期分裂在不同系统内,数据难以共享。并且不同的工具和系统专注于系统内的功能,不能提供端到端的数据开发分析能力。数据作业缺乏以数据为中心,组织协从数据需求到数据交付这个数据作业过程中,涉及到数据采集、转换、加工、测试、发布、调度等过程。终端云WiseDataOps平台借鉴业界实践理念,定义数据应用需求规划、同时和DevOps及MLOps充分协作,三个流程匹配不同交付形态,支持云服务产品各数据及数据应用场景的高MLOps数据集成KCPMLOps数据集成KCP数据湖管理员/数据域管理员//数据运维数据湖管家/数据家/数据域管理员【目录】产品表元数据信息子数据域元数据信息名称【目录】数据域版本:继承数据实体版本ID体系用途:继承数据实体用途层级:继承数据实体层级隐私等级字段信息部门数据域子数据域集群名称队列数据Owner数据管家隐私代表法务代表基本信息【目录】子数据域集群信息任务元数据信息DAR元数据信息责任人:继承数据实体责任人名称版本:继承数据实体版本【数据实体】……【数据实体】……【数据实体】……责任人:继承数据实体责任人发布信息部门:继承上层层级:继承数据实体层级人员信息【目录】产品表元数据信息子数据域元数据信息名称【目录】数据域版本:继承数据实体版本ID体系用途:继承数据实体用途层级:继承数据实体层级隐私等级字段信息部门数据域子数据域集群名称队列数据Owner数据管家隐私代表法务代表基本信息【目录】子数据域集群信息任务元数据信息DAR元数据信息责任人:继承数据实体责任人名称版本:继承数据实体版本【数据实体】……【数据实体】……【数据实体】……责任人:继承数据实体责任人发布信息部门:继承上层层级:继承数据实体层级人员信息依赖实体元数据信息 名称版本部门数据域子数据域【模型】DataTable1人员信息【任务】DataJob1 交付件名称版本文件数据归档包 1、提供标准数据作业发布流程,更加贴近业务的数据版本,实现数据版本可管理、可追溯;平台提供需求关联能力,可与业务数据作业版本进行关联,保证版本可追溯。同时提供数据测试能力,业务测试人员可以参与数据2、提供SQL类型任务Git归档能力,保证SQL类型任务可追溯,有效统计管理个人产出。平台对接代码仓服务布、运维。DevOp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乐山2025年乐山市市级事业单位选调40人笔试历年参考题库附带答案详解(5卷)
- 2026年智慧树答案【 土木工程施工】智慧树网课章节题库综合试卷附完整答案详解(名校卷)
- 上海上海市食品药品包装材料测试所招聘笔试历年参考题库附带答案详解(5卷)
- 2026湖北恩施州宣恩贡水融资担保有限公司招聘笔试笔试历年参考题库附带答案详解
- 2026浙江嘉兴市秀洲再生物资管理有限公司招聘第二轮人员笔试历年参考题库附带答案详解
- 2026江西吉安市新庐陵大数据有限公司面向社会招聘派遣员工安排笔试历年参考题库附带答案详解
- 2026中水淮河规划设计研究有限公司春季招聘笔试历年参考题库附带答案详解
- 2025贵州黔南州招聘国有企业工作人员拟聘用人员(第二批)笔试历年参考题库附带答案详解
- 2025贵州省铜仁市万山区翠丰实业集团有限责任公司招聘17人笔试历年参考题库附带答案详解
- 2025绿地控股江苏省建集团应届生校园招聘200人笔试历年参考题库附带答案详解
- 车间主任转正述职报告
- 输液科静脉输液操作规范
- 上海某高校学生心理健康事件应急干预与支持办法
- 2025广东广州市黄埔区文冲街招聘垃圾分类督导员和垃圾分类专管员3人备考练习题库及答案解析
- GB/T 18226-2025公路交通工程钢构件防腐技术条件
- 车间高温烫伤安全培训课件
- 新闻学专业毕业论文范文
- 2025四川省县域经济研究中心考核招聘2人笔试参考题库附答案解析
- 排球国家级裁判测试题及答案
- 信息专报管理办法
- 【预应力混凝土简支空心板梁桥施工图设计17000字】
评论
0/150
提交评论