【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第1页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第2页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第3页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第4页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第5页
已阅读5页,还剩160页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

里矢ALIBABACLOUDINTELLIGENCEGROUP羊好数据数据建设、治理、消费一体化平台用中台方法论打造企业级好数据关注「领羊企业微信s咨询领羊产品钉钉扫码加入关注「领羊企业微信s咨询领羊产品仰望星空,脚踏实地2015年12月,阿里巴巴正式实施数据中台战略,数据中台话题热度逐步攀升,在这一过程当中,我们也发现不同角色对其理解以及期望各有侧重。阿里巴巴关注的是建立统一数据体系,同时贴近业务场景打造出体验一流的数据服务与产品;企业管理者会关心数据中台可以带来哪些业务变革与增量价值;而数据与技术从业者,则更倾向于去探求其与数据仓库、数据湖的不同之处,去了解数据中台的技术领先性2018年,基于阿里巴巴数据中台内部实践经验和成果,面向不同行业的实际业务场景,Dataphin应运而生,作为阿里巴巴数据中台方法论的工具化沉淀,Dataphin希望能帮助企业探索更加复杂与多样的数据中台建设之路。2021年,阿里巴巴集团数据中台、业务中台、客服系统、供应链服务等多个部门融合升级为领羊,将ll阿里巴巴最佳实践"完整、系统、产品化地全面对外输出。2022年正式对外亮相,成为数字化服务的独立提供商,提供Daas服务,数据即服务,Daas以Data为核心,用数据思维贯穿企业运营的各个方面,让数据在企业发挥最大价值。2024年升级羊数据智能服务,聚焦ll数据+Al",形成企业数据生产、企业数据消费、行业数据流通的数据要素服务链,企业数据生产环节包括数据治理和分析,其中Dataphin承载了帮助企业治理好数据的使命,为未来数据资产入表、数据资产流通创造积极条件。我们深知,企业需要一套完善的数据技术与工具,实现数据采集、存储、计算、建设和管理,利用数据思维对当下的业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,形成企业特有的数据资产体系;同时,企业还需要完成数据人才组织建设,并辅以数据文化,让人人都能理解数据、用好数据。我们期望与企业们一起乘风破浪,仰望星空、脚踏实地,持续在数字化转型的实践道路上并肩前行。数据建设与治理的现状与诉求Dataphin智能数据建设与治理企业构建数据中台既要解决以上所遇到的问题,又有着更高的要求:。数据体系化组织:数据中台的数据来自企业的业务系统,而企业中各个业务有着各自独立的系统。系统之间的数据可能存在交叉,全部抽取到数据中台后,需要进行体系化的组织,否则就是一团乱麻,无法快速准确的找到想要的数据。需要一个将数据按照统一的体系来组织,这个体系内,数据标准一致,并且有数据落标后可以被稽核,企业可以获得高质量的,口径统一的,可用性高的数据。。数据高效生产:数据中台来自很多个业务系统,对应着海量的业务分析需求。企业希望数据中台可以快速响应业务端的需求,并且保障数据生产的安全可靠和数据正确。同时,又要降低在生产过程中的各种成本,提升投入产出比。。数据便捷服务:数据中台需要服务业务,需要有便捷的数据消费方式。数据消费需要接入便捷,安全可控,响应及时。数据体系化组织顶层视角清晰、规范地对数据进行全局、全链路组织、包括数据的来源、数据的清晰、数据的关联、数据的存储、数据服务出口等。数据高效生产提升数据生产效率、规避重复生产和错误生产、保障数据产出质量,技术人员有成长有沉淀,业务人员需求满足周期短质量高。数据便捷服务更多以业务应用数据的视角,便捷地知晓有什么数据并获取数据,清晰的数据服务策略、便捷的数据服务通道,简单用、放心用。数据建设与治理的现状与诉求企业构建数据中台,所遇到的问题挑战不是一下子全部出现的,而是在建设历程中逐渐显现出来的。基于阿里巴巴数据中台内部实践经验,企业数据能力建设可以分为三个阶段:。在线开发阶段:起步阶段,数据量相对较小,团队规模不大,以满足业务需求为主要目标。随着数据量的增加,人员的扩张,就需要回答数据的价值在哪里的问题,以匹配所投入的成本。自然地,就进入下阶段。。数据平台构建与管理阶段:数据量级提升,数据来源多样,除了来自业务的取数和基本分析需求之外,开始梳理数据之间的关系,挖掘潜在的价值,同时还需要保障数据的质量,这就是数据资产化。这个阶段的数据平台,除了基本的数据开发功能之外,还需要提供资产管理和质量监测的能力。。数据综合治理阶段:当数据平台内部的建设完备之后,就需要回馈平台外的各个业务。这个回馈不是应答业务的需求,而是通过挖掘出数据的价值,反向来促进业务的发展。Dataphin智能数据建设与治理用中台方法论构建与治理企业级好数据用中台方法论打造企业级好数据1.Dataphin:源自阿里巴巴的数据建设·治理·消费体化平台阿里巴巴在2015年提出全面启动中台战略,并在集团内部开启了一系列数据技术建设探索,沉淀下特有方法论捋清了数据全生命周期的管理思路,将其植入到领羊智能数据建设与治理Dataphin产品中,并与QuickBI(智能商业分析)、QuickAudience(智能用户运营)一同形成数据中台建设核心产品体系。自2018年问世以来,Dataphin已发展出了内容丰富的功能大图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现,可以帮助企业高效地完成「好数据s的构建。数据消费数据治理数据建设兼容与开放Dataphin从下而上可分为四个大板块:平台底座:。引擎平台兼容:可支持不同的引擎及部署环境,可纳管不同的引擎,包括但不限于Maxcompute、EMR、Hadoop体系(CDH、华为、星环、亚信等)、交互式分析Holo、Impala、ADBforPG、starrocks等,Flink商业及开源版等,也支持不同云平台环境的部署及私有DC部署。.多样化开放接口:开放数据集成、数据处理、调度、运维、元数据、质量、安全、标准等几百个标准化接口,可与企业自有系统进行对接集成或进行功能个性与定制。。配置化能力:开放了关于消息渠道、审批渠道、认证、审批模板、样式配置等客制化的能力,更好的适配企业的规范及场景。Dataphin智能数据建设与治理数据建设平台:。全域数据可集成:通过配置化的方式完成数据的模型构建及指标的构建,并同时支持代码编写模式,更灵活的适应不同的场景和诉求,并支持日千万级调度能力。。规范建模:Dataphin遵循Ralphkimball的维度建模理论,可根据业务实际情况在Dataphin设计并创建概念模型,并通过概念模型中的业务实体(业务对象或业务活动)创建对应的维度表、事实表、原子指标、业务限定、指标、汇总逻辑表。。指标构建与管理:通过构建的规范化的要素(原子指标、统计周期、维度、业务限定),配置化的方式构建指标;通过代码方式也可将已经加工好的指标注册到汇总表上,进行统一的指标管理。·标签工厂:可通过配置化的方式加工标签,让业务人员也可进行标签的二次加工及群组的圈选;通过快捷的配置,提供群组及标签的服务;根据元数据进行标签及群组进行治理、运行和管理。。数据服务:通过数据服务,可将提供高效的API开发及运维能力,可将数据资源通过API统一服务业务系统。。隐私计算:打通内外循环,实现数据不出域的自由流通,让数据可用不可见,数据价值化的同时保障数据的安全合规。全域数据治理:Dataphin不仅仅治理数仓内的数据,也需要治理全域数据资产。。资产盘点:在数据治理开始前,需要对全域的数据进行盘点,对元数据进行丰富。。标准及规范:Dataphin可支持数据的规范、研发的规范,制定数据标准,让数据治理ll有法可依";通过数据标准的手动和自动映射,可将表资产的字段与标准进行关联,并进行元数据和内容的稽核和监控。。资产质量:提供全域的资产质量校验及跟踪方案,从质量稽核与评估(质量大盘、配置质量规则、查看校验记录、质量监控、智能报警)、质量治理(质量工作台、质量整改跟踪)、查看质量报告等功能。·数据安全:通过自动及手动的方式,可对资产进行分类及分级打标,对数据的权限申请流通进行规范的管理,也可对高敏数据在流通前就对数据进行加密处理,避免数据泄露。·资源治理:通过元数据,对数据存储与计算资源诊断与治理,在数据价值挖掘的同时,也控制数据的成本,避免数据沼泽。用中台方法论打造企业级好数据全域数据运营:数据在消费者手中用起来才能发挥数据的价值,全域运营是将数据资产推送到数据消费场景中,让数据在消费者手动实现价值化。全域数据运营板块主要提供以下功能模块:。资产目录:业务及消费视角的数据资产目录,可快速搜索查找推荐数据资产,推动企业数据文化。针对不同的人群,Dataphin可定制多套目录满足不同场景不同人群的找数、看数需求。·数据门户:通过提供场景式、主题式的数据门户,让用数的成本进一步降低,让数据可找到正确的人。。自助消费:通过打通B分析系统,面向业务人员运营人员,实现从可见到可用;通过提供即系分析的功能,可通过简单的SQL、python能力进行数据分析。1.2三大核心优势Dataphin产品经过了几年的沉淀,积累了丰富的产品能力,也形成了独特的产品核心优势:。多样的计算引擎兼容,可利旧降本:除了支持大数据离线和实时计算主流引擎外,我们还会不断探索和集成更多的计算引擎,以满足不同客户的需求。我们会不断优化引擎的性能和稳定性,以提高计算效率和降低成本。在部署的平台底座上,我们也适配支持了不同的云平台,包括阿里云的公共云多租户、阿里云专有云、阿里云公共云VPC部署,IDC部署,以及其他云平台上进行部署。Dataphin智能数据建设与治理。资产化驱动构建数据:阿里巴巴多年的内部的实践,我们沉淀了一套完整的方法论,帮助数据资产的构建。这套方法论和产品也在100多家客户中进行了深度的验证。。价值导向、消费驱动的数据治理:我们将进一步完善数据治理体系,包括数据盘点、数据质量管理、数据安全与合规等方面。我们还将借鉴和应用更多的经验和案例,不断提升数据治理的水平和效果。同时,我们也会更加注重数据的价值和消费者需求,以提供更有针对性和可用性的数据治理解决方案。2.1Dataphin模型体系数据中台是数据沉淀、建设、管理与使用的一整套体系。Dataphin的核心优势是在数据的建设与治理上,引入了阿里巴巴。主题域模型:在数据中台,主题对应一个宏观的分析领域,比如销售分析就是分析ll销售"这个主题,联系较为紧密的主题的集合就是主题域。每一个行业都可以拆分为有多个(十个左右不等)主题域组成的主题域模型。。概念模型:在主题域的基础上,每个主题域内增加了实体以及实体之间的关系。。逻辑模型:在概念模型的基础上,增加每个实体的属性以及属性的约束。。业务分析模型:行业中重要的以及常用的分析方法与分析视角。在逻辑模型基础上,将业务分析问题转换为Dataphin特有的派生指标,并进一步提炼出原子指标和业务限定。用中台方法论打造企业级好数据限定维度逻辑表事实逻辑表业务过程主题域2主题域3主题域1粒度指标维度2.2划分业务板块企业的规模有大有小,业务复杂度和跨度也不同,数据反映业务,所以每个企业的数据中台也是不同的。数据中台建设的第一步是做规划,规划的第一步是全盘梳理企业的业务架构,将业务划分为一个个独立业务,对应到Dataphin就是业务板块的划分。业务板块的划分总原则是高内聚,低耦合。可以通过业务活动之间以及业务活动与业务对象之间的关系来厘定业务板块的边界:。存在上下游的关系或者有共同的业务对象的几个业务流程属于同一个业务板块。反之,如果两个业务流程之间不存在任何直接或者间接的上下游关系,也没有直接或者间接共同的业务对象,他们就不应当被放在同一个业务板块。。与业务活动相关的业务对象与业务活动同属一个板块。。某些业务对象是企业级共用的,比如,公司的员工、行政地理区划(没错,这个也属于业务对象)等,可以冗余在每一个板块中。2.3主题域建模主题域建模,即在业务板块下进一步将业务划分为多个主题域。主题域的划分没有客观原则,主要根据数据模型师的行业经验与业务理解来划分。具体以零售行业为例来说明。用中台方法论打造企业级好数据零售行业的主题域划分:数据在消费者手中用起来才能发挥数据的价值,全域运营是将数据资产推送到数据消费场景中,让数据在消费者手动实现价值化。全域数据运营板块主要提供一下功能模块:。公共主题域:在所有业务流程中都会被引用的数据,如地理位置数据、企业的人员组织数据。。消费者主题域:该主题域主要是零售企业内用户(消费者)运营相关的业务活动数据。。商品主题域:商品的管理(类目管理、品牌管理等),商品结构管理(组货)等相关的业务活动数据。其他还有商家主题域、流量主题域、交易主题域、履约主题域、服务主题域、交互主题域、营销主题域、内容主题域、供应链主题域等。2.4概念建模概念模型主要由业务实体以及实体关系组成。2.4.1概念建模业务对象是参与业务的人或事物,在企业组织的业务模式确定时就存在的,偏静态的实体。根据复杂程度,业务对象可以分为:。普通对象,复杂的、有很多属性的对象。狭义上,业务对象就是普通对象。。枚举对象,简单的基础对象。如性别,其取值可以穷举(男/女/未知)。。虚拟对象,在业务定义中,没有任何属性的基础对象,如姓名。。层级对象,多个业务对象之间有上下级关系,这一组对象就是层级对象。业务活动是一个或者多个业务对象在某个时间(段)为了达成某种目的所进行的活动或者是某种活动的结果。业务活动有以下几个关键要素(属性):。活动主体,活动的发起者,是一个业务对象。。可选的活动客体,活动的参与者,可能有多个,也是业务对象。。活动时间,可以是一个单点时刻,也可能是一个有开始和结束的时间段。根据业务活动持续时间的长短,可以将业务活动细分为:。业务流程,持续一段时间,有明确生命周期的业务活动。o(业务)事件,发生在某一个时刻,持续时间极短(瞬间)。事件一般对应业务流程的一次状态变化。。业务快照,是一系列活动在某一个时刻点的状态和结果,比如库存、账户余额。用中台方法论打造企业级好数据2.4.2实体关系在实际业务中,业务实体并不是孤立存在的,他们之间有着各种各样的联系,Dataphin将这些联系定义为ll实体关系"。有以下实体关系:释义与举例1.业务对象A是业务对象B的属性,则业务对象B关联了业务对象A。如:地址是客户的属性之一,客户实体关联了地址实体。2.业务对象A是业务活动C的参与者,则业务活动C关联了业务对象A。如:客户是销售的参与者,销售实体关联了客户实体。普通对象B是普通对象A的一种,但是比普通对象A多一些独有的属性,则普通对象B继承了普通对象A。如:会员本身也是用户,除了用户的姓名,性别等属性外,会员还独有会员等级等属性,会员继承了用户。层级对象的多个对象间为层级关系。业务活动A有三个处理节点B、C、D,每个节点对应一个业务事件,业务事件发生后,A的状态将发生变化。业务活动A包含业务事件B、C、D。如:销售活动包含销售下单,销售付款,销售完结等业务事件。业务活动A有三个处理节点B,C,D,每个节点对应一个业务事件,事件按照B->C->D的顺序发生,则B、C、D之间为流转关系。进入业务活动B之前必须先完成业务活动A,则A是B的前序活动,B是A的后序活动。如:销售完成后,才可以退款退货(销退),则销售是销退的前序活动,销退是销售的后序活动。Dataphin智能数据建设与治理3.1全域数据汇聚,打破数据孤岛企业在构建数据中台时,首先就是要将企业内部各个业务系统的数据同步集成到数据中台,然后进行后续的数据研发工作。一句话总结数据集成的能力,就是提供不同数据源之间的通道能力,解决异构数据源之间,读取、转换和写入三个流程。Dataphin中的数据集成模块是一个简单高效的数据同步平台,通过组件拖拽式的方式,提供了丰富的异构数据源间高速稳定的数据同步能力,与强大的数据预处理能力,汇集全域数据,打破数据孤岛,为数据中台的建设打好坚实的数据基座。在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,使得企业在发展过程中积累了大量不同存储方式的业务数据,采用的数据管理系统也大不相同。从简单用中台方法论打造企业级好数据的文件数据库到复杂的网络数据库,构成了企业的异构数据源。Dataphin数据集成支持丰富的异构数据源,包括关系型数据库、大数据存储、文件存储、消息队列、NOSQL、API、应用系统等40+数据库。并支持创建自定义数据源,灵活接入数据,提供了数据源的可扩展性与灵活性。3.1.2强大的数据预处理能力与传输配置在数据集成过程中,对于数据安全、同步配置、数据预处理等都会存在一些诉求。Dataphin数据集成提供丰富的数据预处理能力以及任务中数据传输过程中的可配置项。。字段处理:提供字段选择、条件过滤,与字段计算的能力。帮助在同步过程中过滤掉冗杂数据,提高数据质量。。数据安全:对于敏感字段,比如个人隐私信息,在集成任务中可以结合安全模块,对敏感字段进行加密或解密,进一步保障数据在同步过程中的安全。。传输配置:支持限流配置,可根据数据库性能与任务并发数灵活配置;支持条件分发,一个来源数据源以某个条件,二分发到两个不同的目标数据库中,可避免任务的二次配置;支持容错配置,指定集成任务允许产生的脏数据上限;支持运行参数配置与数据库连接配置:可根据场景灵活调整,提升集成任务的成功率与运维效率。Dataphin智能数据建设与治理传输配置传输配置。限流。条件分发•容错配置。运行参数配置。数据库连接配置数据安全•字段加密•字段解密字段处理。字段选择。字段计算•条件过滤3.1.3产品易用性在进行数据中台建设时,汇集全域数据,需要集成的表体量较大,大量的任务配置与调试工作量会消耗大量人力与资源。Dataphin的数据集成提供任务配置、调试等各场景下的易用性功能,可提高任务配置与调试的效率。。组件化配置:可通过在画布界面中拖拉拽组件进行集成任务的配置,通过无代码化操作,降低任务配置门槛。。实时/离线整库迁移:支持通过配置化的方式进行实时或离线的整库迁移,高整库数据迁移场景下的配置效率。。运行日志智能诊断:将原始日志提取为结构化的信息,包括任务运行信息(运行时长、CPU负载等)、同步通道信息(读取/写入速度,脏数据条数等)。在任务运行报错后,自动提取日志内的错误信息,根据知识库进行相似度检索,提供可能的报错原因与可参考的解决方案,提高排查与调试的效率。3.2设计即研发,保障数据模型与代码的一致性传统的数据中台建设过程中,数据模型需要用限定详细的文档记录设计,再基于文档进行代码研发。经过多轮变更后设计文档与实际代码可能已南辕北辙。Dataphin通过规范化、模块化的低代码配置,在设计的同时生成代码,有效的保证了模型与代码的一致性,提升数据质量。Dataphin模型体系中,主题域模型和概念模型属于规划部分,逻辑模型和业务分析模型则属于研发部分。用中台方法论打造企业级好数据3.2.1逻辑模型在概念模型基础上,基于对业务的理解,可以对实体:。增加属性属性是用来从各个方面描述实体,是纯粹的业务认知。属性的增减完全跟随业务本身的变化,而不是基于业务系统。设置属性约束对属性值的业务约束,如:鞋子的尺码有效范围是10码~45码,颜色只有白色和黑色等。。设置属性与来源业务表之间的关系逻辑模型设置完成后,系统将自动生成相应的调度任务。后续如果业务侧发生了变化,重新设计逻辑模型时,在Dataphin可以直接编辑逻辑模型,系统将自动生成任务,确保设计与代码的一致。3.2.2业务分析模型逻辑模型构建后,基于逻辑模型可以构建分析模型,即下图中的业务分析模型。统计统计周期+业务分析模型的目标是快速生成业务分析中的指标,称为派生指标,且保障这些指标的可靠性和可维护性。最终使用的指标拆解为四个基本组成部分统计粒度业务限定原子指标。统计周期,指标覆盖的时间范围,即该指标反映的是哪个时间段内的业务情况,本质上也是业务限定的一种,但由于它的通用性,将其独立出来作为一个单独的组成部分。。原子指标,针对某个业务事件的聚合统计分析,比如:求和、取平均。。业务限定,指标计算时的业务约束(过滤)规则。。统计粒度,指标的分析维度或者分析角度,指标是描述哪些业务对象或哪些实体属性的。selectselectuseridfromorderandsite=1groupbyuserid业务限定统计(分析)粒度维度/业务过程业务分析建模的步骤是,统计周期设置->原子指标/业务限定配置->派生指标配置,所有配置完成后,系统将自动生成计算代码和周期调度任务。后续修改指标定义,也是通过修改统计周期,原子指标,业务限定等业务视角的对象,由系统自动来生成修改后的计算代码。Dataphin通过规范化、模块化的低代码配置式研发,有效的保证了模型与代码的一致性。3.3发布管控,数据安全生产3.3.1发布Dataphin提供两种项目模式:Basic简单模式和生产开发隔离的Dev-prod模式。在数据权限管控严格的研发流程下,常常会使用生产开发环境隔离的研发模式。项目中,研发人员通常需要完成代码编写、任务基础属性和调度属性用中台方法论打造企业级好数据配置、并基于开发环境的数据执行补数据测试,通过后再将任务提交至发布中心。发布审核人员接到发布申请后,结合任务配置详情评估是否配置合理,是否存在数据生产风险等,之后执行发布操作。Dataphin发布中心提供了待发布任务概览、批量发布、基于系统校验规则的自动审核,发布记录概览、发布详情查看、发布失败原因提示、一键重新发布、发布审批和发布管控等功能。发布作为生产开发隔离的研发模式中必经的一道环节,为生产数据的正确性和生产环境稳定性提供了前置保障,可以减少人工操作失误或流程不规范引发的问题,降低了对生产业务产生影响的可能性,为数据建设撑起一道保护伞。3.3.2发布管控发布管控功能支持基于用户已经设定好的管控规则及生效策略,在任务发布前执行对应的检查,以判断任务是否符合发布条件。针对校验不通过的任务,根据规则配置详情,会阻断发布流程(强管控)或给出警告提示但不阻塞发布(弱管控),以增强平台的稳定性保障。发布管控是变更管控的子功能之一(后续可逐步拓展研发管控、运维管控等),变更管控分为更规则和变更策略两部分。变更规则:基于对象的基础属性、外部服务接口等来源抽象出来的元数据,结合系统内置规则或自定义代码编写的逻辑条件而组成的校验规则;规则校验不通过的对象即被纳入管控,结合变更策略判断管控方式。。变更策略:根据用户已经创建好的变更规则,设置其生效范围和管控方式。支持在单个变更策略中配置多个规则并给每个规则指定不同的管控方式。发布管控常用但不限于以下几种场景:。时间节点管控:在某些特殊时间节点,禁止发布新的任务或更新历史任务,防止数据计算口径变更带来的影响,如财年末封账、财务审计、双11大促管控、集群切换保障等场景。研发规范管控:根据某些任务属性来进行判断,如ODS项目中没有以llods"为开头命名的任务不可发布等。账号管控:针对部分提交人或发布人进行限制,如已离职人员提交的任务不可执行发布操作等等通过发布管控,灵活调整管控规则及策略配置,可以实现不同的管控效果,减少人工干预成本,进一步提升平台建设的规范性和稳定性。3.3.3跨租户发布使用开发生产隔离的模式,可以提供代码及数据的生产开发环境隔离。然而在某些对安全性要求更高的场景(比如金融场景),客户需要对生产和开发环境进行物理的隔离。为确保租户间的数据安全,Dataphin完全隔离租户间的数据。若有构建数据生态或强安全管控(例如,不同租户构建共同的开发、测试或生产环境)诉求,通常需要在新租户中重新开发所有数据,这将降低数据应用的效率。Dataphin升级了数据的发布能力,旨在构建简单高效、安全可靠的跨租户发布,用于迁移租户间的规则数据的迁移,以满足不同数据的应用场景,帮助企业实现数据应用价值最大化。跨租户发布支持全量导出、增量导出及指定对象导出,支持设置全局粒度的导入规则,支持批量发布文件中的对象,同时系统根据对象依赖关系自动控制发布至目标环境的顺序。3.4灵活调度,满足多样化的开发场景Dataphin自研的调度系统支持灵活的调度周期、上游依赖、调度类型、参数配置、公共日历和条件调度,可适配多样性的数据研发场景,满足各种个性化的调度需求。3.4.1周期调度在任务调度时通常需要根据任务运行频率和数据产出时效性判断该任务的调度类型,并针对不同类型的任务进行调度规则的配置。其中,周期调度是最常用的调度方式,对于周期调度的任务支持为其进行以下配置:调度类型支持正常调度、空跑调度、暂停调度三种方式。空跑调度的任务生成的所有实例直接空跑成功,不会真正运行;暂停调度的任务生成的实例均为暂停运行状态,常用于经常需要暂停某些链路上的数据更新、又不希望频繁下线任务或修改依赖的场景。。调度周期抽数任务,需要每小时从业务库抽取上小时新增的订单数据,再进行销售总额的合并计算,则需要配置调度周期为ll小时",开始运行时间为每个整点,以保证数据时效性。。上游依赖提供自动依赖解析能力,可以基于SQL详情解析出存在数据依赖的上游任务并自动添加。对于不存在数据依赖关系但是有调度依赖的上游(如用于检查数据变化情况的check任务),可以手动搜索添加。依赖上周期支持配置依赖任务自身或其他任务的上一周期实例。有时为了防止多个实例同时运行造成的数据冲突或重复,用中台方法论打造企业级好数据需要保证每个任务同一时间只有一个任务在运行,此时可以配置ll自依赖",如ll截止当日销售总额"任务,计算口径为ll前一日销售总额+当日销售总额"。另外一些场景下,任务运行完成时间较晚,对于数据时效性要求不严格的下游,可以配置依赖该任务的上周期。3.4.2公共日历&条件调度任务调度主要是两个核心设置,一是依赖关系,二是日期时间。在日期时间的设置上,有非常多的场景,需要产品提供灵活个性化的设置项。Dataphin提供租户级别的公共日历功能,支持自定义多个日历、自定义日期类型(工作日和假日)和灵活的自定义日历标签,支持在日历上灵活的设置标签,配合条件调度功能帮助用户在配置调度任务时,结合公共日历中的定义信息配置组合条件调度参数,进行灵活的调度。或在创建任务时引用公共日历,避免在创建任务时重复定义,减少开发和后期维护成本。Dataphin调度系统提供灵活的配置方式,帮助用户根据实际业务场景梳理上下游数据的影响,通过给对应的任务配置依赖条件,确保数据依赖关系正确。3.5智能运维,提升运维人员的满意度""每个客户最近30天的平均消费金额指标需要基于汇总的门店订单表来分析,得等订单表的数据更新了才能运行指标"ll老板9点就要看报表,这个任务可一定要尽早跑完,优先级要设置成最最最最最高!"ll怎么又有任务报错了,我可不想一直盯着电脑屏幕呀""每天都要回刷历史数据,我每天都在做重复的工作,真的好麻烦呀"以上是数据开发和运维人员日常工作中经常会遇到的问题,我们希望给重要的任务优先分配调度资源和运行资源,保证其顺利运行。这些无疑都给开发运维人员增加了工作难度。运维中心是研发链路重要的保障,包括大盘概览、任务运维、实例运维和监控告警配置等功能,为您提供任务操作与运行查看、异常监控与及时告警等多方位的运维能力,从而维护生产任务有序、正确运行,数据正常产出。下面介绍运维中心如何解决问题。Dataphin支持为生产环境的任务配置监控告警规则,包括智能基线监控、离线任务监控及实时任务监控。帮助您及时了解任务运行动态,并监控异常任务,降低对下游业务的影响。Dataphin智能数据建设与治理。任务监控Dataphin支持针对任务粒度的监控配置,可指定具体任务或通过ll归属某个项目下的所有任务等"方式批量配置任务告警。不同类型的任务支持不同的告警原因,以离线监控为例,支持完成、出错、运行超时、未完成等。此外,Dataphin特有的逻辑运维能力,支持针对逻辑表任务以字段视角进行监控配置,可通过字段更快捷直观的分析异常任务对下游业务的影响。为了支持不同接收人角色的区分告警,Dataphin支持给不同类型的接收人配置不同的告警方式,如:负责人电话告警、管理员邮件告警。同时,也支持根据任务优先级和运行时间,设置不同的监控时间段、告警频率等,以减少运维人员的人工操作成本,实现灵活的自动化告警。。智能基线监控使用智能基线监控,只需配置要保障的末节点,即可根据依赖关系自动推算末节点依赖的所有上游节点,无需人工介入,大大降低复杂依赖场景下的配置成本。此外,被纳入基线保障范围的任务具有更高优先级,在同时满足运行条件时可优先下发到计算引擎执行,进一步保障重要任务运行稳定性,并在可能产生延迟风险的情况下发送预警通知,便于提前发现风险。智能基线主要提供以下能力:b自动推算需要纳入基线监控范围的任务:添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。b关联路径与关键实例识别:基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin提供甘特图功能以快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。b自动推算预计产出时间并触发相应告警:周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。3.5.2如何快速定位问题并快速恢复或修复数据?。智能诊断Dataphin提供了实例运行诊断的能力,从上游依赖、定时时间、限流规则、调度资源及实例执行5个阶段分析实例运行过程中可能产生的异常,同时提供单个任务每次运行的执行日志,可快速定位异常信息进行进一步分析。通过查看诊断结果和日志进一步排查失败原因并一键定位到需要直接处理的异常实例,并根据诊断建议执行对应的操作。用中台方法论打造企业级好数据。数据回溯面向不同的数据回溯场景,Dataphin提供灵活、可配置的重跑、强制重跑、补数据等功能,并提供基于列表的批量操作能力,可以帮助您快速执行相关操作,大大减少人工操作成本,快速恢复历史数据。对于任务配置问题或网络环境问题导致的的运行失败,可以通过重跑快速恢复任务运行。某些特殊场景下,任务不满足运行条件时仍然需要强制运行任务,此时可以使用强制重跑功能来实现。Dataphin支持针对单个实例或选中一个起点及其下游,按照依赖关系进行批量重跑或强制重跑(如整条链路计算逻辑修改等场景),以实现全链路数据更新。补数据是为了解决数据仓库中存在的数据缺失、错误、不一致等问题,通过补录、修复、补充或更新数据来保证数据的准确性、完整性和一致性,满足业务需求和数据分析的需要。Datatphin支持多种灵活的补数据方式,能够满足多样化的业务需求,提高运维人员的工作效率。以下为多种补数据模式:b列表模式补数据:按下游任务层级筛选任务。b海量模式补数据:直接输入需要补数据的任务ID、或通过指定项目、指定节点输出名称、当前节点的全部下游、指定一级子节点及其全部下游、指定终点等多种方式来圈选下游节点的范围,系统将依据依赖关系对选中的任务进行自动编排生成补数据实例。定时调度的补数据任务:Datatphin支持配置补数据任务并设置补数据实例的运行规则,系统将基于任务配置定时、自动地生成补数据实例,适用于周期规律性的数据回刷场景。此外,也支持手动临时运行补数据任务,实现临时性的补数据操作,大大降低重复性配置成本。。限流管控当计算引擎出现性能瓶颈、资源分配不足或需控制任务下发时间和顺序等场景时,通过配置开发或生产环境任务的限流规则,保障系统的稳定性以及业务数据按序及时产出。Dataphin支持基于业务视角的调度限流功能,支持根据任务优先级和资源空闲情况,控制不同时间段内不同任务的下发数量。基于限流能力,不仅可以减少对底层计算引擎和上下游数据源的并发压力,保证高优任务优先分配调度及计算资源,任务能按序产出;同时也能实现故障异常场景下的快速止血,避免产生因为无法干预或介入较晚而产生严重的问题,增强整体稳定性。例如:在更换底层引擎的场景下,我们可以通过配置全局限流来阻断任务的下发;迁移完成后,需要优先对核心任务进行补数据操作,再逐步恢复对日常任务的运行,则可以通过"所属项目"圈选出日常任务并将其并发度设置为1而核心任务不设置并发限制,来保障资源优先分配给核心任务。调度资源管控调度资源指任务生成的实例调度所消耗的资源,Dataphin的调度资源分组管理的功能,能够帮助您统一管理部署Dataphin实例的集群资源。支持将资源划分为不同的配额组,不同资源组之间的资源配额互相独立,并支持为不同租户、统一租户下不同项目内的任务单独指定调度时使用的自定义资源组,从而保障核心任务的资源不被抢占,同时也提升整体资源利用率。Dataphin的自定义资源组功能可为您提供以下场景的支持:b核心任务保障:通过资源组管理可为核心任务分配单独的调度资源组,防止低优先级任务优先运行时抢占大量调度资源而导致高优任务一直在等待调度资源状态。例如,希望保证核心业务库的集成任务按时运行,那么可以给对应的集成任务配置ll集成专用资源组",其他非核心任务使用项目默认资源组。b按需分配:支持按照租户、项目、任务粒度分配资源,可实现不同业务部门使用的资源解耦,避免某个部门占用大量资源而影响其他业务部门的正常使用。b临时批量运维操作:大批量补数据场景下,可能会占用较多的资源,从而影响周期任务的正常运行。支持在批量补数据等临时运维操作时指定单独的资源组,仅对本次运行生效,从而保障任务日常调度不受影响。3.6实时集成和实时研发,实现数据秒级响应3.6.1应用场景当下,实时数据的重要性在各行业日益凸显,实时数据的精细管理和优化运营对企业发展至关重要。通过实时监测和分析各项指标,企业能够快速发现问题和机会,及时调整决策以保持竞争力。例如,实时营销场景下,企业可以根据用户的实时行为偏好提供个性化推荐和服务,提升用户满意度;金融风控场景下,通过实时数据采集和分析,金融机构可以监控交易活动,检测异常交易模式和风险事件。传统的批处理方式无法满足实时分析和决策的需求,因此需要实现实时数据的采集与研发至关重要,以保障数据的时效性,发挥其最大价值。用中台方法论打造企业级好数据3.6.2解决方案实时集成Dataphin实时集成通过实时抽取数据库CDC(changeDatacapture,变更数据捕获),满足数据实时同步的需求。全配置化交互,一次任务配置实现整库数据实时同步;支持实时集成任务运行监控告警,降低运维成本。且目标库为Hive以及Maxcompute时,支持以表到表的形式同步数据,无需再进行后续的日志格式解析。实时集成适用于实时采集表量较大,且无需数据实时处理的场景。若需针对采集的实时数据进行进一步的实时加工处理,可以结合实时研发构建实时数据开发链路。实时研发Dataphin具备全链路实时研发、实时资产管理的能力。。传统批处理、流处理割裂带来一定的问题和挑战,如流批底层数据模型不一致,导致应用层需要做大量的拼接逻辑(同比、环比、二次加工等),搭建效率低,且容易出错;流批存储系统隔离(面向不同写入场景),提供的数据服务不一致,维护成本高;手工建数据同步任务,开发成本/存储成本高(两份);一个业务逻辑,两个引擎两套代码,SQL逻辑不能复用,数据一致性和质量难以保障;不同平台和引擎间切换,开发体验割裂,容易出现变更遗漏;批处理&流处理集群无法做到错峰,资源利用率较低。Dataphin支持全链路Flink流计算(Flinkstream)任务开发与运维能力,具备扩展批处理(FlinkBatch)的产品基础,打通流批一体化,数据架构具有多方面优势:b效率层面:一套代码、两种时效;流批研发运维一致性体验;统一元数据管理。b成本层面:流批统一存储,减少资源浪费;流批计算错峰运行,提升资源利用率。b质量和资源层面:变更口径,可强一致性保障。Dataphin智能数据建设与治理 Bi分析产品 Bi分析产品·在线应用等应用层产品组装产品组装流批存储透明化,查询逻辑完全一致产品组装产品组装流批存储透明化,查询逻辑完全一致,应用端接入成本大幅降低点查/OLAP分析统一支持批数据服务层批存储 流批统批数据服务层批存储 流批统存储层·批存储服务层统一存储,无需手工同步,无重复存储流数据服务层一套代码,两种计算模式,逻辑统一,灵活切换,研发效率大幅提升流批计算资源混部,资源利用率提升流处理系统批处理系统流数据服务层一套代码,两种计算模式,逻辑统一,灵活切换,研发效率大幅提升流批计算资源混部,资源利用率提升流处理系统批处理系统流批统一处理(Flink)批处理(Maxcompute)Flink/ststreami流批逻辑层onrmispark非必选消息中间件批存储b流数据服务层消息中间件定时回流(分钟小时i天) 实时采集增量实时采集(增量)业务数据库日志服务器 业务数据库web 实时采集增量实时采集(增量)业务数据库日志服务器 业务数据库web、小程序、APP、应用日志数据同步(全量)日志服务器关系型数据库关系型数据库、列存储数据库等实时研发功能及优势Dataphin在Flink流批一体的能力之上额外提供了更多的平台能力,如数据源管理、元数据管理、资产血缘、资产质量控制、预编译、调试等能力:。强兼容性,支持多引擎多数据源支持ApacheFlink、阿里云实时计算Flink、MRSFlink等多种实时计算引擎;支持kafka、postgressQL、MYSQL、Hive、oracle、MicrosoftSQLServer、TDB、oceanBase、Mogondb、starRocKs、Hudi、Doris、SLS、Redis、clickHouse、Elasticsearch、ApacheHbase等多种丰富实时数据源;支持自定义Flink实时数据源,扩展实时数据来源和输出可支持的源类型。。开发生产隔离开发环境和生产环境隔离,保证开发环境开发的业务代码和生产相互之间不干扰。。元数据管理各系统组件包括数据源、元表、UDX等具备权限控制功能,敏感型配置信息加密保护。支持数据源敏感字段访问订阅。元表、函数、资源等全部单元化可视化的管理,支持元数据检索,作业依赖、字段血缘的可视化探查,支持跨项目鉴权(字段级)调用,让使用者聚焦业务逻辑。元表使得元数据可显示化定义和可管理,安全可靠,支持一次建表,多次引用,承载了权限管控,上下游血缘资产可查可探。用中台方法论打造企业级好数据流批一体流批存储层的统一管理,实现模型层统一,流批代码统一、在一份代码上可同时进行流和批任务的各自专属配置,生产独立有协同的调度实例。。研发运维提效支持基于代码模板等多种开发方式、编辑器智能提示,任务资源及参数的灵活配置,全面的版本管理,对象的批量管理、容器化调试和开发环境多模式测试等功能;支持任务灵活启停、日志和异常信息分类分级查看、丰富的监控指标及灵活多样的告警配置。。稳定性及质量保障Dataphin实时数据质量主要面向开发者,针对产品中实时产出的数据表,通过对产出结果进行数据质量分析和校验,来保障数据的最终有效与准确。支持流量阈值设置,防止计算资源过度竞争,避免下游系统过载。支持实时元表质量监测,可配置统计趋势监测、实时多链路对比、实时离线数据核对。4·特色研发能力Dataphin除规范建模、离线及实时研发及运维能力外,还提供了两种特色的资产构建能力。4.1标签平台,一站式标签研发、管理及应用标签作为企业数据资产的一部分,在数据应用及业务中扮演着非常重要的角色。不同的企业中对标签有不同的应用。如金融机构中,对私客户经理需要基于客户画像进行理财产品推荐。消费金融领域对用户贷前准入有严格审核,需要基于借贷用户以及设备信息建立画像生成风险评估报告,对高风险客户进行有效识别。在零售营销业务中,需要针对不同的用户进行运营,如为促进高价值新用户留存提高复购,制定运营策略ll对当天注册为会员的新用户,且满足注册当日消费总金额满100元条件时,对其进行短信营销,派发优惠券"等。标签资产作为重要的资产,也需要进行有规划的建设和管理,业务部门可便捷高效地使用标签资产用于业务。Dataphin标签平台提供了基于标签类目进行标签的开发、管理、应用、治理,实现数据资产商业价值闭环。4.1.1Dataphin标签平台概述标签平台基于Dataphin基础研发版能力,面向成熟期企业,提供企业核心商业要素的标签建设与管理能力,帮助企业沉淀好找好用、易开发、好治理的数据资产。标签平台面向不同角色的人员提供了全生命周期的标签加工、管理与应用功能:。标签管理与运营:从业务场景和诉求出发,可进行标签市场的规划与管理,标签的实体、ID的管理以及标签属性的前置规划,为后续的标签开发及标签应用做好前置的设计和规划。可对标签和群组进行类目管理、对标签和群组的应用进行统计分析,从而进行标签的运营工作。。标签开发与生产:为标签资产建设者提供标签生产、群组加工的工作空间,在工作台可以进行视图和行为关系的定义,基于视图、事件、行为关系进行标签、群组加工逻辑配置完成资产开发与发布,并上架至资产市场。业务人员也可以基于市场的标签或群组进行再加工,生成衍生标签、衍生群组用于自己的业务。用中台方法论打造企业级好数据标签应用与服务:为标签资产应用者提供统一资产门户,在资产市场可以查看标签热度,获取标签上架最新信息,查看标签分布情况以及血缘信息,进行标签测试以及统计其离线、在线应用情况。为资产应用者提供多种资产服务类型,如标签离线服务,通过批量标签查询,输出标签表给到下游报表系统;标签实时查询,通过在线接口请求查询标签值。4.1.2标签平台优势依托于Dataphin资产建设模块强大的数据集成、数据研发及运维能力,以及围绕标签资产建设与运营管理的标签平台有其独特的优势:。丰富强大的标签加工:支持多类型标签开发,包括离线、实时等标签可视化加工。可基于离线视图、实时视图、行为关系,通过配置化的方式构建属性类、统计类标签、偏好类标签,也可以与已有的标签创建衍生组合标签。通过标签可圈选群组,也可以衍生出新的群组。标签及群组支持周期性调度及手动加工模式,可提前生产,提升性能。。丰富便捷的服务应用:支持多实体标签开发、标签及群组类目管理、公共及私有标签及群组资产市场管理、离线标签及群组数据的导出,在线服务调用,满足多种业务场景诉求。通过配置化的方式,即可将标签导出到不同的目标数据库中,通过实时服务能力,应用在申请标签及群组权限后,即可调用服务API获取标签值,或查询群组信息。。多云环境多引擎支持:多引擎、多种容灾,架构扩展性强、稳定性强、性能高。通过统一的平台底座,可兼容多种部署环境,适配主流的大数据离线及实时计算引擎。4.2隐私计算,数据可用不可见4.2.1隐私计算概述当前我国数据流通还处在起步阶段,数据价值无法最大化释放。因此,数据的开放共享、交换流通成为大数据产业发展的重中之重,快速发展的隐私计算等数据流通新技术为产业"破局"提供了关键思路,成为建设和完善数据要素市场的重要抓手。Daphin隐私计算,基于隐私计算技术,为企业提供数据可用不可见的数据安全流通方案,帮助企业实现产业间高效协同,促进行业、机构实现数据价值的共享与协作。用中台方法论打造企业级好数据隐匿信息查询功能介绍:隐匿信息查询,也称隐私信息检索,是指查询方隐藏被查询对象关键词或客户D信息,数据服务方提供匹配的查询结果却无法获知具体对应哪个查询对象。适用场景:适用于一些查询场景,数据查询方不想向数据服务方透露要查询的内容。例如病患想通过医药系统查询其疾病的治疗药物,如果以该疾病名为查询条件,医疗系统将会得知该病人可能患有这样的疾病,从而病人的隐私被泄露,通过隐私信息查询可以避免此类泄露问题。客户A客户B客户Aid1id1,id1,id2,id1id1,value1A根据id向B查询value值,但不向B透露查询的是哪一个id客户A客户B客户A用户id1用户id1,x3,x4用户id2,x3,x4原始数据不出域,完成联合建模安全联邦学习功能介绍:在原始数据不出域的前提下,通过交换各个参与方的算法训练的中间结果梯度、参数信息,或完全在密文条件下进行计算,从而发挥参与多方数据样本更丰富、更全面的优势,得出更优模型。联合建模,分为横向联合建模、纵向联合建模。其中,纵向联合建模,联合多个参与者的共同样本的不同数据特征进行联合建模,即各个参与者的训练数据是纵向划分的。横向联合建模,联合多个参与者的具有相同特征的多行样本进行联合建模,即各个参与者的训练数据是横向划分的。适用场景:纵向联合建模,适用于参与者训练样本ID重叠较多,而数据特征重叠较少的情况,例如某银行和某电商平台,分别拥有一部分客户数据,拥有的客户特征不一样,银行拥有客户的金融信用数据,电商拥有客户的电商消费数据,期望联合两方数据训练精准营销模型,则适合使用纵向联合建模。横向联合建模,适用于参与者的数据特征重叠较多,而样本ID重叠较少的情况,例如两家银行,分别拥有一部分客户数据,拥有的客户特征相似,但各自数据偏少,期望联合两方数据训练共同训练评分卡模型,则适合使用横向联合建模。Dataphin智能数据建设与治理安全联合分析功能介绍:在原始数据不可见的前提下,提供SQL模式对多方数据进行联合分析。适用场景:适用于双方数据不共享,但有一些统计分析的需求。例如电商平台在媒体平台进行了营销广告投放,投放结束后,电商平台期望能联合两边的数据,进行全链路的营销活动复盘分析,就可以借助联合分析功能实现。客户A客户B客户A+id1+id1,y1,y2id2,y1,y2原始数据不出域,完成联合分析4.2.3隐私计算核心优势安全性高Dataphin隐私计算,拥有全链路数据保护和权限管理机制,在数据的数据源调取、算法使用、算法变更环节,隐私计算都会发起授权,需要数据合作方进行确认审批,保证数据的使用不会出现数据合作预期之外的场景,全程清晰可见。另外,Dataphin隐私计算底层加密算法全部自研,自研算法在多个顶会中稿,底层算法能力已开源。并且,领羊Dataphin隐私计算已获得工信部、ISO、国家金融评测中心三大类评测。。性能优越Dataphin隐私计算生长于阿里数据中台实践,在解决大数据场景下有优越的性能,支持百亿级别的PSI、亿级别的SQL分析,千维联邦学习,隐匿信息查询秒级返回。。智能化强安全性和性能是隐私计算领域的两大挑战,想达到很高的安全性,性能必然受到影响。领羊Dataphin隐私计算,结合了大量的场景实践,创新性提出了智能计算模式,能保障安全性的前提下,能根据场景、数据量、网络等情况,自动选择最优的协议、最优的计算引擎、最优的算法,自动为该场景匹配最优的计算模式。用中台方法论打造企业级好数据5·资产治理:高价值数据助力企业高质量发展随着各行各业数字化转型进程的加速,业务数字化的基础日渐扎实,数据驱动业务或数据化运营,不再是传统头部企业及大型互联网公司的专利,越来越多的企业也在拥抱数据、消费数据。因此,数据治理的诉求呈现出日渐强烈的趋势。治理的价值在于构建企业内一份质量可靠、安全可控、服务便捷的好数据,让数据价值得以释放。然而,数据治理并非一蹴而就。一般围绕四大关键领域ll成本、质量、安全、服务"开展工作,进行目标设定:。生产经济:以控制甚至节约成本为目标,实际运作则需要拆解到业务线或者不同领域范围的成本控制,比如销售业务线、市场投放线等;。质量可靠:以减少数据质量问题、收窄数据质量风险敞口为目标,实际运作则需要拆解到应用场景或不同数据等级,如优先保障高管数据看板、驱动业务运行涉及的数据质量等;。安全可控:以满足合规要求、防止数据泄漏为目标,实际运作则需要拆解到不同的数据类型或流程环节,如隐私数据、监管报送数据等;。服务便捷:以盘点供给丰富的数据、驱动数据消费为目标,实际运作则需要拆解到不同的业务线、数据类型及服务场景,如营销推广业务决策等。数据资产管理:360全链路数据洞察与管理数据需要资产化管理,而非当做成本表、指标、API表、指标、API等资产对象全景呈现物理元数据及逻辑元数据管理数据质量源、表、字段级质量监控自定义规则扩展及强弱规则阻断告警资产安全资产分类分级及数据识别敏感字段脱敏及防泄露资源治理计算存储健康度评估资源陈本管控可治理按图索确信字段级血缘可追溯数据标准数据标准、码表、词根定义及管理基于资产元数据的落标关联映射下面,我们就来详细看一下每个具体的功能模块在全链路资产治理中发挥的重要作用。5.1数据盘点,厘清数据资产现状数据资产盘点往往是企业评估数字化转型进程、确定数据治理的领域、范围、核心目标的第一步。通过对企业所有数据的盘点及管理,可以在数据供给侧汇聚全域数据,体系化地组织数据并丰富数据信息,同时结合数据运营培训及推广,建立良好的资产检索和确信体验,并连接消费渠道,实现数据资产在需求侧消费扩大。Dataphin提供了元数据的采集与管理能力,帮助企业用户快速了解数据概貌,并基于统一的元数据支撑数据开发与治理的全链路。针对不同来源的资产数据,Dataphin支持不同的采集方式,以更好地适配使用诉求。。域内数据:Dataphin系统支持自动、定时采集仓内数据资产(即项目绑定的计算源中存储的数据资产)的技术元数据信息,无需用户手动配置,并在资产目录进行统一的呈现,便于数据开发人员能及时获取最新元数据,并便捷查看和校验。。全域数据:针对数据源中的资产对象,Dataphin支持配置元数据采集任务,可根据配置的采集频率、采集范围、过滤条件等参数信息,实现端到端的自动化元数据采集,实现全局资产盘点。此外,针对临时性的元数据获取需求,也支持临时手动运行已配置好的采集任务,一次性获取最新元数据。用中台方法论打造企业级好数据5.1.2标准化元数据管理Dataphin提供完善的ll元数据管理"和ll元数据丰富"功能。。元数据管理:对于直接从源端信息采集到的元数据,可自动、手动创建版本生成定版元数据,并支持不同版本之间的差异对比。Dataphin也提供了元数据的变动及影响分析统计报告,可查看不同时间段内元数据总量的变化趋势、变动频率即变动百分比等信息,便于资产管理人员和开发人员快速了解上游系统的稳定性。此外,支持自定义元数据变动预警通知,及时获取变更通知,并在统计报告中查看发生变更的对象对下游的相关影响,提前识别潜在风险。。元数据丰富:资产对象上架到资产目录前,还可以通过资产盘点功能实现管理元数据和业务元数据的丰富。通过配置资产上架规则,可快速批量为上架资产添加管理部门、相关业务需求、资产标签等信息,并归属到不同的资产目录,便于统一管理。此外,系统也会采集不同元数据之间的血缘关系并统一呈现,可以更清晰直观的了解元数据之间的关联关系。结合从源端系统采集到的技术元数据和资产盘点过程中丰富的业务管数据,资产管理人员可快速了解数据资产概貌,资产开发和使用人员可快速找到所需要的资产并查看资产详情,大大降低了沟通成本,快速打通资产消费链路。5.1.3全方位资产信息呈现Dataphin支持管理多种类型的资产对象,包括:数据表(8种细分表类型)、字段、指标、数据源、项目、API、标签等。每种资产对象根据使用场景和使用方式,在资产目录展示了不同的信息项,便于消费人员更直接、更快捷的找到自己需要的信息,并评估是否满足使用诉求。如:数据表资产,除了基本的表结构和字段信息,还展示了血缘和影响分析,便于在数据变更时准确评估下游影响并通知到相关人员;可快捷查看已配置的质量监控规则和质量报告,便于了解数据质量,判断是否可用于开发或分析任务;支持快捷发起数据探查以了解数据分布概要、识别是否有主键重复、空值等影响数据准确性的潜在风险等等。基于统一的元数据采集与管理,下游应用也更加灵活丰富。。数据开发链路:数据集成任务中配置来源表和目标表时可实时获取已选数据源的最新元数据信息,便于开发人员进行选择;实时研发任务可以直接读取数据源表的元数据进行代码开发,简化流程;标签开发可以通过统一的元数据实现简化来源数据集加工和下游调用服务开发的工作量,提升开发效率。Dataphin智能数据建设与治理·资产治理链路:数据标准可以结合采集到的元数据,对资产进行落标映射与监控,规范开发;质量规则可以基于采集到的元数据,监控源端数据表结构的变更并根据配置阻断下游任务运行或发出告警,防止数据入仓任务运行异常产生脏数据。统一的元数据中心不仅帮助企业管理者更清晰的盘点企业资产现状,快速识别现有资产问题,更好地评估资产价值做出决策,也帮助数据开发与消费人员快速找到可用、能用、易用的资产,是企业进行标准化数据开发与全链路数据治理的基石。5.2定标、落标、核标一体化数据标准管理数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,通常从业务、技术、管理三方面进行定义,使组织内外部使用和交换的数据是一致且准确的。然而,数据标准需求缺乏统一管理、不同系统间标准制定依据各异、资产建设缺乏和标准的关联,使得数据标准的建设和应用都面临很大困难。作为资产治理的重要一环,Dataphin数据标准模块为数据标准的建设提供统一的产品化能力,支持:数据标准在线创建管理、关联研发链路提供规范引导、结合质量监控能力实现对资产对象的落标稽核,以帮助企业解决数据建设管理过程中遇到的规范性、统一性问题,提升企业整体数字能力建设的标准化成熟和资产的健康度。参考数据词根码表数据开发命名规范参考数据词根码表数据开发命名规范资产评估推进整改指导消费标准视角每个标准映射到的对象及核际情况落标评估明显数据类型:INT资产视角每个对象映射到的标准及核际情况元数据监控规则质量监控规则Dataphin支持数据标准定义与应用,同时结合质量、安全的能力,从数据开发到资产消费提供全链路保障,为业务,技术和管理提供服务和支持。数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。定义创建标准时需要填写的属性及需要遵循的规范配置自定义属性引用公共属性属性信息监控规则业务信息字段a<->标准aDataphinDataphin字段、Dataphin指标、全域资产、外部注册资产等用中台方法论打造企业级好数据相较于传统模式下用Excel等文件分散管理数据标准的方式,Dataphin支持在线创建数据标准,结合标准模板和标准目录的能力,支持一次定义多次复用和分类管理,减少了定义不统一、理解不一致、落地执行难等问题的产生,真正实现了标准的统一管理,让开发和治理工作都有据可循。·模板化在线管理:不同企业对于数据标准的定义不同,应用范围和使用场景也有所差异,为了满足不同组织对数据标准的灵活定义诉求,Dataphin支持创建标准模板,用于管理创建数据标准时需要填写的属性信息。通过定义每一个标准属性的填写规范(如是否必填、填写方式、取值范围约束等),保证基于该模板创建的相同类型的数据标准都遵循统一的结构定义,便于后续的传播和使用。。批量导入导出:Dataphin也支持快捷将已经梳理好的标准明细文件导入系统进行统一管理,或者将已创建的数据标准批量导出,批量修改后再一次性录入更新。只需要下载标准模板并配置冲突策略,就可以实现数据标准的批量录入和更新,大大提升操作效率。5.2.2灵活的数据标准分类管理随着企业治理工作的深入,沉淀的数据标准可能会越来越多,需要对标准进行分类管理,便于查找和统计。此外,部分敏感字段对应的数据标准可能会存在一些不便于公开的机密信息,需要控制这类标准的查看详情权限。针对上述诉求,Dataphin支持最多五级标准目录管理;此外ll标准集"作为一种特殊的标准目录,除了分类的作用外,还承载标准查看权限管控和审批流程定义的作用。数据标准需要先唯一归属一个标准集,并跟随标准集归属到不同的标准目录,实现灵活分类管理。实际应用中,建议一张表(如客户信息维度表)或一个业务实体(如客户、商品)对应一个标准集,并根据业务相关性将标准集上挂到不同的标准目录下;其次,每个标准类型对应一个标准模板(如基础标准、指标标准),从而简化标准规范定义的工作,同时也能满足灵活、多样化的管理诉求。5.2.3完整的数据标准生命周期管理Dataphin支持数据标准的全生命周期管理。。开发态:数据标准创建完成后默认生成ll草稿态"版本,确认填写无误后可以提交标准上线申请并生成对应的审批任务。审批通过前,标准的状态为ll修订中"。注意,开发态的数据标准不支持参与落标映射和评估监控。用中台方法论打造企业级好数据。手动批量导入:Dataphin也支持导入Excel文件的方式实现手动批量导入映射关系,只需要下载配置模板,根据配置说明提示填写配置文件后上传,并根据需要配置更新策略,即可完成映射关系的批量导入。此外,针对已经生成的映射关系,支持人工审核后根据映射是否正确将其划分为"有效映射"和ll无效映射",仅有效映射关系会参与到后续的落标评估监控环节,避免产生误告警影响正常使用。5.2.5有效的数据标准落地评估和监控映射关系配置完成后,如何判断映射成功的资产对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论