数据中台搭建方法论集合_第1页
数据中台搭建方法论集合_第2页
数据中台搭建方法论集合_第3页
数据中台搭建方法论集合_第4页
数据中台搭建方法论集合_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中台搭建方法论集合 步骤:数据集中化存储在上篇文章中我们谈及了在数据中台建设前,必须要进行数据集中化存储,从而通过数据中台的建设,完成各业务线的改造。而具体来说,数据集中化存储就是在进行企业级维度的数据管理,在这其中会涉及如下三个子任务:各个业务产生的数据汇总;数据加工:统一采集、清洗、管理方法;(将各个业务线的数据清洗方法以模板形式配置在企业数据引擎中);全局数据模型生成;

数据存储引擎清洗算法3清洗算法2清洗算法1存储组件(某数据清洗引擎运作原理)数据存储引擎清洗算法3清洗算法2清洗算法1存储组件(某数据清洗引擎运作原理)完成这三个任务,对应的我们也建立起了一个企业内部的数据自流转体系。步骤:数据集中加工在完成了数据集中化管理后,下一步要做的就是建立数据口径管理,实现统一集中计算,具体来说在数据中台中为了实现集中计算,要进行口径管理的一共包含如下4个维度:口径管理名称相同,口径不一致指标数据来源和计算逻辑不同口径口径管理名称相同,口径不一致指标数据来源和计算逻辑不同口径一致「名称不一致指标命名难以理解举个例子来说,在上篇文章(中台实战19)我们将数据集中化到了数据中台进行存储,但是此时来自各个业务线的数据并不能直接使用,因为不可避免的会出现各个数据名称不统一的情况。A业务线中会员数据名称:字段会员ID会员名称会员『机1二一次访问时间小例11小王18710385xxx1020年10月8FI14:59:50B业务线中会员数据名称:字段公推ID会员联系方式上依访何时向小例11小工13710SB51ik2D2Q年10月君1I14:59:50此时就需要将各个业务线的数据名称进行统一,这里我们通常会用软映射的方法将不同的业务线数据进行统一起来,也就是建立一张数据表进行字段映射管理,如下图所示。但是刚才说到的是对现有数据进行管理,对于新产生的数据我们需要进行归一化管理,以便能让数据进入数据中台时就能统一,此时我们就需要使用一套公司级数据载体进行管理:(1)建立唯一指标体系树(2)建立统一数据事件我们来一个个看。步骤:数据指标体系这一步我们就开始去建设我们的指标体系,但是在以往的指标体系管理工具中,我们经常会面临到的一个问题是,不同人对数据指标体系有不同的需求。例如老板更关注的是顶层结果指标,如毛利,成本,盈亏平衡等,但是具体到运营同学身上,可能更关注的是昨日某事件的点击率,转化率这些过程指标。所以在建设数据中台时,我们要在公司内部建立起一套自上而下的指标体系,以此满足各层级不同需要。此处也相当于是我们把整个公司内部的指标进行了一个梳理。这里也就是我们数据中台中经常能见到的三级指标体系概念。I型一级指标:公司战略层面指标.画二级指标:业务策略层面指标回三级指标:业务执行层面指标我们大体上将指标按使用角色分为三类:(1)一级指标:解决管理层的需求,如交易额,净利润,毛利等;(2)二级指标:解决执行层路线评价需求,如渠道A收益,链路转化路径长度等;(3)三级指标:解决执行层具体执行效果,如步骤转化率,广告位点击率等;需要注意的是,第三级指标一定要聚焦到用户的动作监控上,例如搜索框场景下,搜索成功率,注册填写页各步骤点击率/转化率,购物车加购时间,购物车等待时间,收藏次数等各个维度的用户行为。在数据中台中集成这三类数据将帮助我们快速搭建起一个完整的指标框架。步骤:数据指标管理当我们建立起了不同层级的数据指标体系后,接下来会遇到的一个问题,在我们指标越来越多后,经常会出现各个指标之间冲突以及难以理解和管理。例如A业务线存在指标7日渠道转化率,B业务线也存在7日渠道转化率,但是A,B两个业务线对于渠道转化率的定义是不同的。具体来看这两个业务线中的转化定义:•A业务线的渠道转化:指的是用户在网页端完成注册既称为该用户作为活跃用户;. B业务线的渠道转化:B业务线因为拥有APP客户端,所以运营定义当用户下载客户端并登录后再计算用户转化。此时我们可以学习并借用阿里带来的数据解决方案:OneData方法。OneData方法从本质上来说就是将指标定义进一步细化为两类:(1)原子指标:不可拆分的最小颗粒度指标,如活跃数/点击率等;(2)派生指标:在原子指标上增加若干维度修饰词组成派生指标。因此我们在公司内部定义唯一指标时,就可以按照这样的公式来产出指标(派生指标):原子指标+修饰词=派生指标这里的修饰词可以分为两类:(1)面向主题域管理:按照具体的业务线、主题域、业务过程进行定义修饰词,如A业务线留存率,B业务线留存率;(2)以时间周期,行为类型定义修饰词,如7日/14日等这里传统的留存率指标可以被详细拆解为:留存率+事业线+某模块+7日五步骤:数据事件集中管理在工作中,很多时候我们都是在处理各个业务线的突发业务问题分析,例如下述几个场景:A:订单量下降了,帮我看看原因是什么?B:用户注册量下降了,帮我看看原因是什么?而如果我们用产品的语言进行分析一下后上述场景实际就是这两个需求:PM:下单事件分析->购买路径的流程分析PM:注册事件分析->用户从下载到注册的流程分析在很多地方这样的需求也被称之为数据事件分析,而实际上所谓的数据事件就是一组连续的数据指标集合,这其中每一个数据指标都是按照对应用户的每一步行为操作逻辑关系进行排列的。例如一个设计导流的功能主流程是这样的:对应的数据事件就应该是这样组成:序号步件名称构成指标:!构成指标2构成指标3构成指扁401新用户任务转化率事件新用户触达页点击次数新用户目标页跳转转化率新用户目标页任务完成次数新用户目标页任务完转化率上述表格也是我在整理公司内部数据事件时的统一模版,这样能让我清楚的知道都有哪些事件以及这些事件对于不同的指标的依赖是什么?因此我们在进行数据中台建设时就应该将整个数据事件在此汇总,以便集中管理。六步骤:设计数据事件

除了集中管理数据事件,更重要的部分是要能进行数据事件定义,这里就需要用到通用事件设计模型。通用事件设计模型可以分为三个部分:结果辅助参者知通问/不是层圭姜的,晶圭要忌癖央克宠f定义各描述层级权重找到最致命的那个元素拆分问题d精准定义我们要弟港确施述手物是什么(1)拆分问题找到具体衡量各元素组成指标eg:如复购率事件监控二A渠道复购率+B渠道复购率+召回渠道复购率;(2)定义各描述项的具体权重eg:在上述拆分出的三个构成因素中定位影响最大的元素,如召回渠道复购率是重要影响项;(3)结果辅助参考eg:定义出各指标后,如何根据具体指标变化的得出结果,如复购率根据长时间检测,发现下降3%以内属于正常波动,而超过3%属于复购异常,需要定位原因。七步骤:企业级数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论