版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据治理I数据资产中心
作者介绍
@明明
美团资深产品,DataFun分享嘉宾,数据人联盟创作者:
先后主导过业务型、工具型、治理型数据产品工作,8次马拉松完赛经历,喜欢《三
体》,偶像章北海,立志成为一名受人尊敬的产品经理。
“数据人创作者联盟”成员•
这一期,我们来聊聊数据治理最最核心的部分——数据资产治理,本文
主要阐述数据资产治理的策略和工具建设思路。
广义的数据资产涵盖一切非结构化、半结构化和结构化数据,狭义的数
据资产主要包括业务侧的业务日志、流数据的topic、批数据的数据表、
生产调度任务/作业,模型层的指标、维度和数据集,应用层的报表、
API、应用/服务等,本文主要面向狭义的数据资产,其中又以大家接触
最多的数据表、数据指标、报表为主。
八
|njSSTTVT
1)用户A是数据开发工程师,对数据表结构和内容较为熟悉,日常工
作内容主要是数据采集、数仓建模(ETL)和运维问题排查,主要需求
查询数据表上下游生产链路及生产调度作业的执行情况,同时也会随机
探查数据字段、枚举值和定义函数等内容来辅助进行数据开发。
2)用户B是业务侧数据分析师,具备基本的数据挖掘分析能力,日常
工作主要是面向业务一线产出数据分析报告、配置业务指标和报表,需
要根据业务需求查询的数据存储在哪张数据表,以及知悉数据表内各字
段的定义、枚举值等,从而确定是否满足查询需求。
3)用户C是数据管理人员,对数仓建模规范和数据口径定义比较熟
悉,日常工作主要是规范数据开发流程、降低数据资源存储和开发成
本,同时保障业务报表产出及时性和质量,希望资产中心能提供统一的
口径维护、资产监控评测等能力。
用户用户特点痛点分析用户功能诉求
(1)数仓建模需要频繁对各业务
数据源进行数据探查需要精
研发工程死
(1)书找表.并知悉数据表字段定
⑵懂数据生产和建模过程(1)通过搜索快速找表
义和描述.知悉字段屋性和分(2)字段探查
用户A(3)懂数据结构
区划分等内容血缘探查
(4)知晓基本数据源存储内容和规(3)
(2)运维问题排查需要知悉数据(4)任务/作业探查
范
表血缘链路.关联上下游任务
/作业
(1)日常工作业务多样性场景复
杂性较高.需要频繁咨询相关
通过搜索/知识图谱
业务负责人.对齐口径和注意(1)
(1)业务数据分析邪快速找人找数
事项
(2)具备基本的SQL取数隹力(2)字段业务定义.口
用户⑵需要快速获悉业务统计指标
B⑶具各基本指标、数据集和报表径描述完整清晰
的来源和统计方法.从而快速
配差能力(3)字段探查
完成SQL®数和报表配置工作
(4)快速权限申请
(3)频繁获取各类数据.需要快
速申请到权限
⑴数据管理人员.向上对接业⑴对接供方.需要提高数据⑴规范数据资产录入
务方.向下对接研发工程师规范生产积极性.及时发现和维护
⑵工作职责为推动资产规范性并推动治理劣质数据⑵数据资产质量监测
用户C
和质量治理⑵对接需方.需要遑升数据(3)数据责产成本监
⑶数据通用性知识较强.但不丰富度,提升数据使用的积
参与数据开发,也不参与业务极性和满意度
图表1:资产中心典型代表用户需求场景分析
综上,数据资产中心的核心用户是各业务侧的数据分析师、产品经理、
数据运营等用户,他们构成了数据资产中心的消费端,是数据资产得以
流通并进而产生交换价值的关键,而资产中心供给端的用户群体主要是
数据开发者和数据管理者。
因此,面向消费端,资产中心主要解决找人找数和有好数的痛点,核心
治理目标为保障数据资产元信息的完整性、规范性和一致性,面向供给
端,资产中心主要解决生产开发提效、资源成本管控的痛点,治理目标
为降本增效。
研究近年来主要数据论坛上各大厂数据资产中心的建设经验,特选取滴
滴和腾讯作为调研目标,详情如下:
1.滴滴数据梦工厂
1)场景分析:如图表2所示,滴滴主要数据资产分为人、路、车三类,
主要呈现出数据量极大、结构化数据占比高、数据安全等级高等特点,
主要需求为数据资产成本治理、数据安全治理和数据质量治理。
滴滴的数据资产
5.5亿+1000+座700亿150亿
用户全球城市日ETA请求日定位数据
日新熠106TB+数据
图表2:滴滴数据资产特点
2)解决思路:
如图表3所示,滴滴内部将数据服务化、指标管理平台和资产管理平台
统一为数据内容建设领域,定位为向上服务各类数据应用平台,向下对
接数据开发平台的中间公共数据层,以数据内容为抓手,资产管理平台
统一作为数据资产元信息采集和管理的工具,通过指标管理平台规范资
产口径和质量,再通过数据服务化将数据资产服务到业务团队。
滴滴的数据平台业务架构
•元数据打通,更准确识别公司核心数据资产,辅助资产信息的完
善,从而沉淀数据资产
节1大屏用户
业务应用/DS内部用户/DS数据消费
1_
统一数据门户PCAPP-H5
数据应用
产品平台Big警析决策分析业务分析看板分析
技
术
&
数
教蹙服务化]业
据
务
内数据
元
容指标首理平台
I公共层数
建
设
据
费产管理平台I打
通
数据开数据同T数据开数据质项目管权限管
发平台步I发理理
3据力患地
离线引擎实时引擎tag牌手母
图表3:滴滴数据平台业务架构
如图表4所示,滴滴将数据资产平台的使用对象设计为两类,一类是数
据的加工者,一类是数据的管理者,数加工者承担各类资产的日常生产
管控,数据管理者承担各类资产的资源成本和安全管控工作。
资产管理平台
数据加,者
表管理I数据编目
全局资产
奥产管理
四地管理者
图表4:滴滴数据资管理平台使用对象设计
3)产品介绍:图表5为滴滴资产管理平台主要功能模块的分享样图
功能分字样图功频述
业务,・•・««cui・・0・・・<•・Bit,将业务数据进行结构化
WVM—£■*««*««.AQ--,.l
图谱的拆分,以拓扑形式进行
展示,方便用户结构化的
找到数据
数据提供数据表、特征、指标、
IM'..r..••KflltA.・<KKQItT・rr!**«*.t«HI«.»«.艮|1・1»3。6・*l|大.M««
MB.1”个入««W・・・Ml.—・>F,方X.««*»1«».
维度、埋点等数据资产的
智能检索功能
J:.一个班据,的目留地
MM•…,…--•••
数据提供各类数据资产血缘
・记♦了・■之封桢■关丛.4*iaa.i.>:-z网版■.
血缘依赖查询和展示功能
资源提供各类数据资产存储
管理和计算成本通典壁
一个数据人的自留地
2.腾讯游戏数据资产管理平台
1)场景分析:如图表6和图表7所示,腾讯游戏旗下包含上百款各类端
游、页游和手游,数据量极大,存在数据多样缺乏统一标准、口径定义
不一致、链路质量不高无法快速定位问题、数据价值和成本难以评估等
痛点。
腾讯游戏大数据运营概况
15w+表
离线计算量:220+万庆
400/乙+疲
端游100♦款100P+
流式计■«:2000+万能
4W+表
页游90+款603乙+数据
30w+表
TDW
手游300+款13000亿+3
每日传输量:17000亿条,约260TB,总存储量为100PB+,公司自勃2。舞绍泡
图表6:腾讯游戏大数据运营概况
问题与痛点
在游戏大数据管控中,面临着众多问题与痛点
口01会多样化,缺少统一标准
302计算潼期理解一不致,导致统计结果有偏差
iJ03数据全链路质■问题,层次震杂、不能快速定位问题
U4数据质立偏低给数据应用带来的各种挑战
游戏数据管控的问题与难点
05数据标准缺乏结构化管理,集成困难
06数据分散,没有形成完整的成本管理
07数据价值的评估较为困难
08数据安全与合规保।号的问题
■一个数据的目留地
图表7:腾讯游戏数据资产问题痛点
2)解决思路:腾讯游戏对资产治理主要构建了两大体系,分别是数据资
产的元数据管理体系和数据资产价值的评估体系,其中元数据管理体系
涉及元数据应用、元数据管理、元数据存储和元数据采集等范畴,数据
资产价值评估体系则主要从热度、广度和收益度三个视角进行评估,详
情如下:
元数据管理
元数据应用元数据检索数据一体化I质量监控资源管理其他应用
用户管理日志管理
。元数据能力特点可视化
元数据管理
,异构适配,集中存储权限管理II备份恢复接口管理
,业务指标,开放共享、
,描述数据,理解业务
,自动构建血缘关系链
,扩展能力,辅助运营
元辘采集转换层模型桥接器数据映射桥接器
元数据管理体系技术架构
一个数据/用目留地
图表8:腾讯游戏资产管理平台元数据管理体系架构设计
数据驱动-数据价值评估
数据价值评估"三度"模型
模型成熟度成熟运营期
W地
图表9:数据资产价值评估体系架构设计
数据驱动-数据价值评估
•数据热度评估模型
假设户(4),P(B)P(G)分别是数据节点4B,…,F的被调用
次数.则每个节点的热度值通过下面公式得到:
v(x)=p(*)+yv(i)
其中C(i)表示i节点的所有子节点的集合,比如,数据节点
A的热度指数为
V⑷=P(4)+(V(B)+V(C))
可以发现,上面的模型为典型是递归计算模型,其特点是
V(父节点)〉V(子节点)
冰
0(0,10]
热度等级(天)
'七一个缴据上的自留地
图表10:数据资产热度“冰-冷-温-热”评估模型
▼
数据驱动-数据价值评估
•数据广度评估模型
通过数据源S的应用依赖关系发现,数据服务的种类越
多,应用广度就越大,应用广度可表示为
W(S)=n»M
其中"为数据服务的种类数,M为正相关系数,表示同
一个数据服务有多个功能模块依赖数据源S,模块越多,
正相关系数M越大。其中g(4)为数据服务用的模块个数
数据服务
M=
1=1
功能模块
最终应用广度模型为
数据应用依赖关系w(s)=n*Wg(4)
i-i
小大
(0,10](10,100](100,500]>500
广度卬天)”据,.的目留地
图表11:数据资产广度“微-小-中-大”评估模型
数据驱动•数据价值评估
・基于业务价值上报T介值指标采集
按指定周期,结合A/BTest评估模型,
计算数据应用平台给产品带来的业务价值评分
V(i)为价值指标,如活跃、流水、PV、UV等
P(i)为价值指标的权重
共幻为该业务指定周期内的价值综合评分
A/BTest评估模型
/G)=Wv(i)xP(i)
i=l
数据应用平台
价值指标上报
(20,60](60,80][80,100]
价值评分(天)
游戏数据资产管理平台
'七一个数据人的自留地
图表12:数据资产收益度“差-中-良-优”评估模型
3)产品介绍:
功能分字样图功能描述
资产目录展示各类数据资产
敛据资产目录-某业务视明
32H24M1250H12数量和占比
成本管控展示数据资源存储
和计算的成本和趋
势
数据血缘
安全管理提供各类数据资产
王—安全等级和监控报
、二二一个数据人的自留地
资产价值提供各类数据资产
?价值评估模型分值
o和占比
大:一个致据人的目留地
图表13:腾讯游戏数据资产管理平台主要模块分享样图和功能描述
3.调研总结
分析滴滴和腾讯的分享内容,发现两家头部公司对数据资产治理都有一
个相同点,即将各类数据资产治理通过平台化的手段去落地实施,都关
注到了资产的元数据规范性、安全性和成本,都提供了数据资产检索和
血缘链路检索等服务。在侧重点上,滴滴的资产管理工具更加丰富和成
熟,考虑到了数据生产者和管理者的痛点,而腾讯的亮点在于对数据资
产价值评估体系的独特设计,以上经验均值得我们借鉴和学习。
如图表14所示,数据资产中心一共分为三层,分别是服务层、管理层和
采集层,其中服务层面向数据分析师、数据产品、业务运营等数据消费
端用户,提供数据资产检索相关服务能力;管理层主要面向数据资产管
理者,主要代表为各业务线产品/技术团队的数据产品经理、研发工程师
和主要负责人,提供数据资产录入和维护能力,提供资产成本治理服
务;采集层主要面向各数据来源方,包括但不限于埋点元信息采集、业
务数据库元信息采集、报表/指标元信息采集、人员组织信息采集等等,
同时,采集完的元信息、,需要资产维护和管理者按照管理层提供的统一
模型进行定义落库。
数
据
资数据资产管理层
产
中
心
产
品
架
构
设
计
资产元信息采集展
业务指标用I*元(8息
业务数据博元信息采集JR*
图表14:数据资产中心产品架构设计图
1.数据接入
产品定位:如图表15,数据资产中心核心是各类数据资产元信息的中央
数据库,各类数据资产的元信息采集主要分为上游业务系统自动采集和
资产中心前端页面手工输入两部分,因此,数据接入模块承担了资产中
心开源和标准定义的职能。
资产中心从报表系统获取名
称、描述等信息
资产中心从权限系统资产中心从开发平台
获取角色、权限、安权限系筑获取任务执行、作业
全等级等信息编排、血缘等信息
资产中心从埋点系统资产中心代码仓库获
获取页面参数、上报埋点系筑取数据变更、字段注
场景等信息联等信息
资产中心从业务数据库获取、七一个数据上的省留地
业务数表信息
图表15:数据资产中心元信息采集示意图
规范定义:数据资产中心需要采集hive、kafkatopic、clickhouse>
druid.报表、指标、API等等结构各异的资产元信息,针对各类异构数
据进行统一定义并整合分析绘制出数据地图是资产中心需要解决的主要
问题,系统设计伊始便要考虑各类资产的复杂性和差异性以及未来的通
用性,因此,如果不定义一套统一的元信息收录采集标准,则随着数据
资产的收录一定会出现资源管控成本和元信息质量降低等问题。在此,
如图表16和图表17,我们抽象出一套可以通用化定义各类数据资产的
元信息模型,以解决上述问题:
嚣:一篇,氏事鼠嗷据上的自留地
属性(描述)
而口名标.create』me号・于♦性
图表16:数据资产中心元信息采集模型设计图
序号父级类目子类目属性描述
1
全局公性无•睢一标识
•资产描述
•创建时间
•变更时间
•负责人
•资产等级
2HIVE
HIVE数据库•数据库名:数据库名称
•数据库中文名称:数据库中文名称
•数仓分层:根据目前规范约定的记录模型分层信息
•数仓分局5述信息;用王前端悯甯为自留地
3
HIVE数据表•数据表名:数据表名
•数据表中文名:数据表中文名
•事实表/群
•所属库:记■据表所属数据库
•创建人:记录数据表创建人
•数据同步周期:记■据同步周期
•数据主题:根据目前规范约定记录数据主题信息
•数据主题描述信息:用于前端页面展示和搜索内容
•领目砌范约定记息
•业务黜述信息:用于;戈贡击成坛渤联储电
HIVE数据字•字段名称:字段名称
段•所属数据表:该字段属于哪个数据表
•数据类型:字段数据类型
•是否为分区字段:是否是分区字段
•字段枚举值:枚举字段的枚举值
*字段样例:字段值抽样,:一个数据大的当副也
数颗标原子指标•指标名:指标名称
•指标中文名:指标中文名称
•数据域:根据目前规范约定记录数据域信息、
•指榻性:原子指标/派生指标
•指标单位:指标单位
•jitsM计
•修饰词:记录指标所有修饰词
•指标算法:记颗标计算SQL
•可选维度:记蚱标所有可凝度
6或合指标•
•其他同上1A-「啜据人的自留地
图表17:主要类目属性定义举例
2.数据地图
资产检索:如图表18所示,支持普通搜索、高级搜索,同时向用户推荐
结构化整理的知识图谱
g皆产中心置产”nrtp货产/.,尸交携OO88
1数据资产检索
高圾搜索
向您指葬知识39遢XXXXXXXXXX
'七一个数据人的省留地
图表18:资产检索首页DEMO
资产详情:资产详情页展示资产的基础信息、业务信息和技术信息,同
时提供权限申请、资产收藏、血缘链路查询、快捷取数、SQL模板生成
等能力
图表19:资产详情页DEMO
18a贵产中。■an‘产”iruFBram贵产交懵OO88
data_ads_faact.user_user_social_poi_ssIM
1.£人次用户丽r二lc去火而
负责人僖息字段信息数据HJ览快摄取数生产鳖控用户评价
■rvvnxxxx
|生lftSQL]
开发负胃人XXX
安全011人-KXXJtx
»*TW«W«QS|■»
1P.tetoSTRINGXXXXXXXXXXXXXXXXXXXXXX*
□2ijdSTRINGXXXXXXXXXXXXXXXXXXXXXX
a.il
3uMf_n«ffwSTRINGXXXXXXXXXXXXXXXXXXXXXXK
业务信息
4poijdSTRINGXXXXXXXXXXXXXXXXXXXXXXBul
中又名XXXXXXSpca.riam*STRINGXXXXXXXXXXXXXXXXXXXXXX金
*STRJNOXXXXXXXXXXXXXXXXXXXXXX
创■时网XXXXX•0•_«_.il
里新时间xxxxx
曲努描述XXXXXXXXXXXXX
技术信息
H罐潭:HVE
xxxxx
更断■式全■史新
更断网期・
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子设备装接工安全专项测试考核试卷含答案
- 雕塑翻制工岗前技能掌握考核试卷含答案
- 墨锭制作工班组评比评优考核试卷含答案
- 残疾人就业辅导员岗前绩效目标考核试卷含答案
- “智阅小帮手”综合辅助数字化应用建设项目采购文件
- 空压机操作工安全技能培训课件
- 2026年保险行业客户档案管理知识测试题
- 2026年环保电价及垃圾焚烧发电电价补贴审核测试题
- 2026年外贸业务竞聘面试题库
- 2026年技术合同认定登记及税收优惠练习题
- 湖北烟草招聘面试全攻略:面试技巧与题目解析
- 桥式起重机安全检查表
- 2025年全国行政执法人员执法资格考试必考题库及答案
- 留样样品管理办法
- GB/T 45711.2-2025皮革撕裂力的测定第2部分:双边撕裂
- 药品进货查验管理制度
- 乡镇医院科研管理制度
- 湖南省三支一扶招聘考试真题2024
- 《GPCR信号转导》课件
- TCFLP0026-2020散装液体化学品罐式车辆装卸安全作业规范
- 大数据知识产权法课件
评论
0/150
提交评论