2025从统一数据治理到下一代企业级 Data Agent实践与创新_第1页
2025从统一数据治理到下一代企业级 Data Agent实践与创新_第2页
2025从统一数据治理到下一代企业级 Data Agent实践与创新_第3页
2025从统一数据治理到下一代企业级 Data Agent实践与创新_第4页
2025从统一数据治理到下一代企业级 Data Agent实践与创新_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从统一数据治理到下一代企业级Data

Agent的实践与创新01020304目录AI时代的数据需求现有技术的挑战统一数据治理的价值企业级RAG和Data

Agent统一数据管理最佳实践05AI时代的数据需求AI技术的应用激发企业对数据的旺盛需求AI

的应用重度依赖于数据;没有数据,AI

会成为无源之水、无本之木根据IDC估计,全世界的数据量将从2018年的33

ZB,增长到2025年的175

ZB。数据–AI应用的核心输入数据加工数据集模型向量提示词数据贯穿于AI

应用的整个链路数据治理–AI应用中不可或缺的部分数据发现数据血缘数据治理数据安全不同组织之间分享和发现数据集、模型等数据之间的生成依赖关系等权限控制、加密策略、访问审计等数据标准、数据质量、数据生命周期等优秀的数据治理对AI

的成功应用至关重要AI

is

Only

asGood

as

your

Data

management

is

GoodGarbage

in,

garbage

out!现有数据管理技术的挑战数据被锁定在不同的数据源中数据湖数据仓库消息队列向量数据库分布式文件系统传统大数据时代GenAI

时代结构化、半结构化为主非结构化为主数据被地域分割企业由单云单域架构向多云多域架构迈进数据合规的限制不可避免的数据分割跨云数据的传输成本GDPR、CCPA

等要求中心化的数据纳管已不现实数据被组织分割SensitiveInformationBusiness

AKafka

+

AWS-ESOrderPaymentMysqlBusiness

BKafka

+

RedisData

EngineerInfraEngineerAI

EngineerBusiness

CKafka

+

Redis数据被孤立到不同部门拥有的数据平台中新业务和LLM需要一种统一的方式来访问所有数据。隐藏在数据底层的问题数据发现Automatically

find,

classify,

and

mapall

of

your

data

-

everywhere.数据连接Connect

to

the

Data

ThatMatters

Most.数据分类Automatically

classifymoretypes

ofdata

in

more

places.数据生命周期管理Simplifyand

automate

datalifecyclemanagement

from

collection

to

destruction.IPDataTechnical

&

Business

DataLegalHoldData3rd

Party

DataPII

&

PI

DataCredentials元数据语义Enrich

technical

metadata

withbusiness

andoperational

metadata

for

fullvisibility.数据主权Automate

end-to-end

datarights

requests

and

reporting.多种因素带来的数据管理的挑战带来的挑战决策信息不完整缺乏统一的数据视图,导致没有全面的决策依据,错失商业机会资源浪费基础设施重复建设和重复投入,增加企业运营成本合规风险数据分散和不统一管理可能导致数据不一致、数据泄露等风险影响合规阻碍业务创新发展限制企业内部数据的流通与共享,阻碍数据价值最大化组织壁垒技术壁垒安全壁垒管理壁垒DataSilosBusinessIntelligenceDataWarehouseStreamingAnalyticsDataScience/AIDataOrchestrationCSPCCSPACSPB统一数据治理的价值统一数据治理,实现全方位数据管理统一数据/元数据管理视图Data

Lake✔支持多租户和权限认证✔兼容HMS,与大数据生态天然融合统一权限管控✔集中权限管控,全域无缝访问✔精细化权限控制,安全合规无忧✔权限与Ranger生态互通✔调优全托管,优化可观测,大幅提升性能并降低管理成本✔支持多种触发方式(周期/按需/条件)数据智能调优Unified

Catalog统一数据管控面,旨在帮助用户快速构建和管理湖仓架构,实现全方位湖仓管理Apache

Gravitino:统一数据/AI目录数据湖数据仓库实时消息AI模型HiveMetastoreDW

CatalogSchemaRegistryModelRegistry目标:数据统一视图从元数据层面上达到SSOT统一访问和治理Next-Gen

Data

Catalog

is

the

Core

in

New

Open

Data

Architecture/文本、图片、视频等FilesetApache

Gravitino核心架构MetadataStorageFunctionality

layerInterface

layerCore

with

objectmodelConnection

LayerUnified

REST

APIsIceberg

REST

APIsUnified

ProcessingUnified

GoverningMetalakeCatalogSchemaTableConnectionCatalogSchemaFilesetConnectionCatalogSchemaModelConnectionCatalogSchemaTopicConnection统一数据的访问Tabular

dataNon-tabular

dataUnified

Tabular

APICreateLoadAlterDropSchema:

{name:

stringcomment:

stringproperties:

map<string,

string>…}Table:

{name:

stringcolumns:

Colum[]partitioning:

Transform[]distribution:

DistributionsortOrder:

SortOrder[]indexes:

Index[]….}TransformDistributionTypeSortOrderIndexConnectorsGravitino

Virtual

FileSystemArrowFileSystemUnified

Non-tabular

APISchema:

{name:

stringcomment:

stringproperties:

map<string,

string>…}Fileset:

{name:

stringstorageLocation:

stringtype:

Type….}CreateLoadAlterDropS3HDFSADLSGCS统一数据的权限管控Unified

Access

ControlAPI数据工程师和AI团队更高效地协同工作Data

IngestionSparkStructuredDataUnstructuredDataTechnologyCommunicationDataInternet

ofthingsAutomationNetworkingData

EngineerHDFSClientS3

SDKData

ScientistAIEngineerGravitinoModel

TrainingTensorflowPytorchRayTraining

/Checkpoint

/Metrics

/

ModelDataGravitinoPython

libGravitino

DatasetGravitino

ACLWrite

DataUnifiedAccess

ControlETLData

IngestionSparkStructuredDataUnstructuredDataTechnologyCommunicationDataInternet

ofthingsAutomationNetworkingData

EngineerHDFSClientS3

SDKData

ScientistAIEngineerModel

TrainingTensorflowPytorchRayETLUnstructuredDataRead

Data统一元数据治理后统一数据查找和访问;统一安全模型和数据访问统一元数据治理前数据导出容易造成信息泄漏;数据使用无法跟踪CopyWrite

Data企业RAG和Data

agentRAG

的几种形态Multi-modular

RAG意图理解更准确,知识内容更丰富,准确度更高由决策引擎选择RAG方法;使用多种数据源/知识库Advanced

RAG个性化的回答,以及提升的质量和准确性结合关键字和语义检索的结果;检索前后进行一定预处理;Basic

RAG效果一般基于向量的检索;易于实现,有限的数据,缺少对查询和结果进行校验RAG(检索增强生成)是一种人工智能框架,它将传统信息检索系统(如搜索和数据库)的优势与生成式大语言模型(LLM)的功能相结合。什么是Basic

RAG概要:较为基本的数据准备(历史资料、KB等)较为简单的检索(基于语义的检索)用户主要聚焦在技术选择上:框架(LangChain,LlamaIndex等)基础模型/Embedding

模型向量库/存储挑战:信息来源单一,可能不准确不能提供针对某个用户的准确信息没有逻辑推导什么是Advanced

RAGRe-rankingLLM在Retrieval前:识别用户意图设置围栏TextToSQL(或其它查询语法)改写问题(通过LLM)Vector

searchContextrecognizationDB

or

keywordsearch在Retrieval后:对查询结果进行re-ranking内容总结(通过LLM)优点:提供个性化结果提供更多的上下文信息和一定的推理什么是Multi-modular

RAGHybrid

searchGraphRAGText2SQL/QLKnowledgeBases?Pre-retrievalDecision

engine更进一步,在Retrieval前进行查询路由:在不同KB

之间选择在不同retrieve

方式之间选择实现方法:基于规则、条件的判断使用LLM

判断构建企业级Multi-modular

RAG系统在RAG框架中为每个数据库、每种数据源开发连接器/reader、获取其描述信息、获得prompt模版、进行NL2SQL/QL、查询数据、输入给LLM缺点:每个数据源/存储都需要在程序中接入配置复杂度高开发效率低安全性差无法复用更好的方案:统一结构化/非结构化数据接入的RAG使用统一元数据平台管理各类数据,获取数据内容描述、数据结构、访问方式等信息、借助大模型生成查询指令,并统一进行查询、结果返回、模型传递等优点:适配简单,开发效率高统一数据访问、统一权限管控易于扩展统一元数据管理最佳实践实践1:某先进制造企业Data+AI一体化的新挑战非结构化数据

海量数据“资产化”资产地图与资产治理对接机器学习框架传统机器学习大模型预训练/微调流程打通、产品打通DataOps/MLOps/LLMOps管理好AI资产支持好业务场景实现Data

AI一体化新一代数据管理方案基于Gravitino的统一元数据利用Fileset管理非表格数据打通数据开发与AI开发实现AI资产的治理存量数据纳管AI数据纳管存量数据挂载至External

Fileset支持设置TTL与TTV上下游迁移解耦,不强制迁移存储无感搬迁支持挂载多种存储类型对业务透明的数据搬迁Data+AI一体化开发统一AI资产管理资产列表数据血缘数据权限业务案例①:纳管后数据降本降本测算某业务纳管存量数据后大幅度降本数十PB

存量数据、大量HDFS

路径,难以管理纳管后识别出血缘根据血缘推荐TTL、TTV冷备和清理无用数据实现降本业务案例②:基于统一元数据的MLOps某业务部门的推荐工作流过去数据流与训练流割裂大量使用文件,难管理、难分析现在基于统一元数据打通流程数据加工直接产生Fileset基于Fileset实现特征分析与训练升级后简化工作流统一元数据的使用业务案例③:基于统一元数据的LLMOps

(WIP)某业务部门的LLM微调工作流过去下载语料数据,再上传至大模型平台手动选取线上语料进行效果验证未来在线加工微调数据自动化的模型测试统一元数据的使用LLMOps

by

Databricks实践2:某互联网社交平台元数据管理的痛点业务侧耦合度高:元数据使用方调用异构数据源方式多种多样数据治理能力有限:无法提供统一的审计、权限管理、TTL能力半结构化/非结构化数据源缺乏管理跨源数据Sc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论