




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
从统一数据治理到下一代企业级Data
Agent的实践与创新01020304目录AI时代的数据需求现有技术的挑战统一数据治理的价值企业级RAG和Data
Agent统一数据管理最佳实践05AI时代的数据需求AI技术的应用激发企业对数据的旺盛需求AI
的应用重度依赖于数据;没有数据,AI
会成为无源之水、无本之木根据IDC估计,全世界的数据量将从2018年的33
ZB,增长到2025年的175
ZB。数据–AI应用的核心输入数据加工数据集模型向量提示词数据贯穿于AI
应用的整个链路数据治理–AI应用中不可或缺的部分数据发现数据血缘数据治理数据安全不同组织之间分享和发现数据集、模型等数据之间的生成依赖关系等权限控制、加密策略、访问审计等数据标准、数据质量、数据生命周期等优秀的数据治理对AI
的成功应用至关重要AI
is
Only
asGood
as
your
Data
management
is
GoodGarbage
in,
garbage
out!现有数据管理技术的挑战数据被锁定在不同的数据源中数据湖数据仓库消息队列向量数据库分布式文件系统传统大数据时代GenAI
时代结构化、半结构化为主非结构化为主数据被地域分割企业由单云单域架构向多云多域架构迈进数据合规的限制不可避免的数据分割跨云数据的传输成本GDPR、CCPA
等要求中心化的数据纳管已不现实数据被组织分割SensitiveInformationBusiness
AKafka
+
AWS-ESOrderPaymentMysqlBusiness
BKafka
+
RedisData
EngineerInfraEngineerAI
EngineerBusiness
CKafka
+
Redis数据被孤立到不同部门拥有的数据平台中新业务和LLM需要一种统一的方式来访问所有数据。隐藏在数据底层的问题数据发现Automatically
find,
classify,
and
mapall
of
your
data
-
everywhere.数据连接Connect
to
the
Data
ThatMatters
Most.数据分类Automatically
classifymoretypes
ofdata
in
more
places.数据生命周期管理Simplifyand
automate
datalifecyclemanagement
from
collection
to
destruction.IPDataTechnical
&
Business
DataLegalHoldData3rd
Party
DataPII
&
PI
DataCredentials元数据语义Enrich
technical
metadata
withbusiness
andoperational
metadata
for
fullvisibility.数据主权Automate
end-to-end
datarights
requests
and
reporting.多种因素带来的数据管理的挑战带来的挑战决策信息不完整缺乏统一的数据视图,导致没有全面的决策依据,错失商业机会资源浪费基础设施重复建设和重复投入,增加企业运营成本合规风险数据分散和不统一管理可能导致数据不一致、数据泄露等风险影响合规阻碍业务创新发展限制企业内部数据的流通与共享,阻碍数据价值最大化组织壁垒技术壁垒安全壁垒管理壁垒DataSilosBusinessIntelligenceDataWarehouseStreamingAnalyticsDataScience/AIDataOrchestrationCSPCCSPACSPB统一数据治理的价值统一数据治理,实现全方位数据管理统一数据/元数据管理视图Data
Lake✔支持多租户和权限认证✔兼容HMS,与大数据生态天然融合统一权限管控✔集中权限管控,全域无缝访问✔精细化权限控制,安全合规无忧✔权限与Ranger生态互通✔调优全托管,优化可观测,大幅提升性能并降低管理成本✔支持多种触发方式(周期/按需/条件)数据智能调优Unified
Catalog统一数据管控面,旨在帮助用户快速构建和管理湖仓架构,实现全方位湖仓管理Apache
Gravitino:统一数据/AI目录数据湖数据仓库实时消息AI模型HiveMetastoreDW
CatalogSchemaRegistryModelRegistry目标:数据统一视图从元数据层面上达到SSOT统一访问和治理Next-Gen
Data
Catalog
is
the
Core
in
New
Open
Data
Architecture/文本、图片、视频等FilesetApache
Gravitino核心架构MetadataStorageFunctionality
layerInterface
layerCore
with
objectmodelConnection
LayerUnified
REST
APIsIceberg
REST
APIsUnified
ProcessingUnified
GoverningMetalakeCatalogSchemaTableConnectionCatalogSchemaFilesetConnectionCatalogSchemaModelConnectionCatalogSchemaTopicConnection统一数据的访问Tabular
dataNon-tabular
dataUnified
Tabular
APICreateLoadAlterDropSchema:
{name:
stringcomment:
stringproperties:
map<string,
string>…}Table:
{name:
stringcolumns:
Colum[]partitioning:
Transform[]distribution:
DistributionsortOrder:
SortOrder[]indexes:
Index[]….}TransformDistributionTypeSortOrderIndexConnectorsGravitino
Virtual
FileSystemArrowFileSystemUnified
Non-tabular
APISchema:
{name:
stringcomment:
stringproperties:
map<string,
string>…}Fileset:
{name:
stringstorageLocation:
stringtype:
Type….}CreateLoadAlterDropS3HDFSADLSGCS统一数据的权限管控Unified
Access
ControlAPI数据工程师和AI团队更高效地协同工作Data
IngestionSparkStructuredDataUnstructuredDataTechnologyCommunicationDataInternet
ofthingsAutomationNetworkingData
EngineerHDFSClientS3
SDKData
ScientistAIEngineerGravitinoModel
TrainingTensorflowPytorchRayTraining
/Checkpoint
/Metrics
/
ModelDataGravitinoPython
libGravitino
DatasetGravitino
ACLWrite
DataUnifiedAccess
ControlETLData
IngestionSparkStructuredDataUnstructuredDataTechnologyCommunicationDataInternet
ofthingsAutomationNetworkingData
EngineerHDFSClientS3
SDKData
ScientistAIEngineerModel
TrainingTensorflowPytorchRayETLUnstructuredDataRead
Data统一元数据治理后统一数据查找和访问;统一安全模型和数据访问统一元数据治理前数据导出容易造成信息泄漏;数据使用无法跟踪CopyWrite
Data企业RAG和Data
agentRAG
的几种形态Multi-modular
RAG意图理解更准确,知识内容更丰富,准确度更高由决策引擎选择RAG方法;使用多种数据源/知识库Advanced
RAG个性化的回答,以及提升的质量和准确性结合关键字和语义检索的结果;检索前后进行一定预处理;Basic
RAG效果一般基于向量的检索;易于实现,有限的数据,缺少对查询和结果进行校验RAG(检索增强生成)是一种人工智能框架,它将传统信息检索系统(如搜索和数据库)的优势与生成式大语言模型(LLM)的功能相结合。什么是Basic
RAG概要:较为基本的数据准备(历史资料、KB等)较为简单的检索(基于语义的检索)用户主要聚焦在技术选择上:框架(LangChain,LlamaIndex等)基础模型/Embedding
模型向量库/存储挑战:信息来源单一,可能不准确不能提供针对某个用户的准确信息没有逻辑推导什么是Advanced
RAGRe-rankingLLM在Retrieval前:识别用户意图设置围栏TextToSQL(或其它查询语法)改写问题(通过LLM)Vector
searchContextrecognizationDB
or
keywordsearch在Retrieval后:对查询结果进行re-ranking内容总结(通过LLM)优点:提供个性化结果提供更多的上下文信息和一定的推理什么是Multi-modular
RAGHybrid
searchGraphRAGText2SQL/QLKnowledgeBases?Pre-retrievalDecision
engine更进一步,在Retrieval前进行查询路由:在不同KB
之间选择在不同retrieve
方式之间选择实现方法:基于规则、条件的判断使用LLM
判断构建企业级Multi-modular
RAG系统在RAG框架中为每个数据库、每种数据源开发连接器/reader、获取其描述信息、获得prompt模版、进行NL2SQL/QL、查询数据、输入给LLM缺点:每个数据源/存储都需要在程序中接入配置复杂度高开发效率低安全性差无法复用更好的方案:统一结构化/非结构化数据接入的RAG使用统一元数据平台管理各类数据,获取数据内容描述、数据结构、访问方式等信息、借助大模型生成查询指令,并统一进行查询、结果返回、模型传递等优点:适配简单,开发效率高统一数据访问、统一权限管控易于扩展统一元数据管理最佳实践实践1:某先进制造企业Data+AI一体化的新挑战非结构化数据
海量数据“资产化”资产地图与资产治理对接机器学习框架传统机器学习大模型预训练/微调流程打通、产品打通DataOps/MLOps/LLMOps管理好AI资产支持好业务场景实现Data
AI一体化新一代数据管理方案基于Gravitino的统一元数据利用Fileset管理非表格数据打通数据开发与AI开发实现AI资产的治理存量数据纳管AI数据纳管存量数据挂载至External
Fileset支持设置TTL与TTV上下游迁移解耦,不强制迁移存储无感搬迁支持挂载多种存储类型对业务透明的数据搬迁Data+AI一体化开发统一AI资产管理资产列表数据血缘数据权限业务案例①:纳管后数据降本降本测算某业务纳管存量数据后大幅度降本数十PB
存量数据、大量HDFS
路径,难以管理纳管后识别出血缘根据血缘推荐TTL、TTV冷备和清理无用数据实现降本业务案例②:基于统一元数据的MLOps某业务部门的推荐工作流过去数据流与训练流割裂大量使用文件,难管理、难分析现在基于统一元数据打通流程数据加工直接产生Fileset基于Fileset实现特征分析与训练升级后简化工作流统一元数据的使用业务案例③:基于统一元数据的LLMOps
(WIP)某业务部门的LLM微调工作流过去下载语料数据,再上传至大模型平台手动选取线上语料进行效果验证未来在线加工微调数据自动化的模型测试统一元数据的使用LLMOps
by
Databricks实践2:某互联网社交平台元数据管理的痛点业务侧耦合度高:元数据使用方调用异构数据源方式多种多样数据治理能力有限:无法提供统一的审计、权限管理、TTL能力半结构化/非结构化数据源缺乏管理跨源数据Sc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年及未来5年中国花生、花生仁市场前景预测及投资规划研究报告
- 安全问责制度解析讲解
- 宠物抗过敏保健品创新创业项目商业计划书
- 老年舒适鞋设计企业制定与实施新质生产力项目商业计划书
- 脂肪替代品企业制定与实施新质生产力项目商业计划书
- 老年人数字化生活技能培训创新创业项目商业计划书
- 安全培训幼儿课件
- 老年人防滑浴室垫与扶手行业跨境出海项目商业计划书
- 脑力清醒能量棒行业跨境出海项目商业计划书
- DB42T 2424-2025湖北省建房切坡地质灾害调查技术要求
- 驾照换证考试题库及答案
- 医药物流仓库管理流程标准
- 英语介绍端午节课件
- 先兆流产课件
- 2025年上海市新能源光伏组件中试车间智能化生产可行性研究报告
- 矿山节能管理办法
- 2025至2030鸡汁行业风险投资态势及投融资策略指引报告
- 水手考试题库及答案
- 手足外科护理常规
- 2025年安全生产考试题库(安全知识)安全培训课程试题
- 光电成像原理与技术课件
评论
0/150
提交评论