从统一数据治理到下一代企业级+Data+Agent+的实践与创新_第1页
从统一数据治理到下一代企业级+Data+Agent+的实践与创新_第2页
从统一数据治理到下一代企业级+Data+Agent+的实践与创新_第3页
从统一数据治理到下一代企业级+Data+Agent+的实践与创新_第4页
从统一数据治理到下一代企业级+Data+Agent+的实践与创新_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

......2018年的33ZB,增长到2025年的175ZB。Q数据贯穿于AI应用的整个链路数据治理–AI应用中不可或缺的部分https://www.llamaindex.ai/blog/introducing-llamacloud-and-llamaparse-af8cedf9006b•GDPR、CCPA等要求CONFLUENTCONFLUENT"----------h、---------"新业务和LLM需要一种统一的方式来访问所有数据。Technical&BusinessDataConnecttotheDataThatMattersMost.ConnecttotheDataThatMattersMost.Automaticallyfind,classify,andmapallofyourdata-everywhere.allofyourdata-everywhere.Automateend-to-enddatarightsrequestsandreporting.Automateend-to-enddatarightsrequestsandreporting.Enrichtechnicalmetadatawithbusinessandoperationalmetadataforfullvisibility.AutomaticallyclassifymoretypesofdatainAutomaticallyclassifymoretypesofdatainmoreplaces.IPDataSimplifyandautomatedatalifecyclemanagementfromcollectiontodestruction.DataScience/AIScience/AIStreamingAnalyticsWarehouseBusinessIntelligenDataOrchestrationDataOrchestrationAAB组织壁垒技术壁垒安全壁垒管理壁垒trino乡stor数据智能调优统一权限管控统一数据管控面,旨在帮助用户快速构建和管理湖仓架构,实现全方位湖仓管理数据智能调优统一权限管控统一数据/元数据管理视图从元数据层面上达到SSOT↓频等Metastore数据仓库实时消息数据湖Next-GenDataCatalogistheCoreinNewOpenDataArchitecture/ Tabulardata…}….}Non-tabulardata…}….}TechnologyTechnologyCommunicationCommunicationDataDataternetofternetofthingsAutomatioAutomationNetworkingNetworkingDataDataEngineerDataIngestionDataIngestionSparkSparkHDFSHDFSClientS3S3SDKutomatioutomationCopyCopyStructuredUnstructuredTraining/Checkpoint/Training/Checkpoint/Metrics/ModelData统一元数据治理前统一元数据治理后数据导出容易造成信息泄漏;数据使用无法跟踪统一数据查找和访问;统一安全模型和数据访问DataScientistAIEngineerDataScientistAIEngineerTechnologyDataEngineerDataIngestionTensorflowCommunicationSparkTensorflowPytorchPytorchHDFSClientETLETLDataS3SDKternetofthingsGravitino!WriteDataReadDataAWriteDataGravitinoACLUnifiedAccessControlGravitinoDatasetUnstructuredDataScientistAIEngineerDataScientistAIEngineerTechnologyDataEngineerDataIngestionTensorflowCommunicationSparkTensorflowPytorchPytorchHDFSClientETLETLDataS3SDKternetofthingsGravitino!WriteDataReadDataAWriteDataGravitinoACLUnifiedAccessControlGravitinoDatasetUnstructuredDataUnstructuredDataStructuredDataDataDataNetworking生成式大语言模型(LLM)的功能相结合。由决策引擎选择RAG方法;使用多种数据源/知识库结合关键字和语义检索的结果;检索前后进行一定预处理;基于向量的检索;易于实现,有限的数据,缺少对查询和结果进行校验KB等)•框架(LangChain,LlamaIndex•基础模型/Embedding模型•不能提供针对某个用户的准确信息在Retrieval前:在Retrieval前:-TextToSQL(或其它查询语法)-改写问题(通过LLM)-对查询结果进行re-ranking--提供更多的上下文信息和一定的推理??更进一步,在Retrieval前进行查询路由:-在不同KB之间选择-在不同retrieve方式之间选择-使用LLM判断在RAG框架中为每个数据库、每种数据源开发连接器/reader、获取其描述信息、获得prompt模版、进行NL2SQL/QL、查询数据、输入给LLMn每个数据源/存储都需流程打通、产品打通非结构化数据非结构化数据资产地图与资产治理传统机器学习大模型预训练/微调支持设置TTL与TTV数据处理流程A流程数据加工spark/Flink数据分析OLAP数据探查数据加工spark/Flink数据分析OLAP数据探查Notebook模型训练LLM模型部署数据集成集成引擎根据血缘推荐TTL、TTV管理前降本40%管理后!降本40%管理后特征分析特征分析pytorchpandas模型训练pytorchpandas模型训练模型部署提取特征sparkModel数据落仓模型部署提取特征sparkModel数据落仓TaloslcebergFileset模型校验TaloslcebergFileset模型校验数据分析数据分析python微调/预训练Dockersparkpython用户问答语料数据选取微调数据微调/预训练Dockersparkpython用户问答语料数据选取微调数据FilesetlcebergHive/lceberglcebergpythonpython部署/在线推理校验/离线推理Docker测试数据部署/在线推理校验/离线推理Docker测试数据Fileset实践2:某互联网社交平台业务侧耦合度高:元数据使用方调用异构数据源方式多种多样数据治理能力有限:无法提供统一的审计、权限管理、TTL能力半结构化/非结构化数据源缺乏管理跨源数据Schema维护成本高OneMeta:集成Gravitino提供定制化接口:dropPartitiosByFilter/loadFileDetail/loadFiles......提供定制化catalog实现:BiliIcebergCatalog/BiliKafkaCatalog/BiliDatabusCatalog......降低代码的侵入性,便于同步社区最新代码解耦业务方复杂依赖,降低元数据使用成本解决由于引擎间差异、数据源差异造成的元数据不一致问题解决由于HiveMetaStore造成的性能瓶颈Fileset文件治理主要流程:1.数据治理平台制定治理策略TTL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论