【FFA 2026】Agentic Lake 1 从数据湖到多模态湖仓:基于 StarRocks 与 Paimon 构建AI 时代的统一分析检索架构_第1页
【FFA 2026】Agentic Lake 1 从数据湖到多模态湖仓:基于 StarRocks 与 Paimon 构建AI 时代的统一分析检索架构_第2页
【FFA 2026】Agentic Lake 1 从数据湖到多模态湖仓:基于 StarRocks 与 Paimon 构建AI 时代的统一分析检索架构_第3页
【FFA 2026】Agentic Lake 1 从数据湖到多模态湖仓:基于 StarRocks 与 Paimon 构建AI 时代的统一分析检索架构_第4页
【FFA 2026】Agentic Lake 1 从数据湖到多模态湖仓:基于 StarRocks 与 Paimon 构建AI 时代的统一分析检索架构_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从数据湖到多模态湖仓:基于AI时代的统一分析检索架构StarRocks社区TSC、阿里云开源在AI时代,面向AI-Ready的数据基建需要多方面重塑云原生基建的重塑云原生基建的重塑数据湖Lakehouse:将多模数据存储到低成本业务与AIWorkload隔离:提供Compaction/ETLService、读实例负载弹性等平台能力,保障业务稳定业务查询范式的重塑混合检索:标量过滤+向量ANN+全文低延迟交互:数据可能被人访问、也可能被Agent调用,对查询P99及SLA提出更高要求询历史给出最优建议数据模态的重塑以结构化表为主→多模态一体建模等多模数据,高效建立存储与向量索引分析半结构化(JSON/VariantAgent爆发,对日志埋点、数据湖、异构Schema查询加速文本与对象:日志、文档、Blob数据路径及全文等支撑,混合检索全面激活数据即席查询实时湖仓AIAIAgentAIMemory应用场景即席查询实时湖仓AIAIAgentAIMemory应用场景统一引擎StarRocks内表统一存储文档解析数据接入非结构化外部知识源数据源统一引擎StarRocks内表统一存储文档解析数据接入非结构化外部知识源数据源StarRocks多模态分析—全文/向量/标量/OLAP混合检索分析存储层检索层存储层检索层数据源Flink/SparkKafkaStarRocks内表多模态湖表全文检索(BM25)标量过滤(Filter)混合检索全文检索应用Agent混合检索算法混合检索向量检索全文检索混合检索向量检索全文检索•支持自定义召回权重以及自定义Reranker•适用场景:智能驾驶训练数据准备/RAG知识问答增强/电商商品精准搜索/语义+关键词混合检索•自研带有标签过滤的FilteredANN算法索/图片&文本多模态检索•支持BM25排序••支持BM25排序•支持倒排索引&智能分词•适用场景:日志存储/智能分析/文本匹配/半结构化数据过滤StarRocks多模检索整体架构存储层存储层•Search链路的设计/Pre-Filter/Post-Filter•Fragment计划生成与下发•ANN/全文/Hybrid/Rerank•本地Cache与索引加速•统一存储原始数据与检索索引•支持开放Lakehouse格式/持续更新StarRocks湖表分析检索—PaimonGlobalIndex•Compaction后不需要重新构建索引↓多个datafile建立一个indexindexmeta:row_range=[0..199,999]indexmeta:row_range=[200,000..399,999][300,000..399,999][200,000..299,999][100,000..199,999]·physicalfile··physicalfile·全文索引·physicalfile··physicalfile·[0..99,999]湖表与内表场景对比•数据量超大湖表与内表场景对比•数据量超大vs数据量中等•索引搜索vs索引+暴力混合搜索•GlobalIndexvsper-segmentIndex•内表Compaction后需要重建索引StarRocks湖表分析检索—Vector/FTSSearch框架•可以多路并行自定义Rerank潜在性能提升•回捞rowids引入行存索引•增加mergecoord节点。避免FE侧进行MergeStarRocks内表分析检索—Vector/FTSSearch框架••同步/异步构建索引•构建EnhancedVectorIndex潜在性能提升•提供全局延迟物化能力•提供短路径的Search链路索引控制StarRocks多路召回—实现框架核心场景核心场景•智能驾驶数据集挖掘•广告素材投放•…核心优势核心优势•不用搬运数据,StarRocks内部完成全工作负载•为多路召回场景做系统级优化StarRocks多路召回—Fusion示例查询「雨夜机动车加塞」:关键字'雨夜加塞'+一段典型雨夜加塞场景的向量StarRocksAIFunction—无=集成大模型StarRocks多模态案例—阿里集团AIData场景接入层业务背景接入层•AIData平台目标场景:-大模型训练数据准备多模处理(AIFunction)多模混合检索(OLAP/向量/多模处理(AIFunction)多模混合检索(OLAP/向量/全文)标量/全文通道本文列Json列标量标签列+全文索引ChunkingEmbedding结构化抽取标量/全文通道本文列Json列标量标签列+全文索引ChunkingEmbedding结构化抽取湖内原始多模态对象Blob/文本/Variant•同一套架构StarRocks+Paimon拓展AI多模场景湖内原始多模态对象Blob/文本/Variant | 业务价值•一套引擎,一套存储格式,成本对多模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论