【FFA 2026】Agentic Lake 1 从准实时入湖到多模态检索 Flink + Paimon + X 的湖仓新范式_第1页
【FFA 2026】Agentic Lake 1 从准实时入湖到多模态检索 Flink + Paimon + X 的湖仓新范式_第2页
【FFA 2026】Agentic Lake 1 从准实时入湖到多模态检索 Flink + Paimon + X 的湖仓新范式_第3页
【FFA 2026】Agentic Lake 1 从准实时入湖到多模态检索 Flink + Paimon + X 的湖仓新范式_第4页
【FFA 2026】Agentic Lake 1 从准实时入湖到多模态检索 Flink + Paimon + X 的湖仓新范式_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多模态检索多模态实战多模态检索多模态实战多模态原理多模态原理为什么要多模态数据入湖?存储列分离需要多模态数据存储列分离需要多模态数据全局索引体系多模态数据大小严重不均读写链路统一困难数据生命周期需要手工维护Paimon多模态原理新增特征值列困难数据召回效率低Paimon多模态原理第一步:建立多模态湖表的统一坐标系ManifestSnapshotManifestManifestSnapshotManifestDataFileRowOffsetrow_id=1024核心作用:把多模态对象、结构化字段、索引结果,全部落回到同一套RowID坐标。数据的“身份证”•每条数据都有唯一RowID•可从元数据层快速索引•全局单调递增写入时由committer分Paimon多模态原理blob-11000–1029row_id1000–1099col_acol_bdescriptorDescriptorblob-11000–1029row_id1000–1099col_acol_bdescriptorDescriptorlocation+offset+lengthblob-21030–1069blob-31070–1099多模态数据的四个特点•平均对象更大:图片/音频/视频•读写需要Lazy,避免内存放大•通常不希望频繁参与compaction核心原则:普通列优先快读,Blob按需触达不使用普通文件内部存Blob对象地址的方式关联,index.blobParquet文件层Catalog治理层SnapshotTimeTravelTagMetadataEmbeddingFeature一张统一的多模态Lakehouse表Auditlog版本层行语义层索引层BTreeTantivyFullText2演进关键:4个核心机制DataEvolutionGlobalIndexBlobDescriptor数据统一存储,治理统一收敛Spark分析Ray/PyTorch特征工程/训练加速向量检索/index.blobParquet文件层Catalog治理层SnapshotTimeTravelTagMetadataEmbeddingFeature一张统一的多模态Lakehouse表Auditlog版本层行语义层索引层BTreeTantivyFullText2演进关键:4个核心机制DataEvolutionGlobalIndexBlobDescriptor数据统一存储,治理统一收敛Spark分析Ray/PyTorch特征工程/训练加速向量检索/混合检索报表/看板/自助分析统一存储多引擎驱动VectorIndex重复治理VectorDB血缘割裂MetadataTable跨库join难InferenceServiceSyncJobsspecialtystorepermodality—业界点名反模式重复治理VectorDB血缘割裂MetadataTable跨库join难InferenceServiceSyncJobs流式写入/实时入湖多模态检索让湖表里的多模态数据可被语义召回主讲:景丽宁多模态实战电商文搜图:表内HybridSearch链路在线检索:在线检索:Top5商品图BTree+Lumina一次复合查询PyTorch训练data=paimon_table.scan(columns=['image','embedding','label'],filter="category='女装'ANDcolor='红色'").to_torch()Spark/StarRocks分析搜索转化、失败召回、样本质量imageencodertextencoderproduct_idpriceimageembeddingPaimon商品表Paimon商品表搜索转化分析失败召回分析样本质量评估BtreeBTree-Lumina搜索服务解析过滤条件price>=100price<=200用户输入“红色连衣裙”商品库。。关键路径Tantivy全文倒排检索02语义补全建议Lumina向量检索召回关键路径Tantivy全文倒排检索02语义补全建议Lumina向量检索召回ReciprocalRankFusionPaimonappend表,我想给一行数据的不同列在不同时间分别写入,Paimon支持吗?rrf_fuse(rt,rl)HybridSearch#①Tantivy全文table.new_full_text_search_builder().with_query_text(q1).execute_local()#②Lumina向量table.new_vector_search_builder().with_query_vector(q2).execute_local()RetrievalLumina+TantivyLumina+ResultPreview(Top3)精确命中0.982 #2data-evolutionPaimon1.x支持一行数据不同0.924#3rowtracking#3rowtracking0.901完整覆盖精准可靠完整覆盖精准可靠关键路径Tantivy全文倒排检索02语义补全建议Lumina向量检索召回关键路径Tantivy全文倒排检索02语义补全建议Lumina向量检索召回ReciprocalRankFusionPaimonappend表,我想给一行数据的不同列在不同时间分别写入,Paimon支持吗?rrf_fuse(rt,rl)HybridSearch#①Tantivy全文table.new_full_text_search_builder().with_query_text(q1).execute_local()#②Lumina向量table.new_vector_search_builder().with_query_vector(q2).execute_local()RetrievalLumina+TantivyLumina+ResultPreview(Top3)精确命中0.982 #2data-evolutionPaimon1.x支持一行数据不同0.924#3rowtracking#3rowtracking0.901完整覆盖精准可靠完整覆盖精准可靠01Paimon01Paimonraw_datarow_idblob_typeblob1001imageBLOB1002videoBLOB1003docBLOBPaimonLakehouse02Ray/Daft批处理splitplanning·projection·filtermap_batches解码/切块/抽帧RayDaftBatchProcessing/Planning03GPUembedding批量生成embedding/label/scoreRayGPUActors/InferencePool04PaimonraymergeintoFeatureTable(宽表/多模态)row_idembeddinglabelscore...1002[0.3,...]dress0.87...1003[0.2,...]doc0.76...TrainDataset/DataLoadertrain_samples:media+label+featureTag固定版本同一批样本可回放、可对比、可复用特征选择/消融实验特征选择/消融实验BatchInference离线大规模推理特征再计算/批量打分BLOBlabelembeddingscoremetadatasplit向量检索/召回语义搜索·上下文增强v3(latest)v2v1TrainableDatasetSplitPlanningtrain/val/testmap_batches(Decode/Chunk/Sample)train_samplesProjection&Filter01Paimon01Paimonraw_datarow_idblob_typeblob1001imageBLOB1002videoBLOB1003docBLOBPaimonLakehouse02Ray/Daft批处理splitplanning·projection·filtermap_batches解码/切块/抽帧RayDaftBatchProcessing/Planning03GPUembedding批量生成embedding/label/scoreRayGPUActors/InferencePool04PaimonraymergeintoFeatureTable(宽表/多模态)row_idembeddinglabelscore...1002[0.3,...]dress0.87...1003[0.2,...]doc0.76...TrainDataset/DataLoadertrain_samples:media+label+featureTag固定版本同一批样本可回放、可对比、可复用特征选择/消融实验特征选择/消融实验BatchInference离线大规模推理特征再计算/批量打分BLOBlabelembeddingscoremetadatasplit向量检索/召回语义搜索·上下文增强v3(latest)v2v1TrainableDatasetSplitPlanningtrain/val/testmap_batches(Decode/Chunk/Sample)train_samplesProjection&Filter混存耦合BLOB混存耦合BLOB/列/metadata字节级捆绑重写AI场景不是稀疏行更新,而是所有行只改一个向量列共聚演化结构化字段图片/视频Embedding03增量构建+自动合并04标量预过滤+向量召回多模态统一湖表元数据/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论