Flink Forward Asia 2025 城市巡回深圳站_第1页
Flink Forward Asia 2025 城市巡回深圳站_第2页
Flink Forward Asia 2025 城市巡回深圳站_第3页
Flink Forward Asia 2025 城市巡回深圳站_第4页
Flink Forward Asia 2025 城市巡回深圳站_第5页
已阅读5页,还剩228页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向分析型场景设计的实时流存储流行存 行存Postgre表StreamingWritesookupJoinApacheFluss核心应用场景湖流一体实时数仓湖流一体实时数仓实时宽表构建新范式流式查询下推流式更新CDC订阅实时宽表构建新范式流式查询下推流式更新CDC订阅ADSODSDWSCDC订阅流式DWDCDC订阅流式更新实时数仓分层化MergeEngine合并机制Fluss+Paimon实时湖仓底座:湖流一体湖流融合的业界趋势..为什么不是Tableflow?Tableflow:流式入湖Fluss:湖流一体不支持更新业务场景矛盾无不支持更新业务场景矛盾无SchemaFluss/Paimon/Kafka数据概念对比列存列存行存Fluss数据概念与湖仓完全对齐,无缝融合Kafka与湖仓系统割裂湖流同步/湖流一体开启方式对比ConfluentTableflow:繁琐的YAML配置和字段映射Fluss:一行SQL•FromTopics->Tables•Schemaasfirst-classci8zen•DataformatfromAvro→TheColumnarStreamFlussTableAparEEon=20250528FlussTableAparEEon=20250528parEEon=20250529LakeTableAparEEon=20250528parEEon=20250529LakeTableB湖流一体:实时湖仓数据底座LakehouseAnaly=csQueryEnginesLambda架构湖流一体架构•Fluss只需维护超短周期实时数据,大幅降低成本(7day->6hour)•流批存储统一,一份视图,提升开发效率{offset:xx}{offset:xx}秒级新鲜度+(Jark,30)+fime分钟级新鲜度*后续UnionRead将原生支持DeletionVector模式湖流一体优势(4):湖仓分层新鲜度不受层级影响Paimon湖仓架构Fluss+Paimon湖流一体架构3分钟3分钟秒级延迟3分钟•Paimon新鲜度依赖FlinkCheckpoint,级联作业可导致新鲜度累加•Fluss实时入湖与Checkpoint解耦,可稳定保证湖仓分层新鲜度PaimonChangelog-ProducerFluss+PaimonMaterializeGenerateChangelogs湖流一体优势(6):湖仓数据的实时接入层*****FlussStorage••••高性能实时数据接入层轻客户端、多语言简化湖仓数据接入秒级流式数仓秒级流式数仓表查询等能力,结合Flink搭建分层的秒级流式数仓流式列裁剪流存储,支持流读列裁剪,大幅降低io成本,实现10倍性能提升实时宽表拼接色能力,高效实现双流Join、宽表拼接的场景StarRocks流读流写StarRocks流读流写CDC订阅实时更新扩容缩容自动升级权限安全实时点查同城容灾TabletTabletTabletTabletCoordinatorCoordinatorTabletTabletTabletTabletTabletTabletCoordinatorCoordinatorTabletTablet湖流一体冷热分层冷存储OSS数据湖存储/product/flink/flussODSODS实时更新/秒实时更新/秒实时更新/秒自动入湖自动入湖自动入湖自动入湖自动入湖离线回刷/天离线回刷/天成本低据,大幅降低实时成本成本低据,大幅降低实时成本务,文件级高效数据转换效率高一套存储方案,满足实时离线需求一体化实时、近线、离线一体化,统一表视图DLF:智能全模态湖仓管理平台面向AI时代构建全模态数据统一存储、管控、开放平台多引擎平权数据计算DLF智能全模态湖仓管理安全管控开放SDK/REST安全管控开放SDK/RESTFile:Parquet等File:Parquet等IcebergVirtualFileSystem生命周期管理智能存储优化自动冷热分层存储管理与优化数据一键入湖存储,支持存储自适应compaction,自适应分元数据管理与开放企业级安全与管控多引擎计算与加速查询引擎元数据统一更高性能THANKYOU谢谢观看THANKYOU谢谢观看服务业务淘天集团国际数据商业云智能集团菜鸟大文娱……AB实验采集&分析采集AI服务业务淘天集团国际数据商业云智能集团菜鸟大文娱……AB实验采集&分析采集AI采集产品A+采集分析产品为阿品查询加速用户行为分析引擎湖流一体OLAP引擎StarRocks公共层OLAP引擎StarRocks公共层业务数据处理全量行为表设备累计表全量行为表设备累计表采集SDK采集基础设施收数服务Fluss数据通道集群落地与稳集群落地与稳定性业务实践与收益未来规划机遇和挑战未来规划一份手淘TT流量数据一份手淘TT流量数据手淘首页业务手淘闪购业务手淘搜索业务首页搜索其他~~首页搜索其他~~首页首页首页搜索搜索其他其他~~首页搜索其他~~搜索实际收费:3*「完整数据」费用+3*「Flink作业」费用 Fluss:多级分区、过滤下推、列式存储(消费部分字段)降低读取数据量、降低读取字段、降低FlinkCU消耗湖流割裂双11落地情况集群部署稳定性建设湖流一体阿里集团内淘天(含通天塔、阿里妈妈等)、集团数据公共层、饿了么、淘宝闪购、高德、阿里影业等多个业务已开始线上使用,核心场景主要集中在搜索、推荐、流量等。集群部署盘古盘古盘古空间1空间1空间2空间…机架感知前物理机:物理机:物理机:集群部署-机架感知[ASI三副本可能分配在同一台物理机的三个Pod上,物理机故障导致三副本数据丢失!机架感知后物理机:物理机:物理机:物理机:物理机:[]三副本规避策略,不允许分配在同机房-同机架-同物理机上,即使一台物理机故障三副本规避策略,不允许分配在同机房-同机架-同物理机上,即使一台物理机故障,仍有两副本工作ASI集群部署-监控体系稳定性建设-RebalanceFeatur…稳定性建设-表扩缩容ClientCoordinatorZookeeperALTERTABLE计算新增bucketTableAssignment通知TabletServer新增BucketReplica稳定性建设-无感升级待下线TabletServer待下线TabletServerCoordinator上线新上线新LeaderControlledShutdownRequestcontrolledShutDown1controlledShutDown1重选Leader2下线Follower关闭Replica关闭Replica关闭其他资源3下线FollowerFlussTabletServer无感升级:对业务正在运行的作业没有明显影响,读写延迟波动小于1minControlledShutdown:支持升级过程中优雅切换Leader:容器收到升级命令后,先优雅迁移自身的BucketLeader,然后再进行关闭,保证Leader持续在线。支持灰度升级/滚动升级•支持原地升级:升级镜像或者修改配置时,不需要kill和重建pod,只需要kill容器并秒级拉起稳定性建设-CoordinatorHA稳定性建设-上线前故障演练计划主标题主标题l随机宕机l反复切换leaderl大量建表和分区l随机宕机lRemote存储堆积lBuckect的Replica宕机l读写流量压测l一致性测试l冷数据,追数据延迟湖流一体1.1创建Fluss数据库FlussManagerFlussManager2.1创建湖流一体表(需数据库owner授权)3.1使用生产账号读数据2.1创建湖流一体表(需数据库owner授权)3.1使用生产账号读数据2.2通过可信账号+表owner创建2.2通过可信账号+表owner创建Paimon表ALake3.2使用生产账号写数据TieringService40000案例-淘宝数据平台原架构新架构新架构核心收益•降低实时数据使用门槛,搭建面向业务团队的数仓•替代行式消息队列,降低成本40%以上•通过Fluss+Paimon搭建的湖仓系统支持流批一体的开发模式,降低开发运维成本•基于列更新特性,离线和实时数据更新回刷成本大大降低案例-淘宝闪购场景用于淘宝闪购流量采集实时加工链路以及流量监控场景将流量实时DWD公共层写入Fluss,通过Fluss的TieringService,持久化到湖仓存储Paimon中,既保障了实时的时效性,又能及时提供OLAP分析。灰度监控产出效率上,新的架构真正实现了实时监控,产出效率远远高于上一个版本的物化视图定时调度。案例-AB实验分析平台-通天塔场景通天塔是目前淘天集团的AB实验分析平台,主要专注于淘天内C端算法的AB数据,期望能用通天塔的AB数据能力建设,来促进科学决策活动•行式流存储不支持列裁剪,整行消费,资源消耗高,以曝光表为例44个字段,平台仅需13个字段•数据探查困难,随机抽样难以定位,导入MaxCompute查询延迟高、成本高作业不稳定,Checkpoint超时,重启恢复慢•Fluss列裁剪能力,减少Flink算子消耗,同时降低无用列的IO流量读FlussCPU占用减少59%,内•数据落地Paimon,通过StarRocks高效查询DeltaJoin,解耦作业与状态,修改作业不需要重跑State,并将状态数据可查,提高灵活性案例-A+采集分析场景全链路成本降低约70%丰富数据分析未来规划更高的性能扩大服务规模湖流一体全面推进更高的性能扩大服务规模构建业界领先的Agent采集与评测一体化平台,用于支撑AIAgent在代码、电商、数据、内需要多端SDK研发、评测平THANKYOU谢谢观看AIFunc(on支持在SQL流处理中直接调用大语言模型服务实时流智能分析AI_Translate实时翻译translated_text,detected_language'translator',originalAI_Classify智能分类Vector_Search向量搜索AI_Image_Classify图像分类AI_Image_Classify图像分类'oss-smq://img-bucket/img-AI_Transcribe语音转录'hls:///stream.m3u);'oss-smq://audio-AI问答应用的实时数据向量化构建AI大语言模型EmbeddingModel向量数据库Cha1ng/Reasoning近似检索基于向量索引的实时数据增强数据仓库数据仓库结构化数据非结构化数据实时数据向量检索流读流写实时更新部分列更新列式裁剪查询下推Fluss湖流一体存储远程存储Fluss湖流一体存储远程存储(S3/OSS/HDFS)数据分层服务数据湖存储(Paimon/Iceberg)交互对话型交互对话型AIAgents事件驱动型AI事件驱动型AIAgentsAnopen-sourceframeworkforbuildingevent-drivenstreamingagentsApacheFlink社区推出的全新开源子项目,是一个用于构建事件驱动型智能体的开源框架AgentAc)onAgentAc)onclassMyAgent(Agent):)AlreadyRelease!首个预览版0.1.0已正式发布欢迎体验/apache/flink-agents文档/downloads/#apache-flink-agents/flink/flink-agents-docs-release-0.1/THANKYOU谢谢观看AgentAc'on )ChatModelConnec'onChatModelConnec'onAnthropic,Ollama,OpenAI,Tongyi)Func'onFunc'on)model="nomic-embed-text”)Connec'onSetupOllama,OpenAI))Connec'onSetupVectorStoreOllama,OpenAI))))THANKYOU谢谢观看多场景赋能运维多场景赋能运维与优化未来展望单日万亿级流量入湖数据时效从2小时降低到10分钟规避大state计算;结合流式延迟读,局部列更新样本加速场景(1000w/min)时效从2h提升漏斗模型全链路30min级精细化监控,解决离线时效性过低问题,结合paimon局部列更新,以及merge-engine能力助力算法定位推荐系统问题、指导策略优化方向、辅助问题发现与预警。从秒级降低到分钟级别,但是计算资源成本下降50%行权平台行权接口湖表管理行权平台行权接口湖表管理模块管理提升为分钟级m中基于tag能力的拉链表,替代hive分区方案,存储降低9•基于branch能力的特征变更场景优化优化•进一步提升数据时效性THANKYOU谢谢观看解决方案未解决方案未来展望核心策略业务诉求与核心痛点核心痛点1.ADS应用数据层痛点:2.DIM维表层痛点:•实时维表需同时维护离线数仓快照和在线KV存储(双核心策略核心能力描述开放性与存算分离开放性能对接各种优秀OLAP引擎,消除数据同步链路。统一权限管理,支持跨团队低成本共享StarRocks引擎优势高效执行计划、向量化算子、文件IO优化、湖上缓存等,性能优于其他OLAP引擎流批一体存储通过分支机制隔离实时与离线数据,保障数据一致性存储成本优化利用HDFS低成本存储,实现“以存储换计算”策略解决方案传统预计算ADS痛点ADS层重构:三种计算模式完全预计算(传统架构)完全OLAPPaimon的低成本存储(较OLAP引擎内表成本下降80%使RoaringBitmap这种存储换计算的解法成为可能利用Paimon分支灵活适应流批数据1.数据漂移,导致实时任务错误覆盖历史数据2.需要切表才能无感修复ads实时数据ADS层使用Paimon分支表进行构建。流批表可设置不同参数,适配不同的查询,写入场景。应用层建表核心参数项目价值DIM层传统架构痛点Bucket机制优化加载:解决Flink离线大维表关联慢问题•核心原理:Paimon维表的Bucket-Key与Flink作业的JoinKey保持一致(哈希算法一致)。分布式秒级加载:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论