版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向分析型场景设计的实时流存储流列存列存Postgre表StreamingWritesReal-TimeUpdatesStreamingWritesReal-TimeUpdatesApacheFluss核心应用场景实时数仓湖流一体实时数仓DWSCDC订阅流式更新流式更新ADS02CDC订阅CDC订阅DWSCDC订阅流式更新流式更新ADS02CDC订阅CDC订阅流式更新DWDODS实时数仓分层化03实时宽表构建新范式04MergeEngine合并机制01流式查询下推01Fluss+Paimon实时湖仓底座:湖流一体Freshdatainreal-timeFreshdatainreal-timeStreamingWrites湖流融合的业界趋势为什么不是Tableflow?Tableflow:流式入湖Fluss:湖流一体不支持更新业务场景矛盾无Schema不支持更新业务场景矛盾无SchemaFluss/Paimon/Kafka数据概念对比ParFFon列存列存行存Fluss数据概念与湖仓完全对齐,无缝融合Kafka与湖仓系统割裂湖流同步/湖流一体开启方式对比ConfluentTableflow:繁琐的YAML配置和字段映射想象一下上百个想象一下上百个Topic,每个Topic有上百列•Schemaasfirst-classci8zen•DataformatfromAvro→TheColumnarStreamFlussTableAparEEon=20250528parEEonFlussTableAparEEon=20250528parEEon=20250529FlussTableBLakeTableAparEEon=20250528parEEon=20250529LakeTableBLambda架构湖流一体架构存7存7存7存7存7天天天天天•Fluss只需维护超短周期实时数据,大幅降低成本(7day->6hour)•流批存储统一,一份视图,提升开发效率实时数据历史数据历史数据秒级新鲜度=me分钟级新鲜度*后续UnionRead将原生支持DeletionVector模式Paimon湖仓架构Fluss+Paimon湖流一体架构3分钟3分钟3分钟3分钟•Paimon新鲜度依赖FlinkCheckpoint,级联作业可导致新鲜度累加•Fluss实时入湖与Checkpoint解耦,可稳定保证湖仓分层新鲜度PaimonChangelog-ProducerFluss+Paimon湖流一体架构FlussServerRecover&Recover&MaterializeChangelogs*****FlussStorage•高性能实时数据接入层•轻客户端、多语言•简化湖仓数据接入•写缓冲,削峰填谷表查询等能力,表查询等能力,结合Flink搭建分层的场景/product/flink/flussODSDWD离线回刷/天离线面向AI时代构建全模态数据统一存储、管控、开放平台数据一键入湖存储,支持存储自适应compaction,自适应分查询引擎元数据统一更高性能//apache/flussTHANKYOUTHANKYOU淘天集团国际数据商业云智能集团菜鸟淘天集团国际数据商业云智能集团菜鸟查询加速用户行为分析引擎湖流一体品与收益双11落地情况集群部署稳定性建设湖流一体阿里集团内淘天(含通天塔、阿里妈妈等)、集团数据公共层、饿了么、淘宝闪购、高德、阿里影业等多个业务已开始线上使用,核心场景主要集中在搜索、推荐、流量等。集群部署集群部署-机架感知][][]…ClientALTERTABLE计算新增bucket待下线待下线TabletServerFlussTabletServer无感升级:对业务正在运行的作业没有明显影响,读写延迟波动小于1minControlledShutdown:支持升级过程中优雅切换Leader:容器收到升级命令后,先优雅迁移自身的BucketLeader,然后再进行关闭,保证Leader持续在线。支持灰度升级/滚动升级•支持原地升级:升级镜像或者修改配置时,不需要kill和重建pod,只需要kill容器并秒级拉起主标题主标题l随机宕机l反复切换leaderl大量建表和分区l随机宕机lRemote存储堆积lBuckect的Replica宕机l读写流量压测l一致性测试l冷数据,追数据延迟湖流一体Native写非Native写Native写非Native写TieringService(TieringService(FlinkJob)7000600050004000300020000案例-淘宝数据平台案例-淘宝闪购场景TieringService,持久化到湖仓存储Paimon中,既保障了实时的时效性,又能及时提供OLAP分析。案例-AB实验分析平台-通天塔场景•行式流存储不支持列裁剪,整行高,以曝光表为例44个字段,平台仅需1段案例-A+采集分析场景全链路成本降低约70%丰富数据分析未来规划THANKYOUAIFunc(on支持在SQL流处理中直接调用大语言模型服务实时流ai_analyze_sentimentSELECTmessage_id,original_text,translated_text,detected_language'translator',original_text,score,label,confidence'oss-smq://img-bucket/img-'oss-smq://audio-'zh'));SELECTstream_id,frame_analysis,'hls:///stream.m3u);Cha1ng/Reasoning向量数据近似检索Cha1ng/Reasoning向量数据近似检索数据分层服务数据分层服务UPPER(content)ASpredict_labelFROMML_PREDICT(TABLEfluss_comments,MODELai_live_sentiment,交互对话型AI交互对话型AIAgents由用户主动触发事件驱动型AIAgents由用户主动触发事件驱动型AIAgents购买Anopen-sourceframeworkforbuildAc)onAc)on@action(InputEvent))/apache/flink-agents/downloads/#apache-flink-agents/flink/flink-agents-docs-release-0.1/THANKYOUBuildaWorkflowAgentAgentAc'onChatModelConnec'onChatModelConnec'on @@ChatModelConnec'onAnthropic,Ollama,)Func'onFunc'on Connec'onConnec'onSetupOllama,OpenAI))EmbeddingandVectoConnec'onSetupVectorStoreOllama,OpenAI) )))) THANKYOUm中THANKYOU1.ADS应用数据层痛点:•离线仓到OLAP引擎需数据搬•计算逻辑固化在ETL中,无法•Flink全量拉取离线大维表导致启动极慢(>30min)、易OOM。•实时维表需同时维护离线数仓快照和在线KV存储(双存储),运描述开放性与存算分离开放性能对接各种优秀OLAP引擎,消除数据同步链路。统—权限管理,支持跨团队低成本共享StarRocks引擎优势高效执行计划、向量化算子、文件IO优化、湖上缓存等,性能优于其他OLAP引擎流批—体存储通过分支机制隔离实时与离线数据,保障数据—致性存储成本优化利用HDFS低成本存储,实现“以存储换计算”策略传统预计算ADS痛点累计类去重指标需单独开发,计算成本显著短期累计指标(如1天)State大,导代码修改后无法从State恢复,需从0点回拉数据Paimon的低成本存储(较OLAP引擎内表成本下降80%使•流批计算场景对维表需求不—致,需同时维护离线数仓快照和在线KV存储(双存THANKYOU…稳定性共性稳定性共性m中m中 3.Trigger3.TriggerIn-placeverJcalpodscalingCloudPla=ormandStreamServicJVM内存层JVM内存层系统层•…•...•…
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大宗商品|碳酸锂:津巴布韦内阁批准禁令周内价格波动较大
- 2026年主管护师资格考试内科护理练习题及答案
- 2026年高考化学新高考二卷试题+解析
- 公司年终资料员工发言稿10篇
- 2026年湖南永州市中小学教师招聘考试题库含答案
- 2026年保密教育测试真题试卷及答案
- 2026年安徽省高职单招英语题库及答案
- 高中地理 4.3传统工业区与新工业区教学设计 新人教版必修2
- 人教版六年级下册第15课 我国古代建筑艺术教学设计及反思
- 第六课 我国国家机构教学设计初中道德与法治八年级下册统编版(五四学制)
- (高清版)DZT 0214-2020 矿产地质勘查规范 铜、铅、锌、银、镍、钼
- 有关锂离子电池安全的基础研究课件
- 人工智能与计算机视觉
- 口腔材料学课件
- 盐酸凯普拉生片-临床用药解读
- 中建综合支架专项施工方案
- 医院财务制度专家讲座
- 2023年北京市中国互联网投资基金管理有限公司招聘笔试题库含答案解析
- 中控ECS-700学习课件
- 2023年上海市杨浦区中考一模(暨上学期期末)语文试题(含答案解析)
- 甲状腺病变的CT诊断
评论
0/150
提交评论