版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
余豪携程资深开发工程师实时湖仓建设生产实实时湖仓建设时效性和成本的矛盾数据链路尽量统一,兼顾时效成本时效性和成本的矛盾数据链路尽量统一,兼顾时效成本实时链路和离线链路割裂矛盾实时链路和离线链路割裂矛盾治理形成闭环业务敏捷性和平台复杂性的矛盾而不是只在少数样板链路业务敏捷性和平台复杂性的矛盾而不是只在少数样板链路保护性约束MySQL连接数限制,最大约40MySQL集群存在混合部署两阶段CDC方案共享Source:统一读取Binlog,满足上游约束独立Sink:下游任务按需配置与演进支持全增量一体、纯增量等模式原始瓶颈hello单线程反序列化hello算子chain在一起实际只有一个线程工作性能优化增加埋点分析根据db.table.primarykey来进行hash分发同步性能大幅提升核心诉求涉及原则尽量减少故障发生,但是不能假设故障不发生hello基于主键表的幂等写入,在补数完成后自动切回到增量支持时间戳补数,故障后能快速恢复模式。特殊的业务逻辑,支持用户自定义SQL进行条件补数动态补数参数要做到Checkpoint兼容稳定性增强hello支持动态热更新表名减少任务重启和抖动KafkaTopic分流缓解热点流量问题FlinkHybridSource快速支持特殊条件的补数(用户自定义sql)FlinkCDCtimestamp模式下支持strictly模式全量阶段schema数据优化(全量不同步schemaPaimonschema缓存优化helloFlink持续消费增量数据Spark/Trino逐步打通Paimo生产实践统计日期窗口错位,数据更新标识错位数据产生的时间不匹配工作时间业务B离线看板与营销侧对数据时效性有更高要求供应商异常处理批量退款海外营销策略的调整用习惯字段来自7张MySQL表,实时多流Join实现难度和成本较大、稳定性挑战较大点击日志每日增量多,数据表膨胀速度较快端到端时延在8分钟以内,满足用户需求平台智能化建设4400+4400+4700+4700+使用资源(vCore)度过快日常值班排查问题比较多,用户排查问题比较困难,值班人员排查耗时通过对话,可以完成一些基本的模型创建和SQL创建和版本生成,上线前智能审批首次上线可以根据作业流量推荐并行度,再次上线可以根据作业画像应用生成的并行度、内存等参数Agent会进行巡检,对于一些明显不合理的参数,会callowner推荐作业配置进行修正作业画像基于社区FlinkKubernetesOperator改造将作业推荐参数持久化至StarRocks非高优作业支持按需接入自动扩缩容规划全量推广,覆盖所有非高优作业诊断数据维度Flink作业参数及配置异常日志监控指标线程堆栈存在问题参数配置不规范,稳定性误判Compact策略缺失小文件激增,NameNode压力持续攀升小文件积压,制约表迁移与资源调度AIAgent巡检按周全量巡检,识别异常并通知责任人提供参数优化建议,辅助完成治理累计减少小文件超2亿个总结和未来展望4.总结和未来展望积极推进自动扩缩容能力的普及,扩大作业的应用覆盖范围,提升资源利用效率与系统弹性稳步推进Flink引擎版本的迭代升级,加速新版本在业务场景中的适配与应用,持续释放引擎能力红利加大AIAgent技术的推广力度,逐步构建以Agent为核心的服务调用体系,探索智能化运维与业务自动化的更多可能从数据湖到多模态湖仓:基于AI时代的统一分析检索架构StarRocks社区TSC、阿里云开源在AI时代,面向AI-Ready的数据基建需要多方面重塑云原生基建的重塑云原生基建的重塑数据湖Lakehouse:将多模数据存储到低成本业务与AIWorkload隔离:提供Compaction/ETLService、读实例负载弹性等平台能力,保障业务稳定业务查询范式的重塑混合检索:标量过滤+向量ANN+全文低延迟交互:数据可能被人访问、也可能被Agent调用,对查询P99及SLA提出更高要求询历史给出最优建议数据模态的重塑以结构化表为主→多模态一体建模等多模数据,高效建立存储与向量索引分析半结构化(JSON/VariantAgent爆发,对日志埋点、数据湖、异构Schema查询加速文本与对象:日志、文档、Blob数据路径及全文等支撑,混合检索全面激活数据即席查询实时湖仓AIAIAgentAIMemory应用场景即席查询实时湖仓AIAIAgentAIMemory应用场景统一引擎StarRocks内表统一存储文档解析数据接入非结构化外部知识源数据源统一引擎StarRocks内表统一存储文档解析数据接入非结构化外部知识源数据源StarRocks多模态分析—全文/向量/标量/OLAP混合检索分析存储层检索层存储层检索层数据源Flink/SparkKafkaStarRocks内表多模态湖表全文检索(BM25)标量过滤(Filter)混合检索全文检索应用Agent混合检索算法混合检索向量检索全文检索混合检索向量检索全文检索•支持自定义召回权重以及自定义Reranker•适用场景:智能驾驶训练数据准备/RAG知识问答增强/电商商品精准搜索/语义+关键词混合检索•自研带有标签过滤的FilteredANN算法索/图片&文本多模态检索•支持BM25排序••支持BM25排序•支持倒排索引&智能分词•适用场景:日志存储/智能分析/文本匹配/半结构化数据过滤StarRocks多模检索整体架构存储层存储层•Search链路的设计/Pre-Filter/Post-Filter•Fragment计划生成与下发•ANN/全文/Hybrid/Rerank•本地Cache与索引加速•统一存储原始数据与检索索引•支持开放Lakehouse格式/持续更新StarRocks湖表分析检索—PaimonGlobalIndex•Compaction后不需要重新构建索引↓多个datafile建立一个indexindexmeta:row_range=[0..199,999]indexmeta:row_range=[200,000..399,999][300,000..399,999][200,000..299,999][100,000..199,999]·physicalfile··physicalfile·全文索引·physicalfile··physicalfile·[0..99,999]湖表与内表场景对比•数据量超大湖表与内表场景对比•数据量超大vs数据量中等•索引搜索vs索引+暴力混合搜索•GlobalIndexvsper-segmentIndex•内表Compaction后需要重建索引StarRocks湖表分析检索—Vector/FTSSearch框架•可以多路并行自定义Rerank潜在性能提升•回捞rowids引入行存索引•增加mergecoord节点。避免FE侧进行MergeStarRocks内表分析检索—Vector/FTSSearch框架••同步/异步构建索引•构建EnhancedVectorIndex潜在性能提升•提供全局延迟物化能力•提供短路径的Search链路索引控制StarRocks多路召回—实现框架核心场景核心场景•智能驾驶数据集挖掘•广告素材投放•…核心优势核心优势•不用搬运数据,StarRocks内部完成全工作负载•为多路召回场景做系统级优化StarRocks多路召回—Fusion示例查询「雨夜机动车加塞」:关键字'雨夜加塞'+一段典型雨夜加塞场景的向量StarRocksAIFunction—无=集成大模型StarRocks多模态案例—阿里集团AIData场景接入层业务背景接入层•AIData平台目标场景:-大模型训练数据准备多模处理(AIFunction)多模混合检索(OLAP/向量/多模处理(AIFunction)多模混合检索(OLAP/向量/全文)标量/全文通道本文列Json列标量标签列+全文索引ChunkingEmbedding结构化抽取标量/全文通道本文列Json列标量标签列+全文索引ChunkingEmbedding结构化抽取湖内原始多模态对象Blob/文本/Variant•
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年辽宁省锦州市中小学编制教师招聘考试模拟试题及答案详解
- 25新冀教版二年级上册数学《期末名校真题卷2套》(含答案)
- 2026年贵阳市白云区中小学编制教师招聘笔试模拟试题及答案详解
- 2026年涪陵区事业编单位人员招聘笔试备考题库及答案详解
- 2026年贵州省毕节市中小学编制教师招聘考试备考题库及答案详解
- 2026年郑州市中原区中小学编制教师招聘笔试备考题库及答案详解
- 2026年黄冈市黄州区中小学编制教师招聘笔试模拟试题及答案详解
- 2026年南宁市邕宁区中小学编制教师招聘考试备考题库及答案详解
- 2026年汕头市潮南区中小学编制教师招聘考试备考题库及答案详解
- 2026年北京市平谷区中小学编制教师招聘考试备考试题及答案详解
- 2026年中级会计职称模拟试题及答案
- 2026年河南大学统计考试试题及答案及答案
- 2026年应急管理普法知识竞赛备考题附答案
- 青海省门源县扎麻图金矿详查项目水土保持方案报告表
- 2025年中级会计职称中级会计实务考试试题及答案完整版
- 建筑外墙立面清洗方案
- 2026年人教版高二第二学期语文期末升学备考测评试卷(附答案可下载)
- 5类人员进班子考试题及答案(黑龙江省2026年)
- 中国中暑临床诊疗与急救指南(2025版)
- 2026年全国医师定期考核试题库及答案-人文医学部分
- 2026年中国商业航天行业深度分析报告
评论
0/150
提交评论