版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
流批混部未来展望…ServerlessFlink…vn-agentvn-agent↓VirtualCluster标准化多租VirtualAPIServer轻量化多租VirtualAPIServer轻量化多租……↓↓↓agentansmagentansmflink-reserveflink-reserve-capacityflinkflink-pay-as-you-go…… …………AjobjobAjobjob …………replicas:2-ntopologySpreadConstra-labelSelector:matchLabels:/network-service-id:abcdmaxSkew:1topologyKey:topology.kubernetes.io/zonewhenUnsatisfiable:DoNotScheduleaffinity:nodeAffinity:requiredDuringSchedulingIgnoredDuri-matchExpressions:-key:topology.kubernetes.io/zoneoperator…………XXXXansmappswatchappswatchwatchwatch……pyxispyxis-managerTHANKYOUFlinkonYarnFlinkonK8sFlinkon20182023↓7.create6.createvalidate2.spec5.create...jobmanagerjobmanager2jobmanager1jobmanager1........taskmanager1....taskmanager1taskmanager2!!4.4.3.上传jar1.提交jar3.上传jar1.提交jar—学alerttalos!aggregatealerttalos!aggregateapply 核THANKYOUServerlessFlink:小红书在云上k8sServerlessFlink:Xiaohongshu'sJourneyinMigratingandDeployingFlinkClusters………………各个子业务使用不同的独占资源池,维护上百资源池人力成本巨大各个子业务使用不同的独占资源池,维护上百资源池人力成本巨大Flink独占池扩缩容流程复杂,涉及预算审批、云厂商开关机、机器环境初单次流程耗时在天级别nodeFlinkPodFlinkPodnodeFlinkPodFlinkPodnodeFlinkPodnodeFlinkPodFlinkPodnodeFlinkPodFlinkPodnodeFlinkPodFlinkPodnodeFlinkPodFlinkPodFlink独占集群公共混部集群FlinkQuotaFlinkQuotaB其他业务其他业务quotaCFlinkQuotaAFlinkQuotaAnodeFlinkPodFlinkPodnodeFlinkPodFlinkPodnodeFlinkPodFlinkPodFlinkPodnodeFlinkPodFlinkPodFlinkPodnodenodeFlinkPodnodenodeFlinkPodPodFlinkPodquota扩容quota缩容启动quota扩容BaremetalSupplyBaremetalSupply标准混部池标准混部池BufferBufferControllerAPIServerWorkload画像服务Workload画像服务ControllerMetricsAwareController更新预测指标获取历史监控监控系统resourceProfilerMetricsAware监控系统resourceProfilerMetricsAware汇总画像,更新NodeMetrics监听监听MetricsAwareAgentAgentAgentAgentresourceProfilerlMetricsAwareresourceProfilerlMetricsAware实时负载感知调度SchedulerDescheduler动态更新规则实时负载感知二次调度容器服务容器服务Node维度汇总待驱逐的pod构造Flink请求URL请求驱逐Pod列表请求驱逐Pod列表校验pod是否在用返回RequestId或者结果根据RequestId轮训结果申请冗余pod资源ready后拉黑pod并触发task重启返回是否可驱逐根据返回结果执行驱逐或放弃释放空闲pod根据返回结果执行驱逐或放弃收到驱逐请求收到驱逐结果请求生成并返回RequestId返回生成并返回RequestId返回RequestId对应的请求状态结束根据请求传入的Pod结束根据请求传入的Pod数量,申请对应的新Pod否是否申请完成 是否申请完成 是否超时是触发checkpoint触发checkpoint获取Pod上的Task集合主动重启Task上述流程正常上述流程正常执行否设置驱逐请求为失败否设置驱逐请求为失败是设置驱逐请求为成功结束设置驱逐请求为成功结束使用CSIEphemeralInlineVolum资源扩缩容耗时资源扩缩容耗时扩大池化资源覆盖度年底迁移60kcore左右总体成本收益接近10k年底迁移60kcore左右总体成本收益接近10kcore应用AutoScaler进一步THANKYOUjobjob1job2job3...managerapiserverflinkmanagerapiserverflink/cancel等操作fetchjarjobjob-修复线程池设置bugrest服务就绪慢-不等待service关联pod-池化复用RestClient序列化操作频繁-删除不必要的序列化操作operator可调谐的单集群任务数达到2w提交作业吞吐可达1000app/分钟,全程稳定整体吞吐1000整体吞吐1000app/m单app启动时延小于1.5minwatchindex优化watcherswatchers单机Pod数与系统内存关系(G)864208单机Pod数与系统内存关系(G)86420850nodeCache:一轮调度中同质作业的调度cache,nodeCache:一轮调度中同质作业的调度cache,cachecachejobjobjoballocatejobache3allocatejobache3 源assignableexclusivewatchwatchapiserverwatchTaint/cordon/drainwatchTHANKYOULarge-ScaleCloud-NativePracticeOfFlinkatBilStreaming数量:6500+Batch数量:3000+Streaming数量:6500+Batch数量:3000+流批混部、Spark混部/opt/flink/opt/flinkconfconfpluginsusrlibL──tableapi等依赖jar物理机迁移机器从YARN物理机迁移机器从YARN集群迁移为Pod挂载物理磁盘磁盘异构物理机磁盘数量不统一磁盘故障,权限问题等磁盘异构物理机磁盘数量不统一磁盘故障,权限问题等磁盘负载不均RocksDB默认随机选择磁盘磁盘挂载在/mnt子目录Flink进程启动时筛选可用目录磁盘优化残留数据在残留数据在Pod退出时,不会删除数据增加Podlifecycle,Pod退出时通过preStop清理数据开启HA时:任务可以从正确的Checkpoint恢复,但遇PodPod处于失败状态Pod处于Pod处于Running状态启动时根据numberOfTaskSlots值调整阈值大小,避免固定参数的不足Pid数量限制优化服务器无法创建线程优化部分作业中线程泄漏,引起所在机器可用线程数不足,影响机器上所有作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年国家空间科学中心空间环境探测重点实验室硬件测试人员招聘备考题库及完整答案详解1套
- 2026年上海外国语大学国际教育学院招聘备考题库及参考答案详解
- 2026年贵州省法院系统公开招聘聘用制书记员备考题库及一套参考答案详解
- 水肿患者的护理伦理与法律问题
- 人工智能在小学语文教学中的应用:基于自适应学习系统的个性化学习节奏调整教学研究课题报告
- 过磷酸钙生产工发展趋势能力考核试卷含答案
- 易货师岗后知识考核试卷含答案
- 苯基氯硅烷生产工9S考核试卷含答案
- 油乳制备工操作知识竞赛考核试卷含答案
- 钢琴共鸣盘制作工安全宣传强化考核试卷含答案
- 2025年版小学数学新课标测试卷试题库附答案
- 公司内外部环境识别评审表
- 2025药物版gcp考试题库及答案
- 港口生产调度管理办法
- 电工职业道德课件教学
- 周杰伦介绍课件
- 学堂在线 雨课堂 学堂云 生活英语听说 期末复习题答案
- T/CCT 002-2019煤化工副产工业氯化钠
- 项目可行性研究报告的风险管理计划和应对措施
- 砂石运输施工方案
- 华师大版八年级上册初二数学(基础版)(全册知识点考点梳理、重点题型分类巩固练习)(家教、补习、复习用)
评论
0/150
提交评论