百万级大规模容器平台的设计与实现_第1页
百万级大规模容器平台的设计与实现_第2页
百万级大规模容器平台的设计与实现_第3页
百万级大规模容器平台的设计与实现_第4页
百万级大规模容器平台的设计与实现_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

QCon全球软件幵发大会百万级大规模容器平台的设计与实现InfoInfoInfoInfoContents-大规模容器平台的现状和问题-一些最佳实践-继续演进Contents-大规模容器平台的现状和问题-一些最佳实践-继续演进・集群规模差异——数十到数千节点不等・集群数量多——100+集群•业务混布 10000+业务•大Workload 1000+Pod•业务类型多——游戏,会议,AI.直播.爬虫等业务需求复杂 有状态,长链接.定IP、本地升级、快切升级等QCon全球软件开发大会InfoQ单一业务可能有上述所有问题/需求将相关功能作为平台的基础能力QCon全球软件开发大会InfoQInfoInfoInfoInfoContents-大规模容器平台的现状和问题-一些最佳实践-继续演进自动分批发布(Num%)暂停/自动回滚最佳实践之一一StatefulsetPlus最佳实践之一一StatefulsetPlusmaxllnavailbaleQCon全球软件开发大会InfoQInfoCInfoCStatefulsetPlus几百个业务数万个Workload 全场景的业务类型原生Workload满足不了需求超多的升级需求StatefulsetPlus.自动回滚 注意更新批次保持一致StatefulSetPlusspec:batchDeployConfig:batchAuto:truebatchlntervalMinutes:1batchNum:2maxFailed:10%podsNumTollpdate:-30%-70%podManagementPolicy:Parallelreplicas:6CommitaautobatchKube-apiserverWatchStatefulSetPlus

UpdateeventStatefulsetPlusoperator•与HPA的配合 分批更新中扩容/缩容Batchdeploycontrol1stbatchdeployoperation30%的podsPodsAfter1stbatch

successedImage:V22ndbatchdeployoperation

70%的podsPodsImage:V1Image:V2CompletedVPodsImage:V2QCon全球软件开发大会InfoQStatefulsetPlusStatefulSetPlus-Operator2.Usertriggersbusinesscontainerupgrade:Replacethebiz-pausecontairerimagewithbiz-container:v23.Updatedetectsthatthebiz-sidecarReadynessprobeisfalse,iner:v1containerimagetobiz-pauseOccupyflelockinit-containerinit-containerinit-containerbiz-sidecarbiz-sidecarbiz-sidecarfilelock.&version1=ibiz-container:v1filelock.® version2Mbiz-pauseContainerInplacellpatefilelock.眉version*!Kbiz-container:v1filelock.莅|version2^?biz-container:v2OccupyfilelockEmptyDirVolumeEmptyDirVolumeversion1=1version2=1version1=1version2=2filelock.lcfilelock.lc快切升级ContainerInplacellpatefilelock⑥ versiord芝biz-pausefilelock.&|version2=Tbiz-container:v2OccuWaitfilelockReleasefilelockEmptyDirVolumeversion1=2version2=2)yfilelockfilelock.lcQCon全球软件开发大会InfoQ高负载自动迁移最佳实践之二一Descheduler&NPD基于事件的Pod最佳实践之二一Descheduler&NPD分布式Ping检测节点自愈策略QCon全球软件开发大会InfoQDescheduler&NPD多种机型百万核心多个版本的内核百万核心节点及其类型繁多业务对稳定性的要求高InfoCDescheduler&NPDDescheduler&NPDDescheduler&NPDDescheduler&NPDNPD-ServerPrometheus云APIInfoQ功能来源FDPressureNode文件描述符是否达到最大值的80%自研P1DPressure/ThreadPRessureNode进程/线程数是否达到最大值90%自研RuntimeProblem(kubelet/dockerd/containerd)对应的systemdservice是否Running自研FrequenRuntimeRestar对应的服务在10min内重启超过5次自研CoruptDockerOverlay2Overlay2文件系统错误健康监测开源KernelDeadlock内核是否存在死锁开源StuckProcess是否存在D进程自研OverlayDiskPressure监测磁盘是否被容器占用超过90%自研SerfFailed分布式ping监测节点状态自研QCon全球软件开发大会InfoQ自愈行为步骤自愈特性•重启运行时•跳过Cordon掉的节点•逐业务Pod.节点可通过labels指定不生效的行为•重启Node节点.强制重启•删除节点•可观测性QCon全球软件开发大会InfoQCPUMemeryFDPIDLoad5Load15Node1RealLoadPod3DeSchedulerNode2DeSchedulerRebalanceNode3RealLoad•1Pod4业务Pod可执行Descheduler的条件PvcPod删除保护labels/annotationsQCon全球软件开发大会InfoQ云原生监控标准分片支持海量数据最佳实践之三一分片的云原生监控全局查询最佳实践之三一分片的云原生监控定制/精细化的监控指标QCon全球软件开发大会InfoQ分片的云原生监扌空分片的云原生监扌空分片的云原生监扌空分片的云原生监扌空300+Prometheus实例300000000+Series数据量太大了PrometheusOOM数量多且大小不一的集群InfoCCluster1QCon全球软件开发大会Cluster2InfoQ分片的云原生监控分片的云原生监控分片的云原生监扌空分片的云原生监扌空Kvass 一个Prometheus横向扩缩容解决方案Thanos Prometheus数据汇总,全局查询Discovery 跨集群Prometheus实例服务发现Container_exporter 容器内监控实例QCon全球软件开发大会InfoQ单实例的Prometheus最好配置2000000Series200wSeries配合24-32Gi内存+800G磁盘Series占比最大的是Cadvisor和Kube-state-metrics裁剪一下Cadviso啲Metrics,有些是可以后续计算的集群太大需要给Kube-state-metrics做Shard,但是不要太多QCon全球软件开发大会InfoQNodeQCon全球软件开发大会进程/线程CPU进程内存网络FD••••••高精度&高频率定制化低入侵度&轻量级业务Pod业务Podcontainerexportercontainerexporterpushgateway<―►pushgatewaypushgateway cleanerpushgateway_cleanerprometheus prometheusthanosInfoQ为什么要搞容器内监控?为什么不用node_exporter?为什么要Daemonset部署Pushgateway?QCon全球软件开发大会InfoQ最佳实践之四一其它QCon全球软件开发大会IP规划与配额动态分配固定IP的优势HNAInfoQInfoInfoInfoInfoContents-大规模容器平台的现状和问题-一些最佳实践-继续演进EKS(弹性容器服务)无节点,降低运维成本K8sAPI多可用区QCon全球软件开发大会InfoQ业务画像prometheus-adapter容器画像特征custonmmetricsexternalmetricsmetrics驱动中心调度决策系统基于画像弹性伸璃应用容量画像(规则类)动态调度基于画像差异化调度应用容量画像(算法类)画像存储服务(实时更新)集群容量画像应用容量画像QCon全球软件开发大会prometheus业务类metrics资源类metricsCTSDB▽TKE/EKS集群产出画像执行资源池1资源池2踱集群借调公有云采成数据预处理在震线借调震在线借调机器学习资源平台訟像(在践+高线)MySQLPostgreSQLHBASEInfoQ服务网格QCon全球软件开发大会ControLPLanEControLPLanemanagedbcjTencentCloudIngress

sGWSiuecar

inector IstiodIngress

sdW:/IS:l5tio-5^tem' z ns:Istio-EL/Etem)servicelI。)service2:ns:custome「-画viresduster?servicesservicelns:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论