ODCC-2025 算力时代的动环监控TBOS_第1页
ODCC-2025 算力时代的动环监控TBOS_第2页
ODCC-2025 算力时代的动环监控TBOS_第3页
ODCC-2025 算力时代的动环监控TBOS_第4页
ODCC-2025 算力时代的动环监控TBOS_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC-2025-06007]开放数据中心标准推进委员会ODCC2025年11月版权声明ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。I 2 2 3 5 6 7 9 9 3 4 6 7 22 前言合AI建模与预测能力,实现异常主动预警和故障预判,帮助企业从1一、背景性和绿色节能的要求日益严格,动环监控系统作为基础设施“安全哨一方面,数据中心的运维模式逐步由“人工巡检”过渡到“远程集中、难以满足业务高速发展和复杂应用场景的多2术创新和应用升级正成为行业数字化转型和基础设施高质量发展的二、当前面临的主要问题(一)传统集成式动环架构的弊端3的系统可用性难以突破99.9%,与行业对于“零中断、秒级故障响应”迟。随着单机柜功率逐步逼近100kW,设施规模持续扩展,传统系(二)海量数据与监控能力不足的矛盾环监控面临前所未有的挑战。各类IDC机房模组涉及的采集点位极4“告警风暴”,在短时间内涌现大量异常数据推送,这种“一机多能”的设计导致其性能无暴时更容易“卡死”或延迟,严重影响监控的实时性与可靠性。5尤其值得关注的是,随着液冷技术和高性能GPU业务在数据中常规负载下,GPU服务器可能在1分钟之内因过热被迫宕机,而高性能7纳米工艺的GPU服务器,在满载状态下从异常升温到宕机所8卡GPU机型也因卡数增多限制,关机过程本身依然需要数秒至十化要求。系统能力的全方位升级已成为行业发展(三)动环系统接入复杂度高61.设备与配置难以标准化建模进行定制适配,大幅提升开发、运维的人力投入和时72.南北向协议多样化的行业困境u协议栈深度异构:基础设施设备涵盖超50种标准当前弱电传输协议普遍存在的碎片化问题直接影响机房弱电监83.采集接入及系统运营效率问题老大难以上行业问题的存在,直接导致了新的IDC机房的弱电接入过9响。那么,对于整个监控环网中的任何一个指标抖动,IT人员能否第一时间定位到故障点并快速给出根因分析,就直接关系到IDC基三、算力时代的动环监控系统TBOS借助AI多维赋能,为超大规模数据中心构建了算力时(一)动环整体架构全面升级1.微服务分布式架构设计诸多难题。与传统架构相比,TBOS通过功能模块的微服务化拆分,2.三级监控体系uFSU(端现场监控单元,动环监控系统的最小子系统,面uLSC(边本地监控单元,连接区域内所有FSU,实现区域准的Tlink协议连接多个LSC,部署于云上。3.分级存储方案数据的高效流转与灵活调取成为保障运维效率和安本地缓存机制,将所有采集器采集上来的近15分钟数据进行高频暂无(二)深度调优数据告警链路u架构层全局优化:TBOS全链路采用高效的tRPC协议替换传“阈值变化上报”机制,整体计算量有望降低至原来的1/40。(三)统一设备配置模型电、环境与能耗管理、IT算力设施及网络基础设施等多个方面。为被监控设备(标准设备这类设备主要包括机房的1.标准设备标准化定义测点扩展灵活:标准测点采用“基础+可配置”机制,既保证核心123456789123456789测点如何计算得到:如型2.采集设备及协议标准化定义数据难以统一、协议集成成本高、运维和扩123456789通过上述标准化定义,TBOS平台打通了多厂商、多类型采集设为TBOS对采集设备和协议建模后应用在监控系统上的实际呈现效3.告警策略标准化定义TBOS平台推出覆盖全设备类型的告警标准化模型,规范告警描更具体来说,告警针对每一种标准设备在不同场景下配置了一个被定义一次泛化过程,下表为实例化后的设备告警策123456789上图为TBOS上动环告警模块的效果呈现,所有告警都是根据上随着数据中心及智能运维系统业务复杂度不断提升,设备数量和针对以上挑战,TBOS平台自研了高度定制化的组态视图组件,1.AI驱动采集编码在动环行业的实际运维场景中,随着数据中心类型和品牌的不断为应对协议碎片化难题,TBOS在采集Agent架构设计之初就引适配打下了基础。在此基础上,团队积极探索AI赋能协议开发的新只需根据AI编写的初稿进行少量补充和验证即可,大大简化了驱动页,按传统流程开发周期往往需两到三周。而借助AI编码方案,通过定义合理的prompt和TBOS接口上下文,iec103的采集驱动代码周期大幅缩减,有效释放了研发人力和时间投入。整体来看,AI驱2.AI助力弱电接入在数据中心及机房的持续扩建与设备增量过程中,弱电系统(包为解决这一痛点,TBOS平台基于开放的系统架构,打造了一站式的AI弱电接入助手。在弱电设备接入流程中,通过引入AI技术,小程序等手段快速上传设备信息、对接资料,AI助手自动解析厂商文档、识别设备模型,并归纳生成标准化的接入方案。同时,利用AI的语义理解和知识推理能力,对场景需求与设备参数进行自动对齐,智能生成完整的点位对照表和测试脚本。在功能调试阶段,AI用的录入、校验、协议对接、功能验证等工作均可由AI助手完成,随着业务规模的不断扩大,数据中心和动环运维系统面临着愈发复杂的技术挑战。传统监控方案趋于单一,系TBOS响应这一挑战,依托智研平台,系统性构建了一套多维度多维度可观测矩阵的建设,彻底摆脱了传统“黑盒”运维的局限,能力也为业务优化、性能调优、运营决策提供了坚实的数据支撑。四、TBOS动环系统未来展望(一)AI数据分析支持随着数据中心及运维平台信息化程度不断提高,产生的数据量呈针对现有方案的局限,TBOS平台计划引入AI+MCP技术,将自随着云计算、物联网和智能运维的持续发展,数据中心及其支撑当前,业内主流的监控系统一般采用分层式架构,将指标数据采该系统监控大盘的建设,将全面提升平台在监控和故障响应上的五

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论