版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
迈向智能世界白皮书2025智能体@AEI序言我们正处在一个AI技术飞速发展的时代。企业运维已经从信息时代的效率提升与自动化,经过数字时代的数据驱动与智能运维(AIOps)崛起,正大步迈向AgenticAI时代。在这一新阶段,智能体的协同作用将推动运维向更高层次的自主化迈进。华为基于自身多年的运维实践和经验积累,结合对行业发展趋势的华为的智能运维理念源于20年的ICT运维数智化转型实践。从1998年开始引入ITIL等业界成熟的管理方法,到2012年启动运维运营的数字化转型,再到今天引入大模型等AI能力,华为一直在运维领域持续创新和突破。过去几年,自动驾驶网络是华为在电信领域面向2030的核心战略,目标是通过数据与知识驱动,实现网络自动、自愈、自优、自治,使能新业务并实现极致客户体验、全自动运维、最高效的资源和能源利在技术创新上,我们重点开展多智能体架构和自治系统研究,目标是围绕网络控制和知识学习两大闭环,构建单域自治的智能系统。通过突破网络环境感知、态势分析、多目标决策、行动规划和自学习、自演进等五大关键技术,我们致力解决网络复杂性的同时增强适应性,已在运营商领域取得了阶段性成果。围绕智能体创新的AgenticAI技术演进,将为企业ICT运维领域带来革命性的变化。今年7月,全球固定网络创新联盟(NIDA)联合信通院、华为、清华大学等面向2035智能世界,提出了AEI(Agentic企业ICT基础设施),以极高可用、极优体验、极简运营为目标,具备智能原生、自智运维、群体智能三大特征。通过智能体的应用,数据中心能够实现故障快速处理与资源高效利用,确保运行稳定;智慧园区则在用户体验与网络感知方面取得显著提升,智能化水平跃上新台阶。这些变革不仅提升了运维效率,也从根本上改变了运维人员的角色和价值定位。我们与清华大学合作,构建园区网络智能体实现“自动驾驶”运维;与交通银行携手打造金融网络智能体,重构网络运维新范式;与科大讯飞等企业通过智能体技术提升运维效率;今年,华为基于智能体的融合智杭州亮通等客户及伙伴进一步得以落地和推广,越来越多的企业实现了高效运维和极优体验。这些实践充分证明了AqenticAI在企业运维中的实际价值。未来,华为将继续深化与伙伴的合作,以技术创新为核心、以生态协同为支撑,持续提升云管服务能力,致力于需要新技术、新理念、新架构的支持。华为将继续与业界伙伴携手共进,共同推动智能运维技术的发展和应用,为企业数智化转型提供强有力的支撑。本白皮希望能为业界同仁提供参考和借鉴。让我们一起迈向智能运维的新纪元,共同开创企业数智化转型的美好未来!目录序言0101趋势与AEI概览12.1华为AEI愿景42.2华为AEI目标架构42.3华为AEI总体规划70303价值场景与解决方案3.1数据中心3.2智慧园区7跃升社会生产力的变革浪潮,在信息技术的催化下不断奔信息化时代,计算机和互联网的普及如同铺设了信息的“高速公路”,核心是解决信息的记录、存储、传递和初步处理问题,让数据得以电子化、网络化,显著提升信息流通的效率,如早期的办公自动化、门户网站和电子邮件系统。然而,此时的数据更多是静态记录(基于GUI、任务编排等),价值挖掘有限。随着技术深入,社会迈入数字化阶段。这不仅是信息的电子化,更是物理世界与数字世界的深度融合与重构。传感器、物联网、移动互联网、云计算等技术爆发式发展,使得现实世界的人、物、流程、场景得以全方位、实时地被“数字化映射”。数据从孤岛走向互联互通,成为驱动业务的核心要素。在线支付、智慧物流、远程办公、020服务等成为常态,数据开始驱动流程优化、模式创新和用户体验提升。然而,这个阶段的数据分析主要依赖预设规则和统计模型,智能化程度相对初级(SDN、AlOps等出现)。数智化的跃升,则标志着AI技术从辅助工具跃升为变计算机视觉等为代表的人工智能技术,赋予系统感知、理解、推理、学习、预测乃至自主决策的能力。数智AI是推动社会从信息化(数据记录)到数字化(数据驱动)再到数智化(智能涌现)的核心驱动力,企业自2022年OpenAI发布ChatGPT以来,AIAgent快速成为了数智化时代的主流技术,2025年AgenticAl(代理式人工智能)的提出和引爆,正式将自主决策定格为人工智能技术未来5-10年的主要发展方向。以AgenticAI为代表的未来AI技术将驱动企业数智化转型聚焦价值呈现,从体验提升、效率提升、模式创新等维度促进企业数智化转型的战略目标达成。根据Gartner《2025年新兴技术影响雷达:生成式人工智能》报告,AgenticAl将在3至6年内达到早期多数采用阶段(目标市场采用率超过16%),并预测到2028年,60%的IT运维工具将实现Al代理功能,这一比例较2024年底不到5%的水平将有显著提升。▲AMayr2根据麦肯锡的统计报告,从2016年到2022年期间,各行业的数智化成熟度上的差距在不断加大,领先者和落后者之间的数字和AI成熟度差距增加了60%。数据表明,通过数智化转型在各行各业已经产生实实在在、可量化的价值。例如,在金融保险、消费品和股东回报)复合增长率是落后公司的2~6倍。持续投资数智基础设施,用技术创造价值;其次在于构建能力,能够不断通过数智化技术的使用,对其业务进行创新和改进。在智能化时代,企业数智化转型需构建坚实的数智基础设施。Al+ICT基础设施的技术创新是企业数智化转型的根基,通过加速普及和加速变现实现企业业务创新和价值创造。1.3.1AEI的提出随着智能世界的到来,各行各业的业务应用正在发生·制造业:从自动化产线迈向“智能工厂”。通过物联网(loT)传感器实时采集设备数据,利用AI进行预实时欺诈交易识别、个性化财富管理推荐、智能客服和自动化信贷审批成为标配。基于用户行为的千人千面推荐、无人店铺的计算机视觉应用、智能供应链预测和全域营销自动化。助影像诊断、基于大数据的精准医疗、远程实时健康监测和药物研发加速。让伙伴和更多企业能够轻松集成、获取、使用ICT基础设施,并随着业务的发展不断演进。通过深入场景,实现业务和场景的融合,并且共同构华为在《迈向智能世界2030》系列中提到,面向未来,传感器、物联网、云计算、5G-A、AR/VR等技术来构建新型ICT基础设施,为企业打造新质生产力,弥补劳动力缺口,帮助企业把握新的业务商机,拓展企业边界。华为预测:到2030年,每万名制造业员工将与1000个机器人共同工作,VR&AR用户数达10亿。有100万家企业会建设自己的5G-A专用网络(含虚拟专网);云服务占企业应用支出比例达87%;Al计算占企业IT投资比例达7%。这些应用的共同特点是:实时化、智能化、场景化、个性化。它们不再是过去“按月、周、日”生成报表这一根本变化,对承载这些应用的基础设施和运维体系提出了前所未有的挑战。企业数智化转型的本质是用数据和智能重构业务模式,这直接要求底层基础设施从静态、孤立的硬件资源,演变为全局弹性、高性能、云原生、云边协同、安全内生、数据与智能就绪的融合系统。同时,它也迫使运维体系发生根本性变革:从手动、被动、面向硬件生产与服务的全价值链进入“感知-预测-执行”自主闭环时代。未来,新型ICT基础设施和自主、智能运维不再仅仅是后台支撑部门,它们本身就成为企业核心竞争力的关键组成部分,是业务创新与增长的数智基石。3在中国信通院发布的《2025年Al+运维:构建智能化模型运维时代,通过多模态大模型和数字孪生技术,实现了全域感知和自主决策能力,不仅能进行端到端诊断和预测性维护,还能自动生成解决方案,将运维响应速度提升至毫秒级。在2025年WAIC世界人工智能大会上,NIDA(全球固定网络创新联盟)联合中国信通院、华为、清华大学、交通银行等9家伙伴面向产业界发布了《Agentic时代的企业运维-新型ICT基础设施O&M蓝图》白皮书。AgenticAl将重构企业运维模式,华为致力于构建面向智能时代的新型ICT基础设施,持续推动企业运维从传统自动化、AIOps向“自主(AgenticAI代理式)运“感知-决策-执行”闭环能力,通过环境感知、目标该白皮书分析了AgenticAI时代下的企业运维2035础设施。AEI具备三个A特征:AdaptiveM(群体智能)、AutonomousO&M(自智运维)和打造Agentic新型ICT基础设施,提升企业数智生产力,使能企业业务极高可用、极优体验、极简运营。图1-2:AEI"三个A"的特征(源自:NIDA-《Agentic时代的企业运维-新型ICT基础设施O&M蓝图》)·多智能体协同(Multi-Agent)成关键技术底座:复系统采用多Agent分工协作机制资源动态调度为典型价值场景的数据中心运维,用户体验保障和通感一体为典型价值场景的智慧园区运维演进为分布式、群体智能协同与闭环,开源生态与标准化推进本白皮书将聚焦AgenticAI运维技术,从规划、架构实现到场景化解决方案、创新实践及技术研究等五个方面阐述华为融合智简的企业运维系统演进方案,为产业各方提供参考。4华为AEI愿景:围绕企业数据中心和智慧园区的新型ICT基础设施,构建融合智简的AgenticAI运维解决方案,助力行业伙伴易集成、易部署、易运维,使能企业业务极高可用、极优体验、极简运营。业务“0”中断图2-1:华为AEI“三极三易”愿景□2.2华为AEI目标架构企业数字化转型的加速,使得传统人工运维已难以应对日益复杂的园区、数据中心等系统规模与金融级SLA的高连续性要求。在降本增效需求与AI技术成熟的双重推动下,运维模式正由自动化向自主化跃迁。在这一背景下,AgenticAI(智能体AI)逐渐成为构建下一代无人化运维体系的核心动力,其通过多智能体治运维”提供技术架构支撑。从行业趋势看,Gartner所提出的“自治运维”作为AlOps的终极阶段,正逐步落地为基于LLM与知识图一、业务视角,通过“三极”支撑业务高质量发展:·极高可用:业务0故障,可向用户承诺更高的SLA·极优体验:应用0卡顿,可使用户终端体验更流畅·极简运营:现场0值守,面向用户业务保障更高效·易集成:上线0等待,使能伙伴交付周期短·易部署:开局0差错,使能伙伴交付质量高·易运维:专家0上站,使能伙伴交付成本低谱的认知自动化,而IDC也预测到2026年,30%的企业将采用“零接触运维”模式——这一目标亟需以可观测性奠定基础,信通院《AIOps能力成熟度模型》则进一步强调了意图理解与动态编排等关键能力,这些都在推动企业构建以AgenticAI为核心、具备可信决策与自我优化、多智能体协同的智能体运维体系。要达成AEI的目标,企业要对基础设施、数据中台、业务应用和运维系统几个方面进行智能化改造->升级。华为对于基于AgenticAI支撑未来企业实现AEI,提出5智能业务应用智能业务应用智慧制造智慧金融MasterLink(能力开放、多智能体协同)智能基础设施图2-2:华为AEI目标架构设施,配合运维智能体,能更好地实现场景自闭心场景提供了CC/HCS/DCS解决方案,能够在基础设来自底层基础设施(如服务器、网络、数据库等)的61、运维智能体:运维智能体系统是以AI智能体为Agent及传统管控单元,各模块协同运作,形成闭环撑,包括大模型推理实现自然语言交互与决策生成,RAG(检索增强生成)机制访问专业知识库确保响应风险,为智能体提供动态、可视的上下文感知基2、智联总线(MasterLink):未来AgenticAI运解模块将复杂任务自动拆解为可执行的子任务单元;间系统延迟低于100毫秒”或“下季度将存储成本降低20%”等高层诉求。智能体将自动解析该意图,将7数字站点及能源等多个关键领域,华为构建覆盖不同垂直场景的专用智能体。这些智能体深度融合智能基础设施的感知与边缘计算能力,在各自自治域内实现了高度自主的智能运维闭环。例如,数据中心智能体可实时预测制冷效率并动态调整供电策略,而物联网智能体能够主动识别终端设备异常并实施自愈操作,显著提升了域内运维的精准性与响应效率。更重要的是,未来这些智能体不仅局限于域内自治,还将实现跨域协同与信息联动。通过标准化的接口与智能交互并共同应对跨基础设施的复杂故障。由此,客户能够从最终业务体验的视角出发,构建真正端到端(E2E)智能决策,到自动触发用户侧流程通知或变更工单,实现以业务连续性和用户体验为中心的全局智能运维保障。AgenticAI运维是华为企业数智化演进的核心战略方向,华为AEI面向数据中心和智慧园区,华为打造算网存-Agentic智能强算、业网端-Agentic智能助维、ICT智能云管-Agentic智能互联三大解决方案能力:及动态外部环境交织组成,单点故障可能导致系统级数据中心智算系统故障时,每万卡停机一小时,客户可能损失上百万。华为从专业角度将未来数据中心划分为智算、超算、通算三大场景,实现计算、网络、单域运维系统域内自智,再与业务系统联动,形成跨域智能体,Agentic智能强算。·面向大中型园区:随着新技术日益发展,使能园区基础设施承担着企业的创新命脉。智慧办公决定企业沟通效率,智慧生产是企业发展核心引擎,智慧安防是企业基石。华为智慧园区通过基础设施的超强联接能力,将园区的人、机、物、事智能连接起来,实现园区联接安全、便捷、可靠,体验最优。通过NCE、eCampusCore、NeoSight等系统实现域内自智,结合园区办公、生产、安防业务系统,形成跨域智能体,Agentic智能助维。规模小、分支多,难以派驻专业人员建设和维护复杂五脏俱全”,涵盖Wi-FI网络、摄像头、防火墙、边缘计算、存储、边缘接入等多种多样的组网。中小企业主聚焦于业务运营,期望基础设施运行和维护无感。通过iMasterCloud云上远端智能化可视可管,与地端NeoSight、NCE等系统智能联动,形成云地一体的有易部署:开局0“差错智能响应智能调优NeoSightAdaptive客户视角视角0值守0”上站AINative图2-3:华为AEI三大解决方案8AEI以业务场景的商业价值匹配落地节奏,通过基础设施硬件迭代更新以及AgenticAl技术的逐步成熟双轮驱动,经过域内自智、跨域自智阶段,最终达成群体·第一阶段(2025-2027年):由于数据中心智算蓬勃发展,算力的释放需高稳的基础设施作为保障,在智算领域需要通过计算、网络、存储、能源等多技术域的协同,形成跨域智能;而园区分支连锁的基础设施的特点是更新速度快,通过云端的跨域智能体可与业务应用协同,最大价值的使能应用。它将率先进入跨域自智阶段,其他传统场景完成域内自智。·第二阶段(2028-2030年):从发展趋势来看,数据中心智算、超算和通算将会逐步的融合,为了更大程多个专业智能体(Agent)之间能协同工作,共享信共同进行更复杂的决策和问题解决,数据中心智算部分将率先达到群体智能。同时,由于园区基础设施的复杂性和超广的涵盖面,企业办公网、服务网和生产网也将逐步进行更新迭代,越来越多的应用层将智能化升级,与基础设施智能协同才能发挥更大的业务价值,这些网络将迈入跨域自智阶段。·第三阶段(2031-2035年):由于基础设施智能化可自愈,AgenticAI智能体间可群体决策,多种异构智能体在开放生态环境中通过自主交互与协同,基础设施数据中心:超算场景数据中心:通算场景智慧园区:服务网智能运维时代数据中心:智算场景智慧园区:分支连锁智慧园区:分支连锁智能自愈基础设施实时协同智能控制智能感知数据中心:超算场景智慧园区:办公网基础设施基础设施智能化Al技术驱动图2-4:华为AEI分阶段演进规划9预测,到2030年,通用算力将较2020年增长10倍,智算中心故障频发,集群稳定运行难保障可达千万级。智算硬件(GPU/NPU/光模块等),由亿参数)过程中,使用了16384张H100卡,平均3小时发生一次故障,54天内经历419次故障,其中智算故障复杂多样,故障定位修复时间长NPU日志分析耗时6H。故障难恢复极大影响了训练算力资源利用率普遍偏低,“宝贵”的Al资源在浪费不超过60%,万卡集群不超过55%,而十不超过40%。甚至一些行业AI客户,由于企业自身对20%~30%。相比传统通算数据中心而言,智算中心的绿色低碳可持续发展面临压力据显示数据中心总耗电量在ICT行业占比超80%,而求超过1亿瓦(100MW),相当于7.5万户普通美国超算中心聚焦高性能计算场景(HPC),是专门用于大型AIDC,训练任务在运行6小时后发生中断,日超算中心追求极致性能,复杂系统极易出现瓶颈点将难以为继,各行业也都面临数据中心智能化运维的转型诉求。超算中心作为尖端计算的载体,始终以追求极致性能为目标。一个完整的超算中心不仅仅是堆砌起来的强高性能海量存储系统、高速互联网络等基础设施以及作业调度平台等进行高效紧密的协同,才能发挥出极致性能。无论是内存带宽不足、存储I/O延迟、通信同步开销还是任务调度与负载不均衡等,任何单点滞后都可能成为制约整体效率的瓶颈点,导致系统性能以金融行业来看,尤其强调高可用与快速恢复能力。2024年,头部金融机构在行业内率先提出“业务1-5-10”的故障处理目标,即1分钟发现故障、5分钟定位问题、10分钟完成恢复。随后其他大行纷纷响应和跟进,逐渐成为金融行业运维能力的新基准。教育医疗等行业,IT系统涉及大量异构设备,对数据安全和隐私保护要求高,同时又要考量IT系统的投资回报率,平衡成本,然而现实中在运维环节的投入又相对有限,导致运维运营管理难度巨大。超算中心面临海量数据研究与分析,数据难治理超算中心通常承担数据密集型科学研究工作,数据规例如:气象预报与气候模拟,每年每颗气象卫星采集的气象数据超过1PB,存量数据可达几十PB;自动驾驶车辆每天产生数十TB数据用于训练视觉识别算法;天文研究专家需要从数十PB海量数据中分析发现新天体。这些科学数据是科学研究的重要战略性资源,需要高效的存储、管理和共享。如何将离散存储的数据高效协同起来,做到按需可信流通和共享,提升数据质量,发挥数据价值,是未来数据中心需要重点考虑的问题。未来数据中心面临的最大问题不是缺少数据,而是面对太多数据,却不知道如何处理。这些新变化和行业诉求,都在迫使传统运维向智能化运维转变。未来数据中心将是多种算力融合共同发展的局面,多种类型的数据中心协同一体,共同提供算新型AgenticAl技术将重新赋能数据中心智能化运逐步从传统的被动响应式运维转向主动协同的“多智能体运维”体系,从而更好的应对新形势下复杂运维致力于构建极高可用、极优体验和极简运营的运维能3.1.1AEI@DC解决方案此外,超算中心同样面临绿色低碳与能耗压力,能耗虚高,运维成本负担重,用户实际可得算力低。传统数据中心的运维模式以人为核心,人的能力将成为未来数据中心的运维瓶颈。根据某咨询机构调查结果,有39%的DC因人为错误经历过严重故障,其中50%是由于未能遵循准确程序。随着各行各业应用系统越来越复杂、发布变更频率越来越频繁、用户体验至上表现为对故障的容忍度越来越低,传统运维模式术密集型”演进,借助AgenticAl技术打造全新的智能运维体系。实现全栈数据采集、全局统一可视,更更精准的运营决策,最终实现更深层次的高度自智化数据中心。华为公司依托其在ICT领域多年的深厚积累,基于AEI理念,构建面向数据中心场景的AEI@DC解决方案,围绕数据中心三大算力场景提出六大场景化运维解决方案,助力行业客户高效推进数智化转型。解决方案解决方案国超国超区超行超数据中心AgenticAI运维系统基础设施、智能原生超大规模智算中心训推中心轻量化推理超算中心通算中心医疗政务互联网智慧能源智慧金融图3-1:华为AEI@DC解决方案心,打造Agentic新型数据中心基础设施,具备智能原生能力,提升企业数智生产力。DME/NCE等数据中心运维产品,通过多领域智能体群体协作,提供数据中心全域智能化自智运维能力,从隐患预防、自主调优、智感自愈、高效运营等多个维度使能数据中心走向AgenticAI运维,是整个AEI解决方案的大脑。·业务平台及应用层:结合数据中心行业应用和业务平台,通过意图交互、业网智联将AgenticAI运维层与业务紧密结合,意图驱动运维层多智能体群体协作完成业务目标的自主决策与闭环。3.1.2AEI@DC运维价值场景基于AEI@DC整体解决方案,我们提出六大运维价值场景如下图:智智算中心超算中心通算中心边缘推理+微调极高可用极优体验极简运营维调优调优关键能力关键能力关键能力关键能力关键能力关键能力心全量预训中心推理+微调轻量理图3-2:华为AEI@DC运维价值场景·面向算网存故障处理场景,围绕故障全生命周期构建端到端闭环能力,显著降低故障发生概率和处理难度,从而有效减少业务中断损失,保障集群稳定运行,助力数据中心极高可用。·面向体验优化场景,通过算网存协同调优和能效调优,驱动数据中心全栈资源紧密协同,跨层跨域联动,多维协作与优势互补,兼顾数据中心极致算效和极致能效,系统级解决传统数据中心业务体验不佳、算力分布不均、能耗过高等一系列问题,保障业务的极优体验,支撑数据中心绿色可持续发展。·面向高效运营场景,依托对算力与数据双重核心资产的高效管理,赋能企业实现精细化资源使用、敏捷调度与智能化数据管理,从而最大化算力资源利用,最大化发挥数据价值,推动数据中心极简高效运营。数据中心极高可用数据中心稳定运行需要从两个方面来牵引和评估,一是提升集群稳定运行时间(MTBF:MeanTime预测准确率可达75%;同时对判定为亚健康状态的光智能硬盘预测:硬盘作为存储数据的核心介质,是存储系统中的关键组件。硬盘的平均年故障率(以4年为统计周期)约为:HDD在1.4%至2.3%之间,SSD在0.8%至1%之间。随着在网硬盘数量的规模增硬盘故障在存储系统硬件故障中的占比超过60%。尽障智能体(Agent),构建硬盘失效预测模型,通过可达95%以上,有效防范潜在硬盘故障的发隐患预防解决方案基于AEI新型基础设施的感知原生性能等)构建多层数字孪生,结合智能故障预测技术部件(如光模块、xPU、磁盘、HBM、内存等)是否提前进行监控和预警,先于故障发现隐患。再结合环能力,构建故障智能体(Agent)具备算网存跨域简化运维人员日常操作、降低运维难度,有效降低群TOP硬件故障。华为iMasterCCAE构建计算域故存储故障和性能分析等),构建算、网、存多域智能联动智能原生设备和业务平台,实现单域故障自愈,跨域故障协同闭环。确保在故障发生且根因明确后,能够快速执行故障隔离、复位、重启等修复操作,迅速恢复系统正常运行,最大限度减少业务中断时间。1-关键器件隐患预防·人4-故障快速恢复闭环计算域故障AgentAgentAg计算设备网络设备存储设备2-故障主动感知3-故障根因实时诊断业务平台感知图3-3:AgenticAI运维故障闭环系统华为iMaster运维产品系列充分发挥自身产品优势,通过构建多域协同的故障智能体,围绕故障全生命周期实现了故障自感知、自诊断与自闭环。首先,构建单域故障Agent,聚焦算网存单域范围内的故障预测、感知和闭环。基于LogGPT日志大模型,对海量日志进行全面感知与分析,快速识别关键异常日志,感知故障发生;再融合日志、告警、Issue事件及专家知识等多源数据辅助诊断,实现对未知故障的精准分析与定位;此外,结合实际故障案例,构建故障思维链和故障树自生成能力,快速建立和更新故障知识库,进一步提升诊断精度;最后,面对跨域故障诊断和闭环并生成下发处置流程,最终实现故障的自动隔离与闭环修复。方案价值通过智能体技术,对海量器件的运行隐患实时预测,对已发生故障进行端到端闭环处置,不仅延长了集群的平均无故障时间(MTBF),也缩短了平均故障修复时间(MTTR),极大的提升了故障处理效率。技术保障,真正赋能数据中心实现运行“0”隐患、业务“0”中断,隐患自优化、故障自闭环,实现数据中心无人/少人化运维。驱动DC全栈联动协同调优,使能数据中心极优体验数据中心包含机房、环境、基础设施硬件、软件平台以及安全等诸多子系统,这些系统并非孤立运行,而是相互关联、高效协同的有机整体。任何一个环节的性能劣化或失效都可能影响整个数据中心业务的波动甚至中断,导致数据中心无法持续处于最佳运行状不能发挥极致算效。同时,随着数据中心规模的扩大,其能耗也在急剧上升,数据中心面临绿色低碳可持续发展的压力。基于AgenticAI运维技术,驱动数据中心全栈资源联动协同调优,在保证发挥极致算效的基极优体验需要同时兼顾极致算效和极致能效:一方面驱动算网存等基础设施及业务平台协同工作,自动识别系统性能劣化和瓶颈点并主动调优,使数据中心持另一方面系统级挖掘数据中心节能减排潜力,实现数据中心全局PUE最优,提供极致能效。场景一:算网存多维协同调优多维协同调优解决方案以系统整体运行最优为目标,协同算网存等多领域智能原生基础设施、业务平台及AgenticAI运维系统,主动识别系统中各类隐性劣化与瓶颈点,综合运用算网调优、算存调优、网存调优、软硬协同调优等多种方式,结合AutoTuning主动参数寻优、NSLB(全局负载均衡)、专家负载均衡、PD实现端到端的系统调优闭环,充分释放算力,使能业务体验最佳。算网协同提升训练效率:AI算力网络的吞吐直接影响模型的训练效率,成为提升训练效率的关键。传统Hash算法无法根据实际业务负载动态调整流量路径,导致网络运力无法充分利用,进而制约AI训练性能。华为iMasterNCE构建网络智能体(Agent),并基于独创的NSLB(NetworkScaleLoadBalance)负载均衡技术,实现计算和网络的深度协同,支持计算和网络交互训练任务信息,网络路由亲和训练负载。基于全域通信信息,通过独家算法动态计算最优流量转发路径,并下发配置到交换机,实现整网流量均衡,网络吞吐率达到95%以上,显著提升训练效率。软硬协同优化推理性能:大模型推理场景下,推理服务的性能往往受多重因素影响,服务的请求时延和吞吐等关键指标的劣化直接影响最终业务体验。华为iMasterCCAE构建优化智能体(Agent),面向大规模专家并行推理场景,实时守护推理集群核心成效指标,基于推理时延、吞吐量以及资源性能指标,综合感知推理服务性能,在性能劣化时主动进行调优。通过联合训推平台,基于请求任务的负载特征变化,自动进行BatchSize动态寻优、PD(Prefill/Deco点资源分配动态调整、专家均衡动态调优等优化避免PD任务瓶颈导致的性能下降,实现吞吐量、延迟及资源的最佳平衡。图3-4:数据中心全栈协同调优全局PUE智能调优解决方案,面向数据中心极致能效场景,系统级挖掘节能潜力,通过AI联动L0~L3层全栈资源动态调优,进而降低能耗。AI调优智能体采集L0~L1层环境参数(包括温湿度、制冷设备、供电设备等)、L2层基础设施参数(包括IT设备运行状态、电源模式、实时功率等)、L3层平台参数(业务负载、任务状态等),通过构建能耗优化模型实时预测最佳工作参数,并下发调优策略,实时调整冷却塔、水泵、CDU(CoolantDistributionUnit,冷液分配装置)等输出状态,调整IT设备的电源工作模式等参数,实现数据中心综合能耗最优。智能能耗管理:调优智能体与数据中心IT系统、供电、制冷等系统结合能显著优化数据中心能耗,降低PUE。智能体可基于历史数据和实时数据,预测不同负载、不同室外天气条件下的最佳PUE值,并推荐调自动调整制冷系统的运行策略(如冷水温度、风量风速),确保在需要的地方提供恰好的冷量,避免过度制冷;可预测未来的业务负载,并智能地将任务进行调度整合,将闲置IT设备置于低功耗模式或关机,实现动态节能。同时,全球数据中心迎来数据爆发式增长,到2030年将进入数据YB时代。企业面临海量数据治理、跨界数据共享、多领域数据汇聚、隐私保护和交易化等众多数据运营难题。此外,层出不穷的网络攻击与日益严格的数据隐私法规(如GDPR、数据安全法)也进一步加剧了数据运营过程中的安全与合规风险。未来数据中心的核心资产是算力和数据。数据中心运营人员需要借助AgenticAI能力突破传统运营技能瓶颈,做好算力和数据的高效运营,全面提升数据中心运营韧性和释放数据价值。做好基础设施算力和数据的高效运营需要考虑:一是精细化资源管理与分配,提升资源利用率。要从传统粗放式资源管理转向为各类应用提供更精细更高效的算力供给,全面提升数据中心资源利用率,支撑企业最大化数据价值。要从传统数据孤岛到实现大规模数据的跨域安全可信流通、全局可视可管,突破人工处基于AgenticAI能力,从全局资源监控可视和动态灵活调度两个方面入手,有效帮助企业进行精细化资源运营,实现算力资源高效利用。数据中心是一个虽然高度复杂却可被精细化管控和调优的系统。借助AgenticAI智能运维,使能数据中心极优体验:既保障最佳的业务体验,又达成资源的最优配置与极致的能效表现。在AgenticAI的驱动下,数据中心有望真正实现业务“0”卡顿,全天候绿色低碳运行,全局PUE趋近于1.0x,数据中心真正步入绿色可持续高质量发展阶段。赋能企业精细化资源配置,最大化数据价值,使能数据中心极简运营激增的算力需求在推动计算密度与电力供应规模不断扩大的同时,也显著推高了数据中心的运营成本。数据中心算力规模大,却普遍存在资源利用率偏低的问全局资源监控可视:企业运营人员面临的首要问题是无法有效掌握全局资源的使用情况,缺乏资源的总量、分配、使用、空闲等直观有效的运营数据,缺失资源数据与业务应用的有效对应,人工统计费时费力;同时,对资源的有效使用没有统一的评估标准,缺乏体系化的度量指标,难以支撑运营决策。通过引入智能存储I/O、网络I/O、设备、资源池、业务应用等各项运营指标数据,实现从基础设施到业务应用的全景可观测性,“看清家底”。然后基于汇聚数据进行多维度深度建模分析,如资源配置过低/过载分析、资源分配溯源分析、业务预测与资源规划等等,基于分析结果自动生成可视化的运营报告,给出运营优化建议,支撑运营人员找到“优化点”。动态灵活的资源调度:基于智能体对全局资源的监控动态横向伸缩应用实例数量或纵向伸缩单个实例的资源配置,满足资源与业务的最佳匹配;采用智能调度算法,实现资源的时分复用,按需将资源分配到最合适的业务节点,实现极致弹性,从而提高整体资源利用率。(Agent),面向智算中心训推场景实现资源的全局可视和利用率提升。通过构建运维运营黄金指标体系,建立从业务、作业/服务、平台、硬件的端到端Al全栈资源评估体系,面向基础设施运维人员、AI平台运提供系统化的算力运行水平度量与评估标准。通过提供统一运营看板,从部件、设备、集群、推理服务实例等多个维度实现资源和业务指标实时可视。通过优化智能体与训推平台之间的相互协作,实时感知训推业务潮汐特征,灵活切换训推资源,将白天用于推理的资源在晚上切换到微调训练,将闲置的训练算力切换到推理服务等,实现资源高效利用。图3-5:全局资源监控可视和动态灵活调度场景二:智能数据管理据管理能力。首先,针对于海量、异构数据源的数据产生及处理,进行统一元数据管理,提供统一数据目录和全局数据视图,消除数据孤岛;然后对基础数据分类分级,提升数据质量,优化存储成本,为数据分精准的数据跨域共享和流通,同时严格保护隐私和数据安全,实现数据“可用不可见”。最后,基于全域最大化数据价值,支撑业务成功。海量数据优化治理:AI时代全网数据量急剧增长,90%的闲置归档数据被激活。数据质量是众多数据密集型计算的关键保障,需要海量数据治理能力。基于数据智能体(DataAgents),围绕数据全生命周期使能数据价值。基于智能体,可自动生成数据描述和数据画像、自动对数据分类分级、自动识别数据相似性和相关性等,对元数据进行增强生成,支撑数据管理业务功能;可对数据质量进行优化,识别安全隐私数据主动进行数据保护;可对热温冷数据进行识别和分级存储,有效降低数据存储成本;可对重复冗余数据或过期数据进行主动识别和清理,优化存储空间等。方案价值AgenticAI技术赋能企业高效运营核心资产,通过精细化资源管理提高算力资源利用率,避免资源闲置,提升投资收益;通过智能数据管理实现全局数据可视可管,数据价值得以充分发挥,从而使企业能够在复杂多变的业务环境中保持敏捷性和灵活性,更好地应对未来的挑战。□3.2智慧园区园区是城市的基本单元,是人类生产生活的主要场所,是企业创新与运营的核心载体,其稳定、敏捷、智能的ICT基础设施是保障高效生产、无缝办公与卓越服务的基石。随着各行各业园区业务的不断发展,园区网络的运现代教育正在经历前所未有的变革,传统课堂模式正在被智慧教室、在线教学、VR沉浸式课堂等先进教学方式所取代。校园网络的稳定性和实时性将直接影响教学的质量和体验。随着物联网技术的发展,建设智慧数字校园成为趋势,越来越多的智能物联设备正在接入网络,门禁、照明、空调、温控等设施,通过网络进行智能化管理和控制,一旦网络不稳定,学校的整体运转都会受到极大的影响。实验室等空间,每天都在消耗大量的电能。尤其是网络设备、空调和灯光,往往在无人使用的情况下仍然持续运行,造成了极大的能源浪费,也给学校带来了高额的运营成本。传统的能源管理方式需要人工巡查各个教室,不仅耗时耗力,而且容易出现疏漏。为了建设绿色校园,降低运营成本,学校迫切需要一套智能的节能方案。随着高校教育和学生生活需求的不断变化,大学宿舍的业务需求也呈现出多样化和智能化的发展趋势。现代大学宿舍不仅仅是提供住宿的场所,更成为学生学习、娱乐和社交的综合空间。学生在宿舍内进行在线学习、远程课堂、视频会议等教学活动,同时也需要稳定的网络环境来支持流媒体观看、游戏娱乐和社交应用的使用。接入宿舍网络的终端数量、网络的流量都呈现巨大的增长趋势,学生对宿舍的网络质量的要求也越来越高。2024年中国医院普通门急诊就诊人次超23.8亿,住院人次超2.0亿,手术台次超8000万。面对巨大的医疗服务需求,提升门诊服务效率、病区管理效率、保障患者就诊体验成为当务之急,加速医院智慧化建设迫在眉睫。典型的医疗园区网包含门诊、病房和手术室等场景。门诊是医院服务的窗口,是患者到医院的第一站,门诊服务的优劣直接影响医院的形象。2024年,中国门急诊就诊超23.8亿人次,但全国医生和护士数量不到1000万,极低的医患比使得门诊就医:挂号时间长、缴费时间长、等待时间长,看医时间短的“三长一短”的问题长期存在。为了改善“三长一短”的问题,提升患者门诊体验,构建一张高品质的智慧门诊网络是必备条件。更多的智能设备需要被引入,智能导诊、智能分诊、智能问诊、智能采血、智能发药、自助挂号缴费等等,都依赖大量的智能终端和物联设备来实是门诊网络运维的核心目标。2024年,中国500张床位以上医院人床比为1.2~1.5,而美国梅奥诊所人床比为28.2,二者相差接近二十倍。极低的人床比导致医护人员工作繁重,患者的就医体验也很难得到保证。建设智慧病房,减轻医护人员工作压力,提升医护人员工作效率十分重要。在病房,主要业务包括医生查房、护士作业、患者服务等。目前查房主要使用无线PDA设备,完成患者病历查看,记录患者诊疗数据以及下达医嘱,但是由于医生查房时需要在不同病房穿梭,PDA跨AP漫游可能会发生丢包,从而导致PDA反复登陆,严重影响医生查房效率。漫游不掉线,零漫游成为查房的刚需。护士作业可视对讲呼叫等,都依赖无线网络的稳定性。通过智避免护士在病房间来回穿梭,提升互动效率。能够实时查询住院费用,主动获取医疗服务信息,提升住院的便利性和体验感。这些服务,也都依赖病房网络的稳定性。病房网络的运维也变得越来越复杂。银行正加速向智能化、以客户为中心的全面升级。银行广泛部署视频会议、智能客服和企业协同平台,实现总部与分支机构间的实时沟通与高效决策。智能终端、远程柜员、无感排队与线上线下一体化服务正成为标配,为客户带来更便捷、高效、个性化的服务体远程视频与数据流的低时延传输,以及安全隔离,是金融园区网络的核心要求。典型的金融园区网包含智随着远程办公和移动设备的广泛应用,金融行业IT终端的数量和种类快速增长,随之而来的是管理的复杂度的提升,终端私接和仿冒时有发生,给银行业务带来了安全风险。随着疫情后混合办公模式的常态化,以及全球化运营的推进,视频会议成为金融行业跨区域沟通的核心工具。视频会议、云桌面和协同办公等核心工具的体验,直接影响了员工的工作效率。保障是办公网络运维的核心目标。银行网点正加速从传统服务窗口向智能化、数字化、自助化的综合服务平台演进。智能客服、智能柜员机(VTM)、智能迎宾机器人的引入,提供了高效自助服务接口,减少客户等待时间,提升了客户的体验。银行网点的网络的要求也随着网点业务的不断发展,逐步演进到用户体验的保障。同时银行网点分散,一旦发生故障,上站耗时耗力,故障修复的时间难以得到保障。如何保障网点业务体验,故障修复少上站或零售行业的数字化转型与全渠道战略的深度融合,正在从根本上重塑其网络运维的格局与要求。智慧门店通过物联网设备、人工智能、大数据分析与自动化技术的系统集成,构建了“人、货、场”全要素实时智个性化体验并提升运营效率的同时,也为背后的网络基础设施运维带来了多维度的全新挑战。传统零售网络多以POS终端和监控设备为主,结构相对简单。而数字化门店环境中,接入设备呈指数级增VR试衣镜等大量物联网终端接入网络。海量终端的纳管和监控,以及故障的排查和修复,极大地增加了运维的工作量。大量物联网设备接入扩大了网络攻击面,且设备类型繁杂、安全能力弱,极易成为攻击跳板。同时,支付数据、顾客人脸信息、行为轨迹等敏感数据在网络中传输,对安全合规性要求极高。运维团队需构建端到端的安全架构,实现终端准入控制、网络安全防护、数据隐私保护、异常行为监测等。市场竞争白热化要求新门店能快速开业,业务上线周期被极度压缩。网络运维需支持“门店即插即用”,通过高度标准化与自动化实现远程零接触部署。传统逐店人工配置的方式已无法满足敏捷性要求,运维团队必须构建可复制、可批量交付的网络架构与自动化流程,以支撑业务的快速扩张与迭代。为了应对未来各行各业在园区网络的运维上面临的挑战,华为依托长期依赖在园区网络的深厚积累,推出了智慧园区两大解决方案:AEI@Campus大中型园区解决方案和AEI@Campus分支小型园区解决方案。3.2.1AEI@Campus大中型园区解决方案在大中型园区中,由于网络规模较大、设备数量较地部署的系统为核心,包括iMasterNCE-Campus、鸿蒙联接|即插即用→Q三三见二AEI@Campus分支小型园区解决方案,以华为iMasterCloud智能云管平台网络智能体安全智能体存储智能体终端智能体各行各业在园区网络运维面临的挑战,可以总结为三个方面,即园区网络运维需要朝着极优体验、极高可用、极简运营三个方向持续演进。极优体验用户体验保障应用0卡顿用户0投诉智慧资产管理资产0遗漏资源0浪费 习室等)、园点通感一体目标运营0人工智感自愈业务0故障安全防护目标安全0事故绿色节能目标0碳园区精细化资产管理高效资产盘点极高可用极简运营运营效率高漫游不掉线客户体验优生产不中断办公不中断接入安全安全生产隐私安全零碳园区图3-8:华为AEI@Campus运维价值场景华为在智慧园区推出的两大解决方案的核心在于引入活动交给智能体,释放人力聚焦创新,实现极简运营;AgenticAl,构建具备自主感知、分析、决策与行动能并精准洞察与优化业务体验,保障生产、办公、服务技术的运用,园区运维将被动响应变为主动预防,在更是华为对智慧园区未来运维模式的实践,旨在携手用户无感中闭环问题,实现极高可靠;将复杂的运营客户共同开启运维新范式。构建AI网络优化能力,使能园区极优体验VIP用户体验保障提升VIP客户的体验,能够为企业创造更大的价值。会影响VIP用户的用网体验。华为园区数字平台和园区网络智能体(iMaster-NCE)联合提供了VIP获取VIP信息,并将VIP信息下发给网络罗智能体。网络智能体在赛事开始时,将VIP保障策略下发到网监测VIP的用户体验,及时发现导致VIP体验受损的AIWiFi网络漫游务是否会受损。我们常常会发现,在漫游时,语Al漫游2、基于不同终端款型的漫游画像动态自学习强化学习算法强化学习算法3、画像下发3、画像下发4、基于画像的终端漫游牵引AIWiFi网络调优WiFi网络的问题,大部分和网络覆盖没有调优好有关系。而WiFi网络的调优是一件需要专业知识、专业工具,进行反复实验和调整才能完成的工作。目前业界通用的基于AP部署密度进行调优的方案,仅根据AP部署的位置进行调优,导致调优后网络仍然会存在覆盖问题。问题场景一:未充分考虑到每个AP长期的网络使用规律,导致业务负载较高的AP被调整到了相同用户上网被严重影响。接入用户数多、流量大的AP,被调整到了相同的信道,导致网络干扰严重图3-10:网络干扰问题场景问题场景二:WiFi频宽是一个关键的指标参数,高频宽通常意味着更快的上网速度,但是同时也意味着与周边AP形成更严重的干扰。在传统场景中,频宽常常统一设置为相同的固定值。然而,由于AP的部署通常有的地方AP部署密度高,有的地方AP部署密度低一些。如果当密度低的区域恰巧属于业务量大的区域大量用户共享带宽,导致每个用户的上网速度都受到图3-11:网络频宽分布问题场景问题场景三:WiFi的功率大小,决定着AP信号覆盖的范围的大小。但是,如果功率过大,虽然AP的覆盖WiFi的功率的设置将会设置成一个统一的固定值。然而,室内的场景是非常复杂的。首先室内层高并不是一成不变,办公楼大厅、商场中庭等场景AP通常安装位置很高。其次,室内通常会有很多不规则的障碍物,这会导致某个方向的信号被严重遮挡。这些特殊场景,通常需要根据实际情况,手工做一些调整。但是,这种调整的工作量巨大,一旦调整不到位,这些特殊区域的用户上网体验将很难得到保证。华为园区网络智能体,提供了基于AI的WiFi网络调优能力。园区网络智能体运用数字孪生技术,实时感知网络中真实的终端信号强度数据,识别弱覆盖、高干扰等多种网络覆盖问题。同时,结合网络的用量等数据,为每个AP制定合理的功率、信道、频宽等参数数据。并运用强化学习技术,不断进行调整优化,始终保持园区内WiFi信号最佳。智能推荐功率配置干扰影响度评估一稀疏部署自动识别负载预测一构建故障智感自愈、立体安全防护能力,使能园区极高可用园区网络的架构正日趋复杂,园区设备从传统的有线设备为主,演进到了以无线接入为核心,并深度融合了种类繁多的物联网(loT)终端,这一演变对运维团队提出了更高要求,处理故障也需要运维人员具备广博的跨领域知识。华为园区网络智能体,提供故障Copilot和故障Agent,帮助运维人员更方便地完成故障的处理,保障园区业务实现0中断。可图3-12:网络信号覆盖问题场景故障Copilot辅助处理用户报障园区内总是会发生用户的报障,例如:WiFi连不上、用户无法上网、门禁刷不开、会议卡顿等等,传统纯人工处理报障效率较低,需要运维人员结合各种工具获取数据进行综合分析、逐步排查,当多个用户同时故障Copilot能够辅助运维人员实现高效的报障处理,运维人员只需将故障现象描述输入到故障Copilot中,故障Copilot将自动代替运维人员调用各种工具,最终给出故障根因和处理建议。让报障处理的时间从若干故障Agent实现故障感知、故障定位、业务恢复当园区网络的规模越来越大,运维工作将变得越来越繁重。以某高校为例,全网一共2万个AP,学生和老师每周产生数十个无线网络报障,故障闭环时长通常1-4天,且大量的故障需要依赖上门复现才能定位。园区网络智能体,可以提供故障Agent能力,内置了华为几十年的故障处理经验,通过数字孪生技术,园区网络智能体能够实时感知网络的状态,实时发现网络中的异常,随即自动分析网络异常原因,自动决策故智能的综合防护体系。它以园区安全智能体为核心,用户、业务流、数据及应用)实施闭环防护,切实保接入安全接入安全,即要确保只有合法合规的终端才允许接入这就要求网络智能体、安全智能体之间紧密配合。网络智能体能够根据网络侧终端识别能力,通过协议报文的摘要字段对终端特征进行分析提炼,识别出终端的类型、型号、厂商等信息。终端识别的方法主要包括被动指纹采集、主动扫描和人工智能聚类等。安全智能体能够根据终端EDR采集数据、网络智能体的终端识别数据进行综合分析,判断终端是否具有安全威胁,并与网络智能体联动,阻断风险终端的接网络安全华为提供了三层网安融合架构,打造融合安全解决方内网风险感知,具备6000+应用、Top哑终端的识别;园区网络智能体与安全智能体融合,通过数字孪生技术,实现全网风险实时检测,攻击路径秒级溯源,安云端长期积累的专家经验更新到地端,保障地端智能体能够持续应对新的网络安全威胁。空间安全园区是人们日常工作生活的主要场所,确保人身安全,防止发生安全事故是园区运营的重要目标。园区网络智能体可以与智能网元紧密配合,通过Wi-Fi7、毫米波雷达等技术,实现空间人/物感知,可用于人员入同时随着技术成熟和行业深入,未来还会产生越来越多场景化解决方案。数据上报照数据上报图3-14:办公、酒店立体安全防护赋能企业精细化管理,使能园区极简运营在AgenticAl时代,园区的运营方式也正在发生着改变。网络不仅仅承担了为园区用户提供数据连接的作用,还能够为园区的运营提供了全域实时感知的能力,组成智慧园区智能决策的“神经中枢”,为园区的智慧化运营带来了革命性的升级。园区是一个巨大的能源消耗场所,如何高效、合理地使用能源,以达成零碳园区的目标,是园区运营的重要任务之一。从网络的角度出发,园区网络的节能可以分为两个部分,即网络自身的节能以及通过网络使能整个园区的节能。网络智能节能智能化的新模式。通过园区网络智能体,能够实时感知园区内所有接入的终端资产,为核心资产的精细化管理和空间类共享资源的高效利用提供强大支撑。网络智能体能够自动发现、识别接入网络的各类资产(如笔记本电脑、IP电话、物联网设备),并精准绘制其分布地图。能够为上层资产管理系统提供资产的使用率、资产位置、活跃时间等详细信息,这不仅能有效杜绝资产流失,提高资产盘点的效率,更能帮助资产管理员评估其利用率,为资产采购、报废和调配提供数据依据,避免闲置浪费。结合Wi-Fi通感技术、蓝牙信标等室内定位技术,网络的感知能力从“物”延伸至“人”与“空间”。在共享办公场景中,系统可智能分析会议室、自习室、流动工位的人员实际占用情况。例如,当系统检测到预定时间结束后会议室仍无人状态,可自动释放资源并通知下一批使用者;通过追踪工位占用情况,管理者能优化空间布局与能源控制,实现“按需供给”。随着园区业务的越来越多,园区内的网络设备也越来越多。某国内高校总计2万+AP,一年电费超过240万元。网络自身的能耗管理变得非常迫切。通过对网络使用的分析,大部分的网络使用具有潮汐性,例如:学校在上课期间宿舍的网络使用率极低,但是教学楼的网络使用率很高。食堂的网络仅在就餐时间使用率高。同样,企业办公网络,在工作时间使用率高,在非工作时间利用率较低。华为园区网络智能体,能够长期统计网络的使用规律,对每台设备的使用规律做到精细化管理,识别网络的空闲时间,自动关闭一些具备哑终端识别能力,通过全局的分析,在确保哑终端不掉线的情况下,最大程度节约能耗。网络使能园区节能网络的数据,对使能整体园区节能也具有非常关键的辅助作用。通过网络通感一体技术,能够实时感知园区内人员存在情况,来辅助实现园区内照明、暖通等设施的智能节能。通过网络通感一体技术,与照明系统联动,酒店走廊无人时,仅保留基本照明灯光,人来时全部照明亮起(利于营造氛围).1、通过网络通感技术,自动感知客人离开,离开10分钟后,自动关闭灯光、空调、电视等设施。2、通过网络通感技术,自动感知客人是否熟睡,熟睡后自动关闭电视、窗帘、灯光 (仅保留夜灯)【健身房】通过网络通感技术,自动感知健身房是否有客人在健身,自动管理照明、空调等设施,免人工管理【会议室】人来灯亮、人走灯灭包括照明、空调等【加班场景】非工作时间(晚上、周末),自动感知哪块办公区有人在加班,无人区域灭灯、关闭空调,有人区域亮灯、打开空调,无需物业人员巡检图3-15:酒店、办公智能节能医疗康养管理传统的基于视频的医疗康养监护,具有隐私泄漏的风险。基于WLAN通感一体特性,在规避监控目标隐私泄露风险的前提下,能够实现全天候的用户行为模式监控,包括:人员是否存在、跌倒报警、生命体征检测等等。在医院看护、养老看护、婴幼儿看护方面能够发挥巨大作用。医疗康养应用医疗康养应用跌倒报警电子围栏人员统计园区数字平台园区网络智能体病房、特需病房卫生间、卧室图3-16:医疗康养管理智能会议室所以通常采用会议预定系统来对会议室资源进行管理和分配。然而,这也导致了会议资源的浪费。会议时间变更、会议提前结束没有及时释放会议室资源常有发生。为了避免会议资源的浪费,需要会议室的管理员进行巡逻,人工处置。同时,会议的准备和服务也依赖人工。会议开始前,需要人工提前到会议现场检在Agentic运维时代,网络智能体能够与会议系统、会议终端管理系统进行联动,在会议前自动对会议室内的终端、网络进行检查,确保会议能够正常召开。能够利用WiFi通感一体技术,实时感知会议室内的人员存在情况,实现会议室环境的联动,人来自动开启会议室灯光、窗帘等环境设备以及会议白板、拾音放音等会议音视频设备,提升会议体验。人走自动关闭会在感知到会议室内的参会人员离开后,自动释放会议室资源。真正实现会议室管理的无人化,提升企业园应应用会议应用会议预约会议联动会议室本地联动雨阳郸明图3-17:智能会议室创新案例创新案例随着银行业务数字化进程加速,数据中心运维面临三大关键挑战:运维对象复杂度高(多种类、多型号设备并存)、业务连续性要求高(7×24小时全周期稳定运行)及人工依赖风险高(传统运维效率低、误操作率高)。AlAgent凭借环境感知、自主决策及类人交互能力,成为大模型赋能下的新型运维形态。传统单Agent系统受限于模型认知边界与跨领域协同能力,为突破上述挑战,某大型国有银行创新构建"1+1+N"多Agent智能体系,推动运维模式从"单点智能"向"群体智能"跨越升级,包含:中枢决策层中枢决策层意图描述知识库意图理解结果总结核心调度层任务规划任务调度调度引擎场景化智能体AI数据查询设备巡检健康诊断热成像分析资源关联环境监测资源管理故障预测问题诊断结果生成工程师状态管理结果反馈流程编排图4-1:某大型国有银行"1+1+N"多Agent智能体系1.1个中枢决策层:基于知识图谱+RAG的Agent任务决策引擎,实现任务动态分配。系统能够动态解析运维需求并分配任务至不同智能体。例如,当存储设备出现异常时,系统可联动计算Agent调整负载,并2.1个核心调度层:基于流程编排的调度引擎,实现任务调度、状态管理、结果反馈等模块,解决了传统运维中工具孤岛和人工干预过多的问题。典型应用:3.N个场景化智能体:覆盖计算、存储、基础设施等设备运维,形成覆盖全场景的专业化智能体集群。例如存储Agent,基于华为DME存储数据管理平台,基于大模型技术实现排障任务智能规划与NL2API,构建自然语言交互的智能运维体系,支持存储设备全生命周期的自动化诊断与修复。1.存储智能运维助手:从“人操作工具”升级为“AI指挥工具”,实现存储设备全生命周期的自动化诊断与修复图4-2:存储智能运维助手采用NL2API技术,降低运维复杂度,基于运维大模型,辅助运维人员高效完成复杂运维操作,实现运维体验从界面式到对话式的转变。利用RAG知识引擎+Prompt工程,提升模型意图理解准确率,支持单轮问答90%+,多轮融合85%+。2.设备知识问答助手:构建企业专属的运维知识库,消除大模型幻觉我使用了检素工具,检索了OceanstorPacific扩容命令是什么?这个问题。下面是我的总结结果:前提条件与准备确保待扩容存储节点已完成硬盘物理安装,且主存与缓存的预留空间充足310.登录DeviceManager界面检查存储池状态正常,CPU及硬盘利用率低于50%810.登录与扫描介质使用PuTTY以fzadnin用户通过管理节点执行showaedia_forpoolgeneralip=存储节点IP命令扫描可用的存储介质,确认新增硬OceanStorPacific存储系统的扩容操作需要根据具体扩容场景选择对应方式,通常需通过管理界节点扩容(横向扩展)·需新增存储节点硬件并完成网络配置·通过DeviceManager管理界面或CMC工具执行集群扩容·使用节点自动发现功能或执行节点添加脚本(如precheck/add_node等)磁盘扩容(纵向扩展)·物理插入新磁盘后,通过以下方式操作:a)登录ISM管理平台执行存储池扩容b)使用CLIIaterstoragepoolpool_nameadddisktype=disktypediskquantity=numberaterstoragepoolpool_nameadddisktype=disktypediskquantity=number注意事项:具体操作命令需根据实际版本和组网方式确定扩容前必须完成硬件兼容性校验及容量规划建议通过华为官方文档(需登录Support网站)获取对应版本的《扩容指南》生产环境操作前请联系华为技术支持(400-822-9999)进行方案验证输入以下命令添加硬盘至存储池:参数说明:storage_type:主存介质类型(如ad_card).mainstorage_list:节点P及硬盘标识(SSD卡使用ESN号,其他类型使用槽位号)监控扩容任务通过showtaskall_info查询最新扩容任务ID,使用zhovtaskinfo确保所有分区均衡完成,避免中途操作导致数据不一致110.扩容后验证在DeviceManager界面检查存储池容量变化,确认新增硬盘已加入目标硬盘池910.若为融合池类型,需在新节点上手动同步配置文件(如obs_perties)并重启相关·扩容期间禁止对存储池进行配置修改、数据均衡或节点上下电操作10.·部分机型(如Pacific9550/9350)需在3分钟内完成硬盘抽屉复位,防止高温故障3.·扩容后需确保备机柜节点数与硬盘分布均衡,避免性能瓶颈10.建议通过Web管理界面执行可视化扩容操作,可降低操作风险,如需CLI具体参数,请提供设备型图4-3:知识问答助手通过整合3000+高质量知识专业文档,涵盖产品文档、命令手册、维护指导、故障处理等,支持PDF、DOC、TXT、HDX、Excel等多种格式,构建统一知识入口。利用“词频检索+向量检索”混合检索机制、可配置化分片策略、系统化调优方法指导,大幅提升复杂场景问答准确率。并且,平台可便捷上传行内私有文档知识,持续丰富行内运维知识库。C.领航业务新范式:融合运维场景与大模型/智能体技术助力存算网融合智能运维,首创机器人联动巡检机制,7×24h在线运维;总结:通过“大模型+多Agent”,实现某大型国有银行数据中心运维的四大突破:自然语言交互的智能运维体系,"Al+机器视觉+数字孪生”沉浸式协同运维模式;d.降本增效和提升可靠性:释放重复性工作提升人均效能,多模态智能机器人助力机房运维与园区安防,硬件设备全生命周期自动化管理。□4.2DC金融智算:某头部保险公司联合华为打造智能运随着移动互联网的发展以及大众在支付、消费习惯上的改变,保险的线上业务出现爆发式的增长,对公司“保险数字劳动力”代表了保险行业的未来,传统的保险行业需要营销员来支持大量的运营工作,费时费力。如果能在数字劳动力方面取得突破,将改变保险行业的未来。该保险公司以“保险数字劳动力”作为突破口,积极开展保险领域AI大模型的建设应用,引领新质生产力突破。依托AI大模型打造具备服务闭环和领域专家能力的保险数字劳动力,助力保险业成本结构优化。首先,大模型可以提供等效劳动力,承担重复性脑力劳动,拉齐服务标准,更好地服务客户;其次,通过大模型技在此背景下,该保险公司完成了行业首个支撑千亿级大模型调优的全栈自主创新基础设施建设,当前已部署百卡规模算力,具备向千卡平滑演进的能力。为保障大规模智算集群的高效稳定运行,推进数字劳动力渗透率持续提升,数据中心的运维工作面临前所未有挑战一:如何保障业务的高可靠性。AI训练过程服务器负载高,易出错,平均单次训练时长不超过1天,保障集群极高可用,传统运维方式已显得力不从心,需要借助智能化的运维能力。但单个流的流量大,采用传统Hash算法容易造成网络负载不均,通常情况下吞吐仅有50%,网络运力无法充分利用,进而制约AI训练效率;同时,训推资源分布不均也进一步导致集群整体算力利用率不高。亟需更加有效的机制全面激发算力效能。常规流量采集分析和运维手段失效,网络黑盒,传统网管无法辅助排查故障。面对以上挑战,该保险公司联合华为打造智算数据中图4-4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装饰押金合同范本
- 意向竞买协议书
- 装修门头协议书
- 赠送汽车协议书
- 自行返程协议书
- 赠送商铺协议书
- 资助捐赠协议书
- 营地运营协议书
- 账清了的协议书
- 蒸汽管路协议书
- 知道智慧树西方文论经典导读满分测试答案
- 医药行业合规培训课件
- 水域事故紧急救援与处置预案
- 新能源汽车工程技术专业教学标准(高等职业教育本科)2025修订
- 四川省成都市2023级高中毕业班摸底测试英语试题(含答案和音频)
- 以歌为翼:中文歌曲在泰国小学汉语课堂的教学效能探究
- 2025-2030中国除湿干燥机行业应用趋势与需求规模预测报告
- 2025广东高考物理试题(大题部分)+评析
- 2025年中国国际货运代理行业市场情况研究及竞争格局分析报告
- 家庭教育概论 课件 第5章 亲子关系:家庭教育的起点与结果
- 500千伏输电线路工程项目管理实施规划
评论
0/150
提交评论