2025中国算力发展之AI计算开放架构研究报告_第1页
2025中国算力发展之AI计算开放架构研究报告_第2页
2025中国算力发展之AI计算开放架构研究报告_第3页
2025中国算力发展之AI计算开放架构研究报告_第4页
2025中国算力发展之AI计算开放架构研究报告_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

20252025中国算力发展之AI计算开放架构研究报告单志广张云泉何宝宏张广彬I著支持单位:益企研究院222025中国算力发展之AI计算开放架构研究报告编写委员会CONTENTS·目录 2025中国算力发展之AI计算开放架构研究报告 CONTENTS·目录 20252025中2025中国算力发展之AI计算开放架构研究报告AI计算开放架构研究背景12CHAPTER1·AI计算开放架构研究背景型规模进一步扩大,推动人工智能从感知向认知、从分析判断式向生成式、从专用向根据ScalingLaw(规模定律模型性能与参数其训练的参数量也相应增长至1.8万亿,需要在2.5万张A100上训练90-100着国内大模型技术的长足进步,达到了世界领先水平,DeepSeek大模型的快速推广32025中国算力发展之AI计算开放架构研究报告智算需求迅猛增长,万卡集群建设加速推进。随着AIGC技术发展,以DeepSeek为代表的开源大模型正逐渐渗透到诸多行业,引发新一代人工智能技术发能计算能力和大规模数据处理能力,以应对复杂的算法和模型,处理海量数据,支撑同时,多模态融合技术的兴起,将文本、图像、音频等多种数据模态进行融合处理,Sora、GPT-4o、Gemini等多模态大模型的海量数据、高清晰度的多轮去噪也将带来算力百倍以上的增长。以文生视频大模型Sora为例,Sora生成60秒视频对比《2025人工智能指数报告》显示,标准人工智能训练模型的计算需求约每5个月翻一番,大语言模型训练数据集规模约每8个月翻一番。随着模型参数和训练集群规模越来越大,训练也从单机单卡转变成多机多卡,甚至万卡集群的训练,以支持千亿级甚至万亿级参数规模的大模型训练,从而大幅压缩大模型训练时间,以实现模型大模型推理成为落地应用的关键环节,通过硬件、软件一体化集成,大模型技术能力提升进一步推动了大模型的研发与落地应用浪潮。大模型一体机同时,基础大模型(千亿级以上参数)预训练及高通量推理应用需要大规模智算集群支撑。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层智算基础设施的要求进一步升级,万卡集群成为这一轮大模型基建军备竞赛的标配,万卡集群有助于压缩大模型训练时间,实现模型能力的快速迭代。万卡集群是指由一万张CHAPTER1·AI计算开放架构研究背景4能算法研发及生态服务等方面的技术创新。如Google推出超级计算机A3Virtual训练大语言模型。中科曙光为多个国家级超算中心建设万卡集群,并接入国家超算互联网(SCNet支撑大模型推理、智能体开发、AIforScience科学大模型研发训为国内科技产业的发展贡献了创新动力。大型AI研发企业出于对大全球算力呈现出多元异构发展、智算加速扩张的总体态势。基于2023年全球算2025中国算力发展之AI计算开放架构研究报告5提升计算效率和性能。异构算力融合成为提升算力效能用算力、智能算力和超级算力协同发展的供给体系[《算力基础设施高质量发展行动计划》(工信部联通信〔2023〕180号)]格局进一步强化。其中,智能算力规模在据IDC测算,2023至2028年我国智能算力规模的五年年复合增长率可达到CPU、GPU、FPGA、ASIC等不同类型的处理器在执行模型训练、推理等工作任务时优势各异,通过科学组合可以为不同计算任务匹配最合适的计算资源,从而大幅海光DCU系列、华为昇腾系列、寒武纪思元系列、壁仞科技BR100系列专为CHAPTER1·AI计算开放架构研究背景6虽然算力变得愈加重要,但是其发展却面临供需矛盾问题。一方面,对算力的需求增长迅猛。无论是企业数字化转型,还是智能终端消费和移动数据流量消费规模的不断扩大,都在持续释放算力需求;另一方面,传统的单一计算架构面临性能和功耗型的指令集和体系架构的计算单元组成的系统的计算方式,在云数据中心、边缘计算异构智算技术未来的发展趋势,将会呈现开放、融合、聚合的特点。其中,开放准的;融合是指搭载多种类型的芯片,提供多元的能力;聚合则要求智算中心的建设而软件栈能否无缝地协同、调度不同类型的算力资源,为开发者提供统一、高效1.3中国人工智能发展面临算力瓶颈持续增长,并推动计算系统架构升级。大规模智能计算集群成为支撑大模型创新的关键算力底座。同时,在美国持续加强对华科技战的大背景下,全球信息技术产业生态2025中国算力发展之AI计算开放架构研究报告7在芯片、模型、基础软件等核心技术自主创新突破的基础上,发展更大规模、更等关键算力指标上与英伟达旗舰产品存在2-3代技术差,难以满足大模型训练对高并芯片组成集群来完成任务,既增加硬件成本,也带来集群管理复杂度提升、芯片间数训练同样参数规模的大模型,使用国产芯片的训练费用和时间成本比使用国际先传统的单卡计算已经无法满足人工智能大模型训练的需求,因此多卡集群的方式CHAPTER1·AI计算开放架构研究背景8算力利用率提升至90%。而国产芯片的互联带宽仅200-400GB/s,与国际领先水平卡级及以上集群)总量缺口持续扩大,发达地区的高峰时段或特定应用场景下算力短水平,配套生态跟不上是其中的一个重要原因。如果不进行配套生态的完善,那么即软硬件适配方面,国产算力硬件与各类算法、软件的适配度仍有待提升,算法优是异构芯片,如果不同硬件系统相互封闭,互联总线标准接口不统一,软件栈互不兼容,不能协调和打通,将导致难以实现有效整合利用,无法满足大型企业和科研机构供需匹配方面,我国智算中心在建设初期往往过于注重硬件规模,忽视了应用生许多智算中心建成后,缺乏与之适配的行业应用,大量算力处于空闲状态。部分地方政府主导建设的智算中心,由于没有结合当地产业特色打造应用场景,实际利用2025中国算力发展之AI计算开放架构研究报告HAPTER2AI计算开放架构概念与意义CHAPTER2·AI计算开放架构概念与意义2.1计算架构演变史:合久必分,分久必合最早的计算机是大型主机计算机——占据一个房间的大规模硬件设备。大型主机大型机时代的计算架构是集中式的,即一台或多台主计算机为中心节点,所有数据集中存储并处理,终端或客户端主要负责数据的录入和输出,而数据的存储与控制处理则完全由中心节点负责。其软件的总体架构也是集中式的、封闭的。最典型的代在大型机时代,这些大型机使用专用的处理器指令集、操作系统和应用软件。故随着计算机系统向网络化和微型化方向的快速发展,传统的集中式处理模型逐渐集群就是指一组(若干个)相互独立的计算机,利用高速通信网络组成的一个较大的计算机服务系统,每个集群节点(即集群中的每台计算机)都是运行各自服务的通常一套系统集群架构,只需要几台或数十台服务器主机即可。与动辄价值上百万元的专用超级计算机相比便宜了很多。在达到同样性能需求的条件下,采用计算机柜、超大规模集群为核心载体,通过软硬协同、资源池化与智能调度实现算力效率2025中国算力发展之AI计算开放架构研究报告的系统。与传统架构不同的是,超节点可以通过高速互联技术,弥补),柜服务器中既有服务器、又有机柜,它将机柜和服务器作为一个整体来考虑,采用封闭式设计,将服务器、供电、散热等组件集成于标准机柜内。因为在规模等因素驱动下相对更具备打破次元壁的条件,所以它在互联网和云计算的公司里,以及现在的智2.2集群组网方式:ScaleUp与ScaleOut开放计算的实践始于Facebook在2009年应对基础设施挑战的举措。其设计的CHAPTER2·AI计算开放架构概念与意义项目组。该工作组旨在建立一整套可兼容各类AI加速器的技术标准,解决AI计算基础设施建设中硬件和生态割裂的重大挑战。OAI工作组推进的开放技术规范涉及),GPU、FPGA或其他加速器之间实现高速高效的互联,满足现今高性能异构计算的要了原来云平台管理服务器的办法,通过Scale-up(纵2025中国算力发展之AI计算开放架构研究报告Scale-up通过增加单台服务器(节点)的GPU数量或性能(如使用更高算力的GPU)来提升计算能力,Scale-out通过增加服务器节点数量(分布式架构)来提升张GPU(或AI算力芯片)紧密耦合的集群化架构,旨在突破传统分布式算力集群的是节点内部连接。它的连接速率更高,时延更低,性能更强劲。在2014年,英伟达HSL是海光信息自主研发的高性能互联协议,具有高带宽、低延迟、全局地址空间一致性、全栈开放和灵活扩展等显著特点。相比传统PCIe接口,HSL总线大幅降支持从单机多卡到大规模智算集群的弹性扩展。海光信息宣布在2025年第四季度发CHAPTER2·AI计算开放架构概念与意义2.3AI计算开放架构的概念与定义AI计算开放架构,旨在面向大规模智能计算场景,联合芯片基于开放架构和产业跨层协作优化,一方面以GPU为核心进行一体化紧耦合设2025中国算力发展之AI计算开放架构研究报告•多元算力:适配多品牌GPU加速卡,满足大模型训练推理、AIfor•绿色高效:通过先进液冷等技术,适配高功率高性能加速部件极致•生态繁荣:兼容主流异构计算生态,提高国产AI算力的适用性与易CHAPTER2·AI计算开放架构概念与意义2.4国内外AI计算架构发展一览AI计算效率的核心策略。英伟达的GPU针对大模型训练和推理过程中大规模并行计算的特点,不断优化显存架构与互联技术;Arm的Lumex芯片针对移动端设备电池随着大模型参数规模的不断膨胀,训练所需的算力呈指数级增长,传统单机架构已无法满足需求。国际企业纷纷推出分布式AI计算架构来应对这一挑战。英伟达的随着AI技术对智能终端的需求日益增加,国际企业积极布局,加速推动AI能力在移动端与边缘端的落地。以Arm为代表的科技公司推出的AI移动芯片,搭载于苹通过研发低功耗硬件,并结合轻量化模型适配技术,国际企业实现了边缘端AI计算能力算力提升和成本降低的双重突破,有力地推动了智能设备在各行业、各领域的广泛2025中国算力发展之AI计算开放架构研究报告国内企业注重平台化、联盟化模式推动架构开放,形成产业链合力。OpenI启智型、1000+数据集,提供超10PFlops共享算力,支持高校、企业开发者开展联合研20多家产业链上下游企业,正式发布了国内首个AI计算开放架构,并推出巴Hanguang800芯片支撑Qwen系列大模型在金融风控、医疗影像诊断等场景的CHAPTER2·AI计算开放架构概念与意义2.5AI计算开放架构产品、方案国和世界其他地区的多元化成员企业,涵盖多个关键领域,其使命是为实现可扩展的计算,提供高效的服务器,存储和数据中心硬件成员通过公开分享、开放协作,向全球贡献技术规范、设计方案、白皮书及最佳实践文档,加速包括数据中心在内的IT基础设施创新方案的应用实践。截至目前,OCP已建立了冷却环境、服务器、网络、存储、硬件管理、机架和电源、AI、边缘计算等2025中国算力发展之AI计算开放架构研究报告子项目,推动开放式光交换技术协作,满足人工智能等数据密集型应用对高带宽、低延迟和能效日益增长的连接需求。与传统电交换不据传输,显著降低大规模AI工作负载的功耗并提升可靠性。OCS技术为规模不断扩无缝集成,又能适配相同的软件定义网络API及管理框架,在优化资源配置、提升性而提高数据中心和数字基础设施供应链的效率,其成员包括数据中心运营商、私有云建立全新标准的组织,旨在为不同规模、不同种类的数据中心提供创新方案,解决能耗、密度、灵活性等现实问题。其创新性地引入了“基于模块”的即开放标准,以期获得超大规模的计算效率。凭借独特的电源架设计和机柜模块(Brick该开源设计实现了颠覆性的效率提升、组件复用和成本降低,同时保持了对服务器模ODCC是在中国通信标准化协会指导下,以开放、造活跃、高效、有国际竞争力的生态圈和开放平台,推动形成行业统一、有国际影响CHAPTER2·AI计算开放架构概念与意义ODCC源自2011年由阿里巴巴、百度、腾讯发起,英特尔担任技术顾问的整机开放数据中心委员会,将Scorpio的研究内容从服务器扩展到涵盖模块化数据中心设国信通院、京东和美团。会员单位超过200家,覆盖数据中心行业的上下游企业。OCTC是中国电子工业标准化技术协会的下属分支机构,成立于2022年,主要成员来自ICT最终用户以及上下游生态伙伴,其工作范围涵盖新型数据中心全产业链2024年9月,OCTC正式发布了服务器带内管理软件首个开源项目,旨在为服务器带内管理提供一套功能全面、高性能、易扩展的标准化管理软件,支撑海量设备动打通带内带外管理,软件实现关键性能指标实时收集,利用监控告警机用低于200MiB,采用优化的时序数据库持久化处理性能数据,具备自动熔断能力。国家先进计算产业创新中心于2018年组建成立,旨在围绕国产芯片建立、健全机、基础软件、应用软件、计算服务的全栈技术生态体系。截至目前,光合组织已经2025中国算力发展之AI计算开放架构研究报告2025年9月,国家先进计算产业创新中心一方面协同芯片、整机、应用等企业推进技术能力开放,包括海光信息的开放系统互联总线HSL、曙光数设计规范、曙光DeepAI基础软件栈与OneScience科学大模型开发平台、中科天机人工智能技术在过去几年中迅速发展,在大数据、云计算、深度学习等领域的应导地位,构建起以专用硬件和开源生态协同为核心的发展模式,覆盖云、边、端等多NVIDIAGB200NVL72机架以及计算和交换机托盘液冷设计,是英伟达向OCP贡献的机架级AI算力解决方案,覆盖机架、托盘、液冷、热设计、NVLink互联等多个维度,旨在通过开放标准推动高性能AI基础设施的规模化部署。NvidiaGB200NVL72是基于Blackwell架构的多节点液冷机架级扩展系统,其核心由72exaFLOPS的AI算力,专为万亿参数级生成式AI和高性能计算设计。基于NVIDIASpectrum-X以太网网络平台也增加了对OCP社区规范的支持,在CHAPTER2·AI计算开放架构概念与意义支持,再到分解式调度结构等,为AI硬件的标准化与高密度化奠定了基础。Catalina足AI任务不断增长的计算需求,并解决AI集群中GPU功耗不断增加的Teton平台是MetaAI基础设施的另一重要组成部分,为大规模推荐模型等内存带宽够连接NVIDIA、Broadcom、AMD等多家供应商的加速器与网络端点,是一种开放2025中国算力发展之AI计算开放架构研究报告用自研的达芬奇架构,旨在优化AI计算的效率和灵活性,适应多种AI场景和算法需编程接口,实现对不同芯片架构的适配,对下服务AI处理器与编程,降低开发者门槛。CANN发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。ProcessingUnit支持上下两个计算节点共享稳定性与能效比。在金融领域,招商银行与百度智能云基于昆仑芯P800开展算力合CHAPTER2·AI计算开放架构概念与意义双技术路线超节点产品,可实现单机柜最高64卡的全互联互通,从而大幅提升单节点计算效能。H3CUniPoD超节点产品以算力芯片多元化、互联协议标准化、基础设两个子产品系列,基于不同协议路线,将为不同规模参数的模型训练、推理和精调提曙光scaleX640超节点2025中国算力发展之AI计算开放架构研究报告2.6AI计算开放架构的意义与价值发者需针对单一硬件重构代码,技术壁垒严重制约跨层级协同与突破性研发。AI计算开放架构通过整合芯片、整机、大模型、行业应用等上下游资源,依托产业联盟、实验室等协作机制,推动形成从硬件、软件、算法到应用的全链条优化,提升产业整体创新效能。同时,通过建立统一技术标准体系避免重复研发与同质化竞争,共享编译活多主体创新活力,推动形成多层次、多主体参与的技术创新格局,加速人工智能技CHAPTER2·AI计算开放架构概念与意义件全链条的紧耦合技术体系,通过集群资源动态调度、分布式存储优化、高速网络协同等技术手段,取代传统追求单节点极致性能的发展模式,以集群创新弥补单卡性能差距,提升高端算力供给。此外,采用兼容主流技术标准与自主创新发展并重的技术互联网巨头,中小企业与科研机构普遍陷入用不起、用不好的困境。AI计算开放架构通过开放核心模型架构与训练框架,使中小开发者无需重复投入底层技术研发,可直托集群优化能力,实现算力规模越大、单位成本越低,并结合存算传协同设计、先进传统AI计算架构往往存在VendorLock-in(厂商锁定)陷阱,导致生态资源高度集中于少数巨头,上下游企业缺乏议价权,产业创新活力被抑制。AI计算开放架构凭借硬件兼容、端边云协同特性,让中小企业低成本试错、科研机构聚焦前沿、千行百业加速数字化,各主体在开放体系中自由协作。此外,通过统一接口标准,实现多提供底层支撑,推动AI与制造、医疗、金融等不同领域深度融合,重塑生产与生活范20252025中国算力发展之AI计算开放架构研究报告TR3AI计算开放架构面临的挑战与应对CHAPTER3·AI计算开放架构面临的挑战与应对行动的意见》等政策陆续出台,将智能算力列为智能经为破解当前国内算力产业发展困局,在芯片、基础软件、模型等核心技术自主创曙光、海光、华为、浪潮、新华三、沐曦、壁仞、曦智等众多科技企业都在加快研制智算超节点、超集群等产品,以网强算、以存提算、以电补算、软硬协同等创新以形成合力,导致异构算力协同效率较低,用户使用门槛及成本较高。其原因主要有•技术路线层面,当前我国算力硬件产业需在架构开放性、兼容性与应用成本之间寻找动态平衡,以昇腾、海光、寒武纪、燧原等为代表的主流厂商均采用独立架2025中国算力发展之AI计算开放架构研究报告发展分散的现状,不同架构间尚未形成统一技术向下屏蔽硬件差异,跨架构灵活调度与统一算力•软件栈层面,基础软件栈处于技术和产业发展初期的必经阶段,模型“一次开试、Profiling、性能可视化工具数量与CUDA生态存在差距,且部分工具以封闭商业版为主,社区版功能有待完善;通信库与算子库丰富度有待提升,缺少对标CHAPTER3·AI计算开放架构面临的挑战与应对用开发者之间缺乏高效协作,芯片能力难以通过软件高效赋能上层应架迁移,但对新特性的支持相对滞后,开发者需投入大量时间进3.2AI计算开放架构的目标AI计算开放架构是面向大规模智能计算场景,以GPU为核心进行高效紧耦合系AI计算开放架构聚焦大规模智能计算场景(如千亿级参数大模型训练、超大规模协同设计,精准满足用户在大模型训练推理、科学计算等多元场景下,对多精度、混二是降低算力使用成本,通过标准化技术架构替代专有化方案,推动算力资源从2025中国算力发展之AI计算开放架构研究报告打造支持异构算力的AI计算开放架构,提升我国算力的综合一方面,构建支持异构的大规模、超大规模超算与智算集群,破解跨厂商兼容性不足、集群协同效率较低等共性问题,满足大模型训练对海量算力的集中需求,避免供需错配。另一方面,构建异构协同计算体系,针对单GPU算力无法满足的复杂场景需求(如多模异构算力集成与统一调度,实现不同芯片的功能互补,精准匹配场一方面,构建兼容开放的AI计算架构生态,向下屏蔽跨厂商、跨时具备自主特色的开放生态。另一方面,以开放架构为纽带整合全产业链资源,串联芯片设计、系统集成、大模型开发、应用落地等商无需各自开发专属适配工具,可基于统一开放架构共享技术成果,减少研发资源浪费,推动国产智算产业链精细化发展,促进全CHAPTER3·AI计算开放架构面临的挑战与应对3.3业界应对举措但生态碎片化的背景下,构建一个开放、统一的软件架构是打破技术壁垒、降低开发程开发工具链、AI框架、并行加速库,驱动底层硬件计算编译、执行及调优,赋能大模型训练全流程加速。用户可根据个体需求聚焦细分场景进行适配与应用落地,基于分工协作带来了规模效应,成本得以有效降低。并且,开放繁荣的生态吸引了更多开发者参与,不断催生新的应用与服务,产业创新活性得到极大增强。完全开放模式通过汇聚多方力量、整合多领域资源,以集群算力弥补单卡性能差距,通过生态协同降225算力计构2025中国算力发展之AI计算开放架构研究报告AI计算开放架构部署案例CHAPTER4·智算中心AI计算开放架构部署案例中科曙光于2025年9月推出的AI超集群系统,从底层硬件层、AI软件栈层践行开放体系架构,以大模型训练推理、行业大模型微调、高通量推理、多模态大模百P级AI算力,最大支持百万卡大规模集群组网扩展。该系统兼容主流AI计算软件生态,已全面适配优化算子模型,可曙光AI超集群系统之星云系列NEBULA800图2025中国算力发展之AI计算开放架构研究报告训练推理性能达到业界主流水平2.3倍。由于当前GPU发展速度快,存储、网络的带宽和延迟成为瓶颈。该系统遵循让数水平2.1倍;通过集群容灾系统架构、快速Checkpoint等机集群平台软件,内置管理调度大模型,实现百万级部CHAPTER4·智算中心AI计算开放架构部署案例沐曦AI计算集群部署案例沐曦AI计算集群部署在上海市松江区,该智算中心为市属唯一国资高端数据中心、上海市公共算力基础设施底座及算力服务平台。该集群底层硬件层均采用沐曦曦云C系列计算卡,AI软件栈层具备高兼容性、高沐曦AI计算集群规模据统计已超万卡,采用沐曦曦云C系列产品建设规模为320台GPU算力服务器(共计2560卡)的高能效国产算力资源池。作为异构计算开放平台,支持各类主流大模型基础训练框类主流大模型分布式加速框架,如DeepSpeed、InternLM、Colossal-能分布式存储系统,可为大模型训练等AI应用场景提供算力支持。集群卡直出光互连接口实现高效的Scaleup网络,实现了更高带宽的卡间互推理等AI任务,并可为各类科学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论