2025中国算力发展之AI计算开放架构研究报告_第1页
2025中国算力发展之AI计算开放架构研究报告_第2页
2025中国算力发展之AI计算开放架构研究报告_第3页
2025中国算力发展之AI计算开放架构研究报告_第4页
2025中国算力发展之AI计算开放架构研究报告_第5页
已阅读5页,还剩39页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIAI12025中国算力发展之AI计算开放架构研究报告 CONTENTS·目录目录CONTENTS一、AI计算开放架构研究背景 01AI计算需求持续增长 02大模型持续发展,AI算力需求不断攀升 02AI应用泛在化,万卡集群建设加速推进 03大模型持续创新与应用深入,驱动AI计算模式升级 03万卡、十万卡超大规模集群不断涌现 04国内异构算力发展趋势 04算力多元异构融合发展 04异构算力系统的发展现状与趋势 05智算中心的异构算力发展趋势 06中国人工智能发展面临算力瓶颈 06AI芯片单卡性能相比国际先进水平存在代差 07发展集群算力是突破算力瓶颈的关键举措 07智算配套生态系统不完善,削弱整体算力效能 08二、AI计算开放架构:概念与意义 09计算架构演变史:合久必分,分久必合 10大型机时代 10集群时代 10智能时代 10集群组网方式:ScaleUp与ScaleOt 11开放架构协议发展 114ScaleUp超节点与ScaleOut分布式扩展 124 2025中国算力发展之AI计算开放架构研究报告AI计算开放架构的概念与定义 14国内外AI计算架构发展一览 16国外AI计算架构发展一览 16国内AI计算架构发展一览 17AI计算开放架构产品、方案 18国内外相关机构现状及进展 18国内外相关开放架构产品发展情况 21AI计算开放架构的意义与价值 25有助于推动跨层协作,加速AI技术迭代创新 25有助于破解算力瓶颈,弥补性能和供给缺口 25有助于降低使用成本,推进全行业算力普惠 26有助于强化产业协同,构建共建共赢的生态 26三、开放架构面临的挑战与应对 27面临的困难与挑战 28AI计算开放架构的目标 30业界应对举措 32四、智算中心AI计算开放架构部署案例 33曙光AI超集群系统案例 345沐曦AI计算集群部署案例 3656 6CONTENTS·目录五、展望:智能时代的中国智算产业生态 37智算产业生态未来趋势 38算力规模不断扩大,呈多元化创新趋势 38芯片国产替代加速,国产GPU百花齐放 38布局端边云协同,算力部署进一步优化 39AI计算开放架构发展倡议 39加快标准研制,构建产业协同生态 39攻关技术难题,突破算力效率瓶颈 40优化运营管理,提升智算服务质量 40AI1AIAI研究背景CHAPTER1·AIAI大模型持续发展,AIChatGPTSoraDeepSeek型规模进一步扩大,推动人工智能从感知向认知、从分析判断式向生成式、从专用向AII发式增长。根据ScalingLaw(规模定律),模型性能与参数量、训练数据量和计算资源之间存在幂律关系。GPT-3GPT-1GPT-3,模型在各项任务表现提升的同时,参数量也增长了1500OpenAIGT-31750GPT-4理和文本理解上展示出了强大能力,GPT-4模型生产的内容已接近人类创作水平,而其训练的参数量也相应增长至1.82.51009-100GPT-53-5token13-30GPT年初,DeepSeek大模型的发布,标志着国内大模型技术的长足进步,达到了世界领先水平,DeepSeek大模型的快速推广AI22025中国算力发展之AI计算开放架构研究报告AI智算需求迅猛增长,万卡集群建设加速推进。随着AGC技术发展,以DeepSeek为代表的开源大模型正逐渐渗透到诸多行业,引发新一代人工智能技术发MOEforScience)能计算能力和大规模数据处理能力,以应对复杂的算法和模型,处理海量数据,支撑各类应用和业务创新。同时,多模态融合技术的兴起,将文本、图像、音频等多种数据模态进行融合处理,Soa、GT-4o、Gemini带来算力百倍以上的增长。以文生视频大模型SoraSora60GPT-33000600170600《2025人工智能指数报告》显示,标准人工智能训练模型的计算需求约每5个月翻一番,大语言模型训练数据集规模约每8个月翻一番。随着模型参数和训练集群规模越来越大,训练也从单机单卡转变成多机多卡,甚至万卡集群的训练,以支持千亿级甚至万亿级参数规模的大模型训练,从而大幅压缩大模型训练时间,以实现模型能力的快速迭代。AI大模型推理成为落地应用的关键环节,通过硬件、软件一体化集成,结合分布式并行推理等技术能有效提升推理效率,出现一体机、推理集群等新的产品服务形式。大模型技术能力提升进一步推动了大模型的研发与落地应用浪潮。大模型一体机作为“软硬协同、开箱即用”的智能化基础设施AI地的核心载体。预训练及高通量推理应用需要大规模智算集群支撑。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层智算基础设施的要求进一步升级,万卡集群成为这一轮大模型基建军备竞赛的标配,万卡集群有助于压缩大模型训练时间,实现模型能力的快速迭代。万卡集群是指由一万张3CHAPTER1·AI(GPU、NU、TPUI)系统,用以训练基础大模型。4)万卡、十万卡超大规模集群不断涌现国外GoogleMetaMicrosoft能算法研发及生态服务等方面的技术创新。如Googe3VirualMachines,26000块NvidiaH100GPU,同时基于自研芯片搭建TPUv5p8960Meta16,000NvidiaA100A|AlResearchSuperCluster,2024NvidiaH100AIAIAI12288AmpeeMegaScale训练大语言模型。中科曙光为多个国家级超算中心建设万卡集群,并接入国家超算互联网(SCNet),支撑大模型推理、智能体开发、AIforScience科学大模型研发训练等场景。AI杂算法计算的迫切需求,正积极投建超万卡集群以满足其大模型的计算需求。国内异构算力发展趋势1)算力多元异构融合发展全球算力呈现出多元异构发展、智算加速扩张的总体态势。基于60.55%ERP3.81%,其规模扩张主要AI2.64%,主要服务于气候模拟、新药研发、国防军工等重大科研任务。42025中国算力发展之AI计算开放架构研究报告CPU、GPU、FPGA、ASIC等不同类型的处理器在执行模型训练、推理等工作任务时优势各异,通过科学组合可以为不同计算任务匹配最合适的计算资源,从而大幅提升计算效率和性能。异构算力融合成为提升算力效能的最优选择。计划》(工信部联通信〔〕180)]格局进一步强化。其中,智能算力规模在大模型和生成式人工智能的迅猛发展下快速提升。《算力发展报告》显示,截至61085788EFlops(FP16)。据IDC测算,2023至2028年我国智能算力规模的五年年复合增长率可达到46.2%[国际数据公司IDC、浪潮信息《2025年中国人工智能计算力发展评估报告》]。2)异构算力系统的特征与优势延迟的双重计算需求,传统的同构计算架构已无法满足日益复杂的计算需求。CPU、GPU、FPGA、ASIC等不同类型的处理器在执行模型训练、推理等工作任务时优势各异,通过科学组合可以为不同计算任务匹配最合适的计算资源,从而大幅提升计算效率和性能。异构算力融合成为提升算力效能的最优选择。DCU系列、华为昇腾系列、寒武纪思元系列、壁仞科技BR100等AIGPUASICRK3588AIFPA、集成5CHAPTER1·AINPU等架构芯片,重点应用于智能手机、智能汽车、工业机器人等,满足边缘与终端Nebla800CPU、GPUforScience3)智算中心的异构算力发展趋势一代人工智能发展的基本范式。虽然算力变得愈加重要,但是其发展却面临供需矛盾问题。一方面,对算力的需求增长迅猛。无论是企业数字化转型,还是智能终端消费和移动数据流量消费规模的不断扩大,都在持续释放算力需求;另一方面,传统的单一计算架构面临性能和功耗瓶颈,无法满足日益高涨的算力需求。GPUNPU的异构计算,将成为常态。异构计算(HeterogeneousComputing),主要指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,在云数据中心、边缘计算场景等有着广泛应用。异构智算技术未来的发展趋势,将会呈现开放、融合、聚合的特点。其中,开放准的;融合是指搭载多种类型的芯片,提供多元的能力;聚合则要求智算中心的建设需求在超大规模前提下采用领先的技术,保证自身的先进性。而软件栈能否无缝地协同、调度不同类型的算力资源,为开发者提供统一、高效的程序设计界面,将成为各智算中心发展的关键。中国人工智能发展面临算力瓶颈近年来,人工智能(AI)AI持续增长,并推动计算系统架构升级。大规模智能计算集群成为支撑大模型创新的关键算力底座。同时,在美国持续加强对华科技战的大背景下,全球信息技术产业生态体系加速调整。中国智算产业面临两大挑战:单卡算力性能瓶颈、算力成本高。62025中国算力发展之AI计算开放架构研究报告在芯片、模型、基础软件等核心技术自主创新突破的基础上,发展更大规模、更AI网强算、以存提算、以电补算、软硬协同等创新策略方法不断出现。AIAIFP2(单精度浮点)、FP16(半精度浮点)2-3行计算效率的需求。AI芯片组成集群来完成任务,既增加硬件成本,也带来集群管理复杂度提升、芯片间数据交互延迟等问题。训练同样参数规模的大模型,使用国产芯片的训练费用和时间成本比使用国际先进芯片多30%-50%,影响研发效率与创新速度。而制约了单卡算力密度的发挥。2)发展集群算力是突破算力瓶颈的关键举措传统的单卡计算已经无法满足人工智能大模型训练的需求,因此多卡集群的方式7 CHAPTER1·AIIDC埃隆·马斯克(EonMusk)AIGok3,在单一集群里部署了20H100GPU2014GPU协同工作的NVLinkNVLink1.2TB/s。NVLink290200-400GB/s,与国际领先水平仍有一定差距。卡间互联带宽低,导致在构建大规模集群以训练超大规模模型时,性能将大打折扣。(卡级及以上集群)总量缺口持续扩大,发达地区的高峰时段或特定应用场景下算力短缺问题仍然突出。3)智算配套生态系统不完善,削弱整体算力效能30%50%-60%便我国在智算硬件投入上不断加大,算力依旧难以得到高效运用。软硬件适配方面,国产算力硬件与各类算法、软件的适配度仍有待提升,算法优化投入不足,影响了硬件性能的充分释放。生态协同方面,国内宣布拥有千卡规模的算力集群不少于100个,但其中大部分是异构芯片,如果不同硬件系统相互封闭,互联总线标准接口不统一,软件栈互不兼容,不能协调和打通,将导致难以实现有效整合利用,无法满足大型企业和科研机构对大规模模型训练的需求。供需匹配方面,我国智算中心在建设初期往往过于注重硬件规模,忽视了应用生态的培育,导致算力供给与用户实际需求脱节。许多智算中心建成后,缺乏与之适配的行业应用,大量算力处于空闲状态。部分地方政府主导建设的智算中心,由于没有结合当地产业特色打造应用场景,实际利用率仅在20%-30%。8AI9AIAI概念与意义CHAPTER2·AI计算架构演变史:合久必分,分久必合1)大型机时代最早的计算机是大型主机计算机——占据一个房间的大规模硬件设备。大型主机最初是独立的机器,能够执行复杂的计算任务。大型机时代的计算架构是集中式的,即一台或多台主计算机为中心节点,所有数据集中存储并处理,终端或客户端主要负责数据的录入和输出,而数据的存储与控制处理则完全由中心节点负责。其软件的总体架构也是集中式的、封闭的。最典型的代表是IBM公司的System/360,以及由其他厂商,如Amdahl,HitachiDataSystems(HDS)制造的兼容的系统。在大型机时代,这些大型机使用专用的处理器指令集、操作系统和应用软件。故此,大型机不仅仅是一个硬件上的概念,更是一个硬件和专属软件的有机整体。2)集群时代随着计算机系统向网络化和微型化方向的快速发展,传统的集中式处理模型逐渐难以满足人们的需求,计算架构走向集群时代。集群就是指一组(若干个)相互独立的计算机,利用高速通信网络组成的一个较大的计算机服务系统,每个集群节点(即集群中的每台计算机)都是运行各自服务的独立服务器。通常一套系统集群架构,只需要几台或数十台服务器主机即可。与动辄价值上百万元的专用超级计算机相比便宜了很多。在达到同样性能需求的条件下,采用计算机集群架构比采用同等运算能力的大型计算机具有更高的性价比。3)智能时代的跃升。超节点,即Superpod,是一种用于构建大规模算力集群的技术架构。此概念最GPU“超级计算节点”102025中国算力发展之AI计算开放架构研究报告的系统。与传统架构不同的是,超节点可以通过高速互联技术,弥补原先服务器间带宽不足以及高时延等问题,以期实现算力效率的优化。Google1999木板服务器”(corkboaderer),可以说是互联网行业最早的整机柜服务器。整机柜服务器中既有服务器、又有机柜,它将机柜和服务器作为一个整体来考虑,采用封下相对更具备打破次元壁的条件,所以它在互联网和云计算的公司里,以及现在的智算时代得到较为广泛的应用。GW过级联多个超节点形成万卡乃至数十万卡的集群。集群组网方式:ScaleUpScaleOut1)开放架构协议发展开放计算的实践始于Facebook2009年应对基础设施挑战的举措。其设计的2011Inel、acspace(OCP),旨在硬件领域创造类似开源软件的协作创新。11CHAPTER2·AIOCPOAI(OpenAcceleratorInfrastructure)项目组。该工作组旨在建立一整套可兼容各类AI加速器的技术标准,解决AI计算基础设施建设中硬件和生态割裂的重大挑战。AI工作组推进的开放技术规范涉及UBBHIB等9AIAI是项目组中进展最为迅速的领域。设计规范定义了加速器模块互联形式和通用规范。AIAIAMAIOAI-UBB(UniversalBaseboard)设计规范。2019,OCPOAI-UBB1.0AI-UBB.0产品。2016IBM和Xilinx等公司成立了OpenCAPI联盟(OCC),旨在为处理器、内存扩展和加速器提供行业支持的缓存一致性互连。IBMCoherentAcceleratorProcessorInterface(CAPI)技术,并将其向外开放。2019EMC、Facebook、谷歌、HPE、华为和微软ComputeExpressLink(CXL)AMDArmComputeEXpressLink(CXL)CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,满足现今高性能异构计算的要CXL3.0ScaleUpScaleOut万亿参数大模型的训练,需要万卡、十万卡的训练集群支持。为了让集群能够管理更多的GPU卡,业界借鉴了原来云平台管理服务器的办法,通过Scale-up(纵向扩展)和Scale-out(横向扩展)实现系统扩展。122025中国算力发展之AI计算开放架构研究报告Scale-up(节点)GPU(如使用更高算力的GPU)来提升计算能力,Scaleout(分布式架构)来提升Scale-upScale-outScale-upGPU(I)紧密耦合的集群化架构,旨在突破传统分布式算力集群的通信瓶颈,提升整体计算效率。ScaleUpScaleOutAIScaleUp2014NVLINKNVLIKGPUPCIe,时延也低得多。NVINKI的AIAMD公司推出了UALINKETH-X、ALS、OISA等项目。9HSL(High-performanceScalableLink)。HSLPCIeHSL支持从单机多卡到大规模智算集群的弹性扩展。海光信息宣布在年第四季度发SL1.0610AIHSLAICPU协同,解决国产智算服务器“适配难”的问题,推动“即插即用”的便捷性。ScaleOutInfiniband(IB)RoCEv2术都是基于RDMA(远程直接内存访问)的时延,负载均衡能力也更强。13CHAPTER2·AIAIAI等产业链上下游企业,从单点突破走向集成创新,实现产业链开放跨层优化,破解“技术墙”和“生态墙”,主要为了解决算力瓶颈、算力成本高的问题。基于开放架构和产业跨层协作优化,一方面以GPU为核心进行一体化紧耦合设 14AI AIAII用性,降低模型软件开发适配成本,保护用户软硬件投资。AI绿色高效:通过先进液冷等技术,适配高功率高性能加速部件极致散热需求,支撑算力中心高密度部署,提升系统能效。IOGPUScale-upScale-out卡间、节点间数据传输带宽,提升全局系统访存通信效率。GPUIrScience、科学计算等多元场景下多精度、混合精度运算需求。15CHAPTER2·AIAIAI专用硬件创新引领算力突破专用硬件创新引领算力突破AIGU算的特点,不断优化显存架构与互联技术;rmumxAI化与创新,做到场景决定架构,实现算力的最大化利用与突破。分布式架构优化云端算力调度分布式架构优化云端算力调度AI随着大模型参数规模的不断膨胀,训练所需的算力呈指数级增长,传统单机架构已无法满足需求。国际企业纷纷推出分布式AI计算架构来应对这一挑战。英伟达的SuperPODNVLinkGPU紧密连接在一起,构建超级计算集群;谷歌通过专用网络架构,实现TPUAIAIIAIArmAIAIAI力算力提升和成本降低的双重突破,有力地推动了智能设备在各行业、各领域的广泛AI技术从云端走向终端的进程。162025中国算力发展之AI计算开放架构研究报告AI自主创新突破技术壁垒自主创新突破技术壁垒AIAI产业协同构建开放生态产业协同构建开放生态大模型驱动应用场景落地国内企业注重平台化、联盟化模式推动架构开放,形成产业链合力。OpenI/OpenI]AI2000+0+10PFlops25AIAI0AIAI“AI计算开放架构联合实验室这一系列举措标志着中国智能计算产业从单点技术突破迈向集群化协同创新的新阶段。大模型驱动应用场景落地AIansormerHanguang800Qwen系列大模型在金融风控、医疗影像诊断等场景的AI17CHAPTER2·AIAI1)国内外相关机构现状及进展开放计算项目基金会(OpenComputeProject,OCP)OCP2011Facebook(Meta)联合英特尔、Rackspace、高盛和AristaNetworks450国和世界其他地区的多元化成员企业,涵盖多个关键领域,其使命是为实现可扩展的计算,提供高效的服务器,存储和数据中心硬件设计,以减少数据中心的环境影响。成员通过公开分享、开放协作,向全球贡献技术规范、设计方案、白皮书及最佳实践文档,加速包括数据中心在内的IT已建立了冷却环境、服务器、网络、存储、硬件管理、机架和电源、I、边缘计算等40150ITIIDC2529CP190036%,28%。OCP(Chiplet)技术作为重点发展领域,在芯片架构层面突破传统GPUAIHPCUCIeOCP(OCS)18AI延迟和能效日益增长的连接需求。与传统电交换不同,OCS利用光子技术实现光路数AICSAIAPIAI优化而设计的ScaleUp。而提高数据中心和数字基础设施供应链的效率,其成员包括数据中心运营商、私有云据中心和边缘生态系统的个人会员。SSIApen1016LinedIn建立全新标准的组织,旨在为不同规模、不同种类的数据中心提供创新方案,解决能耗、密度、灵活性等现实问题。其创新性地引入了“基于模块”的即插即用机架架构的开放标准,以期获得超大规模的计算效率。凭借独特的电源架设计和机柜模块(Brick该开源设计实现了颠覆性的效率提升、组件复用和成本降低,同时保持了对服务器模块内部技术的独立性。1,Open19LinuxLinux的主要项目。12,SSIAOpen19v248V容的冷却系统的互操作能力,可实现不同液冷技术供应商的设备连接和替换。EquinixOpen19v2100ODCC是在中国通信标准化协会指导下,以开放、合作、创新、共赢为宗旨,围造活跃、高效、有国际竞争力的生态圈和开放平台,推动形成行业统一、有国际影响力的规范和标准,促进产业合作、技术创新和推广应用。19CHAPTER2·AIODCC2011年由阿里巴巴、百度、腾讯发起,英特尔担任技术顾问的整机柜服务器标准化项目“corpio”,旨在通过统一设计规范降低数据中心部署成本并提升扩展效率。2014Scorpio计、开放网络等更广的领域。目前,ODCC的决策组成员为腾讯、阿里巴巴、百度、中国电信、中国移动、中国信通院、京东和美团。会员单位超过200家,覆盖数据中心行业的上下游企业。ODCC300ITIT进产业健康、快速发展,满足国家对于数据中心绿色、集约、高效发展的要求。9OCTC务器带内管理提供一套功能全面、高性能、易扩展的标准化管理软件,支撑海量设备IPMI动打通带内带外管理,软件实现关键性能指标实时收集,利用监控告警机制,可实现秒级监控与故障智能预警,且支持插件化扩展,其平均CPU消耗不超过3%,内存占00MiB,采用优化的时序数据库持久化处理性能数据,具备自动熔断能力。在兼容性上,软件采用GoBMCAgentBMC国家先进计算产业创新中心于2018年组建成立,旨在围绕国产芯片建立、健全CPU、GPU到上层应用,建立起完善的自主创新体系,补齐供应链短板,提升产业国际竞争力。年,在国家先进计算产业创新“光合组织机、基础软件、应用软件、计算服务的全栈技术生态体系。截至目前,光合组织已经600028个实体生态适配中心,基于海光C86+DCU202025中国算力发展之AI计算开放架构研究报告计算平台,推动1.5万余项软硬件适配测试优化项目,基本形成从技术研发到市场拓展的生态闭环。9月,国家先进计算产业创新中心一方面协同芯片、整机、应用等企业推进技术能力开放,包括海光信息的开放系统互联总线HSL、曙光数创的液冷超节点DeeAIOneScience0“AI”型-硬件适配优化等难题,破解“硬件墙”“生态墙”壁垒;推进关键场景验证,针对大模2)国内外相关开放架构产品发展情况人工智能技术在过去几年中迅速发展,在大数据、云计算、深度学习等领域的应AIAIAIAI导地位,构建起以专用硬件和开源生态协同为核心的发展模式,覆盖云、边、端等多AINVIDIAGB200NVL72机架以及计算和交换机托盘液冷设计,是英伟达向OCPI算力解决方案,覆盖机架、托盘、液冷、热设计、NVLnk联等多个维度,旨在通过开放标准推动高性能AI基础设施的规模化部署。NvdiaGB00NVL72Blackell架构的多节点液冷机架级扩展系统,其核心由72BlackwellGPU36GraceCPUNVLink-C2CaFOPSAIAINVIDIANVL72Spectum-XCPOCPAI21CHAPTER2·AIMetaAICatalinaGrandAICatalina机架基于NVIDIABlackwellAINVIDIAGB200GraceBlackwellAIAIGPUGandeonMetaIAMDInstinctMI300XOCP-SAIMetaFBOSSRoCE接口,能NVIDIA、Bodcm、AMD等多家供应商的加速器与网络端点,是一种开放AIArmumxCSS计算平台,聚焦低功耗AI计算领域,引入了跨CP、PUIPAIAIC1CPUArm可伸缩矩阵扩展(SME2)单元,为Arm生态ArmKleidiAIumxCSS平台带来性能上的强大表现以及设计上的灵活性、应用开发上的便捷性。目前,ArmumxCSS902200LumexCSS222025中国算力发展之AI计算开放架构研究报告Arm“半开放”或“有限开放”的高级IPIPArm生态内部的“优化集成套件”。AIAI华为推出Ascend系列AI芯片和其开源的软件平台,形成“”协同体系。华为昇腾芯片采用自研的达芬奇架构,旨在优化I计算的效率和灵活性,适应多种IN作为针对I场景推出的异构计算架构,对上支持多种I编程接口,实现对不同芯片架构的适配,对下服务IN发挥承上启下的关键作用,是提升昇腾I处理器计算效率的关键平台。通过昇腾硬件使能NAA争的开放计算体系,目前已支撑华为云s平台及近千款行业I字节跳动定义了“大禹”服务器架构,通过核心标准统一与场景灵活扩展的设计理念,支持多样性算力,在开放与性能之间找到了关键平衡点。“大禹”通过优化服务器架DU(DataPocessingUnt),支持上下两个计算节点共享一个PUOpenBMC的发展,提高系统互操作性;三是存储部件,高密场景采用E1S3.S000TB80WE2IUFP8等混合精度计算。其第三代产品采用自研的PI稳定性与能效比。在金融领域,招商银行与百度智能云基于昆仑芯开展算力合23CHAPTER2·AIH3CUniPoDGPUPCIe双技术路线超节点产品,可实现单机柜最高64点计算效能。H3CUnioDH3CUniPoDS80000H3CUniPoDF80000两个子产品系列,基于不同协议路线,将为不同规模参数的模型训练、推理和精调提供有针对性地算力支撑。CPI0路510,面向万曙光scaleX640超节点242025中国算力发展之AI计算开放架构研究报告AI产业整体创新效能。000可为两侧超节E400IAIAIAI发者需针对单一硬件重构代码,技术壁垒严重制约跨层级协同与突破性研发。AI开放架构通过整合芯片、整机、大模型、行业应用等上下游资源,依托产业联盟、实验室等协作机制,推动形成从硬件、软件、算法到应用的全链条优化,提升产业整体创新效能。同时,通过建立统一技术标准体系避免重复研发与同质化竞争,共享编译AI活多主体创新活力,推动形成多层次、多主体参与的技术创新格局,加速人工智能技术迭代创新。2)有助于破解算力瓶颈,弥补性能和供给缺口AI“脱钩断链”风险加剧,国际巨头通过封闭生IAI计算开放架构以GPU25 CHAPTER2·AI件全链条的紧耦合技术体系,通过集群资源动态调度、分布式存储优化、高速网络协同等技术手段,取代传统追求单节点极致性能的发展模式,以集群创新弥补单卡性能差距,提升高端算力供给。此外,采用兼容主流技术标准与自主创新发展并重的技术路线,构建自主可控生态闭环,规避技术断供风险,保障算力供给的稳定与可持续。3)有助于降低使用成本,推进全行业算力普惠数字经济时代,AIAI互联网巨头,中小企业与科研机构普遍陷入用不起、用不好的困境。I接基于开源基础模型开展垂直领域微调,降低技术准入门槛,让全行业“用得上”;依托集群优化能力,实现算力规模越大、单位成本越低,并结合存算传协同设计、先进冷板液冷等技术,在提升性能的同时降低能耗与运维成本,让全行业“用得起”;整合分散硬件资源形成共享算力池,支持按需取用与行业灵活适配,让全行业“用得好”。4)有助于强化产业协同,构建共建共赢的生态IendrLock-in(厂商锁定)陷阱,导致生态资源高度集中于少数巨头,上下游企业缺乏议价权,产业创新活力被抑制。I凭借硬件兼容、端边云协同特性,让中小企业低成本试错、科研机构聚焦前沿、千行百业加速数字化,各主体在开放体系中自由协作。此外,通过统一接口标准,实现多品牌硬件兼容,有效破解国产算力生态碎片化难题,让分散的资源形成合力,为“I+”AI式,推动跨领域协同创新,最终构建资源共享、优势互补、利益共赢的产业生态。26AIAIAICHAPTER3·AI济的基础支撑,I“算力底座,其I计算开放架构应面临的困难与挑战为破解当前国内算力产业发展困局,在芯片、基础软件、模型等核心技术自主创AI业共识。曙光、海光、华为、浪潮、新华三、沐曦、壁仞、曦智等众多科技企业都在加快研制智算超节点、超集群等产品,以网强算、以存提算、以电补算、软硬协同等创新策略方法不断出现。AI以形成合力,导致异构算力协同效率较低,用户使用门槛及成本较高。其原因主要有以下两点:国产算力硬件正处于“多线并进”的爬坡期,多元异构融合需突破新瓶颈。技术路线层面,当前我国算力硬件产业需在架构开放性、兼容性与应用成本之间寻找动态平衡,以昇腾、海光、寒武纪、燧原等为代表的主流厂商均采用独立架构路CUDA生态垄断的战略决心,但也在一定程度上导致了算力产业282025中国算力发展之AI计算开放架构研究报告发展分散的现状,不同架构间尚未形成统一技术标准与接口规范,未能完全实现资源聚合效应。硬件适配与应用落地层面,当前计算架构对异构硬件适配性有严格要求,目前未能向下屏蔽硬件差异,跨架构灵活调度与统一算力调用接口的构建仍在攻关中,这在AI同时,架构完善需要时间积累,当前阶段用户在硬件选型上的灵活度不足,构建成熟稳定的算力服务体系还需行业协同发力。国产算力软件进入加速完善、持续补位阶段,自主生态体系正在构建。软件栈层面,基础软件栈处于技术和产业发展初期的必经阶段,模型“一次开试、Pofiling、性能可视化工具数量与CUA生态存在差距,且部分工具以封闭商业版为主,社区版功能有待完善;通信库与算子库丰富度有待提升,缺少对标NCCL的跨芯片、跨节点、自适应拓扑通信库,高阶算子开发周期相对滞后。生态层面,国内软硬件生态虽初有布局,但芯片厂商主要聚焦于建立“小生态”,短期内难以形成对标英伟达CUDACUDA20400国产软硬件生态整体呈现“小、散、弱”的格局,生态国产软硬件生态整体呈现“小、散、弱”的格局,生态29CHAPTER3·AI相比之下,我国AIGPU芯片+CUDA+Pytorch“小也无法及时反馈至技术迭代环节。国产软硬件生态虽支持、调优,使用门槛和迁移成本较高。AIAI计算开放架构是面向大规模智能计算场景,以GPU为核心进行高效紧耦合系统设计的协同创新体系。AI计算开放架构聚焦大规模智能计算场景(如千亿级参数大模型训练、超大规模数据推理、多模态智能交互等),其核心目标是为解决智算产业两大痛点:AI协同设计,精准满足用户在大模型训练推理、科学计算等多元场景下,对多精度、混合精度运算的需求,实现算力供给与实际应用需求高效对接;二是降低算力使用成本,通过标准化技术架构替代专有化方案,推动算力资源从头部企业专属,延伸到全行业可获取,最终实现算力普惠与生态繁荣的双重价值。302025中国算力发展之AI计算开放架构研究报告目标一 目标一 T A R G E T打造支持异构算力的AI计算开放架构,提升我国算力的综合利用水平。一方面,构建支持异构的大规模、超大规模超算与智算集群,破解跨厂商兼容性不足、集群协同效率较低等共性问题,满足大模型训练对海量算力的集中需求,避免供需错配。另一方面,构建异构协同计算体系,针对单GPU算力无法满足的复杂场景需求(如多模态处理、科学计算与AI融合任务),通过“CPU+GPU+DPU+NPU”异构算力集成与统一调度,实现不同芯片的功能互补,精准匹配场景化算力需求,提升算力综合利用率。目标二 目标二 T A R G E T打破“技+”,促进不同厂商协同共建完全自主算力生态。一方面,构建兼容开放的AI计算架构生态,向下屏蔽跨厂商、跨时具备自主特色的开放生态。另一方面,以开放架构为纽带整合全产业链资源,串联芯片设计、系统集成、大模型开发、应用落地等各环节,打破“技术孤岛”局面,避免行业内“重复造轮子”,不同厂商无需各自开发专属适配工具,可基于统一开放架构共享技术成果,减少研发资源浪费,推动国产智算产业链精细化发展,促进全行业算力普惠。31 CHAPTER3·AI业界应对举措算力是数字时代的“石油”,AIAI但生态碎片化的背景下,构建一个开放、统一的软件架构是打破技术壁垒、降低开发成本、形成规模效应的可行路径。业界发展集群算力、打破“技术墙”和“生态墙”通常存在两种路径方式,一种是部分开放,一种是完全开放。一是“类大型机”/“类苹果”的部分开放模式,底层硬件相对封闭,上层软件栈及应用可细分适配。GPU紧耦合上提供统一的接口规范。AIAI程开发工具链、AIAI二是“类Cuer”/“类安卓”的完全开放模式,底层硬件层、AIAI层均可自定义适配。AI“类安卓”模式中,产业分工协作带来了规模效应,成本得以有效降低。并且,开放繁荣的生态吸引了更多开发者参与,不断催生新的应用与服务,产业创新活性得到极大增强。完全开放模式通过汇聚多方力量、整合多领域资源,以集群算力弥补单卡性能差距,通过生态协同降低应用迁移成本,为创新提供多元试错空间,从而持续推动算力提升与生态培育。32AIAIAICHAPTER4·AI[ 案例[ 案例CASE1 ]曙光AI超集群系统中科曙光于259I超集群系统,从底层硬件层、IU张GPU大模型训练推理、行业大模型微调、高通量推理、多模态大模SAI6180B/s,50TBs,可实现PAIAI大幅降低模型开发门槛,实现大模型训推快速部署上线,并通AINEBULA800图34AI .3GPUGPU55%。AI121RAS(MTBF)21Checkpoint制,使平均故障修复时间(MTTR)GridView集群平台软件,内置管理调度大模型,实现百万级部件故障自动分析与秒级隔离。AIAIGPU流软件生态,为用户提供更多选择,并大幅降低模型软件开发与迁移成本。35 CHAPTER4·AI[ 案例[ 案例CASE2 ]沐曦AI计算集群部署案例AI高端数据中心、上海市公共算力基础设施底座及算力服务平台。该集群底层硬件层均采用沐曦曦云CAI能效、高速互联、稳定可靠等特点,能够满足通用计算、AIAI计算集群规模据统计已超万卡,采用沐曦曦云C系列产品建设规模为GPU算力服务器(2560)的高能效国产算力资源池。作为异构计算开放平台,支持各类主流大模型基础训练框Pytorch、、、MindSpore类主流大模型分布式加速框架,如DeepSpeed、InternLM、Colossal-AI、Megatron-LM等;并通过不断地优化来实现更高AI网络互联层面,该智算中心采用先进的400GRoCE网络,配合高性能分布式存储系统,可为大模型训练等AIRDMAScaleoutGPUScaeup1664卡光互连超节点的国

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论