开源大模型时代下先进计算演进的研究报告 2025_第1页
开源大模型时代下先进计算演进的研究报告 2025_第2页
开源大模型时代下先进计算演进的研究报告 2025_第3页
开源大模型时代下先进计算演进的研究报告 2025_第4页
开源大模型时代下先进计算演进的研究报告 2025_第5页
已阅读5页,还剩127页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

开源大模型时代下先进计算演进的研究报告自2022年底ChatGPT引爆全球以来,大模型已成为人工智能产业最重要的技术方向。2023年Meta发布Llama系列开启了开源大模型的新纪元;2024年至2026年间,DeepSeek、Qwen、Llama3、Mistral、GLM等开源大模型在性能上不断逼近甚至超越闭源模型,深刻地改变了全球AI产业格局。开源大模型的快速发展极大降低了大模型应用的技术与经济门槛,激发了千行百业的创新活力,但同时也对底层先进计算基础设施提出了前所未关键技术演进路径与标准化需求。研究发现,先进计算正面临三大翻倍,推理需求因多步推理与智能体的普及在两年内可能增长百万倍;其二,异构算力生态出现碎片化趋势,NVIDIACUDA生态主导战,迁移与优化成本居高不下;其三,推理部署场景日益多元化,云端集群推理、边缘侧推理、端侧本地推理对算力、内存、功耗的差研究指出,先进计算正沿着AI芯片架构创新、异构融合与算力池化、先进互联网络、推理优化技术、开源软硬件协同五大方向加速演进。其中,Chiplet芯粒技术、HBM3e/HBM4高带宽存储、UEC/UALink/CXL等新兴互联标准、vLLM/SGLang等开源推理框架以及Triton/OpenXLA/MLIR等开源编译生态,共同构成了先进计算演进的关键技术底座。报告特别关注了2026年4月发布的DeepSeek-V4预览版,作为开源大模型时代的里程碑事件,V4在DSA稀疏注意力、mxFP4训练精度、国产算力Day0适配等方面的技术突破,基于上述研究,报告在第四章针对国内外标准现状提出了三大类标准化需求建议,涵盖开源大模型与算力适配、先进计算系统与互联、开源软件栈与生态等方向,为后续标准化工作和产业协同提 2 4 8 8 81.1.2算力需求从训练驱动转向推理与Agent执行驱动 10 18 21 25 26 27 28 32 3.2.2Chiplet芯粒技术 33 38 39 40 3.5.2ContinuousBat 41 43 44 45 47 59 59 59 60 61A.2.1全新注意力机制:DSA+CSA+HCA混合架构 64 第一章概述本章旨在阐明本研究项目的背景、研究目的与研究范围,为后续章节的具体分析奠定基础。开源大模型时代的到来,对全球AI产业格局产生了深远影响,也对支撑大模型训练、推理与部署的先进计算基础设施提出了系统性的新要求。本研究希望通过系统梳理产业实践与技术演进趋势,识别先进计算演进过程中的核心问题与高优先级标准需求,为联盟成员单位、产业链上下游以及标准化工作入全面爆发阶段。在此后的三年多时间里,大模型已经从学术研究走向产业应用,从实验室原型走向千行百业的真实业务场景,成为人工智能领域最受关注、最具影响力的技术方向之一。在大模型生2023年初,Meta公司发布Llama系列大模型并将其权重开放,正式拉开了开源大模型时代的序幕。在此之前,业界主流认为只有具备超大规模算力与海量数据的企业才能训练出高质量基础模型,开源模型在性能上与闭源模型存在显著差距。然而,Llama系列的发布及其后续的快速迭代彻底改变了这一认知。学术界与产业界基于Llama的权重进行了大量微调、对齐、蒸馏研究,衍生出Alpaca、Vicuna、WizardLM等数以千计的衍发布Llama3、Llama3.1、Llama3.x等一系列更强的开源模型;法国Mistral公司推出Mistral、Mixtral等具有竞争力的开源MoE架构模型;阿联酋技术创新研究院发布Falcon系列;Google开放了Gemma系列;零一万物的Yi系列、百川智能的Baichuan系列等优秀开源大模型层出不穷,在各类公开评测榜单上不断刷新纪录,部分指标已经追平HuggingFace作为全球最大的开源AI模型社区,模型库收录的模型数量已突破百万量级,其中以中英文为主的大语言模型占据相当大的比例。开源生态已经成为推动AI技术普及、降低AI应用门槛、激发产业创新活力的核心力量。值得一提的是,根据HuggingFace发布的2026年春季全球开源AI生态报告,过去一年该平台上而国产开源大模型全球累计下载量已突破100亿次,标志着中国在开源路线的快速发展不仅改变了AI技术的供给格局,更深刻地影响了产业生态:一方面,开源大模型让更多中小企业、开发者、科研机构能够以可负担的成本接入前沿AI能力,催生了大量创新应用与商业模式;另一方面,开源大模型与闭源大模型形成了相互制衡的市场结构,促使闭源厂商在性能与价格上保持持续优化的压力,整随着大模型从训练阶段走向大规模产业化部署,算力需求的结关注的焦点主要集中在训练阶段:一次完整的预训练通常需要数千至上万张高端GPU、消耗数月时间,训练成本可达数千万至数亿美元思维链(Chain-of-Thought)、智能体(Agent)等新型应用形态的兴起,算力需求的重心开始从训练驱动转向推理+Agent执行驱动。与传统单次问答式推理不同,Agent驱动的应用需要进行多轮对话、工具调自我反思与规划等复杂操作,单次任务的算力消OpenAI及EpochAI等研究机构的统计与预测显示,大模型训练由于多步推理范式与智能体应用的但其指向的趋势是明确的:推理算力将成为未来大模型时代算力需求的主要构成。中国信通院发布的数据也印证了这一趋势——中国新增算力中,智能算力占比已经超过70%,而其中推理算力的增速明从全球AI基础设施市场的规模看,不同的统计口径给出了不同的数字。AMD公司在其投资者交流中预测,2027年全球数据中心AI加速器市场规模约为4000亿美元,这一数字主要按芯片销售口径统计。然而,如果按照全栈基础设施口径(包括芯片、整机、互联网络、机架、电力、冷却等)计算,英伟达预计仅其一家在2025年至2027年的累计订单就将超过1万亿美元,而到2030年,全球AI基场空间,既反映了产业对AI算力的旺盛需求,也意味着先进计算产昇腾、寒武纪、海光、燧原、摩尔线程、壁仞、天数智芯、沐曦、瀚博等一批国产AI芯片厂商,在大模型训练与推理场景中实现了规已经在国产算力上实现了大规模推理部署,并在最新的DeepSeek-V4模型中将早期访问权限独家开放给国产芯片厂商,标志着前沿开源大模型与国产算力首次形成同步发布节奏。这一事件具有深远的产业意义:它不仅证明了国产算力在前沿大模型场景下的可用性与可行性,更打通了开源大模型与国产算力软硬件协同的关键链路,为与此同时,国内主要云服务厂商、互联网公司、智算中心运营方也加速了对国产算力的采纳。多个超大型国产算力集群陆续投入运营,部分集群规模已经达到万卡量级,在大模型训练、推理服务等场景中提供了可靠的算力供给。可以说,先进计算的自主化进程已经从过去的“补短板”阶段,迈入了“创新驱动、生态共建”的新阶而是涉及芯片、整机、互联、系统、软件、生态等多层面的系统性工程。一颗高性能AI芯片如果缺乏与之匹配的高带宽互联、高速存储、成熟的软件栈与开源生态,其实际可用性将大打折扣。反之,即便单卡性能存在差距,通过先进的互联网络、优秀的并行训练框架、精细的推理优化技术,也能够构建出有竞争力的整体算力解决正因为如此,先进计算正在从过去的“芯片为王”逻辑,演变为AI算力市场占据主导地位,不仅仅依靠GPU芯片本身的性能优势,cuDNN/cuBLAS等算子库、Triton推理服务器、TensorRT-LLM等推理框架共同构成的“全栈优势”。中国乃至全球其他算力厂商要在这一格局中找到自己的位置,必须以系统级、生态级的视角进行整体布局。先进计算作为开源大模型时代的关键基础设施,正从单点芯片创新走向系统级、生态级的全面演进,是产业发展的关键支撑。这也正是本研究报告希望系统梳理与深入分析从支撑大模型训练、推理、部署的关键技术出发,识别先进计算演进过程中的核心问题与高优先级标准需求,为后续标准化工作和产本报告重点围绕开源大模型时代下先进计算的演进路径展开研聚焦AI芯片架构创新、Chiplet(芯粒)技模型时代特有的芯片设计需求,以及3D封装、HBM3e/HBM4高带聚焦异构算力融合、大规模训练集群、先进互联网络等系统级技术。重点关注NVLink、NVSwitch、CXL、UEC(UltraEthernetConsortium)、UALink等节点内/节点间互联标准,以及光互联、聚焦开源软件栈、统一编程框架、推理优化引擎等软件生态。聚焦开源大模型在国产算力上的迁移、适配与优化最佳实践。重点关注模型量化、稀疏化、长上下文优化、KVCache管理、投机聚焦开源软硬件协同、产业链协作模式与标准化需求。重点关注开源大模型团队、AI芯片厂商、智算中心、云服务厂商、行业应本研究采用文献研究、产业调研、专家访谈、案例分析等多种方法相结合的研究路径。在文献研究方面,系统梳理了国内外政府部门、行业协会、咨询机构、学术机构发布的相关报告与论文;在产业调研方面,与联盟内多家AI芯片厂商、整机厂商、云服务厂商、开源大模型团队进行了深度交流;在案例分析方面,选取了DeepSeek●通过严谨的工作流程与多元化的研究方法,本报告力求在内容上做到全面、客观、前瞻,在形式上做到结构清晰、重点突出,为第二章产业现状与发展趋势涵盖开源大模型生态全景、产业政策与战略导向、主要应用场景、产业链格局以及发展趋势研判等五个方面。通过对产业现状的全面梳理,为后续章节关于技术演进路径与标准化需求的分析建立必要在国际方面,Meta公司持续迭代Llama系列,从2023年的Llama1、型能力不断提升,在长上下文、多模态、代码生成等维度均有显著进步;法国Mistral公司推出的Mistral7B、Mixtral8x7B、Mixtral8x22B等模型,以其精巧的MoE架构与优秀的性价比,在欧洲与全球市场广受欢迎;阿联酋技术创新研究院(TII)发布的Falcon系列在中文与阿拉伯语场景表现突出;Google开放的Gemma系列则将谷歌内部Gemini系列的部分技术能力以更小参数规模的形式开源给社区;NVIDIA也开源了Nemotron系列模型,以推动其GPU平台上的在国内方面,中国开源大模型在2024年至2026年期间取得了令系列模型,以极具竞争力的性价比与先进的架构设计在全球开源大码、数学等领域全面对标国际一流水平;智谱AI的GLM系列有特色;百川智能的Baichuan系列、零一万物的Yi系列、上海人工智能实验室的InternLM系列等,共同构成了中国开源大模型的丰富生根据OpenRouter平台2026年包括腾讯Hy3preview(以3.66万亿tokens的调用量位列第一,环比增长298%)、月之暗面KimiK2.6(1.8万亿tokens)、DeepSeekV4人民网英文版对此事件进行了报道,认为这一现象标志着中国大模开源大模型在协议选择上呈现出多样化的特点。不同的协议反映了模型权重发布方对于商业化使用、修改再分发、衍生作品等不允许商业使用、修改、再分发,DeepSeekV4等模型即采用了MIT协议进行开源,极大地降低了下游使用门槛。Llama系列采用了相对独特的LlamaCommunityLicense,在大多数场景下允许免费商用,但Qwen系列、GLM系列等大多采用Apache2.0协议或类似的宽松协从开放程度看,开源大模型呈现出多个层级:第一层是仅开放模型权重,允许下载、推理、微调,但不公开训练代码与训练数据;第二层是开放权重+训练代码;第三层是开放权重+训练代码+部分训练数据;第四层是完全开放(权重、代码、数据、训练日志全部公开)。当前业界主流仍以第一层和第二层的开放为主,完全开放的模型相HuggingFace作为全球最大的开源AI模型托管平台,已经成为开源大模型生态的核心基础设施。其模型库收录的模型数量已经突破百万量级,涵盖大语言模型、多模态模型、语音模型、视觉模型模型训练、微调对齐到推理部署的全流程工具链,极大地降低了开除HuggingFace之外,国内也涌现出ModelScope(魔搭社区)、国产算力适配、合规要求等方面发挥着不可替代的作用。这些平台与开源大模型团队、芯片厂商、应用开发者共同构成了开源大模型近期,国家与地方政府陆续出台政策,明确鼓励开源大模型与先进计算协同发展。这些政策从产业引导、基础设施建设、应用示范、标准制定、人才培养等多个维度,为开源大模型与先进计算的国务院发布的《关于深入实施“人工智能+”行动的意见》明确指出,要大力支持开源大模型生态建设,推动国产算力与开源模型的以开源大模型为重要抓手,推动人工智能与实体经济的深度融合,国家发改委、工信部、科技部等多部委联合发布的《算力基础设施高质量发展行动计划》提出,到2025年,中国算力规模超过计划明确了“东数西算”工程的进一步深化方向,要求在内蒙古、宁夏、甘肃、贵州、四川、京津冀、长三角、粤港澳、成渝等八大算力枢纽节点构建国家算力网络的核心骨干,服务于AI大模型训练等从顶层设计层面明确了智能算力作为数字经济新型基础设施的战略北京、上海、深圳、广州、杭州、成都、武汉等地相继发布大模型创新发展政策,通过算力券补贴、智算中心建设、模型开源激励、应用场景开放、人才引进等多种措施,构建开源大模型与先进北京市发布的《加快建设具有全球影响力的人工智能创新策源企业和科研机构使用国产算力进行补贴。上海市的《上海市推动人工智能大模型创新发展若干措施》明确了对开源大模型团队的奖励地方政策的一个共同特征是更加注重产业落地与应用场景,通业的融合。例如,杭州依托其电商与互联网产业基础,推动开源大模型在智能客服、商品推荐、内容生成等场景的应用;成都依托其完善的金融与政务信息化基础,推动开源大模型在政务服务、金融风除政府主导的政策外,中国信通院、人工智能产业发展联盟、安全治理、互操作等系列规范。这些行业自律性的标准与规范,虽然不具有强制性,但对引导产业健康发展、形成共识、降低交易成行业应用、安全可信等多个维度对开源大模型进行系统性评测,为产业各方选择和使用开源大模型提供了客观参考;人工智能产业发展开源大模型驱动先进计算需求多元化。不同的应用场景对算力规模、互联带宽、内存容量、功耗预算、推理时延等关键指标的要求差异巨大,这促使先进计算从过去相对单一的架构走向高度多元化的演进路径。本节系统梳理开源大模型时代下的五类典型应用场大规模预训练是开源大模型生态的“上游”环节,主要由头部AIInfiniBand或RoCE网络的带宽与时延有严苛要求。Checkpoint恢复时间也成为重要的性能指标。大规模预训练场景的需求驱动着AI芯片向更高算力密度、更大参与者更广泛的环节。无论是行业应用厂商基于Llama、Qwen进行行业大模型构建,还是企业基于开源基座进行私有数据微调,都属微调场景对国产算力来说是非常重要的市场切入点。相比超大规模预训练,千卡级微调对单卡极致性能与超大规模互联的要求相云端推理服务是开源大模型时代算力消耗的主战场。无论是型构建的各类API服务、聊天机器人、智能助手,本质上都依赖大●KVCache管理是核心:Transformer架构的自回归推理中vLLM、SGLang、TensorRT-LLM正是为了应对云端推理服务这一核心场景的需求。这些框架在吞吐量、延迟、资源利用率等关键指标上不断刷新业界纪录,成为推动随着模型量化、蒸馏、剪枝技术的成熟,以及苹果M系列、高务器、PC、手机、车载等终端设备上本地运行中小型开源大模型已差异化机会。在这一领域,中国厂商凭借丰富的应用场景、完整的供应链、快速的迭代能力,有望形成相对独立于国际市场的产业生智能体(Agent)与多模态是开源大模型应用的两大新兴方向。Agent通过开源大模型的推理能力、工具调用能力、规划能力,实现对复杂任务的自主完成;多模态则将文本、图像、视频、语音等多种模态融合处理,大幅扩展了大模型的应用边界。这一场景的特征状态等大量上下文信息,对长上下文支持能力要求极高●低延迟交互:Agent场景通常要求快速响应,首token延迟模态注意力等模块的算力需求与传统大语言智能体与多模态场景的兴起,正在重塑先进计算的需求结构。传统以“训练算力”为核心的硬件设计逻辑,正开源大模型时代的先进计算产业链可以分为上游、中游、下游三个层次。上游聚焦于核心硬件与基础设施,中游聚焦于平台与工具,下游聚焦于应用与终端。三个层次相互协同、相互促进,共同Hopper(H100/H200)、Blackwell(B100/B200/GB200)系列产品占据全球数据中心AI加速器市场的主要份额。AMD的MI300、MI325系列以及Intel的Gaudi系列构成NVIDIA的主要挑华为昇腾(Ascend910B/910C)、寒武纪(MLU370/MLU590)、海光(深天数智芯(BI-V100)、沐曦(MXC500)等国产AI芯片厂商构成了多元HBM存储方面,SK海力士、三星、美光三家供应商占据全球HBM市场的几乎全部份额;近年来,国内的长鑫存储也开始在探索和实践。HBM3、HBM3e已经在最新一代AI芯片中规模应用,HBM4也即将进入量产阶段。HBM的容量、带宽、功耗、堆叠层数直接决定了AI芯片的性能上限,因此HBM供应能力成为AI芯片厂星的I-Cube等先进封装技术,以及UCIe等Chiplet互联标准的成熟,正在推动AI芯片设计从单一巨芯走向多芯粒集成的新范式。Chiplet光互联方面,博通、思科、华为等厂商主导的光互联与CPO(共封装光学)技术,在800G、1.6T等高带宽场景下展现出对传统电互联的全面优势。光模块、光交换机、光纤等光通信器件的进步,为大产业链中游主要包括智算中心、云服务厂商、训练推理平台、智算中心方面,以国家级算力枢纽节点为核心,各地相继建设了一批超大规模智算中心,如北京、上海、深圳、合肥、贵阳、内蒙古乌兰察布、宁夏中卫、甘肃庆阳等地的智算中心,部分单点规模已经达到万卡量级。这些智算中心既服务于本地AI企业的算力需头为主导,国内则以阿里云、华为云、腾讯云、百度智能云、火山引擎等为代表。云服务厂商不仅提供算力租赁服务,更在自研AI芯例如,阿里云的灵骏智算集群、华为云的昇腾AI云服务、腾讯云的HCC高性能计算集群等,均已成为支撑大模型训练与推理的重要基基于PyTorch进行训练。在推理侧,vLLM、SGLang、TensorRT-LLM、LMDeploy、MLC-LLM等开源推理引局,各自在不同应用场景下展现优势。在编译与优化方向,Triton、OpenXLA、MLIR、TVM等开源编译框架,为异构算力提供了统一产业链下游主要包括开源大模型团队、行业应用厂商、终端设验室(InternLM)、阶跃星辰、百川源大模型的供给方,也是先进计算需求的最重要驱动力之一,他们行业应用厂商方面,涵盖了金融、医疗、教育、政务、制造、零售、传媒等几乎所有行业。这些厂商基于开源大模型构建行业大模型、智能助手、Copilot应用等,直接服务于最终用户。开源大模型的普及,使得行业应用厂商能够以可控的成本快速构建定制化AI终端设备制造商方面,手机、PC、汽车、机器人、智能家居等终端设备厂商正在加速将开源大模型集成到自身产品中。苹果、华头厂商,均已经在自身产品中集成了端侧大模型能力,这一趋势进一步推动着端侧AI芯片、低功耗推理、本地化部署等技术的发展。数的大模型,算力高达1PBFlops(FP4精度下AIPC这种形态的综合以上分析,本节对开源大模型时代下先进计算的发展趋势一方面,大模型训练算力需求持续增长,但增速可能逐步放缓——业界已经普遍认识到单纯依靠“暴力扩展”(ScalingLaw)的边际收益递减,算法效率、数据质量、训练范式创新正在成为模型能力提升的更关键因素。另一方面,推理算力需求将进入超指数增长阶段,Agent驱动的多步推理、长上下文、多模态等新场景将持续抬升单次任务的算力消耗。这一供需结构的重构,意味着先进计算的设过去十年,GPU几乎成为AI算力的同义词。但在开源大模型时代,异构算力融合的趋势愈发明显:一方面,CPU、GPU、NPU、DPU等不同类型加速器在大模型工作负载中各司其职,需要通过统一的软件栈实现协同;另一方面,不同厂商、不同架构的AI芯片甚至同一任务中混合使用的需求日益突出。算力池化、异构调度、难以撼动的护城河。然而,在开源大模型时代,情况正在发生微妙提供了相对中立的中间层;PyTorch2.0引入的pile以及与Triton的深度集成,使得算子开发变得相对厂商无关;vLLM、术为核心,正在重塑推理软件栈格局。开源软件栈的繁荣,客观上削弱了CUDA的相对优势,为国产算力厂商提供了重要的窗口期。从2024年到2026年,国产AI算力经历了从“小规模实验”到“规政务云中规模部署;海光DCU在科研、能源、教育等行业广泛应用;寒武纪、燧原、摩尔线程等厂商也在各自的优势领域形成了稳定的客户群。特别是DeepSeekV4将早期访问权限独家开放给国产芯片厂商,标志着前沿开源大模型与国产算力的协同进入了“Day0适配”在开源大模型生态高度活跃、AI芯片厂商百花齐放、互联与软件栈技术快速演进的背景下,标准化的重要性愈发凸显。从UEC、UALink、UCIe等国际新兴标准的快速推进,到国内TC28SC42、CCSA等组织的标准布局,产业各方都在加速构建有利于自身发展的标准体系。在这一过程中,谁能够更早、更系统地把握标准化机综合上述五大趋势,可以预见,开源大模型时代下的先进计算软件、生态、标准的全方位、多层次系统竞争。这也正是本研究后第三章先进计算的主要技术路线本章系统研究先进计算在开源大模型时代下的主要技术演进方向,涵盖AI芯片架构创新、异构融合与算力池化、先进互联网络、推理优化技术、开源软硬件协同等五大方向,并对各方向中的关键技术挑战进行深入分析。这五大方向相互关联、相互促进,共同构围绕开源大模型时代的算力需求,先进计算正沿着以下五大方●推理优化技术——KVCache压缩、投机解码、量化核心计算包括矩阵乘法(MatMul)、注意力机制(Attention)、(LayerNorm)、激活函数(GELU/SiLU)等。其中,矩阵乘法占据了绝大部分计算量,而注意力机制由于涉及QKV的计算与Softmax,对针对Transformer架构的特点,新一代AI芯片在设计上做出了多项专用化优化。以NVIDIAHopper架构为例,引入了专门面向以及TransformerEngine这一专用加速模块。在Blackwell架构中,这些专用化优化被进一步强化,并引入了对FP4等更低精度数据格大模型中得到广泛应用。MoE通过仅激活部分专家(Expert)的方式,在保持模型总参数量的同时大幅降低单次推理的计算量。然而,MoE的稀疏激活模式给硬件带来了新的挑战:专家路由的负载不均、All-to-All通信的网络开销、动态计算图的调度复杂度等。新一代AI芯片正在通过专用的稀疏计算单元、动态路由调度机制、增强的文意味着注意力计算的复杂度从二次方降低到线性的算法创新(如传统的单芯片(MonolithicDie)设计在面对超大规模AI芯片时面临一系列挑战:晶圆良率随面积增大而急剧下降、设计复杂度难以控制、不同功能模块的工艺节点选择受限、产品迭代周期延长等。Chiplet技术通过将原本一颗大芯片拆分为多个小芯粒(Chiplet),再通了CPU核、GPU核、HBM、I/O等多种功能模块;Intel的PonteB200/GB200则将两颗GPUDie通过NV-HBI高速互联整合为一颗“超级GPU”。在国内,华为昇腾、摩尔线程、壁仞、寒武纪等厂商也在Chiplet方向进行了多种探索。Chiplet技术的关键支撑是高速互联协议。UCIe(UniversalChipletAMD、ARM、Samsung、TSMC等业界巨头共同推动布,带宽密度、能效比持续提升。除UCIe外,英飞凌的BoW(Bunch国内Chiplet生态建设方面,中国电子工业标准化技术协会发布了《小芯片接口总线技术要求》(T/CESA1248—2022)等团体标准,中科院计算所、复旦大学等也在Chiplet互联协议、先进封装、测试方法等方面开展了大量研究。Chiplet作为先进计算芯片层面的关键内存墙(MemoryWall)是大模型时代AI芯片设计中最严峻的挑战之一。Transformer架构的注意力计算、MoE架构的专家激活、长上求。HBM(HighBandwidthMemory)作为目前业界最高带宽的主流内AMDMI300X/MI325X等)中广泛应用,单堆栈容量达到24GB、36GB,带宽达到1.2TB/s以上。HBM4作为下一代标准,将进一步将单堆栈带宽提升至2TB/s以上,容量提升至48GB、64GB,堆叠层HBM技术的核心供应商是SK海力士、三星、美光三家,占据HBM供应安全已经成为AI芯片产业的重要议题。在国内,长鑫存有较大差距。HBM国产化是未来几年中国AI芯片产业必须攻克的除了传统冯·诺依曼架构下的优化外,存算一体(Computing-in-Memory,CIM)、近存计算(Near-MemoryComputing)等新型计算范式也在大模型时代获得了新的关注。这些范式的核心思想是将计算存算一体技术按照存储介质的不同可以分为基于SRAM、于ReRAM、MRAM等新型存储器的存算一体方案具有更高的能效国内在存算一体领域的探索较为活跃。知存科技、九天睿芯、亿铸科技、后摩智能、千芯科技、苹芯科技等创业公司,在端侧低功耗AI推理、图像处理、特定垂直场景等方面已经推出了产品化的存算一体芯片。虽然存算一体在大模型训练等场景的应用仍处于早期阶段,但其在端侧推理、特定算子加速等场景已经展现出独特价大模型时代的算力扩展呈现出Scale-up(节点内向上扩展)与Scale-out(节点间向外扩展)双轮驱动的特征。卡、更大显存、更高互联带宽来提升单节点的算力上限;Scale-out通过更多节点、更先进的集群互联来提升集群的总算力规模。两者各的标杆。NVL72通过NVLinkSwitch将72颗BlackwellGPU连接为一个统一的计算单元,提供高达130TB/s的all-to-all带宽,实现了“机架即芯片”的设计理念。AMD、华为、海光等厂商也在朝着类似方向布局,推出超节点级解决方案。这种Scale-up的极致化,使得节点内的算力规模与互联带宽得到大幅提升,为大型MoE模型的训练与推理提供了关键支撑。速以太网络互联,实现万卡乃至十万卡级别的超大规模算力。在这一规模下,集群拓扑设计、负载均衡、容错恢复、资源调度等成为核心挑战。Slurm、Kubernetes等传统调度系统在大模型训练场景下面临能力边界,新一代AI原生的调度系统(如NVIDIARun:ai、华为软件定义算力(Software-DefinedComputing)是异构融合的核心理念。其本质是通过软件层的抽象,屏蔽底层硬件的差异性,为上层应用提供统一的算力供给视图。这一理念在大模型时代具有特别重要的意义:开源大模型团队希望同一套训练或推理代码能够在不同厂软件定义算力涉及多个层次的技术。在最底层,统一的设备驱海光DTK等)提供对硬件的基本抽象;在中间层,算子库(cuDNN、算力池化是软件定义算力的重要表现形式。通过GPU虚拟化、远程GPU、动态资源分配等技术,将物理上分散的算力资源整合为逻辑上统一的算力池,根据应用需求动态分配。NVIDIAMIG(Multi-InstanceGPU)、华为vGPU、AMDMxGPU等硬件级虚拟化方案,混合不同厂商、不同架构AI芯片进行模型训练或推理,是异构融合中最具挑战性也最具价值的场景。这一场景的需求来源于多个方面:一方面,大型用户希望避免单一厂商锁定,通过多元算力供给降低风险;另一方面,在国产替代背景下,如何利用现有的多元化国跨厂商异构混训的技术挑战极为严峻:不同芯片的精度规格(FP16/BF16/FP8/FP4)可能不同,数值表达存在细微差异;不同芯片的算子实现可能存在精度偏差,累积误差可能影响训练收敛;不同厂商的集合通信库(NCCL、HCCL等)互不兼容,跨厂商通信需要专门的桥接层;并行策略与负载均衡需要根据异构节点的能力差异进行精细尽管挑战严峻,产业界已经在异构混训方向取得了一定进展。多家头部互联网公司、智算中心运营商已经在试点将不同厂商的AI芯片混合使用,部分场景下已经实现了规模化的异构推理。可以预见,随着开源软件栈的成熟与标准化工作的推进,跨厂商异构融合节点内互联是大模型集群中带宽密度最高、延迟要求最严的互联场景。在NVIDIA的技术体系中,NVLink与NVSwitch构成了节点内互联的核心。NVLink从1.0到5.0,单链路带宽从20GB/s提升代,实现了多GPU之间的全互联拓扑。NVL72机架级方案中,72最多1024个加速器互联等关键参数。UALink的成立,标志着业界GPU、FPGA、加速器、内存设备之间能够共享统一的内存空间。到内存池化、机架级互联等更复杂的场景。在大模型时代,CXL在国产互联标准方面,华为推出了HCCS(HuaweiCacheCoherent会等组织也在推动相关标准的制定。国产互联标准的成熟,对于构节点间互联通常基于以太网或InfiniBand。InfiniBand作为高性能计算领域的传统主导技术,凭借其低延迟、高带宽、可靠传输等优势,在NVIDIA的GPU集群中占据主导地位。然而,InfiniBand生态相对封闭、成本较高的特点,也促使业界探索基于以太网的替代UEC(UltraEthernetConsortium)是2023年成立的开放标准联盟,动,目标是构建一套针对AI/HPC场景优化的下一代以太网标准。端可靠性等方面进行了系统性的优化设计。UEC的目标是在以太网RoCE(RDMAoverConvergedEthernet)作为以太网上实现RDMA腾讯星脉、字节跳动MegaScale、百度百舸等大型集群均基于RoCE/增强以太网构建。这些产业实践为UEC等下一代标准的演进提供了随着集群规模与互联带宽的不断提升,传统的电信号互联在距离、功耗、密度等方面面临日益严峻的挑战。光互联凭借其在长距离、高带宽、低能耗等方面的天然优势,正在从机架间互联向机架CPO(Co-PackagedOptics,共封装光学)是光互联的下一代演进方向。传统的光模块以可插拔的形式连接到交换机或网卡,光电转换发生在距离芯片较远的位置。CPO将光引擎(OpticalEngine)与交换芯片或加速器芯片共同封装,光信号直接在封装内部完成转换,大博通、思科、英特尔等国际厂商已经发布了CPO相关产品与解决方案。NVIDIA也已宣布在下一代QuantumInfini用CPO技术。在国内,华为、新华三、中兴等厂商在光互联领域具有较强积累,光迅科技、中际旭创、华工科技等光通信器件厂商也推理优化是开源大模型时代下先进计算最为活跃的技术演进方创新技术,在过去两年间将推理性价比提升了一个数量级以上。本内存预分配带来的浪费,即使请求的实际生成长度很短,系统也需vLLM团队在2023年提出的PagedAttention技术,借鉴了操通过页表实现物理显存与逻辑序列的解耦。这一创新使得显存利用率从传统方案的50%以下提升到95%以上,同等硬件下可以支持更高的并发数,推理吞吐量可以提升数倍。PagedAttention已经成为现代推理引擎的标配技术,被vLLM、SGLang、TensorRT-LLM、传统的静态批处理(StaticBatching)将多个请求组成固定大小的批次,等所有请求都生成完毕才开始下一批次。这种方式在请求长度差异较大时效率极低——已经完成的请求需要等待最长请求,造成Batching)以单步token生成为最小调度单位,在每调整批次组成:已经生成完毕的请求可以立即返回,新到达的请求可以立即加入,从而最大化算力利用率。这一技术与PagedAttention相结合,使得现代推理引擎在高并发场景下的吞吐量与延迟表现远超FP4等更低精度,可以在精度损失可接受的前提下,将显存占用降当前主流的量化技术包括:GPTQ、AWQ等基于校准的训练后量化方法,SmoothQuant、ZeroQuant等针对激活值outlier问题的优化值得关注的是,DeepSeekV3、V4等模型采用FP8甚至mxFP4精度进行原生训练,而非仅仅在推理阶段进行量化。这种“训练即量化”的范式,可以避免训练-推理之间的精度切换损失,进一步提升模型投机解码(SpeculativeDecoding)是近年来兴起的另一项重要推理优化技术。其核心思想是用一个小模型(称为草稿模型,DraftMo先快速生成多个候选token,然后用大模型一次性验证这些token是否正确——如果正确则直接采纳,如果错误则纠正。由于大模型的将推理速度提升2倍至3倍。除了基于独立草稿模型的投机解码外,Medusa、EAGLE、利用已有信息进行并行解码,进一步提升了推理效率。这些技术与PagedAttention、量化等基础优化相结合,构成了现代推理引擎的完下文长度推进到1Mtoken级别。在如此长的上下文下,标准注意力应对长上下文挑战的技术路径主要包括:稀疏注意力(SparseNativeSparseAttention,通过仅计算关键的注意力对降低复杂度;线性注意力(LinearAttention)与状态空间模型(SSM,如Mamba),通过数学变换将注意力复杂度降为线性;KVCache压缩,如MLA(Multi-headLatentAttention)、GQA(GroupedQueryAttention)等技术,通过减少KVCache的维度降低显存占用;以及RingAttention、Flash长上下文优化是算法、系统、硬件协同设计的典型场景。算法层面的稀疏化、压缩,需要硬件层面的不规则计算支持;硬件层面的HBM容量、互联带宽提升,需要系统层面的KVCache分布式管理与跨节点通信优化。这一方向将持续是先进计算演进的核心驱动力CUDA长期以来是GPU编程的事实标准,也是NVIDIA构建生态壁垒的核心。然而,CUDA本身较为底层,算子开发门槛高,且仅支持NVIDIAGPU,这使得跨硬件平台的算子开发与优化变得困难。在开源大模型时代,这一问题愈发突出——开源大模型团队希OpenAI开源的Triton编译器,通过提供更高层次的Python-like等底层细节,大幅降低了算子开发门槛。更重要的是,Triton已经持,逐步演变为业界开放的算子语言标准。在开源大模型生态中,FlashAttention、PagedAttention、各种量化算子等关键代码,大量采MLIR(Multi-LevelIntermediateRepresentation)是LLVM社区主导Google、AMD、Intel、华为、寒武纪等厂商基于MLIR构建了各自的AI编译器后端。OpenXLA、IREE、TOpenXLA是Google主导的开源AI编译器项目,源自TensorFlowXLA。OpenXLA定义了StableHLO作为跨框架的统一IR,支持跨厂商支持、稳定的IR标准,使其成为厂商中立的AI编译器关键关键组件,实现了深度学习模型的图优化与代码生成,大幅提升了够在PyTorch平台上进行开放协作。这种开放治理模式,为各厂商对燧原、摩尔线程等厂商均已正式成为PyTorch生态贡献者,在推理框架是开源大模型规模化部署的关键载体。当前业界形成vLLM由加州大学伯克利分校的SkyComputingLab发起,以PagedAttention为核心,在通用性、易用性、社区活跃度方面表现突在Agent、FunctionCalling、复杂推理等场景下展现出独特优势。化的推理框架。虽然其开放性不如vLLM、SGLang,但在NVIDIA硬件上的极致性能优化使其成为追求最高吞吐与最低延迟场景的重在国内,LMDeploy(由上海AI实验室主导)、MindIE(华为)、势硬件平台上提供了优秀的推理能力。一个值得关注的趋势是:无论开发者使用哪种推理框架,其API接口都在向OpenAI兼容的方向收态,如华为CANN(ComputeArchitectureforNeuralNetworks)、寒武纪Neuware、海光DTK等,在自身硬件上提供从底层驱动到上层框Triton、MLIR等关键开源项目中贡献代码,确保自身硬件能够被全速库、AOE自动优化引擎等。同时,昇腾团队大力推动PyTorch、于昇腾CANN架构进行底层迁移的典型案例。这种“自有生态+开源从开源大模型到先进计算系统,目前存在的主要技术挑战可以FP4算力达到20PFLOPS量级,而当前国产主流AI芯片的对应指标288GB,而国产芯片在HBM供应能力Chiplet互联协议(如UCIe)、先进封装良率、挑战。UCIe等开放标准的国内适配与生态构建仍处于早期阶段,先进封装产能(CoWoS、SoIC等)受限于台积电、Intel等国际厂商的供给能力,HBM则高度依赖SK海力士、三星、美光三家供应商。这些供应链关键节点的“卡脖子”风险,是国产AI芯片产业必须直面的能效比(每瓦TFLOPS)已经成为大模型时代的核心竞争力指标。随着AI训练与推理规模的扩大,数据中心电力供给与冷却能力日益成为产业瓶颈。AI芯片的能效比直接决定了同等电力预算下的算力供给能力,也直接关系到运营成本。在这一指标上,国产AI芯片需要通过工艺、架构、系统、软件多层面的协同优化万卡集群稳定性问题突出。在万卡级别的训练集群中,即使单卡的MTBF(平均无故障时间)达到数千小时,集群整体的故天的训练中遭遇了419次故障,其中30.1%与GPU故障相关。故障率、Checkpoint开销、训练中断恢复等是大规模训练集群的工程化难点。如何通过更可靠的硬件、更高效的Checkpoint机制、更智能生态仍处于早期,UEC作为以太网AI优化标准也仍在演进中,CXL虽然较为成熟但主要面向内存扩展场景。国产互联标准如华为创新空间的同时构建可互操作的互联生态,是先进计算系统层面的重大挑战。超大规模通信优化(All-Reduce、All-to-All)对网络拓扑设计提出新要求。传统的Fat-Tree、Dragonfly等网络拓扑在万卡规模下面临成本与效率的双重压力。Rail-optimized、Multi-plane等新型拓扑设计正在被业界积极探索。同时,通信压缩、梯度量化、异步通信等了相对中立的中间层,但在算子库的完整性、性能优化的极致性、调试工具的完善性等方面,与CUDA生态仍有差距。一个开源大模算子库、编译器、推理引擎在不同硬件上的性能一致性难以保证。同一个模型在不同硬件上的表现可能存在显著差异:某些算子在一致性给跨硬件的模型部署、性能调优、容量规划带来了较大复杂缺少统一的算力度量、性能评测、互操作测试方法。当前不同厂商对自身AI芯片的算力描述方式不尽相同(峰值TFLOPS、稠密但在面向开源大模型的端到端评测、长上下文推理评测、Agent场景评测等方面仍存在空白。互操作测试方面,跨厂商异构混训、跨框架推理迁移等场景的测试方法尚未形成共识。这些都是标准化工作综上,先进计算在开源大模型时代面临的挑战,既有传统硬件性能竞赛的延续,也有系统、软件、生态等新维度的复杂挑战。这些挑战既是产业演进的难点,也正是标准化工作可以发挥关键作用的着力点。下一章将系统梳理国内外标准现状,并提出针对性的标第四章标准现状与方向建议本章在前述产业现状与技术演进分析的基础上,系统梳理开源大模型时代下先进计算相关领域的国内外标准现状,识别现有标准体系的覆盖范围与空白点,针对研究范围内的关键技术方向提出标MLCommons是当前AI性能评测领域最具影响力的国际产业联盟。其旗舰项目MLPerf涵盖了训练(MLPerfTraining)、推理(MLPerfInference)、HPC(MLPerfHPC)、客户端(MLPerfClient)等多个赛道,大语言模型等典型工作负载的标准评测方法。MLPerf的提交结果已经成为全球AI芯片厂商展示性能、用户对比选型的重要依据。在大Diffusion等具有代表性的大模型工作负载,持续保持其在AI性能评开放标准的国际产业联盟。在AI领域,OCP推出了OAM(OCPAcceleratorModule)规范,定义了数据中心AI加速器的物理形态、电OAM加速器互联组合的标准化基板;近期推出的OCPESUN(EthernetUCIe(UniversalChipletInterconnectExpress)等专门聚焦于互联标准的产业联盟,分别在节点间以太网、节点内加速器互联、芯粒互联等领域推进标准化工作,前文已有详细介绍,此处不再赘CXLConsortium主导的CXL(ComputeExpressLink)标准已经从2.0演进到3.1,在内存扩展、内存池化、缓存一致性互联等方面提大模型推理场景下,通过CXL实现的KVCache外存扩展、跨节点此外,IEEE、ITU、ISO/IECJTC1等传统国际标准化组织也在AI算力相关领域开展工作。IEEEP3109(AI计算精度)、IEEE802.3(以太网)等标准对AI算力基础设施有重要影响。ISO/IECJTC1SC42(人工智能分技术委员会)在AI术语、AI管理体系、AI风险评估国内涉及AI算力与先进计算的标准化组织主要包括全国信息技术标准化技术委员会(TC28)及其下属分委会、中国通信标准化协会全国信标委人工智能分委会(TC28SC42)是国内AI领域最重要的标准化组织,与ISO/IECJTC1SC42相对应。SC42在AI异构加速器、计算虚拟化、AI芯片性能评测、AI算力中心等方向已经布局了系列标准。例如《信息技术人工智能服务器系统性能测试规范》经发布或正在制定中,为产业发展提供了基础性的标准依据。中国通信标准化协会(CCSA)从算力网络的视角推进异构算力管络与业务能力)、TC610(工业互联网)等技术委员会,在算力度量、异构算力调度、东西部算力协同等方向开展了大量工作。CCSA标准更加聚焦于算力作为新型基础设施的特性,与TC28SC42标准形中国电子工业标准化技术协会等组织在Chiplet互联、先进封装、AI芯片测试等方面发布了若干团体标准。例如《小芯片接口总线技对UCIe等国际标准的本土化适配具有参考意义。此外,中国信通院、中国电子信息产业发展研究院、中国软件测试等方面发布了多项白皮书与评测规范。先进计算产业发展联盟(ACIA)、人工智能产业发展联盟(AIIA)、智能计算产业联盟等行业组织,在标准研讨、产业协同、最佳实践推广等方面发挥了重要作尽管国内外标准化组织已经在AI算力与先进计算领域开展了大量工作,但针对开源大模型与先进计算融合演进的端到端标准体系仍在完善中。具体而言,以下几个方向存在显著的标准可行性、性能指标、精度损失、稳定性等,缺群的稳定性、可靠性、可扩展性、运维管理这些标准空白,正是先进计算产业发展联盟(ACIA)及相关标准基于本研究对产业现状、技术演进、关键挑战的系统分析,本节梳理开源大模型时代下先进计算的高优先级标准化需求,作为后适配类面向Agent场景的评测扩展。接口规范;资源隔离与QoS;跨厂基础算子库的接口规范;Triton等类综合考虑产业紧迫性、技术成熟度、标准化可行性等因素,本这类标准聚焦于开源大模型与AI算力之间的“接口”问题,直接(1)制定《开源大模型在异构AI算力平台的适配评测规范》。该标准应覆盖功能完整性(模型是否能够完整运行)、性能指标(吞吐、延迟等)、精度对齐(与原始模型的精度差异)、稳定性(长时间运行的可靠性)、生态成熟度(算子覆盖、调试工具等)等多个维度,为产业(2)制定《大模型推理性能基准与算力度量方法》。该标准应在MLPerf等国际基准的基础上,结合国内产业实际需求,针对中文大设计有针对性的评测项目;同时统一算力描述口径,明确稠密/稀疏算型在不同AI芯片间迁移的工程流程,提供精度对齐的方法论,定义这类标准聚焦于大规模AI算力基础设施的系统级技术要求,是集群的硬件架构、网络拓扑、稳定性指标、Checkpoint性能、故障恢复时间、运维管理接口等关键要求,为产业建设大规模AI算力基(2)制定《先进互联网络接口规范》。该标准应在跟踪UAUEC、CXL等国际标准的基础上,结合国产互联技术(如华为HCCS等)的实际情况,推动节点内、节点间互联的标准化与互操作。重点化的接口规范、调度策略、资源隔离机制等,为多厂商、多架构异这类标准聚焦于开源软件栈的统一性与互操作性,是降低产业(1)制定《AI算力统一编程接口与算子规范》。该标准应在跟踪实际,推动跨硬件算子接口的标准化,降低应用开发者面对多样硬推理服务部署的规范化,使得开源大模型应用能够在不同推理引擎、总结业界在算法-系统-硬件协同优化方面的成功经验,提炼出可推型时代下先进计算的核心标准体系,为产业自主创新与协同发展提补充章节DeepSeekV4—开源大模型时代的里程碑式发布了全新一代模型DeepSeek-V4预览版,并以MIT许可证同步开源,成为产业界发生的重大事件。V4在模型架构、训练精度、国产算力适配等方面的创新,深刻印证了本研究关于先进计算演进的核心判断,具有典型的案例参考价值。本章作为补充章节,对两个版本均原生支持1Mtoken(约75万字)超长上下文,这成为DeepSeek官方服务的标配能力。1Mtoken的上下文长度,意味着模型可以一次性处理一本厚书、一个完整的代码仓库、数小时的会议标准,极大降低了下游应用从其他模型迁移到V4的成本。ModelScope等主流模型托管平台收录,开发者社区反响热烈。截至全球前列(参见第二章OpenRouter排名数据)。Flash为例,商业化定价为:每百万tokens输入0.2元人民币,输出2万tokens、输出180美元/百万tokens),V4在性价比上具有显著优硬件协同优化上的技术功底,也反映了开源大模型时代下推理性价模型输入价格(/百万Token)输出价格(/百万Token)缓存命中输入上下文窗口DeepSeekV4-Pro(优惠后)约$0.42(3元)约$0.83(6元)约$0.0035(0.025元)GPT-5.5基础版$5.00$30.00$0.50GPT-5.5Pro$30.00$180.00—ClaudeOpus4.7$5.00$25.00$0.50DeepSeekV4在底层架构上的创新对先进计算演进具有重要参考●CSA(CompressedSpars不同任务、不同序列位置上动态选择最优的注意力计算策略,在保持模型能力的同时实现极致的推理性价比。这种“混合注意力”的设计思路,代表了大模型架构创新的新方向,也对底层硬件提出了支这些改进的产业意义极其深远。在过去,要支持1Mtoken级别的超长上下文,几乎只能依靠堆叠HBM容量、扩展互联带宽等“硬件蛮力”路径,这意味着只有顶级GPU+顶级互联的组合才能支撑。V4的优化使得国产AI芯片在更受限的硬件条件下也能够支撑长上系统、硬件协同优化”的核心判断。先进计算演进不再是单一硬件性能的竞赛,而是算法创新与硬件能力的深度协同。开源大模型团队对算法的持续优化,可以显著弥补硬件能力的差距,为国产算力的V4的训练与推理体系采用了mxFP4精度,这一当前业界主流的低精度训练以NVIDIAHopper、Blackwell架构原生支持的FP8为主流方向。NVIDIA的TransformerEngine围绕FP8进行了大量优化,几乎所有基于NVIDIAGPU的前沿模型训练都依mxFP4(MicroscalingFP4)是OCP(OpenComputeProject)主导推动DeepSeekV4选择mxFP4作为训练精度,一方面体现了其与开放生态(OCP)的战略对齐,另一方面客观上为国产算力适配前沿大模型铺平了道路。这一技术选择,既是DeepSeDeepSeekV4的发布,从多个维度印证了本研究关于先进计算演DeepSeek官方在V4发布公告中明确表示:“早期访问权限独家开放给国产芯片厂商”。这一表态在产业中产生了强烈反响,具有标志在过去,前沿开

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论