版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CPU回归:2026年数据中心CPU格局RLandAgentUsage,Cont强化学习(RL)与智能体应用、上下文内存存储、DRAM价格影响、CPU互连演进、AMDVenice、Verano、Florence、IntelDiamondRapids、CoralRapi 3Share分享3Share分享demandsawayfromtheCPU.ThismeantthatIntel,theprimary自2023年以来,数据中心的故事一直很简单:GPU和网络是核心。AI训练与推理的出现及随后的爆发式增长,将计算需求从CPU转移。这意味着服务器CPU的主要供应商英特尔未能赶上数据中心建设和支出的浪潮。随着超大规模云厂商(Hyperscalers)和新型云服务商(Neoclouds)将重点转向GPU和数据中心基础设施,服务器CPU的营收一直处于相对停滞状态。Atthesametime,thesamehyperscalershavebeenrollingtheirownARM-basedAMDhasfurthererodedmarket与此同时,这些超大规模云厂商一直在为自己的云计算服务开发基于ARM架构的数据中心CPU,从而封闭了英特尔的一个重要潜在市场。而在其自身的x86领地内,英特尔乏善可陈的执行力以及面对竞争对手AMD时缺乏竞争力的性能,进一步侵蚀了其市场份额。由于缺乏有竞争力的AI加速器产品,当行业其他公司大快朵颐时,英特尔只能在原地踏步。CoreResearchandtheTokenomicsModelaboutsoaringCPUdemand.Theprimarydriverswehaveshownandmodeledarereinforcementlearningandvibecoding,sincredibledemandonCPUs.WehavealsocoveredmajorCPUclouddealsbymultiplevendorswithAIlabs.WealsohavemodelingofhowmanyCPUsofwhattypesarebeingdeployed.在过去的6个月里,这种情况发生了巨大变化。我们已在CoreResearch和Tokenomics模型中发布了多份关于CPU需求飙升的报告。我们展⽰并建模的主要驱家供应商与AI实验室达成的重大CPU云服务交易。此外,我们还对部署了多少数量、何种类型的CPU进行了建模。IntelQ4,25DCAIRevenu英特尔2025年第四季度DCAI营收。来源:英特尔unexpecteduptickindatacenterCPUdemandinlate2025androleofCPUsinthedatacenter,withAImodeltrainingandinferenceusingCPUs然而,英特尔最近的复苏以及2025年后期不断变化的需求信号表明,CPU如今再次变得举足轻重。在最新的第四季度财报中,英特尔发现2025年底数据中心CPU需求出现意外增长,因此正在上调2026年代工设备的资本支出指引,并优先将晶圆供应从PC转向服务器,以缓解满足这一新需求时的供应限制。这标志着CPU在数据中心角色中的转折点,AI模型的训练和推理正在更密集地使用CPU。DatacenterCPUCoreCountTrend.Source:SemiAnalysisEstimates数据中心CPU核心数趋势。来源:SemiAnalysis估算datacenterCPUandtheevolvingdemanddrivers,withdeepdivesondatacenterCPUAMD2026年对数据中心CPU而言是令人兴奋的一年,在需求激增的背景下,各大厂商都将于今年推出众多新一代产品。因此,本文旨在描绘2026年的CPU市场格局。我们将奠定基础,涵盖数据中心CPU的历史和不断演变的需求驱动因素,并深入探讨英特尔和AMD多年来在数据中心CPU架构上的变革。Wethenfocusonthe2026CPUs,withcomprehensivebreakdownsonIntel,sClearwaterForest,DiamondRapidsandAMD,sVeniceandtheirinteresting随后,我们将重点关注2026年的CPU,全面解析英特尔的ClearwaterForest、DiamondRapids以及AMD的Venice,探讨它们在设计上有趣的趋同(与分歧讨论性能差异,并预告我们的CPU成本分析。Next,wedetailtheARMcompetition,includingNVIDIA,sGraceandVera,Amazon,smerchantARMsiliconbidandtheiracquisitionbySoftbank,ARM,sownPhoenixCPUdesignandlookatHuawei,shomegrownKunpengCPUefforts.接下来,我们将详细介绍ARM领域的竞争情况,包括NVIDIA的Grace和Vera、亚马逊的Graviton系列、微软的Cobalt、谷歌的AxionCPU系列、AmpereComputing的商用ARM芯片方案及其被软银收购的情况、ARM自家的PhoenixCPU设计,并探讨华为自主研发的鲲鹏CPU进展。Foroursubscribers,weprovdatacenterCPUsbeyond2026fromAMD,Intel,ARMandQualcomm.WethenlookDRAMshortage,whatNVIDIA,sBluefield-4ContextMemoryStorageplatformmeansmarketandCPUdesignsgoingforward.对于我们的订阅用户,我们提供了截至2028年的数据中心CPU路线图,并详细介绍了AMD、英特尔、ARM和高通在2026年之后的数据中心CPU规划。随后,我们将展望数据中心CPU的未来前景,讨论DRAM短缺的影响,分析NVIDIA的Bluefield-4上下文内存存储(ContextMemoryStorage)平台对通用CPU未来的意义,以及未来CPU市场和CPU设计中值得关注的关键趋势。数据中心CPU的角色与演进英特尔奔腾Pro。来源:英特尔ThemodernversionofthedatacenterCPUcanbetracedbacktothe1990sfollowingthehome.AsPCprocessingpowergrewwithIntel,si386,generations,manytasksnormallycomputedbyadvancedworkstationandmainframecomputersfromthelikesofDECandIBMwereinsteaddoneonPCsatafractionofcachediesco-packagedwiththeCPUinaMulti-ChipModule(MCM).TheXeon现代数据中心CPU的雏形可以追溯到20世纪90年代。在此之前的十年里,个人电脑(PC)大获成功,将基础算力带入了千家万户。随着英特尔i386、i486和奔腾(Pentium)系列处理器性能的不断增强,许多原本由DEC和IBM等公司的先进工作站及大型机处理的任务,开始转由成本仅为其一小部分的PC来完成。为了响应这的PC处理器变体。这一进程始于1995年的PentiumPro,它通过多芯片模块(MCM)技术将多个L2缓存晶圆与CPU封装在一起。随后,至强(Xeon)品牌于1998年问世,当时的PentiumIIXeon同样在CPU插槽中额外增加了多个L2缓存晶圆。虽然大型机至今仍以IBMZ系列的形式存在,用于银行交易验证等领域,但它们已成为市场中极其小众的部分,不在本文的讨论范围之内。互联网泡沫时代commerce,Googlesearch,smartphoneswith3Gbroadbanddata,andtheneedforAMDintegratedthememorycontrollerintothe(8)CPUsareBack:TheDatacenterCPULandscapeinCPUswereespeciallysuitedfordatace(8)CPUsareBack:TheDatacenterCPULandscapein21世纪初迎来了互联网时代,随着Web2.0、电子邮件、电子商务、谷歌搜索、具备3G宽带数据功能的智能手机的兴起,以及万物互联背景下处理全球互联网流量的需求,数据中心CPU发展成为了一个价值数十亿美元的细分市场。在设计方面,随着德纳德缩放定律(Dennardscaling)终结导致的主频(GHz)大战告一段落,注意力转向了多核CPU和更高的集成度。AMD将内存控制器集成到了CPU芯片中,高速IO(PCIe)也开始直接由CPU提供。多核CPU特别适合数据中心的工作负载,因为许多任务可以在不同的核心上并行运行。Interconnect(QPI)andAMD,sHyperTransportDirectConnectArchitectureintheir我们将在下文的互连部分详细阐述这些多核心连接方式的演变。在此期间,AMD和Intel还引入了同步多线程(SMT)技术,将一个核心划分为两个可以独立运行的逻辑线程,同时共享大部分核心资源,从而进一步提升了可并行化数据中心工作负载的性能。追求更高性能的用戶则会转向多插槽CPU服务器,Intel的快速通道互连(QPI)和AMD在其OpteronCPU中采用的HyperTransport直连架构,为每台服务器多达八个插槽提供了缓存一致性链路。TheVirtualizationandCloudComputing虚拟化与云服务超大规模运营商时代howGPUNeocloudsareoperatingtoday,computingresourcesbeganconsolidatingtowardpubliccloudprovidersandhyperscalerssuchasAmazon,sWebServices(AWS)下一个重大转折点出现在2000年代后期的云计算领域,这也是整个2010年代数据中心CPU销售的主要增长动力。正如当今GPU新型云服务商(Neoclouds)的运作模式一样,随着客戶将资本支出(CapEx)转为运营支出(OpEx计算资源开始向亚马逊网络服务(AWS)等公有云提供商和超大规模运营商集中。在经济大衰退的影响下,许多企业无力购买和运行自己的服务器来承载其软件和服务。rentingcomputeinstancesandrunningyourworkloadson3rd-partyhardware,whichservicestoemerge,suchasserverlesscomputingfromtturnedcomputeintoacommodity.硬件上运行工作负载,使支出能够随时间变化的实际用量进行动态调整。这种可扩展性优于自行采购服务器,因为自有服务器需要时刻保持满负荷运行才能实现投资回报率(ROI)的最大化。云服务还促使了更精简服务的出现,例如AWSLambda等无服务器计算,它能自动为软件分配计算资源,让客戶无需在运行特定任务前纠结于该开启多少个实例。随着几乎所有后台事务都由云厂商处理,云计算已将算力变成了一种商品。PatGelsinger,VMwareCEO2012-2021,IntelCEO2021-2024.Source:X@PGelsinger帕特·基辛格(PatGelsinger2012-2021年任VMware首席执行官,2021-2024年任英特尔首席执行官。来源:X@PGelsingerhypervisorssuchasVMwareESXi.Multi-coreCPUscouldbepartitionedsuchthatinstancesoperatingonthesameCPU.实现安全且资源高效的云服务的关键特性是CPU硬件虚拟化。从本质上讲,虚拟化允许单个CPU通过VMwareESXi等虚拟机管理程序(Hypervisor)运行多个独立且安全的虚拟机(VM)实例。多核CPU可以进行分区,从而将每个虚拟机分配给单个核心或逻辑线程;虚拟机管理程序能够通过网络将实例迁移到不同的核心、插槽或服务器上,以优化CPU利用率,同时确保数据和指令与在同一CPU上运行的其他实例保持安全隔离。Theneedforvirtualizationforthecloud,combinedwithCPUdesigneSMTtoboostperformancewaseventuallyexploitedwiththeSpectreandMeltdownpatchesandhardwarefixes,theperformancelossofupto30%withoutSMTwouldhauntIntelandshowupinuntimelydesigndecisionsdowntheroadwhichwedetailbelow.云端对虚拟化的需求,结合CPU设计者通过实施SMT(超线程技术)来提升性能的做法,最终在2018年被Spectre(幽灵)和Meltdown(熔断)漏洞所利用。当两个实例在同一个物理核心的线程上运行时,攻击者可以利用CPU核心的分支预测功能来窥探并拼凑来自另一个线程的数据。分支预测是一种性能提升技术,它通过预测、获取并提前执行指令来保持CPU忙碌。由于云端安全可能受到威胁,供应商纷纷禁用SMT以阻断这一攻击路径。尽管后来有了补丁和硬件修复,但失去SMT带来的高达30%的性能损失一直困扰着英特尔,并体现在随后一系列不合时宜的设计决策中,我们将在下文详述。TheAIGPUandAIGPU与CPU的整合时代FollowingtheCOVIDboomthatboostedinternettrafficwithwaymoreZoomcalls,e-commerceandmoretimespentonline,datacenterCPUgrowthwasatanall-time在新冠疫情引发的繁荣之后,随着Zoom会议、电子商务以及上网时间的激增,互联网流量大幅增长,数据中心CPU的增长也达到了历史最高水平。在2022年11月ChatGPT发布前的五年里,英特尔向云端和企业数据中心交付了超过1亿颗至强可扩展(XeonScalable)CPU。Fromthenon,AImodeltrainingandinferenceservingwouldupendtheCPU,srolein从那时起,AI模型的训练和推理服务彻底颠覆了CPU在数据中心的角色,导致CPU的部署和设计策略发生了广泛变化。计算AI模型需要大量的矩阵乘法,这种操作极易并行化,并能在GPU上进行大规模运算。GPU拥有庞大的向量单元阵列,最初用于为游戏和可视化渲染3D图形。thousandsonGPUs,performanceandefficiencywas100-1000xworseonCPU,especiallywhenAI-specificGPUsaddedMatMulfocusedTensorCorestothemix.portsanddedicatedAMXacceleratorengines,theCPUwasrelegatedtoasupport虽然加速器节点仍在使用主机CPU,但高度结构化且相对简单的计算需求并未利用CPU运行分支密集、延迟敏感型代码的能力。与GPU拥有的数千个向量单元相比,CPU仅有几十个,这导致其性能和效率要差100到1000倍,尤其是当针对AI优化的GPU加入了专注于矩阵乘法(MatMul)的TensorCore之后。尽管英特尔努力通过增加双倍AVX512端口和专用AMX加速引擎来增强向量和矩阵支持,但CPU在数据中心仍被降级为辅助角色。然而,在数据中心电力优先分配给GPU计算的同时,互联网服务仍需维持运行。因此,CPU随时代演进,分化为了两大类别。TheheadnodeCPU,sroleistomanagetheattachedGPUsandkeepthemfedwithdata.Highper-coreperformancewithlargecachesandhighbandwidthmemoryandNVIIDA,sGraceweremadewithcoherentmemoryaccessforGPUstoutilizeCPUmemoryasmodelcontextKeyValueCacheexpansions,requiringextremelyhighCPUtoGPUbandwidth.Forheadnodes,1CPUisusuallypairedwith2or4GPUsineachcomputenode.Examplesinclude:头节点CPU的作用是管理连接的GPU,并持续为其提供数据。为了尽可能降低尾部延迟,需要具备大容量缓存、高带宽内存和IO的高性能单核。像NVIDIAGrace这样的专用设计旨在实现GPU的一致性内存访问,以便将CPU内存用作模型上下文键值缓存(KVCache)的扩展,这需要极高的CPU到GPU带宽。对于头节点,每个计算节点中通常由1颗CPU搭配2或4颗GPU。⽰例包括:1VeraCPUto2RubinGPUspersuperchip每个超级芯片包含1颗VeraCPU和2颗RubinGPU1VeniceCPUto4MI455XGPUspercomputetray每个计算托盘包含1颗VeniceCPU和4颗MI455XGPU1Graviton5CPUto4Trainium3percomputetray每个计算托盘包含1颗Graviton5CPU和4颗Trainium32x86CPUsto8每个节点配备2颗x86CPU和8颗TPUv7Cloud-NativeSocketConsolidation云原生插槽整合AsGPUshoggedmoredatacenterpowerbudgets,theneedtoservetherestoftheCPUs.Thegoalismaximumthroughputandrequestsservedpersocketatthebestsmallernumberofcloud-nativeCPUsthatmetthetotalthroughputrequirementwhileformoreGPUcompute.随着GPU占据了更多的数据中心功耗预算,以尽可能高的效率为互联网其他业务提供服务的需求,加速了“云原生”CPU的发展。其目标是在最佳效率(每⽡特吞吐量)下,实现单插槽的最大吞吐量和请求处理能力。与其通过增加更多、更新的CPU来提升总吞吐量,不如将陈旧、低效的服务器退役,取而代之以数量少得多的云原生CPU。这些CPU在满足总吞吐量需求的同时,功耗仅为原来的一小部分,从而降低了运营成本,并为更多的GPU计算释放了电力预算。AMDTurinDense7:1SocketAMDTurinDense7:1插槽整合。来源:AMDCascadeLakeserversboughtduringtheCOVIDcloudspendarebeingretiredforthe插槽整合率可达到10:1或更高。在新冠疫情期间云支出激增时购买的数百万台英特尔CascadeLake服务器正被淘汰,取而代之的是最新的AMD和英特尔CPU,后者在提供同等性能水平的同时,功耗不到前者的五分之一。Designwise,theseCloud-nativeCPUstargethighercorecountswithareaandpowerAMD,sBergamousedamoreareaandpowerefficientlayoutoftheirZen4core.PowerefficientARM-baseddesignssuchasAWSGravitonsawgreatsuccess,whileAmpereComputingtargetedcloud-nativecomputewiththeAltraandAmpereOnelines.在设计方面,这些云原生CPU旨在通过面积和功耗效率更高的中型核心来实现更高的核心数量,且与传统CPU相比,其缓存和IO能力较弱。英特尔通过SierraForest将其Atom核心引入了数据中心。AMD的Bergamo则采用了其Zen4核心在面积和功耗上更具效率的布局。基于ARM的高效能设计(如AWSGraviton)取得了巨大成功,而AmpereComputing则凭借Altra和AmpereOne系列瞄准了云原生计算市强化学习与智能体时代Microsoft“Fairwater”GPUandCPUbuildings.Source:GoogleEarth微软“Fairwater”GPU与CPU建筑群。来源:GoogleEarthforOpenAI.Here,a48MWCPUandstoragebuildingsupportsthemain295MWGPUcluster.ThismeanstensofthousandsofCPUsarenowneededtoprocessandmanagebeenrequiredwithoutAI.现在,CPU的使用率正再次加速增长,以支持头节点之外的AI训练与推理。我们已率达48MW的CPU与存储大楼为295MW的主GPU集群提供支持。这意味着现在需要数万颗CPU来处理和管理由GPU产生的数PB级数据,而如果没有AI,这种应用场景原本是不需要的。TheevolutionofAIcomputingparadigmshascausedthisincreaseinCPUusageforimageandvideodecodeinmultimodalmodels,althoughmorefixedfunctionAI计算范式的演进导致了CPU使用强度的增加。在预训练和模型微调中,CPU用于存储、分片和索引数据,以便将其馈送到GPU集群进行矩阵乘法。CPU还用于多模态模型中的图像和视频解码,尽管更多的固定功能媒体加速正被直接集成到GPUReinforcementLearningTrainingLoop.CPUsusedinRLEnvironment(Green).强化学习训练循环。用于强化学习环境的CPU(绿色)。来源:SemiAnalysisUseofReinforcementLearningtechniquesformodelimprovementincreasesCPUdemandfurther.FromourdeepdiveonReinforcementLearning,weseethatinanRLgrowingcomplexityofRLenvironmentsneededtoscalemodelsfurtherthusGPUgenerationsuchasRubinmayrequireanevenhigherratioofCPUtoGPU利用强化学习(RL)技术来改进模型进一步增加了对CPU的需求。根据我们对强化学习的深入研究,在RL训练循环中,“RL环境”需要执行模型生成的动作并计算相应的奖励。为了在编程和数学等领域实现这一点,需要大量CPU并行执行代码编译、验证、解释和工具调用。CPU还大量参与复杂的物理模拟以及高精度的合成数据验证。随着进一步扩展模型规模所需的RL环境日益复杂,必须在主GPU集群附近部署大型高性能CPU集群,以保持GPU满载运行并最大限度地减少其闲置时间。这种在训练循环中对RL和CPU日益增长的依赖正在形成一个新的瓶颈,因为AI加速器的每⽡性能提升速度远高于CPU,这意味着像Rubin这样的未来一代GPU,其所需的CPU与GPU功率比可能比上述Fairwater中看到的1:6比例还要高。2025年6月9日DYLANPATELANDAJ2025年6月9日DYLANPATEL和AJKOURABIReadfullstory阅读全文simpleGooglesearches.AWSandAzurearedoingmassiveCPUbuildoutsoftheirownGravitonandCobaltlinesofCPUsaswellaspurchasingevenmorex86general在推理端,检索增强生成(RAG)模型(可搜索并利用互联网)以及代理模型(可调用工具和查询数据库)的兴起,显著增加了处理这些请求对通用CPU计算的需求。由于能够向多个源发送API调用,每个代理对互联网的使用强度本质上远高于人类进行简单的Google搜索。AWS和Azure正在大规模扩建其自有的Graviton和Cobalt系列CPU,并采购更多的x86通用服务器,以应对互联网流量的这一阶梯式增长。Aswegothrough2026,thedemandsondatacenterCPUandDRAMareonlygettinggrowandtakeshareinas步入2026年,数据中心对CPU和DRAM的需求正变得愈发强劲。前沿AI实验室的RL(强化学习)训练需求正面临CPU短缺,为了争夺CPU配额,他们正与云服务提供商直接竞争通用x86CPU服务器资源。面对意料之外的CPU库存枯竭,英特尔正寻求提高其至强(Xeon)全线产品的价格,同时增加设备投入以提升CPU产能。AMD则一直在增强供应能力,以期在2026年实现“强劲两位数”增长的服务端CPU市场(TAM)中扩大份额。下文我们将为订阅者讨论2026年之后CPU格局的演变。多核CPU互连技术的历史Toappreciatethedesignchangesandphilosophiesofthe2026CPUs,wehavetounderstandhowmulti-coreCPUsworkandtheevolutionofinterconnectsascoresamedie,allowingthecorestocommunicatewitheachotherandtomemoryandIO要领会2026年CPU的设计变革与理念,我们必须理解多核CPU的工作原理,以及互连技术随核心数量增长而演进的过程。随着核心数量的增加,将这些核心连接在一起的需求也随之产生。2005年早期的双核设计(如英特尔的PentiumD和XeonPaxville)仅由两个独立的单核心组成,核间通信需通过前端总线(FSB)在封装外完成,连接到同样容纳内存控制器的北桥芯片。同年推出的AMDAthlon64X2则可被视为真正的双核处理器,它在同一晶圆上集成了两个核心和一个集成内存控制器(IMC允许核心之间以及核心与内存、IO控制器之间通过片上网络(NoC)数据总线在硅片内部直接通信。countsgrow英特尔随后的Tulsa代处理器包含16MB的三级缓存,由两个核心共享,并充当片上个,这些片上数据织网将成为数据中心CPU设计中的关键因素。CrossbarLimits交叉开关限制随着设计人员试图进一步增加核心数量,他们遇到了这些早期互连技术的扩展瓶颈。由于追求极低的延迟和一致性,交叉开关(Crossbar)设计采用了全连接方式,即每个核心都拥有通往芯片上所有其他核心的独立链路。然而,随着核心数量的增加,链路数量急剧增多,导致复杂度大幅提升。8核心:28个连接processorsachievedwithmulti-chipDunningtonin2008usedthreedual-coremoduleswith16MB大多数设计的实际限制止步于4核心,更高核心数的处理器是通过多芯片模块和双核模块实现的,这些模块在核心对之间共享二级缓存(L2cache)和数据总线插槽。跨栏式(crossbar)布线通常在共享三级缓存(L3cache)上方的金属层中完成,以节省面积。英特尔2008年推出的6核Dunnington处理器就采用了三个双核模块,并配备了16MB的共享三级缓存。AMDOpteronIstanbul6-coredie.Source:AMDAMDOpteronIstanbul6核芯片。来源:AMDAMDlaunchedtheir6-coreIstanbulin2009witha6-waycrossbarand6MBL3.TheirAMD在2009年推出了拥有6个核心、采用6路交叉开关(crossbar)和6MB三级缓存(L3)的Istanbul处理器。其2010年推出的12核Magny-Cours采用了两颗6核IntelNehalem-EX环形互连。来源:Intel,HotChips2009RadeonGPUsandtheIBMCellprocesthecache.CachingandHomeagentsdealwithmemorysnoopingbetweencoresandcoherencewith为了突破这一限制,英特尔在2010年推出的Nehalem-EX(Beckton)至强处理器中实现了环形总线(ringbus)架构,将8个核心、集成内存控制器以及插槽间QPI链路整合到了单个芯片中。环形总线早年曾应用于ATiRadeonGPU和IBMCell处理器,它将所有节点排列成一个环路,环形止点(ringstops)集成在L3缓布线则位于缓存上方的金属层。缓存代理(Cachingagents)和主代理(Homeagents)负责处理核心间的内存嗅探以及与内存控制器的相干性。nowmoderated,Intelcouldscalecorecountsto8onNehalem-EXand10forWestmere-EX.However,scalingbeyondthatwithasingleringwouldleadtoproblems来自每个环形站点(ringstop)的核心和L3缓存切片的数据被排队并注入环中,数据每时钟周期前进一个站点到达目标目的地。这意味着核心到核心的访问延迟不再是均等的,与直接相邻的核心相比,位于环对侧的核心必须等待额外的周期。为了缓解延迟和拥塞,系统实现了两个反向旋转的环,并根据地址和环负载选择最佳传输方向。随着布线复杂度的降低,英特尔在Nehalem-EX上将核心数量扩展到8个,在Westmere-EX上扩展到10个。然而,由于环路过长会导致一致性和延迟问题,使用单环结构进行更大规模的扩展将面临困难。为了将IvyBridge世代的核心数量扩展到15个,英特尔必须在路由拓扑结构上巧用心HaswellHCCDualRingBus.Source:IntelHaswellHCC双环形总线。来源:Intelwiththe8-coreringalsohousingtheIOringstops.TheMCCdievariantwrappeda2014年,英特尔再次改变了拓扑结构,推出了拥有18核心的HaswellHCC晶圆,其特点是采用了两个独立的、反向旋转的环形总线,并通过一对双向缓冲交换机连接。内存控制器被分配在两个环之间,其中8核环还容纳了IO环站。MCC晶圆变体则将单个半环折回自身。2015年发布的BroadwellHCC通过双12核环形总线将核心数量提升至24个。thememoryoftheotherring.ThisNonUniformMemoryAccess(NUMA)was将多个环形总线缝合在一起的缺点是,核心与核心之间以及内存访问的延迟波动性增加,尤其是当一个环上的核心访问另一个环上的内存时。这种非统一内存访问(NUMA)对于那些对延迟敏感且核心间交互频繁的程序来说,会严重损害系统性showtheCPUbeingsplitintotwoNUMAnodes,eachwithdirectaccesstohalfthelocalmemoryandL3cache.TestinginCoDmodeshowedthatlatencywithineach简称CoD)的配置选项,将这两个环形总线视为独立的处理器。操作系统会将该CPU显⽰为两个NUMA节点,每个节点都可以直接访问一半的本地内存和L3缓存。在CoD模式下的测试表明,每个环内部的延迟保持在50ns以下,而访问另一个环则需要超过100ns,这说明了通过缓冲交换机所带来的延迟惩罚。NUMA虽然这些方法帮助英特尔将核心数量增加到了24个,但这既不优雅,也不具备可扩展性。增加第三个环路和另外两组缓冲交换机将变得过于复杂且不切实际,并会产生许多NUMA集群。为了容纳更多核心,需要一种全新的互连架构。Intel的网格架构(MeshArchitecture)IntelKnightsLanding网格互连。来源:XeonScalableCPUsin2017,bringing28coresintheXCCdie.WhilecorecountsnotincreasemuchoverBroadwell,thedes为了解决可扩展性问题,英特尔在其2017年推出的主流Skylake-XXeon可扩展处理器中,采用了曾用于2016年XeonPhi“KnightsLanding”处理器的网格互连(meshinterconnect)架构,从而在XCC芯片中实现了28个核心。尽管核心数量较Broadwell时代并没有大幅增加,但这一设计奠定了未来十年核心数量持续扩展的基connectedwithhalfrings,forminga2Dmesharray.Eachmeshstopcanhousecores在网格(Mesh)架构中,核心排列成网格状,每一列和每一行都通过半环连接,形成一个二维网格阵列。每个网格节点(MeshStop)可以容纳核心与L3缓存切片、PCIeIO、内存控制器(IMC)以及加速器。核心之间的路由以循环方式进行,数据先在垂直方向传输,然后再水平移动。缓存代理(CachingAgent)和主代理(HomeAgent)连同用于维持全网内存一致性的监听过滤器(SnoopFilter现在都分布在所有的环路节点上。Withameshnetworkandmultiplememorycontrollersonoppositesidesofthedie,Sub-NUMAClustering(SNC),reducingaverageandmemoryaccesspoolsforeachNUMAnode.由于采用了网格网络(meshnetwork)且多个内存控制器分布在芯片相对的两侧,在大型网格结构中,内存访问和核心间延迟会产生显著差异。与早期的“片上集群”(ClusteronDie)方法类似,英特尔提供了多种集群模式,通过次NUMA集群(Sub-NUMAClustering,SNC)将网格划分为四个象限,从而降低平均延迟。但这种做法的代价是将每个处理器视为多个插槽,导致每个NUMA节点的L3缓存和内存访问池变小。InKnightsLanding,eachmeshstophousedtwocoreswithasharedL2cache.Themeshgridis6columnsby9rowsinsize,withtopandbottomrowsmoreIOandMCDRAM.Themeshnetworkrunsonit,sownclock,andcandynamicallyadjustmeshclockstosavepower.OnKnightsLanding,themeshranat1.6GHz.在KnightsLanding中,每个网格节点(meshstop)容纳两个核心,并共享二级缓存。网格阵列的大小为6列乘9行,其中顶部和底部行更多地用于IO和MCDRAM。网格网络运行在独立的时钟频率上,并可以动态调整网格频率以节省功耗。在KnightsLanding上,网格运行频率为1.6GHz。Skylake-SPMeshDiagram.Source:IntelSkylake-SP网格架构图。来源:InWithSkylake-X,the28coresarearrangedina6x6meshwithanorthIOcapand2whichaddedmoreL2cacheandanAVX-512extensiontothecoreforincreasedanotherroworcolumnweretobeadded.WithasmallermeshandhigherCPU在Skylake-X中,28个核心排列在6x6的网格(mesh)中,顶部设有北向IO盖板,两侧各有两个内存控制器(IMC)插槽。由于核心尺寸的增大,网格阵列变得更小,这些核心增加了更多的L2缓存和AVX-512扩展,以提升浮点性能。如果再增加一行或一列,芯片尺寸将超过26x33mm的光刻掩模版(reticle)限制。凭借更小的网格和高达4.5GHz的CPU频率,网格时钟频率提升至2.4GHz,从而实现了与Broadwell双环形总线(dualrings)相近的平均延迟。ThesubsequentCascadeLakeandCooperLakeprocessorsbroughtminorchangesMCMinCascadeLake-APandcancelledasimilarversionforCooperLakeCPX-4inresponsetoAMD,sdatacenterreturnwithEPYC.随后的CascadeLake和CooperLake处理器在保持相同的28核心布局基础上仅进行了微调。顺便提一下,为了应对AMD凭借EPYC重返数据中心市场,英特尔在CascadeLake-AP中推出了56核心的双芯片MCM封装版本,但随后取消了针对CooperLakeCPX-4的类似版本。IceLakeXCC40-coreMeshIceLakeXCC40核网格图。来源:IntelThenextIceLakegenerationbenefitedfromanodeshrinkfrom14nmto10nm,allowingcorecountstoincreaseto40cores接下来的IceLake代际受益于从14nm到10nm的制程缩减,使得核心数量增加到而,再下一代的SapphireRapids仍将采用相同的制程节点,且具备更多功能。这让英特尔在如何再次提升核心数量的问题上陷入了困境。SapphireRapidsXCCTopology.Source:IntelSapphireRapidsXCC拓扑结构。来源:IntelSapphireRapidsaddedAdvancedMatrixExtension(AMX)enginesformatrixSapphireRapids增加了用于矩阵乘法和人工智能的加速矩阵扩展(AMX)引擎,进一步增大了核心面积。这意味着单个单体芯片只能容纳34个核心,较IceLake有所倒退。为了将核心数量提升至60个,英特尔别无选择,只能再次将核心分散到多个芯现都与单体芯片完全一致。Thus,SapphireRapidsdebutedIntel,sEMIBadvancedpackagingtechnologytocarryquadrantsandnearly1600mm2ofsilicon.Adoublerowofmeshstopswererequired因此,SapphireRapids首次采用了英特尔的EMIB先进封装技术,将Mesh架构跨芯片延伸。两对镜像的15核心芯片通过模块化芯片织网(ModularDieFabric)缝合在一起,在四个象限内构建了一个更大的8x12Mesh网络,硅片总面积接近1600mm²。为了应对PCIe5.0翻倍的吞吐量以及新增数据加速器模块带来的巨大数据流量,IO部分需要采用双排Mesh节点(MeshStops)。L2cacheondiethanL3cache(120MBvs112.5MB).Sub-NUMAClustering(SNC)wasalsorecommendedmorewitheachdietreatedasitsownquadrant.由于采用了跨越多个晶圆的更大网格结构,平均核心间延迟从Skylake的47ns恶化至59ns。为了尽可能减少对网格网络的使用,英特尔将每个核心的私有二级缓存(L2cache)增加到了2MB,导致晶圆上的二级缓存总量超过了三级缓存(120MB对比NUMA集群(SNC)也得到了更广泛的推荐,每个晶圆都被视为一个独立的象限。虽然SapphireRapids是英特尔首次采用小芯片(chiplet)设计,但它却因长达数年的延期和无数次的修订而臭名昭著。或许是由于网格架构(mesh)在跨EMIB连接时存在性能问题,或是其他执行层面的失误,最终版本在2023年初发布前,步进(stepping)一路改到了E5。而最初的路线图曾计划在2021年发布。随后的EmeraldRapids更新于2023年底发布,保留了相同的核心架构和制程节点,但将芯片数量减少到2个。由于在EMIB芯片间互连上消耗的硅面积减少,英特尔得以将核心数量从60个增加到66个(出于良率考虑,最多启用64个同时将L3缓存增加了近三倍,达到320MB。我们在这里撰写了更多关于该设计决策的内容。本2023年5月3日DYLANPATEL,GERALDWONG,AND32023年5月3日DYLANPATEL,GERALDWONG以及其他3位作者Readfullstory阅读全文HeterogeneousDisaggregationonXeon6Xeon6上的异构解耦至强6平台特性。来源:英特尔Xeon6ComputeandI/ODieDiagrams.Source:Intel至强6计算与I/O芯片图⽰。来源:英特尔costasI/Odoesnotbenefitasmuchfrommovingtomoreadvancednodes.Atthesametime,thecomputediescanbemixedandmatchedwithbothP-coreGranite除了突破光刻掩模尺寸限制外,采用多芯片芯粒(chiplet)设计的另一个好处是能够混合搭配芯粒,并在不同的变体和配置中共享设计。对于2024年推出的下一代至强6(Xeon6)平台,英特尔通过将I/O与核心及内存分离,实现了异构解耦。这样做可此可以复用从SapphireRapids开发的I/OIP,同时节省成本,因为I/O从迁移到更先进节点中获得的收益并不明显。与此同时,计算芯粒可以灵活搭配P核GraniteRapids和E核SierraForest配置,在顶级的GraniteRapids-AP至强6900P系列上最多可搭载3个计算芯粒,从而在5个芯粒上构建出一个巨大的10x19网格(mesh连接132个核心,为了保证良率,其中最多启用128个核心。Xeon6ComputeDieMosaic.ClockwisefromTopLeft:UCC44c,HCC50c,HDCC至强6计算芯片拼图。顺时针方向从左上起:UCC44核、HCC50核、HDCC152核、LCC20核。来源:英特尔,SemiAnalysis估算commonmeshstop,arrangedinan8x6meshwith152coresprintedandupto144AMDanddesigningtheirownARM-在拥有144个核心的SierraForest上,E核(meshstop采用8x6的网格布局,实际蚀刻核心数为152个,其中最多144个核开发的,旨在提供单核总拥有成本(TCO)更低的“云原生”CPU,但英特尔承认其采用率有限。超大规模云厂商已经采用了AMD的方案并开始设计自研的ARM架构CPU,而英特尔的传统企业级客户对其并不感兴趣。因此,双芯片封装、拥有288个核心的SierraForest-AP(Xeon6900E)型号未能进入大规模通用市场,仅作为非路线图的小众产品,供应给少数订购了该产品的超大规模云客户。Twelve24-coreClearwaterForestComputeDieson18A.SouSemiAnalysis基于18A工艺的12个24核ClearwaterForest计算芯片。来SemiAnalysisTheI/OdiesarealsobeingreusedintheupcomingXeon6+ClearwaterForest-APE-这些I/O裸片也将被复用于即将推出的Xeon6+ClearwaterForest-APE核处理器。其计算裸片首次采用了英特尔的FoverosDirect混合键合技术,将18A制程的核心裸片堆叠在包含Mesh网络、L3缓存和内存接口的基础裸片之上,使核心数量提升至288个。垂直解耦技术使得计算核心能够迁移至最新的18A逻辑工艺,同时将缩放效果较差的Mesh、缓存和I/O保留在较旧的Intel3节点上。然而,英特尔的执行问题在ClearwaterForest下半年推迟到了2026年上半年。英特尔将延迟归咎于其FoverosDirect封装技术的集成挑战,考虑到英特尔在尝试攻克混合键合(hybridbonding)技术时,采用了如此复杂的服务器芯片作为先导产品,这一结果并不令人意外。或许正因如此,这种垂直解构的互连带宽相对较低,每个4核集群在访问底层基片(basedie)的L3缓存和网格网络时,带宽仅为35GB/s。Despiteatwo-yeargapwithnewcoremicro-architecture,newnode,newadvancedInteldoesnotwanttoproducethesechipsinhighvolumeswhichhurtmarginsand尽管跨越了两年的时间,并采用了全新的核心微架构、新制程节点、先进封装以及更17%。考虑到混合键合(hybridbonding)良率较低导致的成本大幅攀升,而性能提升却如此有限,也难怪英特尔在最近的2025年第四季度财报会议上几乎没有提及ClearwaterForest。我们的看法是,英特尔并不希望大规模量产这些会损害利润率的芯片,而更倾向于将其作为FoverosDirect技术提升良率的试验工具。AMD’sZenInterconnectArchitectureAMD的Zen互连架构AMDEPYCCPUGenerations.Source:AMDAMDEPYCCPU世代。来源:AMDIntel批评AMD的Naples架构。来源:IntelAMD’sreturntothedatacenterCPUmarketwiththeirEPYCNaples7001seriesinAMDforbothdesktopPCs,serverandevenembeddedwithintegrated10GbitEthernetonthesamedie.AMD在2017年凭借EPYCNaples7001系列重返数据中心CPU市场,这引起了不稳。而事实上,AMD当时规模较小的设计团队必须资源利用最大化,他们只负担得起设计并流片一款单一模具,且该模具必须同时兼顾台式机、服务器,甚至还要在同一芯片上集成10Gbit以太网以用于嵌入式领域。AMDZeppelinSoCArchitecture.Source:AMD,ISSCC2018AMDZeppelinSoC架构。来源:AMD,ISSCC2018Naplesimplementeda4-dieMCMwitheach“Zeppelin”diecontaining8cores,allowingAMDtoexceedIntel,s28coreswith32.Eachdieholds2CoreComplexes(CCX),with4coresand8MBofL3connectedwithacrossbar.Anon-dieScalableDatasharingbetweendies,andwaNaples采用了4芯片MCM架构,每个“Zeppelin”芯片包含8个核心,这使得AMD能够以32核心超越英特尔的28核心。每个芯片包含2个核心复合物(CCX每个CCX拥有4个核心和8MB三级缓存,并通过交叉开关连接。芯片上的可扩展数据总线(ScalableDataFabric)实现了CCX间的通信。封装内InfinityFabric(IFOP)早期的HyperTransport技术。NUMAdomains.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八年级下学期地理月考考试题
- 气道异物急诊教学|海姆立克 + 内镜取出一体化教学
- 2026年平顶山市新华区中小学编制教师招聘考试备考试题及答案详解
- 2025年枣庄市市中区中小学编制教师招聘考试试题及答案详解
- 2026年临沧地区中小学编制教师招聘笔试参考题库及答案详解
- 2026年甘肃省酒泉市事业编单位人员招聘笔试备考题库及答案详解
- 2026年深圳市南山区中小学编制教师招聘笔试模拟试题及答案详解
- 2026年黄山市黄山区中小学编制教师招聘考试备考题库及答案详解
- 2026年鹤壁市鹤山区中小学编制教师招聘考试参考题库及答案详解
- 2026年湖北省宜昌市中小学编制教师招聘笔试参考题库及答案详解
- 温泉度假村智能化系统顶层设计方案
- 门式起重机安装、拆除专项施工方案
- YD 5201-2014通信建设工程安全生产操作规范
- 雅思8000词汇表单
- 第四章城市水文与水资源课件
- 国开大学2023年01月11293《心理学》期末考试答案
- 变速箱厂总平面布置设计
- 专职消防员及消防文员报名登记表
- 挡土墙(重力式、衡重式、悬臂式)图示图集-原创
- GB/T 41715-2022定向刨花板
- GB/T 19292.1-2018金属和合金的腐蚀大气腐蚀性第1部分:分类、测定和评估
评论
0/150
提交评论