中国如何实现Zettascale计算_第1页
中国如何实现Zettascale计算_第2页
中国如何实现Zettascale计算_第3页
中国如何实现Zettascale计算_第4页
中国如何实现Zettascale计算_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国如何实现ettscale计算I正成为高性能计算的最主要需求据IDC数据1年全球半导体行业销售额达到9亿美元同比增长%其中包括数据中心用芯片和C用芯片在内的计算已经超过手机和基站在内的通信成为半导最大的终端需求占比达到%的19亿美金计算用芯片主要产品包括GCU、内存、存储等。图表:1年全球半导体市场分布(照终端需求) 图表:高性能服务器成本结构拆分(8年)其他通信t其他通信te.%.%s消费电子

计算

mmy.%

CPU.%:DC, 资料来源:DC,

GPU.%过去,高性能计算主要用于气候预测等科学计算领域,根据O50统计,截至2年1月全球算力最大的计算集群是22年美国发布的Froter算力达12ptaFLO,是首台算力达到xtaFLOP(每秒0的8次方浮点运算)的计算集群,采用2颗MDInstnctMI250XGU和8颗MDEPC64CCU主要用于前沿科学研(例如癌症研究、药物发现、核聚变、前沿材料、超高效发动机和恒星爆炸等等。目前我国最快的超算中心是6年发布的太湖之光其算力达3ptaFLOPS采用4,90颗基于RIC架构的申威W610CPU。根据O50排名,截至2年1月,太湖之光名列全球第六。图表:全球、中国最大超级计算和微的I计算中心比较(截至2年1月)排名最大算(PFOPS国家机构名称年份操作系统架构CPU类型数量GPU类型数量互连制造商1,12美国橡树岭国家验室rtir22inuxHPEOS)HPEE25aADEPC,28ADIstinctI20X92Slisht-11HPE2日本理化学研究科学计算中uku20inuxRHE)SecmpterukujitsuAFX8,7600TfuinrcoectDjitsu3芬兰欧洲高性能算联合企业UI22inuxHPEOS)HPEE25aADEPC,32ADIstinctI20X08Slisht-11HPE4意大利欧洲高性能算联合企业oado22inuxBllSqnaH200enPlainm58,46NviiaAmeA0,4NviiaHDR100IfiiadAts5美国橡树岭国家验室Smmit18inuxRHELBMPowerSstmAC922BMPWER9,26NviiaTeslaV0068IfiiBdEDRBM6美国劳伦斯利弗尔国家实验Siera18inuxRHE)BMPowerSstmS2LCBMPWER9,60NviiaaV0020IfiiBdEDRBM7中国国家超级计无锡中心太湖之光16inuxRaisOS..)SnayPP申威W09000SnayNRCPC8美国美国国家能研究科学计中心Plmttr21inuxHPEOS)HPEE25nAD63NviiaAmeA0Slisht-10HPE9美国英伟达Slene20inuxUbutu..)NviiaAD42,10NVidaA080llaoxHDRIfiiadNviia中国国家超级计广州中心天河-18inuxKli)THVBEPItlE–22v2,4ti-00054THExess-2NUDT~97美国微软OeAI-20未知未知未知未知未知00未知未知注我们假设微软为OpAI搭建的100张GPU训练集群算力使用英伟达A1对总算力仅进行简单测算不考虑芯片并行的性能损耗使用P4下的.7TOPS计算资料来源:微软官,OP0,但随着I应用的普及,以及以ChaGT为代表的大模型的出现,I相关算力需求正成为高性能计算的主要增长点。当前,大模型一个最最要的特点是,通过不断增加模型参数和训练的数据集的规模来实现更高的预测精度和通用性根据OpnI统计目前大模型练所需算力的增速保持-4个月倍速度增长,远超摩尔定律-4个月倍。根据微软0年披露其服务OpnI的计算集群采用1万超过1万张GU微软年表示,与进入O50榜单的超算相比,这一计算集群排名前五。我们假设该集群使用英伟达,经简略测算在用于超算的F64双精度下其浮点计算能力约相当于我国最先进的超算中心太湖之光,是世界最大的超算中心Fotier的%。图表:大模型对半导体需求增长快于摩定律raining(etaFO)

MeatronuringLG1,000,000,000

G-3Microoft-LG

ramsformer/2rs100,000,000

Meatron1,000,000100,00010,000

GG-9

Inelion

cptioneet

LetBRTGP-1ranformerLMo

Wa2ecMooeet50

Imel/2rs1,000

leet

eet

emseet201

Mrs/2rs1002012 2013 4 5 6 7 2018 2019 0 2021 2022资料来源:Nvii,以目前火热的ChaGT为例ChtGT主要是(G-5大模型(对该大模型进行基于人类反馈的强化学(RLHF训练而来G-5模型未公布细节但是其前代G-3拥有0亿参数,数据集49Btkes,训练数据量为0Btkes。图表:haGPT是P.基于人类反馈的强化学习预训练模型(GP预训练模型(GP-3.5)基于人类反馈强化学习(RLHF)基础模型:基础模型:ransformer(年谷歌提出)模型参数数量1750亿数据集大小499Btokens训练数据量:300Btokens目的:对齐人类价值观,提供有用、清晰的答案,减少失或有见的出方法:微调GP3.5→通过人类排序训练奖励模型→通过励模型训练微调后的P3.5注:GPT3.5的参数量、数据量参考GPT3数资料来源:OA,MD在今年CC上指出,目前主流服务器每4年性能翻番,GU单精度浮点每年性能翻番。按此速度增长至5年,最高性能超算可能从现在的xascae(0的次方)上升0倍到Zetascae级(0的1次方。全行业需要努力提高半导体能耗,不然一座Zetacae数据中心的能耗可能达到50W,逼近一座核电站的放电能力(按照CFTR计划DM(示范性聚变核电厂的功率预期为1W也就是大概10W。图表:Zle所需能耗接近核聚变资料来源:SSCC,为了实现Zeta计算,MD认为全行业可从工艺,架构,先进封装三方面进行创新。我们看到,在美国加强对华出口管制的背景下,中国发展先进工艺的路径中短期受阻。但是,我们认为,通过1)芯片架构创新及2)先进封装,我们仍然能进一步提高计算芯片性能。看好长电通富盛合晶微华峰测控寒武纪海光燧原沐曦芯原等发展机遇。图表:实现a计算的主要技术手段和相关公司主要技术手段主要产品全球中国先进工艺异构计算光刻机半导体生产CPUASLTSCItl,AD上海微中芯国际海光,飞腾,华为鲲鹏GPU/AINVidi,AD寒武纪、燧原、沐曦,登临,天数智芯DPUNvidi/llne,avll中科驭数、云豹智能A芯原先进封装设备泰瑞达华峰测控封测生产日月光、安靠长电,通富,盛合晶微先进工艺光刻机ASL上海微半导体生产TSC中芯国际资料来源:路径#:提升半导体工艺,在226年进入14m时代FinFT走向物理极限GA接棒先进制程演进数字芯片最基本单元是MOFT早期MOFT使用平面结构,沟槽宽度越小,漏极到源极距离越小,载流子流动跨越沟道导通时间减小,工作频率越高。但是,工艺尺寸越低,短沟道效应越明显,即对沟道控制力不断减弱。因此,FnFET结构诞生,闸门被设计成类似鱼鳍的叉状D架构,可于电路的两侧控制电路的接通与断开这种叉状D架构不仅能改善电路控制和减少漏电流同时让晶体管的闸长大幅度缩减当前FnFET逐步接近物理极限为了进一步提高栅极对沟道控能力,缩小单元尺寸,降低电压,GA栅极环绕结构被开发出来,其栅极在垂直方向被分成几个条带RboFT,在其沟道区域,大幅增强对载流子控制,从而实现更好性能,同时也更容易优化工艺。IMC预计全球半导体行业将在4年进入GA时代。IMC预计全球先进制程工艺将在3年大规模量产3m6年进入1.m时代2年进入m时代6/4nm开始FnFET为半导体器件的主流选择但进入3m制程以下时FnFET走向极限基于FnFET结构进行的芯片尺寸缩小变得较为困难,FT(Nanshet、Forkshet)晶体管结构将逐步接棒,强化沟道控制能力。IMC指出,ML牵头的欧洲企业研发的HghNAUV光刻机是半导体工艺进入GA的关键环节.7m之后IMC表示通过器件及材料创新,可使得先进制程继续演进,逐步进入5m/02m时代。受美国出口管制限制,荷兰目前所有UV光刻机无法向中国出口。图表:先进工艺的图例(从nFet架构到G)资料来源:SSCC,图表:SMLEV光刻机迭代资料来源:EEE,路径#:先进封装从25D走向3D产业将从D逐步走向D封装目前行业正从芯片Chpet在平面上通过中介层硅桥、高密度RDL等方式连接的D封装,逐步走向把存储、计算芯片在垂直维度进行堆叠的D封装。以MD为例,5年发布Fury旗舰显卡,通过硅中阶层连接GU与H。此后MD推出D封装架构芯片。1年发布的3D-Cache中基于台积电DFarc技术,成功将3缓存垂直堆叠,通过TV技术实现互联,实现整体互联密度为传统2DChpet的0倍。AMD基于此打造了第三代MDPCMian-X系列处理器。除台积电外,英特尔(Foeros、三星(-Cub、日月光(IPack)等均已推出D封装解决方案。图表:先进封装:从.D走向D封装资料来源:SSCC,图表:台积电、三星、英特尔.D封到D封装技术布局公司先进封装技术发布时间台积电CWS(.D)13IF(2.D)12TSCSoC(D)19三星O(OLOWP)17Cue.D)18DSiP19DTSV19Cb(D)20英特尔EB2.D)17vrs(D)18CEIB19ODI19DO19资料来源:台积电官网,英特尔官网,三星电子官网,-7年.53D封装市场规模CGR为根据ol215年全球先进封装市场规模为5亿美元占整体封装市场的%1年全球市场规模已达到5亿美元,占整体封装市场的%在HC数据中心等应用驱动下ole预计全球先进封装市场规模将在7年达到1亿美元,在封装市场份额提升至%,-7年CGR为%远高于同期传统封装的3%从细分市场来看1年F(倒装扇入型晶圆级封装扇出型晶圆级封装D封装嵌入式封装市场规模分别为6/2/21/6/0.6亿美元oe预计嵌入式封装和D封装为未来成长性最高的细分市场-7年CGR分别为4%/1%,、HC、数据中心、CI、3DNND、MMS等应用将驱动D封装市场增长;汽车、智能手机、医疗等终端市场将驱动嵌入式封装市场增长。图表:7先进封装细分市场规模预././封装,UD6,07UD64,圆级D圆D(S37.4)

/3D封装,USD14,76622.7%

嵌入式封装,USD231,扇入型封装,U8,扇出型封装,U7,

FC(倒装),UD2,27

扇入型晶圆级装,USD3,1324.8%扇出型晶圆级装,USD3,9756.1%

(S65)

F(倒装),USD42,96666.0%G02-027:~0%(倒装)CGR:9%扇出型晶圆级封装CGR:1%扇入型晶圆级封装CGR:5%2.5/3D封装CGR:14%嵌入式封装CGR:24%:le,长电科技通富微电等国内公司已在D封装领域实现初步突破未来将逐步进入D封装领域。D封装核心在于以微小线宽距和微小中心距的微凸点为特点的高密度中介层互联包括T(硅通孔RD(重布线堆叠FOntrpse(扇出型中介嵌入式芯片基板我们看到国内公司正在相关技术方面取得初步突破长电科技1年已突破年已突破带D硅通孔MCM的大尺寸FCGA技术并进入小量产未来其有望在封装领域逐步成熟并走向D封装领域通富微电多层堆叠NNDFash及LDDR封装实现稳定量产,并于2年完成基于TV技术的3DSDRM封装开发。图表:国内先进封装主要公司梳理产业产业链环节 主要上市公司P 芯原股份、国芯科技等封装设备 光力科技、文一科技等测试设备 华峰测控、联动科技、金海通等封装代工厂 长电科技、通富微电、华天科技、甬矽电子、晶方科技、盛合晶微等独立测试公司 伟测科技、利扬芯片等封装基板 兴森科技等资料来源:路径#:异构计算:后摩尔时代,加速实现能源效率提升异构集合助推全球计算芯片快速发展。异构计算从后端制造创新出发,充分利用计算资源的并行和分布计算技术,将不同制程和架构、不同指令集、不同功能硬件进行组合,成为解决算力瓶颈更为经济的一种方式。目前比较常见I芯片异构有以英伟达raceHpper为代表的CUGU路线以Wamo为代表的CUFGA路线以及以MbleeEeQ5芯片和地平线征程系列为代表的CUIC路线。图表:I芯片计算范式资料来源:《AI芯片:前沿技术与创新未来》(张臣雄,21年,人民邮电出版社),图表:主要异构计算方案公司异构计算方案代表产品应用领域英伟达CPU+GPUGceHpr数据中心CPU+GPU+ASCavier智能驾驶ItlCPU+GPUPU数据中心谷歌CPU+GPUGoleTesor智能手机ADCPU+GPUAPU数据中心AleCPU+GPU1智能手机ileeCPU+ASCEQ5智能驾驶WmoCPU+PGA-智能驾驶特斯拉CPU+GPU+ASCSD智能驾驶资料来源:公司官网,回避先进制程瓶颈,MD异构集合计算另辟蹊径带来算力突破。21年D率先推出U(AcceeraedPocssignit加处产品,将中央处理器和独显核心做在个片,时高性处器最独显卡处性在PU的异构术线AD关产为件发带前所有灵性能任意用最适的式发的用目前最新的MDMI00系列加速器采用多种解决方案,包括OSulequanaX410-52U1N2(双CU四GU戴尔oerEdeR75(双CU三GU、技嘉G2-Z0(双CU四GU、HECrayX25a(单U四GU)等。图表:MD加速芯片采用U与PU的异构集合资料来源:SSCC,从M0到M:异构先进封装工艺合力推进计算效率提升。0加速器是MD第一款xacae百亿亿(0的8次方级别加速卡产品在芯片架构方面0由6mGU组成并采用三种创新架构提升芯片加速性能针对高性能计算和I训练等特殊领域做了性能的加强,)采用Chet级封装,使得存储芯片更接近于计算芯片,3)采用传统的电源管理等芯片来优化能源效率。通过创新的架构,0实现了HC和节点的工作效率2倍的提升。而M0则采用更为先进的m工艺制程,并在架构方面实现了全方位的升级采用底部堆叠晶圆与缓存顶部堆叠CU与GU的D封装技术,)在CU与GU之间采用统一的存储架构来存取数据,解决传统CUGU集成面临缓存数据无法共享的问题,大大提升运算效率。基于架构的创新、Chplet以及D封装技术MDMI00相较于0实现芯片性能与能效x/5x的提升其提升速度大幅领先于业界平均水平图表:DP+PU集成实现存储效的提升资料来源:SSCC,国内多核异构计算正当时,目前用在数据中心、自动驾驶偏多。目前国内从事异构计算相关领域的公司包括寒武(68256CH、海(未上市芯动科(未上市燧原科技(未上市天数智芯(未上市中科驭数(未上市、云豹智(未上市等除数据中心外目前异构计算还多用于智能驾驶领域面向3级及以上等级自动驾驶车辆单一片难以满足诸多接口和算力需求,需采用多核异构计算芯片。目前,主流的自动驾驶芯片架构有“CUGPU+SIC“CUFG”和“CUAIC”三种,是针对汽车自动驾驶等级提升带来数据体量快速膨胀的重要可行解决方案,国内厂商包括华为、地平线等。图表:国内异构计算相关领域公司公司创立时间团队背景代表产品产品最新进展类型主要应用场景海光信息4年中科院计算所海光3号,DCU00系列22年海光三号CPU正式发布并开始贡献营收CPU/GPGPU服务器,工作站飞腾4年中国电子S0,D000年7月飞腾发布高效能桌面CPU腾锐D200CPU服务器、桌面等龙芯中科1年中科院计算所龙芯A502年2月2核服务器芯片D000初样验CPU桌面、工控等证成功兆芯科技海思3年4年上海市国资委华为开胜KH-000鲲鹏90702年0月发布新一代消费级P“开先K-0G,及数据中心级P“开胜KH00”CPU/GPUCPU/GPU桌面服务器等申威6年捷世智通科技申威61CPU超算景嘉微6年国防科技大学J50、J912年5月,J9系列第二款完成流片GPU军用市场桌面办公等芯动科技7年maintio、AD风华1号、风华2号2年8月,发布风华2号GPU桌面PC等芯瞳半导体1年西邮GB01GPU嵌入式设备办公电脑等瀚博半导体8年ADSV、SG102年9月,发布m云端GPUSG0GPU云端推理摩尔线程0年英伟达TTS602年3月,发布第一代USA架构GPUGPU云端推理、边缘端燧原科技8年AD燧思.0、燧思2.01年2月发布第二代推理产品云燧”GPGPU云端训练、云端推理天数智芯5年ADmGPGPUQ2将发布首款云端推理通用GP“智铠0”GPGPU云端训练、云端推理登临科技7年图芯GldwassrGPGPU云端训练、云

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论