电子行业LPU专题报告一:架构创新突破大模型推理延迟瓶颈广阔市场空间有望快速放量_第1页
电子行业LPU专题报告一:架构创新突破大模型推理延迟瓶颈广阔市场空间有望快速放量_第2页
电子行业LPU专题报告一:架构创新突破大模型推理延迟瓶颈广阔市场空间有望快速放量_第3页
电子行业LPU专题报告一:架构创新突破大模型推理延迟瓶颈广阔市场空间有望快速放量_第4页
电子行业LPU专题报告一:架构创新突破大模型推理延迟瓶颈广阔市场空间有望快速放量_第5页
已阅读5页,还剩15页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容目录LPU面向大模推理阶,TSP架构为核心 4LPU是一款用大模型理阶段的定制芯片 4LPU核心在于TSP架,指令执行顺序和间有确定性 5软件定义硬件,编器义芯片行为 8单节点内Fullmesh拓,单机柜内Dragonfly9LPU可缩短大型推理程中的延迟,提高户验感 11大模型推理延迟与户用体验感紧密挂钩延主要发生在Decode11大模型推理过程分为Prefill和Decoding两个阶段 11延迟/吞吐/利用率为量模型推理性能的指,迟与用户使用体验紧挂钩 13大模型推理过程中延主要在Decode阶段心瓶颈在于内存带宽 15LPU具备更快内存带,可缩短大模型推过中的延迟 15LPU采用SRAM作为储介质,解决大模推阶段面临的内存带受问题 15..2 基于LPU......LPU具备广阔在发展间,已步入量产初期 18Tokens消耗量幅增带动推理芯片市场模增长,LPU具广阔潜发展空间 18海外已进入量产初,内已推出LPU产品 18投资建议 20风险提示 21图表目录图1: TPU是一款用于模型理阶段的定制芯片 4图2: LPU集成了230MB容的SRAM,片上内带高达80TB/s 5图3: 整体芯片具有五大能片 5图4: ICU排布于芯片下方,MXM、SXM、MEM切片呈双侧对称分布 6图5: 传统的MultiCore架构,每个PE都是一个的多级流水线架构 6图6: TSP将经典的处理五流水线拆散在了整芯内 7图7: TSP中,指令垂直发数据水平流动 8图8: Groq系统架构式一览 9图9: 节点内Fullmesh拓扑 10图10: 机柜内Dragonfly10图11: 大模型进行推理时分为Prefill和Decode阶段 11图12: 大模型推理过程中情举例 12图13: 步骤1为Prefill阶段,骤2及之后被称为Decode阶段 13图14: 基于LPU的模型具有快的推理速度和更性比的价格 16图15: Groq的大模型吐量度超350Token/s,远其他大模型厂商 17图16: 全球推理AI芯片市模2031年有望达到690.1亿美元 18表1: 经典的5级流水线情况 7表2: CPU设计带来不确定性 8表3: 编译器可从指令调、据流控制、存储管三维度定义芯片行为 9表4: GroqLPU的系统构成 9表5: 上述例子中每一步输入Prompt与输出展示 12表6: 引入KVCache技术一步的输入与输出示 13表7: 延迟指标主要衡量是请求提出到获得响所的时间 14表8: 吞吐量衡量的是推服系统在给定时间内理请求数量 14表9: 资源利用率衡量的硬资源被LLM理任务有利用的程度 15表10: Groq采用SRAM替代HBM带来的优势 16表11: Groq的LPU可提供约80TB/s的论带宽 16表12: Groq第二代LPU已实量产 19LPU面向大模型推理阶段,TSP架构为核心LPU是一款用于大模型推理阶段的定制芯片LPULgaePcsgUnt,语言处理单元)LU由oqoq6PULU图1:TPU是一款用于大模型推理阶段的定制芯片Groq、财通证券研究所LPU14nm80TB/sLPU14nm230MBSRAM0Boq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。图2:LPU集成了230MB容量的SRAM,片上内存带宽高达80TB/s36GroqLPU核心在于TSP架构,指令执行顺序和时间具有确定性LPU核心TPM,SXM,MEM/MUUX、、MEMVXM图4:ICU排布于芯片下方,MXM、SXM、MEM功能切片呈双侧对称分布HotChips,GroqMXMSXMMEM功能切片,红褐色为VXM在toeE/派发器件和独立的CacheTSP图5:传统的MultiCore架构中,每个PE都是一个完整的多级流水线架构智猩猩芯算、财通证券研究所图6:TSP将经典的处理器五级流水线拆散在了整个芯片内HotChips,Groq、财通证券研究所表1:经典的5级流水线情况流水线阶段 含义流水线阶段 含义取指(IF) 从内存或缓存中读取下一条指令的地址,并获取指令内译码(ID) 解析指令的操作码和操作数执行(EX) 执行算术或逻辑运算存(MEM) 访问数据缓存进行读写操作写回(WB) 将运算结果或加载的数据写回寄存器文件CSDN、财通证券研究所oqC(tctnntolnsSIMDFUCUMEM图7:TSP中,指令垂直下发,数据水平流动36氪、财通证券研究所TSPCPU和GPU中指令执行的顺序和时间不确定且难以推理,而GPUCU和P,q的TSP表2:CPU设计带来的不确定性CPU的设计具体情况 超标量 每个周期能够发出多条指令乱序执行 以任意顺序执行指令 预测执行 对于分支,它会猜测分支条件是真是假,并提前预测执行该分支以提高吞吐量(当然如果猜错了,就需要放弃并返回另一条分支)指令流水线将指令分为多个阶段,以流水线的方式执行,再次提高了指令吞吐量 多级缓存 CPU有2-3级缓存,可以少从内存加载数据带来的延迟36氪、财通证券研究所软件定义硬件,编译器定义芯片行为TSPTSP表3:编译器可从指令调度、数据流控制、存储管理三个维度定义芯片行为编译器访问TSP硬件的权限解释 144个独立指令队列 芯片上有144个指令队列,个周期能够发出一条或多条指令。编译器可以完全控制每个队列中的程序顺序TSPtileSD320个通道的编程抽象64

16(16)20tile320SD每个通道可以访问64个逻辑流,可用于移动操作数或结果,其中32个可用于向东移动数据,而另外32个用于向西移动数据220M全局共享SRAM220M全局共享SRAM36氪、财通证券研究所单节点内Fullmesh拓扑,单机柜内Dragonfly拓扑单节点包含8个oqChp9个oqNode据qAI和CoChp、oCip、oqo、qa。图8:Groq系统架构形式一览表4:GroqLPU的系统架构构成量(个) 量(个) (个) 量(个)量(个) 量(个) (个) 量(个)oqChipoqCadoqNodeoqRak架构形式oqChip 1 - - -oqCad 1 1 - -oqNode 8 8 1 -oqRak 2 2 9 1智猩猩芯算、财通证券研究所节点内Fulleshagonfly在oe8张qadFullmesh77oCad4ognfy图9:节点内Fullmesh拓扑HotChips,Groq、财通证券研究所图10:机柜内Dragonfly拓扑HotChips,Groq、财通证券研究所LPU可缩短大模型推理过程中的延迟,提高用户体验感大模型推理延迟与用户使用体验感紧密挂钩,延迟主要发生在Decode阶段Prefill和Decoding两个阶段Prefill和DecodingoenlyoenyPefill阶段,一个是eoe图11:大模型进行推理时可分为Prefill和Decode阶段CSDN,财通证券研究所PefillPopPrompt持续输出TokenPotPrefillDecode(Pefll)Prompt图12:大模型推理过程中的情况举例CSDN,财通证券研究所表5:上述例子中每一步的输入Prompt与输出展示步骤Pompt输出1今天吃饭了吗?我2今天吃饭了吗?我不3今天吃饭了吗?我不需4今天吃饭了吗?我不需要5今天吃饭了吗?我不需要吃6今天吃饭了吗?我不需要吃饭…23 今天吃饭了吗?我不需要吃饭,不过谢谢你的关系,你呢,今天吃什么了了了?CSDN,财通证券研究所

?EOS引入KVCchePotKVCacheKVCache是把上一步骤已经计算过的单词进行缓存,方便在下一步骤的时候直接使用,并且把新的输入加到已经缓存好的单词的末尾就可以了。表6:引入KVCache技术后每一步的输入与输出展示步骤 每次步骤 每次KVCache缓存的内容 每次的输入输出吗?2今天吃饭了吗?我不吗?2今天吃饭了吗?我不3今天吃饭了吗?我不需4今天吃饭了吗?我不需要5今天吃饭了吗?我不需要吃6今天吃饭了吗?我不需要吃饭今天吃饭了吗?我不需要吃饭,不过谢谢你的关系,你呢,今么 天吃什今天吃饭了吗?我不需要吃饭,不过谢谢你的关系,你呢,今了 天吃什么今天吃饭了吗?我不需要吃饭,不过谢谢你的关系,你呢,今? EOS天吃什么了CSDN,财通证券研究所图13:步骤1为Prefill阶段,步骤2及之后被称为Decode阶段CSDN,财通证券研究所延迟/吞吐/紧密挂钩大模型在推理过程中有一些重要的性能指标的定义和含义,对于这些指标,大致可分为三类:延迟Latency、吞吐Throughput、利用率Utilization。⚫延迟Latency延迟Ley(Po)首knTietoFirton,TT,.逐个on生成时间(TimeerOtpton,TPT3/(ndondeqtacy表7:延迟指标主要衡量的是从请求提出到获得响应所需的时间细分指标 定义细分指标 定义首Token生成时衡量的是从用户提交查询到接收到第一个输出Token所需的时间,包括整间/延迟TTFT

Pefill迟。Token生成连续输出(Decode)TokenTPOT际基准测试的角度来看,TPOT=(总延迟-首次生成时间)/数。端到端请求时间/表示从提交查询到接收到完整响应所经过的总时间,端到端延迟延迟 =TTFT+TPOT*N(N为Decode阶段生成的Token数量AI基础设施,财通证券研究所⚫吞吐量Throughputhohpt可以细化分为每秒Token(TokensPerSecond,TPSefll预填充阶段的TS和oe解码阶段的PS、每秒请求数量(qsseren,S表8:吞吐量衡量的是推理服务系统在给定时间内处理的请求数量细分指标定义细分指标定义PefillTPS

可以直接通过延迟指标进行反推得到,PefillTPS=N/TTT(其中NPomt)TPS可以直接通过延迟指标进行反推得到,Decode解码阶段的TPS=1/TPOT(其中解码阶段NPomt)Decode每秒请求

衡量一个整体服务系统吞吐量的性能;eqet(或测试客户端)PILLMRPS时,这个调用就会被计为一个请求;LLMGPUCPU队列的处理、内存带宽限制等多种因素上。AI基础设施,财通证券研究所⚫资源利用率Utilization资源利用率指衡量硬件资源被LLM推理任务有效利用的程度。其中可以大致分为计算资源利用率、内存资源利用率。表9:资源利用率衡量的是硬件资源被LLM推理任务有效利用的程度细分指标 定义 计算资源利主要是指GPU、CPU利用,衡量GPU或CPU在LLM推理相关计算任务重用率 活跃处理时间的百分比。内存资源利量化了LLM推理过程中,LLM的静态权重、动态激活以及键值(KV)缓存所消用率 耗的GPU显存或系统内存。AI基础设施,财通证券研究所DecodePrefill阶段和Decode1)Prefill阶段:性对Pot中所有on进行计算KVontninQKV进一步计算出Otut矩阵,再经过后续的FNonPefllAetonUPrefill是典型的Compute-bound阶段Pefll阶段的V结果,也可以复用oe阶段已经产生的V结果,在KVCacheQQ的最后一行qV的tti,而不是关于QV的antnDecode阶段只需要把最新的生成的Token拿之前的che来做aetnTknk,KVCacheDecode典型的Bandwidth-bound阶段。LLMToken生成的DecodeM推理阶段包括PfillcdePfillDecode生成一个输出Token90%以上的时间耗费在Decode阶段Token0.1s,后续每生成一个Token的量级大概为50ms。LPU具备更快的内存带宽,可缩短大模型推理过程中的延迟LPU采用SRAMLPU采用SRAM在qoq采用SM替代BMoqPPU6的表10:Groq采用SRAM替代HBM带来的优势优势 含义优势 含义确定性时SRAM延oq计 数百个Token的极速输出电子工程专辑、财通证券研究所表11:Groq的LPU可提供约80TB/s的理论带宽指标AB200Blakell)oqLPU(TP)核心存储技术B3e(B/s)S(0TBs)推理延迟(TTFT)低(受限于显存调度)极低(物理极限级)系统能效表现擅长多用户高并发(吞吐量)擅长单用户实时交互(低延迟)电子工程专辑、财通证券研究所基于LPU基于LPU格AtcalAassopxtal×BnttP个TokenToken0.27图14:基于LPU的大模型具有更快的推理速度和更具性价比的价格tcl.图15:Groq的大模型吞吐量速度超350Token/s,远超其他大模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论