2026年AI芯片应用核心知识考试试卷及答案_第1页
已阅读1页,还剩12页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年AI芯片应用核心知识考试试卷及答案一、单项选择题(每题2分,共20分)1.在AI推理阶段,以下哪种内存技术最适合用于降低DDR带宽压力?A.HBM2EB.LPDDR5C.GDDR6D.eMMC5.1答案:A2.对于INT8量化后的卷积核,若原始FP32权重幅值范围为[−1.2,1.2],则量化比例系数s的最佳取值为A.127/1.2B.128/1.2C.255/1.2D.256/1.2答案:A3.在NVIDIAAmpere架构中,稀疏张量核心支持2:4结构化稀疏,其理论加速比为A.1.5×B.2×C.2.5×D.4×答案:B4.以下哪项不是Chiplet设计在AI加速器中的主要优势?A.降低系统级功耗B.提高良率C.减少片间延迟D.支持异构工艺集成答案:C5.在Transformer推理中,KV-Cache的显存占用与下列哪项参数成线性关系?A.batchsizeB.序列长度平方C.注意力头数D.隐藏层维度的平方答案:A6.对于7nm工艺,SRAM单元面积约为0.031μm²,则1MiBSRAM的面积约等于A.32mm²B.16mm²C.8mm²D.4mm²答案:B7.在Roofline模型中,若某AI芯片峰值算力为200TOPS,内存带宽1TB/s,则计算强度I达到多少时进入计算瓶颈区?A.100FLOP/ByteB.200FLOP/ByteC.50FLOP/ByteD.400FLOP/Byte答案:B8.以下哪种数据流最适合在CGRA上实现高重用卷积?A.WeightStationaryB.OutputStationaryC.RowStationaryD.NoLocalReuse答案:A9.在AI芯片的PVT补偿中,若温度升高30°C,SRAM读延迟大约增加A.5%B.10%C.20%D.40%答案:C10.对于8-bit权重与8-bit激活的矩阵乘,若阵列规模为256×256,工作频率1GHz,则理论峰值算力为A.128TOPSB.64TOPSC.32TOPSD.16TOPS答案:A二、多项选择题(每题3分,共15分,多选少选均不得分)11.以下哪些技术可有效缓解AI训练中的内存墙问题?A.梯度压缩B.ZeRO-OffloadC.混合精度训练D.数据并行+模型并行组合答案:ABCD12.关于AI芯片中的脉动阵列,下列说法正确的是A.数据在阵列内部呈流水线流动B.控制逻辑简单,面积开销小C.对稀疏矩阵天然友好D.可扩展性与阵列规模呈线性关系答案:ABD13.在AI加速器中采用近内存计算(NMC)时,可能带来的负面影响包括A.散热密度升高B.编程模型复杂化C.访存延迟降低D.封装成本增加答案:ABD14.以下哪些指标被MLPerfInference用于评估AI芯片性能?A.LatencyB.ThroughputC.PowerD.Accuracy答案:ABC15.针对Transformer模型,以下哪些算子属于计算密集型?A.SoftmaxB.LayerNormC.GEMMD.GELU答案:CD三、填空题(每空2分,共20分)16.在INT4量化下,若权重对称量化,则量化步长Δ=___(1)___/7。答案:最大绝对值17.某AI芯片采用6nm工艺,片上集成256MiBSRAM,若SRAM漏电流为150nA/MiB@0.75V,则静态功耗约为___(2)___mW。答案:38.418.在数据流架构中,为了保证权重不变式复用,通常采用___(3)___Stationary策略。答案:Weight19.若某卷积层输出特征图尺寸为112×112,通道数256,批大小32,数据类型FP16,则输出激活显存占用为___(4)___MiB。答案:15420.在AI芯片的NoC设计中,若采用2D-Mesh拓扑,节点数为N×N,则最坏情况跳数为___(5)___。答案:2(N−1)21.对于ResNet-50推理,ImageNet数据集单张图片预处理归一化常数mean=[___(6)___,___(7)___,___(8)___]。答案:0.485,0.456,0.40622.在AI训练集群中,All-Reduce通信量为Ψ字节,采用Ring算法,节点数P,则单节点通信量为___(9)___字节。答案:2Ψ(P−1)/P23.若某稀疏矩阵非零元比例为5%,采用CSR格式存储,索引宽度32bit,则相对于稠密存储的压缩比为___(10)___。答案:6.4四、简答题(每题8分,共24分)24.简述AI芯片中采用混合精度(FP16+FP32)训练时,损失缩放(LossScaling)机制的必要性及实现要点。答案:1)FP16动态范围有限,梯度易下溢;2)将损失乘以固定scaleS(通常2^15量级)放大梯度,使其有效位进入FP16可表示区间;3)反向传播完成后,权重梯度需除以S还原;4)需监控梯度是否溢出,若溢出则跳过更新并降低S;5)实现上在框架层插入scale节点,自动调整S,保证训练稳定收敛。25.说明在AI推理加速器中,如何通过片上Winograd变换降低卷积计算量,并给出F(2×2,3×3)的乘法次数对比。答案:标准3×3卷积在2×2输出tile需4×9=36次乘法;Winograd域变换后,输入4×4,权重4×4,点乘16次;乘法次数由36降至16,理论加速比36/16=2.25×;额外开销为输入、权重、输出的线性变换,若tile数量大,变换成本可被amortize;片上实现需存储变换矩阵常量,采用固定点移位乘法,面积开销<2%。26.解释Chiplet间互连的“良率-延迟-功耗”三角权衡,并给出UCIe与BoW两种接口的取舍案例。答案:1)良率:小die面积降低缺陷概率,Chiplet提升总良率;2)延迟:片间走线长,接口协议栈深,延迟增加;3)功耗:高速SerDes能耗>1pJ/bit,并行接口可降低至0.3pJ/bit但带宽密度低;UCIe:采用先进封装<0.5mm间距,带宽密度2TB/s/mm²,延迟<2ns,功耗0.5pJ/bit,适合AI训练芯片;BoW:标准有机封装,间距>10mm,带宽密度50GB/s/mm²,延迟10ns,功耗0.25pJ/bit,适合成本敏感推理芯片;取舍:训练芯片优先UCIe,推理芯片优先BoW。五、计算题(共21分)27.(7分)某AI加速器片上SRAM共24MiB,采用双缓冲机制运行Transformer-big模型,隐藏层维度1024,注意力头数16,序列长度512,批大小8,数据类型FP16。(1)计算单层解码阶段KV-Cache所需容量;(2)判断24MiB是否足够缓存单层KV-Cache;(3)若不足,提出一种优化方案并给出新容量。答案:(1)KV-Cache体积=2×batch×head×seq×dim/head×2Byte=2×8×16×512×64×2=32MiB(2)32MiB>24MiB,不足(3)采用8-bit量化,体积减半为16MiB;或采用旋转缓存窗口256,体积减半为16MiB;或采用分组查询注意力(GQA)头数降至4,体积降至8MiB。28.(7分)某7nmAI芯片峰值算力为256TOPS(INT8),片上SRAM带宽8TB/s,外部LPDDR5带宽200GB/s,运行ResNet-50推理,批大小1,输入224×224。已知模型计算量3.8GOPS,权重读取量25MB,激活读写总量28MB。(1)计算计算强度I;(2)分别给出SRAM-only与DRAM-only场景下的运行时间;(3)指出瓶颈并给出优化方向。答案:(1)I=3.8×10^9/(25+28)×10^6=71.7FLOP/Byte(2)SRAM-only:t=max(3.8×10^9/256×10^12,53×10^6/8×10^12)=max(14.8ms,6.6μs)≈14.8msDRAM-only:t=max(14.8ms,53×10^6/200×10^9)=max(14.8ms,265ms)≈265ms(3)DRAM场景带宽瓶颈,优化:权重预取+压缩至INT4(体积减半),带宽需求降至100GB/s;或采用Winograd加速计算量降至1.7GOPS,I升至32FLOP/Byte,时间降至132ms。29.(7分)某AI训练集群采用数据并行+模型并行混合策略,模型总参数量54GB,节点数32,每节点8×80GBA100。(1)若采用ZeRO-3,每节点需存储的参数量;(2)若采用Pipeline并行,micro-batch数4,计算气泡时间占比;(3)对比两种方案通信量。答案:(1)ZeRO-3均分参数,每节点54/32=1.6875GB(2)气泡占比=(P−1)/(P+micro−1)=31/35≈88.6%(3)ZeRO-3通信量:每步All-Reduce54GB,双向108GB;Pipeline并行:每步P2P通信激活,每micro-batch发送隐藏层激活,假设隐藏层维度4096,序列1024,batch1,FP16,单段体积8MB,共31段,总通信量31×8=248MB,远小于ZeRO-3,但气泡大;权衡:大模型优先ZeRO-3,长序列优先Pipeline。六、综合设计题(共20分)30.设计一款面向边缘设备的超低功耗AI语音唤醒芯片,要求:支持关键字检测模型:1层CNN+2层GRU+1层FC,总参数量1.2M,计算量12MOPS,帧长25ms,帧移10ms;待机功耗<200μW,唤醒延迟<100ms;工艺22nmFDSOI,支持DVFS,SRAM保持电压0.5V;片内集成模拟麦克风接口,ADC功耗50μW;需给出:(1)计算与存储划分(片上SRAM容量、是否需off-chipDRAM);(2)电源域与DVFS策略;(3)数据流与调度时序图;(4)功耗预算与拆解;(5)良率与面积评估。答案:(1)参数1.2M×2Byte=2.4MB,采用片上SRAM4MiB(余量用于激活缓冲),无需DRAM;(2)电源域:Always-on域(0.5V,32kHzRC,50μW)含语音活动检测(VAD)轻量CNN0.1MOPS;主计算域(0.6V,20MHz)运行GRU+FC;ADC域独立LDO;DVFS:VAD触发后20MHz→50MHz,完成推理后回0.5V深睡;(3)时序:麦克风采样→ADC25ms帧→VADCNN2ms→若置信>阈值→主域上电→GRU+FC10ms→输出唤醒信号→总延迟12ms<100ms;(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论