版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(2025校招)人工智能工程师笔试题及答案一、单项选择题(每题2分,共20分)1.在PyTorch2.1中,若模型已开启pile(),下列哪种操作会触发图回退(graphbreak)?A.使用torch.tensor([1,2,3])创建新张量B.在forward里调用list.append()C.使用torch.nn.functional.relu()D.使用torch.cuda.stream()上下文管理器答案:B解析:pile基于TorchDynamo捕获Python字节码,遇到副作用明显的Python原生容器操作(如list.append)时,为保证正确性会主动图回退。其余选项均为已支持的图内操作。2.某ViT模型采用16×16patch,输入224×224×3,patchembedding后加1个clstoken,则Transformerencoder第一层的QKV矩阵参数量(不含偏置)为:A.1.97×10⁵B.5.90×10⁵C.1.18×10⁶D.2.36×10⁶答案:C解析:patch数=(224/16)²=196,加clstoken共197;embeddingdim通常768。QKV各需768×768,共3×768×768=1.77×10⁶,但题目问“矩阵参数量”,即权重矩阵元素个数,故为3×768×768=1.18×10⁶。3.在DeepSpeedZeRO3中,下列哪项内存占用不会被自动分区到所有GPU?A.optimizer.statesB.model.parametersC.gradientbuffersD.activationcheckpoints答案:D解析:ZeRO3对参数、梯度、优化器状态均做分区;activationcheckpoints属于前向重计算策略,仍由计算GPU按需保存,不参与分区。4.使用FlashAttention2时,若head_dim=64,batch=8,heads=12,seq=2048,GPUSRAM为96KB,则理论上最大可并行处理的attentionhead数为:A.1B.2C.3D.4答案:C解析:FlashAttention2以SRAMtile为单位,每tile需存储Q、K、V、O共4个head_dim×block_size的缓冲。设block_size=64,则每tile占4×64×64×4B=64KB;96KB/64KB≈1.5,向上取整为2tile,可同时处理2head;但GPU需留1tile做pingpong,故最大并行head=3。5.在RLHF中,若使用PPOclip,old_policy与new_policy的KL散度上限设为0.1,则clip系数ε通常取:A.0.05B.0.1C.0.2D.0.5答案:C解析:经验上ε=0.2可在探索与稳定性间平衡,且与KL上限0.1无直接数值冲突,实际运行中通过earlystopping控制KL。6.某推荐系统采用双塔结构,负样本为batch内随机采样,batch=1024,embeddingdim=128,则InfoNCE估计的梯度方差与下列哪项成正比?A.1/128B.1/1024C.128/1024D.1024/128答案:B解析:梯度方差与负样本量成反比,batch内负样本数为1023,故∝1/1024。7.在DiffusionModel中,若采用DDIM采样50步,η=0.0,则生成样本的随机性来源于:A.初始潜变量z_TB.每一步的ε_θ预测C.随机采样路径D.无随机性,生成确定答案:A解析:DDIMη=0时为确定性采样,仅z_T~N(0,I)引入随机性。8.在Mojo语言中,与Python交互时,下列哪段代码可将Pythonlist[float]零拷贝转为MojoTensor?A.tensor.from_python(list)B.tensor.from_buffer(list.__array_interface__['data'])C.tensor.from_numpy(np.array(list))D.无法零拷贝,必须复制答案:B解析:Mojo支持通过__array_interface__获取PyObject底层指针,实现零拷贝;from_numpy会触发一次拷贝。9.在NVIDIAH100上,若使用TransformerEngine,FP8GEMM的累加器位宽为:A.FP8B.FP16C.FP32D.INT32答案:C解析:TE采用FP8输入,乘积累加使用FP32,保证精度。10.在联邦学习FedAvg中,若客户端本地epoch=5,lr=0.01,服务器聚合后学习率衰减0.9,则等价于中心式SGD的effectivelr为:A.0.01B.0.009C.0.05D.0.045答案:D解析:本地epoch=5相当于5步SGD,lr=0.01;服务器聚合无梯度平均,仅参数平均,等效lr=0.01×5×0.9=0.045。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列哪些技术可降低LLM推理首token时延(TTFT)?A.ContinuousbatchingB.KVcachequantizationtoINT4C.SpeculativedecodingwithdraftmodelD.Prefixcaching答案:A、B、D解析:A提升吞吐间接降低排队时延;B减少内存带宽;D复用前缀KV;C主要降低每token时延,对首token无直接收益。12.在StableDiffusionXL中,与SD1.5相比新增的设计有:A.双textencoder(CLIP+OpenCLIP)B.UNetbackbone扩大至3.5B参数C.引入refiner模型做高分辨率噪声修正D.使用vparameterization答案:A、C、D解析:SDXLUNet为2.3B,B错误。13.关于LoRA微调,下列说法正确的是:A.秩r越大,可恢复全参微调性能上界越高B.初始化A~N(0,σ²),B=0,可保持初始输出不变C.合并权重时,ΔW=BA,可离线融合到原权重D.在FP16下,LoRA可降低显存占用约(2r/d)倍答案:A、B、C解析:D应为(2r/(d+r)),近似2r/d仅当r≪d。14.在自动驾驶感知中,BEVFormer采用:A.空间交叉注意力将图像特征查询到BEV网格B.时间自注意力融合历史BEV特征C.使用LSS的显式深度估计D.采用可学习位置编码编码BEV坐标答案:A、B、D解析:BEVFormer无需显式深度,C错误。15.在推荐系统多任务学习中,MMoE与SharedBottom相比:A.参数量随专家数线性增加B.可缓解任务间负迁移C.门控网络采用SoftmaxD.所有任务共享同一专家集合答案:A、B、C解析:D错误,每个任务有独立门控,专家集合共享。三、填空题(每空2分,共20分)16.在PyTorch中,若模型已开启torch.backends.cudnn.benchmark=True,则卷积算法选择策略为________,此时输入尺寸频繁变化会导致________。答案:穷举搜索所有实现并计时选择最快者;性能下降。17.使用FlashAttention时,attention计算复杂度从O(n²d)降至________,内存复杂度降至________。答案:O(nd²);O(nd)。18.在RLHF中,rewardmodel通常采用________损失函数,其数学表达式为________。答案:pairwiseranking;logσ(r_θ(x,y_w)r_θ(x,y_l))。19.若LLaMA7B采用GQA(groupqueryattention),num_heads=32,num_kv_heads=8,则每组query共享________个kvhead,内存占用下降比例为________。答案:4;18/32=75%。20.在DiffusionTransformer(DiT)中,adaLNZero将________向量线性映射为________组缩放与偏移参数,用于调制LayerNorm。答案:timestep;6(γ1,β1,α1,γ2,β2,α2)。四、算法与编程题(共30分)21.(10分)实现带旋转位置编码(RoPE)的多头注意力前向,要求:输入:Q,K,V∈R^(b×h×n×d),freqs_cos,freqs_sin∈R^(n×d)预计算。输出:out∈R^(b×h×n×d)。语言:Python+PyTorch,禁止调用现成RoPEAPI。答案:```pythondefrope(x,cos,sin):x:(...,n,d)x1,x2=x[...,::2],x[...,1::2]偶奇拆分cos1,cos2=cos[...,::2],cos[...,1::2]sin1,sin2=sin[...,::2],sin[...,1::2]y1=x1cos1x2sin1y2=x2cos2+x1sin2y=torch.empty_like(x)y[...,::2]=y1y[...,1::2]=y2returnydefmultihead_rope_attention(Q,K,V,freqs_cos,freqs_sin):b,h,n,d=Q.shapeQ=rope(Q.transpose(1,2),freqs_cos,freqs_sin).transpose(1,2)K=rope(K.transpose(1,2),freqs_cos,freqs_sin).transpose(1,2)scores=torch.matmul(Q,K.transpose(2,1))/(d0.5)attn=torch.softmax(scores,dim=1)out=torch.matmul(attn,V)returnout```解析:RoPE通过复数旋转实现相对位置编码,需对偶奇维度交替应用旋转矩阵;后接标准attention。22.(10分)给定二维张量X∈R^(n×d),实现GPU友好的Topk稀疏化算子:要求:返回掩码M∈{0,1}^(n×d),每行仅k个1,对应绝对值最大元素。时间复杂度O(ndlogk),空间O(nd)。提供CUDA核函数伪代码(Python可调用)。答案:```pythonimporttorchdeftopk_mask(x,k):_,topi=torch.topk(x.abs(),k,dim=1,sorted=False)mask=torch.zeros_like(x,dtype=torch.bool)mask.scatter_(dim=1,index=topi,value=True)returnmaskCUDA伪核(每行一个warp)__global__voidtopk_mask_kernel(constfloatx,boolmask,intn,intd,intk){introw=blockIdx.x;if(row>=n)return;extern__shared__floatsmem[];floatvals=smem;//d个元素intidxs=(int)&vals[d];for(inti=threadIdx.x;i<d;i+=blockDim.x){vals[i]=fabs(x[rowd+i]);idxs[i]=i;}__syncthreads();//使用warp级bitonicselection,选出topkbitonic_select_topk(vals,idxs,d,k);__syncthreads();for(inti=threadIdx.x;i<k;i+=blockDim.x){intcol=idxs[i];mask[rowd+col]=true;}}```解析:利用warp级并行bitonicselection,将每行复杂度降至O(dlogk),避免全局排序。23.(10分)实现GradientCheckpointing的反向传播内存计算:给定L层Transformer,每层参数量P,激活占用A,batch=b,seq=n,d=hidden。求:1.无checkpoint峰值内存;2.使用checkpoint峰值内存;3.若采用CPUoffloading存储checkpoint,PCIe带宽为BGB/s,每层重计算耗时ts,求带宽最小值B_min使重计算不成为瓶颈。答案:1.峰值内存=参数+激活+梯度+优化器状态=P+LA+P+2P=3P+LA2.峰值内存=参数+2A+P+2P=3P+2A(仅保存每层输入,反向时重计算)3.每层需传输A数据,重计算耗时t,则B_min×t≥A⇒B_min≥A/t解析:CPUoffloading将激活换出,反向时流式回传,带宽需满足A/t,否则PCIe成为瓶颈。五、系统设计题(共15分)24.设计一个支持千亿参数LLM的推理服务系统,要求:单卡80GB,模型采用INT4量化+GQA+FlashAttention2;支持动态batch+streaming输出;P99首token时延<500ms,吞吐>2000tokens/s;给出:1)系统架构图;2)关键路径时延估算;3)容量规划公式;4)故障恢复策略。答案:1)架构:┌──────────┐┌──────────┐┌──────────┐│Gateway│────▶│Scheduler│────▶│Inference││(Nginx)││(Continuous)││Pod×N│└──────────┘└──────────┘└──────────┘▲▲│││▼MetricsKVCacheSharedNVMe(Prometheus)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 舟山消防安全管控指南
- 2026年中国社会科学院公开招聘管理人员60人备考题库及参考答案详解1套
- 2026年厦门大学教育研究院行政秘书招聘备考题库完整答案详解
- 2026年华电电力科学研究院有限公司面向华电系统内外公开招聘的备考题库及完整答案详解一套
- 2026年合山市文化广电和旅游局公开招聘编外聘用人员备考题库及完整答案详解一套
- 2026年东莞市公安局洪梅分局警务辅助人员招聘19人备考题库及一套答案详解
- 2026年中船西南(重庆)装备研究院有限公司招聘备考题库及答案详解1套
- 2026年乐山市井研县公安局警务辅助人员招聘17人备考题库及参考答案详解
- 甘肃销售分公司招聘笔试题库2026
- 东航四川分公司招聘笔试题库2026
- 华泰财险人类辅助生殖医疗费用保险条款
- TCALC 003-2023 手术室患者人文关怀管理规范
- 关键对话-如何高效能沟通
- 村级组织工作制度
- 排水管网清淤疏通方案(技术方案)
- 安全文明施工措施费用支付计划三篇
- 人教版九年级化学导学案全册
- 国开电大商业银行经营管理形考作业3参考答案
- 陈独秀早期社会建设思想的形成、渊源及启迪,东方哲学论文
- GB/T 1865-2009色漆和清漆人工气候老化和人工辐射曝露滤过的氙弧辐射
- 2023年自考高级财务会计真题和答案
评论
0/150
提交评论