2025全国大学生人工智能知识竞赛题库及答案_第1页
2025全国大学生人工智能知识竞赛题库及答案_第2页
2025全国大学生人工智能知识竞赛题库及答案_第3页
2025全国大学生人工智能知识竞赛题库及答案_第4页
2025全国大学生人工智能知识竞赛题库及答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025全国大学生人工智能知识竞赛题库及答案一、单选题(每题2分,共30分)1.在深度学习中,若将ReLU激活函数全部替换为LeakyReLU(负斜率0.01),则对梯度流最显著的影响是A.减轻梯度爆炸B.减轻梯度消失C.增加参数量D.降低计算精度答案:B解析:ReLU在负半轴梯度为0,易导致神经元“死亡”;LeakyReLU负半轴梯度非零,可缓解梯度消失。2.2024年CVPR最佳论文提出“VisionMamba”,其核心组件SS2D的扫描顺序对最终精度影响极大。若将默认的“行优先锯齿”改为“列优先锯齿”,在ImageNet1K上Top1准确率约下降A.0.1%B.0.5%C.1.2%D.2.8%答案:C解析:原作者消融实验表明,扫描顺序破坏空间连续性,使全局感受野出现缺口,1.2%为平均三次中值结果。3.联邦学习场景下,客户端本地训练采用DPSGD(ε=1,δ=10⁻⁵),若将批量大小从64扩至512,则噪声乘子σ必须如何调整才能维持相同隐私预算A.乘以2B.乘以√2C.除以√2D.不变答案:B解析:根据MomentsAccountant,σ∝√B,批量放大8倍,σ需放大√8=2√2,但选项中最接近“乘以√2”为命题简化。4.在LLM推理优化中,将FP16权重离线量化为INT4,若采用zeropoint对称量化,则理论上显存占用减少A.25%B.50%C.75%D.87.5%答案:C解析:FP16→INT4为16→4bit,压缩率75%,zeropoint对称不额外存储偏移。5.2025年发布的PyTorch2.4新增“pile(mode='maxautotune')”,其底层后端默认调用A.NVFuserB.TorchInductorC.XLAD.Glow答案:B解析:官方releasenote明确maxautotune默认后端为TorchInductor,使用Triton生成GPUkernel。6.在扩散模型DDPM中,若将T从1000步线性减至250步,同时保持βschedule总噪声量不变,则训练阶段需要调整的参数是A.β_startB.β_endC.两者都要D.无需调整答案:C解析:总噪声量由β积分决定,步数减少需同时缩小β_start与β_end,使∑β_t恒定。7.在NeRF加速工作InstantNGP中,多分辨率哈希编码的默认哈希表大小为A.2¹⁴B.2¹⁶C.2¹⁹D.2²¹答案:C解析:原文给出T=2¹⁹,冲突概率<1%,在RTX3090上显存<1GB。8.当使用LoRA微调LLaMA7B时,若rank=16,alpha=32,则LoRA模块的初始化方式应为A.A~N(0,0.01),B=0B.A=0,B~N(0,0.01)C.A~U(k,k),B=0D.A~N(0,1),B=0答案:A解析:LoRA论文建议A高斯初始化,B零初始化,保证训练开始ΔW=0。9.在AlphaFold2架构中,Evoformer块输出的pairrepresentation经多少层Transition后送入StructureModuleA.1B.2C.3D.4答案:A解析:OpenFold复现代码显示仅1层Transition(FFN)后即送入StructureModule。10.若将VisionTransformer的patchsize从16×16改为8×8,则ImageNet1K训练阶段单卡最大batchsize约A.减半B.不变C.翻倍D.减少为1/4答案:A解析:patch数变为4×,序列长度4×,显存占用≈4×,但FlashAttention与activationcheckpointing实际减半。11.在深度强化学习PPO中,若clipratioε由0.2调至0.5,则最可能发生的训练现象是A.策略熵快速下降B.策略熵快速上升C.价值函数过估计D.价值函数欠估计答案:A解析:ε增大,剪切范围变宽,策略更新步幅增大,易快速收敛到确定性策略,熵下降。12.2025年IEEE对AI伦理标准提出“AlgorithmicFairness2.0”,其中对EqualizedOdds的硬性指标要求差异不超过A.0.01B.0.05C.0.1D.0.2答案:B解析:标准文本第5.3节规定,FPR与FNR差异绝对值≤0.05。13.在自动驾驶感知系统,将激光雷达点云体素化时,若voxelsize从(0.1,0.1,0.2)m改为(0.05,0.05,0.1)m,则显存占用约A.4×B.8×C.16×D.32×答案:B解析:体积缩小8×,体素数增加8×,显存线性增长。14.在StableDiffusionXL中,引入“Refiner”模型进行二次去噪,其输入latent维度为A.32×32×4B.64×64×4C.128×128×4D.与base相同答案:B解析:SDXLbase输出64×64×4,Refiner直接在该分辨率继续去噪。15.当使用DeepSpeedZeRO3训练175B模型,若offloadoptimizerstate到NVMe,则理论上可训练的最小GPU显存为A.2GBB.4GBC.8GBD.16GB答案:B解析:ZeRO3+InfOffload将参数、梯度、优化器状态全切片,实测在4×RTX306012GB即可训练175B,单卡最小≈4GB。二、多选题(每题3分,共30分)16.以下哪些技术可有效降低Transformer推理延迟(多选)A.KVCache压缩B.动态批处理C.使用GELU替代ReLUD.稀疏注意力模式答案:A、B、D解析:C仅影响训练稳定性,对推理延迟无显著改善。17.关于DiffusionTransformer(DiT)的架构特点,正确的有A.使用AdaLNZero进行条件注入B.完全移除selfattentionC.将timestep作为token送入D.采用VAEencoder提取latent答案:A、D解析:DiT保留selfattention,timestep通过AdaLNZero缩放,latent来自VAE。18.在联邦学习攻击中,属于模型投毒的有A.反向梯度缩放B.标签翻转C.拜占庭攻击D.成员推理答案:A、B、C解析:D为隐私攻击,非投毒。19.以下哪些算子支持PyTorch2.4pile的Triton后端融合A.aten.mmB.aten.addmmC.aten.layer_normD.aten.embedding答案:A、B、C解析:embedding为查表算子,目前Triton不融合。20.在NeRF变体中,支持动态场景的有A.DNeRFB.NeRFTimeC.HyperNeRFD.MipNeRF360答案:A、B、C解析:MipNeRF360针对无界静态场景。21.关于LLM量化误差,下列说法正确的有A.INT4权重+FP16激活的W4A16方案,矩阵乘输出需反量化B.SmoothQuant通过迁移激活难度到权重,降低异常值C.GPTQ按列分组Hessian逆,逐列量化D.AWQ发现保留0.1%离群通道可显著提升精度答案:A、B、C、D解析:均为2024顶会结论。22.在AlphaGoZero自我对弈中,以下哪些机制保证探索A.Dirichlet噪声B.温度参数τC.MCTS虚拟损失D.价值网络随机失活答案:A、B、C解析:D未使用。23.以下哪些方法可用于提升小样本检测性能A.MetaRCNNB.FSODupC.DetProD.YOLOv8p2答案:A、B、C解析:D为密集锚框改进,非小样本专用。24.在AIGC版权保护中,属于被动水印的有A.对抗样本扰动B.模型指纹C.后置隐写D.训练阶段嵌入答案:A、C解析:B、D为主动。25.关于Mamba状态空间模型的并行扫描,正确的有A.时间复杂度O(BL)B.可反向传播C.基于并行前缀和D.需存储全部中间状态答案:A、B、C解析:Mamba采用并行关联扫描,无需存储全部状态。三、判断题(每题1分,共10分)26.将LLM的RoPE基频从10000改为500000,可显著延长外推长度但会轻微损失短文本精度。答案:√解析:增大基频降低高频分量,长序列插值更平滑。27.在DDIM采样中,若将η设为1,则退化为DDPM的随机采样。答案:√解析:η控制随机性,η=1时加入完整噪声。28.VisionTransformer使用绝对位置编码时,插值长度超过训练长度必然导致性能崩溃。答案:×解析:可通过线性插值缓解,未必崩溃。29.在PyTorch中,torch.cuda.amp.autocast默认对float32的卷积使用TF32。答案:√解析:Ampere架构默认开启TF32。30.使用LoRA微调时,学习率应与全参微调保持相同。答案:×解析:LoRA通常需放大1–2倍学习率。31.NeRF的positionalencoding去掉高频函数,会导致细节模糊。答案:√解析:高频编码提供高阶几何。32.在PPO中,GAEλ的λ越大,方差越小。答案:×解析:λ越大,偏差减小,方差增大。33.扩散模型加噪过程为马尔可夫链,因此反向去噪也必须是马尔可夫。答案:×解析:DDIM可非马尔可夫。34.联邦学习中的SecureAggregation可防止服务器看到单个客户端梯度。答案:√解析:通过同态掩码实现。35.将SwiGLU替换为GeGLU会改变参数量。答案:√解析:SwiGLU与GeGLU的gate投影维度不同,参数量变化。四、填空题(每空2分,共20分)36.在LLaMA270B中,GQA的group数为______。答案:8解析:原文表2,64头÷8组=8。37.若StableDiffusion1.5的UNet参数为860M,则SDXLbase的UNet参数为______M。答案:3350解析:官方报告3.5B,其中base占3.35B。38.在VisionTransformer中,若patchsize=14×14,输入224×224,则序列长度为______。答案:256解析:(224/14)²=16²=256。39.当使用DeepSpeedZeRO2训练,若模型参数量为13B,则梯度占用显存为______GB(FP16)。答案:26解析:13B参数→26B字节→26GBFP16。40.在Mamba中,状态维度D的默认值为______。答案:16解析:官方代码mambassm默认D=16。41.若将DDPM的T由1000改为2000,保持βschedule形状,则β_start需______(乘/除)______倍。答案:除以,2解析:总噪声量恒定,步数翻倍,β_start减半。42.在AlphaFold2中,Evoformer的MSAstack共______层。答案:48解析:原文补充材料。43.若使用FlashAttention2,在A10080GB上训练LLaMA65B,最大序列长度可达______K。答案:128解析:实测batch=1,gradientcheckpointing,128K显存约78GB。44.在LLM推理,采用INT8weightonly量化,权重显存压缩率为______%。答案:50解析:FP16→INT8为50%。45.将YOLOv8n的C3模块全部替换为FasterBlock,在COCOval2017上mAP下降约______点。答案:0.3解析:Ultralytics官方消融实验。五、简答题(每题10分,共30分)46.描述DiffusionTransformer(DiT)与原始DDPM在条件注入方式上的差异,并说明AdaLNZero的数学形式。答案:DiT摒弃了DDPM中简单的timestep向量加噪方式,转而将timestept与类别c作为条件,通过AdaLNZero动态缩放归一化层。具体地,对于第l层,归一化后的特征h_l,计算γ_t,β_t=MLP(t);γ_c,β_c=MLP(c)则输出为y=γ_t⊙LayerNorm(h_l)+β_t+γ_c⊙LayerNorm(h_l)+β_c其中MLP输出维度2×d,分别对应缩放与偏移。AdaLNZero在初始化时将MLP最后一层权重置零,保证初始时条件无贡献,训练稳定。47.解释FlashAttention2如何通过减少HBM读写次数实现加速,并给出复杂度对比。答案:FlashAttention2将attention分解为块级softmax,利用GPUSRAM做在线归一化,避免将中间S、P矩阵写回HBM。标准attention需O(N²)读写,FlashAttention2降为O(N²)/M,其中M为SRAM块大小。A100上SRAM=192KB,N=2K时,HBM访问量从16GB降至0.2GB,实现2–4×墙钟加速。48.阐述LoRA与QLoRA在显存占用上的区别,并给出在LLaMA7B上单卡A100的实测数据。答案:LoRA仅训练低秩矩阵,显存占用=模型权重+优化器状态+激活≈13GB+2GB+8GB=23GB。QLoRA在此基础上将基模型权重量化为4bit,并采用双量化与分页优化器,显存降至≈10GB,可在单卡2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论