上海交大「人工智能训练师」备考_第1页
上海交大「人工智能训练师」备考_第2页
上海交大「人工智能训练师」备考_第3页
上海交大「人工智能训练师」备考_第4页
上海交大「人工智能训练师」备考_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海交大「人工智能训练师」备考一、单项选择题(每题2分,共20分)1.在深度学习中,若某卷积层输入特征图尺寸为112×112×64,使用32个5×5卷积核,步长为2,padding为"same",则输出特征图的尺寸为A.56×56×32  B.56×56×64  C.112×112×32  D.55×55×322.下列关于Transformer自注意力机制的说法,正确的是A.查询向量Q与键向量K的点积结果直接作为注意力权重输出B.注意力权重在softmax前需除以以防止梯度消失C.多头注意力中,每个头的维度必须等于模型总维度D.自注意力无法捕获序列中任意两个位置之间的依赖3.在联邦学习场景下,为防御模型投毒攻击,下列策略最有效的是A.增加本地训练轮次  B.采用梯度裁剪与范数阈值过滤C.提高学习率  D.减少参与方数量4.当使用混合精度训练(FP16+FP32)时,下列哪项操作必不可少A.权重初始化采用Kaiming  B.LossscalingC.梯度累积  D.学习率预热5.在文本生成任务中,若出现"重复循环"现象,最不可能的原因是A.解码温度系数过低  B.训练数据存在大量重复片段C.使用长度惩罚(lengthpenalty)  D.模型容量不足导致记忆训练集6.对于多任务学习,下列正则化方式最能缓解任务间梯度冲突A.L2权重衰减  B.Dropout  C.GradientSurgery  D.BatchNorm7.在目标检测模型YOLOv8中,若输入图像尺寸为640×640,下采样倍数为32,则最终特征图尺寸为A.40×40  B.20×20  C.10×10  D.5×58.下列关于DiffusionModel的描述,错误的是A.前向过程为固定马尔可夫链  B.反向过程通过神经网络预测噪声C.训练目标为最小化预测噪声与真实噪声的L1损失  D.采样过程需迭代去噪9.在模型蒸馏中,若教师模型输出为软标签,温度系数T=4,则学生模型训练时的损失函数通常包含A.仅硬标签交叉熵  B.仅软标签KL散度C.硬标签交叉熵+软标签KL散度加权  D.均方误差10.当使用LoRA(Low-RankAdaptation)微调大模型时,下列说法正确的是A.需修改原模型权重  B.推理阶段必须保留LoRA旁路C.可冻结原模型,仅训练低秩矩阵  D.只适用于Transformer解码器二、多项选择题(每题3分,共15分;多选少选均不得分)11.下列属于大模型涌现能力(emergentability)的有A.上下文学习(In-ContextLearning)  B.指令遵循(InstructionFollowing)C.思维链推理(Chain-of-Thought)  D.参数高效微调(PEFT)12.在构建中文医疗问答系统时,为降低幻觉(hallucination)风险,可采取A.引入外部知识图谱做检索增强  B.使用强化学习从人类反馈(RLHF)C.提高top-p采样阈值  D.在解码阶段加入事实性约束损失13.下列操作能够提升VisionTransformer(ViT)在小数据集上的精度A.使用掩码图像建模(MIM)预训练  B.采用混合卷积嵌入C.增加Transformer层数至48层  D.使用数据增强(RandAugment)14.关于模型压缩技术,正确的有A.知识蒸馏属于无损压缩  B.剪枝后需微调恢复精度C.量化可将FP32权重映射至INT8  D.低秩分解适用于全连接层15.在DiffusionTransformer(DiT)中,下列组件直接影响生成图像分辨率A.Patchsize  B.Transformer深度  C.时间步编码维度  D.类别条件嵌入维度三、判断题(每题1分,共10分;正确打"√",错误打"×")16.使用AdamW优化器时,权重衰减系数等价于L2正则化系数。17.在自监督学习中,BYOL无需负样本对即可训练。18.大模型推理阶段采用KV-Cache可显著降低显存占用。19.混合专家模型(MoE)在推理时所有专家网络都会被激活。20.使用FlashAttention可以在线性内存复杂度下计算注意力。21.在PyTorch中,设置torch.backends.cudnn.benchmark=True一定能加速训练。22.模型参数量越大,其碳排放量一定越高。23.使用DeepspeedZero-Infinity可将优化器状态卸载至CPU内存。24.在RLHF中,奖励模型通常采用Bradley-Terry模型建模偏好。25.对于生成式模型,perplexity越低,生成文本质量一定越好。四、填空题(每空2分,共20分)26.若某Transformer模型隐藏维度为768,注意力头数为12,则每个头的维度为________。27.在PyTorch中,若需将模型某层权重初始化为均值为0、标准差为0.02的正态分布,应使用代码:nn.init._________(layer.weight,mean=0,std=0.02)。28.当使用梯度累积模拟batchsize=256,而GPU显存仅支持batchsize=32时,需累积________次。29.若学习率调度采用cosineannealing,初始lr=1e-3,最小lr=1e-5,训练100轮,则第50轮的学习率为________(保留4位小数)。30.在StableDiffusion中,文本编码器通常采用________(填写模型名称)将提示词映射为语义向量。31.若某模型FP32大小为3.2GB,采用INT8对称量化后,理论上模型大小为________GB(假设仅权重量化)。32.在目标检测评价指标mAP@0.5中,0.5表示IoU阈值为________。33.若使用LoRArank=16,对Attention的Q、V矩阵注入可训练参数,原矩阵维度为768×768,则新增参数量为________。34.在GPT解码中,若采用top-k=50采样,则每一步仅考虑概率最高的________个词。35.当使用8bitAdam优化器时,相比原始Adam,显存占用约减少________%。五、计算题(共15分)36.(7分)某训练任务使用混合精度(FP16+FP32),全局batchsize=2048,序列长度=1024,词汇表大小=50000,模型参数量=7B。假设使用Adam优化器,β1=0.9,β2=0.95,梯度采用FP32存储,权重采用FP16存储。请计算:(1)仅存储模型权重所需的显存(单位GB,1GB=1024³Byte);(2)存储Adam一阶、二阶动量所需的显存;(3)若使用DeepSpeedZero-3将权重、梯度、优化器状态全分片至64张GPU,则每张GPU实际占用显存为多少?(忽略激活值与临时缓存)37.(8分)在DiffusionModel训练阶段,给定噪声调度:¯若某训练样本∼𝒩(0q求:(1)计算¯;(2)若为256维向量,求的熵h()(单位nat,保留2位小数)。六、简答题(每题10分,共20分)38.请阐述大模型"能力解锁"(CapabilityUnlocking)现象的核心原因,并给出至少两种实验验证思路。39.在垂直领域(如法律、医疗)落地大模型时,如何系统性地评估并提升其"可信性"(Trustworthiness)?请结合数据、模型、系统、法规四个维度展开。七、实操题(30分)40.阅读以下场景并完成代码补全与问题分析:背景:某团队需在单机8×A100(80GB)上训练10B参数模型,序列长度4096,使用FlashAttention-2、PyTorch2.1、DeepSpeed。已给出部分训练脚本片段:```pythonimportdeepspeedfromtransformersimportAutoConfig,AutoModelForCausalLMconfig=AutoConfig.from_pretrained("llama-10b")model=AutoModelForCausalLM.from_config(config)ds_config={"train_batch_size":1024,"gradient_accumulation_steps":16,"optimizer":{"type":"AdamW","params":{"lr":2e-4}},"zero_optimization":{"stage":3,"offload_optimizer":{"device":"cpu"}},"fp16":{"enabled":True},"activation_checkpointing":{"partition_activations":True}}model_engine,optimizer,_,_=deepspeed.initialize(model=model,config=ds_config)```问题:(1)指出上述配置在显存与计算效率上的两处潜在瓶颈,并给出改进方案(含具体参数调整);(2)若需引入序列并行(SequenceParallelism)以支持更长序列,请给出基于Transformer的两种主流实现思路,并对比其通信量;(3)假设训练过程出现lossspike(损失突增),请列出至少三条排查路径与对应诊断命令或代码。———答案与解析———一、单项选择题1.A 解析:输出尺寸=⌊⌋2.B 解析:除以可防止点积过大导致softmax饱和。3.B 解析:梯度范数阈值过滤可剔除恶意更新。4.B 解析:FP16下梯度易下溢,需Lossscaling。5.C 解析:长度惩罚用于鼓励长序列,不会导致重复。6.C 解析:GradientSurgery显式修正冲突梯度。7.B 解析:640/32=20。8.C 解析:训练目标为MSE或KL,而非L1。9.C 解析:蒸馏损失通常加权结合。10.C 解析:LoRA冻结原权重,仅训练低秩旁路。二、多项选择题11.ABC 12.ABD 13.ABD 14.BCD 15.AB三、判断题16×(AdamW与L2不等价) 17√ 18×(KV-Cache降低的是计算而非显存) 19×(MoE仅激活Top-k专家) 20×(FlashAttention内存线性但非严格O(n)) 21×(benchmark对动态形状可能变慢) 22×(还与能源结构有关) 23√ 24√ 25×(perplexity低≠事实正确)四、填空题26.64 27.normal_ 28.8 29.5.00e-4 30.CLIPTextEncoder 31.0.8 32.0.5 33.2×768×16=24576 34.50 35.约75%五、计算题36.(1)权重显存:7×10⁹×2Byte=14GB(2)Adam动量:一阶+二阶=2×7×10⁹×4Byte=56GB(3)Zero-3分片后每张GPU:(14+56)/64=1.09375GB37.(1)线性插值:=1e−4¯(2)∼𝒩h六、简答题38.核心原因:大模型在参数规模跨越某一阈值后,损失景观出现"全局盆地"连通,优化路径突然变得平滑,使下游任务泛化误差骤降。验证思路:a)缩放实验:固定数据与训练策略,逐步扩大模型规模,记录下游任务性能曲线,观察突跃点;b)干预实验:在突跃点附近人为扰动参数(如剪枝、量化),观察能力是否消失,验证其脆弱性与规模依赖性。39.数据维度:构建领域权威知识库,采用对抗样本与红队测试数据持续迭代;模型维度:引入可解释模块(如attentionrollout)、不确定性估计(DeepEnsembles、MCDropout);系统维度:部署阶段加入事实性校验API、版本回滚与灰度发布;法规维度:对齐《生成式AI管理办法》,建立审计日志、用户申诉通道与责任险。七、实操题40.(1)瓶颈1:CPUoffload导致频繁PCIe换入换出,改进:关闭offload,改用Zero-3+NVMeoffload,或提升gradient_accumulation_steps至32并减小batchsize;瓶颈2:activationcheckpointing二次前向增加计算,改进:仅对关键层(如FFN)checkpoint,设置"cpu_checkpointing":False。(2)思路

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论