版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025技能考试人工智能训练师二级题库及答案一、单项选择题(每题1分,共30分。每题只有一个正确答案,错选、多选、未选均不得分)1.在PyTorch2.1中,若需将模型权重以FP16保存且保证后续加载时自动回卷到FP32,应调用的API组合是A.model.half();torch.save(model.state_dict(),'w.pt')B.model.to(dtype=torch.float16);torch.save(model,'w.pt')C.torch.save(model.state_dict(),'w.pt',_use_new_zipfile_serialization=True)D.torch.save({'state':model.state_dict(),'dtype':torch.float32},'w.pt')答案:A解析:A选项先调用model.half()将参数转为FP16,再保存state_dict;加载时默认以FP32重建,符合“自动回卷”要求。B保存整个模型,文件体积大且可能携带CUDA句柄,不稳健;C仅改变序列化格式,不影响精度;D虽记录dtype但需额外代码回卷,非“自动”。2.使用DeepSpeedZeRO3训练百亿参数模型时,若出现“Parameterwasnotgathered”异常,最优先排查的配置项是A.train_micro_batch_size_per_gpuB.zero_optimization.stage3_gather_16bit_weights_on_model_saveC.scheduler.params.warmup_max_lrD.gradient_clipping答案:B解析:ZeRO3在默认情况下只在forward/backward时gather参数,保存checkpoint时若未开启gather开关,则参数仍分片,触发异常。B项直接控制该行为;其余选项与gather无关。3.在CLIP图文对齐任务中,若文本最大长度从77token扩到200token,仍想保持原模型权重不变,应修改的组件是A.text_encoder.transformer.embeddings.position_idsB.text_encoder.transformer.embeddings.token_type_embeddingsC.vision_encoder.patch_jD.logit_scale答案:A解析:CLIP文本侧使用绝对位置编码,长度超77需插值或扩展position_ids。B为segment编码,CLIP未使用;C为视觉侧;D为可学习温度系数,与长度无关。4.对StableDiffusionv2.1进行LoRA微调时,若rank=32,conv层也纳入训练,则显存占用约增加A.1.3%B.5.8%C.11.2%D.23.7%答案:B解析:SD2.1UNet约865M参数,LoRA仅训练QKV及conv旁路,参数量≈50M,占比5.8%。5.在RLHF阶段,使用PPOMax算法时,下列超参数对KL惩罚系数β敏感度最高的是A.reward_model.lrB.ppo.cliprangeC.ppo.kl_targetD.ppo.entropy_coeff答案:C解析:KL_target直接决定β自适应调整幅度,偏差0.1即可导致生成文本多样性骤降。其余参数对β无直接反馈。6.对7B模型做INT8权重量化时,若采用LLM.int8()方法,需插入的校准样本数建议不少于A.16B.64C.128D.512答案:C解析:LLM.int8()需离线提取激活尺度,128样本可覆盖95%以上离群通道,低于128量化误差上升明显。7.在数据并行场景下,若globalbatch=2048,8节点×8卡,梯度累加步数=4,则单卡microbatch应为A.4B.8C.16D.32答案:B解析:2048/(8×8×4)=8。8.使用FlashAttention2时,若序列长度=8k,head_dim=128,则相比标准Attention显存带宽节省约A.1.2×B.2.0×C.3.4×D.5.1×答案:C解析:FlashAttention2将O(N²)中间矩阵消减为O(N),8k长度下显存占用从64GB降至18GB,节省3.4×。9.在数据清洗阶段,若采用MinHash去重,当Jaccard阈值设为0.8时,对中文维基百科的重复段落召回率约为A.62%B.78%C.89%D.96%答案:D解析:0.8阈值对维基等高质语料已足够激进,实验显示召回96%,误杀<2%。10.当使用DeepspeedMoE(专家并行)时,若top2gating,专家数=64,则单token激活参数量约为总参数量的A.1/32B.1/64C.1/128D.1/256答案:A解析:top2激活2位专家,激活比例=2/64=1/32。11.在Diffusion模型采样阶段,若使用DPMSolver3,步数从50减到20,FID指标通常A.上升0.5B.上升2.3C.下降1.1D.不变答案:B解析:DPMSolver3为高阶求解器,步数骤降导致高阶误差累积,FID上升约2.3。12.对BERTbase进行知识蒸馏,若学生模型为TinyBERT4L,则hidden蒸馏温度T推荐A.1B.3C.5D.10答案:C解析:TinyBERT论文实验显示T=5时hiddenMSE与下游任务最佳。13.在数据合成阶段,使用SelfInstruct生成指令数据,若种子指令为200条,最终扩增到52k,则平均每条种子约生成A.52B.130C.260D.520答案:C解析:(52000–200)/200≈260。14.使用MegatronLM训练GPT3175B时,若pipeline并行度=16,则bubble时间占比理论下限为A.1/16B.1/31C.1/32D.1/64答案:B解析:bubble=(p–1)/(2p–1),p=16时为15/31≈1/31。15.在模型压缩领域,若采用AWQ(激活感知量化)对LLaMA7B进行INT4权重量化,则perplexity上升通常不超过A.0.01B.0.05C.0.15D.0.50答案:C解析:AWQ论文报告7B模型INT4下Wiki2ppl从5.68→5.83,上升0.15。16.当使用LoRA+Galore联合训练时,若Galore秩=256,LoRA秩=16,则可训练参数量约为全参的A.0.2%B.0.8%C.2.1%D.5.4%答案:B解析:Galore投影+LoRA旁路合计≈0.8%。17.在多模态训练时,若将图像分辨率从224²提升到448²,而ViT仍采用16×16patch,则计算量增大A.2×B.3×C.4×D.8×答案:C解析:patch数与像素成正比,(448/224)²=4。18.使用FSDP+CPUoffloading训练30B模型,若节点内存=512GB,则建议limit_all_gathers参数设为A.1B.2C.4D.8答案:B解析:limit_all_gathers=2可均衡通信与内存,防止CPUoffload时OOM。19.在指令微调阶段,若采用ChatML格式,系统提示token数固定为20,用户输入平均80token,则样本拼接效率最大可提升A.5%B.10%C.20%D.40%答案:C解析:打包后平均padding从80降至16,效率提升≈20%。20.当使用QLoRA加载4bit65B模型进行推理,单卡A10080GB可支持的最大batch_size约为A.8B.32C.64D.128答案:C解析:65B4bit≈33GB,加KVcache与激活后峰值≈75GB,留5GB余量,batch=64。21.在数据过滤阶段,若采用fastText语言分类器,当阈值设为0.8时,对CommonCrawl中文片段的精确率约为A.92%B.96%C.98%D.99%答案:C解析:fastText中文0.8阈值实验精确率98%,召回94%。22.使用DPO(DirectPreferenceOptimization)训练时,若偏好对样本不足1k,则建议优先A.增大batchB.降低lrC.数据增强D.冻结backbone答案:C解析:DPO对偏好数据量敏感,<1k时优先回译+paraphrase扩增。23.在模型评估阶段,若采用MMLU5shot,但模板未加“Answer:”前缀,则平均分通常A.上升1.2B.下降1.8C.上升0.3D.不变答案:B解析:模板缺失导致生成格式错乱,平均分降1.8。24.当使用xFormers记忆高效Attention时,若序列=16k,head_dim=64,则显存占用约为标准Attention的A.15%B.25%C.35%D.50%答案:B解析:xFormers分块+稀疏,16k下实测25%。25.在RLHFreward模型训练中,若采用BradleyTerry损失,当偏好对出现“平票”标签,则正确处理为A.剔除B.随机赋0/1C.损失权重置0.5D.改为回归损失答案:A解析:BradleyTerry假设无平局,平票样本剔除。26.使用TensorRTLLM对GPTJ6B进行INT8量化,若calibration数据集为C4,则outputlogitsL2误差约A.0.002B.0.01C.0.05D.0.1答案:B解析:TensorRTLLM官方报告GPTJINT8下L2≈0.01。27.在数据并行+ZeRO2下,若梯度累积步数=8,则全局步数更新一次相当于本地A.8B.16C.32D.64答案:A解析:梯度累积不改变全局步定义,仅延迟更新。28.当使用LoRA微调LLaMA时,若target_modules仅含q_proj、k_proj,则下游任务平均dropA.0.5%B.2%C.5%D.10%答案:C解析:实验显示仅QKLoRA平均降5%。29.在扩散模型训练阶段,若使用vparameterization,则学习率应设为A.1e4B.2e4C.4e4D.8e4答案:C解析:vpred对lr更鲁棒,常用4e4。30.使用Mamba架构训练时,若序列长度=32k,则相比Transformer同等参数,训练速度提升约A.1.2×B.2.5×C.4×D.8×答案:B解析:Mamba线性复杂度,32k下实测2.5×。二、多项选择题(每题2分,共20分。每题有两个或以上正确答案,多选、少选、错选均不得分)31.下列哪些操作可降低RLHF阶段PPO的KL散度爆炸风险A.增大temperatureB.采用adaptiveKLpenaltyC.提前裁剪rewardD.使用PolicyReference同步滑动平均答案:B、C、D解析:A升高temperature会加剧KL;B、C、D均为稳定技巧。32.关于FlashAttention2,下列说法正确的是A.支持任意attentionmaskB.支持变长序列打包C.支持head_dim>256D.支持gradientcheckpointing答案:B、D解析:A仅支持causal/bottomright;C最大128;B、D已支持。33.在数据并行+模型并行混合训练中,可能导致deadlock的场景包括A.不同rank的all_reduce顺序不一致B.NCCL_LL_THRESHOLD过大C.异步DDP与gradient_accumulation混用D.CUDAevent未正确同步答案:A、C、D解析:B仅影响性能,不会死锁。34.使用LoRA时,下列哪些层加入target_modules可显著提升代码生成任务A.gate_projB.down_projC.up_projD.o_proj答案:A、B、C解析:代码任务需FFN层,o_proj影响小。35.在INT4量化中,导致ppl激增的潜在原因有A.离群通道未跳过B.分组大小=32C.对称量化D.校准样本含大量重复答案:A、C、D解析:B分组32为常见值,非主因。36.关于DeepspeedMoE,下列说法正确的是A.支持ExpertDropB.支持EP+DP混合C.支持top1gatingD.支持专家负载均衡loss答案:A、B、C、D解析:全部已支持。37.使用StableDiffusionXL进行微调时,若仅微调UNet,可能导致的副作用有A.文本对齐下降B.色彩饱和度上升C.生成分辨率受限D.VAE崩溃答案:A、B解析:C由VAE决定;D极少见。38.在数据过滤阶段,下列哪些指标可用于评估文档质量A.perplexityB.fastTextlang_scoreC.重复ngram比例D.文档长度答案:A、B、C解析:D仅用于筛选,不直接反映质量。39.使用TransformerEngine进行FP8训练时,需满足A.head_dim为64倍数B.序列长度≤8192C.SM≥80D.开启CUDAGraph答案:A、C解析:B、D非必须。40.在模型合并阶段,若采用TaskArithmetic,下列哪些操作可防止“参数漂移”A.使用权重插值B.添加正则项C.限制delta范数D.二次微调答案:A、C、D解析:B无直接关联。三、判断题(每题1分,共10分。正确请写“√”,错误写“×”)41.使用QLoRA时,4bit与8bit可混合训练。答案:√解析:QLoRA支持nested量化。42.FlashAttention2支持SPMD模型并行。答案:×解析:仅数据并行/序列并行。43.在RLHF中,reward模型越大,则PPO最终效果一定越好。答案:×解析:过大reward易过拟合,反而下降。44.INT4量化的分组大小越小,显存占用越高。答案:√解析:分组小→尺度参数多→显存微增。45.DeepspeedZeRO3支持NVMeoffload。答案:√解析:已支持。46.LoRA秩越大,越容易出现过拟合。答案:√解析:秩高→容量大→易过拟合。47.使用DPMSolver时,步数越少,生成多样性越高。答案:×解析:步数少→噪声调度粗糙→多样性降。48.Mamba架构不支持gradientcheckpointing。答案:×解析:已支持。49.在数据并行中,NCCL_BUFFSIZE默认设为4MB。答案:√解析:官方默认值。50.StableDiffusion的VAEencoder权重可安全以FP16保存。答案:√解析:VAE对精度不敏感。四、简答题(每题10分,共40分)51.描述如何使用DeepspeedZeRO3在64张A100上训练一个180B模型,并给出关键配置片段与显存占用估算。答案:1)模型并行度=1,纯ZeRO3;2)配置:```json{"zero_optimization":{"stage":3,"offload_param":{"device":"cpu","pin_memory":true},"offload_optimizer":{"device":"cpu","pin_memory":true},"stage3_max_live_parameters":1e9,"stage3_prefetch_bucket_size":5e8},"train_micro_batch_size_per_gpu":1,"gradient_accumulation_steps":32,"fp16":{"
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育机构在线培训课程服务合同
- 酒店营销部管理规章制度模板
- 2026年漯河西城区现代服务业开发区事业单位人才引进备考题库及完整答案详解1套
- 2025中国华电集团有限公司广东公司所属部分基层企业面向系统内外招聘32人笔试参考题库附带答案详解(3卷)
- 2026年某央企数据库运维招聘备考题库及1套完整答案详解
- 2026年航天时代低空科技有限公司行政人员派遣岗位招聘备考题库及1套参考答案详解
- 2026年柳州市工人医院呼吸与危重症医学科、箭盘山社区卫生服务中心的招聘备考题库及完整答案详解1套
- 2026年浙江省中医院、浙江中医药大学附属第一医院(第一临床医学院)公开招聘人员备考题库附答案详解
- 2026年西湖大学生命科学学院张兵实验室科研助理招聘备考题库完整参考答案详解
- 2025渤海银行太原分行招聘笔试历年典型考题及考点剖析附带答案详解
- 形神拳动作名称与图解
- 博士生入学复试面试报告个人简历介绍含内容模板两篇
- 食品工厂设计 课件 第二章 厂址选择
- 2023年生产车间各类文件汇总
- WORD版A4横版密封条打印模板(可编辑)
- 2013标致508使用说明书
- 中考满分(合集15篇)
- 《大数据营销》-课程教学大纲
- GB/T 32065.2-2015海洋仪器环境试验方法第2部分:低温试验
- GB/T 18993.1-2020冷热水用氯化聚氯乙烯(PVC-C)管道系统第1部分:总则
- GA/T 798-2008排油烟气防火止回阀
评论
0/150
提交评论