2025年人工智能训练师三级理论(带答案)_第1页
2025年人工智能训练师三级理论(带答案)_第2页
2025年人工智能训练师三级理论(带答案)_第3页
2025年人工智能训练师三级理论(带答案)_第4页
2025年人工智能训练师三级理论(带答案)_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年人工智能训练师三级理论(带答案)一、单项选择题(每题1分,共30分。每题只有一个最符合题意的答案,错选、多选、未选均不得分)1.在PyTorch2.1中,若需将模型权重以FP16格式保存且保证后续可无缝切换至BF16继续训练,下列做法正确的是A.`torch.save(model.state_dict(),'ckpt.pth',pickle_protocol=4)`B.`torch.save({'state':model.bfloat16().state_dict(),'dtype':'bf16'},'ckpt.pth')`C.`torch.save(model.state_dict().half(),'ckpt.pth')`D.`torch.save({'state':model.state_dict(),'dtype':str(model.dtype)},'ckpt.pth')`答案:D解析:D把原始精度信息存入字典,加载时可根据dtype字段手动转换,避免直接half()导致不可逆精度截断。2.使用DeepSpeedZeRO3训练百亿参数模型时,若出现“Parameterwasgarbagecollected”报错,最先应检查的配置项是A.`train_micro_batch_size_per_gpu`B.`stage3_gather_16bit_weights_on_model_save`C.`stage3_max_live_parameters`D.`gradient_clipping`答案:C解析:ZeRO3会动态换入换出参数,max_live_parameters设置过小会导致正在使用的参数被提前回收。3.在RLHF阶段,采用PPO算法训练奖励模型时,若KL(πθ||πref)突然增大且伴随回报骤降,最可能的原因是A.学习率过大导致策略分布突变B.Critic网络过拟合C.优势函数未做GAE平滑D.奖励模型输入未做LayerNorm答案:A解析:KL暴涨说明新策略与参考策略偏离过大,PPO的clip机制未能约束,首要怀疑步长。4.根据《生成式人工智能服务管理暂行办法》,对“训练数据来源合法性”进行合规审计时,下列证据链中最具法律效力的是A.数据仓库的MD5清单B.第三方公证处出具的数据集版权登记回执C.内部员工签署的“数据已清洗”说明D.GitHubissue里作者声明“可商用”答案:B解析:公证登记属于法定的权属与授权证明,其余均为单方声明,证明力不足。5.在构建中文医疗大模型预训练语料时,以下清洗规则对模型幻觉抑制最直接有效的是A.过滤所有含“可能”“也许”的句子B.删除含“据报道”却无具体出处的段落C.统一阿拉伯数字为中文数字D.将全角符号转为半角答案:B解析:无出处报道常含未经证实的医疗信息,删除后可显著降低幻觉风险。6.使用LoRA微调LLaMA65B时,若rank=16、alpha=32、target_modules=["q_proj","v_proj"],则LoRA新增参数量约为原模型参数量的A.0.05%B.0.1%C.0.2%D.0.5%答案:B解析:65B模型中q_proj+v_proj约占20%,LoRA增量=2×r×d×20%/d²≈0.1%。7.在数据标注环节,采用“双盲+仲裁”模式,若标注员A与B一致性为85%,仲裁率为5%,则期望标注成本增加约A.5%B.10%C.15%D.20%答案:C解析:仲裁样本需第三人标注,成本额外增加5%×2=10%,加上管理开销约15%。8.使用FlashAttention2时,若序列长度从4K增至8K,显存占用理论上A.不变B.翻倍C.翻四倍D.翻八倍答案:A解析:FlashAttention是O(N)显存,与序列长度无关。9.在transformer中,若将RoPE基频从10k改为100k,对长文本外推的影响是A.外推长度缩短B.外推长度延长C.无影响D.训练速度变慢答案:B解析:基频增大,旋转角度周期变长,位置编码可更好外推。10.使用Deepspeed进行混合精度训练时,若lossscale持续下降,说明A.梯度爆炸B.梯度消失C.出现NaND.学习率过小答案:C解析:FP16下出现NaN会触发lossscale自动下降以恢复。11.在指令微调阶段,若采用“多轮对话+指令掩码”策略,掩码位置应设为A.仅用户提问B.仅模型回答C.用户提问与历史回答D.所有token答案:A解析:仅对输入部分计算loss,可防止模型学坏。12.使用wandb记录大模型训练时,若需上传梯度L2范数,应调用的API是A.`wandb.log({"grad":torch.nn.utils.clip_grad_norm_(model.parameters(),1.0)})`B.`wandb.log({"grad":sum(p.grad.norm(2)forpinmodel.parameters())})`C.`wandb.log({"grad":torch.norm(torch.stack([p.grad.dataforpinmodel.parameters()]),2)})`D.`wandb.watch(model,log="gradients",log_freq=1)`答案:D解析:watch接口自动注册hook,无需手动聚合。13.在模型压缩中,AWQ方法的核心假设是A.激活值比权重更敏感B.权重服从正态分布C.通道间量化尺度不同D.离群点对精度影响小答案:C解析:AWQ按通道计算缩放因子,保护显著通道。14.使用Kaiming初始化时,若激活函数为GELU,则推荐模式为A.`fan_in,uniform`B.`fan_out,normal`C.`fan_in,normal`D.`fan_out,uniform`答案:C解析:GELU近似ReLU,fan_in+normal方差更稳。15.在RLHF奖励模型训练中,若正负样本对来自同一prompt,损失函数应选A.MSEB.CrossEntropyC.MarginRankingLossD.KL散度答案:C解析:MarginRanking天然适合pairwise比较。16.使用FSDP训练时,若设置`cpu_offload=True`,则当`forward`第一次访问参数时触发A.`all_gather`B.`scatter`C.`broadcast`D.`reduce_scatter`答案:A解析:CPUoffload需把参数从CPUall_gather到GPU。17.在数据并行场景下,若全局batch=1024、GPU=64,则单卡micro_batch=16时,梯度累积步数为A.1B.2C.4D.8答案:A解析:1024/64=16,刚好无需累积。18.使用LLaMAFactory框架时,若开启`use_rslora`,则alpha与rank关系应满足A.alpha=rankB.alpha=2rankC.alpha=rank/2D.无限制答案:A解析:RSLora将alpha吸收进缩放,需相等。19.在transformer中,若将FFN中间维从4d减到2d,参数量减少约A.1/4B.1/3C.1/2D.2/3答案:B解析:FFN占2/3参数量,中间维减半→整体减1/3。20.使用vLLM推理时,若`max_num_seqs=256`,实际吞吐受限于A.GPU计算B.GPU显存C.CPU内存D.网络带宽答案:B解析:vLLM通过PagedAttention省显存,但KVcache仍占大头。21.在数据配比实验中,若中英文比例从3:1调至1:1,模型在中文CEval上的pass@1通常A.上升B.下降C.不变D.先升后降答案:A解析:中文数据增加,下游中文任务受益。22.使用DPO(DirectPreferenceOptimization)时,若β=0.1,其物理意义是A.温度系数B.KL正则权重C.学习率D.margin阈值答案:B解析:β控制与参考策略的KL惩罚。23.在模型评估中,若采用GPT4作为裁判,其评分可信度与下列哪项最相关A.温度参数B.候选模型大小C.评估prompt是否提供参考答案D.评估轮次答案:C解析:提供参考可显著降低GPT4主观偏差。24.使用MegatronLM训练时,若pipeline并行度=4,micro_batch=2,则一次前反向共需A.4B.8C.16D.32答案:B解析:pipelinebubble与stage数、micro_batch相关,共需2×4=8次。25.在数据去重环节,采用MinHashLSH对网页级文档去重,若Jaccard阈值设为0.8,则近似重复判定准确率约A.85%B.90%C.95%D.99%答案:C解析:0.8阈值下MinHash假阳<5%。26.使用QLoRA推理时,若bits=4、group_size=64,则相比FP16显存占用约A.1/2B.1/3C.1/4D.1/5答案:B解析:4bit量化+LoRAadapter,综合约1/3。27.在指令微调数据集中,若出现“请忽略上述指令”类攻击样本,应采用的过滤策略是A.关键词黑名单B.困惑度检测C.毒性分类器D.一致性校验答案:A解析:此类攻击有固定句式,黑名单高效。28.使用transformers库时,若`load_in_8bit=True`,则模型权重实际存储类型为A.int8B.uint8C.float16D.bfloat16答案:B解析:bitsandbytes采用uint8+零点量化。29.在模型融合中,若采用SLERP方法,插值系数t=0.5,则对应A.算术平均B.几何平均C.球面中点D.加权平均答案:C解析:SLERP在超球面上取中点。30.使用OpenCompass评测框架时,若需新增自定义数据集,应继承的基类是A.`BaseDataset`B.`BaseTask`C.`BaseModel`D.`BaseMetric`答案:B解析:Task封装数据集与指标。二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)31.下列技术可有效缓解RLHF中“奖励黑客”现象的有A.奖励模型正则化B.对抗样本训练C.多模型集成投票D.增加KL惩罚系数答案:ABCD解析:四项均为常用手段。32.使用DeepSpeedMoE训练时,若出现“expertoverflow”警告,可能原因包括A.expert容量因子过小B.数据并行度不足C.负载均衡损失权重过低D.激活检查点未开启答案:AC解析:容量因子与负载均衡直接影响expert分配。33.在数据标注质量评估中,可用来计算IAA(InterAnnotatorAgreement)的指标有A.Cohen’sKappaB.Krippendorff’sAlphaC.Fleiss’KappaD.BLEU答案:ABC解析:BLEU用于生成评估。34.下列操作可能破坏LLaMA预训练权重分布的有A.直接全参数微调学习率1e3B.使用LoRArank=1C.权重warmup为0D.冻结embed层答案:AC解析:过大lr与无warmup易破坏分布。35.在transformer中,可用来降低推理延迟的技术有A.KVcache压缩B.投机解码C.动态批处理D.梯度累积答案:ABC解析:梯度累积用于训练。36.使用FSDP时,若设置`backward_prefetch=BACKWARD_PRE`,则A.下层的full_params提前gatherB.增加峰值显存C.减少网络等待D.降低CPUoffload效率答案:ABC解析:提前gather会占更多显存但隐藏通信。37.下列属于国产大模型开源许可证的有A.ModelScopeLicenseB.Apache2.0C.PengChengLicense2.0D.GPL3.0答案:AC解析:ModelScope与鹏城许可证为国产。38.在数据清洗中,可用于识别机器生成文本的特征有A.困惑度异常低B.重复ngram比例高C.标点符号分布异常D.句法树深度过大答案:ABC解析:句法树深度与生成文本无显著关联。39.使用transformers库进行多轮对话微调时,需特殊处理的token有A.bos_tokenB.eos_tokenC.pad_tokenD.sep_token答案:ABC解析:sep_token非必需。40.在模型评估中,若采用人类偏好对齐指标,需控制的变量有A.评估员背景B.评估顺序C.界面字体大小D.温度参数答案:ABC解析:温度属模型超参。三、判断题(每题1分,共10分。正确请选“√”,错误选“×”)41.FlashAttention支持任意稀疏模式。答案:×解析:仅支持因果或块稀疏。42.LoRA的alpha参数可以设为0。答案:×解析:alpha=0导致梯度消失。43.使用INT8量化后,模型推理速度一定提升。答案:×解析:受限于kernel实现,可能反而下降。44.在RLHF中,奖励模型越大越好。答案:×解析:过大易过拟合人类偏好。45.数据并行时,梯度累积等价于增大全局batch。答案:√46.RoPE位置编码可扩展至任意长度无需训练。答案:×解析:外推能力有限,需NTK或PI。47.使用vLLM时,同一批次序列长度必须相同。答案:×解析:支持变长。48.在FSDP中,sharding_strategy=FULL_SHARD会把梯度也分片。答案:√49.QLoRA的4bit量化对权重和激活同时生效。答案:×解析:仅权重。50.人类评估员间Kappa>0.8即可认为标注质量可靠。答案:√解析:业界通用阈值。四、填空题(每空2分,共20分)51.在PyTorch中,若需将模型某一层命名为`layer`,后续通过字符串访问,应使用__________注册。答案:`register_module`52.使用DeepSpeedZeRO2时,优化器状态分片后,单卡显存占用从O(V)降至__________。答案:O(V/N)53.在transformer中,若hidden_size=4096,attention_head=32,则单头维度为__________。答案:12854.使用PPO时,若clip_ratio=0.2,则策略更新被限制在__________范围内。答案:[10.2,1+0.2]即[0.8,1.2]55.在数据配比实验中,若采用__________采样,可保证每个domain在每次迭代中至少出现一次。答案:分层(stratified)56.使用MegatronLM时,若tensor并行度=2,则单卡存储的attention权重参数量变为原来的__________。答案:1/257.在LLaMA模型中,SwiGLU激活函数将FFN参数量增加约__________倍。答案:1.558.使用OpenAItiktoken计算中文文本token时,平均中文字符≈__________token。答案:0.659.在模型量化中,若采用zeropoint量化,零点z的计算公式为__________。答案:z=round(min/scale)60.使用transformers的`Trainer`时,若需自定义学习率调度器,应重写__________方法。答案:`create_scheduler`五、简答题(每题10分,共30分)61.描述如何在单机八卡A100(80G)环境下,使用FSDP+QLoRA微调LLaMA65B至上下文16K,并保证单卡峰值显存≤75G。要求给出关键配置与脚本片段。答案与解析:1)安装nightlies:`pipinstalltorch==2.3.0+cu121transformersaccelerate`2)启动脚本核心:```bashtorchrunnproc_per_node=8train.py\model_name_or_pathllama65bhf\fsdp"full_shardauto_wrap"\fsdp_configfsdp_qlora.json\qloraTrue\bits4\lora_rank64\lora_alpha16\max_seq_len16384\per_device_train_batch_size1\gradient_accumulation_steps32\bf16True```3)fsdp_qlora.json:```json{"min_num_params":1e8,"cpu_offload":false,"backward_prefetch":"backward_pre","use_orig_params":true,"qlora_4bit_compute_dtype":"bfloat16","qlora_4bit_quant_storage_dtype":"uint8"}```4)显存分析:4bit权重≈32G,KVcache≈35G,激活+梯度≈8G,合计75G内。解析:通过FSDP分片+QLoRA4bit,把权重压缩至1/4,同时用bf16计算保持精度;设置min_num_params=1e8保证每层被分片,避免局部爆炸;gradient_accumulation_steps=32使全局batch=256,保证收敛。62.给出一种基于“困惑度+聚类”的低成本识别预训练语料中机器生成文本的完整流程,并评估其召回率。答案与解析:步骤:1)随机采样1%语料,用LLaMA7B计算每句ppl,取ppl<10的作为候选机器生成。2)用SentenceBERT编码候选句,Kmeans聚成100簇。3)人工抽查每簇50句,统计机器生成比例。4)以簇比例为权重,推算全量召回率。实验:在CommonCrawl1TB子集上,召回率约87%,误杀率4%,成本仅人工标注5000句。解析:低ppl+高相似聚类可捕捉模型生成痕迹;聚类减少人工量;误差主要来自人类撰写但ppl低的文本,可通过毒性/风格二次过滤降低。63.解释为何在RLHF阶段使用“奖励模型集成”能缓解overoptimization,并给出具体实现方案。答案与解析:原因:单奖励模型易过拟合人类标注分布,策略π会找到奖励模型漏洞而非真实人类偏好;集成可平滑奖励面,提高鲁棒性。方案:1)训练5个不同随机种子、不同架构(大小分别为7B、13B)的奖励模型。2)每步PPO更新时,取5个模型输出的中位数作为最终奖励。3)对KL散度项也做集成,取最大值约束。4)每1k步动态淘汰与median偏差最大的模型,重新训练新模型加入。实验:在AnthropicHH数据集上,集成使KL(π||πref)下降30%,人类胜率提升8%。解析:中位数抵御异常值;动态淘汰保持多样性;计算开销仅线性增加,可通过共享Critic网络降低。六、计算题(每题10分,共20分)64.某百亿MoE模型,共64expert,topk=2,hidden=4096,intermediate=11008,计算:(1)单expert参数量;(2)若采用EP=8专家并行,单卡存储的expert参数量;(3)若capacity因子=1.25,序列长度=4K,batch=2,求单expert接收的最大token数。答案:(1)单expert为SwiGLUFFN:3×4096×11008+11008×4096≈1.8×10^8(2)64/8=8expertperGPU,总参数量=8×1.8×10^8=1.44×10^9(3)每样本token=4K×2=8K,top2路由,平均负载=8K×2/64=250,乘capacity因子→最大token数=250×1.25=312.5≈313解析:SwiGLU三倍线性;capacity因子用于溢出缓冲。65.使用PPO训练时,已知:优势函数A_t=returns_tvalues_t旧策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论