版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年人工智能训练师实操考核高频考点试题1单选题(每题2分,共20分)1.1在PyTorch中,若模型在GPU上训练,下列哪段代码可正确地把张量x从CPU迁移到GPU并确保后续运算仍在GPU?A.x.to('cuda')B.x.cuda()C.x=x.to(device)D.x=x.type(torch.cuda.FloatTensor)答案:C解析:x.to(device)会返回一个指向GPU的新张量并重新赋值,避免原地修改带来的设备不一致问题。1.2当使用Adam优化器时,若beta1=0.9,beta2=0.999,则二阶矩估计的偏差修正项在t=1步时的值为A.1/(1-0.999)B.1/(1-0.9)C.1-0.999D.1-0.9答案:A解析:二阶矩偏差修正为1/(1-beta2^t),t=1时即1/(1-0.999)。1.3在数据并行(DataParallel)场景下,若batch_size=64,GPU数量=4,则每个GPU实际收到的mini-batch大小为A.64B.32C.16D.8答案:C解析:DataParallel会自动均分batch,64/4=16。1.4对文本分类任务,若采用BERT-base-Chinese,最大序列长度128,则模型输入的positionembedding参数量为A.128×768B.512×768C.128×128D.768×768答案:A解析:positionembedding矩阵行数等于max_position_embeddings,BERT-base为512,但题目限定128,实际切片后仍用128×768。1.5在联邦学习FedAvg算法中,服务器端聚合权重与客户端本地数据量成正比,其数学表达式为A.w^{t+1}=∑_k(n_k/n)w_k^{t+1}B.w^{t+1}=1/K∑_kw_k^{t+1}C.w^{t+1}=∑_k(1/n_k)w_k^{t+1}D.w^{t+1}=median(w_k^{t+1})答案:A解析:n_k为客户端k的样本量,n为总样本量。1.6使用混合精度训练时,LossScaling的主要目的是A.加速梯度下降B.防止梯度下溢C.减少显存占用D.提高数值精度答案:B解析:fp16下梯度容易下溢,放大loss后再反传可避免。1.7在目标检测YOLOv5中,若输入图像640×640,下采样倍数为32,则特征图尺寸为A.640×640B.320×320C.40×40D.20×20答案:D解析:640/32=20。1.8当使用K-fold交叉验证时,若K=5,数据集大小=10000,则每次训练集大小为A.2000B.8000C.10000D.5000答案:B解析:每次用4份做训练,10000×4/5=8000。1.9在深度强化学习PPO中,clip参数ε通常取A.0.01B.0.1C.0.5D.1.0答案:B解析:经验值0.1左右。1.10若某模型在测试集上Accuracy=0.95,Precision=0.90,Recall=0.95,则F1-score为A.0.90B.0.923C.0.95D.0.975答案:B解析:F1=2PR/(P+R)=2×0.90×0.95/(0.90+0.95)=0.923。2多选题(每题3分,共15分,多选少选均不得分)2.1下列哪些操作可有效缓解神经网络过拟合?A.DropoutB.L2正则C.早停D.增加网络深度答案:ABC解析:增加深度可能加剧过拟合。2.2在Transformer中,self-attention的Q、K、V矩阵维度为(batch,seq,d_k),下列哪些说法正确?A.计算attentionscore时做QK^TB.使用scaleddot-product,缩放因子√d_kC.多头机制将d_k拆成h份D.最终输出维度与输入一致答案:ABCD2.3关于数据增强,图像任务中哪些方法属于“空间变换”?A.RandomcropB.ColorjitterC.RandomrotationD.Horizontalflip答案:ACD2.4在模型蒸馏中,下列哪些损失函数组合是常见做法?A.softtargetKL+hardtargetCEB.MSEonlogitsC.CosinesimilarityonfeaturesD.L1onparameters答案:ABC2.5下列哪些指标可直接用于不平衡分类评估?A.AUC-ROCB.AUC-PRC.Cohen’sKappaD.Macro-F1答案:ABCD3判断题(每题1分,共10分,正确写“T”,错误写“F”)3.1BatchNorm在训练阶段使用当前batch统计量,在测试阶段使用滑动平均统计量。T3.2使用ReLU激活的深层网络一定不会出现梯度消失。F3.3在GPT系列中,decoder-only架构意味着训练时看不到未来token。T3.4AUC-ROC对正负样本比例敏感。F3.5知识蒸馏中,温度τ越大,softmax分布越尖锐。F3.6使用梯度裁剪(clip_grad_norm_)可防止梯度爆炸。T3.7在联邦学习中,SecureAggregation可防止服务器看到单个客户端梯度。T3.8对类别不平衡数据,直接采样多数类使其与少数类数量一致称为过采样。T3.9LSTM中遗忘门输出接近0表示保留更多信息。F3.10使用混合精度训练时,权重mastercopy必须保持fp32。T4填空题(每空2分,共20分)4.1若学习率调度器为CosineAnnealingLR,初始lr=0.1,T_max=100,则第50个epoch的lr值为______。答案:0.05解析:lr=0.5×0.1×(1+cos(π×50/100))=0.05。4.2在PyTorch中,若模型参数为fp16,优化器状态为fp32,则Adam维护的“exp_avg_sq”占用显存大小为参数量的______倍。答案:2解析:fp32,一倍;exp_avg与exp_avg_sq各一倍,共2倍。4.3若某卷积层输入通道64,输出通道128,卷积核3×3,groups=1,则参数量为______。答案:128×64×3×3=73728。4.4在RoBERTa预训练中,去除了______任务,仅保留MLM。答案:NSP。4.5若使用BeamSearch,beam_size=4,vocab_size=10000,则每步搜索空间为______。答案:4×10000=40000。4.6在深度Q网络中,目标网络更新方式若为softupdate,系数τ=0.005,则更新公式为θ^←______×θ+______×θ^-。答案:0.995;0.005。4.7若FLOPs计算公式为2×C_in×C_out×H×W×K_h×K_w,则一个1×1卷积,C_in=256,C_out=512,特征图32×32,FLOPs为______。答案:2×256×512×32×32×1×1=268435456。4.8在图像分割任务中,DiceLoss公式为1−______。答案:\frac{2∑p_ig_i}{∑p_i+∑g_i}。4.9若使用DeepSpeedZero-3,则优化器状态、梯度、参数均被______。答案:分片。4.10在强化学习PPO中,advantage估计采用GAE,若λ=0.95,则GAE(λ)可写为______。答案:∑_(l=0)^∞(γλ)^lδ_{t+l}。5简答题(每题10分,共30分)5.1描述混合精度训练在PyTorch中的完整实现流程,并给出关键代码片段,要求包含LossScaling、梯度缩放还原、masterweight更新三步。答案:1)前向:model=model.half().cuda(),输入x=x.half(),得到loss;2)缩放:scale=2048.0,loss=lossscale;2)缩放:scale=2048.0,loss=lossscale;3)反向:loss.backward(),梯度此时为fp16;4)还原:scaler.scale(loss).backward(),内部维护scale;5)裁剪:scaler.unscale_(optimizer),torch.nn.utils.clip_grad_norm_(model.parameters(),max_norm);6)更新:scaler.step(optimizer),scaler.update(),optimizer操作的是fp32masterweight;7)清空:optimizer.zero_grad()。关键代码:```pythonfromtorch.cuda.ampimportautocast,GradScalerscaler=GradScaler()forx,yinloader:optimizer.zero_grad()withautocast():y_hat=model(x)loss=criterion(y_hat,y)scaler.scale(loss).backward()scaler.unscale_(optimizer)torch.nn.utils.clip_grad_norm_(model.parameters(),1.0)scaler.step(optimizer)scaler.update()```5.2给定一个文本生成任务,说明如何构造负样本以训练对比学习模型,要求给出损失函数公式及温度τ的作用。答案:负样本构造:1)in-batch:同batch内其他样本作为负例;2)hard:利用BM25检索top-k相似但非ground-truth段落;3)false-positive:用生成模型采样高概率但错误答案。损失函数:InfoNCEL=-logτ控制分布平滑度,τ越小,正负区分越尖锐,训练越激进。5.3解释梯度累积(gradientaccumulation)与显存占用的关系,并推导在batch_size=8,accumulate=4时,等效batch_size及显存节省比例,假设显存占用与batch_size线性相关。答案:等效batch_size=8×4=32。显存节省:直接batch=32需显存M,分4步累积每步batch=8,显存峰值M/4,节省比例=1−1/4=75%。6计算题(共25分)6.1(8分)给定一个注意力机制,Q∈R^{n×d_k},K∈R^{n×d_k},V∈R^{n×d_v},n=1024,d_k=64,d_v=128,计算标准self-attention的FLOPs,要求写出公式并给出数值。答案:1)QK^T:n×d_k×n×2=2n^2d_k=2×1024^2×64=134217728;2)Softmax:归一化n×n行,每行exp+n次加,近似n^2=1048576;3)Attention×V:n×n×d_v×2=2n^2d_v=2×1024^2×128=268435456;总FLOPs≈134217728+268435456=402653184≈4.03×10^8。6.2(9分)某卷积网络层参数:输入C_in=3,输出C_out=64,kernel=7×7,stride=2,padding=3,输入特征图H=W=224,输出特征图H′=W′=112,采用im2col+GEMM实现,求:1)im2col后矩阵尺寸;2)GEMM乘法次数;3)若使用WinogradF(2×2,3×3)算法,乘法次数降低比例。答案:1)输出尺寸112×112,每个输出点对应7×7=49个输入点,im2col矩阵行数=112×112=12544,列数=C_in×k_h×k_w=3×49=147;2)GEMM:12544×147×64×2≈2.36×10^8FLOPs;3)WinogradF(2×2,3×3)将3×3卷积转为4×4,乘法次数理论降低至4/9,降低比例=1−4/9=55.6%。6.3(8分)在联邦学习场景下,100个客户端,每轮参与比例C=0.1,本地epoch=5,本地batch_size=32,总样本N=10^6,模型参数量P=50MB,通信带宽上行100Mbps,下行200Mbps,求:1)每轮通信轮数;2)每轮上传总数据量(GB);3)上传耗时(秒)。答案:1)参与客户端=100×0.1=10,上传+下载各一次,通信轮数=10;2)上传数据=10×50MB=500MB=0.5GB;3)上行带宽100Mbps=12.5MB/s,耗时=500/12.5=40s。7实操编程题(共30分)7.1题目:基于HuggingFaceTransformers,用LoRA技术在GLUE/SST-2任务上微调RoBERTa-base,要求:1)仅训练LoRA参数,原模型冻结;2)验证集准确率≥92%;3)训练日志输出每一步的loss、learning_rate、gpu_memory;4)保存adapter权重为safetensors格式;5)提供可复现脚本,随机种子42。请提交完整train.py与eval.py,并给出运行命令。答案:train.py```pythonimportos,torch,numpyasnp,datasets,evaluatefromtransformersimport(RobertaTokenizerFast,RobertaForSequenceClassification,Trainer,TrainingArguments,DataCollatorWithPadding)frompeftimportLoraConfig,get_peft_model,TaskTypefromsafetensors.torchimportsave_filedefset_seed(seed=42):torch.manual_seed(seed)np.random.seed(seed)set_seed()model_name="roberta-base"tokenizer=RobertaTokenizerFast.from_pretrained(model_name)model=RobertaForSequenceClassification.from_pretrained(model_name,num_labels=2)lora_config=LoraConfig(r=8,lora_alpha=16,target_modules=["query","value"],lora_dropout=0.1,bias="none",task_type=TaskType.SEQ_CLS)model=get_peft_model(model,lora_config)model.print_trainable_parameters()deftok(ex):returntokenizer(ex["sentence"],truncation=True)raw=datasets.load_dataset("glue","sst2")train_ds=raw["train"].map(tok,batched=True).remove_columns(["idx","sentence"])eval_ds=raw["validation"].map(tok,batched=True).remove_columns(["idx","sentence"])collator=DataCollatorWithPadding(tokenizer=tokenizer)metric=evaluate.load("accuracy")defcomp(eval_pred):logits,labels=eval_predpreds=np.argmax(logits,axis=-1)returnmetricpute(predictions=preds,references=labels)args=TrainingArguments(output_dir="./lora-sst2",per_device_train_batch_size=32,per_device_eval_batch_size=32,num_train_epochs=3,learning_rate=2e-4,weight_decay=0.01,logging_steps=10,evaluation_strategy="epoch",save_strategy="epoch",seed=42,fp16=True,report_to="none")classMyTrainer(Trainer):deflog(self,logs):super().log(logs)if"loss"inlogs:lr=self.lr_scheduler.get_last_lr()[0]mem=torch.cuda.max_memory_allocated()/1e9print(f"step={self.state.global_step},loss={logs['loss']:.4f},lr={lr:.2e},gpu_mem={mem:.2f}GB")trainer=MyTrainer(model=model,args=args,train_dataset=train_ds,eval_dataset=eval_ds,tokenizer=tokenizer,data_collator=collator,compute_metrics=comp,)trainer.train()model.save_pretrained("./lora-sst2-adapter")额外导出safetensorssave_file(model.state_dict(),"./lora-sst2-adapter/adapter_model.safetensors")```eval.py```pythonfrompeftimportPeftModelfromtransformersimportRobertaTokenizerFast,RobertaForSequenceClassification,Trainerimportdatasets,evaluate,torch,numpyasnptokenizer=RobertaTokenizerFast.from_pretrained("roberta-base")base=RobertaForSequenceClassification.from_pretrained("roberta-base",num_labels=2)model=PeftModel.from_pretrained(base,"./lora-sst2-adapter")model.cuda().eval()raw=datasets.load_dataset("glue","sst2")eval_ds=raw["validation"].map(lambdaex:tokenizer(ex["sentence"]
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第二课“福字蝶恋花”剪纸·广东剪纸教学设计-2025-2026学年初中劳动初中全一册粤教版
- 人邮版版·2019教学设计中职中职专业课电子商务类73 财经商贸大类
- 第十六课 快乐假期教学设计小学心理健康鄂教版三年级-鄂教版
- 第9课 捕鼠大作战教学设计小学信息技术大连理工版五年级下册-大连理工版
- 曲轴箱负压检测教学设计中职专业课-汽车发动机构造与维修-汽车运用与维修-交通运输大类
- 120调度员工作制度
- 4天24小时工作制度
- ppp项目部工作制度
- 一村五员工作制度汇编
- 三位一体网络工作制度
- 《用事实说话-透明化沟通的8项原则》读书笔记
- 《海洋工程设计基础》课件-第二章 海洋平台载荷
- 我国城市流浪犬猫安置的现状与分析
- (2021-2025)五年高考英语真题分类汇编专题16 完形填空(10空和20空)(全国)(原卷版)
- T-ZZB 2691-2022 塔式起重机司机室
- 金融交易操盘手实战技能训练手册
- 清华最难的数学试卷
- 2024-2025学年广东省深圳市龙华区六年级下册期末英语检测试题(附答案)
- 物料防呆管理办法
- 全国课一等奖统编版语文七年级上册《我的白鸽》公开课课件
- 集团资金收支管理办法
评论
0/150
提交评论