2025年人工智能训练师技能竞赛理论考试题库及答案_第1页
2025年人工智能训练师技能竞赛理论考试题库及答案_第2页
2025年人工智能训练师技能竞赛理论考试题库及答案_第3页
2025年人工智能训练师技能竞赛理论考试题库及答案_第4页
2025年人工智能训练师技能竞赛理论考试题库及答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年人工智能训练师技能竞赛理论考试题库及答案一、单项选择题(每题1分,共40分)1.在Transformer架构中,用于捕捉序列位置信息的核心组件是A.卷积核 B.位置编码 C.池化层 D.残差连接答案:B2.当使用Adam优化器时,若β₁=0.9、β₂=0.999,则默认的偏差修正系数在第一次迭代后对学习率的影响表现为A.放大 B.缩小 C.不变 D.先放大后缩小答案:B3.在联邦学习场景下,客户端上传的梯度若未加噪声,最可能导致的隐私风险是A.模型逆向 B.成员推理 C.属性推理 D.数据重构答案:D4.当训练数据出现“长尾分布”时,以下哪种采样策略对尾部类别最友好A.随机过采样 B.随机欠采样 C.加权随机采样 D.聚类中心采样答案:C5.在混合精度训练中,LossScaling的主要目的是A.减少显存占用 B.防止梯度下溢 C.加速通信 D.提高数值精度答案:B6.使用LoRA进行参数高效微调时,可训练矩阵的秩r通常远小于原始权重矩阵的秩,其理论依据来自A.矩阵分解 B.低秩近似 C.奇异值阈值 D.谱范数约束答案:B7.在RLHF阶段,若奖励模型对同一提示的多个响应给出相同分数,最可能的原因是A.温度系数过高 B.奖励模型过拟合 C.KL散度权重过低 D.策略模型初始化不当答案:B8.当使用DeepSpeedZeRO-3时,优化器状态被分割到不同设备,此时梯度更新公式中需要额外插入A.全局归约 B.参数广播 C.异步累加 D.延迟更新答案:A9.在扩散模型训练过程中,若噪声调度从线性改为余弦,通常会带来A.采样步数增加 B.训练时间缩短 C.高维一致性提升 D.低维失真加剧答案:C10.当使用FlashAttention时,内存复杂度从O(n²)降至A.O(n) B.O(nlogn) C.O(n√n) D.O(nk)答案:A11.在构建指令遵循数据集时,若出现“指令-答案”语义不匹配,应优先采用的过滤指标是A.BLEU B.ROUGE-L C.BERTScore D.困惑度答案:C12.当模型出现“对齐税”现象时,以下哪项措施最不可能缓解A.增大KL惩罚系数 B.引入拒绝采样 C.提高预训练数据量 D.降低学习率答案:A13.在模型量化中,若采用4-bitNormalFloat,其量化区间由以下哪项统计量决定A.均值 B.标准差 C.分位数 D.峰度答案:C14.使用DPO(DirectPreferenceOptimization)时,损失函数中隐式包含的奖励模型是A.显式训练的 B.隐式通过偏好数据定义的 C.人工规则 D.强化学习得到的答案:B15.当进行多任务微调时,若任务A数据量远大于任务B,最合理的损失加权策略是A.平方根采样 B.逆频率加权 C.动态加权 D.固定比例答案:C16.在数据并行场景下,若使用梯度累积模拟大batch,则学习率应随累积步数A.线性放大 B.平方放大 C.保持不变 D.线性减小答案:A17.当使用Kaiming初始化时,若激活函数为ReLU,则方差缩放系数为A.1 B.2 C.√2 D.1/√2答案:B18.在MoE(MixtureofExperts)结构中,若Top-2门控出现专家崩塌,可引入的辅助损失是A.负载均衡 B.稀疏性 C.一致性 D.平滑性答案:A19.当使用TRL库进行PPO训练时,若KL散度突然飙升,最优先检查的参数是A.cliprange B.vf_coef C.target_kl D.entropy_coef答案:C20.在数据清洗阶段,若要去除“有毒”内容,最细粒度的检测单元是A.文档级 B.段落级 C.句子级 D.子词级答案:C21.当使用Alibi位置编码时,注意力偏置随相对距离呈A.线性衰减 B.指数衰减 C.对数衰减 D.常数答案:B22.在模型剪枝中,若采用幅度剪枝,最佳剪枝时机是A.训练前 B.训练中期 C.训练后 D.任意时刻答案:C23.当使用RMSNorm替代LayerNorm时,可训练的参数减少A.0% B.25% C.50% D.100%答案:C24.在数据合成阶段,若使用Self-Instruct,其种子指令数量通常不少于A.10 B.50 C.100 D.500答案:C25.当使用QLoRA时,4-bit量化的groupsize常见取值为A.32 B.64 C.128 D.256答案:B26.在模型评估中,若采用MMLU基准,其题目形式为A.生成式 B.判别式 C.多选 D.填空答案:C27.当使用思维链(CoT)提示时,若答案长度超过512token,最可能导致的副作用是A.幻觉下降 B.推理退化 C.成本上升 D.重复增加答案:B28.在数据去重阶段,若使用MinHash,其签名长度通常取A.64 B.128 C.256 D.512答案:B29.当使用GQA(GroupedQueryAttention)时,分组数增大将导致A.显存下降 B.速度下降 C.精度提升 D.头数增加答案:A30.在模型融合中,若使用SLERP,其插值系数α由以下哪项决定A.验证集损失 B.训练步数 C.超参搜索 D.固定0.5答案:A31.当使用Deepspeed的ActivationCheckpointing时,时间换空间的比例约为A.1:1 B.1:2 C.1:3 D.1:4答案:B32.在指令微调中,若加入“系统提示”字段,其位置应置于A.最前 B.中间 C.最后 D.任意答案:A33.当使用MIP(Memory-efficientIncrementalProcessing)时,KV缓存压缩率可达A.20% B.40% C.60% D.80%答案:D34.在模型蒸馏中,若使用MiniLM,其关键创新是A.自注意力蒸馏 B.隐藏态蒸馏 C.关系蒸馏 D.logits蒸馏答案:A35.当使用RedPajama数据集时,其去重策略基于A.精确匹配 B.模糊匹配 C.URL级别 D.文档级MinHash答案:D36.在模型上线前,若进行“越狱”测试,最常用的评估框架是A.HELM B.LM-Eval-Harness C.Garak D.Big-Bench答案:C37.当使用LoRA+时,相比LoRA额外训练的矩阵是A.Query B.Key C.Value D.Output答案:D38.在数据配比中,若代码数据比例过高,最可能出现的副作用是A.幻觉增加 B.创意下降 C.推理增强 D.语言混杂答案:B39.当使用StreamingLLM时,可处理的序列长度理论上A.有限 B.固定 C.无限 D.递减答案:C40.在模型评测中,若采用AlpacaEval,其评估维度不包括A.有用性 B.无害性 C.简洁性 D.创造性答案:D二、多项选择题(每题2分,共30分)41.以下哪些操作可降低大模型幻觉率A.提高温度 B.引入检索增强 C.使用CoT D.增大top-p答案:B、C42.在联邦学习中,常用的安全聚合协议包括A.SecAgg B.DP-SGD C.Shamir秘密共享 D.Paillier同态答案:A、C、D43.以下哪些指标可用于衡量生成多样性A.Self-BLEU B.Distinct-1 C.Entropy D.ROUGE答案:A、B、C44.当使用DeepSpeed时,ZeRO阶段划分包含A.P B.O C.G D.M答案:A、B、C45.以下哪些方法属于参数高效微调A.Adapter B.LoRA C.BitFit D.FullFine-tune答案:A、B、C46.在数据合成阶段,可用于提升指令复杂度的技术有A.Evol-Instruct B.Self-Refine C.Backtranslation D.Prompt-Mutation答案:A、B、D47.以下哪些损失函数可用于多模态对齐A.InfoNCE B.MSE C.KL D.Cosine答案:A、B、D48.当使用PPO时,以下哪些超参对稳定性影响最大A.cliprange B.lr C.gamma D.lam答案:A、B49.在模型量化中,以下哪些属于动态量化A.Post-trainingdynamic B.QAT C.SmoothQuant D.LLM.int8答案:A50.以下哪些技术可缓解多轮对话中的上下文遗忘A.滑动窗口 B.摘要缓存 C.递归提示 D.长截断答案:A、B、C51.在数据清洗中,以下哪些属于基于规则的过滤A.关键词过滤 B.困惑度过滤 C.长度截断 D.语言识别答案:A、C、D52.以下哪些框架支持4-bit推理A.bitsandbytes B.GGML C.ExLlama D.PyTorch原生答案:A、B、C53.以下哪些方法可用于检测生成文本是否来自AIA.DetectGPT B.GLTR C.Watermark D.PPL答案:A、B、C、D54.在模型融合中,以下哪些属于加权平均策略A.Linear B.SLERP C.Task-Arithmetic D.DARE答案:A、B55.以下哪些属于模型对齐技术A.RLHF B.DPO C.RLAIF D.SFT答案:A、B、C三、判断题(每题1分,共15分)56.使用RoPE位置编码的模型在推理时无法直接外推更长序列。答案:错(可通过NTK-RoPE外推)57.LoRA的秩越大,微调效果一定越好。答案:错(可能过拟合)58.在RLHF中,奖励模型越大,策略优化效果一定越好。答案:错(可能过度优化)59.使用FlashAttention-2时,显存占用与序列长度呈线性关系。答案:对60.数据并行时,梯度同步一定发生在反向传播后。答案:对61.使用INT8量化后,模型精度必然下降。答案:错(部分任务持平)62.在扩散模型中,DDIM采样是可逆的。答案:对63.使用GQA会减少注意力头数。答案:错(仅分组)64.模型蒸馏时,学生模型参数量必须小于教师。答案:错(可相等)65.使用DPO时不需要奖励模型。答案:对66.在数据配比中,增加数学数据可提升代码能力。答案:对67.使用RAG时,检索器不可训练。答案:错(可端到端)68.使用QLoRA时,4-bit权重可参与反向传播。答案:错(需反量化)69.在PPO中,价值函数过拟合会导致KL散度飙升。答案:对70.使用StreamingLLM时,KV缓存可无限增长。答案:错(丢弃中间)四、填空题(每题2分,共30分)71.在Transformer中,注意力计算的时间复杂度为________。答案:O(n²d)72.使用LoRA时,若原始矩阵维度为4096×4096,秩r=16,则新增参数量为________。答案:2×4096×16=13107273.若batchsize=32,序列长度=2048,vocabsize=32000,则语言模型交叉熵损失的tensor形状为________。答案:[32,2048]74.在DeepSpeedZeRO-3中,若dp=64,则优化器状态分片后每个GPU占用比例为________。答案:1/6475.使用FlashAttention时,若blocksize=128,序列长度=4096,则所需block数为________。答案:3276.若学习率调度为cosine,初始lr=1e-4,warmup步数=1000,总步数=10000,则第5000步的lr为________。答案:0.5×1e-4×(1+cos(π×0.5))≈5e-577.在RLHF中,若KL惩罚系数β=0.1,旧策略概率为0.8,新策略为0.9,则KL散度贡献为________。答案:0.1×ln(0.9/0.8)≈0.011878.使用INT8量化时,若权重范围[-2,2],则零点z为________。答案:12879.在数据并行中,若梯度压缩率为0.1,通信带宽为100Gbps,则有效带宽为________。答案:10Gbps80.使用DPO时,若偏好概率比为3,则损失函数中log项为________。答案:ln(3)81.若模型参数量为7B,使用4-bit量化,则显存占用约________GB。答案:3.582.在扩散模型中,若T=1000,则DDPM的β₁通常取________。答案:1e-483.使用RoPE时,若dim=128,则旋转矩阵的周期为________。答案:10000^(2/128)84.在数据清洗中,若perplexity阈值=50,则高于该值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论