2026年在训练集上测试题及答案_第1页
2026年在训练集上测试题及答案_第2页
2026年在训练集上测试题及答案_第3页
2026年在训练集上测试题及答案_第4页
2026年在训练集上测试题及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年在训练集上测试题及答案

一、单项选择题(每题2分,共20分)1.在深度学习中,当训练集准确率持续上升而验证集准确率开始下降时,最可能的现象是A.梯度消失 B.过拟合 C.欠拟合 D.梯度爆炸2.下列哪种正则化方法会在每次迭代时随机“关闭”部分神经元A.L1 B.L2 C.Dropout D.BatchNormalization3.在卷积神经网络中,若输入为32×32×3,使用10个5×5卷积核且步长为1、无填充,则输出特征图的宽为A.28 B.30 C.32 D.264.对于序列到序列任务,下列哪种机制最能缓解长距离依赖问题A.ReLU B.池化 C.注意力 D.批归一化5.在强化学习中,Q-learning更新公式中的α通常指A.折扣因子 B.学习率 C.探索率 D.奖励衰减6.若某模型在训练集上的交叉熵损失为0.01,在测试集上为1.2,则其最可能处于A.高方差 B.高偏差 C.低偏差低方差 D.欠拟合7.在BERT预训练中,MaskedLM任务约遮蔽语料的A.5% B.10% C.15% D.25%8.下列关于数据增强的叙述错误的是A.可提高模型泛化 B.一定降低训练误差 C.可用于图像和文本 D.需保持标签一致9.使用早停法时,通常监控的指标是A.训练损失 B.验证损失 C.训练精度 D.参数数量10.在生成对抗网络中,判别器的目标函数可视为A.最小化交叉熵 B.最大化交叉熵 C.最小化JS散度 D.最大化对数似然二、填空题(每题2分,共20分)11.当学习率过大时,SGD会在最优解附近________。12.ResNet通过________连接解决深层网络退化问题。13.在Transformer中,位置编码使用________函数注入时序信息。14.若batchsize=64,总样本1024,则一个epoch需________步。15.词嵌入维度为300,词汇表50000,则嵌入层参数量为________。16.使用Adam优化器时,默认的β1与β2常取________与________。17.在目标检测中,IoU阈值通常设为________以判定正样本。18.梯度裁剪常用于缓解________问题。19.GPT采用________式语言模型结构。20.联邦学习中的参数聚合常用________算法。三、判断题(每题2分,共20分,正确写“T”,错误写“F”)21.增加网络深度一定能降低训练误差。22.BatchNorm在测试阶段使用滑动平均的均值和方差。23.强化学习中策略梯度方法直接对策略函数求梯度。24.使用ReLU的网络一定不会发生梯度消失。25.在卷积操作中,参数共享可减少模型参数量。26.词袋模型保留了词语的顺序信息。27.ELMo与BERT均可生成上下文相关词向量。28.模型蒸馏中,学生网络通常比教师网络更小。29.AUC指标对类别不平衡非常敏感。30.在GloVe训练中,共现矩阵需先对数变换再归一化。四、简答题(每题5分,共20分)31.简述梯度消失与梯度爆炸的产生原因及各自常用缓解策略。32.说明BatchNormalization在训练与测试阶段的行为差异。33.概述Transformer中自注意力机制的计算流程。34.列举三种常见的文本数据增强方法并给出适用场景。五、讨论题(每题5分,共20分)35.结合实例讨论“更大模型+更多数据”是否必然带来性能提升。36.对比有监督微调与提示学习在少样本场景下的优劣。37.分析在医疗影像AI中采用联邦学习面临的主要技术挑战。38.探讨生成式大模型在创意写作中的伦理风险及可行治理措施。答案与解析一、1B2C3A4C5B6A7C8B9B10D二、11.震荡 12.残差或skip 13.sin/cos 14.16 15.15000000 16.0.9,0.999 17.0.5 18.梯度爆炸 19.单向左到右 20.FedAvg三、21F22T23T24F25T26F27T28T29F30F四、31.梯度消失源于链式求导连乘小于1的数,使深层梯度趋零;可用ReLU、残差、预训练等缓解。梯度爆炸为连乘大于1的数致梯度激增;可用梯度裁剪、权重正则、合理初始化抑制。32.训练阶段BN用当前batch统计量并更新滑动平均;测试阶段固定使用滑动平均的均值方差,不再依赖batch,以保证单样本推理稳定。33.输入经线性映射得Q、K、V;计算QK^T并缩放;softmax得权重;加权求和得输出;可多头并行捕捉不同子空间信息。34.同义词替换用于通用文本;随机插入适用于长文本;回译(back-translation)用于低资源机器翻译;掩码语言模型采样适合微调前的数据扩充。五、35.以GPT系列为例,参数从1B到175B时下游任务提升明显,但数据达万亿token后增益递减;算力、标注成本、推理延迟上升,需权衡边际收益。36.有监督微调需标注且易过拟合,但收敛快;提示学习零样本灵活,可结合demonstrations,但依赖提示设计,性能波动大,需工程调优。37.数据异构导致Non-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论