版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年人工智能基础知识考试题及答案一、单项选择题(每题2分,共20分)1.在深度学习中,下列哪一项技术最常用于缓解过拟合?A.增加网络深度B.使用ReLU激活函数C.DropoutD.提高学习率答案:C解析:Dropout通过随机“关闭”部分神经元,迫使网络学习更鲁棒的特征,从而有效降低过拟合风险。其余选项要么可能加剧过拟合(A、D),要么与过拟合无直接关联(B)。2.若某卷积神经网络第一层输出特征图尺寸为112×112,卷积核大小为5×5,步长为2,填充为1,则输入图像尺寸为:A.224×224B.227×227C.230×230D.231×231答案:B解析:根据卷积输出尺寸公式O=(I−K+2P)/S+1,代入O=112,K=5,S=2,P=1,解得I=227。3.在Transformer架构中,ScaledDotProductAttention的缩放因子为:A.d_kB.√d_kC.1/d_kD.1/√d_k答案:B解析:为防止点积结果过大导致梯度消失,Transformer将点积除以√d_k,保持梯度稳定。4.下列哪一项不是强化学习中的“探索利用”策略?A.εgreedyB.UCBC.SoftmaxD.Adam答案:D解析:Adam是优化器,用于梯度下降,与探索利用无关;其余三项均为经典策略。5.在联邦学习场景下,客户端上传的通常是:A.原始训练数据B.模型参数梯度C.测试集标签D.损失函数图像答案:B解析:联邦学习强调“数据不出本地”,仅上传梯度或参数更新,保护隐私。6.若某GAN训练出现“模式崩塌”(ModeCollapse),下列哪种方法最直接缓解?A.增加批大小B.使用Wasserstein损失C.降低生成器学习率D.增加判别器层数答案:B解析:Wasserstein损失通过衡量生成分布与真实分布的距离,提供更平滑的梯度,有效缓解模式崩塌。7.在知识蒸馏中,教师模型与学生模型输出差异常用下列哪种损失?A.CrossEntropyB.MSEC.KL散度D.HingeLoss答案:C解析:KL散度可衡量概率分布差异,蒸馏时让学生拟合教师输出的软标签,常用KL散度。8.下列哪项技术最适合解决“梯度消失”问题?A.Sigmoid激活B.批归一化C.L2正则化D.早停答案:B解析:批归一化通过标准化中间层输入,缓解梯度消失与爆炸,Sigmoid反而易加剧消失。9.在自动驾驶感知系统中,激光雷达点云通常先转换为:A.灰度图B.体素网格C.光流图D.语义分割掩码答案:B解析:体素网格将不规则点云规则化,便于3D卷积网络处理,是主流预处理手段。10.若某模型在ImageNet上Top1准确率为81.2%,则其错误率为:A.18.8%B.19.2%C.81.2%D.1−81.2%答案:A解析:Top1错误率=100%−准确率=18.8%,无需复杂计算。二、多项选择题(每题3分,共15分)11.下列哪些操作可有效提升小样本学习性能?A.数据增强B.元学习C.迁移学习D.增加全连接层参数答案:A、B、C解析:数据增强扩充样本;元学习学会“如何学习”;迁移学习借用源域知识;盲目增加参数量易导致过拟合。12.关于BERT的预训练任务,下列说法正确的是:A.使用MaskedLanguageModelB.使用NextSentencePredictionC.使用CausalLanguageModelD.使用SentenceOrderPrediction答案:A、B解析:BERT采用MLM与NSP;CausalLM为GPT系列;SOP为ALBERT改进任务。13.在目标检测中,YOLOv5相对于YOLOv3的主要改进包括:A.引入Focus切片结构B.使用SPPF模块C.采用AnchorFreeD.增加自适应锚框计算答案:A、B、D解析:YOLOv5仍基于锚框,非AnchorFree;Focus与SPPF为创新;自适应锚框提升鲁棒性。14.下列属于图神经网络(GNN)中“过度平滑”现象的解决策略:A.残差连接B.跳跃知识网络C.增加层数D.使用GAT替代GCN答案:A、B、D解析:残差与JK网络缓解信息稀释;盲目加深加剧平滑;GAT通过注意力权重减缓平滑。15.在模型压缩领域,下列哪些方法属于“量化”范畴?A.INT8推理B.权值剪枝C.知识蒸馏D.动态量化答案:A、D解析:INT8与动态量化直接降低数值精度;剪枝去冗余权重;蒸馏转移知识,非量化。三、填空题(每空2分,共20分)16.在ResNet中,恒等映射分支通过__________相加实现梯度捷径,其数学表达式为H(x)=__________。答案:逐元素;F(x)+x解析:恒等映射将输入x与残差F(x)相加,形成残差块,缓解梯度消失。17.若某LSTM单元遗忘门输出为0,则上一时刻细胞状态Ct−1将被__________;若输出门为1,则当前隐藏状态ht等于__________。答案:完全丢弃;tanh(Ct)解析:遗忘门0→乘法清零;输出门1→完全暴露当前细胞状态。18.在VisionTransformer中,图像被划分为固定大小的__________,每个通过线性投影得到__________维向量。答案:图像块(patches);d_model解析:ViT将224×224图切分14×14=196个16×16patches,再投影至d_model维。19.联邦平均算法FedAvg中,服务器对客户端上传参数进行__________加权平均,权重通常取__________。答案:本地数据量;本地样本数/总样本数解析:保证全局梯度无偏,数据量越大权重越高。20.在AlphaGoZero中,蒙特卡洛树搜索的PUCT公式为:U(s,a)=__________,其中cpuct为__________。答案:cpuct·P(s,a)·√ΣN(s,b)/(1+N(s,a));超参数解析:PUCT平衡探索与利用,P为策略网络先验概率,N为访问次数。四、判断题(每题1分,共10分)21.使用ReLU激活的神经网络一定不会出现梯度消失。答案:错解析:ReLU在负半轴梯度为0,深层网络仍可能出现“神经元死亡”导致的梯度消失。22.BatchNorm在测试阶段使用滑动平均的均值与方差。答案:对解析:训练时统计并更新滑动平均,测试时固定,不再计算批统计量。23.GPT3的参数量首次突破十万亿级别。答案:错解析:GPT3约1750亿参数,十万亿为夸张说法。24.在联邦学习中,SecureAggregation可防止服务器看到单个客户端梯度。答案:对解析:通过同态加密或秘密共享,服务器仅得聚合结果,无法窥视个体。25.图卷积网络中,邻接矩阵自环(selfloop)加入可缓解节点特征过度平滑。答案:对解析:自环保留部分自身信息,减缓特征趋同。26.使用混合精度训练时,FP16梯度下溢问题可通过LossScaling解决。答案:对解析:放大损失值使梯度进入FP16有效区间,再缩放权重更新。27.在目标检测中,mAP@0.5与mAP@0.5:0.95的数值通常前者更高。答案:对解析:IoU阈值越高,匹配越严格,mAP下降。28.Transformer的位置编码采用可学习向量时,序列长度可无限扩展。答案:错解析:可学习位置编码需固定最大长度,超出需外推或插值,并非无限。29.对比学习中的InfoNCE损失可看作多分类交叉熵的特例。答案:对解析:InfoNCE将正样本视为正确类,负样本为错误类,形式等价。30.在AutoML中,神经架构搜索(NAS)只适用于图像任务。答案:错解析:NAS已扩展至NLP、语音、图结构等多模态任务。五、简答题(每题8分,共24分)31.描述MaskedAutoencoder(MAE)在视觉自监督中的训练流程,并说明其为何能大幅降低预训练计算量。答案:流程:1.随机遮挡图像75%patches,仅保留可见子集;2.编码器仅对可见patches进行表征提取,获得latenttokens;3.将遮挡位置插入可学习的masktokens,与latent一起送入轻量解码器;4.解码器重建完整图像像素;5.损失仅计算遮挡区域的MSE。计算量降低原因:编码器处理patch数减少3/4,且解码器极小,整体FLOPs下降约3×,同时高掩码比迫使模型学习高级语义而非局部纹理,提升表征质量。32.解释“梯度累积”机制如何在显存受限情况下实现大batch训练,并给出伪代码。答案:机制:将大批次拆分为若干小步,每步计算梯度不清零,而是累加,达到目标步数后统一更新权重,等价于大批次梯度。伪代码:```model.zero_grad()fori,(x,y)inenumerate(loader):loss=model(x,y)/accumulation_stepsloss.backward()if(i+1)%accumulation_steps==0:optimizer.step()model.zero_grad()```显存占用仅与小批次成正比,却获得大批次稳定性。33.对比“模型并行”与“数据并行”在千亿参数语言模型训练中的差异,并指出各自瓶颈。答案:数据并行:每张卡存储完整模型,分发不同数据子集,梯度聚合;瓶颈为单卡显存无法容纳模型,且梯度同步通信随卡数线性增加。模型并行:将模型按层或按维度拆分至多卡,每卡仅存储部分参数;瓶颈为前向反向需频繁跨卡通信,设备利用率受限于计算通信比,且实现复杂。实际中采用混合并行:数据并行+层内模型并行(MegatronLM),兼顾显存与通信效率。六、计算与推导题(共31分)34.(10分)给定一个两层全连接网络:输入x∈ℝᵈ,隐藏h=ReLU(W₁x+b₁),输出y=W₂h+b₂。设损失L=½‖y−t‖²,求∂L/∂W₁的表达式,并指出当x=0时梯度为何消失或爆炸。答案:链式法则:∂L/∂W₁=(∂L/∂h)(∂h/∂z₁)(∂z₁/∂W₁),其中z₁=W₁x+b₁。∂L/∂h=(y−t)ᵀW₂∂h/∂z₁=diag(𝟙[z₁>0])∂z₁/∂W₁=xᵀ故∂L/∂W₁=[(y−t)ᵀW₂⊙𝟙[z₁>0]]ᵀxᵀ当x=0时,∂z₁/∂W₁=0,导致∂L/∂W₁=0,梯度消失,参数无法更新。35.(10分)在Transformer自注意力中,设Q,K,V∈ℝⁿ×d,计算Attention(Q,K,V)=softmax(QKᵀ/√d)V。证明:当d→∞且Q,K元素为i.i.d.𝒩(0,1)时,QKᵀ的每个元素方差为d,需除以√d使softmax输入方差为1,避免梯度饱和。证明:令S=QKᵀ,则Sᵢⱼ=∑ₖQᵢₖKⱼₖ。E[Sᵢⱼ]=0,Var(Sᵢⱼ)=∑ₖVar(QᵢₖKⱼₖ)=d·(E[Q²]E[K²]−(E[QK])²)=d·(1·1−0)=d。故Sᵢⱼ∼𝒩(0,d),除以√d后方差为1,softmax输入处于梯度敏感区间。36.(11分)给定一个二元分类数据集,正负样本比为1:99。若模型将全部分类为负,求初始精确率、召回率、F1,并推导使用加权交叉熵损失时正类权重应为多少,才能使梯度对正负样本贡献相等。答案:精确率=TP/(TP+FP)=0/(0+0)未定义,按0计;召回率=TP/(TP+FN)=0/1=0;F1=0。设正类权重为w,负类1。梯度贡献正比于w·1%与1·99%。令w·0.01=0.99,得w=99。故正类权重取99,正负梯度平衡。七、综合设计题(20分)37.某城市需在边缘摄像头部署实时行人检测,要求单路1080p@30fps,功耗≤5W,存储≤256MB。现有YOLOv5s模型(14MB,mAP@0.5=0.72,推理30ms)无法满足功耗与精度双重要求。请设计一套完整优化方案,含模型、数据、系统三层面,并给出评估指标与实验步骤。答案:模型层:1.采用NanoDetPlus架构,深度可分离卷积+Ghost模块,参数量降至1.2MB;2.引入PPLCNet主干,使用HSwish与SE模块平衡精度与速度;3.量化至INT
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026湖北武汉经济技术开发区教育系统校园专项招聘教师50人考试备考题库及答案解析
- 2026湖北黄石市阳新县妇联招聘公益性岗位人员3人考试备考题库及答案解析
- 2026河北秦皇岛市抚宁区农业发展有限公司公开招聘工作人员9名考试参考题库及答案解析
- 浙江银行招聘-招商银行温州分行2026年社会招聘考试备考试题及答案解析
- 2026年陕西拓普达精密设备有限公司招聘(4人)考试参考题库及答案解析
- 2026重庆九龙坡区实幼石桥铺园招聘3人考试参考题库及答案解析
- 2026广东江门市人民医院人才招聘计划考试参考试题及答案解析
- 2026四川德阳市旌阳区孝感社区卫生服务中心招聘护士2人考试备考题库及答案解析
- 2026重庆飞驶特人力资源管理有限公司派往某单位行政后勤综合岗招聘考试备考试题及答案解析
- 2026贵州贵阳市白云区艳山红镇中心卫生院村医招聘考试备考题库及答案解析
- 诊所中药饮片清单
- QC七工具-问题的分析与解决
- 食品质量保证措施方案
- 工厂保安服务投标方案
- 全套医疗器械设计和开发资料(模板可修改)
- 中国移动二维码-中国银行排队难解决方案
- 石器时代宠物成长档理论整理
- 乳糖酶生产线设计终稿
- 排水箱涵施工及方案
- GB/T 9115.2-2000凹凸面对焊钢制管法兰
- GB/T 17891-1999优质稻谷
评论
0/150
提交评论