2025年人工智能基础课程考试卷及答案_第1页
2025年人工智能基础课程考试卷及答案_第2页
2025年人工智能基础课程考试卷及答案_第3页
2025年人工智能基础课程考试卷及答案_第4页
2025年人工智能基础课程考试卷及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年人工智能基础课程考试卷及答案一、单项选择题(每题2分,共20分)1.在深度学习中,下列哪种激活函数在输入为0时导数最大?A.ReLU  B.Sigmoid  C.Tanh  D.LeakyReLU答案:A解析:ReLU在x>0时导数为1,x≤0时导数为0;在x=0处通常取左导数为0、右导数为1,因此“最大”指右导数1,高于Sigmoid的0.25、Tanh的1,LeakyReLU斜率小于1。2.若某卷积层输入特征图尺寸为112×112,卷积核大小5×5,步长2,填充2,则输出特征图尺寸为:A.56×56  B.55×55  C.54×54  D.53×53答案:A解析:O=(I+2P−K)/S+1=(112+4−5)/2+1=111/2+1=55.5向下取整得56。3.在Transformer中,ScaledDotProductAttention的缩放因子为:A.d_k  B.√d_k  C.1/d_k  D.1/√d_k答案:B解析:防止点积值过大进入饱和区,缩放因子取√d_k。4.下列关于Bagging的叙述,错误的是:A.可降低方差  B.基学习器应强相关  C.可并行训练  D.对不稳定学习器效果显著答案:B解析:Bagging要求基学习器不稳定且尽可能独立,强相关会削弱平均效果。5.在DQN中,目标网络参数更新方式通常采用:A.每步硬更新  B.每步软更新  C.每C步硬复制  D.梯度回传实时更新答案:C解析:每C步将主网络参数完全复制到目标网络,稳定训练。6.若某GAN判别器输出使用最小二乘损失,其对应作者论文为:A.Goodfellow2014  B.Radford2015  C.Arjovsky2017  D.Mao2017答案:D解析:LSGAN(LeastSquaresGAN)由Mao等人2017年提出。7.在联邦学习中,FedAvg本地epoch数增大,最可能导致:A.通信开销增大  B.客户端漂移加剧  C.收敛速度加快  D.隐私泄露减少答案:B解析:本地多轮训练使模型偏离全局分布,产生客户端漂移。8.下列关于BERT预训练任务的说法,正确的是:A.仅使用MLM  B.仅使用NSP  C.先MLM后NSP  D.同时MLM+NSP答案:D解析:BERT联合训练MaskedLM与NextSentencePrediction。9.在模型压缩技术中,WeightSharing通常与哪种方法共同出现:A.知识蒸馏  B.剪枝  C.哈夫曼编码  D.量化答案:B解析:DeepCompression先剪枝再权值共享(聚类)再哈夫曼编码。10.若某图神经网络使用均值聚合,其等价于下列哪种谱域卷积近似:A.一阶Cheby  B.线性滤波  C.邻接矩阵归一化  D.拉普拉斯平滑答案:D解析:均值聚合等价于拉普拉斯平滑,对应谱域低频滤波。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列哪些技术可缓解GAN训练不稳定?A.谱归一化  B.Wasserstein损失  C.历史平均生成器  D.标签平滑答案:ABCD解析:四项均被文献证实可提升GAN训练稳定性。12.关于VisionTransformer,下列说法正确的是:A.使用16×16固定patch  B.需加入位置编码  C.分类头使用CLStoken  D.编码器层含MHA+MLP+LN答案:BCD解析:patch尺寸可为8×8或32×32,非固定16×16。13.在强化学习策略梯度定理中,以下哪些量直接出现在梯度估计式?A.回报R(t)  B.策略π_θ(a|s)  C.状态分布μ(s)  D.优势函数A(s,a)答案:ABC解析:基础REINFORCE含R(t)π_θ梯度,μ(s)为平稳分布;A(s,a)用于方差缩减但非必需。14.下列属于自监督学习pretexttask的有:A.图像旋转预测  B.对比学习SimCLR  C.图像上色  D.伪标签答案:ABC解析:伪标签属半监督,非自监督pretext。15.关于NeRF(NeuralRadianceFields)的体渲染方程,积分变量包含:A.相机光线方向  B.3D点密度σ  C.颜色c  D.累积透射率T答案:BCD解析:方向在积分前已固定,积分沿光线深度t进行。三、填空题(每空2分,共20分)16.若BatchNorm输入x∈ℝ^{B×C×H×W},则统计量μ_c计算维度为________。答案:B×H×W解析:沿N、H、W求均值,保持C维独立。17.在PyTorch中,若需对某参数张量实现梯度截断,总范数阈值5.0,应调用函数________。答案:torch.nn.utils.clip_grad_norm_18.词嵌入矩阵E∈ℝ^{|V|×d},若采用自适应输入表示(AdaptiveInput),则其将E按________切分。答案:频率19.联邦学习安全聚合(SecureAggregation)通常采用________加密体制实现密钥协商。答案:DH(DiffieHellman)或公钥20.若使用混合精度训练,损失缩放因子在出现________梯度时会被下调。答案:溢出(inf/nan)21.在PointerNetwork中,注意力权重直接作为________概率。答案:输出序列指针(或位置)22.若某LSTM单元输入门激活值恒为1、遗忘门恒为0,则细胞状态更新公式退化为________。答案:C_t=g_t(即仅由候选值更新,无历史保留)23.在AlphaGoZero中,MCTS搜索树节点先验概率P(s,a)由________网络输出。答案:策略价值(PolicyValue)24.若使用RandAugment,则其搜索空间仅含两个超参数:________与________。答案:N(变换个数)、M(幅度)25.对比学习InfoNCE损失温度系数τ→0+时,梯度主要更新________样本。答案:最难负样本(hardestnegative)四、判断改错题(每题2分,共10分,先判后改)26.在ResNet中,残差块恒等映射路径的引入主要解决梯度爆炸问题。答案:错。改为:主要缓解梯度消失与退化问题。27.BatchNorm在测试阶段使用当前batch统计量。答案:错。改为:使用训练阶段移动平均统计量。28.联邦学习中,FedProx的μ=0时退化为FedAvg。答案:正确。29.在GPT3中,所有层均采用稀疏注意力模式。答案:错。改为:仅部分层在长序列时采用局部/稀疏模式,其余为稠密MHA。30.使用KL散度作为损失函数时,P||Q与Q||P对称。答案:错。改为:KL散度非对称,P||Q≠Q||P。五、简答题(每题8分,共24分)31.描述Transformer位置编码的绝对与相对方案,并比较二者在长度外推上的差异。答案:绝对位置编码(APE)直接在输入加可学习或正弦向量,位置信息固定;相对位置编码(RPE)在注意力权重计算时引入可学习的a_{ij},仅依赖相对距离i−j。APE对训练未见长度需外推插值,性能下降;RPE(如T5、RoPE)通过偏置或旋转矩阵天然支持外推,RoPE利用复数旋转,理论上可外推至任意长度,实验显示4k→16k困惑度仅增2%。32.解释“梯度掩码”现象在联邦学习中的成因,并给出两种缓解方法。答案:成因:本地数据NonIID导致本地梯度与全局梯度方向不一致,聚合后有效更新被“掩码”,表现为收敛慢或发散。缓解:①FedProx加入近端项μ‖w−w_t‖²,限制本地漂移;②使用MomentumSCAFFOLD,引入控制变量修正本地更新方向,实验在Dir(0.1)划分下通信轮数减少3×。33.对比知识蒸馏与模型剪枝在压缩比、精度损失、硬件友好度三方面的差异。答案:压缩比:剪枝可达10–50×稀疏,蒸馏通常2–4×。精度损失:蒸馏通过教师监督,精度损失<1%;剪枝高稀疏下损失2–5%。硬件友好:蒸馏得到稠密小模型,通用芯片友好;剪枝需专用稀疏加速库(如cuSPARSELT),否则收益受限。六、计算与推导题(共31分)34.(10分)给定二分类数据集{(x_i,y_i)},y∈{0,1},使用逻辑回归,证明:若样本线性可分,则最大似然估计会使‖w‖→∞。答案:似然L=∏σ(z_i)^{y_i}(1−σ(z_i))^{1−y_i},z_i=w^Tx_i。线性可分⇒存在w使y_i=1时w^Tx_i>0,y_i=0时w^Tx_i<0。对任意α>0,考虑w=αw,则负对数似然NLL=−∑[y_ilogσ(αz_i)+(1−y_i)log(1−σ(αz_i))]当α→∞,σ(αz_i)→1若y_i=1,→0若y_i=0,故NLL→0,似然→1。因此最大化似然等价于令α→∞,即‖w‖→∞。解析:表明需加L2正则防止无穷大权重。35.(10分)设卷积层输入X∈ℝ^{1×3×32×32},核K∈ℝ^{16×3×5×5},步长1,填充2,输出Y,后接Kernel=2×2、步长2的最大池化,得Z。(1)求Y、Z尺寸;(2)计算理论乘法次数;(3)若使用WinogradF(4×4,3×3)降计,求乘法次数。答案:(1)O_Y=(32+4−5)/1+1=32,故Y:16×32×32;池化后Z:16×16×16。(2)标准乘法:每层输出点5×5×3=75次乘,共16×32×32×75=1.2288×10^6。(3)WinogradF(4×4,3×3)将3×3卷积转为4×4块,乘法系数为(4+3−1)^2=36,每块输出4×4=16点,乘法密度36/16=2.25,总乘法:1.2288×10^6×2.25/25=0.1106×10^6=110.6k。解析:Winograd通过多项式插值降低乘法量,3×3卷积理论下限为4/9≈0.44,实际2.25/25=0.09,显著减少。36.(11分)考虑强化学习MDP,状态s∈{1,2,3},动作a∈{L,R},转移如下:s=1,a=L→s=1,r=0;s=1,a=R→s=2,r=1;s=2,a=L→s=1,r=0;s=2,a=R→s=3,r=2;s=3任意动作→s=3,r=0。折扣γ=0.9,策略π均匀随机。(1)列Bellman方程求V^π(s);(2)给出策略改进后新策略π';(3)求V^π'(s)。答案:(1)Bellman:V(1)=0.5[0+γV(1)]+0.5[1+γV(2)]V(2)=0.5[0+γV(1)]+0.5[2+γV(3)]V(3)=0解得:V(1)=5.26,V(2)=6.32,V(3)=0。(2)策略改进:Q(1,L)=γV(1)=4.73,Q(1,R)=1+γV(2)=6.69→选R;Q(2,L)=γV(1)=4.73,Q(2,R)=2+γV(3)=2→选L;s=3任意。故π'(1)=R,π'(2)=L,π'(3)=任意。(3)新策略下:V'(1)=1+γV'(2)V'(2)=0+γV'(1)V'(3)=0解得V'(1)=1+γ²V'(1)→V'(1)=1/(1−γ²)=5.26,V'(2)=0.9×5.26=4.73。解析:策略迭代一步即收敛,因MDP简单且策略已最优。七、综合设计题(20分)37.某市医院联盟计划基于联邦学习构建跨院脑卒中早期筛查模型,数据特征为结构化电子病历(EMR)与影像纹理,面临挑战:①影像体量大(平均50MB/例);②各院设备品牌差异致影像分布漂移;③EMR属性高度敏感;④部分医院仅有EMR无影像。请设计一套系统方案,需包含:a.整体架构图与数据流向;b.针对①②③④的技术对策;c.训练与推理协议;d.评估指标与隐私审计方法。答案:a.架构:客户端—边缘服务器—云协调器两层。客户端含本地EMR特征抽取器(1M参数)与影像轻量编码器(基于Swinv2Tiny,3M)。边缘服务器聚合本院梯度,执行差分隐私(ε=3)加密上传。云协调器运行FedPer+FedRep混合:共享影像编码器低层+EMR融合层,私有院属头。数据流向:本地→特征抽取→梯度掩码→同态加密(CKKS)→云聚合→返回更新。b.对策:①影像大:采用梯度压缩(Topk0.1%)+FP16,传输量<0.5MB;②域漂移:引入DomainAdversarialFed,在共享层加域判别器,λ=0.1;③敏感:本地差分隐私(LDP)对梯度加噪σ=1.2,结合SecureAggregation;④缺失模态:采用ModDrop+跨模态对比损失,缺失影像时仅用EMR,对比损失权重0.3。c.协议:训练:每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论