2025年《人工智能导论》计算机专业模拟试题卷及答案_第1页
2025年《人工智能导论》计算机专业模拟试题卷及答案_第2页
2025年《人工智能导论》计算机专业模拟试题卷及答案_第3页
2025年《人工智能导论》计算机专业模拟试题卷及答案_第4页
2025年《人工智能导论》计算机专业模拟试题卷及答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年《人工智能导论》计算机专业模拟试题卷及答案一、单项选择题(每题2分,共20分)1.在深度学习中,下列哪种技术最常用于缓解过拟合现象?A.增加网络深度B.减小学习率C.DropoutD.使用ReLU激活函数答案:C解析:Dropout通过随机“关闭”部分神经元,迫使网络学习更鲁棒的特征,从而有效降低过拟合。增加深度可能加剧过拟合;减小学习率仅影响收敛速度;ReLU是激活函数,与过拟合无直接因果关系。2.若某卷积层输入尺寸为32×32×3,采用64个5×5卷积核,步长为1,零填充为2,则输出特征图尺寸为:A.32×32×64B.28×28×64C.30×30×64D.34×34×64答案:A解析:输出尺寸公式为(N−F+2P)/S+1,代入得(32−5+4)/1+1=32;通道数等于卷积核数量64,故为32×32×64。3.在强化学习中,Qlearning更新公式Q(s,a)←Q(s,a)+α[r+γmax_{a′}Q(s′,a′)−Q(s,a)]中的γ通常称为:A.学习率B.折扣因子C.探索率D.奖励衰减系数答案:B解析:γ∈[0,1]用于衡量未来奖励的当前价值,越大表示越重视长期回报,官方术语为“折扣因子”。4.下列关于Transformer自注意力机制的描述,错误的是:A.查询向量Q与键向量K的点积决定权重B.缩放点积注意力需除以√d_kC.多头注意力可并行计算不同子空间信息D.自注意力无法捕捉序列位置信息,因此无需位置编码答案:D解析:自注意力本身对位置无感知,必须依赖位置编码(正弦或学习式)注入顺序信息,故D错误。5.在生成对抗网络(GAN)训练中,若判别器D过快收敛到0或1,会导致生成器G梯度消失,此现象称为:A.模式崩塌B.梯度爆炸C.饱和问题D.纳什失衡答案:C解析:D输出饱和后,G获得的梯度∇log(1−D(G(z)))趋近0,无法有效更新,称为饱和问题;模式崩塌指G只生成单一模式。6.使用BERT进行中文文本分类时,若标签空间为“体育、科技、财经”,则最终输出层通常采用:A.均方误差损失B.交叉熵损失C.合页损失D.负对数似然损失答案:B解析:多类分类任务使用Softmax+交叉熵损失,与负对数似然数学形式等价,但行业标准表述为交叉熵。7.在联邦学习框架中,客户端上传本地模型参数至服务器,服务器执行:A.平均聚合B.加权平均聚合C.FedAvg算法D.以上皆可答案:D解析:FedAvg即加权平均(按数据量加权),平均聚合是其特例,故D最全面。8.若某决策树采用基尼系数作为划分标准,则节点基尼系数越小表示:A.样本量越少B.类别分布越均衡C.类别分布越纯D.信息增益越大答案:C解析:基尼系数衡量不纯度,越小越纯;信息增益基于熵,与基尼无直接数值关系。9.在目标检测模型YOLOv5中,用于预测物体中心点坐标的激活函数是:A.SigmoidB.ReLUC.TanhD.Linear答案:A解析:中心点偏移需归一化到0~1,Sigmoid可将网络输出压缩至该区间;宽高采用指数激活确保正值。10.下列关于图神经网络(GNN)消息传递机制的描述,正确的是:A.节点特征仅在第一层传递B.边特征无法参与聚合C.消息函数必须可微D.图卷积网络(GCN)采用均值聚合答案:C解析:消息传递需端到端训练,消息函数必须可微;GCN实际为归一化加和,非简单均值;边特征可通过注意力权重等方式参与。二、多项选择题(每题3分,共15分;多选少选均不得分)11.以下哪些技术可直接用于解决梯度消失问题?A.残差连接B.LayerNormalizationC.L2正则化D.门控机制(如LSTM)答案:A、B、D解析:残差连接提供恒等映射捷径;LayerNorm稳定前向分布;LSTM用门控保留长期信息;L2正则仅抑制权重幅度,不直接缓解梯度消失。12.关于VisionTransformer(ViT),下列说法正确的是:A.将图像分块后线性投影为tokenB.完全摒弃卷积操作C.在小型数据集上通常优于CNND.需引入类别token(CLS)用于分类答案:A、B、D解析:ViT分块+线性投影,无卷积;CLStoken聚合全局信息;小型数据易过拟合,需大量数据或蒸馏预训练,故C错误。13.以下属于无监督学习算法的是:A.kmeansB.DBSCANC.PCAD.Apriori答案:A、B、C解析:Apriori为关联规则算法,虽无标签但属数据挖掘非机器学习主流分类;PCA降维、kmeans聚类、DBSCAN密度聚类均为无监督。14.在模型压缩技术中,哪些方法可能导致模型精度下降?A.知识蒸馏B.权重量化(INT8)C.通道剪枝D.权重共享答案:B、C、D解析:知识蒸馏通过教师指导学生,可保持甚至提升精度;量化、剪枝、共享均引入信息损失,可能下降。15.关于A搜索算法,下列描述正确的是:A.启发函数h(n)可允许高估B.若h(n)≡0,则退化为DijkstraC.保证找到最优解的条件是h(n)可采纳D.时间复杂度与启发函数质量相关答案:B、C、D解析:A要求h(n)不高于真实代价(可采纳),高估则失去最优性;h=0时仅g(n)起作用即Dijkstra;好的启发可大幅减少扩展节点。三、填空题(每空2分,共20分)16.在循环神经网络中,LSTM通过________门控制前一时刻细胞状态的遗忘程度,通过________门决定当前候选信息的更新比例。答案:遗忘(forget)、输入(input)解析:ft=σ(Wf·[ht−1,xt]+bf)控制遗忘;it=σ(Wi·[ht−1,xt]+bi)控制更新。17.若某卷积层采用深度可分离卷积(DepthwiseSeparableConvolution),则其计算量约为标准卷积的________分之一。答案:1/(N+1/κ^2),其中N为输出通道数,κ为核尺寸;近似答“8~9”亦可。解析:深度卷积计算量DK·DK·M·DF·DF,点卷积1×1×M·N·DF·DF,总和≈标准卷积的1/N+1/DK^2,MobileNetv1中DK=3,N=512时约1/9。18.Transformer中,缩放点积注意力的输出维度与________向量的维度相同。答案:Value解析:Attention(Q,K,V)=softmax(QK^T/√d_k)V,输出维度由V的列数决定。19.在联邦学习场景下,若某客户端数据NonIID且采用FedProx算法,则其目标函数需增加________正则项,以限制本地模型与全局模型的________差异。答案:L2、参数解析:FedProx在本地损失后加(μ/2)||w−w_global||^2,抑制偏离。20.若使用F1score评估二分类模型,当精确率P=0.8,召回率R=0.5时,F1=________。答案:0.615(保留三位小数)解析:F1=2PR/(P+R)=2×0.8×0.5/1.3≈0.615。21.在深度强化学习算法DDPG中,策略网络被称为________网络,价值网络被称为________网络。答案:Actor、Critic解析:Actor输出确定性动作,Critic评估Q值。22.若某GAN采用Wasserstein损失,则判别器最后一层需去掉________激活函数,以输出实数值。答案:Sigmoid解析:WGAN判别器拟合Wasserstein距离,需无界输出,故去Sigmoid。23.在知识图谱嵌入模型TransE中,关系r被视为头实体h到尾实体t的________向量,得分函数为________。答案:平移、h+r≈t(或||h+r−t||)解析:TransE假设h+r≈t,得分||h+r−t||_L1/L2越小越合理。24.若使用混合精度训练(FP16+FP32),需动态调整损失缩放比例以防止________下溢。答案:梯度解析:FP16表示范围小,梯度易下溢,损失缩放可放大梯度回传后再缩放。25.在AutoML框架中,________算法通过早期停止与架构/超参数联合优化,可在有限GPU时间内发现高效CNN结构。答案:EfficientNeuralArchitectureSearch(ENAS)解析:ENAS采用参数共享与控制器RNN,显著降低搜索成本。四、判断题(每题1分,共10分;正确打“√”,错误打“×”)26.梯度下降法在凸优化问题上保证收敛到全局最优。答案:√解析:凸函数无局部极小,梯度下降满足条件下必达全局最优。27.使用ReLU激活的深层网络一定不会出现梯度消失。答案:×解析:ReLU在负半轴梯度为0,若初始化不当导致大量神经元死亡,仍会出现有效梯度消失。28.在BERT预训练中,MaskedLM任务随机遮蔽15%的token,其中80%用[MASK]、10%用随机token、10%不变。答案:√解析:为缓解预训练与微调不一致,采用该混合策略。29.kmeans算法对初始聚类中心敏感,可能陷入局部最优。答案:√解析:kmeans目标函数非凸,不同初始化得不同结果,常用kmeans++改进。30.图卷积网络(GCN)中,邻接矩阵自环(selfloop)的引入可降低节点自身特征在聚合时被稀释的问题。答案:√解析:自环使节点自身特征保留,聚合时权重归一化更稳定。31.在目标检测评估中,mAP@0.5表示IoU阈值为0.5时的平均精确率,数值越高模型定位越准确。答案:√解析:mAP@0.5仅考虑IoU≥0.5的预测,阈值固定,越高说明定位越准。32.使用批量归一化(BN)后,可完全取消Dropout而不会过拟合。答案:×解析:BN有一定正则效果,但无法完全替代Dropout,复杂网络仍需额外正则。33.在强化学习中,策略梯度方法可直接优化随机策略,适用于连续动作空间。答案:√解析:REINFORCE、PPO等策略梯度天然支持连续动作,无需离散化。34.模型剪枝中的“权重剪枝”与“结构化剪枝”在硬件加速方面效果等效。答案:×解析:权重剪枝产生稀疏矩阵,需专用稀疏库;结构化剪枝直接删除通道/滤波器,适配常规BLAS库,加速更易。35.在VisionTransformer中,位置编码采用二维正弦函数可更好保持图像空间结构。答案:√解析:相对一维,二维正弦编码保留xy位置关系,提升检测分割任务性能。五、简答题(每题8分,共24分)36.阐述BatchNormalization与LayerNormalization在计算维度上的差异,并说明为何Transformer选用后者。答案:(1)BN沿批量维度(N)计算均值方差,即对同一通道不同样本归一化;LN沿特征维度(C)计算,即对同一样本不同特征归一化。(2)Transformer输入为变长序列,批量维度可能为1(推理),BN统计量不稳定;此外,序列不同位置语义差异大,LN能针对单个样本内部特征做归一化,更稳定。(3)LN无批量依赖,适合在线学习与联邦场景;实验表明LN在文本任务收敛更快,精度更高。37.描述DDPG算法中经验回放(ExperienceReplay)与目标网络(TargetNetwork)的作用,并指出若移除二者之一会带来何种影响。答案:经验回放:存储(s,a,r,s′)四元组并随机采样,打破序列相关性,稳定训练,避免catastrophicforgetting。目标网络:延迟更新参数(软更新τ≪1),提供相对稳定的目标Q值,防止振荡。若移除经验回放:样本高度相关,训练方差大,Q网络发散,难以收敛。若移除目标网络:每次迭代目标Q值随Critic变化,形成“移动靶”,Q估计过度乐观,策略梯度噪声大,训练不稳定甚至发散。38.解释“模式崩塌(ModeCollapse)”在GAN中的表现形式,并列举两种缓解方法及原理。答案:表现形式:生成器G只输出少数或单一模式,多样性丧失,例如MNIST仅生成数字“1”,尽管真实数据含0–9。缓解方法:(1)minibatchdiscrimination:判别器D额外输入样本与批次内其他样本的相似度特征,迫使G生成彼此差异大的样本。(2)WGANGP:用Wasserstein距离替代JS散度,并添加梯度惩罚,使D提供光滑梯度,G获得有效信号覆盖全模式。原理:前者增加多样性约束;后者改善目标函数形状,避免梯度消失与饱和。六、计算与推导题(共31分)39.(10分)给定一个全连接层,输入x∈ℝ^d,权重W∈ℝ^{k×d},偏置b∈ℝ^k,激活函数为ReLU。(1)写出前向传播公式y=ReLU(Wx+b);(2)设损失L对y的梯度为g=∂L/∂y∈ℝ^k,推导∂L/∂W;(3)若d=512,k=1024,批量大小N=64,计算一次反向传播中W的梯度存储所需显存(字节),假设采用FP32。答案:(2)由链式法则,∂L/∂W=g·x^T,其中g为k×1,x为d×1,结果∂L/∂W为k×d。(3)梯度张量尺寸与W相同,即1024×512×4B=2097152B≈2MB。40.(10分)考虑一个二分类任务,正负样本比为1:9,总样本10000。模型预测结果如下:TP=800,FP=400,TN=8600,FN=200。(1)计算精确率P、召回率R、F1;(2)采用宏平均(Macroaverage)计算F1,并分析是否适合用准确率评估。答案:(1)P=TP/(TP+FP)=800/1200=0.667;R=TP/(TP+FN)=800/1000=0.8;F1=2PR/(P+R)=0.727。(2)宏平均需分别计算正负类:正类:P_pos=0.667,R_pos=0.8,F1_pos=0.727;负类:P_neg=TN/(TN+FN)=8600/8800=0.977,R_neg=TN/(TN+FP)=8600/9000=0.956,F1_neg=0.966;MacroF1=(0.727+0.966)/2=0.847。准确率Acc=(800+8600)/10000=0.94,虽高但掩盖正类识别不足,样本不平衡时应采用F1或AUC。41.(11分)给定一个简化的Transformer块,含一个多头注意力子层和一个前馈子层,均采用残差连接与LayerNorm。设输入序列长度L=100,隐层d=512,注意力头数h=8,前馈中间维度4d=2048。(1)计算一次前向传播中,多头注意力部分的浮点乘法次数;(2)若使用混合精度(FP16计算、FP32主副本),理论上峰值显存节省比例是多少?(忽略激活重计算与临时缓存)答案:(1)Q,K,V投影:3·L·d·d=3×100×512×512=78643200;注意力权重:QK^T为L×d·d×L→100×512·512×100,但可拆分为h=8头,每头d_k=64,实际计算量8·(100×64)·(64×100)=8×100×64×100=5120000;加权求和:权重·V为8·(100×100)·(100×64)=8×100×100×64=5120000;输出投影:L·d·d=100×512×512=26214400;总计≈78.6M+5.1M+5.1M+26.2M=115M次乘法。(2)主副本显存:参数+激活+梯度。参数部分:注意力4d^2+前馈8d^2=12×512^2≈3.15M参数,FP32占12.6MB;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论