(2026年)人工智能训练师试题及答案_第1页
(2026年)人工智能训练师试题及答案_第2页
(2026年)人工智能训练师试题及答案_第3页
(2026年)人工智能训练师试题及答案_第4页
(2026年)人工智能训练师试题及答案_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(2026年)人工智能训练师试题及答案一、单项选择题(本大题共25小题,每小题2分,共50分。在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填在括号内。)1.在人工智能数据标注过程中,对于图像语义分割任务,标注员通常使用哪种工具或格式来精确标记物体的轮廓?A.边界框B.多边形C.关键点D.图像标签2.某电商平台的推荐系统正在使用协同过滤算法,但在处理新用户时遇到了“冷启动”问题。以下哪种方法最不适合作为解决该问题的策略?A.利用用户的注册信息(如年龄、性别)进行基于内容的推荐B.要求新用户在首次使用时进行兴趣选择D.直接使用基于热门商品的统计推荐C.立即删除该新用户的数据以避免干扰模型3.在深度学习模型的训练过程中,梯度消失问题通常在哪种网络结构中最为严重?A.卷积神经网络(CNN)B.浅层全连接网络C.循环神经网络(RNN)或未使用残差连接的深层网络D.决策树4.评估二分类模型性能时,当正负样本分布极不不平衡(例如负样本占99%,正样本占1%),以下哪个指标最能客观反映模型对正样本的识别能力?A.准确率B.精确率C.召回率D.特异度5.Transformer模型的核心机制是自注意力机制。在计算注意力分数时,通常使用ScaledDot-ProductAttention,其缩放因子的主要作用是?A.增加梯度的数值,防止梯度消失B.防止点积结果过大导致Softmax进入梯度极小的饱和区C.减少计算量,降低时间复杂度D.增加模型的非线性表达能力6.在自然语言处理(NLP)任务中,BERT模型引入的“MaskedLanguageModel(MLM)”预训练任务的主要目的是?A.预测下一个词B.预测句子之间的连接关系C.通过随机掩盖部分词并强制模型根据上下文恢复,以此学习双向上下文表示D.将词向量映射到特定的语义空间7.人工智能训练师在进行数据清洗时,发现数据集中存在大量缺失值。对于时间序列数据,以下哪种填充方法相对最合理?A.直接删除包含缺失值的行B.使用全局均值填充C.使用前一个有效观测值进行填充D.使用0进行填充8.目标检测算法YOLO(YouOnlyLookOnce)将目标检测任务视为回归问题,其核心思想是?A.通过滑动窗口生成候选区域,然后对每个区域进行分类B.在图像的多个位置上通过回归直接预测边界框和类别概率C.先分割图像,再对分割区域进行分类D.基于图模型构建物体之间的语义关系9.在强化学习中,Agent(智能体)通过与环境交互学习策略。Q-learning算法中,Q值的更新公式基于贝尔曼方程。以下关于探索与利用的描述,正确的是?A.应始终选择当前Q值最大的动作,以最大化累积回报B.应始终随机选择动作,以发现所有可能的路径C.需要在利用已知的最优策略和探索未知状态之间保持平衡D.探索策略在训练结束后仍然需要保持高比例10.下列关于正则化技术的描述中,错误的是?A.L1正则化倾向于产生稀疏权重矩阵B.L2正则化(权重衰减)倾向于让权重值分布更均匀,防止权重过大C.Dropout在训练时随机丢弃部分神经元,仅在推理时使用全连接网络D.BatchNormalization(批归一化)主要作用是加速训练,且具有轻微的正则化效果,但完全替代了Dropout11.在使用卷积神经网络处理图像时,卷积层后的激活函数通常选择ReLU,而不是Sigmoid或Tanh,主要原因是?A.ReLU函数的输出范围是[0,1],更适合表示概率B.ReLU计算简单(只需判断阈值),且能有效缓解深层网络中的梯度消失问题C.ReLU是饱和函数,能提供更稳定的梯度D.ReLU函数在负区间有非零梯度,增加了模型的非线性12.某语音识别模型的训练集包含10万小时数据,验证集包含1万小时。训练过程中,训练Loss持续下降,但验证Loss在下降一段时间后开始上升。这表明模型发生了?A.欠拟合B.过拟合C.梯度爆炸D.数据泄漏13.人工智能训练师在使用大语言模型(LLM)进行微调时,为了节省显存并加速训练,常使用参数高效微调技术(PEFT)。以下哪项不属于PEFT技术?A.LoRA(Low-RankAdaptation)B.PrefixTuningC.FullFine-tuning(全量微调)D.Adapter(适配器)14.在计算机视觉中,非极大值抑制(NMS)算法的主要作用是?A.提取图像中的边缘特征B.降维,减少特征向量的维度C.过滤重叠度过高的冗余检测框,保留最佳框D.增加数据样本数量15.关于生成对抗网络的训练,下列说法正确的是?A.生成器G和判别器D的训练是独立进行的,互不干扰B.训练目标是让判别器无法区分真实样本和生成样本,即达到纳什均衡C.生成器的目标是最大化判别器的损失D.判别器的目标是最大化生成器的生成质量16.在数据增强中,针对图像分类任务,以下哪种操作可能会改变图像的语义标签,因此需要谨慎使用?A.随机水平翻转B.随机裁剪C.旋转90度D.上下翻转(对于非对称物体如数字“6”和“9”)17.评估聚类算法效果时,如果没有真实的标签数据,通常使用以下哪个指标?A.调整兰德指数B.轮廓系数C.F1-scoreD.混淆矩阵18.在知识图谱构建中,用于从非结构化文本中抽取实体关系的任务被称为?A.命名实体识别(NER)B.关系抽取C.属性抽取D.共指消解19.在深度学习框架中,TensorFlow或PyTorch中用于自动计算梯度的机制称为?A.动态规划B.自动微分C.梯度下降D.反向传播20.某模型在测试集上的表现远低于在训练集上的表现,且训练集的Loss也很高。这种情况属于?A.高方差B.高偏差C.正常情况D.数据分布不一致21.在目标检测任务中,mAP(meanAveragePrecision)是衡量模型性能的重要指标。计算mAP时,通常需要先计算每个类别的?A.IoU(交并比)B.Precision-Recall曲线下的面积C.ROC曲线下的面积D.ConfusionMatrix(混淆矩阵)22.人工智能训练师需要关注模型的可解释性。对于决策树模型,其天然具有较好的可解释性,因为?A.它是基于数学公式的B.它的推理过程可以表示为一系列“如果-那么”的规则C.它的内部参数都是公开的D.它训练速度非常快23.在处理文本数据时,Word2Vec算法通过上下文预测词向量。它包含两种训练模式:Skip-gram和CBOW。关于Skip-gram,描述正确的是?A.使用中心词预测上下文B.使用上下文预测中心词C.基于共现矩阵分解D.只能处理一元语法24.下列关于超参数调优的方法,哪一种属于基于贝叶斯优化的方法?A.网格搜索B.随机搜索C.贝叶斯优化D.手动调参25.在自动驾驶场景的数据收集中,除了摄像头图像,激光雷达点云数据也是关键。点云数据通常使用哪种网络结构进行处理?A.RNNB.TransformerC.PointNet或Graph-basedNetworksD.LSTM二、多项选择题(本大题共15小题,每小题3分,共45分。在每小题列出的五个备选项中至少有两个是符合题目要求的,请将其代码填在括号内。错选、多选、少选均不得分。)1.人工智能训练师在进行数据预处理时,对于数值型特征,常见的标准化方法包括哪些?A.Min-MaxScalingB.Z-ScoreStandardizationC.One-HotEncodingD.LogTransformationE.WordEmbedding2.下列哪些属于深度学习解决过拟合问题的常用手段?A.增加训练数据量B.使用数据增强C.减小模型复杂度(如减少层数、神经元数量)D.增大学习率E.早停法3.在自然语言处理中,Transformer模型相比传统的RNN/LSTM模型,主要优势在于?A.能够并行计算,训练效率高B.通过自注意力机制捕捉长距离依赖能力更强C.模型参数量更小,更适合移动端部署D.不需要递归计算,避免了梯度消失/爆炸问题E.能够直接处理图像数据4.计算机视觉中,卷积神经网络(CNN)的典型架构组件包括哪些?A.卷积层B.池化层C.全连接层D.激活函数层E.归一化层5.评估回归模型性能的常用指标有哪些?A.均方误差(MSE)B.均方根误差(RMSE)C.平均绝对误差(MAE)D.R-squared(决定系数)E.准确率6.在使用支持向量机(SVM)进行分类时,核函数的作用是将数据映射到高维空间。常见的核函数有哪些?A.线性核B.多项式核C.径向基核函数(RBF)D.Sigmoid核E.余弦相似度核7.人工智能伦理与安全是训练师必须关注的内容。以下哪些属于算法偏见可能产生的来源?A.训练数据本身存在历史偏见(如性别歧视、种族歧视)B.特征选择不当引入了敏感属性C.模型复杂度过高D.标注人员的主观偏见E.数据增强算法的随机性8.关于激活函数,下列哪些函数具有非线性特性?A.SigmoidB.TanhC.ReLUD.LeakyReLUE.Linear(恒等映射)9.在强化学习中,策略梯度方法可以直接优化策略。以下哪些属于策略梯度算法或其改进?A.REINFORCEB.Actor-CriticC.DQN(DeepQ-Network)D.PPO(ProximalPolicyOptimization)E.A3C(AsynchronousAdvantageActor-Critic)10.数据标注是AI训练的重要环节。为了保证标注质量,可以采取哪些措施?A.制定详细、清晰的标注指南B.对标注人员进行培训和考核C.实行多人标注并投票(如多数投票)D.抽取部分样本进行审核E.完全依赖自动化标注,不进行人工复核11.下列哪些属于无监督学习算法?A.K-Means聚类B.主成分分析(PCA)C.生成对抗网络(GAN)D.逻辑回归E.自编码器12.在目标检测中,IoU(IntersectionoverUnion)用于衡量预测框与真实框的重叠程度。它在哪些场景中被使用?A.判断预测框是否为正样本B.计算mAP时的阈值判定C.非极大值抑制(NMS)中过滤冗余框D.图像分类任务的Loss计算E.特征提取过程中的卷积操作13.针对时间序列预测任务,下列哪些模型是常用的?A.ARIMAB.LSTMC.GRUD.TransformerDecoderE.ResNet14.人工智能训练师在模型部署后需要进行监控。监控的关键指标通常包括?A.模型预测的延迟B.模型预测的吞吐量C.数据漂移指标D.模型预测的分布变化E.服务器的CPU/GPU利用率15.下列关于Python在AI领域的常用库,描述正确的有?A.NumPy主要用于科学计算和数组操作B.Pandas主要用于数据处理和分析C.Scikit-learn提供了大量传统机器学习算法D.Matplotlib和Seaborn用于数据可视化E.PyTorch和TensorFlow是主流的深度学习框架三、填空题(本大题共10小题,每小题3分,共30分。请将答案写在括号内。)1.在信息论中,熵是衡量随机变量不确定性的指标。对于二分类问题,若正样本概率为p,负样本概率为1−p,则熵的计算公式为H(2.在神经网络的反向传播过程中,链式法则用于计算复合函数的导数。假设损失函数为L,权重为w,则权重的更新量通常表示为Δw=−3.卷积神经网络中,池化层的主要作用是降维和减少计算量,同时保持特征的()。4.在自然语言处理中,TF-IDF是一种用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度的统计方法。其中IDF代表()。5.在深度学习中,为了解决梯度消失问题,Hochreiter和Schmidhuber提出了()网络,引入了“门控”机制来控制信息的流动。6.在聚类算法中,()算法通过迭代将样本分到K个簇中,使得每个样本到其所属簇的质心的距离平方和最小。7.在图像生成任务中,()模型通过引入扩散过程,逐步向图像添加噪声,再学习逆向过程去噪来生成高质量图像,近年来成为生成式AI的主流技术之一。8.对于一个线性可分的二分类问题,支持向量机(SVM)的目标是寻找一个超平面,使得()最大化,从而提高模型的泛化能力。9.在评估二分类模型时,精确率和召回率往往是矛盾的。F1-score是精确率和召回率的()平均数。10.大语言模型(LLM)的推理过程中,()算法用于在每一步生成时,从概率分布最高的几个词中随机选择一个,在保证生成质量的同时增加了文本的多样性。四、简答题(本大共4小题,每小题10分,共40分。)1.简述梯度下降法的主要流程,并比较批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降的优缺点。2.什么是卷积神经网络中的感受野?它的大小如何影响网络性能?请简述扩大感受野的常见方法。3.在训练深度学习模型时,如果遇到训练集Loss下降缓慢,可能的原因有哪些?作为人工智能训练师,你会采取哪些排查和解决措施?4.简述数据清洗在人工智能项目中的重要性,并列出至少四种常见的数据异常情况及其处理方法。五、综合应用题(本大题共3小题,共85分。)1.(25分)某医疗诊断机构开发了一款辅助诊断肺炎的AI模型。该模型基于胸部X光片进行二分类(患病:Positive,健康:Negative)。在包含1000个样本的测试集上,模型的预测结果如下:真正例:50个假正例:20个假反例:10个真反例:920个(1)请计算该模型的准确率、精确率、召回率和特异性。(8分)(2)计算该模型的F1-score。(4分)(3)在医疗场景下,通常更看重减少漏诊(即提高召回率)。如果调整模型的分类阈值,召回率通常会如何变化,精确率会受到什么影响?请简要解释Precision-Recall曲线的权衡关系。(6分)(4)假设该模型在实际应用中出现了过拟合现象,请提出至少三种具体的改进方案。(7分)2.(30分)你是一家电商公司的人工智能训练师,负责优化商品评论的情感分析模型。该模型用于判断用户评论是“正面”还是“负面”。目前使用的是一个基于LSTM的文本分类模型,但发现训练速度较慢,且对长文本的理解能力不足。(1)请分析LSTM模型在处理长文本时可能存在的局限性。(5分)(2)公司决定引入基于BERT的预训练模型进行微调。请简述BERT模型引入的MaskedLM和NextSentencePrediction两个预训练任务的作用。(8分)(3)在微调BERT之前,需要对数据进行预处理。假设输入句子为“这家店的服务态度极差,不会再来了!”,请描述将其转换为模型输入(InputEmbeddings)的大致过程,包括分词、添加特殊标记以及注意力掩码的作用。(10分)(4)模型上线后,发现数据分布发生了漂移,例如出现了很多网络流行语(如“绝绝子”、“YYDS”),导致模型效果下降。作为训练师,你会制定什么样的数据迭代和模型更新策略来应对这种情况?(7分)3.(30分)某自动驾驶公司需要训练一个车辆检测模型。数据集包含城市道路、高速公路和乡村道路等多种场景下的图像。(1)在数据准备阶段,为了提高模型的泛化能力,请列举至少五种针对图像数据的增强技术,并简要说明其原理。(10分)(2)模型训练过程中,你选择了YOLOv5作为基线模型。请解释YOLOv5中使用的Mosaic数据增强方法及其优势。(5分)(3)在模型评估阶段,你发现模型在“雨天”场景下的检测精度明显低于“晴天”场景。请分析可能的原因,并给出针对性的解决方案。(10分)(4)为了将模型部署到算力有限的车载芯片上,通常需要进行模型压缩。请简述模型量化和剪枝的基本原理。(5分)参考答案与解析一、单项选择题1.B解析:语义分割需要精确到像素级,多边形可以勾勒出物体不规则的边缘,是语义分割标注的标准形式。边界框用于目标检测,关键点用于姿态估计。解析:语义分割需要精确到像素级,多边形可以勾勒出物体不规则的边缘,是语义分割标注的标准形式。边界框用于目标检测,关键点用于姿态估计。2.C解析:冷启动问题是指缺乏新用户的历史行为数据。删除新用户数据不仅无法解决问题,还会导致用户流失。A、B、D都是常见的冷启动解决方案。解析:冷启动问题是指缺乏新用户的历史行为数据。删除新用户数据不仅无法解决问题,还会导致用户流失。A、B、D都是常见的冷启动解决方案。3.C解析:梯度消失在深层网络和循环网络中尤为严重,因为连乘的梯度值容易趋近于0。CNN通常较浅或使用残差连接,RNN在长序列时容易发生。解析:梯度消失在深层网络和循环网络中尤为严重,因为连乘的梯度值容易趋近于0。CNN通常较浅或使用残差连接,RNN在长序列时容易发生。4.C解析:在样本极度不平衡时,准确率会被多数类(负样本)主导。例如全预测为负,准确率也能达到99%,但这没有意义。召回率关注正样本被找出的比例,更能反映模型对少数类的识别能力。解析:在样本极度不平衡时,准确率会被多数类(负样本)主导。例如全预测为负,准确率也能达到99%,但这没有意义。召回率关注正样本被找出的比例,更能反映模型对少数类的识别能力。5.B解析:当维度很大时,点积结果很大,导致Softmax函数进入梯度极小的饱和区,使得梯度难以回传。除以可以缩放数值,使其处于更合理的范围。解析:当维度很大时,点积结果很大,导致Softmax函数进入梯度极小的饱和区,使得梯度难以回传。除以可以缩放数值,使其处于更合理的范围。6.C解析:MaskedLM随机掩盖词,让模型根据上下文预测,从而强迫模型利用双向上下文信息。解析:MaskedLM随机掩盖词,让模型根据上下文预测,从而强迫模型利用双向上下文信息。7.C解析:时间序列数据具有时间依赖性,使用前一个有效值填充(ForwardFill)能较好地保持趋势,比使用均值或0更合理。解析:时间序列数据具有时间依赖性,使用前一个有效值填充(ForwardFill)能较好地保持趋势,比使用均值或0更合理。8.B解析:YOLO将检测视为回归问题,直接在图像网格上回归边界框和类别概率,不需要生成候选区域,因此速度快。解析:YOLO将检测视为回归问题,直接在图像网格上回归边界框和类别概率,不需要生成候选区域,因此速度快。9.C解析:强化学习的核心困境是探索与利用的平衡。只利用可能导致陷入局部最优,只探索则无法收敛。解析:强化学习的核心困境是探索与利用的平衡。只利用可能导致陷入局部最优,只探索则无法收敛。10.D解析:BatchNorm确实有轻微正则化效果,但不能完全替代Dropout。D错在“完全替代了”。解析:BatchNorm确实有轻微正则化效果,但不能完全替代Dropout。D错在“完全替代了”。11.B解析:ReLU在正区间导数恒为1,缓解了梯度消失;计算仅需阈值判断,效率高。解析:ReLU在正区间导数恒为1,缓解了梯度消失;计算仅需阈值判断,效率高。12.B解析:训练Loss降,验证Loss升,这是典型的过拟合现象,模型学到了训练数据的噪声而非通用特征。解析:训练Loss降,验证Loss升,这是典型的过拟合现象,模型学到了训练数据的噪声而非通用特征。13.C解析:FullFine-tuning更新所有参数,不属于参数高效微调(PEFT)。LoRA、PrefixTuning、Adapter只更新少量参数。解析:FullFine-tuning更新所有参数,不属于参数高效微调(PEFT)。LoRA、PrefixTuning、Adapter只更新少量参数。14.C解析:NMS用于去除针对同一个物体检测出的多个重叠框,只保留置信度最高的那个。解析:NMS用于去除针对同一个物体检测出的多个重叠框,只保留置信度最高的那个。15.B解析:GAN的训练目标是达到纳什均衡,即生成器生成的数据逼真到判别器无法区分真假。解析:GAN的训练目标是达到纳什均衡,即生成器生成的数据逼真到判别器无法区分真假。16.D解析:上下翻转对于非对称物体(如数字、文字、人脸)会改变语义,导致标签错误,需谨慎使用。解析:上下翻转对于非对称物体(如数字、文字、人脸)会改变语义,导致标签错误,需谨慎使用。17.B解析:轮廓系数不需要真实标签,通过计算样本与同簇样本的紧密度和不同簇样本的分离度来评估聚类效果。解析:轮廓系数不需要真实标签,通过计算样本与同簇样本的紧密度和不同簇样本的分离度来评估聚类效果。18.B解析:关系抽取旨在识别实体之间的语义关系(如“奥巴马”-“出生于”-“夏威夷”)。解析:关系抽取旨在识别实体之间的语义关系(如“奥巴马”-“出生于”-“夏威夷”)。19.B解析:自动微分是框架自动计算梯度的核心技术。解析:自动微分是框架自动计算梯度的核心技术。20.B解析:训练集Loss高,测试集Loss更高,说明模型连训练数据都没学好,这是欠拟合。解析:训练集Loss高,测试集Loss更高,说明模型连训练数据都没学好,这是欠拟合。21.B解析:mAP是各类别AP的平均值,AP是Precision-Recall曲线下的面积。解析:mAP是各类别AP的平均值,AP是Precision-Recall曲线下的面积。22.B解析:决策树的树状结构对应一系列逻辑判断规则,直观易懂。解析:决策树的树状结构对应一系列逻辑判断规则,直观易懂。23.A解析:Skip-gram利用中心词预测上下文;CBOW利用上下文预测中心词。解析:Skip-gram利用中心词预测上下文;CBOW利用上下文预测中心词。24.C解析:贝叶斯优化是一种基于高斯过程等模型的智能搜索方法,比网格和随机搜索更高效。解析:贝叶斯优化是一种基于高斯过程等模型的智能搜索方法,比网格和随机搜索更高效。25.C解析:点云数据是非结构化的,PointNet或基于图的网络(GNN)是处理此类数据的常用架构。解析:点云数据是非结构化的,PointNet或基于图的网络(GNN)是处理此类数据的常用架构。二、多项选择题1.ABD解析:Min-Max和Z-Score是标准化方法,LogTransform是对数变换用于偏态数据。One-Hot是针对类别型特征,WordEmbedding是针对文本。解析:Min-Max和Z-Score是标准化方法,LogTransform是对数变换用于偏态数据。One-Hot是针对类别型特征,WordEmbedding是针对文本。2.ABCE解析:增加数据、数据增强、简化模型、早停都是解决过拟合的手段。增大学习率通常导致震荡或不收敛,不是解决过拟合的直接手段(甚至可能导致欠拟合)。解析:增加数据、数据增强、简化模型、早停都是解决过拟合的手段。增大学习率通常导致震荡或不收敛,不是解决过拟合的直接手段(甚至可能导致欠拟合)。3.ABD解析:Transformer并行计算(A)、长距离依赖强(B)、无递归避免梯度问题(D)。参数量通常很大(C错),主要处理NLP(E错,虽可做ViT但非原生优势描述)。解析:Transformer并行计算(A)、长距离依赖强(B)、无递归避免梯度问题(D)。参数量通常很大(C错),主要处理NLP(E错,虽可做ViT但非原生优势描述)。4.ABCDE解析:全部都是CNN架构的常见组件。解析:全部都是CNN架构的常见组件。5.ABCD解析:MSE,RMSE,MAE,R-squared都是回归指标。准确率是分类指标。解析:MSE,RMSE,MAE,R-squared都是回归指标。准确率是分类指标。6.ABC解析:常见的SVM核函数包括线性、多项式、RBF。Sigmoid核理论上可用但在SVM中较少见且不稳定,通常不作为标准选项。余弦核通常用于度量学习。解析:常见的SVM核函数包括线性、多项式、RBF。Sigmoid核理论上可用但在SVM中较少见且不稳定,通常不作为标准选项。余弦核通常用于度量学习。7.ABD解析:偏见来源:数据本身(A)、特征选择(B)、标注人员(D)。模型复杂度和数据增强随机性本身不是偏见来源。解析:偏见来源:数据本身(A)、特征选择(B)、标注人员(D)。模型复杂度和数据增强随机性本身不是偏见来源。8.ABCD解析:Linear是线性的,其他都是非线性激活函数。解析:Linear是线性的,其他都是非线性激活函数。9.ABDE解析:REINFORCE,Actor-Critic,PPO,A3C都是基于策略梯度的方法。DQN是基于价值的方法。解析:REINFORCE,Actor-Critic,PPO,A3C都是基于策略梯度的方法。DQN是基于价值的方法。10.ABCD解析:制定指南、培训、多人投票、抽检都是保证质量的措施。完全依赖自动而不复核无法保证质量。解析:制定指南、培训、多人投票、抽检都是保证质量的措施。完全依赖自动而不复核无法保证质量。11.ABCE解析:K-Means,PCA,GAN,Autoencoder都是无监督或自监督学习。逻辑回归是监督学习。解析:K-Means,PCA,GAN,Autoencoder都是无监督或自监督学习。逻辑回归是监督学习。12.ABC解析:IoU用于判断正负样本、计算mAP、NMS过滤。不用于分类Loss计算和卷积操作。解析:IoU用于判断正负样本、计算mAP、NMS过滤。不用于分类Loss计算和卷积操作。13.ABCD解析:ARIMA,LSTM,GRU,TransformerDecoder都常用于时间序列。ResNet主要用于图像。解析:ARIMA,LSTM,GRU,TransformerDecoder都常用于时间序列。ResNet主要用于图像。14.ABCDE解析:性能(延迟、吞吐量)、数据稳定性、资源占用都是监控重点。解析:性能(延迟、吞吐量)、数据稳定性、资源占用都是监控重点。15.ABCDE解析:五个选项描述均正确。解析:五个选项描述均正确。三、填空题1.1(或ln2/解析:当p=0.5时,二元熵H(p)2.学习率解析:η代表学习率,控制梯度下降的步长。解析:η代表学习率,控制梯度下降的步长。3.不变性(或平移不变性/旋转不变性/尺度不变性)解析:池化层使模型对微小的位移、形变具有一定的不变性。解析:池化层使模型对微小的位移、形变具有一定的不变性。4.逆文档频率解析:IDF衡量词的普遍重要性,稀有词IDF高。解析:IDF衡量词的普遍重要性,稀有词IDF高。5.长短期记忆网络(或LSTM)解析:LSTM专为解决长序列的梯度消失而设计。解析:LSTM专为解决长序列的梯度消失而设计。6.K-Means解析:描述符合K-Means算法。解析:描述符合K-Means算法。7.扩散解析:DiffusionModel(扩散模型)。解析:DiffusionModel(扩散模型)。8.间隔(或几何间隔)解析:SVM的核心思想是最大化间隔。解析:SVM的核心思想是最大化间隔。9.调和解析:F1是Precision和Recall的调和平均数。解析:F1是Precision和Recall的调和平均数。10.Top-k采样解析:Top-ksampling从概率最大的k个词中随机选。解析:Top-ksampling从概率最大的k个词中随机选。四、简答题1.梯度下降法流程及比较:流程:1.初始化参数θ(随机或零)。2.计算损失函数J(θ)3.更新参数:θ=θη4.重复步骤2-3,直到满足停止条件(如梯度趋近于0或达到最大迭代次数)。比较:批量梯度下降(BGD):每次迭代使用所有样本计算梯度。优点:收敛稳定,易于全局最优;缺点:速度慢,内存消耗大,无法在线学习。随机梯度下降(SGD):每次迭代仅使用一个样本。优点:速度快,可在线跳出局部最优;缺点:震荡剧烈,收敛不稳定,难以利用向量化加速。小批量梯度下降:每次迭代使用一小批样本。优点:结合了BGD的稳定性和SGD的速度,利用矩阵运算加速,是目前最常用的方法。2.感受野及其影响与扩大方法:定义:感受野是指CNN中某一层的特征图上的一个像素点对应输入图像上的区域大小。影响:较大的感受野意味着网络能捕捉到更全局的语义信息(如整辆车),较小的感受野偏向于捕捉局部细节(如纹理、边缘)。对于目标检测和分类等任务,需要足够大的感受野来识别完整物体。扩大方法:1.增加卷积层的深度(堆叠更多层)。2.使用池化层。3.使用空洞卷积,在不增加参数量的情况下扩大感受野。4.使用跨步卷积。3.训练Loss下降缓慢的原因及排查措施:原因:1.学习率过小。2.陷入局部极值或鞍点。3.梯度消失(深层网络)。4.特征缩放未做好,导致Loss曲面地形恶劣。5.模型参数初始化不当。排查与解决:1.检查学习率:尝试增大学习率,或使用学习率预热和衰减策略。2.检查梯度:打印监控梯度范数,确认是否存在梯度消失或爆炸。若消失,考虑使用ReLU、残差连接;若爆炸,使用梯度裁剪。3.检查数据:确认输入数据是否已标准化(如归一化到[0,1]或做Z-Score),这能显著加快收敛。4.优化器选择:尝试将SGD替换为Adam或RMSprop等自适应学习率优化器。5.初始化:使用Xavier或He初始化方法。4.数据清洗的重要性及异常处理:重要性:“垃圾进,垃圾出”。高质量的数据是模型性能的基石。清洗能去除噪声、填补缺失、纠正错误,从而提高模型的准确性和泛化能力。常见异常及处理:1.缺失值:删除该行/列,或使用均值、中位数、众数、前向填充等方法插补。2.重复值:删除完全重复的样本,防止模型过拟合特定样本。3.异常值:使用箱线图或3σ原则检测,可采用删除、盖帽法(视为分位数值)或视为独立类别处理。4.数据不一致:如“北京”和“北京市”,通过建立映射字典或规则进行统一。5.格式错误:如日期格式混乱,通过正则表达式或解析库进行转换。五、综合应用题1.医疗诊断模型评估与优化(1)计算指标:总样本N=1000TP=50,FP=20,FN=10,TN=920TP=50,FP=20,FN=10,TN=920准确率:(T精确率:TP召回率:TP特异性:TN(2)计算F1-score:公式:F1=F1(3)阈值调整与权衡:如果降低分类阈值(模型更容易预测为正),召回率通常会上升(因为更多的正样本被识别出来,FN减少),但精确率通常会下降(因为更多的负样本被误判为正,FP增加)。如果降低分类阈值(模型更容易预测为正),召回率通常会上升(因为更多的正样本被识别出来,FN减少),但精确率通常会下降(因为更多的负样本被误判为正,FP增加)。反之,提高阈值,召回率下降,精确率上升。反之,提高阈值,召回率下降,精确率上升。PR曲线权衡:这是一个此消彼长的关系。在医疗场景下,为了不漏掉病人(高召回率),我们倾向于降低阈值,但这会导致误诊率增加(低精确率),需要根据具体业务容忍度选择最佳点。(4)过拟合解决方案:1.数据增强:对X光片进行旋转、翻转、亮度调整等,增加训练样本多样性。2.正则化:在损失函数中加入L1或L2正则项,限制权重过大。3.Dropout:在全连接层中加入Dropout层,随机丢弃神经元。4.早停:在验证集Loss不再下降时停止训练。5.简化模型:减少网络层数或通道数。6.交叉验证:使用K折交叉验证评估模型稳定性。2.电商情感分析模型优化(1)LSTM在长文本中的局限性:梯度消失/爆炸:虽然LSTM缓解了梯度消失,但在超长序列中仍难以传递极远距离的信息。串行计算:无法像Transformer那样并行计算,训练效率低,推理速度慢。信息瓶颈:单向或双向LSTM对长距离上下文的捕捉能力弱于自注意力机制,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论