2025监督学基础试题及答案_第1页
2025监督学基础试题及答案_第2页
2025监督学基础试题及答案_第3页
2025监督学基础试题及答案_第4页
2025监督学基础试题及答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025监督学基础试题及答案一、单项选择题(每题2分,共20分)1.在监督学习中,若训练集标签存在5%的随机噪声,下列哪种策略对模型鲁棒性提升最直接?A.增加网络深度B.采用早停策略C.引入标签平滑D.扩大批大小答案:C解析:标签平滑通过将硬标签转为软分布,降低模型对错误标签的过拟合风险,直接缓解噪声影响。2.使用线性回归预测房价时,若特征“房龄”与“维修次数”高度共线,则最可能出现:A.训练误差骤降,测试误差上升B.权重符号反转C.条件数增大,参数方差膨胀D.梯度消失答案:C解析:共线导致设计矩阵列向量近似线性相关,条件数剧增,参数估计方差呈指数级放大。3.在SVM中引入高斯核后,若训练误差为0但测试误差高,最合理的调参顺序是:A.先增大C,再减小γB.先减小C,再增大γC.同时增大C与γD.固定C,仅减小γ答案:A解析:高γ使决策边界复杂,先增大C允许更多误分类,降低方差;再减小γ抑制过拟合。4.随机森林的OOB误差本质上是:A.每棵树对其袋外样本的多数投票误差B.交叉验证的简化近似C.偏差-方差分解中的偏差项D.特征重要性的副产品答案:A解析:OOB样本未被用于训练当前树,天然形成验证集,无需额外划分。5.在梯度提升树中,若学习率设为1,最可能:A.快速收敛到全局最优B.出现“退化”现象,训练损失震荡C.树的数量可大幅减少D.特征重要性趋于一致答案:B解析:学习率为1时步长过大,后续树难以纠正前序残差,导致训练损失震荡甚至上升。6.对文本分类任务,使用TF-IDF加权后,再执行L2归一化的主要目的是:A.降低维度B.抑制高频词C.使样本向量位于同一尺度D.引入稀疏性答案:C解析:L2归一化消除文档长度差异,避免长文档主导相似度计算。7.在神经网络中,BatchNorm层置于激活函数之前的主要考量是:A.保持稀疏性B.使激活输入分布稳定,缓解内部协变量偏移C.降低内存占用D.加速权重初始化答案:B解析:预激活分布稳定后,梯度流更平滑,允许更大学习率。8.多分类任务采用OvR策略时,若某样本被多个二分类器同时判为正,则最终决策依据:A.置信度最大B.决策边界最近C.样本到超平面距离符号D.随机选择答案:A解析:OvR将多分类转化为多个“一对余”二分类,置信度(概率或决策函数值)最高者胜出。9.在K折交叉验证中,增大K值将:A.降低估计方差,增加计算量B.降低偏差,减少计算量C.增加方差,降低偏差D.对偏差与方差无影响答案:A解析:K越大,训练集占比越高,估计偏差降低,但训练次数增加,方差随K增大先降后升。10.对高度非平衡数据,采用F1度量而非准确率的根本原因是:A.F1计算更快B.F1对类别分布不敏感C.F1同时考虑精确率与召回率D.F1可直接优化答案:C解析:非平衡场景下,准确率易被多数类主导,F1通过调和平均聚焦少数类表现。二、多项选择题(每题3分,共15分)11.下列哪些操作可能降低卷积网络的过拟合?A.使用DropBlockB.增加滤波器数量C.标签平滑D.梯度裁剪E.MixUp数据增强答案:A、C、E解析:DropBlock与MixUp属于结构/数据增强;标签平滑降低标签噪声敏感度;增加滤波器可能加剧过拟合;梯度裁剪仅防梯度爆炸。12.关于L1与L2正则,下列说法正确的是:A.L1更易产生稀疏解B.L2对异常值更鲁棒C.两者均可通过拉格朗日形式表达D.L1等价于拉普拉斯先验E.L2正则化后模型偏差一定增大答案:A、C、D解析:L1的不可微轴点导致稀疏;L2对异常值敏感;拉格朗日形式统一框架;L1对应拉普拉斯先验;L2可能降低方差,偏差不一定增大。13.在AdaBoost训练过程中,A.每轮样本权重之和为1B.误差率大于0.5时算法终止C.最终分类器为弱分类器的加权多数投票D.权重更新与指数损失负相关E.可配合决策树桩使用答案:A、C、D、E解析:权重归一化;误差>0.5即反向学习,不终止;指数损失驱动权重;决策树桩为常用弱学习器。14.关于主成分分析(PCA)与线性判别分析(LDA),正确的是:A.PCA最大化投影方差B.LDA最小化类内散度与类间散度之比C.PCA对标签无要求D.LDA投影方向至多C-1维(C为类别数)E.两者均基于特征值分解答案:A、B、C、D、E解析:PCA无监督保方差;LDA有监督降维;PCA仅依赖协方差;LDA受秩限制;均通过特征值求解。15.在深度强化学习引入监督损失时,可能出现:A.策略网络收敛加速B.价值函数过估计C.分布偏移加剧D.探索不足E.梯度互干扰答案:A、C、D、E解析:监督损失提供额外梯度;但专家数据与在线状态分布差异导致偏移;行为克隆易探索不足;多损失需权衡。三、判断题(每题2分,共10分)16.对同一数据集,增加决策树深度必然导致随机森林泛化误差单调下降。答案:错误解析:深度过大易过拟合,单棵树方差上升,虽平均可缓解,但非单调。17.逻辑回归的决策边界一定为线性超平面。答案:正确解析:逻辑回归模型为sigmoid(w·x+b),决策边界即w·x+b=0,仿射函数。18.使用ReLU的神经网络若初始权重全为零,则隐藏层无法打破对称性。答案:正确解析:ReLU在0处梯度为0,对称初始化导致同一层神经元梯度相同,无法更新。19.K-means的目标函数与PCA的重建误差在数学形式上完全等价。答案:错误解析:K-means最小化簇内平方和,PCA最小化投影均方误差,二者目标不同。20.在梯度下降中,当海森矩阵条件数很大时,采用动量法一定能加快收敛。答案:错误解析:动量法可缓解锯齿路径,但若条件数过大且动量系数不当,仍可能震荡。四、填空题(每空3分,共15分)21.假设某二分类问题采用0-1损失,贝叶斯最优分类器为________。答案:h(x)=argmax_{y∈{0,1}}P(y|x)解析:最小化期望风险即选择后验概率最大类。22.若某特征在决策树节点划分后信息增益为0.02,而划分前节点熵为0.8,则该特征对熵的相对减少比例为________%。答案:2.5解析:相对减少=0.02/0.8×100%=2.5%。23.在神经网络中,若某层输出为z,经BatchNorm后得到ẑ=(z−μ)/σ,则该层梯度∂L/∂z与∂L/∂ẑ的关系为________。答案:∂L/∂z=(∂L/∂ẑ−E[∂L/∂ẑ]−ẑ·E[∂L/∂ẑ·ẑ])/σ解析:源自BatchNorm的链式法则与标准化逆运算。24.对于支持向量机,若核函数K(x,x′)=exp(−γ∥x−x′∥²),当γ→+∞时,模型复杂度将________。答案:急剧增加(或“趋于无穷”)解析:γ越大,核矩阵趋近单位阵,模型接近记忆训练样本,VC维上升。25.在AdaBoost中,第t轮弱分类器权重α_t=________。答案:½ln((1−ε_t)/ε_t),其中ε_t为误差率解析:源自指数损失最小化推导。五、简答题(每题8分,共24分)26.描述梯度消失与梯度爆炸的产生机理,并给出至少三种针对性解决方案。答案:机理:深度网络反向传播时,链式法则连乘梯度。若激活导数或权重矩阵特征值小于1,梯度呈指数级收缩,导致前端层几乎无法更新,即梯度消失;反之若大于1,则梯度指数放大,即梯度爆炸。方案:1)合理初始化:Xavier/He初始化使层间方差保持1,缓解连乘缩放。2)激活函数:采用ReLU、Swish等导数在正半轴为1的函数,减少梯度收缩。3)归一化:BatchNorm将每层输入标准化,阻断梯度尺度累积。4)残差连接:恒等映射提供直接梯度路径,避免连乘。5)梯度裁剪:设置阈值,对超过范数的梯度按比例缩放,防止爆炸。27.解释随机森林中“特征重要性”的Gini增益度量,并指出其局限性。答案:Gini增益度量:对每棵树,计算节点划分前后Gini指数减少量,按节点样本占比加权,累加所有使用该特征的节点,得到该特征对森林的总Gini减少。最后对所有树取平均即重要性。局限性:1)偏向高基数特征:取值多的特征易产生更多划分,累积增益高。2)忽略特征交互:仅统计单特征边际贡献,无法反映联合效应。3)对冗余特征高估:若两特征高度相关,重要性被重复计算。4)无法捕捉方向性:仅知“重要”,不知正负相关。改进:采用排列重要性、SHAP值或条件重要性,缓解偏差。28.比较批量梯度下降(BGD)、随机梯度下降(SGD)与小批量梯度下降(Mini-BGD)在收敛速度、内存占用、泛化性能上的差异。答案:收敛速度:BGD每步使用全量数据,梯度准确但单次迭代慢;SGD噪声大,初期下降快但后期震荡;Mini-BGD折中,通过向量化与并行获得最快壁钟时间。内存占用:BGD需载入全量数据,内存最大;SGD仅需单个样本,内存最小;Mini-BGD取决于批大小,可调。泛化性能:SGD噪声相当于隐式正则,常获更好泛化;BGD易收敛到尖锐极小,泛化略差;Mini-BGD通过调批大小可控噪声,兼顾稳定与泛化。六、计算题(每题12分,共24分)29.给定训练集:x₁=(1,2),y₁=1x₂=(2,1),y₂=−1x₃=(3,3),y₃=1使用线性SVM(硬间隔),求最优超平面w·x+b=0及几何间隔。答案:步骤:1)设w=(w₁,w₂),优化问题:min½∥w∥²s.t.y_i(w·x_i+b)≥12)代入约束:w₁+2w₂+b≥12w₁+w₂+b≤−13w₁+3w₂+b≥13)解方程组:前两条取等号得:w₁+2w₂+b=12w₁+w₂+b=−1相减得w₁−w₂=−2再联立第三条取等:3w₁+3w₂+b=1解得w₁=−1,w₂=1,b=04)验证:x₁:(−1,1)·(1,2)=1≥1x₂:(−1,1)·(2,1)=−1≤−1x₃:(−1,1)·(3,3)=0不满足≥1,矛盾,故第三条不紧。重新取支持向量x₁,x₂,得w=(−1,1),b=0几何间隔γ=1/∥w∥=1/√2最终超平面:−x₁+x₂=0,几何间隔√2/2。30.某二分类任务采用单隐藏层神经网络,输入2维,隐藏层3神经元(ReLU),输出1神经元(sigmoid),交叉熵损失。给定一个样本x=(1,−1),y=1,前向传播得隐藏层输出h=ReLU(Wx+c),其中W=[[1,2],[−1,0],[0,1]],c=[0,1,−1]输出层权重v=[1,−1,2],偏置d=0.5求损失L及反向传播中∂L/∂W。答案:前向:z=Wx+c=[1·1+2·(−1)+0,−1·1+0·(−1)+1,0·1+1·(−1)−1]=[−1,0,−2]h=ReLU(z)=[0,0,0]logit=v·h+d=0+0.5=0.5p=σ(0.5)=0.622L=−ylogp−(1−y)log(1−p)=−log0.622≈0.474反向:δ_out=p−y=0.622−1=−0.378∂L/∂v=h·δ_out=0∂L/∂h=v·δ_out=[1,−1,2]·(−0.378)=[−0.378,0.378,−0.756]∂L/∂z=∂L/∂h⊙I(z>0)=[0,0,0](因h=0)∂L/∂W=∂L/∂z·xᵀ=[[0,0],[0,0],[0,0]]结论:ReLU死亡节点导致梯度为零,需调整初始化或学习率。七、综合设计题(16分)31.某医疗影像数据集含5万张高分辨率CT图,阳性率仅2%,图像尺寸512×512×1,标注噪声约10%。目标:训练轻量级模型,在嵌入式设备(ARMA73,2GBRAM)实现≥0.90AUC,推理延迟≤200ms。请给出完整技术路线,含数据、模型、训练、部署四环节,并说明如何验证指标。答案:数据:1)清洗:采用NIfTI格式,利用像素直方图截断1%极值,去除运动伪影。2)去噪:非局部均值滤波保边缘。3)重采样:统一体素间距1mm×1mm×1mm,避免尺度偏差。4)增强:随机旋转±10°、平移20像素、伽马校正0.8–1.2、CutMix与Mosaic混合,缓解类别不平衡与标注噪声。5)标签修正:用教师—学生协同训练,教师为3DDenseNet121集成,生成软标签,与原标签加权(α=0.7),降低噪声影响。模型:1)主干:定制MobileNetV3-Small,引入深度可分离卷积与SE模块,首层stride=2下采样至256×256,减少计算。2)颈部:轻量级FPN,通道压缩至48,上采样用最近邻+3×3深度卷积。3)头部:双分支,其一输出全局平均池化+sigmoid(病灶概率),其二输出1×1卷积生成像素级热图,辅助解释。4)正则:DropBlock(keep_prob=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论