机器学习基础试卷及详解_第1页
机器学习基础试卷及详解_第2页
机器学习基础试卷及详解_第3页
机器学习基础试卷及详解_第4页
机器学习基础试卷及详解_第5页
已阅读5页,还剩19页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习基础试卷及详解一、单项选择题(共10题,每题1分,共10分)下列关于不同机器学习范式的表述,正确的是A.有监督学习的训练过程需要使用带标注的样本数据B.无监督学习的训练过程需要少量标注数据做引导C.半监督学习的训练过程完全不需要任何标注数据D.强化学习的训练过程需要提前给所有样本标注正确输出答案:A解析:有监督学习的核心特点就是需要标注样本学习输入到输出的映射,因此A正确。B选项错误,无监督学习全程不需要标注数据;C选项错误,半监督学习是少量标注数据加大量无标注数据结合训练;D选项错误,强化学习不需要提前标注样本,而是通过环境反馈的奖励信号逐步学习。下列损失函数中,最适合用于回归任务的是A.交叉熵损失B.均方误差损失C.Hinge损失D.余弦损失答案:B解析:均方误差损失计算预测值和真实连续值的差的平方,适配回归任务的连续输出特点,因此B正确。A选项交叉熵损失主要用于分类任务;C选项Hinge损失主要用于支持向量机;D选项余弦损失主要用于衡量向量相似度的相关任务。机器学习中“过拟合”的典型表现是A.模型在训练集上准确率很高,在测试集上准确率大幅下降B.模型在训练集和测试集上的准确率都很高C.模型在训练集和测试集上的准确率都很低D.模型在训练集上准确率很低,在测试集上准确率很高答案:A解析:过拟合的本质是模型学习到了训练集的独有噪声而非通用规律,因此泛化能力差,A符合其表现。B是理想的拟合状态;C是欠拟合的表现;D属于不可能出现的异常情况。下列分类任务评估指标中,最不适合用于样本不平衡分类场景的是A.准确率B.召回率C.F1值D.AUC值答案:A解析:准确率是预测正确的样本占总样本的比例,如果样本极度不平衡,比如99%都是负样本,模型只要全部预测为负样本就能获得99%的准确率,但完全没有识别正样本的能力,因此A不适用。其余三个指标都可以更好地衡量不平衡场景下的模型效果。下列梯度下降的变种中,每次迭代都使用全部训练样本计算梯度的是A.批量梯度下降B.随机梯度下降C.小批量梯度下降D.动量梯度下降答案:A解析:批量梯度下降的定义就是每次迭代用全量样本计算梯度,因此A正确。B选项随机梯度下降每次只用1个样本计算梯度;C选项小批量梯度下降每次用一小部分样本计算梯度;D选项动量梯度下降是梯度更新的优化策略,不改变样本使用逻辑。下列激活函数中,最容易出现梯度消失问题的是A.Sigmoid函数B.ReLU函数C.LeakyReLU函数D.PReLU函数答案:A解析:Sigmoid函数的导数在输入绝对值较大时会趋近于0,深层网络中容易出现梯度无法反向传播的梯度消失问题,因此A正确。其余三个激活函数都通过不同设计缓解了梯度消失问题。下列关于K近邻算法的表述,错误的是A.属于惰性学习算法,训练阶段几乎没有计算开销B.训练阶段需要对数据特征做大量运算,训练时间长C.预测阶段需要计算待预测样本和所有训练样本的距离D.预测效果受超参数K的取值影响较大答案:B解析:K近邻没有显式的训练过程,训练阶段只需要存储样本即可,几乎没有计算开销,因此B表述错误。其余三个选项都是K近邻的正确特点。决策树算法ID3选择分裂特征的核心准则是A.信息增益B.信息增益比C.基尼系数D.均方误差答案:A解析:ID3算法使用信息增益作为分裂准则,选择信息增益最大的特征做分裂,因此A正确。B选项信息增益比是C4.5的分裂准则;C选项基尼系数是CART分类树的分裂准则;D选项均方误差是CART回归树的分裂准则。下列集成学习算法中,属于串行集成模式的是A.随机森林B.AdaBoostC.BaggingD.多数投票法答案:B解析:AdaBoost需要基于上一轮基学习器的错误调整样本权重,再训练下一轮基学习器,因此是串行模式,B正确。其余三个选项的基学习器都可以独立训练,属于并行集成模式。下列特征预处理操作中,归一化的核心作用是A.将不同量级的特征缩放到相同的数值区间B.增加特征的维度,丰富特征信息C.筛选出对模型贡献最大的重要特征D.基于原有特征生成新的业务特征答案:A解析:归一化的核心作用是消除不同特征的量级差异,避免量级大的特征主导模型训练过程,因此A正确。B是特征构造的作用;C是特征选择的作用;D是特征衍生的作用。二、多项选择题(共10题,每题2分,共20分)下列算法中,属于有监督学习算法的有A.逻辑回归B.决策树C.K-MeansD.支持向量机答案:ABD解析:有监督学习需要标注数据训练,逻辑回归、决策树、支持向量机都符合这一特点,因此ABD正确。C选项K-Means是无监督聚类算法,不需要标注数据。下列方法中,可以有效缓解过拟合问题的有A.增加训练样本的数量B.为模型添加L1或L2正则化项C.适当降低模型的复杂度D.大幅提升模型的复杂度答案:ABC解析:增加数据可以让模型学到更通用的规律,正则化可以约束参数避免拟合噪声,降低模型复杂度可以减少模型拟合噪声的能力,都能缓解过拟合,因此ABC正确。D选项提升模型复杂度会加重过拟合问题。下列指标中,属于分类任务常用评估指标的有A.准确率B.召回率C.均方误差D.F1值答案:ABD解析:准确率、召回率、F1值都是分类任务的核心评估指标,因此ABD正确。C选项均方误差是回归任务的常用评估指标。下列关于梯度下降算法的优点,表述正确的有A.算法实现逻辑简单,易于部署落地B.适配大规模训练数据的训练场景C.小批量梯度下降每次迭代计算量较小,训练效率高D.无论应用在什么模型上,都能找到全局最优解答案:ABC解析:梯度下降实现简单、适配大数据、小批量模式训练效率高都是其明确优点,因此ABC正确。D选项错误,当损失函数是非凸函数时,梯度下降很容易陷入局部最优解,无法保证找到全局最优。下列关于激活函数作用的表述,正确的有A.为模型引入非线性表达能力B.提升模型对复杂数据规律的拟合能力C.可以大幅加快所有模型的训练速度D.让线性模型也能拟合非线性的决策边界答案:ABD解析:激活函数的核心作用就是引入非线性,让模型可以拟合复杂的非线性规律,因此ABD正确。C选项错误,部分激活函数的计算开销较大,反而可能降低训练速度,也无法保证加快所有模型的训练速度。下列关于集成学习优势的表述,正确的有A.可以有效提升模型的泛化能力B.可以通过组合基学习器降低整体的偏差或方差C.可以完全避免模型出现过拟合问题D.适配分类、回归、排序等多种任务场景答案:ABD解析:集成学习通过多个基学习器的组合,确实能提升泛化能力、降低偏差或方差,适配多种任务,因此ABD正确。C选项错误,集成学习只能缓解过拟合,无法完全避免过拟合问题。下列应用场景中,适合使用无监督学习算法的有A.电商平台的客户群体划分B.人脸识别的身份核验C.工业生产的设备异常检测D.零售场景的商品关联规则挖掘答案:ACD解析:客户分群用聚类算法、异常检测用无监督异常检测算法、关联规则挖掘用Apriori等无监督算法,都属于无监督场景,因此ACD正确。B选项人脸识别身份核验属于有监督分类场景,需要标注的人脸数据训练。下列方法中,属于常用特征选择方法的有A.过滤法B.包裹法C.嵌入法D.归一化答案:ABC解析:过滤法、包裹法、嵌入法是三大类主流的特征选择方法,因此ABC正确。D选项归一化属于特征预处理方法,不涉及特征筛选。下列关于逻辑回归算法的表述,正确的有A.本质上属于分类算法,而非回归算法B.输出结果是0到1之间的概率值,具有可解释性C.既可以处理二分类任务,也可以扩展处理多分类任务D.训练过程使用均方误差作为损失函数答案:ABC解析:逻辑回归是用于分类的算法,输出概率、可扩展多分类都是其正确特点,因此ABC正确。D选项错误,逻辑回归使用交叉熵作为损失函数,而非均方误差。下列关于支持向量机算法的表述,正确的有A.既可以处理分类任务,也可以处理回归任务B.通过核函数可以将低维线性不可分数据映射到高维空间实现可分C.相较于其他算法,对数据中的异常值完全不敏感D.在样本量较小、特征维度较高的场景下仍能保持较好性能答案:ABD解析:支持向量机有分类和回归两个分支,核函数是其核心设计,小样本高维场景下表现好都是其特点,因此ABD正确。C选项错误,硬间隔支持向量机对异常值非常敏感,软间隔支持向量机也只是缓解了对异常值的敏感度,并非完全不敏感。三、判断题(共10题,每题1分,共10分)机器学习项目中,训练集和测试集的数据分布不需要保持一致。答案:错误解析:如果训练集和测试集分布不一致,会出现分布偏移问题,模型学到的规律无法适配测试集,泛化能力会大幅下降,因此训练集和测试集需要尽量保持同分布。决策树模型既可以处理离散特征,也可以处理连续特征。答案:正确解析:离散特征可以直接用于节点分裂,连续特征可以通过设置分裂阈值或者分箱的方式处理,因此决策树对两类特征都有良好的适配性。L1正则化的作用是让模型参数变得稀疏,因此常用于特征选择。答案:正确解析:L1正则化的特性是会让不重要特征的参数变为0,相当于自动筛选出有贡献的特征,因此常被用于特征选择场景。K-Means聚类属于有监督学习算法。答案:错误解析:K-Means聚类不需要标注数据,通过挖掘数据的内在结构完成聚类,属于典型的无监督学习算法。分类任务中,召回率越高说明模型把正样本识别为正样本的能力越强。答案:正确解析:召回率的计算公式是真阳性样本数除以所有真实正样本数,数值越高说明漏检的正样本越少,识别正样本的能力越强。梯度爆炸问题只会出现在循环神经网络中,全连接神经网络不会出现。答案:错误解析:只要网络层数较深、权重初始化不合理、激活函数选择不当,全连接神经网络同样会出现梯度爆炸问题,并非循环神经网络独有。随机森林中每个决策树的训练样本都是原始训练集的全部数据。答案:错误解析:随机森林采用自助采样法为每个决策树生成训练集,每次有放回抽样只会抽到原始数据约三分之二的样本,并非使用全部数据。特征工程的质量对最终模型的效果影响很小,模型结构的优化才是提升效果的核心。答案:错误解析:工业界的实践经验表明,特征工程的质量决定了模型效果的上限,模型优化只是尽量逼近这个上限,特征工程对效果的影响远大于模型结构的微调。交叉验证可以有效降低模型评估结果的偶然性,提升评估的可靠性。答案:正确解析:交叉验证将数据划分为多份,轮流作为训练集和验证集,多次评估取平均结果,避免了单次数据划分的随机误差,评估结果更可靠。强化学习中,智能体的目标是最大化当前时刻的即时奖励。答案:错误解析:强化学习的目标是最大化长期的累计奖励,而非仅关注当前的即时奖励,有时为了长期更高的奖励会放弃当前的短期奖励。四、简答题(共5题,每题6分,共30分)简述有监督学习、无监督学习、强化学习三者的核心区别。答案:第一,数据要求不同,有监督学习需要完全带标注的训练数据,无监督学习不需要任何标注数据,强化学习不需要提前标注样本,而是通过环境反馈的奖励信号完成学习;第二,学习目标不同,有监督学习的目标是学习输入到标注输出的映射关系,无监督学习的目标是挖掘数据内在的分布规律或结构特征,强化学习的目标是学习不同状态下的最优动作序列,最大化长期累计奖励;第三,适用场景不同,有监督学习多用于分类、回归等有明确输出要求的场景,无监督学习多用于聚类、降维、关联规则挖掘、异常检测等场景,强化学习多用于游戏AI、自动驾驶、资源调度等序列决策场景。解析:三类范式的核心差异来源于数据基础的不同,进而衍生出目标和场景的差异,实际项目中也经常会结合三类范式的优势打造混合模型,比如半监督学习就是有监督和无监督的结合。简述过拟合和欠拟合的表现以及对应的解决方法。答案:第一,过拟合的表现是模型在训练集上的指标表现极好,但在测试集或未知数据上的指标大幅下降,本质是模型学到了训练集的独有噪声而非通用规律,解决方法包括增加训练数据量、引入L1/L2正则化项、适当降低模型复杂度、训练过程提前停止、使用数据增强技术等;第二,欠拟合的表现是模型在训练集和测试集上的指标都较差,本质是模型容量不足,没有学到数据的有效规律,解决方法包括提升模型复杂度、添加更多有效特征、调整训练参数(比如增加迭代次数、降低正则化权重)等。解析:过拟合和欠拟合是机器学习训练中最常见的两类问题,实际项目中可以通过绘制训练集和验证集的学习曲线,快速判断当前模型处于哪种状态,再选择对应的解决方案。简述逻辑回归的算法原理和适用场景。答案:第一,算法原理层面,逻辑回归本质是在线性回归的输出结果上叠加Sigmoid激活函数,将原本的连续输出映射到0到1的概率区间,再通过交叉熵损失函数优化参数,最终根据预设的概率阈值判断样本所属的类别;第二,适用场景层面,逻辑回归最适合二分类为主、对模型可解释性要求高的场景,比如金融风控的用户违约预测、医疗场景的患病风险预测、广告点击率预估等,也可以扩展为多分类逻辑回归处理多类别任务;第三,优缺点层面,逻辑回归的优点是实现简单、训练速度快、输出结果具有概率可解释性,缺点是只能处理线性可分的问题,对复杂非线性关系的拟合能力有限。解析:逻辑回归虽然名称中带有“回归”二字,但属于分类算法,因为其底层使用了线性回归的结构,因此得名。在对可解释性要求高的监管相关场景,逻辑回归仍然是首选算法。简述K-Means聚类的算法执行步骤。答案:第一,确定聚类数量,根据业务需求或者肘部法则、轮廓系数等方法确定要划分的簇的数量K,再随机选择K个样本作为初始的簇中心;第二,样本分配,计算所有样本到每个簇中心的距离(通常使用欧氏距离),将每个样本分配给距离最近的簇中心对应的簇;第三,更新簇中心,重新计算每个簇中所有样本的均值,将该均值作为该簇新的簇中心;第四,迭代收敛,重复上述样本分配和簇中心更新的步骤,直到簇中心的变化幅度小于预设的阈值,或者达到预设的最大迭代次数,聚类过程结束。解析:K-Means的初始簇中心选择会影响最终的聚类结果,因此实际应用中通常会多次运行算法,选择效果最优的聚类结果;同时K值的选择需要结合业务需求和量化指标综合判断,没有统一的最优标准。简述混淆矩阵的核心指标和对应的含义。答案:第一,混淆矩阵的四个基础指标,分别是真阳性(TP,指正样本被正确识别为正样本的数量)、假阳性(FP,指负样本被错误识别为正样本的数量)、真阴性(TN,指负样本被正确识别为负样本的数量)、假阴性(FN,指正样本被错误识别为负样本的数量);第二,衍生的通用指标准确率,指所有预测正确的样本占总样本的比例,适合样本分布平衡的分类场景;第三,衍生的场景化指标,召回率指真阳性样本占所有真实正样本的比例,衡量模型对正样本的识别能力,适合漏检成本高的场景(比如疾病诊断);精确率指真阳性样本占所有预测为正样本的比例,衡量模型预测正样本的准确性,适合误检成本高的场景(比如风控审核);F1值是精确率和召回率的调和平均数,用于综合衡量两个指标的表现。解析:混淆矩阵是分类任务评估的基础,不同业务场景需要侧重不同的指标,比如医疗场景需要尽量高的召回率避免漏诊,金融风控场景需要尽量高的精确率避免误判带来的客户投诉。五、论述题(共3题,每题10分,共30分)结合实际应用场景,论述特征工程在机器学习项目中的重要性,以及常见的特征工程操作步骤。答案:论点1:特征工程的质量决定了机器学习项目的效果上限,模型优化只是逼近这个上限。论据:比如电商平台的用户复购预测场景,如果仅使用用户的性别、年龄、注册时间这类基础特征,哪怕使用最复杂的深度学习模型,最终的预测准确率可能也只有60%左右;但如果添加用户近半年的消费频次、平均消费金额、浏览时长、历史复购行为、收藏加购行为、促销活动参与度这类和复购强相关的业务特征,哪怕使用最简单的逻辑回归模型,准确率也能达到80%以上。由此可见特征工程对效果的影响远大于模型结构的调整。论点2:合理的特征工程可以降低模型训练成本,提升模型的鲁棒性。论据:比如用户特征中,消费金额的范围是几十到几万元,浏览时长的范围是几分钟到几十小时,两个特征的量级差异巨大,如果不做预处理,梯度下降训练时量级大的消费金额特征会主导梯度更新,导致模型收敛速度慢甚至无法收敛;如果对两类特征做归一化处理,将其都缩放到0到1的区间,模型的收敛速度可以提升数倍,同时也能避免极端值对模型的干扰,提升鲁棒性。常见的特征工程操作步骤分为四个环节:第一个环节是特征理解,梳理现有特征的业务含义、分布情况、缺失率,筛选掉缺失率过高、没有业务价值的无效特征;第二个环节是特征预处理,包括缺失值填充、异常值处理、类别特征编码、数值特征归一化或标准化等;第三个环节是特征构建,结合业务逻辑从原始数据中衍生新的有效特征,比如从消费记录中生成近30天消费频次、平均客单价、复购间隔等特征;第四个环节是特征选择,通过过滤法、包裹法、嵌入法等方法筛选出对模型有贡献的有效特征,去掉冗余特征降低维度,提升训练效率。结论:机器学习项目中70%以上的工作量都集中在特征工程环节,做好特征工程是项目成功的核心前提,脱离优质特征的支撑,再先进的模型也无法产出好的效果。论述集成学习中Bagging和Boosting的核心差异,并结合随机森林和AdaBoost两个算法举例说明各自的适用场景。答案:Bagging和Boosting是两类主流的集成学习框架,核心差异主要体现在两个层面:论点1:样本采样逻辑不同。Bagging采用有放回的随机自助采样,每个基学习器的训练集是独立生成的,基学习器之间没有依赖关系,可以并行训练;Boosting的采样是串行的,每一轮训练都会基于上一轮基学习器的错误调整样本权重,上一轮被错分的样本会获得更高的权重,后续的基学习器会重点关注这些难分的样本,基学习器之间有强依赖关系,只能串行训练。论据:随机森林作为Bagging的代表算法,每个决策树的训练样本都是独立采样得到的,因此可以同时训练数百棵决策树,训练效率很高;AdaBoost作为Boosting的代表算法,必须等前一棵决策树训练完成,调整样本权重后才能训练下一棵,训练速度相对较慢。论点2:优化目标不同。Bagging的核心目标是降低模型的方差,通过多个独立基学习器的预测结果平均,抵消单个基学习器的随机波动,因此适合降低过拟合风险;Boosting的核心目标是降低模型的偏差,通过不断拟合前序基学习器的残差,逐步提升整体模型的拟合能力,因此适合提升模型对复杂数据的拟合效果。论据:随机森林的基学习器通常是深度较大的决策树,这类单树的特点是低偏差、高方差,很容易过拟合,通过Bagging集成多棵树之后,方差被大幅降低,泛化能力明显提升;AdaBoost的基学习器通常是深度很浅的决策树桩,这类单树的特点是低方差、高偏差,拟合能力弱,通过Boosting集成之后,偏差被大幅降低,整体拟合能力明显提升。适用场景举例:随机森林适合数据维度高、噪声多、对训练速度有要求的场景,比如金融风控的欺诈识别场景,数据包含大量高维特征和噪声,随机森林的抗噪能力强、并行训练速度快、泛化能力好,非常适配这类场景;AdaBoost适合样本量不大、样本区分难度高的场景,比如早期的人脸检测应用,AdaBoost可以通过串行训练逐步聚焦难区分的人脸和非人脸样本,用较低的计算成本获得较高的检测准确率。结论:Bagging和Boosting各有优劣,没有绝对的好坏之分,需要根据任务的特点、数据情况、训练效率要求选择合适的集成方法,也可以结合两者的优势构建更复杂的集成模型,进一步提升效果。结合具体案例,论述机器学习项目落地过程中需要注意的常见问题和规避方法。答案:机器学习项目从算法开发到上线落地需要经过多个环节,很容易出现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论