版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
算法工程师面试
核心考点笔记:模型评估与特征工程文档类型:面试核心考点笔记/知识手册
适用对象:正在备战互联网一线大厂(字节跳动、阿里巴巴、腾讯、美团等)、人工智能企业以及金融科技公司算法工程师岗位(校招/社招)的求职者。尤其适合希望系统性夯实机器学习基础、攻克面试中模型评估与特征工程两大高频考点的同学。
核心承诺:核心考点精讲:系统梳理模型评估与特征工程两大模块,共计20个高频核心考点。每个考点均包含“考点精讲”“面试常见追问”“考场应对策略”与“记忆口诀”,提供可直接用于面试陈述的饱满内容。配套基础自测题:提供30道精选基础自测题,涵盖10道单项选择题、10道多项选择题、5道判断题与5道简答题,所有题目均配有完整解析与答案。原子化展开,无任何省略。配套工具模板:提供1份“面试考点掌握度自检清单”工具模板,帮助你在面试前系统化查漏补缺。常见误区与避坑指南:系统总结12条在模型评估与特征工程方面的高频错误与失分点,并给出正确的应对策略。附录:提供“核心评估指标公式速查表”和“特征工程方法选择决策树”,以及通用学习资源路径指引。摘要本书是针对互联网大厂算法工程师面试中“模型评估”与“特征工程”两大核心知识板块的专题考点笔记。全书以面试为导向,系统拆解了20个最高频的考点,包括混淆矩阵、精确率与召回率、ROC-AUC、PR曲线、回归与聚类评估、交叉验证,以及缺失值处理、特征缩放、编码、特征选择、降维等。每个考点均提供精讲、面试追问与应对策略,并配有朗朗上口的记忆口诀。为强化实战,书中提供了30道配套基础自测题(10单选+10多选+5判断+5简答),每题均附完整解析。此外,还包含1份面试考点自检清单工具模板、12条常见误区与避坑指南,以及评估指标速查表和特征工程决策树等附录内容。使用说明与学习目标使用说明地毯式阅读,建立体系:按章节顺序通读“模型评估核心考点”与“特征工程核心考点”。阅读每个考点时,先用纸笔默写核心公式,再对照本书精讲加深理解。口头追问练习:每个考点后的“面试常见追问”是模拟真实面试场景,请务必遮住答案,尝试用自己的语言流畅回答,直到能脱口而出为止。自测与查漏补缺:独立完成“配套基础自测题”中的所有题目,做完后逐题对照解析分析错误原因,并回到对应考点进行复习。利用工具模板自检:使用“面试考点掌握度自检清单”逐项打勾,标记自己的薄弱环节,进行针对性强化。避坑内化:在模拟面试前反复阅读“常见误区与避坑指南”,将12条典型错误牢记于心,避免在实战中犯低级错误。学习目标公式脱口而出:能准确无误地写出精确率、召回率、F1-Score、AUC、MSE、轮廓系数等核心指标的公式,并清晰解释其物理意义。方法选型有据:面对具体场景,能快速说出应选择哪种评估指标、哪种特征工程方法,并能给出令人信服的理由。面试对答如流:对于“AUC为什么对类别不平衡不敏感?”“为什么要做归一化?”等经典问题,能用结构化、逻辑严密的方式进行回答。自测高分通过:完成全部30道自测题,准确率达到90%以上,确保基础知识点无盲区。适用人群与阅读路径建议适用人群现状与痛点优先级阅读路径核心行动指示即将面试的校招生对评估指标和特征工程有理论了解,但容易混淆,无法在面试中清晰表达。第一章全部→第二章全部→第三章自测题(必做)→第四章工具模板(自检勾选)→第五章避坑指南务必手写每个公式,并能用一句话讲出它的使用场景。例如:“当正负样本极不平衡时,我更关注PR曲线而不是ROC曲线。”有经验的社招工程师实践丰富但理论基础可能有所生疏,面试时容易被问倒细节。第一章1.3、1.4、1.7(ROC-AUC、PR、聚类评估)→第二章2.2、2.7-2.10(特征选择、降维)→快速过一遍自测题查漏重点回顾特征工程中各类方法的优缺点和适用条件,以及多分类问题中micro/macro平均的区别。跨领域转行者缺乏系统的机器学习项目背景,对特征工程只有模糊概念。第一章1.1-1.5(分类评估基础)→第二章2.1-2.10(全面阅读,并配合Python实践)→第三章自测题(反复练习)必须动手写代码实现一遍标准化、独热编码、特征选择等操作,并结合一个Kaggle入门项目加深理解。临考冲刺者时间紧张,需要最核心的考点速记。第一章1.1-1.4、1.8→第二章2.2、2.5、2.7-2.10→附录速查表→第五章避坑指南直接记忆附录的公式速查表和特征工程决策树。对着工具模板自检清单,快速过一遍,标记出说不清楚的点马上回头看精讲。第一章模型评估核心考点1.1混淆矩阵与准确率考点精讲混淆矩阵是分类模型评估的基石,是一个2×2的矩阵(二分类),用于直观展示模型预测结果与真实标签的对应关系。它的四个象限分别是:
①真正例:真实为正类且被预测为正类的样本,数量记为TP。
②假正例:真实为负类但被预测为正类的样本,数量记为FP。
③假负例:真实为正类但被预测为负类的样本,数量记为FN。
④准确率(Accuracy)是最直观的指标,计算公式为Accuracy=TP面试常见追问①请画出二分类混淆矩阵,并写出准确率公式。
②准确率在什么情况下会失效?为什么?
③除了准确率,你还知道哪些可以从混淆矩阵中直接导出的指标?考场应对策略①按上述四象限画出矩阵并写公式即可。
②当正负样本比例严重失衡时,高准确率可能完全由模型偏向多数类产生。因为TN项会主导计算,无法反映对少数类的识别能力。此时应使用精确率、召回率、F1或AUC等指标。
③精确率P=TPTP+FP记忆口诀:混淆矩阵四象限,准确率看整体;样本失衡它失效,查准查全要登场。1.2精确率、召回率与F1-Score考点精讲精确率和召回率是一对“相爱相杀”的指标,它们从不同角度衡量模型的性能。
精确率又名查准率,回答的是“模型预测为正的样本中有多少真的是正例”,公式为Precision=TPTP+F这两个指标通常此消彼长。调和这两个指标的工具是F1-Score,它是精确率和召回率的调和平均数:F1=面试常见追问①为什么使用调和平均数而不是算术平均数作为F1?
②在什么场景下,你更看重精确率?什么场景下更看重召回率?
③对于多分类问题,什么是macroF1和microF1?区别是什么?考场应对策略①调和平均数对极小值更敏感。如果一个模型P=1.0,R=0.01,算术平均为0.505,看上去还行,但实际极差。调和平均2*(1*0.01)/(1.01记忆口诀:查准不冤枉好人(精确率),查全不放过坏人(召回率),F1平衡两难全。1.3ROC曲线与AUC考点精讲ROC曲线全称是“受试者工作特征曲线”,是评估二分类模型性能的重要工具。它以真正例率为纵轴,假正例率为横轴。其中:
真正例率TPR=TPTP+FROC曲线的绘制方法:将模型对所有样本的预测概率(或得分)从高到低排序,依次将每个得分作为阈值。当阈值最大时,所有样本都判为负,(TPR=0,FPR=0);阈值最小时,所有样本都判为正,(TPR=1,FPR=1)。连接所有点即得ROC曲线。AUC是ROC曲线下的面积,取值范围为[0.5,1.0]。AUC有一个极佳的概率解释:随机抽取一个正样本和一个负样本,模型给正样本的预测分数大于负样本的分数的概率,就等于AUC值。AUC最大的优点是在一定程度上对类别不平衡不敏感,因为TPR和FPR都仅在自己类别内部做标准化。面试常见追问①详细推导AUC的概率含义。
②AUC对类别不平衡不敏感的原因是什么?
③在样本极不平衡时,为什么有时候仍要慎用AUC?考场应对策略①假设有M个正样本,N个负样本。将所有预测分数排序。AUC等于i∈posranki−M记忆口诀:ROC看排序,AUC比大小,正负平衡不受扰;极端情况看PR,精确召回更可靠。1.4PR曲线考点精讲PR曲线以召回率为横轴,精确率为纵轴,连接不同阈值下的(P,R)点形成。它完全聚焦于对正类的预测表现,完全不关心真负例TN。在PR曲线中,一个好的模型应该尽可能向右上角凸出。PR曲线下的面积平均精确率也是一个常用的综合指标。比较不同模型的PR曲线时,如果一个模型的曲线完全包住另一个,则前者更优。如果交叉,常使用F1-Score或平衡点(即P=R的点)来比较。PR曲线与ROC曲线的选择:当正负样本极度不平衡时,ROC曲线往往会过于乐观,因为FPR的分母(N)极大,即使许多负样本被误判,FPR的变化依然很小。而PR曲线会直接因为FP增多而令精确率暴跌,更真实地反映出模型在少数类上的灾难性表现。因此,在欺诈检测、罕见病诊断等场景,面试官更愿意听到你优先使用PR曲线。面试常见追问①请画出PR曲线的形态,并解释为什么它会呈现锯齿状下降。
②ROC曲线和PR曲线,在什么样的业务场景下你会分别选它们?
③如何计算PR曲线下的面积?考场应对策略①通常情况下,随着阈值降低,R增加,P会震荡下降,所以整体呈下降趋势。锯齿是因为随着阈值变化,每增加一个新样本进入预测为正的集合,如果它是TP,则P上升;如果是FP,则P下降。所以曲线不会平滑。
②如果业务关心的是“所有样本的排序质量”,比如广告点击率预估,ROC是好的选择。如果业务极其关心“找出那一小撮正样本的能力”,比如寻找潜在VIP客户、欺诈交易检测,PR曲线是更合适的选择。
③可使用平均精确率,即对每个新的召回率点上的精确率进行插值求和。在scikit-learn等库中有对应实现。记忆口诀:正类稀少用PR,精确召回捉得牢;分母不带负类玩,假正一多P就倒。1.5对数损失考点精讲对数损失,又称对数似然损失或交叉熵损失,是评估分类模型(尤其是输出概率的模型)的利器。它不仅关心分类是否正确,还非常关心预测的置信度。其公式为:L其中yi是真实标签(0或1),pi对数损失函数对“信心满满但犯下大错”的样本惩罚极重。比如真实标签是1,但模型预测概率仅为0.01,那么−log面试常见追问①为什么对数损失可以作为概率输出的评估标准?
②如果一个模型在准确率上胜过另一个,但对数损失更差,这说明了什么?
③多分类问题下的对数损失如何表达?考场应对策略①对数损失本质上就是负对数似然,它直接衡量了模型对真实数据的拟合程度。最小化对数损失等价于最大化似然,它具有严格的概率理论支撑,直接衡量概率质量。
②这说明前者虽然蒙对了更多答案,但其输出的概率校准很差,信心过度或者信心不足。在某些需要概率输出的业务中(如计算期望收益),后者可能是更优的模型。
③多分类的交叉熵损失为−1Ni记忆口诀:对数损失看概率,分对还要有信心,一旦分错概率低,惩罚重得不留情。1.6回归评估指标(MSE、RMSE、MAE、R-squared)考点精讲回归问题衡量预测值与真实值的偏差,常用指标有四个。
①均方误差:MSE=1N∑(yi−yi)2,对所有误差平方后平均,对大误差惩罚严重,对离群点敏感。
②均方根误差:RMSE=MS面试常见追问①MSE和MAE各自的优缺点是什么?梯度下降时会有什么影响?
②R2可以为负吗?何时为负?
③考场应对策略①MSE处处可导,梯度随误差线性增长,利于梯度下降收敛,但对异常值敏感。MAE在0点不可导,梯度恒为1或-1,训练末期可能震荡,但对异常值鲁棒。实践中可以使用Huber损失结合两者优点。
②可以。当模型预测任意一组值,只要它的残差平方和大于直接使用均值作为预测的总平方和时,R2就为负。这表示模型拟合效果极差。
③在损失函数层面,我会选择使用Huber记忆口诀:平方MSE怕异常,绝对MAE不怕抗,R方一比看拟合,负值不如去猜响。1.7聚类评估指标(轮廓系数、兰德指数等)考点精讲聚类是无监督学习,评估尤为困难。常见指标分为内部指标和外部指标。
内部指标不依赖真实标签。最经典的是轮廓系数,对每个样本,设a为与同簇其他样本的平均距离(凝聚度),b为与最近异簇所有样本的平均距离(分离度)。该样本的轮廓系数s=b−amax(a,b)面试常见追问①轮廓系数接近0、负值分别代表什么?
②内部指标和外部指标的应用场景有何不同?
③DBSCAN这种基于密度的聚类,适合用轮廓系数评估吗?考场应对策略①接近0表示样本处于两个簇的边界,区分度不高。负值意味着a>b,说明样本距同簇平均距离比距异簇还远,大概率聚类分配有误。
②内部指标用于无真实标签时,进行模型选择(如选K-Means的K值)。外部指标用于有标签的数据集上,衡量聚类算法恢复真实类别的能力,多用于算法比较。
记忆口诀:轮廓系数看内聚外分,近一好来负一糟;外部评价看兰德,有真标签用得着。1.8过拟合与欠拟合的判断(学习曲线与验证集)考点精讲判断模型过拟合还是欠拟合,不能靠猜,要看学习曲线和验证集误差。
欠拟合的特征是:训练误差和验证误差都很大,而且两者接近。这表示模型太简单,根本学不会。解决办法是增加模型复杂度、增加特征或减少正则化。
过拟合的特征是:训练误差极低,但验证误差比训练误差大很多,且验证误差开始回升。这表示模型死记硬背了训练集。解决办法是增加数据、减少模型复杂度、增加正则化、Dropout、早停等。最常用的方法是画出训练集和验证集随训练迭代次数或模型复杂度变化的误差曲线。当验证误差降到最低点并开始回升时,那个点就是过拟合的起点。面试常见追问①画出三种典型的学习曲线图:欠拟合、过拟合、刚好。
②早停法是什么?如何实现?
③交叉验证如何帮助我们判断过拟合?考场应对策略①口头描述即可:欠拟合是两条误差线都很高并且贴得很近,甚至训练误差略高;过拟合是训练误差很低且持续下降,验证误差在某点后开始上升,两条线开口越来越大。
②早停法是在训练时每个epoch(或若干步)计算一次验证误差,当验证误差连续N次未创下新低时停止训练,回退到最低误差的模型参数。这是防止过拟合的最廉价且有效的方法。
③通过K折交叉验证,我们可以观察每一折的验证误差。如果各折验证误差的方差很大,说明模型对不同的数据划分很敏感,可能稳定性差,这通常是过拟合的又一信号。记忆口诀:两低同高为欠拟合,一低一高口大开,这是过拟合在作怪,交叉验证来把关。1.9交叉验证考点精讲交叉验证是一种评估模型泛化能力和进行模型选择的统计方法。核心思想是将数据反复切分为训练集和验证集,多次训练和评估,取平均误差作为最终评价。最常用的是K折交叉验证:将数据集随机等分为K份,每次取其中K-1份作为训练集,剩下1份作为验证集,重复K次。最终的误差为这K次评估的平均值。K通常取5或10。
它的变体有:
①留一法:每次留一个样本做验证,其余训练,计算代价极高,适用于极小的数据集。
②分层K折:在划分时保持每折中各类别比例与原始数据一致,专用于分类问题的不平衡数据。
③时间序列交叉验证:对于时间序列数据,不能随机打乱,必须按时间顺序切分,用过去数据预测未来。面试常见追问①为什么推荐使用5折或10折交叉验证,而不是留一法?
②交叉验证和留出法(Hold-out)相比的优劣?
③交叉验证计算量过大时有什么替代方案?考场应对策略①留一法偏差极低,但方差极大,因为每次训练的数据几乎相同,验证集只有一个样本,评估结果会非常不稳定。而且对于大数据集,计算完全不可接受。5-10折在偏差和方差之间获得了很好的平衡。
②留出法简单快速,但评估结果受一次随机划分的影响很大,尤其数据集小的时候,结论不可靠。交叉验证通过多次平均,使评估结果更稳定、可靠,并能充分利用数据。
③如果数据量极大,做10折交叉验证仍然代价高昂,可以降低折数(如3折),或者进行多次留出法取平均。记忆口诀:数据分K份,轮流做验证,平均更稳定,五到十折佳。1.10偏差与方差考点精讲本考点在深度理解过拟合与欠拟合的数学基础上极为重要。偏差衡量模型预测的期望与真实值的差距,方差衡量模型对不同训练集的预测变动。我们希望低偏差和低方差,但二者常相互制约。偏差-方差分解公式为Error=面试常见追问①如何在训练时监控偏差和方差?
②集成学习中的Bagging和Boosting分别主要降低什么?考场应对策略①高偏差表现为训练误差和测试误差都很高;高方差表现为训练误差低、测试误差高。因此通过对比训练集和测试集的差距就能定性判断。
②Bagging通过并行训练多个独立弱学习器降低方差,代表为随机森林;Boosting通过串行拟合残差降低偏差,代表为XGBoost。记忆口诀:偏差大是学不会,方差大是不稳定;Bagging降方Boosting降偏,对症下药才聪明。本章小结第一章覆盖了所有分类、回归和聚类评估的核心考点。请务必做到:能默写混淆矩阵、P、R、F1、AUC的公式及其变体。清晰阐述ROC和PR曲线的区别,并能用“类别不平衡”这一核心场景进行决策。理解过拟合与欠拟合的根本原因和判断方法,能以偏差-方差框架进行解释。熟练掌握交叉验证原理并知晓其应用价值。第二章特征工程核心考点2.1数据清洗(缺失值与异常值处理)考点精讲特征工程的第一步,也是决定模型上限的基础。
缺失值处理有三种主流方法:最简单的是直接删除含缺失值的样本或特征,但这会导致信息丢失,适用于缺失比例极低的情况;最常用的是填充,连续值可用均值、中位数或模型预测填充,离散值可用众数或新设一个“未知”类别;第三种是不处理,但部分模型(如XGBoost)可自动处理缺失值。
异常值处理:可通过箱线图、3-sigma原则、孤立森林等进行检测。处理方式包括删除、视为缺失值填充、盖帽法(将异常值替换为上下边界值)、或使用对异常值鲁棒的模型(如树模型)。面试常见追问①为什么在缺失值处理中,用中位数填充比均值更好?
②孤立森林检测异常值的原理是什么?
③在什么情况下,你选择保留异常值而不是删除它们?考场应对策略①均值对异常值非常敏感,如果数据中混有极端值,均值会被拉偏,导致填充值失去代表性。中位数不受极端值影响,更稳健。
②孤立森林的思想是异常点更“孤单”,通过随机选择特征和切分点,构造一棵棵iTree,异常点在很短的几次切分后就会被孤立到叶子节点。平均路径长度很短的点即被视为异常。
③如果异常值是由真实的稀有但合理的事件产生的(如双十一当天的交易额),它们是重要的信号,必须保留。这时应使用树模型等鲁棒算法,而不是删除。记忆口诀:缺失可删可补可放,异常检测边界框;均值怕偏中位稳,业务异常留作证。2.2特征归一化与标准化考点精讲不同特征往往量纲不一,比如年龄特征在0-100,收入特征在数千至数十万。若不处理,依赖距离或梯度的模型(如KNN、SVM、神经网络、逻辑回归)会被大数值特征主导。但对于树模型(决策树、随机森林、XGBoost)则无需特征缩放。最常见的两种缩放方法:
①最小-最大归一化:x′=x−xminxm面试常见追问①为什么树模型不需要做特征缩放?
②对测试集做归一化时,用测试集的均值和方差可以吗?为什么?
③请详细讲述一下标准化和归一化的区别及选用原则。考场应对策略①树模型的分裂只依赖于特征的相对顺序,如“年龄>30?”,数值放缩不改变其排序,也不改变信息增益或基尼系数的计算。所以完全无需缩放。
②绝对不可以。必须使用在训练集上计算得到的min/max或μ/σ来变换测试集,以保证数据分布的一致性,否则会发生数据泄露。
③当数据有严格的边界要求(如图像像素0-255),用归一化;否则推荐标准化,因为它在有异常值时更稳定。如果使用假设数据服从高斯分布的模型(如线性判别分析),标准化更适宜。记忆口诀:KNNSVM神经网络,缩放必不可少;树模型就任性,排序在手不用调;训练集上算均方,测试集上照搬套。2.3离散特征编码(独热编码与标签编码)考点精讲模型只能处理数值,离散特征必须编码。
标签编码:将类别直接映射为0,1,2...的数字。它为类别赋予了顺序和大小的含义,适用于有序类别(如小学、中学、大学)。如果用于无序类别(如国家、颜色),会引入虚假的顺序关系,对逻辑回归等线性模型产生误导。
独热编码:为每个类别创建一个新的0/1特征,从根本上消除了顺序问题。缺点是当类别数过多时,特征维度会急剧膨胀,引发维度灾难。面试常见追问①什么情况下你会在树模型中使用标签编码而非独热编码?
②当类别特征基数高达几万(如用户ID),独热编码显然不现实,怎么办?
③解释一下目标编码的原理及其风险。考场应对策略①树模型能够处理无序的数值,使用标签编码不会影响其分裂,且能避免独热编码带来的巨大稀疏性和计算量。但在类别数较少时,两种都可以。
②可采用特征哈希(HashingTrick),将高基数类别映射到固定维度的向量,但可能产生哈希冲突;或者使用目标编码、均值编码;也可以在深度学习中使用Embedding层将高基数特征转换为稠密向量。
③目标编码是用该类别对应目标变量的平均值(或其他统计量)来替换原类别。它能捕捉类别与目标的关系,但极易导致过拟合和数据泄露。必须使用正则化或交叉验证的方式计算编码值。记忆口诀:有序标签无序热,树模用签也无错;高基类别别乱扩,哈希目标Embedding多。2.4特征分箱(离散化)考点精讲特征分箱是将连续特征离散化为区间段的过程。好处有:可以引入非线性,尤其对线性模型十分友好;可以处理异常值和缺失值;可以增强模型的可解释性,比如“年龄在20-30岁”比“年龄=28.5”更易理解。分箱方法分为无监督和有监督。无监督包括等宽分箱(区间宽度一致)和等频分箱(每个箱内样本数一致)。有监督包括利用卡方值、决策树等,使分箱后对目标变量的区分度最大。在工业界,等频分箱和有监督卡方分箱应用更广。面试常见追问①分箱后,特征会损失什么?有什么坏处?
②为什么做评分卡时一定要进行特征分箱?
③在什么情况下,你决定不对特征进行分箱?考场应对策略①分箱会损失特征的细节信息,可能降低模型的性能天花板。而且引入了分箱策略这个超参数,增加了调优复杂度。
②在金融风控的评分卡模型中,分箱是必须的,因为要求特征与目标之间呈单调性关系,且必须具有良好的可解释性,计算WOE和IV值也需要基于分箱。
③当使用树模型、深度学习等本身就具备强大非线性拟合能力的模型时,大部分情况下不需要显式分箱,因为它们能在训练过程中自己学到最优的切分点。除非业务上有极强的可解释性要求。记忆口诀:连续离散化,模型非线性;单调可解释,风控最爱它。2.5文本特征提取(TF-IDF与词向量)考点精讲在面试中,文本特征提取是必考项。
词袋模型:最基本的文本向量化,忽略词序和语法,构建词典后统计每个词的出现次数。缺点是完全没考虑词的重要性。
TF-IDF:在词袋模型上的改进,由词频(TF)和逆文档频率(IDF)两部分组成。TF衡量一个词在文档中的频率,IDF衡量一个词的普遍重要性,IDF(w)=log面试常见追问①TF-IDF为什么要在IDF分母加1?
②Word2Vec的两个模型CBOW和Skip-gram有什么区别?哪个训练更快?
③如何对一篇文章提取特征,输入给一个分类模型?请设计完整的流程。考场应对策略①防止某个词在所有文档中都未出现时,分母为0导致计算错误。加1是拉普拉斯平滑的一种体现。
②CBOW是根据上下文预测中心词,训练快;Skip-gram是根据中心词预测上下文,对低频词更友好,词向量质量通常更高。
③首先进行文本清洗和分词,去除停用词。然后可选使用TF-IDF或对每个词取预训练词向量并求平均(或加权平均)作为文档的向量表示,最后接入分类模型。如果是深度学习方案,可使用LSTM或Transformer直接输入词序列。记忆口诀:词袋只看有没无,TF-IDF加权重;Word2Vec能学语义,CBOW快,Skip-gram好。2.6特征构造(组合特征与统计特征)考点精讲特征构造是算法工程师创造力的体现。通过对原始特征进行“加减乘除”生成新特征,可以挖掘特征间的深层联系。常见的构造方法:
①简单四则运算:如BMI=体重/(身高^2),客单价=销售额/订单数。
②统计衍生:基于用户ID构造每个用户的点击次数、购买次数、最后一次登录距今时间等统计量。
③时间特征分解:从时间戳中提取年份、月份、星期几、是否周末、小时等循环特征。
④交叉特征:将类别A和类别B拼接成一个新特征,如“性别_年龄区间”。
在深度学习中,特征构造很大程度上被模型自动完成,但在传统机器学习(尤其是比赛)中仍是决定胜负的关键。面试常见追问①特征构造时如何防止数据泄露?
②举例说明什么是对数变换和分位数变换,它们在特征构造中的作用。
③当你设计出成百上千个新特征后,如何进行筛选?考场应对策略①所有统计特征(如平均值、频率)必须严格在训练集中计算,然后映射到验证集和测试集。绝不能使用全量数据或未来信息。
②对数变换x′=log(x记忆口诀:加减乘除组合强,时间统计不能忘;构造完成要筛选,泄露红线记心上。2.7特征选择-过滤式(方差、相关系数、卡方检验)考点精讲过滤式特征选择独立于任何模型,先对特征打分,再选择高分特征。优点是非常快速,缺点是可能选出一批“各自为战”的好特征,忽略了特征间的组合效果。常用方法:
①方差选择:如果某一特征的方差极低,说明样本在该特征上几乎无差异,对目标变量的区分可能毫无帮助,直接剔除。
②皮尔逊相关系数:衡量特征与目标变量(连续)之间的线性相关性,绝对值越大越重要。只能捕捉线性关系。
③卡方检验:用于检验两个分类变量之间的独立性。通过计算观测频率和期望频率的差异,得出卡方值,值越大说明特征与目标关联越紧密。适用于分类问题。
④互信息法:可以捕捉非线性关系,衡量特征与目标变量共享的信息量,既可用于分类也可用于回归。面试常见追问①为什么方差小的特征要剔除?剔除前需要考虑什么?
②皮尔逊相关系数和斯皮尔曼相关系数有什么区别?
③卡方检验的原理是什么?写出它的计算公式。考场应对策略①如果一个特征99%的样本取值都一样,方差接近0,它传递的信息极少,对模型几乎没有区分度。但需注意,如果这个特征在某些特殊子群中有强信号,提前剔除可能损失信息,应结合业务经验判断。
②皮尔逊衡量的是线性相关,要求数据服从正态分布且等方差。斯皮尔曼则是基于秩的相关性,属于非参数方法,可以衡量单调关系,对异常值更稳健。
③卡方统计量为χ2记忆口诀:过滤选择不用模型,方差高低看差异;皮尔逊线性卡方类,互信息能抓非线性。2.8特征选择-包裹式(RFE)考点精讲包裹式特征选择把最终要使用的模型“包裹”在选择过程中。它以模型的性能作为特征子集的评价标准,直接选择出能使模型性能最优的特征组合。最典型的算法是递归特征消除:使用所有特征训练一个模型(如逻辑回归、SVM)。根据模型得到的特征权重或重要性,移除最不重要的特征。用剩余特征重新训练模型。重复上述过程,直到特征数量达到预设目标。
RFE考虑到了特征间的相互作用,选出的特征子集性能通常优于过滤式,但计算代价极高,因为需要反复训练模型。面试常见追问①RFE的优缺点分别是什么?
②如果使用随机森林做RFE,和用逻辑回归做RFE,结果会一样吗?为什么?
③RFE在计算特征重要性时,如何确定每次剔除多少个特征?考场应对策略①优点是直接面向优化目标,性能通常更好。缺点是计算成本高昂,特征很多时几乎不可行;且容易过拟合。
②不一样。逻辑回归给出的特征重要性是基于线性可分假设的,而随机森林给出的特征重要性基于树模型的分裂增益,能捕捉非线性。所以两套评价标准导出的特征顺序会不同。
③如果特征数量庞大,每次可以剔除多个(如10%),以加快速度;当特征数量逐渐减少,为了精细控制,可以每次只剔除一个。在具体实现中,很多库提供了step参数控制。记忆口诀:包裹选择反复跑,模型自己当裁判;效果虽好计算高,递归消除是代表。2.9特征选择-嵌入式(L1正则与树模型重要性)考点精讲嵌入式特征选择是在模型训练过程中“自动”完成特征选择,兼顾了包裹式的性能与过滤式的速度,是实践中的首选。最常见的两种嵌入式方法:
①带L1正则化的线性模型(如Lasso回归):L1正则化有产生稀疏解的天然特性。训练过程中,不重要的特征权重会被直接压缩为0,由此实现了特征选择。而带L2正则化的Ridge回归只会让权重趋于很小的值,不会为0。
②基于树模型的特征重要性:在决策树、随机森林、XGBoost等训练时,会输出每个特征在分裂时带来的平均增益或作为分裂节点的次数。这些信息天然构成了特征重要性排序。通常只需设置一个阈值,剔除重要性极低的特征即可。面试常见追问①Lasso回归为什么能进行特征选择,而Ridge回归不能?用L1和L2的几何/梯度解释。
②树模型的特征重要性有什么缺点?
③如果在XGBoost中,高度相关的两个特征A和B,它们的重要性会如何分布?考场应对策略①L1的约束域是一个菱形,最优解极易落在坐标轴上,导致某些特征权重为0。L2的约束域是圆形,解通常不在坐标轴上。从梯度看,L1的惩罚项梯度为常数,能将权重推至0。
②树模型的特征重要性偏向于那些取值多、或者与目标变量有更强非线性关系但可能只是数据噪声的特征。此外,如果存在高度相关的特征,重要性会被它们摊薄,导致任何一个都显得不重要。
③如果A和B高度相关,在分裂时模型可能会随机或交替选择它们,导致A和B的重要性都只有应有的一半,从而误导出两者都不重要的结论。此时应先做相关性分析,剔除其中之一。记忆口诀:嵌入选择边训边筛,Lasso能归零树给分;多重共线要小心,重要被摊看不清。2.10降维(PCA与LDA)考点精讲降维不仅是应对维度灾难、防止过拟合的利器,也是数据可视化的好帮手。主成分分析是一种无监督的线性降维方法。它通过线性变换,将原始数据投影到一系列两两正交的方向上,这些方向就是主成分。第一个主成分方向使得数据投影后的方差最大,第二个主成分方向与第一个正交且方差次之,以此类推。PCA不利用任何标签信息,只关注保留数据的最大方差信息。线性判别分析是一种有监督的降维方法。它的目标是寻找一个投影方向,使得投影后,同一类别的数据点尽可能接近(类内散度小),不同类别的数据中心点尽可能远离(类间散度大)。LDA最多只能降到类别数K-1维。面试常见追问①PCA的数学推导核心是什么?主成分和特征值、特征向量的关系?
②PCA和LDA的本质区别是什么?在什么情况下选择LDA?
③原始数据经过PCA降维后,新的特征失去了物理含义,这给解释带来困难。你怎么向老板解释一个PCA组件?考场应对策略①PCA的实质是对协方差矩阵进行特征值分解。协方差矩阵的特征向量就是主成分的方向,对应的特征值就是数据在该方向上的方差。我们选择最大的前k个特征值对应的特征向量,构成投影矩阵。
②PCA无监督,最大化方差;LDA有监督,最大化类间差异。当有明确分类标签,且数据大致服从高斯分布时,LDA往往能给出比PCA更有判别力的降维结果。
③我会分析每个主成分的载荷因子,即它与原始特征的相关系数。比如“第一主成分与‘总消费金额’和‘购买频次’高度正相关,可以理解为用户的‘消费能力’维度”。虽然不完全准确,但在业务层面提供了近似解释。记忆口诀:PCA只看方差大,无师自通来降维;LDA有师求分类,类内聚来类间飞。本章小结本章系统梳理了特征工程从清洗到降维的全流程。你必须能够:解释标准化和归一化的区别,并清楚知道谁不需要缩放。为高基数类别特征选择合适的编码策略(如目标编码、Embedding)。对比过滤式、包裹式、嵌入式特征选择的优缺点,并能结合Lasso和树模型阐述。清晰阐述PCA和LDA的目标函数区别。第三章配套基础自测题(共30道)使用说明:本自测题共30道,涵盖单选、多选、判断和简答题。请独立完成,完成后对照答案与解析进行复盘。一、单项选择题(共10题,每题3分)第1题:在正负样本极不平衡的分类问题中(正样本占1%),以下哪个评估指标最能真实反映模型对正样本的识别能力?
A.准确率
B.精确率
C.召回率
D.ROC-AUC第2题:关于L1和L2正则化,以下描述正确的是:
A.L1正则化会产生稀疏解,L2不会
B.L2正则化更容易产生稀疏解
C.两者都会产生稀疏解
D.两者都不会产生稀疏解第3题:以下哪个模型不需要在训练前对特征进行标准化?
A.支持向量机
B.决策树
C.K近邻
D.逻辑回归第4题:在对文本数据进行特征提取时,TF-IDF主要解决了词袋模型中的什么问题?
A.未考虑词序
B.未考虑词的重要性差异
C.未进行降维
D.未处理停用词第5题:在评估聚类效果时,如果我们没有真实标签,最适合使用以下哪个指标?
A.调整兰德指数
B.轮廓系数
C.F1-Score
D.对数损失第6题:在解决回归问题中,如果数据存在较多异常值,选择哪个损失函数训练模型通常更鲁棒?
A.均方误差
B.均方根误差
C.平均绝对误差
D.决定系数第7题:以下哪种特征选择方法不需要反复训练模型?
A.递归特征消除
B.基于L1正则化的嵌入式方法
C.基于皮尔逊相关系数的过滤式方法
D.包裹式方法第8题:PCA主成分分析中,选择前k个主成分的依据通常是:
A.使类间散度最大
B.使原始数据重构误差最小
C.保留最大的方差比例
D.使分类准确率最高第9题:在交叉验证中,分层K折主要用于解决什么问题?
A.减小计算量
B.保持每折中类别比例与原始数据一致
C.处理时间序列数据
D.提高训练速度第10题:关于ROC曲线和PR曲线,下列说法错误的是:
A.ROC曲线以FPR为横轴,TPR为纵轴
B.当正负样本极不平衡时,PR曲线比ROC曲线更能反映模型真实性能
C.AUC值越大代表模型性能越好
D.PR曲线完全不关心真负例的表现二、多项选择题(共10题,每题4分,多选、少选均不得分)第11题:以下哪些是处理缺失值的合理方法?
A.用中位数填充缺失值
B.直接删除含有缺失值的行
C.将缺失值单独视为一种特殊类别
D.使用随机森林预测缺失值进行填充
E.不做任何处理第12题:以下关于F1-Score的说法中,正确的有:
A.F1是精确率和召回率的算术平均
B.F1是精确率和召回率的调和平均
C.F1取值越接近1,模型性能越好
D.F1可以同时兼顾精确率和召回率
E.多分类问题的MicroF1会受小类别影响很大第13题:以下哪些方法可用于特征选择?
A.卡方检验
B.基于随机森林的特征重要性排序
C.主成分分析
D.递归特征消除
E.计算特征与目标的皮尔逊相关系数第14题:在对类别特征进行编码时,下列描述正确的有:
A.标签编码适用于有序类别
B.独热编码适用于无序类别
C.树模型使用标签编码和无序类别也不会有问题
D.目标编码计算简单,无需任何防过拟合措施
E.特征哈希可以处理极高基数类别第15题:关于偏差和方差,以下理解正确的有:
A.高偏差通常意味着模型欠拟合
B.高方差通常意味着模型过拟合
C.Bagging可以降低方差
D.Boosting主要降低偏差
E.增加模型复杂度可能增加方差第16题:以下哪些手段可以有效防止过拟合?
A.增加训练数据量
B.减少模型中的神经元数量
C.使用L2正则化
D.使用早停法
E.增加模型迭代次数第17题:关于标准化和归一化,下列说法正确的有:
A.标准化是将数据变换为均值为0,方差为1的分布
B.归一化通常将数据映射到[0,1]区间
C.对测试集进行归一化时,应使用训练集的min和max
D.标准化受异常值影响比归一化小
E.树模型也需要标准化第18题:下列哪些评估指标可以直接从混淆矩阵中计算得出?
A.准确率
B.精确率
C.召回率
D.AUC
E.RMSE第19题:以下哪些是关于主成分分析的准确描述?
A.PCA是一种无监督降维方法
B.PCA通过线性变换提取主成分
C.主成分之间是正交的
D.PCA降维后的特征仍然具有原始特征的物理含义
E.第一个主成分代表原始数据方差最大的方向第20题:在使用对数损失评估模型时,下列描述正确的有:
A.它不仅考察分类是否正确,还考察预测概率的置信度
B.对数损失越小,模型越好
C.对数损失即交叉熵损失
D.对于错误分类但概率接近0.5的样本,惩罚比对概率接近0的更小
E.对数损失适用于回归问题三、判断题(共5题,每题2分)第21题:在分类问题中,如果准确率非常高,模型就一定很好。()第22题:对所有机器学习模型,在训练前都必须进行特征缩放。()第23题:留一法交叉验证的偏差通常比10折交叉验证更高。()第24题:在评估模型泛化能力时,仅使用留出法(hold-out)进行一次划分就足够了。()第25题:特征分箱(离散化)一定会导致模型性能下降。()四、简答题(共5题,每题5分)第26题:请简述AUC的含义及其在模型评估中的优缺点。第27题:什么是数据泄露?请举例说明在特征工程中如何避免数据泄露。第28题:请解释为什么在高度不平衡的分类问题中,准确率不是一个好的评估指标,并给出两个替代指标。第29题:简述PCA和LDA的主要区别。第30题:请描述你在实际项目中是如何进行特征选择的,至少要提到两种方法。参考答案与详细解析一、单项选择题第1题答案:C
解析:
A选项“准确率”:当正样本仅1%时,全猜负类准确率就高达99%,毫无意义。
B选项“精确率”:虽然重要,但只看预测为正的纯度,无法知道漏掉了多少正样本,不能全面反映识别能力。
C选项“召回率”:直接衡量在所有真实正样本中被正确找出的比例,这就是“对正样本的识别能力”的明确定义,故正确。
D选项“ROC-AUC”:在面对极其不平衡数据时,即使有大量FP,FPR变化也很小,曲线仍好看,易产生乐观评价。第2题答案:A
解析:L1正则化因其约束域为菱形,优化解易落在坐标轴,产生0权重,即稀疏解。L2约束域为圆,解为整体收缩,难以精确为0。故A正确,其余均错误。第3题答案:B
解析:决策树的分裂基于特征的排序,不受量纲影响。SVM、KNN、逻辑回归均依赖距离或梯度,特征尺度差异大会严重影响性能,必须标准化。第4题答案:B
解析:词袋模型对所有词平等看待,未区分词的重要性。TF-IDF通过TF和IDF的乘积,给常见词(如“的”“是”)赋予很低权重,给核心主题词赋予高权重,解决了重要性差异问题。选项A、C、D均非TF-IDF主要解决的问题。第5题答案:B
解析:轮廓系数是基于簇内凝聚度和簇间分离度的内部指标,无需真实标签。调整兰德指数需真实标签。F1和对数损失是分类评估指标。第6题答案:C
解析:MAE使用绝对值,对所有误差一视同仁,不受异常值平方放大效应的影响,因此鲁棒性更强。MSE和RMSE均会因平方而严重惩罚异常值。第7题答案:C
解析:过滤式方法(如相关系数)独立于模型,仅需计算得分,无需反复训练模型。RFE和包裹式需要,嵌入式虽在训练过程中完成但也需训练一次。第8题答案:C
解析:PCA的核心目标是最大化投影方差,因此选择前k个最大特征值对应的主成分,即保留了最大的方差比例。其余均不是PCA的直接标准。第9题答案:B
解析:分层K折在对数据划分时,会保持每个折中各类别的比例与原始全集一致,主要用于分类不平衡问题,防止某折完全没有少数类。A、C、D均错误。第10题答案:D解析:PR曲线基于精确率和召回率,二者均不涉及TN,因此它对真负例完全不关心。D选项说法错误。AUC确实越大越好,C正确。二、多项选择题第11题答案:ABCDE
解析:所有选项都是处理缺失值的方法。不做任何处理也是一种选择,如果后续模型能处理缺失值(如XGBoost),可以保留原始状态。因此全选。第12题答案:BCD
解析:A错,F1是调和平均。E错,MicroF1由于是全局计算,受大类别影响大;MacroF1才对小类别敏感。B、C、D正确。第13题答案:ABDE
解析:A过滤式,B嵌入式,D包裹式,E过滤式。C主成分分析是降维方法,不属于特征选择(特征选择不改变特征含义,降维会构造新特征),因此不选C。但有些分类中降维也算特征抽取,严格讲特征选择是选择原始特征子集,所以不选C。第14题答案:ABCE
解析:D错误,目标编码极易过拟合,必须使用交叉验证或平滑技术。A、B、C、E均正确。第15题答案:ABCDE
解析:全部正确。高偏差欠拟合,高方差过拟合,Bagging降方差,Boosting降偏差,增加复杂度通常增加方差。第16题答案:ABCD
解析:E增加迭代次数若不配合早停,极易导致过拟合。A、B、C、D都是有效防过拟合手段。第17题答案:ABCD
解析:E错误,树模型无需特征缩放。其他全部正确。第18题答案:ABC
解析:准确率、精确率、召回率可直接由TP、FP、FN、TN算出。AUC需要排序概率,不能仅从混淆矩阵得到。RMSE是回归指标。第19题答案:ABCE
解析:D错误,PCA降维后特征为原始特征的线性组合,失去原有物理含义。其他均对。第20题答案:ABCD
解析:E错误,对数损失适用于分类,不适用于回归。A、B、C、D均是对数损失的正确描述。三、判断题第21题答案:×
解析:在类别不平衡时,高准确率可能毫无意义,不能说明模型好。第22题答案:×
解析:树模型及其集成模型(随机森林、XGBoost)不需要特征缩放。只有依赖距离或梯度的模型需要。第23题答案:×
解析:留一法偏差低,方差高;10折偏差稍高,方差稍低。所以留一法偏差更低而非更高。第24题答案:×
解析:单次留出法结果受随机划分影响大,尤其数据量少时,不稳定。应使用交叉验证或多轮留出法取平均。第25题答案:×
解析:特征分箱可能为线性模型带来非线性能力,提升性能;但也可能损失细节降低性能。不能一概而论。四、简答题第26题答案示范:
AUC即ROC曲线下的面积,取值在0.5到1.0之间,具有直观的概率解释:它代表了随机给定一个正样本和一个负样本,模型将正样本排在负样本前面的概率。优点:①不依赖具体阈值,衡量模型的整体排序质量;②对类别不平衡相对不敏感。缺点:①在极端不平衡时依然可能过于乐观,宜结合PR曲线分析;②AUC计算的是全局排序,忽略了模型在不同区间上的表现差异,不反映精确率与召回率的具体值。第27题答案示范:
数据泄露是指模型的训练过程中,使用了本应无法在预测时获取的信息,导致线下验证分数虚高,线上效果崩盘。例如在特征工程中,若使用整个数据集的均值来填充缺失值,这个均值就包含了测试集的信息,造成泄露。正确做法是:仅使用训练集计算均值,然后应用到验证集和测试集。再比如,生成“用户总消费次数”特征时,若用全量数据统计,则包含了未来信息,也属泄露。必须保证所有特征都是依据历史数据生成。第28题答案示范:
在极度不平衡的分类问题中,准确率会因多数类的正确分类而被主导,无法有效评估对少数类的识别能力。例如正样本仅0.1%,全猜负类准确率即99.9%,模型完全无效。替代指标有:①精确率-召回率(PR)曲线及相关面积,它只关心正类,能真实反映模型对少数类的性能;②F1-Score,综合了精确率和召回率,能平衡评估;③还可以使用AUC进行排序能力评估,但需谨慎。第29题答案示范:
主要区别有三点:①监督性质:PCA是无监督的,只关注数据方差;LDA是有监督的,利用标签信息。②目标不同:PCA寻找使投影后方差最大的方向;LDA寻找使类间散度最大、类内散度最小的方向,以最大化类别可分性。③降维上限:PCA最多可降至原始维度;LDA最多降至K-1维(K为类别数)。应用场景上,PCA常用于数据探索和预处理,LDA用于追求分类判别力的场景。第30题答案示范:
在实际项目中,我的特征选择通常分为两个阶段。首先,我会采用嵌入式方法进行初步筛选。比如训练一个XGBoost模型,输出特征重要性分数,剔除掉重要性排名靠后的10%的特征。这样做速度快,并且考虑了特征间的交互。接着,我会用包裹式方法对筛选后的特征子集(数量已不多)进行精细调优,使用递归特征消除结合交叉验证,选出使验证集AUC或F1最高的最优子集。这样结合了效率与精度。第四章配套工具模板:面试考点掌握度自检清单使用指南:请逐项核对自己的掌握程度,在对应列打√或做标记。此表应至少在面试前一周和面试前一天各做一次。核心考点我能讲出核心概念(√/×)我能写出关键公式(√/×)我能说出应用场景与注意事项(√/×)我能回答面试常见追问(√/×)备考备注混淆矩阵与准确率精确率、召回率、F1ROC与AUCPR曲线对数损失回归评估指标(MSE/MAE/R²)聚类评估指标过拟合与欠拟合判断交叉验证偏差与方差缺失值与异常值处理归一化与标准化离散特征编码特征分箱文本特征提取特征构造过滤式特征选择包裹式特征选择嵌入式特征选择PCA与LDA降维第五章常见误区与避坑指南错误表现失分原因分析正确策略误区1:面试中被问到“如何评估模型”,直接回答“用准确率”。显得思维单一,不了解不同任务和分布下的指标选择,给面试官留下“只懂皮毛”的印象。分情况讨论:“这取决于问题类型和数据分布。对于分类问题,如果类别平衡,我首先看准确率和混淆矩阵;如果不平衡,我会重点看PR曲线和F1;如果更看重排序质量,我会看AUC。”误区2:混淆精确率和召回率的应用场景,认为它们差不多。无法根据业务需求选择优化的方向,缺乏业务敏感度。牢记“精确率关注误伤(FP),召回率关注漏网(FN)”。举例说明:反垃圾邮件重精确率,癌症筛查重召回率。误区3:坚持在所有数据预处理时都做标准化,包括决策树。暴露出不理解
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 战略规划采购分析解析与降低采购成本及采购谈判技巧
- 诊断学知识考试题库8(附答案)
- 2026中国科学院南海海洋研究所海洋环流动力学学科组科研助理招聘1人备考题库及参考答案详解【培优A卷】
- 宠物引流管护理
- 2026-2030中国植物胶囊行业营销动态及未来前景预测报告
- 2026-2030工程绘图纸行业市场深度调研及前景趋势与投资研究报告
- 2025年工业AR远程协助系统开发
- 2026-2030中国吸尘器电池行业销售动态与营销趋势预测研究报告
- 手术配合与沟通技巧
- 2026-2030中国无机化工催化剂市场行情监测与未来发展趋向研判研究报告
- 2026年北师大版(一起)小学英语五年级下册期末综合测试卷及答案(2套)
- 2025-2026学年北师大版八年级数学下册期末考试模拟卷(二)
- 山东大学2026年强基计划面试模拟试题及答案解析
- 2025年山西晋中市地理生物会考真题试卷+答案
- 2026春北师大版三年级下册数学期末综合练习卷含答案
- 2026年交安c试题及答案
- 重组抗破伤风毒素单克隆抗体临床应用专家共识(2026年版)
- 2025年广东东莞市地理生物会考真题试卷+答案
- GA/T 2196-2024多道心理测试单目标准绳问题测试法
- 《用估算解决问题》课件2025-2026学年人教版二年级下册数学
- 订单专员奖惩制度及流程
评论
0/150
提交评论