机器学习期末复习完全手册_第1页
机器学习期末复习完全手册_第2页
机器学习期末复习完全手册_第3页
机器学习期末复习完全手册_第4页
机器学习期末复习完全手册_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习·期末复习完全手册涵盖监督学习/无监督学习/模型评估/线性模型/决策树/SVM/集成学习等|50道选择题·可直接打印一、考试题型与分值分布(通用)题型题量分值主要考查范围策略选择题20-25题20-30分基本概念、算法优缺点、评估指标、模型比较辨析概念,记忆典型参数和特性填空题10-15题10-15分损失函数形式、正则化项、距离公式、算法步骤关键词熟记常用公式和术语判断题10题10分概念辨析:偏差与方差、过拟合与欠拟合等注意绝对化表述简答题3-4题15-20分SVM原理、集成学习思想、PCA步骤、K-means流程、偏差方差权衡分点作答,可画简图计算/推导题2-3题20-30分线性回归参数求解、决策树信息增益、贝叶斯分类、K-means聚类过程、简单神经网络前向传播写清步骤,注意公式细节二、机器学习概论速查2.1基本定义机器学习:利用数据,自动从经验中学习以改善系统性能的算法研究。核心三要素:数据、模型、优化。2.2分类类型特点典型算法监督学习有标签数据,学习输入到输出的映射线性回归、逻辑回归、SVM、决策树、神经网络无监督学习无标签,发现数据内在结构K-means、层次聚类、PCA、DBSCAN半监督学习少量标签+大量无标签自训练、协同训练强化学习智能体与环境交互,最大化累积奖励Q-learning、DQN2.3泛化能力模型在未见数据上的表现。经验误差vs.泛化误差。核心问题:过拟合(训练太好,测试差)和欠拟合(训练差,测试也差)。三、模型评估与选择速查3.1评估方法方法描述留出法划分训练集/测试集,如70%/30%交叉验证k折交叉验证(常用10折),平均评估自助法有放回采样,适合小数据集3.2性能度量(分类)指标公式说明准确率(TP+TN)/(TP+TN+FP+FN)整体正确比例精确率(Precision)TP/(TP+FP)预测为正例中真实正例比例召回率(Recall)TP/(TP+FN)真实正例中被正确预测的比例F1-score2PR/(P+R)精确率与召回率的调和平均AUCROC曲线下面积衡量模型整体排序能力3.3偏差与方差概念含义偏差模型预测的期望与真实值的偏离程度,反映拟合能力方差模型在不同训练集上的波动,反映稳定性偏差-方差权衡:简单模型高偏差低方差;复杂模型低偏差高方差。泛化误差=偏差²+方差+噪声。3.4正则化类型形式作用L1正则λ||w||₁产生稀疏解,特征选择L2正则λ||w||²₂防止过拟合,权重衰减四、线性模型速查4.1线性回归假设函数:hθ(x)=θTx

损失函数:均方误差MSE=(1/n)∑(yi−hθ(xi))²

求解:正规方程θ=(XTX)−1XTy;梯度下降迭代。4.2逻辑回归用于分类,使用Sigmoid函数:σ(z)=1/(1+e−z)

损失函数:交叉熵损失=−[ylog(ŷ)+(1−y)log(1−ŷ)]

优化:梯度下降。输出为概率,可加正则项。4.3线性判别分析(LDA)思想:将数据投影到低维空间,使同类接近、异类远离。最大化类间散度/类内散度。五、决策树速查5.1划分准则指标公式说明信息增益Gain(D,a)=H(D)−∑|Dv|/|D|·H(Dv)ID3使用,偏好取值多的属性信息增益率Gain_ratio=Gain/IV(a)C4.5使用,纠正偏好基尼指数Gini(D)=1−∑pk²CART使用,越小越纯5.2剪枝类型做法预剪枝划分前评估,若划分不提升泛化则停止后剪枝先构建完整树,再自底向上用验证集评估剪去分支六、支持向量机速查6.1基本型最大间隔分类器。优化目标:min(1/2)||w||²,约束yi(wTxi+b)≥1。6.2核函数将低维数据映射到高维,使其线性可分。核函数表达式线性核K(x,z)=xTz多项式核K(x,z)=(xTz+c)d高斯核(RBF)K(x,z)=exp(−||x−z||²/2σ²)6.3软间隔引入松弛变量ξ,允许少量错分,控制参数C:C越大越倾向硬间隔,容易过拟合。七、贝叶斯分类器速查7.1朴素贝叶斯假设特征之间独立。P(c|x)∝P(c)∏P(xi|c)。

常用:高斯朴素贝叶斯(连续特征)、多项式朴素贝叶斯(文本)、伯努利朴素贝叶斯(二值)。7.2拉普拉斯平滑防止概率为0,在分子+1,分母+类别数/特征取值数。八、集成学习速查方法代表核心思想偏差/方差Bagging随机森林自助采样,并行训练,投票平均降方差BoostingAdaBoost,GBDT,XGBoost串行训练,逐步聚焦错分样本降偏差Stacking—用元学习器组合多个基学习器—随机森林:在Bagging基础上加入随机特征选择,每个节点随机选k个特征划分。九、聚类与降维速查9.1K-means聚类步骤:①选k个中心②每个点划入最近中心簇③重新计算簇中心④迭代至收敛。

缺点:对初始值和k敏感,适用球形数据。9.2层次聚类凝聚(自底向上)或分裂(自顶向下)。距离度量:最小、最大、平均距离。9.3PCA(主成分分析)目的:降维,保留最大方差方向。步骤:中心化→计算协方差矩阵→特征值分解→取前k大特征向量投影。十、神经网络基础速查感知机→多层感知机(MLP)。激活函数:Sigmoid、Tanh、ReLU(最常用,避免梯度消失)。

前向传播:加权求和+激活。反向传播:链式求导更新参数。损失函数:交叉熵(分类)、均方误差(回归)。

常见问题:过拟合(Dropout、正则化)、梯度消失/爆炸(ReLU、BatchNorm)。十一、高频选择题题库(50题完整版)模块一:概论与评估(1-12)#题目ABCD答案1机器学习中,有标签的数据属于无监督监督强化半监督B2过拟合的原因不包括模型太复杂训练数据太少训练时间太短数据噪声大C3K折交叉验证中K通常取2510100C4F1-score是精确率与召回率的算术平均精确率与召回率的调和平均准确率AUCB5L2正则化的作用产生稀疏解防止过拟合加速收敛提高偏差B6偏差-方差分解中,泛化误差等于偏差+方差偏差²+方差偏差²+方差+噪声偏差×方差C7哪一项描述的是高方差训练误差大测试误差大但训练误差小训练和测试误差都大准确率始终1B8逻辑回归输出的值可以看作类别标签概率损失权重B9下列哪个是分类模型常用的损失函数均方误差交叉熵绝对误差HingeLossB10AUC值越接近多少表示模型越好00.51-1C11关于准确率,描述正确的是总预测正确的比例正例中的预测正确比例预测正例中真实正例比例F1A12信息增益偏向于选择取值少的属性取值多的属性连续属性标签B模块二:线性模型与决策树(13-24)#题目ABCD答案13线性回归的损失函数通常是交叉熵均方误差对数损失合页损失B14下列哪个不是梯度下降的变体批量梯度下降随机梯度下降小批量梯度下降主成分下降D15ID3决策树选择划分属性的准则是信息增益率基尼指数信息增益交叉熵C16C4.5使用哪个准则信息增益信息增益率基尼指数均方误差B17CART分类树常用信息增益信息增益率基尼指数MSEC18预剪枝相对于后剪枝的优点是泛化能力更强训练时间减少保留更多分支更不容易欠拟合B19L1正则化会产生所有权重趋近于0但不为0部分权重为0方差增大梯度消失B20线性判别分析(LDA)的目标是最大化类内散度最小化类间散度最大化类间散度/类内散度最小化重构误差C21逻辑回归的Sigmoid函数值域为[-1,1][0,1](-∞,∞)(0,1)D22关于正规方程求解线性回归,正确的是无需特征缩放时间复杂度O(n³)需要迭代适用于大数据A(注意:有时也需特征缩放,严格来说正规方程不需要特征缩放也能求解,但若特征相差大会导致数值不稳定,一般选A)23如果数据线性不可分,SVM通过什么方法解决增加数据核方法降低维度换损失函数B24SVM中支持向量是指所有训练样本距离分隔超平面最近的点错分的点测试点B模块三:贝叶斯与集成学习(25-35)#题目ABCD答案25朴素贝叶斯的“朴素”是指特征独立假设先验概率相等后验概率最大使用高斯分布A26拉普拉斯平滑解决什么问题过拟合概率为0特征缺失收敛慢B27Bagging的主要作用是降低偏差降低方差降低噪声提高可解释性B28随机森林在Bagging基础上增加了学习率特征随机选择样本权重深度限制B29AdaBoost算法中样本权重的更新方式是正确分类样本权重增大错误分类样本权重增大所有权重不变随机调整B30GBDT属于BaggingBoostingStacking聚类B31XGBoost相比GBDT的改进不包括正则化并行处理使用线性模型自定义损失函数C32在Boosting中,基学习器通常为强学习器弱学习器随机猜测深度学习模型B33SVM的软间隔参数C越大越容易过拟合越容易欠拟合支持向量越少间隔越大A34高斯核函数的参数γ(=1/2σ²)越大模型越简单模型越复杂影响不大收敛越快B35下面哪个是监督学习算法K-meansPCADBSCAN逻辑回归D模块四:聚类、降维与神经网络(36-45)#题目ABCD答案36K-means算法中的K表示迭代次数簇的个数特征个数样本数B37K-means的缺点不包括需要预先指定K对初始中心敏感适合非凸数据容易陷入局部最优C38PCA实现降维的原理是保留最小方差方向保留最大方差方向随机投影特征选择B39在PCA算法中,需要计算协方差矩阵核矩阵距离矩阵混淆矩阵A40神经网络中常用的激活函数ReLU定义为max(0.1x,x)max(0,x)1/(1+e-x)tanh(x)B41反向传播算法用于计算前向传播更新参数计算损失归一化数据B42Dropout的作用是加速训练防止过拟合增加模型复杂度特征选择B43梯度消失问题常出现在ReLU激活函数Sigmoid/Tanh深层网络线性激活卷积层B44BatchNormalization的作用是加快训练和稳定增加随机性减少计算量增加深度A45下面哪个是无监督学习算法决策树SVMK-means逻辑回归C模块五:综合(46-50)#题目ABCD答案46对于正负样本不平衡问题,不适合用哪个指标AUCF1准确率召回率C47梯度下降收敛到局部最优是因为学习率太大目标函数非凸数据未归一化正则化太强B48特征缩放(归一化)对哪个算法影响最大决策树朴素贝叶斯K近邻随机森林C49信息熵是衡量不确定性准确率偏差距离A50下列关于模型选择的说法正确的是训练误差越小越好交叉验证可估计泛化性能复杂度越高越好无需验证集B十二、填空题高频考点(直接背诵)1.机器学习三大类型:监督学习、无监督学习和________。强化学习2.过拟合是指模型在________集上表现好但在测试集上表现差。训练3.L1正则化项形式为________。λ||w||₁4.逻辑回归使用的激活函数是________。Sigmoid5.决策树ID3采用________作为划分属性准则。信息增益6.随机森林属于________集成学习方法。Bagging7.SVM中软间隔参数C越大,模型越倾向于________。过拟合8.K-means算法中,每个样本被划分到________最近的簇。中心(均值)9.PCA通过________分解来求主成分。特征值(或奇异值)10.神经网络中,防止过拟合的常用方法有________和正则化。Dropout11.朴素贝叶斯假设所有特征________。相互独立12.偏差衡量模型的________能力。拟合13.交叉验证中,最常用的折数是________。1014.激活函数ReLU的数学形式为f(x)=________。max(0,x)15.GBDT的全称是________。梯度提升决策树十三、判断题速记(20题)#题目答案1训练误差越小,模型泛化能力一定越好。错2逻辑回归只能解决二分类问题。错(可多分类)3决策树CART既可以分类也可以回归。对4SVM的核函数可以将低维线性不可分数映射到高维线性可分。对5Bagging通过降低偏差来提升性能。错(降方差)6K-means聚类结果对初始中心点选取不敏感。错7PCA是一种有监督降维方法。错(无监督)8神经网络的层数越多,越容易产生梯度消失问题。对9Dropout在测试阶段保持开启。错(关闭)10特征缩放对基于距离的算法(如KNN)很重要。对11F1-score同时考虑了精确率和召回率。对12朴素贝叶斯分类器不需要训练过程。错(需计算概率)13集成学习中,个体学习器越强,集成效果越好。错(需要多样性)14SVM只支持线性核。错15ReLU激活函数在x<0时梯度为0。对16正则化系数λ越大,模型越简单。对17梯度下降的批量大小batchsize越大,参数更新越稳定。对18决策树不需要特征缩放。对19准确率在不平衡数据上不是好的指标。对20学习率过大会导致模型无法收敛。对十四、名词解释高频考点名词定义过拟合模型过度学习训练数据中的噪声和细节,导致泛化能力下降。正则化在损失函数中加入惩罚项(如L1/L2),限制模型复杂度,防止过拟合。交叉验证将数据集分成k折,轮流使用其中一折验证,其余训练,综合评估模型性能。支持向量SVM中距离超平面最近的那些训练样本点,决定了超平面的位置。核技巧通过核函数隐式地将数据映射到高维空间,使线性不可分问题变为线性可分。Bagging对训练集进行自助采样,并行训练多个基学习器,通过投票(分类)或平均(回归)集成。Boosting串行训练基学习器,每一轮调整数据权重,使后续学习器更关注之前错分的样本。PCA主成分分析,通过线性变换将高维数据投影到方差最大的方向,实现降维。梯度消失深层神经网络反向传播时,梯度逐层减小,导致浅层参数难以更新。AUCROC曲线下的面积,衡量分类器整体排序性能,AUC越大性能越好。十五、简答题高频考点速记1.简述偏差和方差的含义及权衡。偏差:模型预测期望与真实值的误差,反映拟合能力;方差:模型在不同训练集上的波动,反映稳定性。简单模型高偏差低方差,复杂模型低偏差高方差,需折中。2.解释SVM的基本思想及软间隔的作用。寻找最大化间隔的分隔超平面。软间隔引入松弛变量允许少量错分,参数C控制错误惩罚,C大则趋近硬间隔。3.比较Bagging和Boosting。Bagging并行训练,降低方差,代表随机森林;Boosting串行训练,降低偏差,代表AdaBoost/GBDT。Bagging基学习器强,Boosting基学习器弱。4.简述K-mean

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论