(2025年)【数据挖掘与机器学习】期末复习试题答案

上传人：1*** IP属地：四川上传时间：2026-04-26 格式：DOCX 页数：15 大小：26.04KB 积分：12 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(2025年)【数据挖掘与机器学习】期末复习试题答案一、选择题（每题2分，共20分）1.以下属于无监督学习任务的是（）A.预测房价（回归）B.图像分类（分类）C.用户分群（聚类）D.垃圾邮件识别（分类）答案：C解析：无监督学习的目标是从未标记数据中发现隐含结构，聚类（如K-means）是典型无监督任务；其他选项均需标记数据（监督学习）。2.决策树中，若某属性的信息增益为0.3，信息增益率为0.25，则该属性的分裂信息（SplitInformation）为（）A.0.05B.1.2C.0.75D.0.3/0.25=1.2答案：B解析：信息增益率=信息增益/分裂信息，因此分裂信息=信息增益/信息增益率=0.3/0.25=1.2。3.以下哪种方法不能缓解过拟合？（）A.增加训练数据量B.降低模型复杂度（如减少决策树深度）C.增加正则化参数λD.减少特征数量（删除冗余特征）答案：D解析：过拟合是模型对训练数据过度学习，泛化能力差。减少特征可能丢失有用信息，反而可能导致欠拟合；其他选项均通过限制模型复杂度或增加数据多样性缓解过拟合。4.支持向量机（SVM）的核心思想是（）A.最大化类别间的间隔B.最小化训练误差C.构建多层非线性映射D.通过集成多个弱分类器提升性能答案：A解析：SVM通过寻找最大间隔超平面划分类别，间隔越大，泛化能力越强；最小化训练误差是经验风险最小化的目标（如逻辑回归）；多层映射是神经网络的特点；集成是随机森林等方法的思想。5.以下关于K-means聚类的说法错误的是（）A.需预先指定簇数kB.对初始质心敏感（可能陷入局部最优）C.适用于非凸形状的簇D.用欧氏距离度量样本间相似性答案：C解析：K-means假设簇为凸形状（球状），对非凸簇（如环形）效果差；其他选项均正确。6.梯度下降中，“批量（Batch）”指（）A.每次用1个样本更新参数B.每次用全部样本更新参数C.每次用小批量（如32个）样本更新参数D.随机选择样本更新参数答案：B解析：批量梯度下降（BatchGD）使用全部训练数据计算梯度，更新参数；随机梯度下降（SGD）用1个样本，小批量（Mini-batch）用部分样本。7.以下哪项不是特征工程的内容？（）A.对类别特征进行独热编码（One-hotEncoding）B.对数值特征进行标准化（Z-score）C.用主成分分析（PCA）降维D.调整神经网络的学习率答案：D解析：特征工程关注数据本身的处理（编码、缩放、降维），调整学习率属于模型超参数调优，不属于特征工程。8.在混淆矩阵中，精确率（Precision）的计算公式是（）A.TP/(TP+FN)B.TP/(TP+FP)C.(TP+TN)/(TP+TN+FP+FN)D.TP/(FP+TN)答案：B解析：精确率=真正例/(真正例+假正例)，反映预测为正的样本中实际为正的比例；召回率（Recall）=TP/(TP+FN)。9.以下集成学习方法中，基于Boosting的是（）A.随机森林（RandomForest）B.XGBoostC.梯度提升树（GradientBoostingDecisionTree,GBDT）D.B和C答案：D解析：Boosting通过串行训练弱分类器，关注前一个模型的错误样本（如AdaBoost）；GBDT和XGBoost是Boosting的改进；随机森林是Bagging方法（并行训练多棵决策树）。10.对于时间序列预测问题，最适合的模型是（）A.逻辑回归B.支持向量回归（SVR）C.循环神经网络（RNN/LSTM）D.K近邻（KNN）答案：C解析：RNN/LSTM通过循环结构捕捉时间序列的依赖关系（长短期记忆），适合处理序列数据；其他模型无显式时间建模能力。二、简答题（每题8分，共40分）1.简述数据预处理的主要步骤及各步骤的作用。数据预处理是机器学习的关键环节，主要包括以下步骤：（1）数据清洗：处理缺失值（删除、填充均值/中位数/众数、模型预测）和异常值（Z-score法、IQR法识别并修正），确保数据完整性和准确性。（2）特征编码：对类别特征（如“性别”）进行独热编码（One-hot）或标签编码（LabelEncoding），将非数值特征转化为模型可处理的数值形式。（3）特征缩放：对数值特征进行标准化（Z-score，均值0、标准差1）或归一化（Min-Max，缩放到[0,1]），消除量纲差异，避免模型对大数值特征过度敏感。（4）特征选择：通过统计方法（如卡方检验）、模型重要性（如随机森林特征重要性）或降维（如PCA）筛选关键特征，降低维度灾难，提升模型效率和泛化能力。2.对比线性回归与逻辑回归的异同。相同点：均基于线性模型（输入特征的线性组合）；均通过最小化损失函数优化参数（线性回归用均方误差，逻辑回归用交叉熵）；可加入正则化（L1/L2）防止过拟合。不同点：任务类型：线性回归用于回归（连续值预测），逻辑回归用于分类（二分类/多分类）；输出范围：线性回归输出实数，逻辑回归通过sigmoid函数将输出压缩到[0,1]（概率）；损失函数：线性回归的损失是预测值与真实值的平方差，逻辑回归的损失是对数损失（交叉熵），更适合概率型输出。3.解释交叉验证（CrossValidation）的原理及常用方法。交叉验证通过将数据集划分为多个子集，轮流作为训练集和验证集，评估模型的泛化能力，避免单次划分的偶然性。常用方法包括：（1）简单交叉验证（Hold-out）：随机划分训练集（如70%）和验证集（30%），但结果受划分方式影响大。（2）k折交叉验证（k-FoldCV）：将数据均分为k个子集，每次用k-1个子集训练，1个验证，重复k次取平均，减少方差。（3）留一交叉验证（LOOCV）：k等于样本数，每次留1个样本验证，计算成本高（O(n)次训练），适用于小数据集。（4）分层交叉验证（StratifiedCV）：在分类任务中保持每个折中类别比例与原数据一致，避免类别不平衡导致的评估偏差。4.简述随机森林（RandomForest）的构建过程及优势。构建过程：（1）自助采样（Bootstrap）：从原始训练集中有放回抽样，提供n个不同的训练子集（每个子集大小与原数据集相同）。（2）决策树提供：对每个子集，随机选择部分特征（如√d，d为总特征数），构建一棵未剪枝的决策树（通过信息增益或Gini指数划分节点）。（3）集成预测：对新样本，n棵树独立预测（分类取多数投票，回归取平均），输出最终结果。优势：抗过拟合：Bagging通过样本和特征的随机选择降低模型方差；特征重要性评估：通过特征被选中的频率或划分时的信息增益下降量量化特征重要性；并行计算：多棵树可独立训练，适合大规模数据；对缺失值和异常值鲁棒，无需特征缩放。5.说明L1正则化（Lasso）与L2正则化（Ridge）的区别及适用场景。区别：正则项形式：L1是参数绝对值之和（Σ|w|），L2是参数平方和（Σw²）；解的稀疏性：L1正则化会使部分参数变为0（特征选择），L2使参数趋近于0但非零；几何意义：L1的等高线是菱形，与损失函数等高线在坐标轴相交（稀疏解）；L2是圆形，交点在非轴位置（参数缩小）。适用场景：L1：特征冗余高、需要自动选择关键特征（如基因数据、文本分类）；L2：特征间相关性强（如房价预测中多个相关特征），需防止过拟合但保留所有特征的信息。三、计算题（每题10分，共20分）1.某数据集包含10个样本，目标变量为“是否购买”（是=1，否=0），其中6个样本为1，4个为0。现有属性“年龄”将样本分为两组：组A（年龄≤30岁）有5个样本（其中3个1，2个0），组B（年龄>30岁）有5个样本（其中3个1，2个0）。计算属性“年龄”的信息增益（熵的计算以2为底）。解：（1）计算原始熵H(D)：H(D)=(6/10)log₂(6/10)(4/10)log₂(4/10)=-0.6×log₂0.6-0.4×log₂0.4≈-0.6×(-0.737)-0.4×(-1.322)≈0.442+0.529=0.971（2）计算条件熵H(D|年龄)：组A的熵H(D₁)=(3/5)log₂(3/5)(2/5)log₂(2/5)≈-0.6×(-0.737)-0.4×(-1.322)≈0.442+0.529=0.971组B的熵H(D₂)=同理，H(D₂)=0.971H(D|年龄)=(5/10)H(D₁)+(5/10)H(D₂)=0.5×0.971+0.5×0.971=0.971（3）信息增益IG(年龄)=H(D)-H(D|年龄)=0.971-0.971=0结论：属性“年龄”的信息增益为0，说明该属性无法区分目标变量，划分无意义。2.某二分类模型在测试集上的预测结果如下（TP=80，FP=20，FN=10，TN=90），计算精确率（Precision）、召回率（Recall）、F1分数。解：精确率P=TP/(TP+FP)=80/(80+20)=0.8召回率R=TP/(TP+FN)=80/(80+10)=8/9≈0.889F1=2×P×R/(P+R)=2×0.8×0.889/(0.8+0.889)≈(1.422)/1.689≈0.842四、论述题（20分）结合实际场景，论述如何设计一个基于机器学习的客户分群系统，并说明关键步骤和注意事项。客户分群是通过挖掘用户行为数据，将相似特征的客户分组，支持精准营销。设计流程如下：1.目标定义与数据收集明确分群目标（如高价值客户识别、潜在流失客户预警），收集多维度数据：基本属性（年龄、性别、地域）；行为数据（消费频次、客单价、访问时长、页面跳转路径）；交易数据（历史订单金额、支付方式、退单率）；交互数据（客服咨询次数、优惠券使用情况）。2.数据预处理（1）缺失值处理：对少量缺失（如“年龄”缺失）用中位数填充；对大量缺失（如“访问时长”缺失超30%）的特征直接删除。（2）异常值检测：用IQR法识别“消费金额”的异常值（如单次消费超过Q3+1.5IQR），结合业务判断是否为合理高消费（如奢侈品购买），若是则保留，否则修正为Q3+1.5IQR。（3）特征编码：对类别特征“支付方式”（支付宝、微信、信用卡）进行独热编码，避免模型错误识别顺序关系。（4）特征缩放：对“消费频次”（范围1-100）和“客单价”（范围10-10000）进行标准化（Z-score），消除量纲影响。3.特征工程与降维（1）构造衍生特征：计算“最近一次消费时间（R）”、“消费频率（F）”、“消费金额（M）”（RFM模型），反映客户价值。（2）降维：若特征维度高（如超50维），用PCA提取主成分（保留95%方差），降低计算复杂度，避免“维度灾难”。4.模型选择与训练（1）算法选择：K-means（简单高效，适合大规模数据）、层次聚类（可视化簇结构）、DBSCAN（识别非凸簇，如“高价值但低频客户”）。（2）参数调优：对K-means，用“手肘法”（计算不同k的轮廓系数，选择拐点）确定簇数；对DBSCAN，通过k-距离图确定邻域半径ε。（3）训练与验证：用标准化后的数据训练模型，用轮廓系数（SilhouetteScore）评估簇内紧密度和簇间分离度（越接近1越好）。5.结果解读与应用（1）簇特征分析：对每个簇计算关键特征的统计量（如簇1的平均客单价=8000元，消费频次=12次/月，标记为“高价值高活跃客户”；簇2的平均

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(2025年)【数据挖掘与机器学习】期末复习试题答案

文档简介

温馨提示

最新文档

评论

(2025年)【数据挖掘与机器学习】期末复习试题答案

文档简介

温馨提示

最新文档

评论

相关文档