版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
通用综合单元同步测验QS01通用综合单元同步测验QS01
2026版机器学习单元同步测验QS01仿真卷Org074(含答案解析与学生作答区)考试时间:70分钟满分:80分适用对象:全国通用机器学习单元同步测验学习者、教师组卷与可打印练习场景答题说明:先检查试卷页码和题号;选择题在答题栏作答;主观题写清依据、过程和结论;书写规范,保持卷面整洁。
2026版机器学习单元同步测验QS01仿真卷Org074(含答案解析与学生作答区)姓名班级考号考试时间70分钟满分80分适用对象全国通用答题说明:1.本卷共三大题,22小题,满分80分,考试时间70分钟。2.答题前请检查题号是否连续;选择题把答案写入答题栏,主观题在指定作答区内完成。3.计算题须写出公式、代入过程、单位和结论;论述题须条理清晰、表达规范。4.若需修改答案,请保持卷面清楚,不得在无关区域作答。选择题答题栏1
答案:____2
答案:____3
答案:____4
答案:____5
答案:____6
答案:____7
答案:____8
答案:____9
答案:____10
答案:____11
答案:____12
答案:____13
答案:____14
答案:____15
答案:____一、单项选择题(15题,每题2分,共30分)1.在一个垃圾邮件识别任务中,训练样本已经标注为“垃圾邮件”或“正常邮件”。该任务最恰当的学习类型是(2分)A.无监督学习B.监督学习C.强化学习D.迁移学习2.将数据集划分为训练集、验证集和测试集的主要目的是(2分)A.让模型在测试集上反复调参B.同时估计参数、选择模型并最终评估泛化能力C.保证训练样本数量一定等于测试样本数量D.只为减少计算量,与模型效果无关3.某模型在训练集上准确率很高,但在新样本上表现明显下降,这一现象最可能说明(2分)A.欠拟合B.数据已经标准化C.过拟合D.学习率必然过小4.关于偏差与方差的说法,正确的是(2分)A.模型越复杂,偏差一定越大B.高偏差常对应模型表达能力不足C.高方差一定意味着训练误差也很高D.偏差和方差与泛化误差无关5.使用梯度下降训练线性模型前,对特征进行标准化最直接的作用是(2分)A.删除全部异常值B.改变标签的真实含义C.使不同量纲特征处于相近尺度,利于优化D.保证模型准确率达到100%
6.二分类混淆矩阵中,精确率Precision主要衡量(2分)A.实际为正的样本中被预测为正的比例B.预测为正的样本中真正为正的比例C.全部样本中预测正确的比例D.实际为负的样本中被预测为负的比例7.k近邻算法中,k值过小最可能带来的问题是(2分)A.模型对局部噪声过于敏感B.模型完全不能处理数值特征C.模型不需要任何训练样本D.距离度量不再发挥作用8.在线性回归目标函数中加入L2正则项,主要是为了(2分)A.惩罚过大的参数,降低模型复杂度B.把所有样本标签改为0或1C.使模型只能学习非线性边界D.取消损失函数中的误差项9.决策树选择划分特征时常用信息增益或基尼指数,其核心意图是(2分)A.使每个叶节点包含完全相同数量的样本B.提高划分后子节点的纯度C.避免生成任何叶节点D.只选择取值最多的特征10.逻辑回归用于二分类时,模型输出经过Sigmoid函数后通常可解释为(2分)A.输入特征的缺失比例B.样本属于正类的概率估计C.聚类中心的坐标D.决策树的最大深度
11.梯度下降中学习率设置过大,最可能出现的情况是(2分)A.损失函数震荡甚至不收敛B.参数一定全部变为0C.训练时间一定缩短且效果更好D.验证集误差必然单调下降12.k折交叉验证的主要优点是(2分)A.让每个样本都只被用作测试一次且从不参与训练B.在数据量有限时更稳定地估计模型效果C.彻底消除数据噪声D.不需要区分特征和标签13.在没有人工标签的客户分群任务中,较合适的算法是(2分)A.K-means聚类B.逻辑回归C.朴素贝叶斯分类D.监督式线性回归14.当正负样本极不均衡时,只看准确率可能产生误导,原因是(2分)A.准确率完全不能计算B.多数类预测正确会掩盖少数类识别效果C.少数类样本会自动变为多数类D.ROC曲线不适用于任何二分类问题15.下列做法最可能造成数据泄漏的是(2分)A.只用训练集均值方差对训练集拟合标准化器,再作用于验证集B.在模型训练前把标签列从特征中删除C.在划分训练集和测试集前,使用全量数据计算目标编码特征D.将随机种子记录在实验日志中选择题作答检查:请确认1—15题均已在答题栏填写唯一选项。
二、情境材料题(5题,每题6分,共30分)16.房价预测中的数据预处理(6分)材料:某学习小组准备建立房价预测模型。原始数据包含房屋面积、楼龄、距地铁站距离、城区类别、是否学区房、成交总价等字段。初步检查发现:楼龄有少量缺失,城区类别为文本型,成交总价是待预测目标;另有一列“成交后评估等级”只在成交完成后才产生。小组成员提出:先用全量数据填补缺失值并完成标准化,再随机划分训练集和测试集;同时把“成交后评估等级”作为特征加入模型。设问:(1)指出本任务属于回归还是分类,并说明依据。(2分)(2)写出两项合理的数据预处理措施。(2分)(3)判断小组成员方案中可能存在的一个数据泄漏点,并说明理由。(2分)学生作答区:________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
17.二分类模型的混淆矩阵计算(6分)材料:某疾病初筛模型在100名受检者上测试,正类表示“需要进一步检查”。结果如下表:实际正类实际负类预测正类3612预测负类448设问:(1)计算准确率Accuracy。(2分)(2)计算召回率Recall,并解释它在本场景中的含义。(2分)(3)若医院更关注漏检风险,应优先提升Precision还是Recall?说明理由。(2分)学生作答区:________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
18.训练曲线与模型调整(6分)材料:某图像分类小模型训练20轮后,训练集损失从0.82下降到0.06,验证集损失先从0.90下降到0.38,之后升高到0.61;训练集准确率达到98%,验证集准确率停留在74%左右。研究者可选调整策略包括:增加数据增强、减小模型复杂度、加入正则化、继续训练更多轮、不做验证集监控。设问:(1)根据材料判断模型主要问题,并写出依据。(2分)(2)从材料列出的策略中选择两项较合理的改进措施。(2分)(3)说明为什么“继续训练更多轮”不一定能解决该问题。(2分)学生作答区:________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
19.树模型的可解释性与泛化(6分)材料:某班用学生学习行为数据预测期末是否达标。候选模型包括单棵决策树和随机森林。数据字段有:周平均学习时长、作业按时提交率、单元测验均分、课堂互动次数等。教师希望既能获得较好预测效果,又能向学生解释主要影响因素。一次实验显示:单棵树训练准确率93%、验证准确率78%;随机森林训练准确率96%、验证准确率86%。设问:(1)比较两种模型在验证集表现上的差异。(2分)(2)若选择随机森林,如何弥补其可解释性不足?写出一种方法。(2分)(3)对单棵树提出一种防止过拟合的限制策略。(2分)学生作答区:____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
20.聚类结果的业务解释(6分)材料:某在线课程平台对学习者进行无监督分群,使用特征包括近30天登录次数、视频完成率、测验平均分、论坛发帖数。K-means得到三类:A类登录次数高、完成率高、测验分高;B类登录次数中等、完成率低、论坛发帖多;C类登录次数低、完成率低、测验分缺失较多。平台希望依据聚类结果进行差异化学习支持。设问:(1)说明该任务为何不宜直接称为监督分类。(2分)(2)为B类和C类学习者各提出一项干预建议。(2分)(3)列举一个评价聚类结果是否有用的角度。(2分)学生作答区:________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
三、综合探究题(2题,每题10分,共20分)21.校园图书馆座位占用预测方案设计(10分)某学校计划开发一个模型,预测未来30分钟图书馆各区域座位是否紧张。可采集的数据包括:历史入馆人数、当前预约人数、时间段、星期、考试周标记、天气、各区域历史占用率。学校要求模型结果可用于管理决策,同时注意隐私保护和模型持续评估。(1)明确预测目标,并说明可将其设计为分类任务还是回归任务。(2分)(2)写出至少三类可用特征,并说明其中一类特征的作用。(2分)(3)设计训练、验证、测试划分方式,说明为何不能随意打乱所有时间序列数据。(2分)(4)选择两个评价指标,并说明各自关注的模型能力。(2分)(5)写出两项上线后的风险控制或伦理隐私措施。(2分)学生作答区:________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________评分项分值作答提示目标与任务定义2明确输出变量,能解释分类或回归设计特征设计2至少三类特征,说明作用数据划分2体现时间顺序与泛化评估指标选择2指标与业务风险相匹配风险控制2隐私、偏差、监控或人工复核
22.模型选择、指标计算与改进建议(10分)某电商平台要识别可能流失的会员。测试集共有2000名会员,其中实际流失会员300名。模型甲预测为流失的会员有260名,其中真正流失210名;模型乙预测为流失的会员有520名,其中真正流失255名。平台会对被判定为流失的会员发放挽留券,单次发券成本较高,但漏掉高风险会员也会造成损失。(1)分别计算模型甲、乙的Precision和Recall,保留三位小数。(4分)(2)结合业务成本,说明在什么情况下更倾向选择模型甲,什么情况下更倾向选择模型乙。(2分)(3)提出两项改进模型或决策阈值的措施。(2分)(4)写出上线前还应检查的一项数据或公平性风险。(2分)学生作答区:________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________评分项分值作答提示指标计算4列公式、代入、结果业务权衡2联系发券成本与漏检损失改进措施2阈值、特征、采样、校准等风险检查2数据偏差、公平性或反馈闭环
2026版机器学习单元同步测验QS01仿真卷Org074(含答案解析与学生作答区)参考答案与解析一、单项选择题1.答案:B。解析:样本带有明确类别标签,目标是从已标注样本学习邮件类别判别规则,属于监督学习。2.答案:B。解析:训练集用于拟合参数,验证集用于模型选择和调参,测试集用于最终估计泛化能力,不能反复用于调参。3.答案:C。解析:训练表现好而新样本表现差,是模型记住训练细节、泛化不足的典型过拟合现象。4.答案:B。解析:高偏差常说明模型过于简单,不能充分刻画数据规律;高方差则多与对训练数据扰动敏感有关。5.答案:C。解析:标准化使不同量纲的特征处于相近尺度,有助于梯度下降稳定、快速地寻找较优参数。6.答案:B。解析:Precision=TP/(TP+FP),关注预测为正的样本中有多少真正为正。7.答案:A。解析:k过小会让单个邻近样本或噪声点对结果影响过大,方差较高。8.答案:A。解析:L2正则通过惩罚参数平方和抑制过大的权重,降低模型复杂度和过拟合风险。9.答案:B。解析:信息增益和基尼指数都用于衡量划分后类别混杂程度是否降低,核心是提升节点纯度。10.答案:B。解析:Sigmoid输出位于0到1之间,在二分类逻辑回归中常解释为正类概率估计。11.答案:A。解析:学习率过大可能跨过最优区域,使损失震荡甚至发散。12.答案:B。解析:k折交叉验证让不同子集轮流作为验证集,可在样本有限时更稳健地估计效果。13.答案:A。解析:客户分群没有人工标签,K-means根据样本相似性自动形成簇,属于无监督聚类方法。14.答案:B。解析:类别不均衡时,模型只偏向多数类也可能获得较高准确率,却无法体现少数类识别质量。15.答案:C。解析:目标编码若在划分前利用全量数据计算,会把测试集统计信息提前泄露给训练过程。
二、情境材料题16.参考答案与评分点:(1)回归任务,2分。依据:待预测目标为成交总价,是连续数值变量;若答“预测价格数值”且说明连续变量,可得满分。(2)预处理措施,2分。可答:楼龄缺失值用训练集统计量或合理模型填补;城区类别做独热编码或目标无泄漏编码;数值特征标准化;删除明显不可用或泄漏字段。每点1分,满2分。(3)数据泄漏,2分。不得在划分前用全量数据拟合填补器或标准化器;“成交后评估等级”只在成交后产生,也不能作为预测成交前价格的特征。指出任一点并说明测试信息提前进入训练或使用未来信息即可。17.参考答案与评分点:(1)Accuracy=(TP+TN)/(TP+FP+FN+TN)=(36+48)/100=0.84,即84%,2分。公式1分,代入与结果1分。(2)Recall=TP/(TP+FN)=36/(36+4)=0.90,即90%,2分。含义:实际需要进一步检查的人中,有90%被模型识别出来。(3)应优先提升Recall,2分。理由:漏检对应FN,召回率直接关注实际正类被找出的比例;在疾病初筛中漏检风险通常比多一次复查更严重。18.参考答案与评分点:(1)主要问题是过拟合,2分。依据:训练损失持续降至很低、训练准确率98%,而验证损失后期升高、验证准确率仅约74%,训练与验证表现差距明显。(2)合理措施包括增加数据增强、减小模型复杂度、加入正则化、早停并监控验证集等。写出两项且与过拟合控制相关,每项1分。(3)继续训练更多轮可能让模型进一步记住训练集细节,验证损失继续升高,不能改善泛化;说明“训练误差降低不等于验证效果提升”可得2分。19.参考答案与评分点:(1)随机森林验证准确率86%,高于单棵树78%,说明其泛化表现更好;同时两者训练准确率都高于验证准确率,单棵树差距更明显。2分。(2)可用特征重要性、置换重要性、部分依赖图、单个样本解释方法,或抽取代表性规则辅助解释。答出一种并能说明用于解释
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理查房与患者安全管理
- 护理安全未来展望
- 护理操作技术精神科护理
- 护理课件购买渠道攻略
- 护理课件资源整合平台
- 货车司机驾驶习惯培养题目及答案
- 广东省四校2026届高三上学期第二次联考数学试题
- 废弃物资源化利用和处置建设项目环境影响报告书
- 船台总装焊缝检测方案
- 科员考试试题及答案
- 2025年全国高考(新课标Ⅰ卷)数学真题卷含答案解析
- 安宁疗护舒适照护课件
- 城区地下管网维护与运营管理方案
- 桡骨远端骨折护理课件
- 2025年学校食品安全事故应急演练实施方案(含演练脚本)
- 重症医学科护理质控体系
- 太仓用人单位劳动合同(2025版)
- 研发区域管理办法
- 译林版七年级下册英语Unit5 Animal Friends基础专项巩固训练(含答案)
- ktv禁烟管理制度
- 七夕情人节介绍公开课课件
评论
0/150
提交评论