2026统计期末考数据分析题押题 连续5年押中考点_第1页
2026统计期末考数据分析题押题 连续5年押中考点_第2页
2026统计期末考数据分析题押题 连续5年押中考点_第3页
2026统计期末考数据分析题押题 连续5年押中考点_第4页
2026统计期末考数据分析题押题 连续5年押中考点_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026统计期末考数据分析题押题连续5年押中考点

一、单项选择题(总共10题,每题2分)1.以下属于描述数据离散程度的指标是()A.均值B.中位数C.标准差D.众数2.以下不属于缺失值处理方法的是()A.删除法B.均值填充C.线性插值D.标签编码3.置信水平95%的置信区间含义是()A.总体参数有95%的概率在区间内B.多次抽样中95%的区间包含总体参数C.区间内包含样本参数的概率95%D.样本参数有95%的概率在区间内4.检测多重共线性的常用方法是()A.方差膨胀因子(VIF)B.R²C.p值D.残差图5.混淆矩阵中“实际为正类且预测为正类”的是()A.假阳性(FP)B.假阴性(FN)C.真阳性(TP)D.真阴性(TN)6.K-means聚类常用的距离度量是()A.曼哈顿距离B.欧几里得距离C.余弦距离D.汉明距离7.模型评估中准确率的计算公式是()A.(TP+TN)/总样本B.TP/(TP+FN)C.TP/(TP+FP)D.(TP+FN)/总样本8.时间序列平稳性的核心要求是()A.数据没有趋势B.均值和方差不随时间变化C.没有季节波动D.数据单调递增9.主成分分析(PCA)的主要目的是()A.特征选择B.降维C.特征增强D.异常值检测10.假设检验中p<0.05意味着()A.接受原假设B.拒绝原假设C.原假设成立D.没有足够证据拒绝原假设二、填空题(总共10题,每题2分)1.描述数据分布形状的两个主要指标是______和______。2.处理分类变量的两种常用编码方法是______和______。3.线性回归模型的目标是最小化______。4.逻辑回归主要用于解决______问题。5.聚类分析属于______学习方法。6.ROC曲线的横轴是______,纵轴是______。7.时间序列中的趋势成分可以通过______法消除。8.特征选择的过滤法常用______分析筛选特征。9.交叉验证的主要目的是避免模型______。10.假设检验中的原假设通常表示______或没有效果。三、判断题(总共10题,每题2分)1.标准差越大,数据的离散程度越大。()2.线性回归模型要求自变量与因变量之间存在线性关系。()3.K-means聚类的K值可通过肘部法则确定。()4.准确率在不平衡数据分类中比F1-score更可靠。()5.PCA会改变原特征的含义。()6.逻辑回归的输出是0到1之间的概率值。()7.时间序列的平稳性是指数据没有任何波动。()8.混淆矩阵中的假阴性(FN)是实际正类但预测为负类的样本。()9.无监督学习不需要使用标签数据。()10.p值越小,原假设成立的可能性越小。()四、简答题(总共4题,每题5分)1.简述数据预处理的主要步骤及各步骤的作用。2.说明线性回归与逻辑回归的主要区别。3.简述K-means聚类算法的优缺点。4.解释模型过拟合的原因及常见解决方法。五、讨论题(总共4题,每题5分)1.在不平衡数据分类任务中,为什么F1-score比准确率更适用?2.结合实际案例,说明特征工程对机器学习模型性能的影响。3.讨论假设检验中p值的含义及常见误解。4.在时间序列预测中,如何处理非平稳数据?请举例说明。答案一、单项选择题1.C2.D3.B4.A5.C6.B7.A8.B9.C10.B二、填空题1.偏度;峰度2.标签编码;独热编码3.残差平方和4.二分类5.无监督6.假阳性率(FPR);真阳性率(TPR)7.移动平均8.相关系数9.过拟合10.没有差异三、判断题1.对2.对3.对4.错5.对6.对7.错8.对9.对10.对四、简答题1.数据预处理主要步骤包括:①缺失值处理(删除或填充缺失数据,保证数据完整性);②异常值处理(识别并处理异常点,避免干扰模型);③分类变量编码(将非数值变量转为数值,满足模型输入要求);④特征缩放(如标准化、归一化,消除量纲影响)。作用是提升数据质量,确保模型有效学习。2.线性回归与逻辑回归的区别:①目标不同:线性回归预测连续值,逻辑回归预测分类(二分类);②模型形式:线性回归是线性方程,逻辑回归通过Sigmoid函数将线性输出转为概率;③损失函数:线性回归用残差平方和,逻辑回归用对数损失;④输出:线性回归输出连续值,逻辑回归输出0-1概率。3.K-means优缺点:优点是算法简单高效,适合大规模数据;可解释性强。缺点是需预先指定K值;对初始聚类中心敏感,易陷入局部最优;对异常值和噪声敏感;仅适用于凸形聚类。4.过拟合原因:模型复杂度过高(如参数过多)、训练数据量不足、数据噪声大。解决方法:①正则化(如L1/L2正则,限制参数大小);②减少特征数量(特征选择);③交叉验证(如K折交叉验证,评估泛化能力);④增加训练数据(数据增强)。五、讨论题1.不平衡数据中,多数类样本占比高,准确率会被多数类主导(如90%负类,模型全预测负类,准确率90%但对正类预测差)。F1-score是精确率(查准率)和召回率(查全率)的调和平均,兼顾模型对少数类的识别能力,能更全面反映模型性能,因此更适用。2.以电商用户购买预测为例:原始特征有年龄、浏览时长、收藏商品数。通过特征工程生成“日均浏览时长”(浏览时长/登录天数)、“收藏转化率”(收藏后购买数/收藏数)等衍生特征,这些特征更能反映用户购买意愿。若不做特征工程,原始特征可能冗余(如浏览时长未考虑登录天数)或信息不足,模型难以捕捉关键模式,性能会下降;做特征工程后,模型能更好学习有效信息,准确率提升。3.p值是原假设成立时,得到当前或更极端结果的概率。常见误解:①p值是原假设成立的概率(实际是结果的极端性概率);②p<0.05就证明备择假设正确(实际是“拒绝原假设”,而非“证明备择假设”,只是证据足够);③p值越小效果越好(p值反映证据强度,不是效果大小)。4.非平稳数据处理方法:①差分法:对数据做一阶或多阶差分,消除趋势(如销售额数据有上升趋势,做一阶差分后得到平稳的“销售额增量”);②对数变换:处理异方差(如利润数据波动随数值增大而增大,取对数后波动减小)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论