版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年1x数据分析中级测试题答案
一、单项选择题,每题2分1.在构建多元线性回归模型时,若发现某自变量的方差膨胀因子VIF=8.5,应优先采取的措施是A.直接删除该变量B.增加样本量C.考虑岭回归或主成分回归D.对该变量做对数变换2.对时间序列做ADF检验,得到的p值为0.035,显著性水平α=0.05,则正确结论是A.序列平稳B.序列存在单位根C.无法判断D.需再做KPSS检验才能下结论3.使用K-Means聚类时,若轮廓系数随k值增大而持续下降,说明A.当前距离度量不适用B.聚类效果逐渐变差C.样本量不足D.需要增加迭代次数4.在A/B测试中,若实验组与对照组的转化率分别为6.2%与5.8%,样本量各10万,下列做法最合理的是A.直接宣布实验组胜出B.计算置信区间并检验差异显著性C.继续观察一周再决定D.提高显著性水平到0.15.使用Python的pandas读取CSV时,发现日期列被解析为object,优先使用的转换方法是A.astype('int64')B.to_numericC.to_datetimeD.apply(str.strip)6.在随机森林中,关于OOB误差的描述正确的是A.需要单独划分验证集计算B.是训练集上的平均误差C.可代替交叉验证做模型评估D.仅适用于回归问题7.对高维稀疏数据做分类,通常效果最好的算法是A.朴素贝叶斯B.CART决策树C.支持向量回归D.线性判别分析8.若某特征的KS值在训练集上为0.45,在测试集上为0.21,最可能的原因是A.特征区分度强B.模型欠拟合C.特征过拟合D.测试集分布偏移9.在SQL中,计算用户次日留存率的正确写法是A.count(distinctcasewhendatediff(day,login_date,reg_date)=1thenuser_idend)/count(distinctuser_id)B.sum(casewhendatediff(day,reg_date,login_date)=1then1else0end)/count()C.count(distinctuser_id)/count()D.sum(login_date=reg_date+1)/count()10.使用主成分分析降维时,保留成分累计方差贡献率一般建议不低于A.50%B.65%C.80%D.95%二、填空题,每题2分11.在假设检验中,若显著性水平α从0.05调整为0.01,则犯第Ⅰ类错误的概率________。12.使用梯度提升树时,若学习率设为0.05,迭代次数为500,则相当于Shrinkage因子为________。13.在SQL里,窗口函数row_number()over(partitionbyuser_idorderbytsdesc)的作用是________。14.对分类变量做One-Hot编码后,若原变量有k个取值,则新增________列。15.在时间序列分解模型Y=T+S+C+I中,C代表________成分。16.若某模型在训练集上的AUC为0.98,在测试集上仅为0.72,则该模型处于________状态。17.使用贝叶斯公式计算后验概率时,分母被称为________。18.在Python中,使用seaborn绘制热力图时,控制颜色深度的参数是________。19.若某电商平台的GMV服从对数正态分布,则对其取对数后服从________分布。20.在聚类评估指标中,Calinski-Harabasz指数越大表示聚类结果越________。三、判断题,每题2分21.皮尔逊相关系数只能度量线性关系,对非线性关系无能为力。22.在LightGBM中,将max_depth设为0表示树深度不受限制。23.使用交叉验证时,k值越大一定越好,因为方差会更低。24.对缺失值采用均值填补不会引入任何偏差。25.若两个变量的协方差为0,则二者必然独立。26.在SQL中,unionall会自动去重。27.对偏态分布数据取对数常常可使其更接近正态分布。28.随机森林的每棵树都使用全部特征进行分裂。29.在生存分析中,若某对象的生存时间被截断,则其事件标志为0。30.使用PCA降维后再做线性回归,回归系数可解释性一定优于原始变量。四、简答题,每题5分31.简述使用XGBoost时如何防止过拟合的三项关键参数及其作用。32.说明在时间序列预测中,为何需要对残差进行白噪声检验,并给出常用检验方法。33.解释混淆矩阵中Precision与Recall的经济含义,并指出二者不可兼得的原因。34.描述在SQL中计算用户生命周期价值LTV的完整思路,包括表结构假设与关键指标。五、讨论题,每题5分35.某电商推荐系统采用协同过滤算法,近期发现新用户冷启动问题严重,请提出至少两种数据层面的改进方案,并比较其优劣。36.在金融风险评分卡开发中,若监管部门要求模型可解释性,讨论应如何在保持预测性能的同时满足合规要求。37.面对高维基因组数据,样本量远小于特征数,探讨采用何种特征选择策略最为稳健,并给出理论依据。38.某城市共享单车的潮汐现象明显,讨论如何利用时空大数据优化车辆调度,并评估不同优化目标对结果的影响。答案与解析一、单项选择题1.C2.A3.B4.B5.C6.C7.A8.C9.B10.C二、填空题11.降低12.0.0513.为每个用户按时间戳降序生成行号14.k-115.循环16.过拟合17.边缘似然或证据因子18.cmap19.正态20.优或好三、判断题21.√22.√23.×24.×25.×26.×27.√28.×29.√30.×四、简答题31.第一,eta(学习率)缩小每棵树的影响,降低过拟合风险;第二,max_depth限制树深度,防止学到过于局部的规律;第三,subsample对样本采样,减少树间相关性,从而提升泛化能力。三者共同控制模型复杂度。32.若残差非白噪声,说明模型尚未充分提取序列中的信息,预测误差存在可建模结构。常用方法有LB检验、Box-Pierce检验及绘制ACF/PACF图,若滞后项显著相关,则需改进模型。33.Precision表示预测为正的样本中有多少真正为正,衡量误报成本;Recall表示真正为正的样本中被正确预测的比例,衡量漏报成本。提高阈值可提升Precision但降低Recall,二者呈反向关系。34.假设订单表orders(user_id,order_date,gmv),用户表users(user_id,reg_date)。先按user_id聚合得生命周期总GMV,再按注册月份分组,计算各月注册用户在未来N个月内的平均GMV,即为LTV。关键指标为留存率、复购率与客单价。五、讨论题35.方案一:引入用户属性画像,利用人口统计信息寻找相似群体,进行基于内容的推荐;方案二:利用热门商品或编辑精选作为默认推荐,快速收集反馈。前者个性化强但需冷启动数据,后者简单但转化率低。36.采用逻辑回归或评分卡,通过WOE编码与单调分箱保证线性关系,使用L1正则筛选变量,输出系数与分数刻度,满足“原因—权重—得分”透明链;同时可用SHAP对复杂模型做事后解释,兼顾性能与合规。37.采用稳定性选择(StabilitySelection)结合L
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年荆州中考物理试题及答案
- 深度解析(2026)《GBT 30047-2013煤粉(泥)可浮性评定方法》
- 2026 年烟花爆竹零售门店安全隐患排查表
- 《DLT 5580.2-2022燃煤耦合生物质发电生物质能电量计算第2部分:农林废弃物直燃耦合》(2026年)合规红线与避坑实操手册
- 2026年食品生产合同(豆制品行业)
- 2026.5.7 小米袋拆垛机器人
- 2026年3月浙里初中升学联考英语仿真卷(一)(含答案)
- 某省市场与金融机构第2章金融产品某省市场
- 吴江就业指导服务中心
- 脑梗死护理专项考核试题及答案解析
- 八年级下学期期中家长会课件
- 2026年乡镇高层次人才引进笔试题库与解析
- 雨课堂学堂在线学堂云《自然辩证法概论( 武汉科技大)》单元测试考核答案
- 2025年7月浙江省普通高中学业水平考试化学试卷(含答案)
- 药物研发中的生物信息学数据处理
- 46566-2025温室气体管理体系管理手册及全套程序文件
- 湖北省历年2004-2013年高考英语试题及答案解析
- 11.2 一元一次不等式(第1课时) 初中数学人教版七年级下册教案
- 2025年高级人工智能训练师(三级)理论考试题库-含答案
- 铁路防护栅栏实施施工组织设计
- AEO(关务)管理手册
评论
0/150
提交评论