版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太理数据分析考试练习题及答案解析单选题(每题2分,共20分)1.某电商APP在2023年“618”大促期间,将用户按RFM模型划分为8个群体。若某用户最近购买间隔(Recency)为3天、累计购买频次(Frequency)为15次、累计消费金额(Monetary)为8420元,则该用户最可能被归入下列哪一类?A.重要保持客户 B.重要发展客户 C.重要挽留客户 D.一般价值客户答案:A。解析:Recency≤7天、Frequency≥10次、Monetary≥5000元,三项均高,属“重要保持客户”。2.在Pythonpandas中,执行df.groupby('city')['sales'].agg({'sales':'sum','count':'count'})后出现FutureWarning,最规范的替代写法是:A.df.groupby('city').agg(sales=('sales','sum'),count=('sales','count'))B.df.groupby('city')['sales'].agg(['sum','count'])C.df.groupby('city').agg({'sales':['sum','count']})D.df.groupby('city').agg(total_sales='sum',total_count='count')答案:A。解析:1.3+版本推荐NamedAgg语法,明确列名与聚合函数映射。3.对某连续变量做箱线图时发现上边缘以上存在单个离散点,其统计学含义是:A.极端异常值,超过Q3+1.5IQR B.极端异常值,超过Q3+3IQR C.中度异常值,超过Q3+1.5IQR D.正常极值,未超任何阈值答案:A。解析:箱线图默认以Q3+1.5IQR为异常截断点。4.在A/B测试中,若实验组样本量n₁=1000,对照组n₂=1000,转化率分别为p₁=6.8%,p₂=5.4%,则两样本z检验的合并标准误SE_p为(保留4位小数):A.0.0035 B.0.0112 C.0.0108 D.0.0096答案:B。解析:p̄=(68+54)/2000=0.061,SE_p=√[0.061×0.939×(1/1000+1/1000)]=0.0112。5.使用Kmeans对二维标准化数据聚类,若轮廓系数在k=3时为0.51,k=4时为0.49,k=5时为0.52,则最佳k为:A.3 B.4 C.5 D.无法判断答案:C。解析:轮廓系数越大,聚类越合理,k=5最高。6.在多元线性回归中,若VIF_j=8.5,则变量j的共线性程度为:A.无共线性 B.中度共线性 C.高度共线性 D.完全共线性答案:B。解析:5<VIF<10为中度。7.时间序列采用SARIMA(1,1,1)(1,0,1)₁₂建模,其季节差分阶数为:A.0 B.1 C.12 D.无法确定答案:A。解析:季节差分阶数在P,D,Q中D=0。8.在Tableau中,将维度字段“订单日期”拖至列功能区,默认聚合为:A.年 B.月 C.日 D.精确日期答案:A。解析:Tableau对日期维度默认按“年”聚合。9.若随机森林模型训练集AUC=0.97,验证集AUC=0.81,测试集AUC=0.80,则模型状态最可能是:A.正常 B.欠拟合 C.过拟合 D.数据泄漏答案:C。解析:训练远高于验证,表明过拟合。10.在SQL中,计算每个用户首次登录距注册的天数,正确窗口函数写法是:A.DATEDIFF(MIN(login_time),register_time) B.DATEDIFF(login_time,register_time) C.DATEDIFF(login_time,MIN(login_time)OVER(PARTITIONBYuser_id)) D.DATEDIFF(MIN(login_time)OVER(PARTITIONBYuser_id),register_time)答案:D。解析:需先取每个用户最小login_time,再与register_time求差。多选题(每题3分,共15分;多选少选均不得分)11.下列属于处理缺失值“随机缺失”(MAR)机制合理做法的有:A.多重插补 B.删除缺失样本 C.加权调整 D.极大似然估计 E.均值插补答案:A、C、D。解析:MAR下删除将引入偏差,均值插补忽略不确定性。12.关于主成分分析(PCA),正确的有:A.主成分方向对应协方差矩阵特征向量 B.各主成分方差之和等于原始变量方差之和 C.主成分间相关系数为0 D.必须标准化后才能做PCA E.第一主成分方差最大答案:A、B、C、E。解析:标准化非必须,但变量量纲差异大时建议。13.在Pythonsklearn中,可输出特征重要性的树模型包括:A.DecisionTreeClassifier B.RandomForestRegressor C.ExtraTreesClassifier D.GradientBoostingRegressor E.LogisticRegression答案:A、B、C、D。解析:LogisticRegression无内置feature_importances_。14.下列SQL语句在MySQL8.0可成功执行的有:A.SELECTuser_id,ROW_NUMBER()OVER(ORDERBYscoreDESC)ASrnFROMexam;B.SELECT@i:=@i+1ASrn,user_idFROMexam,(SELECT@i:=0)t;C.SELECTuser_id,COUNT()OVER(PARTITIONBYclassORDERBYscore)AScntFROMexam;D.SELECTuser_id,score,RANK()OVER(ORDERBYscore)FROMexamWHERERANK()OVER(ORDERBYscore)<=10;E.SELECTuser_id,scoreNTILE(4)OVER(ORDERBYscore)FROMexam;答案:A、B、C、E。解析:D窗口函数不能直接在WHERE使用,需子查询。15.在Tableau中,可用来创建“参数”控件的字段类型有:A.整数 B.浮点 C.字符串 D.布尔 E.日期答案:A、B、C、E。解析:布尔值不能直接作为参数类型。填空题(每空2分,共20分)16.在Excel365中,使用动态数组函数计算A1:A1000不重复值数量的公式为________。答案:=COUNTA(UNIQUE(A1:A1000))。17.若某变量服从泊松分布且λ=4,则其偏度为________。答案:0.5。解析:泊松偏度=1/√λ。18.在Pythonnumpy中,设置随机种子保证结果可复现的语句为________。答案:np.random.seed(42)。19.在SQLServer中,返回当前日期时间不含毫秒的函数为________。答案:GETDATE()。20.若线性回归方程为ŷ=3.2+1.5x,当x提高两个单位时,ŷ平均提高________。答案:3.0。21.在sklearn中,使用StandardScaler标准化后,变量均值变为________。答案:0。22.若时间序列一次差分后仍不平稳,需进行二次差分,此时d=________。答案:2。23.在Excel中,快速将透视表值显示为“占总计百分比”的路径为:值字段设置→________。答案:值显示方式→总计的百分比。24.在Python中,查看pandasDataFrame所有列缺失比例的代码为df.isnull().________。答案:mean()。25.若ROC曲线越靠近左上角,则AUC越接近________。答案:1。简答题(封闭型,每题6分,共18分)26.简述“数据泄露”在机器学习建模中的三种常见场景,并给出各一条避免策略。答案:1.特征泄露:使用未来信息如“次日留存”预测当日流失。避免:确保特征生成时间≤目标变量观测时间。2.目标泄露:特征直接包含目标标签转换。避免:删除与目标高度相关且业务上由目标衍生的字段。3.交叉验证泄露:在整体数据上先做标准化再做CV。避免:在训练折内拟合Scaler,再同步转换验证折。27.写出利用pandas将“订单日期”列由字符串“2023/6/18”转为当周期初(周一)的完整代码,并说明关键参数。答案:df['周期初']=pd.to_datetime(df['订单日期']).dt.to_period('W').dt.start_time;关键参数‘W’表示按周频率,start_time返回周一。28.说明在SQL中使用窗口函数计算累计销售额时,ROWS与RANGE区别,并给出适用场景示例。答案:ROWS按物理行数界定窗口,如ROWSBETWEEN6PRECEDINGANDCURRENTROW取最近7行,适用于订单表已按日排序且无缺失;RANGE按逻辑值区间界定,如RANGEBETWEENINTERVAL6DAYPRECEDINGANDCURRENTROW适用于日期不连续场景,保证统计最近7天。简答题(开放型,每题8分,共16分)29.某短视频平台发现“完播率”与“次日留存”呈弱相关(r=0.18),但业务方坚信提升完播率可拉动留存。请设计一个不少于三步的实证方案,用数据验证因果性,并指出需控制混杂变量及所用统计方法。答案:步骤1:选取过去30天新注册用户,按倾向得分匹配(PSM)构建实验组(高完播率视频曝光≥80%)与对照组(≤50%),控制性别、年龄、机型、渠道、首次使用时段等20维混杂。步骤2:对匹配后样本(n≈20000)做双重差分(DiD),比较两组在干预前后次日留存率差异,检验交互项系数β是否显著>0。步骤3:进一步采用工具变量(IV)法,以“视频默认清晰度档位”作为IV(该档位随机分配且影响完播率但不直接影响留存),使用二阶段最小二乘(2SLS)估计局部平均处理效应(LATE)。若DiD与2SLS均显著且效应量>2%,可支持因果结论;同时做敏感性分析检验隐藏偏差阈值。30.某B2B平台拟用深度学习模型预测企业客户未来一季度采购金额,但数据仅含三年36个月月度汇总,特征包括行业、地区、销售额、采购额、滞后1–3期等共50维,样本量n=4000。请从数据、模型、评估三方面阐述落地风险与改进措施。答案:数据风险:时间序列长度不足,深度模型易过拟合;改进:采用滚动窗口交叉验证,外部引入行业宏观指标扩充至200维,使用SMOTE过采样缓解金额分布右偏。模型风险:LSTM对长依赖敏感但数据短;改进:构建多任务学习,联合预测采购额与采购频次,共享底层GRU,用BayesianLSTM输出置信区间。评估风险:仅用RMSE忽视业务成本;改进:设计分段损失函数,对高价值客户误差加权3倍,上线前做反事实模拟,确保预测误差≤10%时可为销售团队节省8%拜访成本。应用题(计算类,共20分)31.某连锁便利店2023年6月销售数据片段如下(单位:元):|门店|销售额|毛利率|租金|营业时长||||||||A|120000|0.28|8000|360||B|95000|0.31|7500|300||C|138000|0.26|9000|390||D|102000|0.30|8200|350||E|155000|0.24|9500|420|(1)以销售额为因变量y,其余三项为自变量,建立多元线性回归模型,写出正规方程组矩阵形式,并计算回归系数β̂(保留3位小数)。(10分)(2)若门店F租金涨至10000元,营业时长调至400小时,预测其销售额及95%置信区间(已知s²=1.8×10⁶,X₀ᵀ(XᵀX)⁻¹X₀=0.087,t₀.₀₂₅,₁=12.706)。(6分)(3)计算各变量方差膨胀因子VIF,并判断是否存在多重共线性。(4分)答案:(1)设计矩阵X(5×4,第一列为1),y=[120000,95000,138000,102000,155000]ᵀ,XᵀX=[[5,610000,1.39,1820],[610000,7.63×10¹⁰,1.12×10⁵,2.24×10⁸],[1.39,1.12×10⁵,0.387,508],[1820,2.24×10⁸,508,6.66×10⁵]]Xᵀy=[610000,7.63×10¹⁰,1.12×10⁵,2.24×10⁸]ᵀ解得β̂=(XᵀX)⁻¹Xᵀy=[–24815.4,0.912,84725.3,18.6]ᵀ。(2)x₀=[1,10000,0.25,400],ŷ₀=–24815.4+0.912×10000+84725.3×0.25+18.6×400=129017元;置信区间=ŷ₀±t×s×√(1+X₀ᵀ(XᵀX)⁻¹X₀)=129017±12.706×√1.8×10⁶×√1.087→[112018,146016]。(3)辅助回归得R²:销售额~租金/营业时长,R₁²=0.78;毛利率~租金/营业时长,R₂²=0.02;租金~营业时长,R₃²=0.81;VIF₁=1/(1–0.78)=4.55,VIF₂=1.02,VIF₃=5.26;均<10,不存在严重多重共线性。应用题(综合分析类,共21分)32.某出行平台提供“预约单”与“即时单”两种模式,2023年1–6月订单数据如下:总订单2.1亿,其中预约单占24%;预约单完单率(成功完成/预约)为87%,即时单完单率78%;预约单平均客单价58元,即时单46元;预约单用户次月复购率42%,即时单仅26%;运营团队认为预约单模式更能提升长期GMV,但成本端每单补贴高2.5元。任务:(1)构建“长期GMV增量”指标,定义为用户未来12个月因预约模式带来的额外GMV,列出计算公式与参数含义。(5分)(2)采用因果推断框架,说明如何识别预约单对长期GMV的净效应,需给出数据源、核心变量、识别策略及计量模型。(8分)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年云南特殊教育职业学院单招职业技能考试模拟试题含详细答案解析
- 2026湖南岳阳市华容县实验小学就业见习教师招募笔试备考题库及答案解析
- 2026年宁德福安市赛岐镇建设投资开发有限公司招聘1人笔试备考题库及答案解析
- 2026年甘肃省武威市凉州区五和镇选聘专业化管理村文书招聘笔试备考题库及答案解析
- 2026甘肃平凉泾川县第一批城镇公益性岗位工作人员招聘笔试备考题库及答案解析
- 2026天津中医药大学第一附属医院第三批招聘21人笔试备考试题及答案解析
- 2026福建省海运集团有限责任公司校园招聘5人笔试备考试题及答案解析
- 2026江西宜春市丰城市碧城服务管理有限公司及下属子公司招聘笔试备考题库及答案解析
- 2026福建福州台江区义洲街道社区卫生服务中心招聘编外人员3人笔试备考试题及答案解析
- 2026江苏苏咨工程咨询有限责任公司招聘笔试备考题库及答案解析
- DB11∕T 1191.1-2025 实验室危险化学品安全管理要求 第1部分:工业企业
- 2026年宁波职业技术学院单招综合素质考试必刷测试卷附答案
- 刮板流量计课件
- 地震灾害警示教育基地参观心得体会
- 国家开放大学《人文英语3 》期末机考题库
- 2025年湖南铁路科技职业技术学院单招职业技能测试题库参考答案
- 人教版英语五年级(上)-听力训练专项练习题
- 石油化工设备维护检修规程设备完好标准SHS
- 牡丹亭原文和翻译
- 东南亚的教学设计 公开课教学设计
- 电子元件及电子专用材料制造行业营销方案
评论
0/150
提交评论