商务数据分析与应用期末考试卷及答案_第1页
商务数据分析与应用期末考试卷及答案_第2页
商务数据分析与应用期末考试卷及答案_第3页
商务数据分析与应用期末考试卷及答案_第4页
商务数据分析与应用期末考试卷及答案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据分析与应用期末考试卷及答案1.单项选择题(每题2分,共20分)1.1在商务数据分析中,用于衡量两组变量之间线性关系强度的指标是A.标准差 B.协方差 C.皮尔逊相关系数 D.偏度答案:C1.2某电商企业欲评估“双十一”促销对客单价的影响,最适合的统计检验方法是A.单样本t检验 B.配对样本t检验 C.独立样本t检验 D.卡方检验答案:B1.3在Pythonpandas中,将DataFramedf的列名全部改为小写,正确的写法是A.df.columns=df.columns.lower() B.df.columns=[c.lower()forcindf.columns]C.df.rename(columns=str.lower) D.df.apply(lambdax:x.lower())答案:B1.4对具有明显右偏分布的销售额数据做Box‐Cox变换,λ的最佳估计值通常A.大于1 B.等于1 C.在0~1之间 D.小于0答案:C1.5在SQL中,计算用户最近一笔订单的客单价,应使用的窗口函数是A.ROW_NUMBER() B.RANK() C.LAG() D.FIRST_VALUE()答案:D1.6若随机森林模型在训练集AUC=0.98,测试集AUC=0.72,则最可能出现A.欠拟合 B.过拟合 C.数据泄露 D.特征缩放不足答案:B1.7某连锁便利店用k‐means对门店聚类,若SSE随k值增加而持续快速下降,则选择k的合理方法是A.手肘法 B.轮廓系数 C.Calinski‐Harabasz指数 D.交叉验证答案:A1.8在Tableau中,将“销售额”字段快速计算“同比增长率”应使用的表计算类型是A.汇总 B.差异 C.百分比差异 D.移动平均答案:C1.9某B2B平台用RFM模型细分客户,其中F指标通常指A.最近一次下单距今天数 B.下单频次 C.累计消费金额 D.平均折扣率答案:B1.10在A/B测试中,若显著性水平α=0.05,检验功效1‐β=0.8,则最小样本量主要与下列哪组参数无关A.预期效应量 B.baseline转化率 C.显著性水平 D.实验组比例答案:D2.多项选择题(每题3分,共15分;多选少选均不得分)2.1下列属于时间序列分解成分的有A.趋势 B.季节 C.循环 D.白噪声答案:ABCD2.2关于逻辑回归,下列说法正确的有A.输出可解释为概率 B.损失函数为交叉熵 C.可用L2正则化 D.要求特征服从正态分布答案:ABC2.2使用Pythonstatsmodels建立线性回归时,可输出下列哪些诊断统计量A.条件数 B.Jarque‐Bera检验 C.VIF D.Durbin‐Watson答案:ABD2.4对高维稀疏用户行为数据降维,可优先考虑A.PCA B.t‐SNE C.自动编码器 D.截断SVD答案:CD2.5在PowerBI中,可创建“计算表”的DAX函数有A.CALCULATETABLE B.SELECTCOLUMNS C.SUMMARIZE D.ADDCOLUMNS答案:ABCD3.填空题(每空2分,共20分)3.1若某商品日需求服从泊松分布,平均λ=4,则日需求量的方差为____。答案:43.2在Excel中,用数组公式计算一列数据的几何平均数,函数名为____。答案:GEOMEAN3.3当样本量n→∞,样本均值的分布趋近于____分布。答案:正态3.4若回归模型出现异方差,常用的稳健标准误估计方法为____估计。答案:White(或Huber‐White)3.5某电商平台用Apriori算法挖掘购物车数据,若最小支持度为2%,最小置信度为60%,则规则{A}→{B}的____必须大于等于60%。答案:置信度3.6在Python中,使用seaborn绘制热力图需调用的函数为____。答案:heatmap3.7若某股票对数收益率服从正态分布N(μ,σ²),则其简单收益率的期望为____。答案:e^{μ+σ²/2}‐13.8在SQLServer中,将日期字段转换为年初的函数为____。答案:DATEFROMPARTS(YEAR(GETDATE()),1,1)3.9某企业用指数平滑法预测销量,若平滑系数α=0.1,则最新一期实际权重为____。答案:0.13.10在R语言中,将数据框df按列x降序排列的语句为df[____,]。答案:order(df$x,decreasing=TRUE)4.简答题(每题8分,共24分)4.1简述利用RFM模型进行客户细分的完整步骤,并说明如何为不同群体制定差异化营销策略。答案:步骤:1)数据抽取:从订单表提取用户ID、订单日期、订单金额;2)计算R(Recency):最近一次订单距分析日天数;F(Frequency):统计周期内订单次数;M(Monetary):累计消费金额;3)分位数法或等宽法将R、F、M分别划分为1‐5分;4)合并三维度得分,形成RFM标签,如“555”为重要价值客户;5)聚类或业务规则合并标签,得到6‐8个群体;6)群体解读:重要价值客户(高RFM)需VIP服务;重要发展客户(高M低F)推会员升级;重要挽留客户(高M高R低F)发限时优惠券;一般维持客户(低RFM)减少营销成本;7)策略落地:渠道(短信/APP推送)、内容(折扣/赠品)、时机(节假日/生日)、预算分配(80%投入前20%客户)。4.2解释“数据泄露”在预测建模中的含义,列举三种常见泄露场景并给出防范措施。答案:含义:训练集包含在真实预测时无法获得的未来信息,导致模型性能虚高。场景与防范:1)时间泄露:用未来订单特征预测未来销量;防范:按时间切分训练/测试集,采用滚动窗口;2)目标泄露:特征工程时误把与目标高度相关的衍生变量加入,如“退款金额”预测“是否退货”;防范:业务逻辑审查,剔除事后变量;3)交叉泄露:训练集与测试集用户重叠,如重复用户的多条记录分散在两端;防范:按用户ID分层抽样,确保同一用户仅出现在一端;4)标准化泄露:先整体标准化再划分训练测试;防范:在训练集上fit标准化器,再transform测试集。4.3说明多重共线性对线性回归模型的危害,并给出两种检测方法与两种解决方案。答案:危害:系数估计方差膨胀,t检验失效,符号反转,模型解释性下降。检测:1)方差膨胀因子VIF>10为强共线;2)条件数κ>30表明存在共线。解决:1)删除高VIF变量;2)采用岭回归L2正则;3)主成分回归;4)合并高度相关变量为单一指标。5.计算与分析题(共41分)5.1相关性检验与回归(10分)某快消企业收集10个城市的广告投入x(万元)与销售额y(万元)数据:x:20,25,30,35,40,45,50,55,60,65y:180,220,250,290,310,350,380,410,430,460(1)计算皮尔逊相关系数r;(2)以α=0.05检验H0:ρ=0;(3)建立一元线性回归方程并解释斜率;(4)预测x=70时的销售额及95%置信区间。答案:(1)r=0.9965(2)t=r√(n‐2)/√(1‐r²)=0.9965×√8/√(1‐0.993)=38.4>t0.025,8=2.306,拒绝H0,显著。(3)b=Σ(xi‐x̄)(yi‐ȳ)/Σ(xi‐x̄)²=7.27,a=ȳ‐bx̄=180‐7.27×42.5=‐128.0,方程:ŷ=‐128.0+7.27x;斜率表示广告投入每增加1万元,销售额平均增加7.27万元。(4)x=70,ŷ=‐128+7.27×70=381.9;标准误差s=√(MSE)=√(Σei²/(n‐2))=8.94;预测标准误SEpred=s√(1+1/n+(x‐x̄)²/Sxx)=8.94×1.07=9.57;95%区间:381.9±2.306×9.57→[359.8,404.0]。5.2时间序列预测(11分)某电商2022年1‐12月销售额(万元)如下:220,235,250,265,280,295,310,325,340,355,370,385(1)用简单指数平滑(α=0.3)预测2023年1月销售额,初始值S1=y1;(2)建立线性趋势模型Tt=a+bt,用最小二乘估计a、b;(3)比较两种方法2023年1月预测值并说明适用场景。答案:(1)S12=αy12+(1‐α)S11=0.3×385+0.7×359.5=367.15;2023年1月预测=367.15;(2)t=1…12,Σt=78,Σt²=650,Σy=3430,Σty=23650;b=(12×23650‐78×3430)/(12×650‐78²)=13.08,a=(3430‐13.08×78)/12=200.83;模型Tt=200.83+13.08t;2023年1月t=13,预测=200.83+13.08×13=370.87;(3)指数平滑适合无趋势或缓慢变化,计算量小;线性趋势适合稳定直线增长,解释性强;本例数据呈完美线性,趋势模型更优。5.3客户终身价值CLV建模(10分)某SaaS企业给出以下参数:月付订阅价P=200元;毛利率m=80%;月留存率r=92%;折现率d=1%。(1)写出无限期CLV公式并计算;(2)若获客成本CAC=1500元,判断获客是否划算;(3)若通过产品改进将月留存率提升至94%,求新CLV及提升比例。答案:(1)CLV=Σt=1∞mPrt‐1/(1+d)t‑1=mP/(1‐r/(1+d))=0.8×200/(1‐0.92/1.01)=0.8×200/0.0891=1795.7元;(2)CLV>CAC,1795.7>1500,划算;(3)新CLV=0.8×200/(1‐0.94/1.01)=0.8×200/0.0693=2308.8元;提升比例=(2308.8‐1795.7)/1795.7=28.6%。5.4A/B测试样本量与结果分析(10分)某App欲测试新推荐算法对购买转化率的影响,baseline转化率p=6%,期望相对提升15%,显著性α=0.05,功效1‐β=0.8。(1)用公式n=2(Zα/2+Zβ)²p(1‐p)/(p‐p0)²计算每组所需样本量;(2)实验运行后,实验组n1=5000,转化350人,对照组n2=5000,转化270人,构建两独立样本Z检验,判断新算法是否显著;(3)计算真实提升率的95%置信区间。答案:(1)p0=0.06,p=0.069,Δ=0.009;Zα/2=1.96,Zβ=0.84;n=2×(1.96+0.84)²×0.06×0.94/0.009²≈

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论