《商务数据分析》期末考试复习题及答案_第1页
《商务数据分析》期末考试复习题及答案_第2页
《商务数据分析》期末考试复习题及答案_第3页
《商务数据分析》期末考试复习题及答案_第4页
《商务数据分析》期末考试复习题及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《商务数据分析》期末考试复习题及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于商务数据分析的核心目标?A.发现业务规律B.预测未来趋势C.替代人工决策D.支持精准营销答案:C2.数据清洗中处理缺失值的方法不包括?A.直接删除含缺失值的记录B.用变量均值填充缺失值C.将缺失值标记为特殊类别D.扩大样本量以覆盖缺失值答案:D3.某电商平台用户消费金额的偏度系数为2.3,说明数据分布呈现?A.对称分布B.左偏(负偏)C.右偏(正偏)D.均匀分布答案:C(偏度>0为右偏,数据右侧有较长尾巴)4.相关系数r=0.85表示两个变量之间?A.无线性相关关系B.高度正线性相关C.高度负线性相关D.完全线性相关答案:B(|r|>0.8为高度相关,r>0为正相关)5.在逻辑回归模型中,因变量的取值通常是?A.连续数值B.二分类(0/1)C.有序类别D.名义类别答案:B6.以下哪种可视化图表最适合展示某品牌全年各月销售额的变化趋势?A.散点图B.柱状图C.折线图D.饼图答案:C(折线图适合展示时间序列的趋势变化)7.K-means聚类算法的核心步骤是?A.计算数据点间的曼哈顿距离B.预先设定聚类数k并迭代优化质心C.基于树结构划分数据子集D.通过密度阈值识别簇答案:B8.A/B测试的关键是?A.保证两组样本量相同B.控制唯一变量差异C.选择高流量页面作为测试环境D.仅比较转化率指标答案:B(A/B测试需控制单一变量,其他条件一致)9.数据仓库(DataWarehouse)与数据湖(DataLake)的主要区别是?A.数据仓库存储结构化数据,数据湖存储非结构化数据B.数据仓库用于实时分析,数据湖用于历史分析C.数据仓库支持多源数据集成,数据湖仅支持单源数据D.数据仓库的访问权限更宽松答案:A(数据仓库以结构化数据为主,数据湖可存储多类型数据)10.某企业用RFM模型分析客户价值,其中“M”指的是?A.最近购买时间(Recency)B.购买频率(Frequency)C.购买金额(Monetary)D.客户留存率(Retention)答案:C二、判断题(每题1分,共10分,正确打“√”,错误打“×”)1.商务数据分析中,样本量越大越好,因此无需考虑抽样方法。(×)(需根据研究目标选择合适抽样方法,过大样本可能增加成本)2.标准差越小,数据的离散程度越高。(×)(标准差越小,数据越集中)3.混淆矩阵中,“真阳性率(TPR)”等于“召回率(Recall)”。(√)(TPR=TP/(TP+FN)=Recall)4.决策树模型容易解释,但对缺失值敏感。(√)(决策树可可视化展示规则,但缺失值可能影响划分)5.热力图主要用于展示两个变量的相关关系。(×)(热力图适合展示矩阵中不同区域的数值大小,如用户行为热点)6.时间序列分析中,季节成分是指数据随时间呈现的周期性波动(周期≤1年)。(√)7.主成分分析(PCA)的目的是降维,同时保留原始数据的主要方差。(√)8.在关联规则分析中,支持度(Support)越高,规则的实用性越强。(×)(支持度高仅说明频繁出现,需结合置信度和提升度综合判断)9.数据可视化的核心是“美观”,因此应优先选择复杂图表。(×)(核心是清晰传递信息,需根据数据类型选择合适图表)10.预测模型的准确率(Accuracy)是评价模型性能的唯一指标。(×)(需结合精确率、召回率、F1值等综合评价)三、简答题(每题6分,共30分)1.简述数据清洗的主要步骤及常见方法。答案:数据清洗的主要步骤包括识别异常值、处理缺失值、纠正数据错误、统一数据格式。常见方法:(1)异常值处理:通过Z-score、IQR(四分位距)识别,可删除、修正或保留;(2)缺失值处理:删除记录、均值/中位数填充、回归预测填充;(3)错误纠正:检查逻辑矛盾(如年龄为-5),通过业务规则修正;(4)格式统一:如将“2023/12/31”与“2023-12-31”统一为标准日期格式。2.说明相关分析与回归分析的区别与联系。答案:区别:(1)相关分析衡量变量间线性关联程度(用相关系数r),不区分自变量和因变量;(2)回归分析建立变量间的数学模型(如y=ax+b),需明确自变量和因变量,用于预测。联系:均研究变量间的线性关系,相关分析是回归分析的基础(相关系数显著时,回归模型才有意义)。3.列举5种常用的商务数据分析工具,并说明其适用场景。答案:(1)Excel:基础描述性统计、简单图表(如柱状图、折线图),适合小数据量;(2)Python(Pandas、Scikit-learn):数据清洗、机器学习模型(如线性回归、聚类),适合中大数据量;(3)Tableau:交互式可视化(如动态仪表盘),适合业务人员快速分析;(4)SQL:数据库查询与数据提取(如从MySQL中筛选用户行为数据);(5)SPSS:统计检验(如t检验、方差分析),适合学术研究或需要简化操作的场景。4.简述K-means聚类算法的基本流程,并说明其优缺点。答案:流程:(1)设定聚类数k,随机选择k个初始质心;(2)计算每个数据点到质心的距离(如欧氏距离),将其分配到最近的簇;(3)重新计算各簇的质心;(4)重复步骤(2)-(3)直至质心不再变化或达到迭代次数。优点:计算效率高,适合大数据量;结果易解释。缺点:需预先设定k值;对初始质心敏感,可能陷入局部最优;对非凸形状的簇划分效果差。5.解释A/B测试的核心思想,并说明实施A/B测试的关键步骤。答案:核心思想:通过控制单一变量,比较两个版本(A版与B版)在相同条件下的表现,判断哪个版本更优。关键步骤:(1)明确测试目标(如提升转化率);(2)定义核心指标(如转化率、点击量);(3)划分实验组(B版)与对照组(A版),确保样本随机且同质;(4)收集数据并进行统计检验(如t检验);(5)分析结果,确定是否推广最优版本。四、计算题(每题10分,共30分)1.某零售企业2023年1-6月销售额(单位:万元)如下:32、35、38、42、45、48。(1)计算销售额的均值、中位数和标准差(保留2位小数);(2)判断数据分布的偏态(提示:用均值与中位数的关系)。答案:(1)均值=(32+35+38+42+45+48)/6=240/6=40万元;中位数:排序后为32、35、38、42、45、48,中间两个数为38和42,中位数=(38+42)/2=40万元;标准差:先计算方差,各数据与均值的差的平方和:(32-40)²=64,(35-40)²=25,(38-40)²=4,(42-40)²=4,(45-40)²=25,(48-40)²=64;平方和=64+25+4+4+25+64=186;方差=186/(6-1)=37.2(样本方差);标准差=√37.2≈6.10万元。(2)均值=中位数=40,数据分布近似对称。2.某电商平台收集了10个用户的广告点击次数(x)与购买金额(y,单位:元)数据,经计算得:∑x=50,∑y=2000,∑xy=11000,∑x²=300,n=10。(1)计算相关系数r,并判断相关程度;(2)建立线性回归方程y=a+bx,并解释b的经济意义。答案:(1)相关系数r公式:r=[n∑xy-∑x∑y]/√[n∑x²-(∑x)²][n∑y²-(∑y)²]需先计算∑y²:题目未直接给出,但可通过已知条件简化。不过,也可通过协方差与标准差的比值计算:均值x̄=50/10=5,ȳ=2000/10=200;协方差Cov(x,y)=[∑(xi-x̄)(yi-ȳ)]/(n-1)=[∑xy-nx̄ȳ]/(n-1)=[11000-10×5×200]/9=(11000-10000)/9=1000/9≈111.11;x的样本标准差Sx=√[∑x²/n-(x̄)²]=√[300/10-25]=√(30-25)=√5≈2.236;y的样本标准差Sy需计算∑y²:由∑(yi-ȳ)²=∑y²-nȳ²→∑y²=∑(yi-ȳ)²+nȳ²,但题目未给∑(yi-ȳ)²,需换用另一种方式。实际上,相关系数也可通过:r=(n∑xy-∑x∑y)/√[(n∑x²-(∑x)²)(n∑y²-(∑y)²)]代入已知值:分子=10×11000-50×2000=110000-100000=10000;分母=√[(10×300-50²)(10∑y²-2000²)]但缺少∑y²,可能题目假设数据满足线性关系,或通过回归系数计算。另一种方法:回归系数b=(n∑xy-∑x∑y)/(n∑x²-(∑x)²)=(10000)/(3000-2500)=10000/500=20;则r=b×(Sx/Sy),但需Sy。由于题目可能简化,假设数据完美线性,则r=1,但实际需重新检查。正确计算:分子=10×11000-50×2000=10000;分母=√[(10×300-50²)(10∑y²-2000²)]假设∑y²=(∑y)²/n+(n-1)Sy²,但无法计算。可能题目数据设计为:n∑x²-(∑x)²=10×300-2500=500;n∑y²-(∑y)²=10∑y²-4,000,000;假设y的方差已知,或题目实际想考察回归方程,可能相关系数计算条件不足,改为直接计算回归方程。(2)回归系数b=(n∑xy-∑x∑y)/(n∑x²-(∑x)²)=(10×11000-50×2000)/(10×300-50²)=(110000-100000)/(3000-2500)=10000/500=20;a=ȳ-bx̄=200-20×5=200-100=100;回归方程:y=100+20x;b=20表示广告点击次数每增加1次,购买金额平均增加20元。3.某银行用K-means算法对10个客户的“月收入(万元)”和“信用卡欠款(万元)”数据进行聚类,初始质心为C1(1.2,0.8)和C2(3.5,2.5),部分客户数据如下:客户A(1.5,1.0),客户B(2.8,2.0),客户C(4.0,3.0)。(1)计算客户A、B、C到两个质心的欧氏距离;(2)将客户分配到最近的簇。答案:(1)欧氏距离公式:d=√[(x1-x2)²+(y1-y2)²]客户A到C1的距离:√[(1.5-1.2)²+(1.0-0.8)²]=√[0.09+0.04]=√0.13≈0.36;客户A到C2的距离:√[(1.5-3.5)²+(1.0-2.5)²]=√[4+2.25]=√6.25=2.5;客户B到C1的距离:√[(2.8-1.2)²+(2.0-0.8)²]=√[2.56+1.44]=√4=2;客户B到C2的距离:√[(2.8-3.5)²+(2.0-2.5)²]=√[0.49+0.25]=√0.74≈0.86;客户C到C1的距离:√[(4.0-1.2)²+(3.0-0.8)²]=√[7.84+4.84]=√12.68≈3.56;客户C到C2的距离:√[(4.0-3.5)²+(3.0-2.5)²]=√[0.25+0.25]=√0.5≈0.71;(2)分配结果:客户A到C1更近(0.36<2.5),分配到簇1;客户B到C2更近(0.86<2),分配到簇2;客户C到C2更近(0.71<3.56),分配到簇2。五、案例分析题(20分)某母婴电商平台希望通过数据分析优化营销策略,现收集到以下数据:-用户基本信息:年龄、地域、购买次数、最近一次购买时间;-行为数据:页面浏览时长、加购商品数、优惠券使用情况;-交易数据:客单价、购买商品类别(奶粉/尿布/玩具等)。请设计分析方案,回答以下问题:(1)如何识别“高价值用户”?需用到哪些指标和方法?(2)如何分析不同商品类别的销售关联(如购买奶粉的用户是否更可能购买尿布)?需用到什么分析方法?(3)若要预测用户下一次购买时间,应选择哪种模型?需注意哪些问题?答案:(1)识别高价值用户:指标:采用RFM模型(最近购买时间Recency、购买频率Frequency、购买金额Monetary),结合平台业务补充指标(如客单价、优惠券敏感度)。方法:①计算每个用户的R、F、M值,进行标准化处理;②使用K-m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论