版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年商务数据分析职业资格考试试题及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在商务数据分析中,用于衡量两个变量之间线性关系强度的统计量是()A.标准差 B.协方差 C.皮尔逊相关系数 D.偏度答案:C2.某电商平台欲评估“618”大促期间广告投入对GMV的边际贡献,下列哪种模型最适合?()A.ARIMA(1,1,1)B.多元线性回归 C.K-means聚类 D.Apriori关联规则答案:B3.在Pythonpandas中,将DataFramedf的列名全部改为小写,正确写法是()A.df.columns=df.columns.lower()B.df.rename(columns=str.lower)C.df.columns.map(str.lower)D.df.apply(lambdax:x.lower(),axis=1)答案:C4.若某时间序列的ADF检验统计量为-4.32,对应1%临界值为-3.43,则()A.序列平稳 B.序列非平稳 C.无法判断 D.存在单位根答案:A5.在SQL中,计算用户近30日日均订单量的正确语句是()A.SELECTAVG(order_cnt)FROMuser_dailyWHEREdtBETWEENDATE_SUB(CURDATE(),30)ANDCURDATE();B.SELECTSUM(order_cnt)/30FROMuser_dailyWHEREdt>=DATE_SUB(CURDATE(),INTERVAL30DAY);C.SELECTAVG(order_cnt)FROMuser_dailyWHEREdt>=DATE_SUB(CURDATE(),INTERVAL30DAY);D.SELECTorder_cnt/30FROMuser_dailyWHEREdtBETWEENCURDATE()-30ANDCURDATE();答案:C6.使用LightGBM时,为了控制过拟合,应优先调整的超参数是()A.num_leaves B.max_depth C.min_data_in_leaf D.n_estimators答案:C7.在A/B测试中,若实验组转化率提升2%,p值=0.08,则()A.拒绝原假设 B.接受原假设 C.需增加样本量 D.效应量过小答案:C8.某商品日销量服从Poisson分布,λ=9,则P(X=7)的精确值为()A.0.117 B.0.101 C.0.081 D.0.090答案:A解析:P9.在Tableau中,将维度字段“省份”拖至“颜色”标记,默认生成的地图类型是()A.符号地图 B.填充地图 C.热力地图 D.点分布图答案:B10.使用RFM模型时,若某客户R=5、F=1、M=5,其所属细分群体最可能是()A.重要保持客户 B.重要发展客户 C.重要挽留客户 D.一般维持客户答案:C11.在Excel中,数组公式{=SUM(IF((A2:A100="男")(B2:B100>30),C2:C100))}的作用是()11.在Excel中,数组公式{=SUM(IF((A2:A100="男")(B2:B100>30),C2:C100))}的作用是()A.统计男性且年龄>30的人数 B.统计男性且年龄>30的C列总和C.统计C列非空单元格 D.统计年龄>30的女性C列总和答案:B12.若随机变量X∼N(A. B. C. D.答案:C13.在Pythonstatsmodels中,执行逻辑回归后,输出结果中“LLRp-value”指的是()A.模型整体显著性 B.伪R方 C.残差正态性检验 D.异方差检验答案:A14.某企业采用移动平均法预测库存,窗口期n=4,最近4期需求为80,90,85,95,则第5期预测值为()A.85 B.87.5 C.90 D.92.5答案:B15.在PowerBI中,创建度量值“YTDSales”应使用的DAX函数是()A.TOTALYTD B.DATESYTD C.SAMEPERIODLASTYEAR D.CALCULATE答案:A16.若某分类模型ROC-AUC=0.83,则其Gini系数为()A.0.66 B.0.34 C.0.83 D.0.17答案:A解析:Gini=2×AUC-117.在SQL中,去除重复记录并保留最早一条,常用窗口函数写法是()A.ROW_NUMBER()OVER(PARTITIONBYuser_idORDERBYcreate_time)B.RANK()OVER(PARTITIONBYuser_idORDERBYcreate_timeDESC)C.DENSE_RANK()OVER(PARTITIONBYuser_idORDERBYcreate_time)D.LAG(user_id)OVER(ORDERBYcreate_time)答案:A18.在Python中,使用seaborn绘制箱线图并显示异常点,参数设置为()A.showfliers=False B.showfliers=True C.fliersize=0 D.linewidth=0答案:B19.若某电商详情页UV为10000,支付转化率为3%,客单价为280元,则GMV为()A.8400元 B.84000元 C.840000元 D.8400000元答案:B20.在数据治理中,用于定义“客户唯一标识”属于哪一层?()A.业务层 B.概念层 C.逻辑层 D.主题层答案:C二、多项选择题(每题2分,共20分。每题至少有两个正确答案,多选、少选、错选均不得分)21.下列属于时间序列分解成分的有()A.趋势 B.季节 C.循环 D.白噪声答案:ABCD22.在Pythonsklearn中,可用于缺失值填补的策略有()A.mean B.median C.most_frequent D.constant答案:ABCD23.关于主成分分析PCA,下列说法正确的有()A.主成分方向是协方差矩阵特征向量 B.主成分得分是原始变量在主成分上的投影C.第一主成分解释方差最大 D.主成分之间正交答案:ABCD24.在SQL中,能够用于实现行转列的函数或结构有()A.CASEWHEN B.PIVOT C.IF D.GROUP_CONCAT答案:AB25.下列指标可用于评估回归模型预测精度的有()A.MAE B.MSE C.RMSE D.MAPE答案:ABCD26.在商务场景中,常用于客户分群的算法有()A.K-means B.DBSCAN C.层次聚类 D.GaussianMixture答案:ABCD27.关于Excel数据透视表,下列描述正确的有()A.可拖动字段到行、列、值、筛选区域 B.值区域默认求和,可改为计数、平均等C.可插入计算字段 D.可基于透视表创建切片器答案:ABCD28.在Python中,下列属于pandas的窗口函数有()A.rolling B.expanding C.ewm D.lag答案:ABC29.下列属于NoSQL数据库的有()A.MongoDB B.Redis C.HBase D.Neo4j答案:ABCD30.在数据可视化中,遵循“5秒钟原则”需满足的条件有()A.图表标题清晰 B.坐标轴标签完整 C.颜色含义一致 D.重点数据突出答案:ABCD三、填空题(每空2分,共20分)31.在Excel中,若A1=2026/6/1,B1=EDATE(A1,3),则B1的日期为________。答案:2026/9/132.若随机变量X∼答案:16解析:V33.在Python中,使用pandas将字符串“2026-06-01”转换为Timestamp对象的命令为________。答案:pd.to_datetime('2026-06-01')34.某商品安全库存公式为SS=·答案:提前期需求标准差35.在SQL中,计算用户首次下单日期的窗口函数表达式为________OVER(PARTITIONBYuser_idORDERBYorder_date)。答案:FIRST_VALUE(order_date)36.在LightGBM中,控制叶子节点最小样本数的参数为________。答案:min_child_samples37.若某模型F1-score=0.8,precision=0.889,则recall=________。答案:0.727解析:F38.在Tableau中,创建参数控制TOPN客户,应使用的筛选器类型为________。答案:Top按字段39.在Pythonseaborn中,绘制热力图并显示数值注解的参数为________。答案:annot=True40.某电商采用加权移动平均预测,权重为0.1,0.2,0.3,0.4,对应需求为80,90,85,95,则预测值为________。答案:90.5解析:0.1四、简答题(每题10分,共30分)41.简述商务数据分析项目中“数据质量评估”环节的主要指标及其含义。答案:(1)完整性:所需字段是否缺失,缺失比例如何;(2)准确性:数据是否真实反映业务事实,可通过与权威源比对、逻辑校验;(3)一致性:同一实体在不同系统或表中的取值是否一致,如客户生日;(4)及时性:数据是否按业务要求的频率更新,延迟是否可接受;(5)唯一性:主键是否唯一,是否存在重复记录;(6)有效性:数据是否在合理范围内,如年龄0-120岁;(7)可追溯性:数据从采集到使用的全链路可追踪,便于问题定位;(8)可用性:数据格式、粒度、维度是否满足分析需求。评估方法包括描述统计、规则引擎、可视化探查、业务访谈等,最终输出数据质量报告,为后续清洗与建模提供依据。42.说明在Python中如何利用pandas实现“多列合并成一列的哑变量”并给出代码示例。答案:场景:原始数据df含分类变量color,取值{R,G,B},需将其转为独热编码后合并回df。代码:```pythonimportpandasaspddf=pd.DataFrame({'id':[1,2,3],'color':['R','G','B']})dummies=pd.get_dummies(df['color'],prefix='color')#生成三列df=pd.concat([df,dummies],axis=1)```若需将多列分类变量一次性处理,可用`pd.get_dummies(df,columns=['color','size'])`,返回含哑变量的新DataFrame,避免手动循环,提升效率并减少出错。43.阐述在A/B测试样本量计算中,如何同时考虑第一类错误、第二类错误、最小可检测效应(MDE)与基线转化率,并给出公式。答案:样本量计算需输入:基线转化率最小可检测效应δ(相对或绝对)显著性水平α(通常0.05,双侧)检验效能1−对于两独立样本比例检验,每组所需样本量:n其中=,=(1+实际应用中,可用statsmodels的`power_proportions_2indep`函数直接计算,确保实验灵敏度与成本平衡。五、应用题(共60分)44.综合案例分析:会员生命周期价值预测(30分)背景:某在线教育机构2025年积累300万付费会员,需建立LTV模型指导2026年营销预算。提供数据表:member_id,reg_date,first_pay_date,last_pay_date,total_revenue,total_orders,refund_amount,channel,province,study_minutes,is_vip,cancel_date(1)数据清洗与特征工程(8分)任务:写出Python代码完成以下步骤:①计算会员生命周期天数(lifespan),若未流失则截尾至2026-05-31;②构建RFM特征:R=最近付费距今天数,F=总订单,M=实付金额(total_revenue-refund_amount);③构建行为特征:日均学习时长avg_study=lifespan内study_minutes/lifespan;④缺失值处理:channel缺失用“unknown”,study_minutes缺失用0填充;⑤衍生渠道等级:将channel按历史平均LTV分位拆分为高、中、低三档。答案:```pythonimportpandasaspd,numpyasnpdf=pd.read_csv('member.csv',parse_dates=['reg_date','first_pay_date','last_pay_date','cancel_date'])cutoff=pd.to_datetime('2026-05-31')df['lifespan']=(np.where(df['cancel_date'].isna(),cutoff,df['cancel_date'])df['first_pay_date']).dt.daysdf['real_revenue']=df['total_revenue']df['refund_amount']df['R']=(cutoffdf['last_pay_date']).dt.daysdf['F']=df['total_orders']df['M']=df['real_revenue']df['avg_study']=df['study_minutes'].fillna(0)/np.where(df['lifespan']==0,1,df['lifespan'])df['channel']=df['channel'].fillna('unknown')channel_ltv=df.groupby('channel')['real_revenue'].mean()df['channel_level']=pd.qcut(channel_ltv,3,labels=['low','mid','high']).astype(str)```(2)建立LTV预测模型(8分)采用梯度提升回归树(LightGBM),以lifespan>30的会员为训练集,目标变量为real_revenue,评估指标为RMSE与MAE。要求:写出训练代码并给出交叉验证平均RMSE。答案:```pythonfromlightgbmimportLGBMRegressorfromsklearn.model_selectionimportKFold,cross_val_scorefromsklearn.metricsimportmean_squared_errorX=df[df['lifespan']>30][['R','F','M','avg_study','channel_level','is_vip','province']]y=df[df['lifespan']>30]['real_revenue']model=LGBMRegressor(n_estimators=1000,learning_rate=0.05,min_child_samples=50,random_state=42)cv=KFold(5,shuffle=True,random_state=42)rmse=np.sqrt(-cross_val_score(model,X,y,scoring='neg_mean_squared_error',cv=cv)).mean()print('CVRMSE:',rmse)#输出约198.7元```(3)模型解释与业务建议(6分)利用SHAP值提取Top5重要特征,发现F、M、avg_study、channel_level、is_vip贡献最大。建议:①对低F高M用户推套餐包,提升F;②对高avg_study但低M用户推高价精品课,提高客单;③高channel_level渠道加大投放,低level渠道优化转化路径;④对vip用户推续费优惠,延长lifespan。(4)预算测算(8分)若2026年计划新增会员50万,预测平均LTV为620元,获客成本CPA=180元,则贡献利润=50万×(620-180)=2.2亿元;若CPA升至220元,盈亏平衡LTV=220元,需通过提价或降成本保证ROI≥1。45.计算题:促销折扣阈值优化(15分)某快消品牌历史数据表明,折扣率d∈[0,0.5]与销量q存在关系:q成本单价c=30元,标价p=60元,目标函数为利润π=求:使期望利润最大的折扣率d,并计算对应销量与利润。求:使期望利润最大的折扣率d,并计算对应销量与利润。答案:期望销量E[E对d求导并令为零:=化简得:−60−150比较d=0.5与导数符号:当d=0.5,E[当d=0,E[导数在d<0.7为正,故d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业售后服务流程标准化文档
- 铜响乐器制作工岗前技术应用考核试卷含答案
- 火工品管理工岗前操作规范考核试卷含答案
- 网上支付与财务管理指南
- 丁腈橡胶装置操作工岗前岗位水平考核试卷含答案
- 环己胺装置操作工安全实操知识考核试卷含答案
- 地质样品制备工安全管理测试考核试卷含答案
- 保险代理人安全理论强化考核试卷含答案
- 大专护理心律失常的护理挑战
- 电离辐射计量员岗前工艺控制考核试卷含答案
- 广州市2026年5月普通高三毕业班考前冲刺题(二)历史试卷(含答案)
- 2026年供销合作社笔试题库答案
- 2026年软考-信息系统项目管理师真题及答案解析
- 产科子痫应急预案演练脚本
- 2026年山东铁投能源集团、山东清洁热网有限公司招聘(128人)笔试备考题库及答案详解
- 2026年全国安康杯安全知识竞赛题库含答案详解(突破训练)
- 2026年担保业务岗位高频面试题包含详细解答
- 国家事业单位招聘2025中国工艺美术馆招聘拟聘人员笔试历年参考题库典型考点附带答案详解
- 2026年上海市杨浦区初三语文二模试卷及答案
- 无尘车间生产工艺操作规范手册
- 2025四川自贡市城市建设投资开发集团有限公司招聘2人笔试历年常考点试题专练附带答案详解
评论
0/150
提交评论