2026年CDA数据分析师(二级)试题及答案_第1页
2026年CDA数据分析师(二级)试题及答案_第2页
2026年CDA数据分析师(二级)试题及答案_第3页
2026年CDA数据分析师(二级)试题及答案_第4页
2026年CDA数据分析师(二级)试题及答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年CDA数据分析师(二级)试题及答案1.某电商平台测试新首页转化率,原假设H0:新旧首页转化率无差异,备择假设H1:新首页转化率高于旧首页。若检验设定显著性水平α=0.03,计算得到p值为0.027,下列说法正确的是()A.有97%的概率认为新首页转化率显著高于旧首页B.若拒绝原假设,犯第一类错误的概率不超过3%C.本次检验结果不能在α=0.05的显著性水平下拒绝原假设D.本次检验可以证明原假设成立的概率为2.7%答案:B解析:显著性水平α是犯第一类错误(拒绝真实原假设)的最大允许概率,p值为原假设成立时观测到当前或更极端样本的概率。A选项错误,显著性水平不对应结论的成立概率;B选项正确,p<α时拒绝原假设,此时犯第一类错误的概率不超过设定的α=0.03;C选项错误,0.027<0.05,可在α=0.05水平下拒绝原假设;D选项错误,p值不是原假设成立的概率。2.现有用户订单表order_info包含字段user_id(用户ID)、order_id(订单ID)、order_time(下单时间)、pay_amount(支付金额),需要查询每个用户最近一次下单的支付金额,下列SQL语句逻辑正确的是()A.SELECTuser_id,pay_amountFROMorder_infoGROUPBYuser_idHAVINGorder_time=MAX(order_time)B.SELECTuser_id,pay_amountFROMorder_infoo1WHEREorder_time=(SELECTMAX(order_time)FROMorder_infoo2WHEREo2.user_id=o1.user_id)C.SELECTuser_id,pay_amount,ROW_NUMBER()OVER(PARTITIONBYuser_idORDERBYorder_timeDESC)rnFROMorder_infoWHERErn=1D.SELECTuser_id,pay_amountFROMorder_infoORDERBYorder_timeDESCLIMIT1答案:B解析:A选项错误,GROUPBY后非分组、非聚合字段不能直接用于HAVING子句,不符合SQL执行逻辑;B选项正确,关联子查询为每个user_id匹配其最大下单时间对应的记录;C选项错误,窗口函数计算优先级低于WHERE子句,无法直接在WHERE中引用窗口函数别名,需嵌套子查询先计算rn再筛选;D选项错误,LIMIT1仅返回全表最近1条订单,无法匹配每个用户的最近订单。3.某分析师建立多元线性回归模型预测用户生命周期价值,VIF检验结果显示某特征的方差膨胀因子为18,下列处理方式不合理的是()A.剔除该特征后重新拟合模型B.对该特征与其他高相关特征做PCA降维C.使用L1正则化的回归模型替代普通最小二乘回归D.增大样本量降低共线性影响答案:D解析:多重共线性本质是特征间线性相关性过高,与样本量无直接关联,增大样本量无法缓解共线性问题。A、B、C均为多重共线性的标准处理方案:剔除高VIF特征、降维合并相关特征、L1正则化可让高相关特征的系数稀疏化,降低共线性影响。4.对用户消费行为做K-Means聚类分群,下列评估指标中,不需要使用真实标签就能衡量聚类效果的是()A.兰德指数(RI)B.调整兰德指数(ARI)C.轮廓系数(SilhouetteCoefficient)D.F1分数答案:C解析:轮廓系数通过样本到自身簇的平均距离与到最近其他簇的平均距离的差值,衡量聚类的紧密度和分离度,属于无监督评估指标,无需真实标签。A、B、D均为有监督评估指标,需已知样本真实类别标签才能计算。5.某APP做功能灰度测试,计划将1%的用户纳入实验组,下列分流方式最合理的是()A.按用户注册时间分流,注册时间最晚的1%用户进入实验组B.对用户ID做哈希取模,模为100时结果为0的用户进入实验组C.按用户终端系统分流,iOS用户中随机抽取1%进入实验组D.按用户活跃等级分流,高活跃用户中抽取1%进入实验组答案:B解析:AB测试分流要求满足随机性和代表性,用户ID哈希取模是均匀随机的,不会引入样本偏差。A选项新注册用户、C选项仅iOS用户、D选项仅高活跃用户的样本属性与全量用户存在差异,会导致测试结果无法推广到全量用户。6.下列关于逻辑回归模型的说法正确的有()A.逻辑回归的因变量服从伯努利分布B.逻辑回归可以输出样本属于正类的概率值C.逻辑回归可以处理特征间的非线性关系D.缺失值填充为固定值后可以直接输入逻辑回归模型训练答案:AB解析:A选项正确,逻辑回归用于二分类任务,因变量为0/1二值变量,服从伯努利分布;B选项正确,逻辑回归通过sigmoid函数将线性输出映射到0-1区间,对应正类的预测概率;C选项错误,逻辑回归是广义线性模型,仅能捕捉特征与输出的线性关系,需手动构造非线性特征才能处理非线性关系;D选项错误,逻辑回归对缺失值敏感,固定值填充会引入偏差,需根据特征分布选择中位数、均值、模型预测填充等合理方案,类别型特征还需做编码处理。7.下列Python数据处理操作中,说法正确的有()A.pandas中df.dropna(axis=0,thresh=3)表示删除所有包含空值的行B.pandas中groupby分组后的agg函数可以同时对不同字段应用不同的聚合函数C.numpy中np.dot函数可以计算两个矩阵的乘积D.sklearn中train_test_split函数的test_size参数只能设置为0到1之间的浮点数答案:BC解析:A选项错误,thresh=3表示保留至少有3个非空值的行,删除所有含空值的行需设置how='any';B选项正确,agg支持传入字典为不同字段指定不同聚合方式,如agg({'order_amount':'sum','order_id':'count'});C选项正确,np.dot对二维数组等价于矩阵乘法;D选项错误,test_size可设置为整数,表示测试集的样本数量。8.关于时间序列预测的ARIMA模型,下列说法正确的有()A.ARIMA(p,d,q)中d表示差分阶数,用于将非平稳序列转化为平稳序列B.ARIMA模型适用于存在明显周期性波动的时间序列预测C.可以通过ACF和PACF图辅助确定p和q的取值D.ARIMA模型对异常值不敏感,建模前不需要做异常值处理答案:AC解析:A选项正确,d是差分阶数,多次差分可消除序列的趋势性,转化为平稳序列满足ARMA建模要求;B选项错误,ARIMA适合平稳序列或差分后平稳的序列,存在明显周期性的序列需用季节性ARIMA(SARIMA)建模;C选项正确,ACF图判断q的阶数、PACF图判断p的阶数是ARIMA参数选择的常用方法;D选项错误,异常值会严重影响差分和序列平稳性判断,建模前必须做异常值检测和处理。9.下列数据治理相关操作中,属于数据质量监控范畴的有()A.每日校验订单表的支付金额总和与财务系统对账数据的差值是否超过阈值B.对用户隐私字段做脱敏处理后才能开放给分析师查询C.监控用户行为埋点表的日活数据环比波动幅度是否超过20%D.定期删除超过存储周期的历史归档数据答案:AC解析:数据质量监控核心是监控数据的准确性、完整性、一致性、时效性等维度,A属于准确性校验、C属于完整性/时效性校验,均属于数据质量监控范畴。B属于数据安全管理,D属于数据生命周期管理,不属于数据质量监控。10.某零售企业做用户复购预测,模型输出的混淆矩阵如下:实际复购(正类)样本1000个,其中被预测为复购的有800个;实际未复购(负类)样本9000个,其中被预测为未复购的有8100个。下列说法正确的有()A.模型的准确率为89%B.模型的精确率为80%C.模型的召回率为80%D.模型的F1分数约为44.4%答案:ACD解析:混淆矩阵元素为TP=800(真正例)、FN=200(假负例)、TN=8100(真负例)、FP=900(假正例)。准确率=(TP+TN)/总样本=(800+8100)/10000=89%,A正确;精确率=TP/(TP+FP)=800/1700≈47.06%,B错误;召回率=TP/(TP+FN)=800/1000=80%,C正确;F1=2精确率召回率/(精确率+召回率)≈20.47060.8/1.2706≈44.4%,D正确。解析:混淆矩阵元素为TP=800(真正例)、FN=200(假负例)、TN=8100(真负例)、FP=900(假正例)。准确率=(TP+TN)/总样本=(800+8100)/10000=89%,A正确;精确率=TP/(TP+FP)=800/1700≈47.06%,B错误;召回率=TP/(TP+FN)=800/1000=80%,C正确;F1=2精确率召回率/(精确率+召回率)≈20.47060.8/1.2706≈44.4%,D正确。11.某餐饮企业有3张表,结构如下:1)门店表store:store_id(门店ID,主键)、city(城市)、open_date(开业日期)2)菜品表dish:dish_id(菜品ID,主键)、dish_name(菜品名称)、category(菜品分类,可选值:主食、热菜、凉菜、甜品、饮品)、price(单价)3)订单明细表order_detail:order_id(订单ID)、store_id(门店ID)、dish_id(菜品ID)、sale_num(销售份数)、sale_date(销售日期,格式'yyyy-mm-dd')需求:统计2025年一线城市(北京、上海、广州、深圳)所有门店的热菜品类的销售情况,输出字段为:城市、门店ID、热菜总销售额、热菜销售总份数、热菜动销SKU数(动销定义:该菜品当年有至少1份销量),结果按热菜总销售额降序排列。请写出符合要求的SQL语句。答案:WITHhot_dish_saleAS(SELECTs.city,od.store_id,od.dish_id,SUM(od.sale_num)ASdish_sale_num,SUM(od.sale_numd.price)ASdish_sale_amountSUM(od.sale_numd.price)ASdish_sale_amountFROMorder_detailodJOINstoresONod.store_id=s.store_idJOINdishdONod.dish_id=d.dish_idWHEREs.cityIN('北京','上海','广州','深圳')ANDd.category='热菜'ANDod.sale_dateBETWEEN'2025-01-01'AND'2025-12-31'GROUPBYs.city,od.store_id,od.dish_id)SELECTcityAS城市,store_idAS门店ID,SUM(dish_sale_amount)AS热菜总销售额,SUM(dish_sale_num)AS热菜销售总份数,COUNT(DISTINCTdish_id)AS热菜动销SKU数FROMhot_dish_saleGROUPBYcity,store_idORDERBY热菜总销售额DESC;解析:首先通过CTE关联三张表,过滤出符合城市、品类、时间条件的菜品级销售数据,聚合每个门店每个菜品的销量和销售额,CTE层级已自动过滤掉销量为0的菜品,之后按城市和门店二次聚合,COUNT(DISTINCTdish_id)即可得到动销SKU数,最终按销售额降序排序。12.现有用户消费特征数据集user_feature.csv,包含字段:user_id(用户ID)、consume_cnt(近30天消费次数)、avg_amount(单次消费平均金额)、last_consume_days(距上次消费天数)、is_churn(是否流失,1为流失,0为未流失)。要求完成以下操作:1)读取数据集,删除user_id字段,将数据集按7:3划分为训练集和测试集,随机种子设置为42;2)使用逻辑回归模型训练,参数设置为penalty='l2',C=1.0,random_state=42;3)计算模型在测试集上的AUC值和KS值,输出结果保留2位小数。请写出完整可运行的Python代码。答案:importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportroc_auc_scoreimportnumpyasnpdefcalc_ks(y_true,y_score):data=pd.DataFrame({'y_true':y_true,'y_score':y_score}).sort_values(by='y_score',ascending=False)data['cum_good']=(1data['y_true']).cumsum()/(1data['y_true']).sum()data['cum_bad']=data['y_true'].cumsum()/data['y_true'].sum()returnabs(data['cum_good']data['cum_bad']).max()数据读取与划分df=pd.read_csv('user_feature.csv')df=df.drop(columns=['user_id'])X=df.drop(columns=['is_churn'])y=df['is_churn']X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)模型训练lr=LogisticRegression(penalty='l2',C=1.0,random_state=42)lr.fit(X_train,y_train)y_score=lr.predict_proba(X_test)[:,1]指标计算auc=roc_auc_score(y_test,y_score)ks=calc_ks(y_test,y_score)print(f"AUC值:{round(auc,2)}")print(f"KS值:{round(ks,2)}")解析:自定义KS计算函数通过按预测概率降序排序后,计算累计好用户(未流失)和累计坏用户(流失)的占比差值的最大值得到KS值;数据集划分时test_size=0.3对应7:3的拆分比例,固定随机种子保证结果可复现;predict_proba输出的第二列为正类(流失)的预测概率,用于计算AUC和KS指标。13.某新能源汽车企业2025年全年销量完成率仅为72%,远低于年初制定的目标,管理层要求数据分析师定位销量未达标的原因,并给出优化建议。现有数据资源包括:用户潜客线索表、用户试驾表、订单表、交付表、门店运营数据表、车型参数及定价表、竞品销量及定价数据、宏观汽车消费政策数据。要求:1)写出完整的分析框架,列出核心分析维度及对应的验证逻辑;2)给出至少3条可落地的优化建议。答案:1.分析框架及验证逻辑(1)漏斗转化拆解:销量=线索量线索转化率试驾率订单转化率交付率,计算2025年各环节转化率与2024年同期、年初目标值的差值,定位缺口最大的环节:若线索量低于目标则获客端存在问题,若线索到试驾转化率低则线索质量或邀约能力存在问题,若试驾到订单转化率低则产品竞争力、定价或销售转化能力存在问题,若订单到交付转化率低则产能、供应链或交付服务存在问题。(1)漏斗转化拆解:销量=线索量线索转化率试驾率订单转化率交付率,计算2025年各环节转化率与2024年同期、年初目标值的差值,定位缺口最大的环节:若线索量低于目标则获客端存在问题,若线索到试驾转化率低则线索质量或邀约能力存在问题,若试驾到订单转化率低则产品竞争力、定价或销售转化能力存在问题,若订单到交付转化率低则产能、供应链或交付服务存在问题。(2)多维度细分验证:①区域维度:拆分各省份/城市的销量完成率,对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论