数据分析师历年考试真题试题库(含答案)_第1页
数据分析师历年考试真题试题库(含答案)_第2页
数据分析师历年考试真题试题库(含答案)_第3页
数据分析师历年考试真题试题库(含答案)_第4页
数据分析师历年考试真题试题库(含答案)_第5页
已阅读5页,还剩11页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析师历年考试练习题试题库(含答案)一、单项选择题(每题2分,共20分)1.以下哪种统计量用于衡量数据的离散程度?A.均值B.中位数C.标准差D.众数答案:C2.在假设检验中,若原假设为H₀:μ=μ₀,备择假设为H₁:μ≠μ₀,当计算得到的p值为0.03时,在显著性水平α=0.05下应:A.拒绝H₀B.不拒绝H₀C.无法判断D.接受H₁答案:A3.SQL中,用于返回表中唯一值的关键字是:A.DISTINCTB.UNIQUEC.GROUPBYD.HAVING答案:A4.某数据集服从正态分布N(μ,σ²),则数据落在(μ3σ,μ+3σ)区间内的概率约为:A.68.27%B.95.45%C.99.73%D.99.99%答案:C5.以下哪种Python库主要用于数据可视化?A.NumPyB.PandasC.MatplotlibD.Scikitlearn答案:C6.在A/B测试中,若实验组的转化率为12%,对照组为10%,且p值为0.01,说明:A.结果不显著,可能由随机误差导致B.结果显著,实验组转化率更高C.样本量不足,需扩大测试D.实验设计存在混淆变量答案:B7.计算两个变量X和Y的Pearson相关系数时,若r=0.8,说明:A.X和Y完全正相关B.X和Y高度正相关C.X和Y无线性相关D.X和Y负相关答案:B8.SQL中,若要查询“2023年1月1日”之后注册的用户,日期字段为reg_date,正确的WHERE子句是:A.WHEREreg_date>'20230101'B.WHEREreg_date>='20230101'C.WHEREreg_date>'2023/01/01'D.以上都对答案:D(注:不同数据库对日期格式的支持可能略有差异,但A、B、C均为合理写法)9.数据清洗中,处理缺失值的方法不包括:A.删除含缺失值的行B.用均值填充数值型变量C.用众数填充分类型变量D.直接忽略缺失值进行建模答案:D10.某电商平台用户购买数据中,“客单价”的定义通常是:A.总销售额/购买用户数B.总销售额/订单数C.总订单数/购买用户数D.总购买用户数/活跃用户数答案:B二、多项选择题(每题3分,共15分,多选、少选、错选均不得分)1.以下属于分类变量的有:A.性别(男/女)B.年龄(岁)C.职业(教师/医生/公务员)D.收入(元)答案:AC2.SQL中,JOIN操作包括:A.INNERJOINB.LEFTJOINC.RIGHTJOIND.FULLOUTERJOIN答案:ABCD3.以下哪些方法可用于特征工程?A.特征缩放(标准化/归一化)B.特征分箱(离散化)C.特征交叉(构造新特征)D.特征选择(如卡方检验筛选)答案:ABCD4.关于混淆矩阵,以下说法正确的有:A.真阳性(TP)是实际为正类且预测为正类的样本数B.假阴性(FN)是实际为负类但预测为正类的样本数C.准确率=(TP+TN)/(TP+TN+FP+FN)D.召回率=TP/(TP+FN)答案:ACD5.数据可视化的基本原则包括:A.准确传达信息B.避免误导性图表(如截断纵轴)C.颜色使用清晰易懂D.尽可能复杂以展示细节答案:ABC三、简答题(每题8分,共40分)1.简述假设检验的基本步骤。答案:(1)设定原假设(H₀)和备择假设(H₁);(2)选择显著性水平α(如0.05);(3)确定检验统计量(如Z统计量、t统计量);(4)计算检验统计量的观测值及对应的p值;(5)比较p值与α,若p<α则拒绝H₀,否则不拒绝H₀。2.解释“过拟合”的概念及解决方法。答案:过拟合指模型在训练数据上表现很好,但在新数据(测试集)上表现差的现象,原因是模型过度学习了训练数据中的噪声和细节。解决方法:(1)增加数据量;(2)正则化(如L1/L2正则化);(3)特征选择(减少冗余特征);(4)早停法(在验证集误差不再下降时停止训练);(5)交叉验证。3.写出SQL查询:从用户表(users)中查询每个城市(city)的用户数,按用户数降序排列。答案:SELECTcity,COUNT()ASuser_countFROMusersGROUPBYcityORDERBYuser_countDESC;4.简述如何用Pandas处理数据中的重复值。答案:(1)使用`duplicated()`方法检测重复行,返回布尔Series,True表示重复;(2)通过`df[df.duplicated()]`查看具体重复数据;(3)使用`drop_duplicates()`方法删除重复行,可指定`subset`参数选择特定列判断重复,`keep`参数指定保留首行或末行(默认保留首行)。5.解释A/B测试中“统计功效”(Power)的含义及影响因素。答案:统计功效指原假设为假时,正确拒绝原假设的概率(即1β,β为第二类错误概率)。影响因素:(1)样本量:样本量越大,功效越高;(2)显著性水平α:α越大,功效越高(但α过大会增加第一类错误);(3)效应量(如两组均值差异):效应量越大,功效越高;(4)数据方差:方差越小,功效越高。四、实操题(共25分)1.(10分)某电商平台有订单表(orders),字段包括:order_id(订单ID)、user_id(用户ID)、order_time(订单时间)、amount(订单金额)。要求用SQL查询每个用户的首次购买时间和首次购买金额。答案:SELECTuser_id,MIN(order_time)ASfirst_order_time,amountASfirst_order_amountFROMordersWHERE(user_id,order_time)IN(SELECTuser_id,MIN(order_time)FROMordersGROUPBYuser_id)GROUPBYuser_id,amount;注:更高效的写法可使用窗口函数:WITHranked_ordersAS(SELECTuser_id,order_time,amount,ROW_NUMBER()OVER(PARTITIONBYuser_idORDERBYorder_time)ASrnFROMorders)SELECTuser_id,order_timeASfirst_order_time,amountASfirst_order_amountFROMranked_ordersWHERErn=1;2.(15分)使用Python的Pandas库完成以下操作:(1)读取CSV文件“sales_data.csv”,包含字段:date(日期)、category(品类)、sales(销售额)、quantity(销量);(2)筛选出2023年13月(1月1日至3月31日)的数据;(3)按品类计算总销售额和平均销量;(4)绘制各品类总销售额的柱状图(使用Matplotlib)。答案:(1)读取数据:importpandasaspddf=pd.read_csv('sales_data.csv')df['date']=pd.to_datetime(df['date'])转换日期格式(2)筛选时间范围:start_date=pd.to_datetime('20230101')end_date=pd.to_datetime('20230331')df_filtered=df[(df['date']>=start_date)&(df['date']<=end_date)](3)按品类聚合:category_stats=df_filtered.groupby('category').agg(total_sales=('sales','sum'),avg_quantity=('quantity','mean')).reset_index()(4)绘制柱状图:importmatplotlib.pyplotaspltplt.figure(figsize=(10,6))plt.bar(category_stats['category'],category_stats['total_sales'],color='skyblue')plt.xlabel('Category')plt.ylabel('TotalSales')plt.title('TotalSalesbyCategory(JanMar2023)')注:题目未要求标题,但实际绘图需标注plt.xticks(rotation=45)plt.tight_layout()plt.show()五、综合分析题(共20分)某在线教育平台想分析用户付费转化情况,现有以下数据:用户表(users):user_id(用户ID)、reg_time(注册时间)、channel(注册渠道)试听记录表(trial):user_id、trial_time(试听时间)、trial_duration(试听时长,分钟)付费表(payment):user_id、pay_time(付费时间)、amount(付费金额)要求:(1)定义“转化周期”为用户从注册到首次付费的时间差,计算所有付费用户的平均转化周期;(2)分析不同注册渠道的付费转化率(付费用户数/注册用户数),并提出优化建议;(3)探索试听时长与付费转化率的关系(需说明分析思路)。答案:(1)计算平均转化周期:首先,需获取每个付费用户的首次付费时间,再与注册时间计算时间差。SQL实现(假设使用MySQL):WITHfirst_payAS(SELECTuser_id,MIN(pay_time)ASfirst_pay_timeFROMpaymentGROUPBYuser_id)SELECTAVG(TIMESTAMPDIFF(DAY,u.reg_time,fp.first_pay_time))ASavg_conversion_daysFROMusersuJOINfirst_payfpONu.user_id=fp.user_id;注:若用Python,可通过Pandas合并用户表和首次付费时间表,计算时间差后取均值。(2)不同渠道付费转化率分析:步骤:①统计各渠道注册用户数:`SELECTchannel,COUNT(DISTINCTuser_id)ASreg_usersFROMusersGROUPBYchannel`;②统计各渠道付费用户数:`SELECTu.channel,COUNT(DISTINCTp.user_id)ASpay_usersFROMusersuLEFTJOINpaymentpONu.user_id=p.user_idGROUPBYu.channel`;③计算转化率:`pay_users/reg_users`;④按转化率排序,分析高/低转化渠道的差异(如用户质量、渠道流量性质等)。优化建议:对高转化率渠道(如渠道A),增加投放预算,优化落地页以保持转化优势;对低转化率渠道(如渠道B),分析用户注册后的行为(如试听完成率、试听时长),可能存在注册引导不清晰或内容与用户需求不匹配,需优化渠道素材或用户路径。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论