2026年数据分析师笔试技能题库_第1页
2026年数据分析师笔试技能题库_第2页
2026年数据分析师笔试技能题库_第3页
2026年数据分析师笔试技能题库_第4页
2026年数据分析师笔试技能题库_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年数据分析师笔试技能题库一、选择题(共5题,每题2分,共10分)1.在处理缺失值时,以下哪种方法适用于数据量较大且缺失比例不高的场景?(单选)A.删除含有缺失值的行B.使用均值/中位数/众数填充C.K最近邻填充D.回归模型预测填充答案:B解析:当数据量较大且缺失比例不高时,使用均值/中位数/众数填充效率高且影响较小。删除行会导致数据丢失,KNN和回归填充计算复杂,不适用于大规模数据。2.以下哪种指标最适合评估分类模型的预测性能?(单选)A.均方误差(MSE)B.R²值C.AUCD.决策树深度答案:C解析:AUC(AreaUndertheROCCurve)适用于评估分类模型的泛化能力,不受类别不平衡影响。MSE和R²用于回归问题,决策树深度是模型结构参数。3.在数据清洗过程中,以下哪项不属于异常值检测的常用方法?(单选)A.3σ法则B.箱线图分析C.算法聚类(如DBSCAN)D.皮尔逊相关系数答案:D解析:3σ法则、箱线图和DBSCAN均可检测异常值,皮尔逊相关系数用于衡量线性相关性,与异常值检测无关。4.以下哪种SQL语句用于计算每个用户的购买次数?(单选)A.`GROUPBYuser_id`B.`SUM(purchase_count)`C.`DISTINCTuser_id`D.`HAVINGCOUNT()`答案:A解析:`GROUPBYuser_id`可将数据按用户分组,结合聚合函数(如COUNT)计算购买次数。选项B仅计算总和,C计算唯一用户数,D是HAVING子句的语法错误。5.在时间序列分析中,ARIMA模型的适用场景是?(单选)A.具有周期性但无趋势的数据B.随机波动较大的数据C.季节性强的数据D.线性关系明显的数据答案:C解析:ARIMA(自回归积分滑动平均模型)适用于具有季节性或趋势的时间序列,选项A可使用简单ARIMA,B需差分处理,D适合线性回归。二、填空题(共5题,每题2分,共10分)6.在交叉验证中,k折交叉验证将数据分为______份,每折作为验证集一次。答案:k解析:k折交叉验证将数据均等分为k份,轮流使用k-1份训练、1份验证,重复k次。7.SQL中,使用______函数可以计算分组后的非重复行数。答案:COUNT(DISTINCT)解析:`COUNT(DISTINCT)`统计分组后不重复的记录数,如`COUNT(DISTINCTuser_id)`。8.在Excel中,使用______函数可以计算数据的中位数。答案:MEDIAN解析:`MEDIAN`返回一组数据的中值,适用于排序后的数据集。9.逻辑回归模型的输出值范围是______。答案:[0,1]解析:逻辑回归输出Sigmoid函数值,介于0和1之间,表示事件概率。10.在数据可视化中,散点图适用于展示______关系。答案:两个变量解析:散点图通过点坐标展示两个连续变量的相关性,如散点图分析销售额与广告投入的关系。三、简答题(共5题,每题4分,共20分)11.简述数据探索性分析(EDA)的主要步骤。答案:1.数据概览:查看数据维度、缺失值、数据类型等基本信息。2.统计描述:计算均值、中位数、标准差等,了解数据分布。3.可视化分析:使用直方图、箱线图、散点图等探索变量关系。4.异常值检测:识别离群点,分析其影响。5.相关性分析:计算相关系数,发现变量间依赖关系。12.解释什么是数据倾斜,如何解决?答案:数据倾斜指分布式计算中某节点数据量过大,导致任务执行不平衡。解决方法:-重分区(Repartition)将数据均匀分配。-使用MapReduce的Combiner阶段局部聚合。-优化SQL查询(如先过滤小数据集)。13.举例说明什么是特征工程,并列举两种常用方法。答案:特征工程指通过转换原始数据提升模型性能,如:-特征衍生:从现有字段生成新特征(如用户注册时间与最近一次购买时间的差值)。-特征编码:将类别变量量化(如One-Hot编码)。14.描述A/B测试的基本流程及关键指标。答案:流程:1.定义目标(如转化率提升)。2.分组(随机分配控制组/实验组)。3.收集数据并分析差异。4.做出决策。关键指标:转化率、CTR(点击率)、统计显著性。15.解释SQL中的JOIN类型及其适用场景。答案:-INNERJOIN:仅保留两表匹配的记录(适用于筛选关联数据)。-LEFTJOIN:保留左表所有记录,右表不匹配用NULL填充(适用于保留主表数据)。-FULLOUTERJOIN:保留两表所有记录,不匹配部分用NULL填充(适用于全数据关联)。四、编程题(共3题,每题6分,共18分)16.使用Python(Pandas)处理以下数据:pythonimportpandasaspddata={'user_id':[1,2,3,4],'age':[25,30,None,35],'city':['北京','上海','北京','深圳']}df=pd.DataFrame(data)要求:1.填充年龄的缺失值(用均值)。2.添加新列`age_group`,规则:<30为"青年",≥30为"中年"。3.统计每个城市的用户数。答案:pythonimportpandasaspd原始数据data={'user_id':[1,2,3,4],'age':[25,30,None,35],'city':['北京','上海','北京','深圳']}df=pd.DataFrame(data)1.填充缺失值df['age']=df['age'].fillna(df['age'].mean())2.添加年龄分组df['age_group']=df['age'].apply(lambdax:'青年'ifx<30else'中年')3.统计城市用户数city_count=df['city'].value_counts()print(city_count)17.编写SQL查询,实现以下逻辑:表`orders`包含`order_id`(订单号)、`user_id`(用户ID)、`amount`(金额)、`order_date`(日期)。要求:1.查询2023年每月总销售额。2.筛选出金额最高的10%订单。答案:sql--1.查询2023年每月总销售额SELECTDATE_FORMAT(order_date,'%Y-%m')ASmonth,SUM(amount)AStotal_salesFROMordersWHEREYEAR(order_date)=2023GROUPBYmonthORDERBYmonth;--2.筛选金额最高的10%订单SELECTorder_id,user_id,amountFROM(SELECTorder_id,user_id,amount,NTILE(10)OVER(ORDERBYamountDESC)ASpercentileFROMorders)ASrankedWHEREpercentile=1;18.假设使用SparkSQL处理以下数据:sqlCREATETABLEsales(product_idINT,regionSTRING,quantityINT);要求:1.计算每个区域的商品总销量。2.找出销量最低的前3个商品。答案:sql--1.每个区域商品总销量SELECTregion,SUM(quantity)AStotal_quantityFROMsalesGROUPBYregion;--2.销量最低的前3个商品SELECTproduct_id,SUM(quantity)AStotal_quantityFROMsalesGROUPBYproduct_idORDERBYtotal_quantityASCLIMIT3;五、综合分析题(共2题,每题8分,共16分)19.某电商平台用户行为数据如下表:|用户ID|浏览页面数|购物车加入商品数|转化(购买)|注册时间(天)||-||--|-|-||101|10|2|是|120||102|5|0|否|45||...|...|...|...|...|要求:1.分析转化率与浏览页面数的关系。2.提出至少两种提升转化率的建议。答案:1.分析:-绘制散点图,观察转化组(是)与未转化组(否)的页面数分布差异。-计算两组页面数的均值差异(如转化组均值>未转化组)。2.建议:-优化商品推荐:增加高意向用户的曝光量。-简化购物流程:减少加入购物车的跳转步骤。20.假设某城市共享单车数据如下:|记录ID|起始点经度|起始点纬度|终止点经度|终止点纬度|骑行时长(分钟)||-|||||--||1|116.38|39.90|116.39|39.91|5||...|...|...|...|...|...

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论