版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年秋招数据分析师笔试题库及答案一、SQL基础与进阶1.某新能源汽车APP用户行为表(user_behavior)包含字段:user_id(用户ID)、log_date(登录日期,格式'YYYY-MM-DD')、action_type(行为类型,1-浏览车型,2-预约试驾,3-提交订单)。请写出SQL查询:计算2024年Q3(7-9月)每个用户的最长连续登录天数,并筛选出最长连续登录天数≥7天的用户ID。答案:```sqlWITHranked_datesAS(SELECTuser_id,log_date,-计算当前日期与前一次登录日期的差值,若为1则连续log_dateINTERVAL'1day'ROW_NUMBER()OVER(PARTITIONBYuser_idORDERBYlog_date)ASgroup_flagFROMuser_behaviorWHERElog_dateBETWEEN'2024-07-01'AND'2024-09-30'GROUPBYuser_id,log_date-去重同一用户同一天多次登录),continuous_groupsAS(SELECTuser_id,group_flag,COUNT()ASconsecutive_days-每个连续组的天数FROMranked_datesGROUPBYuser_id,group_flag)SELECTuser_idFROMcontinuous_groupsWHEREconsecutive_days>=7GROUPBYuser_idHAVINGMAX(consecutive_days)>=7;```解析:通过窗口函数ROW_NUMBER提供连续日期分组标识(group_flag),同一组内的日期差为连续天数,最终统计每组的连续天数并筛选符合条件的用户。2.订单表(orders)字段:order_id(订单ID)、user_id(用户ID)、order_time(下单时间,时间戳)、amount(订单金额)、city(城市)。请用SQL计算2024年8月各城市的“首单用户数”(即该月首次在该城市下单的用户数)。答案:```sqlWITHuser_first_orderAS(SELECTuser_id,city,MIN(order_time)ASfirst_order_timeFROMordersWHEREorder_time>='2024-08-01'ANDorder_time<'2024-09-01'GROUPBYuser_id,city)SELECTcity,COUNT(DISTINCTuser_id)ASfirst_order_usersFROMuser_first_orderWHEREfirst_order_time>='2024-08-01'ANDfirst_order_time<'2024-09-01'GROUPBYcity;```解析:先通过MIN(order_time)获取每个用户在各城市的首单时间,再筛选首单时间在8月的记录,按城市分组统计用户数。二、统计学与数据分析3.某电商平台对搜索推荐算法进行AB测试,实验组(新算法)日均UV为10万,转化率(下单用户数/UV)为3.2%;对照组(旧算法)日均UV为10.5万,转化率为2.9%。假设转化率服从二项分布,显著性水平α=0.05,是否可以认为新算法显著提升了转化率?(Z检验临界值:单侧1.645,双侧1.96)答案:步骤1:计算两组转化率差p1=0.032,n1=100000;p2=0.029,n2=105000Δp=p1p2=0.003步骤2:计算合并方差p=(n1p1+n2p2)/(n1+n2)=(1000000.032+1050000.029)/(205000)≈0.0304标准误SE=√[p(1-p)(1/n1+1/n2)]≈√[0.03040.9696(1/100000+1/105000)]≈0.00075步骤3:计算Z值Z=Δp/SE≈0.003/0.00075=4步骤4:结论Z=4>单侧临界值1.645,拒绝原假设,新算法显著提升转化率(p<0.05)。4.某APP用户日活跃数(DAU)的历史数据服从正态分布,均值μ=50万,标准差σ=8万。现抽取30天的DAU数据,样本均值为52万,能否认为当前DAU较历史有显著变化?(α=0.05)答案:原假设H0:μ=50万;备择假设H1:μ≠50万(双侧检验)标准误SE=σ/√n=8/√30≈1.4606万Z=(52-50)/1.4606≈1.37Z临界值为±1.96,1.37未超过临界值,不拒绝H0,无显著变化。三、Python数据处理与建模5.用Pandas处理以下数据:某用户行为数据集df包含列['user_id','event_time','event_type'](event_type为'click','add_cart','pay'),要求:(1)为每个用户计算“点击到加购的平均时间差”(仅保留有点击和加购行为的用户);(2)绘制各行为类型的用户数量占比饼图。答案:```pythonimportpandasaspdimportmatplotlib.pyplotasplt(1)计算点击到加购的平均时间差筛选点击和加购行为,并转换时间格式df['event_time']=pd.to_datetime(df['event_time'])click_add=df[df['event_type'].isin(['click','add_cart'])]按用户和行为类型分组,获取最早时间user_events=click_add.groupby(['user_id','event_type'])['event_time'].min().unstack()过滤同时有点击和加购的用户user_events=user_events.dropna(subset=['click','add_cart'])计算时间差(秒)并求平均user_events['time_diff']=(user_events['add_cart']user_events['click']).dt.total_seconds()avg_time_diff=user_events['time_diff'].mean()print(f"点击到加购平均时间差:{avg_time_diff:.2f}秒")(2)绘制行为类型用户数量占比饼图event_user_count=df.groupby('event_type')['user_id'].nunique().reset_index()event_user_count.columns=['event_type','user_count']plt.pie(event_user_count['user_count'],labels=event_user_count['event_type'],autopct='%1.1f%%')plt.title('各行为类型用户数量占比')plt.show()```6.用Scikit-learn构建一个预测用户是否购买的逻辑回归模型,特征包括年龄(age)、月收入(income)、历史购买次数(purchase_count),标签为是否购买(is_purchase,0/1)。数据已划分为X_train,X_test,y_train,y_test。要求:(1)对数值型特征进行标准化;(2)训练模型并输出准确率、精确率、召回率;(3)解释模型中“月收入”特征的系数含义。答案:```pythonfromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportaccuracy_score,precision_score,recall_score(1)标准化特征scaler=StandardScaler()X_train_scaled=scaler.fit_transform(X_train[['age','income','purchase_count']])X_test_scaled=scaler.transform(X_test[['age','income','purchase_count']])(2)训练模型并评估model=LogisticRegression()model.fit(X_train_scaled,y_train)y_pred=model.predict(X_test_scaled)print(f"准确率:{accuracy_score(y_test,y_pred):.4f}")print(f"精确率:{precision_score(y_test,y_pred):.4f}")print(f"召回率:{recall_score(y_test,y_pred):.4f}")(3)月收入系数解释coefficient=model.coef_[0][1]假设income是第二列特征print(f"月收入特征的系数为{coefficient:.4f},表示月收入每增加1个标准差,用户购买的对数几率(logodds)增加{coefficient}。")```四、业务分析与逻辑思维7.某生鲜电商8月的用户留存率(次周留存)较7月下降5个百分点(从28%降至23%),作为数据分析师,你会如何分析原因?请列出至少5个分析维度及对应的具体指标。答案:分析维度及指标:(1)用户分群:按新老用户、渠道来源(如APP下载/小程序/广告投放)、首次购买品类(生鲜/日用品)分组,对比各组留存率变化,定位是否某类用户留存下滑(如广告新用户留存从35%降至20%)。(2)行为路径:分析用户首周关键行为(如浏览商品数、加购次数、支付订单数)的完成率,若“首周支付≥2单”的用户占比从40%降至30%,可能因物流延迟导致未完成复购。(3)产品体验:查看APP端的崩溃率、加载时长(如首页加载超时率从5%升至12%),或功能改动(如8月上线的“限时抢购”入口隐蔽,导致用户触达率下降)。(4)外部因素:对比同期天气(如8月高温导致生鲜损耗增加,用户收到次品率从3%升至8%)、竞品活动(如某平台8月推出“首单0元购”,分流用户)。(5)时间分布:按用户注册日期(如8月1-10日注册用户留存率25%,11-20日降至18%),结合该时间段的运营动作(如15日起取消新人优惠券),验证是否运营策略调整影响留存。8.估算2025年上海市共享单车的日均订单量,要求给出合理假设和计算逻辑。答案:假设与计算步骤:(1)确定目标人群:上海市常住人口约2487万,其中15-60岁骑行适龄人口占比约70%(约1741万),假设其中30%使用过共享单车(约522万)。(2)日均使用频率:高频用户(每周≥4次)占比30%,日均0.6次;中频用户(每周2-3次)占比50%,日均0.3次;低频用户(每周≤1次)占比20%,日均0.1次。综合日均频率=0.30.6+0.50.3+0.20.1=0.35次/用户。(3)排除重复订单:假设每单对应一次骑行,无同一用户短时间内多单(如通勤往返计2单)。(4)计算订单量:日均订单量=522万用户0.35次/用户≈182.7万单。(5)修正因素:考虑天气影响(如雨天订单下降30%,上海8月雨天占比约20%),修正后日均≈182.7(0.81+0.20.7)=173.6万单。五、综合题9.某视频平台用户观看表(watch_records)字段:user_id、video_id、start_time(开始观看时间)、end_time(结束观看时间)、device(设备,'手机','平板','PC')。请设计一个分析方案,评估“手机端添加倍速播放功能”对用户观看行为的影响,要求包含核心指标、数据对比方法及结论推导逻辑。答案:分析方案:(1)核心指标:观看完成率(完播视频数/总观看视频数)平均观看时长(总观看时长/观看次数)日均观看视频数(总观看次数/用户数)倍速使用占比(使用倍速的观看次数/总观看次数)(2)数据对比方法:时间对比:取功能上线前4周(基线期)和后4周(观察期)的手机端用户数据,计算指标变化(如完播率从55%升至60%)。分组对比:采用AB实验,将手机端用户随机分为实验组(可使用倍速)和对照组(不可使用),确保两组用户画像(如年龄、观看偏好)无显著差异,对比指标差异(如实验组平均观看时长较对照组减少8%)。设备交叉对比:对比手机端与平板/PC端(未上线倍速功能)的指标变化,排除整体趋势影响(如平板端完播率同期下降2%,手机端上升5%,说明倍速功能可能是主因)。(3)结论推
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年湖南高速铁路职业技术学院单招职业适应性测试题库附答案解析
- 2025年龙南县招教考试备考题库及答案解析(必刷)
- 2025年钦州幼儿师范高等专科学校马克思主义基本原理概论期末考试模拟题附答案解析
- 2024年湖南师范大学树达学院马克思主义基本原理概论期末考试题含答案解析(必刷)
- 2025年辽宁经济职业技术学院马克思主义基本原理概论期末考试模拟题附答案解析(夺冠)
- 2025年鹤壁能源化工职业学院单招职业技能测试题库带答案解析
- 2025年山东商务职业学院单招职业技能考试题库带答案解析
- 2024年竹山县幼儿园教师招教考试备考题库附答案解析(必刷)
- 2025年陕西国防工业职业技术学院马克思主义基本原理概论期末考试模拟题及答案解析(夺冠)
- 2024年长汀县招教考试备考题库及答案解析(夺冠)
- 北湖公园水生态施工方案
- 急救培训自查、整改与提升措施
- 免还款协议5篇
- 2024年江苏省无锡市中考数学试卷(副卷)
- 新版GCP培训课件
- 单凤儒《管理学基础》教案
- 客户开发流程图
- 畜牧学概论完整
- DL∕T 516-2017 电力调度自动化运行管理规程
- 钢琴乐理知识考试题库200题(含答案)
- 高一年级英语上册阅读理解专项训练附答案
评论
0/150
提交评论