版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年58数据分析笔试题及答案
一、单项选择题,(总共10题,每题2分)。1.在58同城租房业务中,若需用“近7日有效连接转化率”衡量流量质量,该指标的分母应取A.近7日全部UVB.近7日点击“联系房东”按钮的UVC.近7日有详情页访问的UVD.近7日有列表页曝光的UV2.使用Pythonpandas处理5000万行用户行为日志时,为降低内存占用,下列做法无效的是A.将user_id由int64转为uint32B.对category字段使用category类型C.先抽样10%做EDA再全量跑模型D.用read_csv的dtype参数指定列类型3.58同城帖子详情页做A/B测试,实验组在标题下方增加“平台验真”标签,若评价指标为“有效微聊转化率”,则必需的假设检验是A.两独立样本t检验B.配对t检验C.卡方独立性检验D.单因素方差分析4.在58二手车价格预测模型中,若变量“车龄”与“里程”相关系数达0.92,则下一步最合理的处理是A.直接删除车龄B.做VIF检测再决定C.用PCA降维D.用Lasso自动筛选5.58本地服务类目采用UpliftModel评估“置顶”功能对成交的增量,建模阶段的核心因变量应为A.是否成交B.成交GMVC.处理组与对照组的成交差异D.个体处理效应6.58同城每日新增帖子约300万,若要用Hive构建分区分桶表提升查询速度,合理的分区字段是A.post_idB.user_idC.dtD.city7.在58同城用户画像中,若将“最近30天APP启动次数”做分箱,使用等频分箱相比等距分箱的优势是A.降低异常值影响B.提高IV值C.减少计算量D.保持单调性8.58同城推荐系统使用DeepFM,其中FM部分主要解决A.高阶特征交互B.稀疏特征低秩表示C.序列特征建模D.多目标学习9.58同城商家信用分采用XGBoost输出概率再校准,校准方法选择PlattScaling需额外准备的数是A.训练集交叉验证预测概率B.测试集真实标签C.验证集预测概率与真实标签D.训练集特征重要性10.58同城数据治理中,对“手机号”字段做MD5脱敏后仍可进行A.精确匹配B.模糊匹配C.聚合统计D.反向解密二、填空题,(总共10题,每题2分)。11.58同城日志服务器使用________协议将日志实时写入Kafka,以保证至少一次语义。12.在58同城房源质量分模型中,若某特征WOE值为0.35,则该特征对正样本的logodds________(填“正向”或“负向”)贡献。13.58同城采用Lambda架构,其中________层负责存储批量计算得到的用户长期兴趣标签。14.使用58同城用户搜索词构建TF-IDF向量时,若词w在单条文档中出现5次,文档总长100词,语料库总文档1亿,含w的文档100万,则IDF值近似为________。15.58同城实时风控系统使用FlinkCEP,当用户30分钟内发布超过________条帖子即触发异常。16.58同城APP端埋点规范中,事件“点击电话”对应的event_id为________。17.在58同城二手车图像审核中,使用ResNet50提取特征后做相似图检索,常采用________距离度量。18.58同城商家分层运营将月GMV大于10万且月活跃天数大于20的商家标记为________层级。19.58同城数据仓库使用________模型作为核心建模方法,以保证事实表与维度表的一致性。20.58同城使用HiveSQL计算近30日留存率时,常用________函数将用户首次活跃日期与后续活跃日期关联。三、判断题,(总共10题,每题2分)。21.58同城推荐系统冷启动阶段,ItemCF比UserCF更易落地。22.在58同城,使用AB实验评估“列表页增加视频卡片”对CTR提升,若实验组CTR提升2%,p值0.04,可认为业务显著。23.58同城数据资产目录中,数据血缘解析依赖AtlasHook在Hive执行引擎插入埋点。24.58同城使用SparkMLlib训练GBDT时,设置maxDepth越大越容易出现过拟合。25.58同城用户画像中的“租房偏好价格段”属于静态标签。26.58同城实时数仓采用Hudi的Merge-On-Read模式可在查询侧看到最新快照。27.58同城对日志做脱敏时,MD5加盐后相同原文每次输出一致。28.58同城使用KafkaMirrorMaker做跨机房数据复制,可保证消息顺序性。29.58同城在双十一大促期间,将Redis淘汰策略改为allkeys-lru以优先保证热点key。30.58同城采用DataWorks进行调度,当上游任务失败时,下游任务默认自动重跑3次。四、简答题,(总共4题,每题5分)。31.简述58同城如何利用双重差分法(DID)评估“精选房源”标签对成交GMV的因果效应,并说明关键假设。32.58同城日志出现字段漂移导致离线模型特征分布变化,请给出完整监控与修正流程。33.说明58同城在训练房价预测模型时,如何用SHAP值解释“地铁距离”特征对高单价房源的影响。34.58同城采用FlinkSQL实现实时UV计算,请写出核心逻辑并说明如何保障Exactly-Once语义。五、讨论题,(总共4题,每题5分)。35.58同城计划将推荐系统从离线训练升级为实时深度模型,请讨论技术路线、特征更新策略及可能带来的业务风险。36.58同城数据湖仓一体方案中,讨论Iceberg与Hudi在回滚能力、并发写及小文件合并上的差异,并给出选型建议。37.58同城商家存在“刷单”行为,请设计一套基于图神经网络的多关系作弊识别框架,并讨论如何平衡准确率与召回率。38.58同城拟用联邦学习联合手机厂商做用户意图建模,请讨论数据异构、通信开销与隐私合规三大挑战及应对策略。答案与解析一、1B2C3C4B5D6C7A8B9C10A二、11.syslog-ng12.正向13.Batch14.215.1016.58_tel_click17.余弦18.S19.Kimball维度20.LAG三、21√22×23√24√25×26√27×28√29√30×四、31.选取上线前后各8周数据,以城市-时间为面板,实验组为打标签房源,对照组为未打标签但同城市同价位房源,构建GMV的DID模型:Y_it=α+βT_i+γPost_t+δ(T_i×Post_t)+ε_it。δ即为因果效应。关键假设:平行趋势,即实验组与对照组在标签上线前GMV趋势一致;无同时期干扰;SUTVA。32.步骤:1.每日离线任务计算特征分布KL散度与PSI,超阈值告警;2.自动触发特征重要性重排序,剔除漂移过大特征;3.触发在线模型热更新,使用最近7日数据重训;4.灰度实验对比AUC与业务指标,确认无误后全量切换;5.记录漂移报告入知识库。33.训练XGBoost后,取SHAP值计算“地铁距离”在高单价样本上的平均绝对贡献,得到正贡献0.18,说明距地铁越近,模型预测单价越高;绘制SHAP依赖图可见在0-500米区间斜率最大,超过1000米后贡献趋零,解释“地铁距离”对高单价房源呈边际递减。34.核心逻辑:CREATETABLEuv_tmpASSELECTdt,COUNT(DISTINCTuser_id)ASuvFROMlog_kafkaGROUPBYTUMBLE(proctime,INTERVAL'1'DAY);使用Kafka-Flink两阶段提交,checkpoint与Kafka事务对齐,失败时回滚checkpoint并重放Kafka事务,保障Exactly-Once。五、35.技术路线:在线DeepFM+ParameterServer,特征更新采用Kafka+FlinkCEP,实时拼接用户行为序列,模型增量训练每15分钟一次。风险:特征穿越、线上延迟、资源成本翻倍,需灰度实验与降级预案。36.Iceberg支持快照级回滚,并发写基于乐观锁,小文件合并需手动optimize;Hudi支持时间旅行与自动小文件合并,并发写基于MVCC。若58同城需频繁回滚且读多写少,选Iceberg;若需自动合并且写多读少,选Hudi。37.框架:以商家、用户、订单为节点,建立“
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年面试进阶国家能源局面试心理素质培养
- 2026年电力建设行业校招面试企业认知题
- 2026年托育师个人职业素养提升训练题目
- 2026年面试中如何展现个人价值观与企业文化契合度
- 2026年知识点大解析与题目训练
- 2026年电商平台商标侵权题库
- 2026年数据合规官岗位面试高频问题集
- 2026年本科院校图书馆古籍修复岗位面试问答
- 2026年机关干部保密工作先进集体评选题库
- 2026年产品包装创意比武题库
- 2026年1级乐理考试试题及答案
- 2020年HJ1237全国统考培训试题及官方发布答案
- 2025年上海市公安机关辅警招聘(面试)复习题及答案
- 2026年云南省玉溪市学业水平模拟考试九年级物理试题卷
- 2026年化验考核练习试题附答案详解【突破训练】
- 儿童自闭症康复机构运营方案
- 2025年新疆克拉玛依市初中学业水平模拟测试道德与法治、历史试卷卷-初中道德与法治
- 2026年中考英语仿真模拟试卷 3套(含答案解析)
- 泉城书房建设实施方案
- 《不可移动文物认定导则(试行)》
- 2026年老年专科护士考试题库及答案
评论
0/150
提交评论