版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年批次《大数据分析师》证书考试练习题及答案一、单项选择题(每题2分,共40分)1.以下关于数据仓库(DataWarehouse)与数据湖(DataLake)的描述,错误的是:A.数据仓库通常存储结构化数据,数据湖可存储多类型数据B.数据仓库在加载数据前需定义模式(Schema-on-Write),数据湖采用写入时无模式(Schema-on-Read)C.数据仓库主要支持OLTP操作,数据湖主要支持OLAP分析D.数据仓库的元数据管理更严格,数据湖的元数据管理更灵活答案:C2.某电商平台订单表(order)包含字段user_id(用户ID)、order_time(下单时间)、amount(金额),需统计2025年Q4每个用户的累计消费金额,正确的SQL语句是:A.SELECTuser_id,SUM(amount)FROMorderWHEREorder_timeBETWEEN'2025-10-01'AND'2025-12-31'GROUPBYuser_idB.SELECTuser_id,SUM(amount)FROMorderWHEREYEAR(order_time)=2025ANDQUARTER(order_time)=4GROUPBYuser_idC.SELECTuser_id,SUM(amount)OVER(PARTITIONBYuser_id)FROMorderWHEREorder_timeBETWEEN'2025-10-01'AND'2025-12-31'D.SELECTuser_id,TOTAL(amount)FROMorderWHEREorder_timeLIKE'2025-1[0-2]-%'GROUPBYuser_id答案:A3.处理Spark任务时出现数据倾斜(DataSkew),以下最有效的解决方法是:A.增加Executor数量B.对倾斜键添加随机前缀后聚合,再去前缀二次聚合C.提高Driver内存D.将RDD转换为DataFrame答案:B4.特征工程中,使用主成分分析(PCA)进行降维的主要目的是:A.减少特征间的多重共线性B.保留特征的类别信息C.提高模型的可解释性D.增强特征的非线性表达能力答案:A5.关于A/B测试的描述,错误的是:A.测试组与对照组需满足同分布B.样本量需通过统计功效(Power)计算确定C.实验期间需保持其他变量不变D.若P值小于0.05,则实验结果必然具有实际业务价值答案:D6.Kafka中,消费者组(ConsumerGroup)的作用是:A.保证消息有序消费B.实现消息的广播和负载均衡C.提高生产者的发送吞吐量D.管理偏移量(Offset)的自动提交答案:B7.以下SparkRDD操作中,属于转换(Transformation)的是:A.collect()B.count()C.reduce()D.mapValues()答案:D8.分类模型评估时,若业务场景关注“尽可能识别所有正样本”,应重点关注的指标是:A.准确率(Accuracy)B.精确率(Precision)C.召回率(Recall)D.F1分数答案:C9.Flink中处理实时数据流时,若需基于事件发生时间(EventTime)计算窗口,必须配置的组件是:A.水位线(Watermark)提供器B.状态后端(StateBackend)C.检查点(Checkpoint)D.时间窗口(TimeWindow)答案:A10.数据治理的核心目标是:A.提高数据存储效率B.确保数据的准确性、完整性和一致性C.增加数据的多样性D.降低数据处理成本答案:B11.某数据集包含10万条记录,其中特征X的缺失率为35%,且缺失模式与目标变量Y强相关,最合理的处理方式是:A.直接删除缺失值记录B.用均值填充缺失值C.用中位数填充缺失值D.将缺失作为独立类别(如标记为-999)并保留该特征答案:D12.以下机器学习算法中,属于提供式模型的是:A.逻辑回归(LogisticRegression)B.支持向量机(SVM)C.朴素贝叶斯(NaiveBayes)D.随机森林(RandomForest)答案:C13.用Python的scikit-learn训练线性回归模型时,若出现“ConvergenceWarning:lbfgsfailedtoconverge”,最可能的原因是:A.学习率(LearningRate)设置过大B.特征未进行标准化处理C.模型复杂度不足(欠拟合)D.训练数据中存在多重共线性答案:B14.Hive中,以下存储格式按查询效率从高到低排序正确的是:A.ORC>Parquet>TextFileB.Parquet>TextFile>ORCC.TextFile>ORC>ParquetD.ORC>TextFile>Parquet答案:A15.某电商用户行为数据中,“页面浏览”(PV)和“独立访客”(UV)的比值(PV/UV)突然下降50%,可能的原因是:A.新增大量高价值用户B.网站加载速度变慢导致用户跳出率增加C.推出限时促销活动吸引用户多次访问D.统计系统故障导致PV计数重复答案:B16.关联规则挖掘中,提升度(Lift)的计算公式是:A.支持度(Support)/置信度(Confidence)B.置信度(Confidence)/支持度(Support)C.置信度(Confidence)/(前件支持度×后件支持度)D.置信度(Confidence)/(前件支持度)答案:C17.以下不属于流计算(StreamComputing)特点的是:A.数据实时处理B.数据量无限(Unbounded)C.强调一次性计算(BatchProcessing)D.支持低延迟响应答案:C18.用XGBoost训练分类模型时,若模型在训练集上准确率95%,验证集上准确率70%,应采取的优化措施是:A.增加树的深度(max_depth)B.增大学习率(learning_rate)C.增加正则化参数(reg_alpha/reg_lambda)D.减少迭代次数(n_estimators)答案:C19.数据可视化中,展示“2025年各月份销售额占全年比例”最适合的图表是:A.折线图B.柱状图C.饼图D.散点图答案:C20.以下关于K-means聚类的描述,错误的是:A.需要预先指定聚类数KB.对异常值敏感C.适用于非凸形状的簇D.采用欧氏距离计算样本间相似度答案:C二、简答题(每题5分,共40分)1.简述数据清洗的主要步骤及各步骤的核心任务。答案:数据清洗主要包括:(1)缺失值处理:识别缺失模式(随机/非随机缺失),选择删除、填充(均值/中位数/模型预测)或保留缺失标记;(2)异常值检测:通过Z-score、IQR或模型(如孤立森林)识别,根据业务意义决定修正或删除;(3)重复值处理:删除完全重复记录,或根据业务规则合并部分重复记录;(4)格式标准化:统一日期格式、数值单位等;(5)一致性检查:修正逻辑矛盾(如年龄为负数)或跨表冲突(如用户ID在订单表与用户表不匹配)。2.列举特征选择的3种常用方法,并说明其核心思想。答案:(1)过滤法(Filter):基于统计指标(如卡方检验、信息增益、相关系数)评估特征与目标变量的相关性,保留高得分特征;(2)包装法(Wrapper):将特征选择视为搜索问题,用模型性能(如准确率)作为评价指标,通过前向/后向搜索选择最优子集;(3)嵌入法(Embedded):在模型训练过程中自动学习特征重要性(如L1正则化、树模型的特征重要度),筛选关键特征。3.随机森林(RandomForest)与梯度提升树(GradientBoostingTree,GBDT)的主要区别有哪些?答案:(1)集成方式:随机森林是并行集成(Bagging),各树独立训练;GBDT是串行集成(Boosting),每棵树拟合前序模型的残差;(2)抗过拟合:随机森林通过样本和特征的随机抽样降低过拟合风险;GBDT对异常值更敏感,需通过学习率和树深度控制复杂度;(3)适用场景:随机森林适合多特征、噪声大的数据集;GBDT在回归和二分类任务中通常表现更优,但训练速度较慢;(4)并行性:随机森林天然支持并行训练,GBDT需串行训练。4.用Python的Pandas处理缺失值时,dropna()和fillna()的常用参数及适用场景是什么?答案:(1)dropna():常用参数包括axis(0/1,按行/列删除)、thresh(保留至少n个非缺失值的行/列)、subset(指定列范围)。适用于缺失率低(如<5%)且缺失模式随机的场景;(2)fillna():常用参数包括value(填充值)、method(ffill/bfill前后向填充)、limit(限制填充次数)。适用于缺失率较高或缺失具有业务意义(如“未填写”)的场景,可填充均值(数值型)、众数(分类型)或模型预测值。5.数据可视化的基本原则有哪些?请举例说明。答案:(1)清晰性:避免冗余元素(如3D柱状图),确保标签、坐标轴清晰(如用“万元”代替“元”简化刻度);(2)准确性:数据比例需真实(如饼图各部分和为100%),避免误导性缩放(如Y轴不从0开始);(3)简洁性:仅保留关键信息(如用折线图展示趋势时,删除背景网格);(4)相关性:图表类型与分析目标匹配(如用散点图展示两个连续变量的相关性)。6.简述Hadoop生态中HDFS、YARN、MapReduce、Hive、HBase的核心职责。答案:(1)HDFS:分布式文件系统,负责海量数据的存储与高可用;(2)YARN:资源管理系统,负责集群资源(CPU、内存)的调度与任务监控;(3)MapReduce:分布式计算框架,通过Map和Reduce阶段实现离线批处理;(4)Hive:数据仓库工具,通过类SQL语言(HiveQL)将查询转换为MapReduce任务,支持离线分析;(5)HBase:基于HDFS的列式数据库,支持海量结构化数据的实时读写与随机访问。7.A/B测试的关键步骤包括哪些?答案:(1)明确目标:定义核心指标(如转化率、客单价)和辅助指标;(2)实验设计:确定测试组与对照组的分配比例(通常1:1),计算最小样本量(基于统计功效、显著性水平、预期差异);(3)流量分割:确保用户唯一进入一组,避免交叉;(4)数据收集:通过埋点或日志采集实验数据,验证数据完整性;(5)统计检验:使用t检验(数值型)或卡方检验(分类型)评估指标差异的显著性;(6)结果解读:结合统计显著性与业务影响(如ROI)决定是否推广。8.选择机器学习模型评估指标时需考虑哪些因素?请举例说明。答案:(1)任务类型:分类任务用准确率、AUC-ROC;回归任务用MSE、MAE;(2)业务目标:医疗诊断关注召回率(避免漏诊);垃圾邮件过滤关注精确率(避免误删正常邮件);(3)数据分布:正负样本失衡时,准确率无意义,需用F1分数或PR曲线;(4)模型成本:实时推荐系统需关注推理速度(如延迟),而离线预测更关注预测精度。三、案例分析题(每题10分,共20分)案例1:某电商平台需预测用户“是否会在未来7天内下单”(目标变量Y=1表示下单,Y=0表示不下单),已收集到用户近30天的行为数据(包括浏览次数、加购次数、收藏次数、平均停留时长、历史购买金额、最近一次购买时间)。问题1:请设计特征工程的具体步骤,并说明各步骤的目的。答案:(1)基础特征构造:计算用户近7天/15天/30天的浏览次数(趋势特征)、加购率(加购次数/浏览次数,衡量购买意向)、收藏转化比(下单数/收藏次数,衡量收藏有效性);(2)时间特征提取:最近一次购买时间距离当前的天数(R值,反映活跃程度)、购买频率(30天内购买次数,F值)、平均购买金额(M值,反映价值);(3)交叉特征:将浏览次数与平均停留时长相乘(用户关注度),加购次数与历史购买金额相加(潜在消费能力);(4)缺失值处理:对新用户(无历史购买记录)的R/F/M值标记为0或单独类别;(5)特征标准化:对数值型特征(如浏览次数)进行Z-score标准化,避免量纲影响模型;(6)特征选择:用随机森林的特征重要度或XGBoost的SHAP值筛选Top20特征,降低维度。问题2:若选择逻辑回归(LR)和XGBoost作为候选模型,如何比较两者的性能?需关注哪些指标?答案:(1)训练效率:比较模型训练时间(LR通常更快,XGBoost需调参);(2)预测精度:在验证集上比较AUC-ROC(衡量整体区分能力)、F1分数(平衡精确率与召回率)、KS值(衡量正负样本分离度);(3)可解释性:LR的系数直接反映特征重要性方向(正/负相关),XGBoost需通过特征重要度或SHAP值解释;(4)抗过拟合能力:比较训练集与验证集的AUC差值(差值小则泛化能力强);(5)业务适配性:若需快速迭代(如实时推荐),选LR;若需更高精度(如高价值用户筛选),选XGBoost。案例2:某物流企业拥有全国运输路线数据(包括起点、终点、距离、运输时间、货品种类、天气状况、车辆类型),需优化运输路线以降低平均延误率(延误定义为实际到达时间超过计划时间30分钟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境安全及生产防范措施保证承诺书(6篇)
- 公司售后支持承诺函5篇范文
- (2026年)食源性疾病监测培训试题及答案
- 企业资源低碳利用承诺函范文8篇
- 照明系统施工方案范本
- 人造板材幕墙安装专项方案
- 2026年注册电气工程师供配电专业知识模拟试卷含答案
- 2025湖北武汉汉江集团公司面向集团内部招聘笔试历年参考题库附带答案详解
- 2025湖北恩施州恩施市福牛物业有限公司招聘恩施市荃兴贸易有限公司金子坝分公司人员1人笔试历年参考题库附带答案详解
- 2025浙江绍兴市嵊州市机关事业单位招聘编外人员和国有企业(社会团体)招聘16人笔试历年参考题库附带答案详解
- 南昌市青山湖区2026年公开招聘社区工作者(专职网格员)【60人】笔试参考题库及答案解析
- 智能经济的发展模式
- 2026年政治理论知识要点与选择题解析
- 毛概期末考试真题及答案
- 2026年天津市专业技术人员继续教育公需课答案
- 建筑工地高空坠落安全培训教材
- 四川省绵阳市2025年中考生物学试题附答案
- 2025年中考语文试题分类汇编:作文(江苏专用)解析版
- 医院基本药物使用考核方案
- 临终病人家属灵性关怀操作要点
- 2026年云南丽江市中考地理真题试题(含答案)
评论
0/150
提交评论