版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年数据技能测试题及答案大全一、数据基础概念1.以下数据类型分类中,正确的一组是()A.用户性别(男/女)—定距数据;商品价格(元)—定比数据B.会员等级(普通/银卡/金卡)—定序数据;温度(℃)—定距数据C.产品类别(家电/服饰/食品)—定类数据;销售额同比增长率(%)—定序数据D.客户满意度评分(1-5分)—定比数据;订单状态(待支付/已发货/已完成)—定类数据答案:B解析:定类数据无顺序(如产品类别),定序数据有顺序但无固定间隔(如会员等级),定距数据有间隔但无绝对零点(如温度),定比数据有绝对零点(如价格、增长率)。A中性别是定类,C中增长率是定比,D中满意度评分是定序,因此选B。2.数据质量评估的核心指标不包括()A.准确性B.一致性C.多样性D.完整性答案:C解析:数据质量五大核心指标为准确性(与真实值的匹配度)、完整性(无缺失字段)、一致性(跨表逻辑统一)、时效性(数据更新频率)、唯一性(无重复记录)。多样性属于数据特征而非质量指标。3.描述数据集中趋势的统计量是(),描述离散程度的是()A.均值;方差B.中位数;相关系数C.众数;偏度D.分位数;峰度答案:A解析:集中趋势指标包括均值、中位数、众数;离散程度指标包括方差、标准差、极差。相关系数衡量相关性,偏度和峰度描述分布形态,分位数是位置指标,因此选A。二、数据分析与处理4.某电商平台2023年1-12月用户订单表(user_id,order_date,amount),需计算“2023年每月新用户(当月首次下单用户)的次月留存率”(留存定义为次月有至少1笔订单)。请写出SQL查询逻辑(需包含中间步骤)。答案:步骤1:标记用户首次下单月份WITHfirst_orderAS(SELECTuser_id,MIN(DATE_TRUNC('month',order_date))ASfirst_monthFROMordersWHEREorder_dateBETWEEN'2023-01-01'AND'2023-12-31'GROUPBYuser_id),步骤2:关联用户每月活跃情况monthly_activityAS(SELECTfo.first_month,DATE_TRUNC('month',o.order_date)ASactive_month,fo.user_idFROMfirst_orderfoLEFTJOINordersoONfo.user_id=o.user_idANDo.order_dateBETWEEN'2023-01-01'AND'2023-12-31'),步骤3:计算每月新用户数及次月留存数retentionAS(SELECTfirst_month,COUNT(DISTINCTuser_id)ASnew_users,COUNT(DISTINCTCASEWHENactive_month=first_month+INTERVAL'1month'THENuser_idEND)ASretained_usersFROMmonthly_activityGROUPBYfirst_month)SELECTfirst_monthASmonth,retained_users::FLOAT/new_usersASretention_rateFROMretentionWHEREfirst_month<'2023-12-01';-12月无次月数据5.用Excel处理某门店销售数据(字段:日期、商品ID、销量、单价),需完成以下操作:(1)计算每笔订单金额(销量×单价);(2)按商品ID统计2023年总销量及销售额;(3)筛选出“2023年销售额TOP5的商品”。请写出具体操作步骤。答案:(1)订单金额计算:在E列(或空白列)输入公式“=C2D2”(C为销量,D为单价),下拉填充至所有记录。(1)订单金额计算:在E列(或空白列)输入公式“=C2D2”(C为销量,D为单价),下拉填充至所有记录。(2)总销量/销售额统计:①插入数据透视表(选中数据区域→插入→数据透视表);②行标签选“商品ID”;③值区域添加“销量”(求和)、“订单金额”(求和);④筛选器选“日期”→选择2023年所有月份。(3)TOP5筛选:①在数据透视表结果中添加辅助列“排名”,输入公式“=RANK(E2,E2:E100)”(E列为销售额);②按“排名”升序排序,取前5条记录;或直接在数据透视表中使用“值筛选→前10项”,设置为“前5”。6.某数据集存在5%的缺失值,缺失模式为“完全随机缺失(MCAR)”。请列出3种常用的缺失值处理方法,并说明适用场景。答案:(1)删除法:删除含缺失值的记录或字段。适用于缺失比例极低(如<5%)且数据量充足时,避免引入偏差。(2)均值/中位数填充:数值型变量用均值(正态分布)或中位数(偏态分布)填充。适用于缺失与其他变量无关、数据分布稳定的场景。(3)回归填充:建立回归模型,用其他变量预测缺失值。适用于缺失值与其他变量有显著相关性时,可保留数据结构但可能过拟合。三、数据可视化7.以下业务场景中,最适合用折线图展示的是()A.2023年各区域销售额占比B.某产品近30天日活跃用户(DAU)变化C.不同年龄层用户的购买偏好分布D.广告投放渠道的ROI对比答案:B解析:折线图适用于展示时间序列的趋势变化(如DAU随时间波动)。A用饼图/环形图,C用堆叠柱状图/雷达图,D用柱状图/箱线图。8.使用Tableau制作“2023年各季度手机销量及同比增长率”仪表盘,需包含以下元素:(1)主图表:同时展示销量(柱状)和增长率(折线);(2)筛选器:支持按“品牌”和“地区”动态筛选;(3)提示信息:鼠标悬停时显示具体销量、增长率及同比变化值。请描述实现步骤。答案:(1)数据连接:导入包含“季度”“品牌”“地区”“销量”“同比增长率”的数据集。(2)主图表制作:①行功能区拖入“季度”(离散);②列功能区拖入“销量”(度量→求和),选择“柱状图”;③列功能区再拖入“同比增长率”(度量→平均值),右键选择“双轴”;④调整折线图与柱状图的对齐方式(右键双轴→同步轴);⑤标记卡中为折线图选择“线”类型。(3)筛选器添加:①左侧字段列表拖入“品牌”“地区”到筛选器区域;②右键筛选器→设置为“单值(下拉列表)”或“多选”。(4)提示信息设置:①双击“销量”标记卡→编辑工具提示;②插入字段“季度”“品牌”“地区”“销量”“同比增长率”;③公式计算同比变化值(如“增长率较上季度±X%”),添加到提示文本。9.避免可视化误导的关键原则包括()(多选)A.坐标轴从0开始(除非特定场景)B.使用3D效果增强立体感C.明确标注数据来源和时间范围D.用不同颜色区分正负值答案:ACD解析:3D效果可能扭曲数据比例(如3D柱状图导致高度误判),属于常见误导手段。其他选项均为规范原则:坐标轴0点防止比例夸大,标注来源保证可信度,颜色区分增强可读性。四、数据挖掘与机器学习10.以下属于监督学习任务的是()A.客户分群(聚类)B.预测用户是否会流失(分类)C.商品销售趋势预测(时间序列)D.文本主题提取(降维)答案:BC解析:监督学习需标签(如流失与否、销量数值),无监督学习无标签(如聚类、主题提取)。时间序列预测若基于历史标签数据(如已知过去销量),属于监督学习中的回归任务。11.某模型在训练集上准确率95%,测试集上准确率70%,最可能的原因是()A.欠拟合B.过拟合C.数据泄露D.特征不足答案:B解析:过拟合表现为训练集效果好、测试集差(模型记忆了训练数据噪声)。欠拟合则两者效果均差,数据泄露是测试集包含训练集信息,特征不足会导致模型无法捕捉规律。12.对“用户购买金额”特征进行标准化处理,若原数据均值为500元,标准差为100元,某用户购买金额为700元,标准化后的值是()答案:2解析:标准化公式为(X-μ)/σ,代入得(700-500)/100=2。13.评估分类模型性能时,若业务重点是“不漏掉潜在流失用户”(减少假负例),应优先关注哪个指标?请写出该指标的计算公式。答案:召回率(Recall)。召回率=真阳性(TP)/(真阳性+假阴性(FN))。当业务需尽可能识别所有正类样本(如流失用户),召回率越高,漏判的正类越少。五、大数据技术与应用14.以下关于Hadoop和Spark的描述,错误的是()A.Hadoop的MapReduce适合离线批处理,Spark的RDD适合迭代计算B.HDFS存储数据,YARN负责资源调度C.SparkSQL支持ANSISQL,可直接查询Hive表D.Spark默认使用磁盘存储中间结果,Hadoop使用内存答案:D解析:Spark基于内存计算(中间结果存储在内存),HadoopMapReduce基于磁盘(频繁读写硬盘)。其他选项均正确:MapReduce适合批处理,YARN是资源管理器,SparkSQL兼容Hive。15.设计某电商大数据平台的数据分层架构,需包含ODS层(原始数据层)、DWD层(明细数据层)、DWS层(汇总数据层)、ADS层(应用数据层)。请说明各层的核心职责及典型处理操作。答案:(1)ODS层:原始数据归档,保持“数据原样”。职责是存储未加工的日志、数据库增量(如MySQLbinlog、埋点日志),处理操作包括数据清洗(去重、过滤乱码)、格式转换(JSON→Parquet)。(2)DWD层:明细数据整合,消除数据冗余。职责是构建统一的实体对象(如“用户”“订单”),处理操作包括关联多表(如订单与用户表JOIN)、补全维度信息(添加地区、商品类目)。(3)DWS层:主题汇总数据,支持快速查询。职责是按业务主题(如用户、商品、营销)汇总统计(如用户日活、商品周销量),处理操作包括按天/月聚合、计算留存率等指标。(4)ADS层:应用数据输出,直接对接业务。职责是存储报表、模型输入等最终数据(如BI看板数据、推荐模型特征),处理操作包括筛选TOPN、计算排名、格式适配(如导出为CSV供前端使用)。16.某物流平台需实时监控全国快递网点的包裹积压情况(数据实时流入,需按“省份+小时”统计积压量),应选择哪种流处理框架?请说明原因及核心实现步骤。答案:选择ApacheFlink。原因:Flink支持毫秒级低延迟实时计算,适合需要精确时间窗口(如小时级)和状态管理(如累计积压量)的场景,相比SparkStreaming的微批处理,Flink的事件时间处理更精准。实现步骤:(1)数据接入:通过Kafka消费实时数据流(字段:网点ID、省份、时间戳、积压量)。(2)时间窗口定义:使用EventTime(基于数据实际发生时间),设置1小时滚动窗口(TumblingWindow)。(3)分组聚合:按“省份”字段分组,窗口内对“积压量”求和。(4)状态管理:配置Checkpoint(如每5分钟保存状态),防止数据丢失。(5)结果输出:将统计结果写入Redis或ClickHouse,供监控页面实时展示。六、综合应用17.某生鲜电商需对用户进行分层运营,要求基于RFM模型(最近一次购买时间R、购买频率F、购买金额M)将用户分为“重要价值客户”“重要发展客户”“一般保持客户”等类别。请:(1)解释RFM各指标的计算方法;(2)说明如何根据RFM得分划分用户层级;(3)给出针对“重要发展客户”(高M、高F但低R)的运营策略。答案:(1)RFM指标计算:R(Recency):用户最近一次购买日期与分析日期的间隔天数(如今天2024-01-01,用户最后购买日2023-12-20,则R=12天)。F(Frequency):用户在固定周期(如近1年)内的购买次数。M(Monetary):用户在固定周期内的总消费金额。(2)用户分层方法:①对R、F、M分别按降序排序,划分为5档(1-5分,R越小分越高,F/M越大分越高);②组合得分:重要价值客户(R≥4,F≥4,M≥4),重要发展客户(R≤3,F≥4,M≥4),一般保持客户(R≥3,F≤3,M≤3)等;③或通过聚类算法(如K-Means)基于RFM值自动分组。(3)重要发展客户运营策略:该类用户消费能力强但近期活跃度下降,需唤醒复购。策略包括:个性化推送:根据历
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- PICC的护理常规及冲封管流程
- 生物(安徽卷)(考试版及全解全析)-2026年高考考前预测卷
- 数控中心刀具寿命监控制度
- 办公区域能耗监控调度办法
- 公共区域清洁责任划分办法
- 电气设备接地连锁验收技术方案
- 智能运维告警响应时间验证方案
- 仓储区进出场目视化管理标准
- 防跌倒看护预警响应流程规范
- 来料检验不良原因追溯规范
- 中医穴位养生课件
- HCIA历年考试试题及答案
- 西门子EET Basic 电梯仿真一体化教程 课件5 电梯初始化及启停控制
- 松下机器人培训
- 从严从实抓好管酒治酒 确保队伍内部长治酒安
- 心脏支架术前术后护理
- 人教版高中地理必修二知识点高考复习大纲
- 广西高等职业教育考试(新职教高考)《语文》模拟试卷 (第44套)
- DB2201-T 45-2023 政务服务场所建设规范
- 2024建筑安全员《C证》考试题库及答案
- 肛肠病术后并发症
评论
0/150
提交评论