2026年CDA数据分析师(一级)试题及答案_第1页
2026年CDA数据分析师(一级)试题及答案_第2页
2026年CDA数据分析师(一级)试题及答案_第3页
2026年CDA数据分析师(一级)试题及答案_第4页
2026年CDA数据分析师(一级)试题及答案_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年CDA数据分析师(一级)试题及答案单项选择题1.某零售企业希望通过用户消费数据识别高价值留存客户,以下指标中最适合作为核心分层依据的是()A.客单价B.RFM值C.复购率D.消费频次答案:B解析:RFM模型是衡量客户价值和客户创利能力的重要工具和手段,包含最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)三个核心维度,相比单一的客单价、复购率、消费频次,能更全面地刻画用户的综合价值与留存属性,是客户分层的核心依据。2.以下不属于结构化数据的是()A.企业ERP系统内的销售订单表B.电商平台的用户评论内容C.银行储户的账户交易流水D.考勤系统内的员工打卡记录答案:B解析:结构化数据是高度组织和整齐格式化的数据,可以用统一的结构表示,通常存储于关系型数据库中,可通过二维表形式直观展现。用户评论内容属于非结构化的文本数据,没有预定义的结构化存储格式,无法直接用二维表的行和列进行规整。3.某数据表中“用户年龄”字段存在12%的缺失值,该字段的分布为右偏分布,且存在少量极端异常高值,以下最适合填充该字段缺失值的方法是()A.均值填充B.中位数填充C.众数填充D.删除缺失值所在行答案:B解析:右偏分布且存在极端高值时,均值会被极端值拉高,无法代表数据的集中趋势;众数仅适合分类变量或离散程度极低的数值变量;删除12%的行损失数据量过大,会降低分析结果的可靠性。中位数不受极端值影响,是偏态分布下数值型变量缺失值填充的最优选择。4.对1000名消费者的月均食品消费支出进行统计,得到均值为1800元,标准差为300元,根据切比雪夫不等式,月均食品消费支出在1200元到2400元之间的消费者占比至少为()A.68%B.75%C.89%D.95%答案:B解析:切比雪夫不等式表明,对于任意分布的数据,至少有(1-1/k²)的数据落在距离均值k个标准差的范围内。本题中1200=1800-2300,2400=1800+2300,即k=2,因此占比至少为1-1/2²=75%。解析:切比雪夫不等式表明,对于任意分布的数据,至少有(1-1/k²)的数据落在距离均值k个标准差的范围内。本题中1200=1800-2300,2400=1800+2300,即k=2,因此占比至少为1-1/2²=75%。5.以下SQL语句中,能够实现从“销售表”中查询2025年全年销售额排名前10的城市,且销售额大于100万的功能的是()A.SELECT城市,SUM(销售额)总销售额FROM销售表WHERE销售日期BETWEEN'2025-01-01'AND'2025-12-31'GROUPBY城市HAVINGSUM(销售额)>1000000ORDERBY总销售额DESCLIMIT10B.SELECT城市,SUM(销售额)总销售额FROM销售表WHERE销售日期BETWEEN'2025-01-01'AND'2025-12-31'ANDSUM(销售额)>1000000GROUPBY城市ORDERBY总销售额DESCLIMIT10C.SELECT城市,SUM(销售额)总销售额FROM销售表HAVING销售日期BETWEEN'2025-01-01'AND'2025-12-31'ANDSUM(销售额)>1000000GROUPBY城市ORDERBY总销售额DESCLIMIT10D.SELECT城市,SUM(销售额)总销售额FROM销售表WHERE销售日期BETWEEN'2025-01-01'AND'2025-12-31'GROUPBY城市WHERESUM(销售额)>1000000ORDERBY总销售额DESCLIMIT10答案:A解析:SQL语句的执行逻辑为WHERE筛选行级数据→GROUPBY分组→HAVING筛选聚合结果。聚合函数的筛选条件必须放在HAVING子句中,不能放在WHERE子句中,因此B、C、D语法均错误,只有A符合语法逻辑与业务需求。6.某互联网产品的次日留存率为40%,7日留存率为20%,以下说法正确的是()A.所有新用户中,有20%的用户在注册后第7天当日登录了产品B.所有新用户中,有40%的用户在注册后次日到第7天之间至少登录过一次产品C.次日留存率是指注册当日登录的用户中,次日再次登录的用户占比D.7日留存率是指注册后前6天都登录的用户中,第7天仍然登录的用户占比答案:C解析:次日留存率的定义为统计周期内的新用户,在注册次日再次登录/使用产品的比例;7日留存率为统计周期内的新用户,在注册后第7天再次登录/使用产品的比例。A选项未明确统计口径为同一批新用户,表述错误;B、D对留存率的定义理解错误,只有C表述符合标准定义。7.以下可视化图表类型中,最适合展示不同品类商品销售额占总销售额比例的是()A.折线图B.散点图C.饼图D.柱状图答案:C解析:饼图的核心适用场景为展示各部分占整体的比例关系;折线图适合展示时间序列数据的变化趋势;散点图适合展示两个数值变量之间的相关关系;柱状图适合对比不同类别之间的数值差异,因此本题选C。8.某数据集包含5个变量,分别为用户性别(男/女)、用户学历(小学/初中/高中/本科及以上)、月收入(元)、消费频次(次/月)、是否复购(是/否),其中属于定序变量的是()A.用户性别B.用户学历C.月收入D.是否复购答案:B解析:定序变量属于分类变量的一种,类别之间存在明确的高低/大小顺序关系。用户性别、是否复购属于定类变量,类别之间无顺序;月收入属于定比变量;学历的类别之间存在明确的等级顺序,属于定序变量。9.某餐饮企业统计了12家门店的月均客流量分别为:120、135、142、142、150、155、158、162、165、170、178、185,该组数据的上四分位数(Q3)为()A.165B.166C.168.75D.170答案:C解析:首先对数据从小到大排序(本题已排序),共n=12个数据。上四分位数Q3的位置为(n+1)0.75=130.75=9.75,即Q3为第9个数据加上0.75倍的第10个数据与第9个数据的差值,计算得165+0.75(170-165)=168.75。解析:首先对数据从小到大排序(本题已排序),共n=12个数据。上四分位数Q3的位置为(n+1)0.75=130.75=9.75,即Q3为第9个数据加上0.75倍的第10个数据与第9个数据的差值,计算得165+0.75(170-165)=168.75。10.以下关于假设检验的表述,正确的是()A.显著性水平α是指原假设为真时,拒绝原假设的概率B.p值大于α时,我们可以接受原假设C.备择假设通常是研究者想要推翻的假设D.双侧检验的显著性水平高于单侧检验答案:A解析:显著性水平α的定义为原假设为真时,拒绝原假设的概率,即犯第一类错误的最大允许概率,A正确;p值大于α时,我们只能“不拒绝原假设”,而非直接接受原假设,B错误;原假设通常是研究者想要推翻的假设,备择假设是研究者想要支持的假设,C错误;双侧检验与单侧检验的显著性水平由研究者人为设定,二者没有固定的高低关系,D错误。11.使用Excel对包含10000行的销售数据表进行“省份”字段的重复值检查,以下操作效率最高的是()A.逐行对比省份字段的内容,标记重复项B.选中省份字段列,使用“条件格式-突出显示单元格规则-重复值”功能C.使用COUNTIF函数逐行统计当前单元格内容在整列中出现的次数,次数大于1即为重复D.使用数据透视表,将省份字段拖入行区域,将省份字段拖入值区域设置为计数,计数项大于1的即为重复答案:B解析:Excel自带的条件格式重复值功能是内置的优化算法,处理效率远高于手动逐行对比、COUNTIF逐行计算;数据透视表适合汇总统计重复项的出现次数,但仅做重复值标记的情况下,条件格式操作更便捷、效率更高。12.某电商平台2025年的用户投诉量为1200起,2024年为1000起,以下说法正确的是()A.2025年投诉量同比增长20%B.2025年投诉量环比增长20%C.2025年投诉量同比增长16.7%D.2025年投诉量环比增长16.7%答案:A解析:同比是指与上年同期相比,环比是指与上一个统计周期相比。2025年相比2024年为同比,增长率=(1200-1000)/1000100%=20%,因此A正确。解析:同比是指与上年同期相比,环比是指与上一个统计周期相比。2025年相比2024年为同比,增长率=(1200-1000)/1000100%=20%,因此A正确。13.以下不属于数据清洗范畴的操作是()A.处理缺失值B.修正异常值C.去除重复数据D.对变量进行标准化处理答案:D解析:数据清洗主要包含处理缺失值、异常值、重复值、不一致数据等操作,目的是修正数据中的错误,提升数据质量。变量标准化属于数据转换的范畴,是为了消除变量量纲差异进行的处理,不属于数据清洗环节。14.某数据集的皮尔逊相关系数r=0.85,说明两个变量之间()A.不存在相关关系B.存在低度线性相关关系C.存在高度线性相关关系D.存在因果关系答案:C解析:皮尔逊相关系数r的绝对值在0.8及以上时,说明两个变量之间存在高度线性相关关系;相关关系不等同于因果关系,无法仅通过相关系数判定因果,因此C正确。15.以下Python库中,主要用于数据可视化的是()A.PandasB.NumPyC.MatplotlibD.Scikit-learn答案:C解析:Pandas主要用于数据处理与分析;NumPy主要用于数值计算;Matplotlib是Python主流的可视化库,用于绘制各类统计图表;Scikit-learn主要用于机器学习建模,因此本题选C。多项选择题1.以下属于CDA一级数据分析师的核心工作内容的有()A.业务需求梳理与指标体系搭建B.业务数据的提取与清洗C.描述性统计分析与可视化呈现D.复杂深度学习模型的训练与调优答案:ABC解析:CDA一级为业务数据分析师,核心工作聚焦于业务需求拆解、数据提取清洗、描述性分析、可视化输出等基础分析工作,复杂深度学习模型训练属于CDA三级的工作范畴,因此D错误。2.以下关于集中趋势指标的表述,正确的有()A.均值适合对称分布的数据集中趋势刻画B.中位数不受极端值的影响C.众数可以存在多个D.众数适合所有类型的变量答案:ABC解析:均值对极端值敏感,适合对称分布的数值型变量;中位数是位置代表值,不受极端值影响;众数是出现次数最多的数值,可以存在多个;众数仅适合分类变量或离散程度极低的数值变量,不适合连续型数值变量,因此D错误。3.以下SQL语句的功能描述正确的有()A.DISTINCT关键字用于去除查询结果中的重复行B.ORDERBY用于对查询结果进行排序,默认是升序C.WHERE子句可以对分组后的聚合结果进行筛选D.LEFTJOIN会返回左表中的所有记录,即使右表中没有匹配的记录答案:ABD解析:WHERE子句用于筛选行级原始数据,分组后的聚合结果筛选需要使用HAVING子句,因此C错误,其余表述均正确。4.以下属于描述用户活跃度的核心指标的有()A.DAU(日活跃用户数)B.MAU(月活跃用户数)C.人均使用时长D.付费转化率答案:ABC解析:付费转化率属于用户转化类指标,不属于活跃度指标,其余三个指标均为衡量用户活跃水平的核心指标。5.以下关于异常值的处理方法,合理的有()A.若异常值是数据录入错误导致,直接修正或删除该条数据B.若异常值是真实业务场景下的极端情况,可单独标记后进行分析C.无论异常值的产生原因,直接删除即可D.可以使用分位数截断法对异常值进行修正答案:ABD解析:异常值的处理需要先判断产生原因,不能直接删除,否则可能丢失重要的业务信息,因此C错误,其余处理方式均合理。6.以下可视化呈现的注意事项,正确的有()A.饼图的分类数量不宜超过6个,过多分类会导致可读性下降B.绘制折线图时,纵轴的取值范围必须从0开始C.柱状图适合对比不同类别之间的数值差异D.双轴图需要明确标注两个坐标轴的含义与量纲答案:ACD解析:折线图展示变化趋势时,若数据整体差异较小,可适当调整纵轴范围放大趋势,并非必须从0开始,因此B错误,其余表述均正确。7.以下属于概率抽样方法的有()A.简单随机抽样B.分层抽样C.整群抽样D.方便抽样答案:ABC解析:方便抽样属于非概率抽样方法,抽样时不遵循随机原则,其余三个均为常见的概率抽样方法。8.某超市希望分析促销活动对销售额的影响,以下属于控制变量的有()A.促销活动的投入金额B.促销期间的天气情况C.周边同类超市的促销活动情况D.超市的日常客流量水平答案:BCD解析:控制变量是指除了核心自变量(本题为促销活动投入)之外,可能影响因变量(销售额)的其他变量,需要在分析时进行控制。A是核心自变量,BCD均为需要控制的无关变量。9.以下Excel函数中,属于统计函数的有()A.VLOOKUPB.SUMIFC.COUNTIFD.AVERAGEIF答案:BCD解析:VLOOKUP属于查找引用函数,其余三个均为条件统计类函数。10.以下关于交叉分析的表述,正确的有()A.交叉分析可以同时分析两个分类变量之间的关系B.卡方检验可以用于判断交叉表中两个变量是否存在关联C.交叉分析无法用于分析数值型变量之间的关系D.交叉分析的结果可以用堆叠柱状图进行可视化呈现答案:ABD解析:交叉分析可以将数值型变量进行分箱处理后转换为分类变量,再进行交叉分析,因此C错误,其余表述均正确。实操题1.给定某零售企业2025年的销售数据表(sheet名称为“销售数据”),包含字段:订单ID、销售日期、商品品类、商品单价、销售数量、门店ID、门店城市。请完成以下操作:(1)使用Excel计算2025年第三季度(7-9月)所有门店的总销售额,写出完整操作步骤与计算公式。(2)统计上海市所有门店中,“家电”品类的累计销售数量,写出完整操作步骤与计算公式。答案与操作步骤:(1)第一步:新增辅助列“销售额”,在H2单元格输入公式=D2E2,按回车后下拉填充至所有数据行,计算每笔订单的销售额。第二步:使用SUMIFS函数计算第三季度总销售额,任意空白单元格输入公式:=SUMIFS(H:H,B:B,">=2025-07-01",B:B,"<=2025-09-30"),公式含义为对H列(销售额)求和,筛选条件为B列(销售日期)大于等于2025年7月1日且小于等于2025年9月30日,计算结果即为第三季度总销售额。也可使用SUMPRODUCT函数实现,公式为:=SUMPRODUCT((B2:B10000>=DATE(2025,7,1))(B2:B10000<=DATE(2025,9,30))D2:D10000E2:E10000)(假设数据共10000行)。(1)第一步:新增辅助列“销售额”,在H2单元格输入公式=D2E2,按回车后下拉填充至所有数据行,计算每笔订单的销售额。第二步:使用SUMIFS函数计算第三季度总销售额,任意空白单元格输入公式:=SUMIFS(H:H,B:B,">=2025-07-01",B:B,"<=2025-09-30"),公式含义为对H列(销售额)求和,筛选条件为B列(销售日期)大于等于2025年7月1日且小于等于2025年9月30日,计算结果即为第三季度总销售额。也可使用SUMPRODUCT函数实现,公式为:=SUMPRODUCT((B2:B10000>=DATE(2025,7,1))(B2:B10000<=DATE(2025,9,30))D2:D10000E2:E10000)(假设数据共10000行)。(2)使用SUMIFS函数计算,任意空白单元格输入公式:=SUMIFS(E:E,C:C,"家电",G:G,"上海市"),公式含义为对E列(销售数量)求和,筛选条件为C列(商品品类)为“家电”且G列(门店城市)为“上海市”,计算结果即为上海市家电品类的累计销售数量。2.给定用户行为数据表,表结构为user_id(用户ID)、event_time(行为时间)、event_type(行为类型:view/click/purchase)、product_id(商品ID)。请使用SQL完成以下查询:(1)查询2025年10月有购买行为的用户数,以及累计购买订单数(注:同一用户同一时间的多条购买记录算同一订单)。(2)查询被点击次数最多的前5个商品ID及其点击次数,排除点击次数为0的商品。答案与SQL语句:(1)SELECTCOUNT(DISTINCTuser_id)AS购买用户数,COUNT(DISTINCTCONCAT(user_id,event_time))AS累计订单数FROM用户行为表WHEREDATE(event_time)BETWEEN'2025-10-01'AND'2025-10-31'ANDevent_type='purchase';解析:使用DISTINCT对用户ID去重得到购买用户数,拼接用户ID与行为时间作为唯一订单标识,去重后计数得到累计订单数,WHERE子句筛选时间范围与购买行为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论