版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年数据分析师资格考试题库及答案1.某零售企业欲分析用户消费行为中,最近30天消费频次、客单价、会员等级三个自变量对用户本年度复购率(取值范围0-100%的连续数值)的影响程度,以下模型中最适合的是()。A.多元线性回归B.Logistic回归C.朴素贝叶斯分类D.K均值聚类答案:A解析:多元线性回归用于分析多个自变量对连续因变量的影响关系,可清晰输出各自变量的影响系数和显著性,符合本题需求;Logistic回归适用于因变量为二分类或多分类的场景,朴素贝叶斯是有监督分类算法,K均值是无监督聚类算法,均不符合本题的分析目标。2.以下方法中,不属于异常值检测常用方法的是()。A.3σ原则B.箱线图法C.DBSCAN聚类法D.小波变换法答案:D解析:3σ原则基于正态分布假设,将偏离均值3倍标准差以外的值判定为异常,是数值型数据异常检测的基础方法;箱线图法不依赖分布假设,将超出四分位距1.5倍范围的数值判定为异常,是最常用的异常值检测方法之一;DBSCAN聚类可以将远离高密度核心簇的低密度点识别为异常,适用于非结构化数据的异常检测,三者均属于异常值检测常用方法;小波变换主要用于信号处理、数据降维和特征提取,不属于异常值检测的常用方法。3.现有订单表orders,包含字段order_id(订单ID)、user_id(用户ID)、create_time(下单时间)、amount(订单金额),要统计2025年每个月的下单用户数,以下SQL语句正确的是()。A.SELECTMONTH(create_time),COUNT(order_id)FROMordersWHEREYEAR(create_time)=2025GROUPBYMONTH(create_time);B.SELECTMONTH(create_time),COUNT(DISTINCTuser_id)FROMordersWHEREYEAR(create_time)=2025GROUPBYMONTH(create_time);C.SELECTMONTH(create_time),COUNT(user_id)FROMordersGROUPBYMONTH(create_time);D.SELECTMONTH(create_time),SUM(DISTINCTuser_id)FROMordersWHEREYEAR(create_time)=2025GROUPBYMONTH(create_time);答案:B解析:题目要求统计的是不同月度的下单用户数,同一个用户一个自然月内可能产生多个订单,因此必须对用户ID去重后再计数,A选项统计的是月度订单总数而非用户数,C选项未限定统计年份,也未对用户ID去重,统计结果为月度订单行数而非用户数,D选项对用户ID去重求和,逻辑完全错误,因此只有B选项正确。4.下列关于假设检验中p值的说法,正确的是()。A.p值是原假设为真的概率B.p值小于显著性水平α,说明原假设一定不成立C.p值是原假设成立的前提下,观察到的样本结果至少和现有观测结果一样极端的概率D.p值越大,说明变量间的效应量越大答案:C解析:p值的标准定义为:在原假设成立的前提下,观察到的样本统计量至少和当前观测值一样极端的概率,它不是原假设为真的概率,原假设本身只有成立或不成立两种情况,不存在概率属性,因此A错误,C正确;p值小于显著性水平α仅说明在当前的显著性标准下应当拒绝原假设,依然存在犯第一类错误的可能性,不能说明原假设一定不成立,因此B错误;p值大小受样本量影响极为显著,样本量足够大时,哪怕极小的效应量也能得到非常小的p值,因此p值大小不能直接反映效应量的大小,D错误。5.在AHP层次分析法中,一致性比率CR的核心作用是()。A.计算判断矩阵的特征向量B.检验判断矩阵的逻辑一致性C.确定各指标的权重D.对备选方案进行排序选优答案:B解析:AHP层次分析法需要研究者构建不同层级的判断矩阵,主观比较两个指标的重要性,这个过程中可能出现逻辑矛盾,比如A比B重要,B比C重要,C又比A重要的情况,一致性比率CR就是用来检验判断矩阵是否存在不可接受的逻辑矛盾,当CR<0.1时,认为判断矩阵的一致性符合要求,因此CR的核心作用是检验逻辑一致性,B选项正确;计算特征向量、确定权重、方案排序都是AHP的其他步骤,不是CR的作用。6.某快消企业的年度销售数据存在明显的季度性波动和长期增长趋势,要预测下一年度的月度销售额,以下方法中最适合的是()。A.简单移动平均法B.一次指数平滑法C.Holt-Winters三次指数平滑法D.ARIMA(0,1,1)答案:C解析:Holt-Winters三次指数平滑法专门针对同时存在趋势项和季节性波动的时间序列构建预测模型,完美匹配本题中销售数据的特征;简单移动平均法和一次指数平滑法仅适用于平稳无趋势无季节性的时间序列,ARIMA(0,1,1)是一阶差分一阶移动平均模型,仅能处理趋势性非平稳数据,无法直接处理季节性成分,因此C选项正确。1.关于AB测试的说法,正确的有()。A.AB测试的核心思想是控制变量,仅改变待测试的策略,保持其他所有影响用户的变量一致B.当实验组和对照组样本量差异过大时,AB测试结果一定不可信C.辛普森悖论可能出现在AB测试的结果分析中,即分群看测试策略效果更好,整体看原有策略效果更好D.AB测试需要提前计算最小样本量,避免样本量不足导致结果出现统计偏差答案:ACD解析:AB测试通过随机分组控制干扰变量,仅调整待测试的策略变量,核心逻辑就是控制变量对比,A选项正确;实验组对照组样本量差异过大并不会直接导致结果不可信,通过加权校正、调整检验统计量的方法可以消除样本量差异带来的偏差,B选项错误;辛普森悖论是分组汇总数据和整体汇总数据结论相反的情况,在AB测试的分群分析中十分常见,比如按设备分群新算法效果更好,整体汇总旧算法效果更好,因此C选项正确;AB测试前计算最小样本量可以控制犯第二类错误的概率,避免样本量不足无法检出真实存在的差异,保证结果的统计显著性,D选项正确。2.数据分析师做用户分群时,以下属于无监督分群方法的有()。A.RFM规则分群B.K均值聚类分群C.DBSCAN聚类分群D.基于用户流失标签的决策树分群答案:BC解析:无监督分群指的是没有预先标注的标签,完全基于用户自身特征的相似度划分群体,K均值聚类、DBSCAN聚类都是典型的无监督聚类算法,属于无监督分群方法;RFM分群是基于业务规则手动划分用户群体,属于规则驱动分群,不是无监督学习方法;基于已有用户流失标签训练决策树做分群,属于有监督分群方法,因此正确选项为BC。3.以下属于数据隐私保护领域常用的去标识化技术的有()。A.数据脱敏B.k-匿名C.差分隐私D.主成分分析答案:ABC解析:去标识化是通过技术手段去除或修改可识别到特定个人的信息,降低个人信息泄露风险,数据脱敏通过替换、掩码等方式隐藏个人敏感标识,k-匿名保证发布数据中每一个等价类至少包含k个用户,避免用户被识别,差分隐私通过添加噪声保证查询结果不会泄露单个用户的信息,三者都是常用的去标识化隐私保护技术;主成分分析是数据降维技术,用于提取数据的主要特征,不属于去标识化隐私保护技术,因此正确选项为ABC。某短视频平台推出新的信息流推荐算法,想要测试新算法相比旧算法是否显著提升了用户日均使用时长,平台通过随机分流将用户分为两组,对照组10000名用户使用旧算法,实验组10000名用户使用新算法,测试周期为7天,测试结束后得到统计结果:对照组日均使用时长均值为38.2分钟,样本标准差为12.5分钟;实验组日均使用时长均值为39.6分钟,样本标准差为12.8分钟。问题1:本次AB测试应当选择哪种假设检验方法?请说明理由。问题2:请计算检验统计量,判断新算法是否在95%置信水平下显著提升了用户日均使用时长(注:双侧检验95%置信水平Z临界值为1.96,单侧检验95%置信水平Z临界值为1.645)。解答:问题1:本次测试应当选择两独立样本Z检验,理由如下:本次测试的两组样本为独立随机分组得到,两组样本量均大于30,根据中心极限定理,样本均值的抽样分布近似服从正态分布,因此适用两独立样本Z检验,无需使用小样本适用的t检验。问题2:首先设定假设:原假设H0:新算法对用户日均使用时长没有提升作用;备择假设H1:新算法显著提升了用户日均使用时长,本次检验为单侧检验。第一步计算两组均值差:x̄₁x̄₂=39.638.2=1.4分钟第二步计算均值差的标准误:SE=√(s₁²/n₁+s₂²/n₂),代入数据可得:SE=√(12.5²/10000+12.8²/10000)=√((156.25+163.84)/10000)=√(320.09/10000)=√0.032009≈0.179第三步计算Z统计量:Z=均值差/SE=1.4/0.179≈7.82本次为单侧检验,95%置信水平下Z临界值为1.645,计算得到的Z=7.82远大于临界值1.645,因此拒绝原假设,即新算法在95%置信水平下显著提升了用户日均使用时长。某连锁超市企业想要分析不同区域门店的销售额影响因素,收集了200家门店的月度数据,包含变量:月度销售额y(万元)、门店面积x₁(平方米)、周边三公里常住人口x₂(万人)、周边三公里竞品数量x₃(个),构建多元线性回归模型得到输出结果如下:回归方程为y=12.3+0.08x₁+12.5x₂4.8x₃,R²=0.82,调整R²=0.817,F检验的p值为2.3e-15,x₁的p值为0.03,x₂的p值为1.2e-10,x₃的p值为0.02。问题1:请解释回归方程中x₃系数-4.8的实际含义,说明该结果是否符合业务逻辑。问题2:请解释R²=0.82的含义,并说明模型的整体拟合效果是否符合要求。解答:问题1:x₃代表门店周边三公里的竞品数量,系数-4.8的含义为:在门店面积、周边常住人口不变的情况下,周边竞品数量每增加1个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 池州市东至县2025-2026学年三年级数学第二学期期末质量跟踪监视模拟试题含解析
- 2026年幼儿园消防安全培训方案教职工
- 2026年感冒药市场细分案例
- 2026年批量生产工艺方案设计流程
- 2026年手机销售目标客户分析
- 2025年制造业人才培养策略案例
- 2026年大学生职业规划人力资源管理
- 2026年道路桥梁维修施工合同三篇
- 湖州市2025年一级建造师考试(公共课程)题库含答案
- 电力工程造价从业人员专业能力评价考试(电力工程建设管理)题库含答案(2025年甘肃陇南市)
- 2026年自然资源部信息中心招聘在职人员易考易错模拟试题(共500题)试卷后附参考答案
- 2026年山东地理生物会考考试真题及答案
- 贵州省遵义市2024-2025学年七年级下学期期末测试英语试题卷(含答案)
- 2026年市场监管网络餐饮题库
- 综合能源服务创新发展报告(2025)-能源环境服务产业联盟(EESIA)
- 2024年中国肾性贫血诊疗的临床实践指南解读课件
- 2026年广东惠州市中考一模道德与法治试卷(试卷+解析)
- 数字化城管投诉工作制度
- 志愿者剧院工作制度
- 急产分娩应急演练预案
- 外卖员工作制度
评论
0/150
提交评论