版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年CDA数据分析师认证考试真题题库一、单项选择题1.在多元线性回归模型中,若自变量之间存在高度相关性,会导致:A.模型拟合优度下降B.回归系数估计值不稳定,标准误增大C.残差不再服从正态分布D.异方差性答案:B解析:自变量之间存在高度相关性,即存在多重共线性问题。多重共线性的主要后果是使得回归系数的估计值变得不稳定,其标准误会异常增大,导致t检验失效,难以判断单个自变量的显著性。它通常不会直接影响拟合优度(R²可能仍然很高),也不是导致残差非正态或异方差的直接原因。2.关于时间序列的平稳性,以下描述正确的是:A.平稳时间序列的均值、方差和自协方差都不随时间变化B.具有明显趋势或季节性的序列一定是平稳的C.单位根检验(如ADF检验)的原假设是序列平稳D.非平稳序列可以直接用于建立ARMA模型答案:A解析:平稳时间序列的严格定义是均值、方差为常数,且自协方差只与时间间隔有关,与具体时间点无关。B错误,明显趋势或季节性通常意味着非平稳。C错误,ADF检验的原假设是序列存在单位根(即非平稳)。D错误,非平稳序列需经过差分等处理转化为平稳序列后,才能建立ARMA模型。3.在A/B测试中,为比较实验组和对照组转化率的差异是否显著,最合适的统计检验方法是:A.独立样本t检验B.配对样本t检验C.卡方检验D.Z检验(比例检验)答案:D解析:A/B测试中比较的是两个独立样本的比例(转化率)。当样本量足够大时,比较两个总体比例差异最常用的方法是基于正态近似的Z检验(双样本比例检验)。独立样本t检验主要用于比较均值,卡方检验(如卡方独立性检验)也可用于比较比例,但Z检验对于比例差异的检验更为直接和常见。4.使用K-Means算法进行聚类分析时,初始聚类中心的选择对最终结果影响很大。为了减少这种影响,通常采用的方法是:A.增加聚类数量KB.使用K-Means++算法初始化C.对数据进行标准化处理D.使用轮廓系数评估答案:B解析:K-Means算法对初始聚类中心敏感,可能收敛到局部最优解。K-Means++是一种改进的初始化方法,它通过使初始聚类中心彼此尽量远离,来得到更好的初始起点,从而改善最终聚类结果的质量和稳定性。A、C、D分别是调整参数、数据预处理和评估方法,不能直接解决初始中心敏感问题。5.关于主成分分析(PCA),以下说法错误的是:A.PCA是一种无监督的降维方法B.主成分是原始变量的线性组合,且彼此正交C.第一主成分是使得样本点投影方差最小的方向D.在计算主成分前,通常需要将数据标准化答案:C解析:PCA的目标是找到新的正交坐标轴(主成分),使得数据在这些轴上的投影方差最大,从而保留最多的信息。因此,第一主成分是使得样本点投影方差最大的方向,而不是最小。A、B、D的描述均正确。6.在构建逻辑回归模型时,若发现训练集上AUC值很高(0.98),但测试集上AUC值很低(0.65),最可能的原因是:A.特征之间存在多重共线性B.模型出现了过拟合C.样本类别极度不平衡D.没有进行特征标准化答案:B解析:模型在训练集上表现极好(AUC=0.98),但在未见过的测试集上表现骤降(AUC=0.65),这是过拟合的典型特征。过拟合指模型过度学习了训练数据中的噪声和细节,导致泛化能力差。A、C、D可能导致模型表现不佳,但通常不会造成训练集和测试集性能如此巨大的差异。7.一个关联规则为{牛奶,面包}->{鸡蛋},支持度为5%,置信度为70%。这意味着:A.所有交易中,同时购买牛奶、面包、鸡蛋的交易占5%B.在购买了牛奶的交易中,有70%也购买了面包和鸡蛋C.在同时购买了牛奶和面包的交易中,有70%也购买了鸡蛋D.同时购买牛奶和面包的交易占所有交易的70%答案:C解析:对于规则X->Y,支持度=P(X∪Y),即交易中包含X和Y中所有项的比例。置信度=P(Y|X)=P(X∪Y)/P(X),即在包含X的交易中,也包含Y的条件概率。本题中,X={牛奶,面包},Y={鸡蛋}。因此,支持度5%表示同时购买三者的交易占5%。置信度70%表示在购买了牛奶和面包的交易中,有70%也购买了鸡蛋。8.在评估分类模型时,当不同类别的误分类代价差异很大时,应优先关注的指标是:A.准确率B.F1-ScoreC.ROC曲线下面积(AUC)D.精确率-召回率曲线(PR曲线)下面积答案:D解析:当类别不平衡且误分类代价不同时(例如,医疗诊断中漏诊代价远高于误诊),准确率会因多数类主导而失效。AUC值对类别不平衡相对稳健,但更关注整体排序能力。精确率(Precision)和召回率(Recall)直接与正例的预测性能相关,PR曲线能更好地反映模型在关注类别(通常是少数类、高代价类)上的表现,其下面积是更合适的评估指标。F1-Score是精确率和召回率的调和平均,是一个综合指标,但PR曲线下面积能提供更全面的视图。9.使用随机森林进行特征重要性评估时,通常基于:A.特征在树节点处分裂后,信息增益或基尼不纯度的减少量B.特征与目标变量的相关系数C.将特征值随机排列后,模型性能下降的程度D.特征在Lasso回归中的系数绝对值答案:C解析:随机森林评估特征重要性的常用方法有两种:1)基于不纯度的平均减少(MeanDecreaseImpurity,MDI),即A选项。2)基于排列的重要性(PermutationImportance),即C选项,通过随机打乱某个特征的值,观察模型性能(如OOB误差或测试集准确率)下降的程度,下降越多说明该特征越重要。B是单变量过滤方法,D是线性模型的特征选择方法。现代实践中,基于排列的重要性被认为更可靠,因为它能捕捉特征间的交互作用且对数据尺度不敏感。10.关于SQL窗口函数,以下查询语句中,能正确计算每个部门内员工薪水排名的是:A.`SELECTname,salary,department,RANK()OVER(ORDERBYsalaryDESC)ASrankFROMemployees;`B.`SELECTname,salary,department,RANK()OVER(PARTITIONBYdepartmentORDERBYsalaryDESC)ASrankFROMemployees;`C.`SELECTname,salary,department,ROW_NUMBER()OVER(PARTITIONBYdepartment)ASrankFROMemployees;`D.`SELECTname,salary,department,DENSE_RANK()OVER(ORDERBYdepartment,salaryDESC)ASrankFROMemployees;`答案:B解析:窗口函数`RANK()`用于计算排名。`PARTITIONBYdepartment`子句表示在每个部门内部进行独立计算。`ORDERBYsalaryDESC`表示按薪水降序排列。因此,B选项实现了“每个部门内”按薪水排名。A选项缺少PARTITIONBY,是全局排名。C选项使用ROW_NUMBER且缺少ORDERBY,不能实现按薪水的排名。D选项的PARTITIONBY被错误地放在ORDERBY中,语法和逻辑均不正确。二、多项选择题1.以下哪些方法可以有效处理数据集中的缺失值?A.直接删除含有缺失值的样本或特征B.使用均值、中位数或众数进行填充C.使用回归或K近邻(KNN)算法进行预测填充D.将缺失本身作为一种状态,用新类别(如“Unknown”)表示答案:A,B,C,D解析:处理缺失值是数据预处理的关键步骤。A方法简单,适用于缺失比例小或对分析影响不大的情况。B方法是单变量填充,简单常用。C方法是更复杂的多变量填充,利用其他特征信息预测缺失值,通常更准确。D方法适用于分类变量,将“缺失”视为一种有信息量的类别。具体方法的选择需根据数据缺失机制、比例和分析目标决定。2.关于正则化在机器学习中的作用,以下描述正确的有:A.L1正则化(Lasso)倾向于产生稀疏的权重向量,可用于特征选择B.L2正则化(Ridge)能有效防止模型过拟合,但不能进行特征选择C.在逻辑回归中加入正则化项,其损失函数中需同时包含对数损失和正则项D.正则化参数λ越大,模型复杂度越高,越容易过拟合答案:A,B,C解析:A正确,L1正则化通过将某些系数压缩至0来实现稀疏性和特征选择。B正确,L2正则化通过惩罚大的权重来平滑模型,防止过拟合,但通常不会将系数恰好变为0。C正确,正则化的逻辑回归损失函数为:J(θ)3.在时间序列预测中,指数平滑法(ExponentialSmoothing)包含多种变体。以下哪些是其特征或适用场景?A.简单指数平滑适用于没有明显趋势和季节性的序列B.霍尔特双参数指数平滑可以处理具有趋势但无季节性的序列C.霍尔特-温特斯三参数指数平滑可以同时处理趋势和季节性D.指数平滑法的本质是对历史观测值进行加权平均,权重随时间指数衰减答案:A,B,C,D解析:指数平滑法是一类广泛应用的时间序列预测方法。A正确,简单指数平滑(SingleExponentialSmoothing)适用于平稳序列。B正确,霍尔特指数平滑(Holt’sLinearTrendMethod)引入了趋势分量。C正确,霍尔特-温特斯指数平滑(Holt-Winters’Method)进一步引入了季节性分量。D正确,这是指数平滑法的核心思想,越近的观测值权重越大。4.关于贝叶斯定理及其在数据分析中的应用,以下正确的有:A.贝叶斯定理公式为:PB.朴素贝叶斯分类器假设特征之间条件独立C.贝叶斯优化可用于超参数调优,其核心是利用先验信息构建目标函数的概率模型D.在贝叶斯统计中,参数被视为固定的未知常数答案:A,B,C解析:A是贝叶斯定理的标准公式。B是朴素贝叶斯分类器的基本假设,虽然该假设在现实中很少严格成立,但使模型计算简便且常常效果不错。C正确,贝叶斯优化是一种高效的全局优化算法,特别适用于评估代价高的黑箱函数优化(如超参数调优),它通过高斯过程等代理模型来平衡探索和利用。D错误,这是频率学派统计的观点。在贝叶斯学派中,参数被视为随机变量,具有先验分布和后验分布。5.以下关于大数据处理框架Spark的描述,正确的有:A.Spark的核心数据结构是弹性分布式数据集(RDD)B.Spark基于内存计算,通常比HadoopMapReduce迭代计算更快C.SparkSQL模块可以用于处理结构化数据,并支持SQL查询D.SparkStreaming处理的是真正的实时流数据,延迟在毫秒级答案:A,B,C解析:A正确,RDD是Spark最初的核心抽象。B正确,Spark将中间结果存储在内存中,减少了磁盘I/O,特别适合需要多次迭代的算法。C正确,SparkSQL提供了DataFrame/DatasetAPI,并支持使用SQL进行查询。D错误,SparkStreaming(在Spark2.0+后被StructuredStreaming逐渐取代)采用的是微批处理(Micro-Batch)模型,延迟通常在秒级,而非毫秒级的真正实时流处理(如Flink)。三、计算题1.假设某电商网站日活跃用户(DAU)的日均使用时长(分钟)近似服从正态分布N((1)试求该网站全体DAU日均使用时长均值μ的95%置信区间。(2)若产品经理声称日均使用时长至少为90分钟,在显著性水平α=答案与解析:(1)已知样本量n=36(大样本),样本均值¯x置信水平1−α=0.95,查t分布表得(35均值的标准误为:SE95%置信区间为:¯x即(80.94(2)假设检验:设立假设:产品经理声称μ≥原假设:备择假设:μ检验统计量(t统计量):t其中=90决策:对于左侧检验,在α=0.05,df由于计算得到的t=结论:在0.05的显著性水平下,拒绝原假设。有足够的统计证据表明,全体DAU的日均使用时长均值小于90分钟,产品经理的说法不成立。2.设有以下关于用户是否点击广告(Click)与用户性别(Gender)和收入等级(Income)的列联表数据(单位:人次):Income/GenderMaleFemaleTotalHighClick:40,No-Click:60Click:50,No-Click:50200LowClick:30,No-Click:70Click:10,No-Click:90200Total200200400请计算在“高收入”群体中,性别对点击率的优势比(OddsRatio)。答案与解析:优势比(OddsRatio,OR)用于衡量两个二分类变量之间的关联强度。首先,聚焦于“高收入(High)”这个子群体。在该群体内,变量是性别(Male/Female)和点击(Click/No-Click)。从表中提取高收入群体的数据:男性(Male):点击40,未点击60。女性(Female):点击50,未点击50。计算男性点击的优势(Odds):Od计算女性点击的优势:Od则性别对点击率的优势比为:OR解析:优势比OR=0.667<1。这意味着,在高收入群体中,男性点击广告的优势是女性点击广告优势的0.667倍。或者说,女性点击广告的优势是男性的1.5倍(1/0.667)。这表明在该高收入子群体中,女性点击广告的倾向性高于男性。四、案例分析题案例背景:某零售公司的数据分析团队接到一项任务:分析客户购物行为,并建立一个模型来预测客户在未来一个月内是否会流失(定义:超过45天无任何交易记录视为流失)。团队已收集到近两年的客户交易数据、基本信息数据和部分交互行为数据。问题:1.特征工程:请列举至少5个你认为对于预测客户流失至关重要的特征,并说明其构造方法和业务含义。2.模型选择与评估:你会选择哪种或哪几种机器学习算法来构建预测模型?请说明理由。并详细阐述你将如何划分数据集以及使用哪些指标来全面评估模型性能。3.不平衡处理:在实际业务中,流失客户通常只占一小部分(如5%-15%)。请说明你会如何处理这种类别不平衡问题,至少给出两种具体方法。4.模型部署与监控:模型上线后,需要监控哪些方面以确保其持续有效?如果发现模型性能随时间衰减,可能的原因有哪些?参考答案:1.特征工程:最近一次购买距今天数(Recency):计算客户最后一次交易日期到分析截止日期的天数。业务含义:流失客户该值会很大,是预测流失最直接的指标之一。历史购买频率(Frequency):统计客户在历史观测期内的总交易次数或平均每月交易次数。业务含义:购买频繁的客户粘性高,流失风险低。历史平均客单价(Monetary):计算客户所有交易的平均订单金额。业务含义:高价值客户流失对公司影响更大,且其行为模式可能不同。最近一次购买金额变化率:比较最近一次订单金额与历史平均客单价的比值或差值。业务含义:最后一次购买金额骤降可能是流失前兆。投诉或客服联系次数:统计客户在近期内联系客服或投诉的次数。业务含义:不满意的客户更容易流失。品类购买集中度:计算客户购买最多的前3个商品品类占其总购买金额的比例(赫芬达尔指数)。业务含义:品类购买单一的客户可能因需求变化或品类缺货而流失。促销活动参与度:客户在过去半年内参与促销活动(如使用优惠券)的订单比例。业务含义:对价格敏感的客户可能因缺乏促销而流失。2.模型选择与评估:模型选择:逻辑回归、随机森林、梯度提升树(如XGBoost,LightGBM)。理由:逻辑回归简单、可解释性强,系数可反映特征影响方向,适合作为基线模型。随机森林和梯度提升树能自动捕捉非线性关系和特征交互,通常预测性能更优,且能输出特征重要性。考虑到业务需要可解释性和高性能,可同时尝试并对比。数据划分:按时间划分。例如,用前18个月的数据作为训练集和验证集,用最近6个月的数据(并按照定义判断流失标签)作为测试集。在训练/验证集内部,再按时间或随机进行交叉验证。时间划分能更好地模拟模型上线后对未来数据的预测能力。评估指标:由于存在类别不平衡,不应只使用准确率。主要指标:精确率-召回率曲线下面积(PR-AUC)或F1-Score(特别是流失类的F1)。辅助指标:混淆矩阵(关注流失类的召回率Recall和精确率Precision)、ROC曲线下面积(AUC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 26年BRAF V600E检测与用药适配
- 医学26年:肌萎缩侧索硬化诊疗 查房课件
- 保安主管岗位技能培训体系
- 少先队知识教育
- 红色财经教育
- 红色教育公开课
- 墙体保温做法课件
- 留守儿童教育叙事
- 急重症外科中的初级姑息治疗解读
- 融媒体建设体系与实施路径
- 恒丰银行笔试题库及答案
- 《导游实务》课件-6.1出境旅游领队服务程序
- 第二章第三节传播学原理与视觉传达设计
- 五行称命书--源自唐朝手抄本(檀香四逸)
- 失血性休克的诊治麻醉病例讨论
- 制冷机组与空调水系统
- 神经外科中枢神经系统感染诊治中国专家共识(2021版)
- GB/T 7193-2008不饱和聚酯树脂试验方法
- FZ/T 54131-2021弹性涤纶牵伸丝/涤纶预取向丝空气变形丝(EDY/POY ATY)
- 第六章 寻根文学
- 药酒、糯米酒及葡萄酒的制作分析
评论
0/150
提交评论