2025年数据科学导论试题及答案_第1页
2025年数据科学导论试题及答案_第2页
2025年数据科学导论试题及答案_第3页
2025年数据科学导论试题及答案_第4页
2025年数据科学导论试题及答案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据科学导论试题及答案一、单项选择题(每题2分,共20分)1.以下哪项属于非结构化数据?A.关系型数据库中的用户表B.社交媒体中的用户评论C.财务系统中的资产负债表D.气象站记录的温度时间序列答案:B2.某数据集的频数分布中,出现次数最多的数值为18,该统计量是:A.均值B.中位数C.众数D.分位数答案:C3.在分类模型评估中,若真实正类为100例,模型预测正类为80例,其中正确预测的正类为60例,则精确率(Precision)为:A.60%B.75%C.66.67%D.80%答案:B(精确率=TP/(TP+FP)=60/(60+20)=75%)4.数据标准化(Z-score标准化)的公式为:A.(x-μ)/σB.(x-min)/(max-min)C.x/||x||D.log(x+1)答案:A5.以下哪种方法最可能用于解决模型过拟合问题?A.增加训练数据量B.减少特征数量C.提高模型复杂度D.降低学习率答案:A6.特征工程中,将“星期几”(周一至周日)转换为数值特征时,最合理的编码方式是:A.独热编码(One-HotEncoding)B.标签编码(LabelEncoding)C.二进制编码(BinaryEncoding)D.目标编码(TargetEncoding)答案:A(星期几无顺序关系,独热编码避免引入错误顺序)7.SQL语句中,用于返回满足条件的非重复记录的关键字是:A.DISTINCTB.GROUPBYC.HAVINGD.UNION答案:A8.数据可视化中,展示两个连续变量之间的相关关系最适合的图表是:A.柱状图B.散点图C.折线图D.箱线图答案:B9.根据贝叶斯定理,P(A|B)=P(B|A)P(A)/P(B),其中P(A)被称为:A.后验概率B.似然概率C.先验概率D.边缘概率答案:C10.数据仓库(DataWarehouse)的核心特点是:A.实时性高B.面向事务处理C.支持历史数据查询D.数据结构动态变化答案:C二、填空题(每题2分,共20分)1.数据科学的核心流程通常包括数据采集、数据清洗、________、模型构建、模型评估和部署应用。答案:探索性数据分析(EDA)2.若某数据集的均值大于中位数,则数据分布呈现________(左偏/右偏)。答案:右偏3.决策树算法中,常用的划分准则包括信息增益、________和基尼系数。答案:信息增益率4.K-means聚类算法的目标是最小化所有样本到其所属簇________的距离平方和。答案:中心(质心)5.余弦相似度的计算公式为两个向量的点积除以它们的________的乘积。答案:模长(范数)6.正则化方法中,L1正则化倾向于使模型参数________,L2正则化倾向于使参数趋近于0但不为0。答案:稀疏(产生更多0参数)7.数据湖(DataLake)通常以________格式存储原始数据(如Parquet、ORC或文本文件),支持多类型数据存储。答案:列式(或非结构化/半结构化)8.A/B测试的关键假设是两组样本满足________,即除被测试变量外,其他条件无显著差异。答案:随机化(或独立性)9.主成分分析(PCA)的核心目标是通过线性变换将高维数据投影到低维空间,同时最大化________。答案:方差(保留最大信息)10.混淆矩阵中,真阳性率(TPR)的计算公式为________。答案:TP/(TP+FN)(或召回率/灵敏度)三、简答题(每题8分,共40分)1.简述数据清洗的常见问题及对应的解决方法。答案:数据清洗的常见问题包括:(1)缺失值:可能由记录遗漏、设备故障等导致,解决方法有删除缺失样本(当缺失比例低时)、均值/中位数填充(数值型)、众数填充(分类型)、插值法(时间序列)或模型预测填充;(2)异常值:可能由测量误差或真实极端值引起,解决方法有Z-score法(超出μ±3σ)或IQR法(超出Q1-1.5IQR或Q3+1.5IQR)识别后,删除、修正或保留(若为真实值);(3)重复值:由数据冗余导致,需通过唯一标识(如ID)去重;(4)数据不一致:如日期格式混乱、单位不统一,需统一格式或转换单位;(5)错误值:如年龄为-5,需根据业务逻辑修正或删除。2.对比监督学习与无监督学习的核心区别,并各举一个应用场景。答案:核心区别:监督学习使用带标签的数据(输入x与输出y),目标是学习x到y的映射(如分类、回归);无监督学习使用无标签数据,目标是发现数据内在结构(如聚类、降维)。应用场景示例:监督学习如基于用户历史购买记录(x)和是否购买(y=0/1)的购买预测模型;无监督学习如基于用户行为数据(无标签)的用户分群(聚类)。3.列举特征选择的常用方法,并说明其核心思想。答案:特征选择方法包括:(1)过滤法(Filter):基于统计量(如卡方检验、相关系数、互信息)评估特征与目标的相关性,保留高相关特征;(2)包装法(Wrapper):将特征选择视为搜索问题,用模型性能(如准确率)作为评价指标,逐步选择最优特征子集(如前向/后向搜索);(3)嵌入法(Embedded):在模型训练过程中自动选择特征(如L1正则化的逻辑回归,通过稀疏化参数剔除不重要特征);(4)基于树模型的重要性:如随机森林通过特征对节点分裂的贡献度(Gini重要性)评估特征重要性。4.评估分类模型时,常用的指标有哪些?说明各指标的适用场景。答案:常用指标包括:(1)准确率(Accuracy):正确分类样本占比,适用于类别分布均衡的场景;(2)精确率(Precision):预测正类中实际正类的比例,适用于关注“减少误判正类”的场景(如垃圾邮件检测);(3)召回率(Recall/TPR):实际正类中被正确预测的比例,适用于关注“不遗漏正类”的场景(如疾病诊断);(4)F1-score:精确率与召回率的调和平均,适用于需平衡两者的场景;(5)AUC-ROC:反映模型在不同阈值下的分类能力,适用于类别分布不均衡或需全局评估的场景;(6)对数损失(LogLoss):衡量预测概率与真实标签的吻合度,适用于需要概率输出的模型(如逻辑回归)。5.简述Hadoop生态中HDFS、MapReduce和Hive的作用及相互关系。答案:HDFS(Hadoop分布式文件系统)是底层存储组件,用于存储海量数据(分块存储,冗余备份);MapReduce是计算框架,将任务分解为Map(映射)和Reduce(归约)阶段,支持分布式并行计算;Hive是数据仓库工具,提供类SQL的HiveQL语言,将SQL查询转换为MapReduce任务,简化分布式计算的使用。三者关系:HDFS为存储层,MapReduce为计算层,Hive为上层接口,用户通过Hive操作HDFS上的数据,底层由MapReduce执行计算。四、计算题(每题10分,共20分)1.某数据集包含10个样本的年龄(单位:岁):22,25,28,30,32,35,38,40,45,50。(1)计算均值、中位数、标准差(保留2位小数);(2)计算偏度(使用皮尔逊偏度系数:3(均值-中位数)/标准差),并判断数据分布形态。答案:(1)均值=(22+25+28+30+32+35+38+40+45+50)/10=345/10=34.5岁;中位数为第5、6个数的平均=(32+35)/2=33.5岁;标准差计算:各数据与均值差的平方和=[(22-34.5)²+…+(50-34.5)²]=(-12.5)²+(-9.5)²+(-6.5)²+(-4.5)²+(-2.5)²+(0.5)²+(3.5)²+(5.5)²+(10.5)²+(15.5)²=156.25+90.25+42.25+20.25+6.25+0.25+12.25+30.25+110.25+240.25=708.5;方差=708.5/10=70.85,标准差=√70.85≈8.42岁。(2)皮尔逊偏度系数=3(34.5-33.5)/8.42≈31/8.42≈0.356>0,数据呈右偏分布(均值>中位数)。2.某逻辑回归模型的参数为:权重w=[0.5,-0.3],偏置b=0.2。现有一个样本的特征向量x=[2,4],假设阈值为0.5,计算该样本被分类为正类(y=1)还是负类(y=0)。答案:逻辑回归的线性组合z=w·x+b=0.52+(-0.3)4+0.2=11.2+0.2=0;通过sigmoid函数计算概率p=1/(1+e^(-z))=1/(1+e^0)=0.5;由于p=0.5等于阈值,通常根据具体规则(如向上取整)分类为正类(或负类,需说明假设)。若严格大于0.5为正类,则此处p=0.5可能分类为负类,需根据题目要求判断。通常默认p≥0.5为正类,故分类为正类。五、综合分析题(20分)某电商平台希望分析用户购买行为,需构建一个预测用户是否会购买某商品的分类模型。现有数据集包含以下特征:用户年龄(数值型)、性别(分类型:男/女)、过去30天浏览该商品的次数(数值型)、页面停留时间(数值型)、是否为会员(布尔型)、商品价格(数值型)、目标变量(是否购买:0/1)。(1)说明数据预处理的关键步骤及理由;(2)选择两种适合的分类算法,并说明选择依据;(3)若模型训练后准确率为90%,但在测试集上仅为75%,可能的原因及解决方法。答案:(1)数据预处理步骤:①缺失值处理:检查各特征是否有缺失(如年龄缺失),数值型用均值/中位数填充,分类型用众数或新增“缺失”类别;②分类型特征编码:性别(男/女)用独热编码(避免引入顺序),是否为会员(布尔型)直接转为0/1;③数值型特征标准化/归一化:年龄、浏览次数、停留时间、价格量纲不同,需用Z-score或Min-Max标准化,避免模型对大数值特征过度敏感;④特征工程:可构造新特征(如浏览次数×停留时间反映用户兴趣强度);⑤数据划分:按7:3或8:2划分为训练集和测试集,保证分布一致(分层抽样)。(2)算法选择及依据:①逻辑回归:计算效率高,可解释性强(系数反映特征重要性),适合线性可分的场景,且输出概率值便于业务决策(如设定阈值调整精确率/召回率);②随机森林:能处理非线性关系,对异常值和缺失值不敏感,通过多棵决策树降低过拟合风险,同时提供特征重要性评分(帮助业务理解关键因素)。(3)训练准确率90%、测试75%的可能原因及解决方法:①过拟合:模型在训练集上过度学习噪声,解决方法包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论