2025年数据科学与大数据技术专业考试题及答案_第1页
2025年数据科学与大数据技术专业考试题及答案_第2页
2025年数据科学与大数据技术专业考试题及答案_第3页
2025年数据科学与大数据技术专业考试题及答案_第4页
2025年数据科学与大数据技术专业考试题及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据科学与大数据技术专业考试题及答案一、单项选择题(每题2分,共20分)1.在Hadoop生态中,负责资源管理与任务调度的组件是A.HDFS B.YARN C.MapReduce D.Hive答案:B2.下列关于数据仓库与数据湖的描述,正确的是A.数据湖只支持结构化数据B.数据仓库SchemaonWrite,数据湖SchemaonReadC.数据湖必须基于关系型数据库实现D.数据仓库不支持ETL过程答案:B3.给定连续随机变量X的密度函数f(x)=2x,0≤x≤1,则P(0.25≤X≤0.75)为A.0.25 B.0.375 C.0.5 D.0.625答案:B解析:∫0.25^0.752xdx=x^2|0.25^0.75=0.56250.0625=0.54.在Spark中,下列哪种操作属于窄依赖A.groupByKey B.reduceByKey C.map D.sortByKey答案:C5.使用Kmeans聚类时,若初始中心点选择不当,最可能导致的后果是A.收敛速度加快 B.聚类簇数减少 C.陷入局部最优 D.轮廓系数增大答案:C6.在Pythonpandas中,对DataFramedf按列col升序排序并返回新对象的正确写法是A.df.sort("col") B.df.sort_values("col",inplace=True)C.df_sorted=df.sort_values("col") D.df.order("col")答案:C7.下列关于L1与L2正则化的说法,错误的是A.L1可产生稀疏解 B.L2对异常值更鲁棒C.L2正则项为λ∑|βj| D.弹性网络同时包含L1与L2答案:C8.在HiveQL中,用于将多行合并成一行的聚合函数是A.COLLECT_LIST B.CONCAT C.EXPLODE D.LATERALVIEW答案:A9.若某频繁项集的支持度计数为50,总事务数为1000,则支持度为A.0.02 B.0.05 C.0.1 D.0.5答案:B10.在TensorFlow2.x中,关闭eagerexecution的代码是A.tf.disable_eager() B.pat.v1.disable_eager_execution()C.tf.eager=False D.无法关闭答案:B二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列属于NoSQL数据库的有A.MongoDB B.HBase C.Neo4j D.PostgreSQL答案:ABC12.关于梯度消失问题,正确的缓解措施包括A.使用ReLU激活 B.采用BatchNorm C.增大学习率 D.使用残差连接答案:ABD13.在数据清洗过程中,处理缺失值可采用A.均值填充 B.前向填充 C.删除缺失行 D.插值法答案:ABCD14.下列属于时间序列预测评价指标的有A.MAPE B.RMSE C.AUC D.SMAPE答案:ABD15.在Kafka中,保证消息ExactlyOnce语义需依赖A.幂等Producer B.事务API C.消费者异步提交 D.消费者组重平衡答案:AB三、填空题(每空2分,共20分)16.在Linux中,查看当前目录下各子目录磁盘使用情况的命令是________。答案:duhmaxdepth=117.若某决策树使用基尼系数作为划分标准,则节点基尼系数计算公式为Gini=1∑(pi^2),其中pi表示第i类样本占________的比例。答案:当前节点18.在SQL中,窗口函数ROW_NUMBER()必须与________子句配合才能生成唯一序号。答案:OVER19.给定向量x=[1,2,3,4],其L2范数为________。答案:sqrt(1^2+2^2+3^2+4^2)=sqrt(30)20.在SparkMLlib中,使用________算法可自动选择最优桶数进行特征离散化。答案:QuantileDiscretizer21.若某电商网站日均PV为1亿,保留30天原始日志,采用Snappy压缩后单条日志平均0.5KB,则所需存储空间约为________TB。答案:1e80.5KB30≈1.5e9KB≈1.4TB22.在Python中,使用________库可调用C++编写的CUDA核函数实现GPU加速。答案:Numba23.若随机变量X~N(0,1),则P(|X|≤1.96)≈________。答案:0.9524.在HDFS中,默认块大小为________MB。答案:12825.在Elasticsearch中,实现近似聚合去重的数据结构是________。答案:HyperLogLog四、判断题(每题1分,共10分,正确写“T”,错误写“F”)26.数据挖掘中的“过拟合”指模型在训练集上误差较大。 答案:F27.Flink的Checkpoint机制基于ChandyLamport算法实现。 答案:T28.在PCA中,主成分方向对应协方差矩阵特征值最小的特征向量。 答案:F29.GBDT与XGBoost均属于Boosting家族算法。 答案:T30.Hive支持行级更新删除从1.0版本开始。 答案:F31.在Python中,list的append操作时间复杂度为O(1)。 答案:T32.使用OneHot编码后,特征维度一定等于原始类别数。 答案:F33.在Kafka中,partition数一旦创建不可动态增加。 答案:F34.逻辑回归使用sigmoid函数主要为了将输出映射到0~1概率区间。 答案:T35.在Spark中,RDD的cache()默认存储级别为MEMORY_ONLY。 答案:T五、简答题(共25分)36.(封闭型,6分)简述MapReduce编程模型中Combiner的作用及使用条件。答案:Combiner是本地化的reduce操作,作用是在map端先做一次局部聚合,减少shuffle数据量,提升性能;使用条件:聚合函数必须满足交换律和结合律,如sum、max,不适用于求均值等依赖全局分母的场景。37.(开放型,9分)某航空公司拥有过去5年乘客订票、值机、延误、投诉等数据,请设计一套旅客忠诚度评分框架,说明数据来源、特征构造、模型选择及评估方法。答案:1)数据来源:CRM系统、航班动态库、会员系统、社交媒体文本;2)特征构造:RFM(最近乘机间隔R、年乘机频次F、年票价总额M)、延误体验(平均延误时长、被延误次数)、服务互动(投诉次数、表扬次数、升舱次数)、情感得分(NLP分析微博提及);3)模型选择:采用XGBoost回归预测未来一年乘机价值,输出0~100忠诚度分;4)评估:使用RMSE、MAE评价回归精度;按忠诚度分位分组,观察未来一年实际乘机次数与金额的Lift曲线,验证模型区分度;结合SHAP值解释关键影响因子,指导运营策略。38.(封闭型,5分)写出使用Scala在Spark中读取Parquet文件并统计某一列缺失值比例的代码片段。答案:valdf=spark.read.parquet("hdfs://path/to/data.parquet")valnullCnt=df.selectExpr("sum(casewhencol_nameisnullthen1else0end)ascnt").first().getLong(0)valtotal=df.count()valratio=nullCnt.toDouble/total39.(开放型,5分)解释“数据漂移”与“概念漂移”的区别,并给出各一种检测方法。答案:数据漂移指输入特征分布P(X)发生变化,但决策边界不变;概念漂移指P(Y|X)发生变化,即特征与标签关系改变。检测方法:数据漂移可用KolmogorovSmirnov检验连续变量分布差异;概念漂移可用在线误差率监控,当滑动窗口内分类错误率显著上升即触发警报。六、计算与分析题(共40分)40.(计算类,10分)给定线性回归模型y=β0+β1x1+β2x2,使用最小二乘法求解。已知设计矩阵X为[121;143;165],观测向量y=[1;2;3]。求β=(X^TX)^(1)X^Ty。答案:X^TX=[3129;125642;94235](X^TX)^(1)=[5.251.1250.375;1.1250.31250.0625;0.3750.06250.0625]X^Ty=[6;26;20]β=[0;0.5;0.5]41.(分析类,10分)某电商推荐系统离线评估得到如下混淆矩阵:实际\预测正负正   400100负   2009300计算Precision、Recall、F1,并分析是否适合直接上线。答案:Precision=400/(400+200)=0.667Recall=400/(400+100)=0.8F1=20.6670.8/(0.667+0.8)=0.727虽然F1尚可,但负样本极多,假正率FPR=200/(200+9300)=0.021,业务上若推荐位稀缺,需更高Precision,建议继续优化模型或调整阈值。42.(综合类,20分)某市共享单车公司提供2024年全年订单数据(字段:order_id,bike_id,user_id,start_time,start_lat,start_lng,end_time,end_lat,end_lng,price)。任务:1)构建“工作日早高峰(7:009:00)”出发热点区域(500m×500m网格)识别流程,写出PySpark核心代码;2)给出热点区域评价指标并解释;3)若发现热点区域与地铁口分布不一致,请分析可能原因并提出数据验证方案。答案:1)PySpark代码:df=spark.read.csv("orders.csv",header=True,inferSchema=True)df=df.filter("dayofweek(start_time)between2and6")\.filter("hour(start_time)between7and8")df=df.withColumn("start_x",(col("start_lng")1000).cast("int")/500)\.withColumn("start_y",(col("start_lat")1000).cast("int")/500)hot=df.groupBy("start_x","start_y").count().orderBy(desc("count"))hot.write.csv("morning_hotspots")2)评价指标:a)订单密度=网格订单数/网格面积;b)渗透率=网格独立用户数/网格常住人口(需外部人口栅格数据);c)潮汐指数=早高峰出发订单数/晚高峰到达订单数,衡量供需平衡。3)不一致原因:数据漂移导致用户习惯改变;地铁口数据更新滞后;封闭施工导致临时绕行。验证方案:a)采集地铁闸机出站人数作为真值,计算热点与出站人流的Pearson相关;b)使用时空KDE对比连续三个月热点演变,观察是否向地铁口回归;c)问卷调查热点区域用户出发目的,验证通勤占比。七、编程与实现题(共20分)43.(编程类,20分)使用Python实现一个基于Streaming的实时WordCount,数据源为Kafka主题“news”,要求:1)采用Kafkapy或confluent库消费;2)每10秒输出一次窗口统计结果到控制台;3)过滤长度小于3的单词;4)给出完整可运行代码及运行说明。答案:```pythonfromkafkaimportKafkaConsumerimportjsonfromcollectionsimportdefaultdictimporttimeconsumer=KafkaConsumer('news',bootstrap_servers='localhost:9092',value_deserializer=lambdam:json.loads(m.decode('utf8')),auto_offset_reset='latest')window=10secondscounter=defaultdict(int)start=time.time()formsginconsumer:te

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论