2025年数据科学与大数据技术职业考试试题及答案_第1页
2025年数据科学与大数据技术职业考试试题及答案_第2页
2025年数据科学与大数据技术职业考试试题及答案_第3页
2025年数据科学与大数据技术职业考试试题及答案_第4页
2025年数据科学与大数据技术职业考试试题及答案_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据科学与大数据技术职业考试试题及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在Hadoop生态中,负责资源管理与任务调度的组件是()A.HDFS  B.YARN  C.MapReduce  D.Hive答案:B2.下列关于数据湖描述正确的是()A.仅支持结构化数据  B.schemaonwrite是其核心特征C.通常采用对象存储保存原始数据  D.不支持流式数据摄入答案:C3.使用SparkSQL进行连接操作时,当左表全部保留、右表无匹配时补NULL,应选用的连接类型为()A.innerjoin  B.leftsemijoin  C.leftouterjoin  D.rightouterjoin答案:C4.在Pythonpandas中,对DataFramedf按列col升序排序并返回新对象的语句是()A.df.sort("col")  B.df.sort_values("col",inplace=True)C.df.sort_values("col")  D.df.order("col")答案:C5.下列算法中,属于集成学习Bagging思想的是()A.AdaBoost  B.RandomForest  C.XGBoost  D.LightGBM答案:B6.在Kafka中,负责持久化消息并以顺序写方式保证高吞吐量的机制是()A.Partition  B.Segment  C.Offset  D.ISR答案:B7.若某电商用户行为日志文件大小为2.7TB,采用HDFS默认块大小128MB存储,理论切块数量约为()A.16875  B.21504  C.27000  D.13500答案:B8.在特征缩放中,RobustScaler相较于StandardScaler的优势在于()A.保留稀疏性  B.对异常值不敏感  C.计算速度更快  D.结果范围固定在[0,1]答案:B9.使用Flink实现ExactlyOnce语义时,关键机制不包括()A.Checkpoint  B.Twophasecommit  C.Statesnapshot  D.Atleastoncedelivery答案:D10.在Hive中,将分区表table_a的dt='20250501'分区删除的语句为()A.DROPPARTITIONtable_a(dt='20250501');B.ALTERTABLEtable_aDROPPARTITION(dt='20250501');C.DELETEFROMtable_aWHEREdt='20250501';D.TRUNCATEtable_aPARTITION(dt='20250501');答案:B11.下列关于PCA说法错误的是()A.主成分方向由协方差矩阵特征向量决定B.各主成分之间线性无关C.保留主成分数量k越大,重构误差越大D.可用于高维数据可视化答案:C12.在Airflow中,用于等待外部任务触发信号的对象是()A.BashOperator  B.Sensor  C.DAG  D.XCom答案:B13.当使用LightGBM训练模型时,为了处理类别特征,应设置的参数为()A.categorical_feature  B.is_unbalance  C.max_cat_to_onehot  D.feature_fraction答案:A14.在SQL优化中,能够减少数据倾斜的Join技术是()A.Mapsidejoin  B.Shufflejoin  C.Broadcastjoin  D.Sortmergejoin答案:C15.某时间序列采用ARIMA(1,1,1)模型,其d=1表示()A.自回归阶数  B.移动平均阶数  C.差分次数  D.季节周期答案:C16.在Elasticsearch中,用于对text字段进行中文分词并支持自定义词典的插件是()A.IK  B.Whitespace  C.Standard  D.Keyword答案:A17.下列关于数据仓库星型模型描述正确的是()A.事实表引用维度表主键  B.维度表必须规范化到3NFC.不存在退化维度  D.查询性能通常低于雪花模型答案:A18.在Python中,使用multiprocessing模块时,能够避免GIL限制并真正利用多核的类是()A.ThreadPool  B.ProcessPool  C.Queue  D.Lock答案:B19.在推荐系统冷启动问题中,利用用户注册信息(年龄、性别)进行推荐属于()A.物品冷启动  B.系统冷启动  C.用户冷启动  D.模型冷启动答案:C20.在数据治理元数据管理中,描述“字段含义、业务口径”的元数据属于()A.技术元数据  B.操作元数据  C.业务元数据  D.管理元数据答案:C二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)21.下列属于NoSQL数据库CAP理论中“分区容错性”实际必须满足的原因包括()A.网络故障不可避免  B.硬件故障常态化  C.一致性可事后补偿  D.可用性可降级答案:AB22.在Spark作业提交参数中,能够控制Executor内存大小的参数有()A.spark.executor.memory  B.spark.executor.coresC.spark.driver.memory  D.spark.default.parallelism答案:AC23.下列属于FlinkTime概念的有()A.ProcessingTime  B.EventTime  C.IngestionTime  D.WindowTime答案:ABC24.关于数据倾斜,下列缓解手段正确的有()A.两阶段聚合(局部聚合+全局聚合)  B.增加Reduce并行度C.使用随机前缀拼接key  D.将热点key单独处理答案:ACD25.在Pythonsklearn中,可用于特征选择的模块包括()A.SelectKBest  B.RFE  C.VarianceThreshold  D.PCA答案:ABC26.下列属于Hive文件格式且支持列式存储的有()A.TextFile  B.ORC  C.Parquet  D.SequenceFile答案:BC27.在数据安全脱敏技术中,能够保持数据分布特征的技术有()A.掩码  B.哈希  C.扰动  D.同态加密答案:CD28.下列属于Docker核心概念的有()A.Image  B.Container  C.Registry  D.Namespace答案:ABC29.在A/B测试评估指标中,属于比率型指标的有()A.点击率  B.人均GMV  C.转化率  D.留存率答案:ACD30.下列关于数据资产目录功能描述正确的有()A.数据血缘展示  B.权限申请入口  C.质量评分可视化  D.数据成本分摊答案:ABCD三、填空题(每空1分,共20分)31.在Linux中,查看当前目录下各子目录磁盘占用大小的命令是duhmaxdepth=132.HDFS默认副本数为333.在SQL窗口函数中,用于指定分组后排序的关键词是PARTITIONBY34.在Python中,使用pandas将字符串转为日期类型的函数是to_datetime35.在机器学习评价指标中,F1score的数学表达式为2(precisionrecall)/(precision+recall)36.SparkRDD的五大特征包括:分区列表、计算函数、依赖关系、分区器、首选位置37.KafkaConsumer采用pull模式获取消息38.在数据可视化中,表示数据分布偏态的三阶矩称为偏度39.使用Elasticsearch创建索引时,设置分片数量的参数为number_of_shards40.在Git中,将暂存区文件提交到本地仓库的命令是gitcommitm"message"41.在数据质量管理中,Completeness指标用于衡量数据缺失程度42.在Python中,使用conda创建名为env_ds的虚拟环境的命令是condacreatenenv_dspython=3.1043.在Hive中,将查询结果插入本地目录的语法关键词为LOCAL44.在FlinkCEP库中,定义连续事件模式的核心类是Pattern45.在推荐系统FM模型中,特征交互项的隐向量维度由超参数k控制46.在SQL中,将多行字符串聚合为一行,MySQL使用的函数为GROUP_CONCAT47.在数据治理中,识别个人敏感信息常用的正则匹配字段名称包括phone、id_card、email等48.在Linux定时任务中,每天凌晨2点执行脚本的任务时间表达式为0249.在sklearn中,用于计算ROC曲线的函数为roc_curve50.在数据仓库缓慢变化维Type2策略中,新增版本记录时通常需要额外字段生效时间与失效时间四、判断题(每题1分,共10分。正确打“√”,错误打“×”)51.SparkStreaming的DStream本质上是一系列连续的RDD。(√)52.在HBase中,列族的数量越多,扫描性能越高。(×)53.XGBoost的目标函数由损失函数与正则化项两部分组成。(√)54.数据仓库分层模型中,DWD层通常保留原始数据不做任何清洗。(×)55.在Elasticsearch中,text类型字段默认启用doc_values以提升排序性能。(×)56.在Python中,GIL的存在使得多线程无法并发执行CPU密集型任务。(√)57.使用FlinkCheckpoint时,必须依赖外部存储如HDFS或S3保存状态快照。(√)58.在Hive中,分区字段可以作为SELECT的返回列。(√)59.在推荐系统协同过滤中,用户物品交互矩阵稀疏性越高,推荐效果一定越差。(×)60.数据血缘追踪的最终目的是定位数据质量问题根源。(√)五、简答题(共30分)61.(封闭型,6分)简述MapReduce中Shuffle阶段的具体流程,并指出其对性能影响最大的两个内部环节。答案:Shuffle阶段指从Map输出到Reduce输入的全过程,包括:(1)Map端:分区(partition)、内存缓冲区(spill)、排序(sort)、合并(combiner)、溢写磁盘、合并溢写文件;(2)Reduce端:拉取(fetch)、合并(merge)、排序(finalsort)。对性能影响最大的两个环节是:1.Map端溢写磁盘次数过多导致IO放大;2.Reduce端拉取数据跨节点网络传输,网络带宽成为瓶颈。62.(开放型,6分)某电商公司“618”大促期间,实时订单写入Kafka后出现消费延迟,请从参数调优、资源扩容、业务逻辑三方面给出可落地的优化方案。答案:参数调优:增大Kafka分区数至集群broker倍数,提高并行度;调优fetch.min.bytes与max.poll.records减少拉取次数;调大Consumergroup实例数并保证实例数≤分区数。资源扩容:临时增加broker节点,提升网络出口带宽;Consumer端增加pod副本,利用KubernetesHPA根据lag指标自动扩容。业务逻辑:订单消息瘦身,剔除非必要字段,压缩采用lz4;将非关键统计任务降级到离线,减轻实时链路压力;对热点品类采用keyby策略打散分区,避免单分区堆积。63.(封闭型,6分)写出使用pandas完成以下操作的完整代码:读取CSV、按user_id分组计算消费金额均值、将结果写入Parquet并保留分区。答案:importpandasaspddf=pd.read_csv("input.csv")mean_df=df.groupby("user_id",as_index=False)["amount"].mean()mean_df.to_parquet("output/",partition_cols=["user_id"],engine="pyarrow")64.(开放型,6分)描述数据资产定价的三种主流思路,并指出各自适用场景。答案:成本法:以采集、存储、计算、治理、人力等成本加和定价,适用于内部成本分摊、预算编制。收益法:评估数据带来的增量收益或节约成本并折现,适用于可直接变现的数据产品,如征信报告。市场法:参考公开交易或同类数据市场价格,适用于成熟数据交易市场,如广告受众包、地理POI数据。65.(封闭型,6分)给出SparkSQL中创建桶表bucketed_table,按user_id分32桶、存储格式为Parquet、分区字段为dt的完整DDL。答案:CREATETABLEbucketed_table(user_idBIGINT,event_typeSTRING,amountDOUBLE)USINGPARQUETPARTITIONEDBY(dtSTRING)CLUSTEREDBY(user_id)INTO32BUCKETS;六、应用题(共50分)66.(计算类,10分)某短视频平台日活1000万,平均每人上传5个短视频,每个视频文件200MB,HDFS采用三副本,块大小256MB,忽略元数据开销,计算:(1)日新增存储裸容量(单位TB);(2)理论块数量;(3)若压缩率0.3,压缩后实际存储容量。答案:(1)1000万5200MB=10PB,三副本后30PB=30720TB(2)每块256MB,块数量=30PB/256MB=3010241024/256=1228800块(3)压缩后容量=30720TB0.3=9216TB67.(分析类,15分)给定用户行为表user_log(user_id,item_id,category,behavior,ts),行为包括pv、buy、cart、fav。任务:使用SQL计算每个品类carttobuy转化率,要求排除购物车记录数<100的品类,输出字段:category,cart_cnt,buy_cnt,conversion_rate。答案:SELECTcategory,SUM(CASEWHENbehavior='cart'THEN1ELSE0END)AScart_cnt,SUM(CASEWHENbehavior='buy'THEN1ELSE0END)ASbuy_cnt,ROUND(SUM(CASEWHENbehavior='buy'THEN1ELSE0END)/SUM(CASEWHENbehavior='cart'THEN1ELSE0END),4)ASconversion_rateFROMuser_logGROUPBYcategoryHAVINGcart_cnt>=100ORDERBYconversion_rateDESC;68.(综合类,25分)某银行拟构建实时反欺诈模型,数据包括:A.交易流:tx_id,user_id,amount,merchant,mcc,ts,duration,ipB.用户画像:user_id,age,gender,register_ts,credit_scoreC.设备指纹:tx_id,device_id,os,root_flag,proxy_flag要求:(1)画出实时特征计算链路架构图(文字描述即可);(2)给出3个关键特征的业务含义与实现逻辑;(3)选择模型并说明理由;(4)给出模型上线后的监控指标。答案:(1)架构:交易流→Kafka→FlinkCEP→Redis缓存特征→FlinkML预测→Kafka结果→规则引擎→告警推送。(2)特征:a.近5分钟同一IP卡号数:Flink滑动窗口统计distinctcard_id;b.近30天用户夜间交易占比:离线日批写入HBase,Flink异步join;c.设备首次出现标志:Redissetnxdevice_id,返回1表示新设备。(3)模型:选用XGBoost,理由:可解释性强,支持类别特征,处理非线性关系,分布式训练成熟。(4)监控:a.模型PSI>0.2触发重训;b.特征缺失率>5%报警;c.精确率、召回率、F1下降超阈值自动回滚上一版本;d.预测延迟P99>100ms扩容FlinkTaskManager。七、编程题(共30分)69.(15分)使用PySpark实现WordCount,并完成以下扩展:a.过滤长度<3的单词;b.输出前10高频单词及其次数;c.结果写入HDFS文本文件,单文件输出。答案:frompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName("WordCount").getOrCreate()sc=spark.sparkContextlines=sc.textFile("hdfs:///input")counts=lines.flatMap(lambdax:x.split())\.filter(lambdaw:len(w)>=3)\.map(lambdaw:(w.lower(),1))\.reduceByKey(lambdaa,b:a+b)\.sortBy(lambdax:x[1],ascending=False)top10=counts.take(10)sc.parallelize(top10).saveAsTextFile("hdfs:///output")spark.stop()70.(15分)使用Pythonscikitlearn完成鸢尾花数据集的分类任务,要求:a.采用Pipeline集成StandardScaler、PCA(n=2)、LogisticRegression;b.使用GridSearchCV调优C参数,候选[0.1,1,10,100];c.输出最佳参数、交叉验证平均准确率、分类报告。答案:fromsklearn.datasetsimportload_irisfromsklearn.preprocessingimportStandardScalerfromsklearn.decompositionimportPCAfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportPipelinefromsklearn.model_selectionimportGridSearchCVfromsklearn.metricsimportclassification_reportX,y=load_iris(return_X_y=True)pipe=Pipeline([("scaler",StandardScaler()),("pca",PCA(n_components=2)),("clf",LogisticRegression(max_iter=1000))])param_grid={"clf__C":[0.1,1,10,100]}gs=GridSearchCV(pipe,param_grid,cv=5,scoring="accuracy")gs.fit(X,y)print("bestparams:",gs.best_params_)print("cvmeanscore:",gs.best_score_.r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论