2026年继续教育公需科目大数据技术及应用题库及答案_第1页
2026年继续教育公需科目大数据技术及应用题库及答案_第2页
2026年继续教育公需科目大数据技术及应用题库及答案_第3页
2026年继续教育公需科目大数据技术及应用题库及答案_第4页
2026年继续教育公需科目大数据技术及应用题库及答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年继续教育公需科目大数据技术及应用题库及答案一、单项选择题(每题1分,共30分)1.下列哪项最能准确描述大数据的“4V”特征?A.Volume、Velocity、Variety、ValueB.Volume、Velocity、Variety、VeracityC.Volume、Velocity、Virtualization、ValueD.Volume、Velocity、Variety、Visibility2.在Hadoop生态中,负责资源管理与任务调度的组件是:A.HDFSB.YARNC.MapReduceD.Hive3.某电商公司每日新增日志文件约2TB,存储周期90天,采用HDFS三副本策略,则理论裸容量需求为:A.60TBB.120TBC.180TBD.540TB4.Spark相比MapReduce性能提升的核心原因是:A.基于磁盘迭代B.基于内存迭代C.基于网络迭代D.基于GPU迭代5.在Kafka中,负责持久化消息并以顺序写方式保证高吞吐的组件是:A.ProducerB.ConsumerC.BrokerD.ZooKeeper6.下列哪项不是NoSQL数据库的共同特征?A.模式灵活B.高可扩展C.强一致性优先D.支持分布式7.使用HBase存储海量稀疏矩阵时,RowKey设计的最佳实践是:A.随机哈希前缀+时间戳倒序B.连续递增数字C.固定长度字符串D.纯时间戳正序8.在Flink中,Exactly-once语义依赖的核心机制是:A.异步快照+状态回滚B.两阶段提交C.幂等写D.事务日志9.某运营商构建用户画像,需对2亿条位置记录做地理栅格聚合,最适合的分布式计算框架是:A.StormB.FlinkC.HiveonTezD.Pandas10.数据湖与数据仓库的本质差异在于:A.是否支持SQLB.是否schema-on-readC.是否支持事务D.是否支持实时11.在ClickHouse中,对亿级记录执行selectcount()fromtable,返回结果耗时毫秒级,其主要原因是:A.列式存储+稀疏索引B.行式存储+稠密索引C.内存计算+全表扫描D.预聚合物化视图12.下列算法中,常用于推荐系统冷启动场景的是:A.协同过滤B.矩阵分解C.内容相似度D.深度学习13.在数据治理体系中,负责定义“同一客户只能有一个会员ID”的规则属于:A.数据标准B.数据质量C.元数据管理D.主数据管理14.某市政府开放数据平台采用API网关限流,令牌桶容量1000,每秒填充500,突发流量1200并发,则理论上首次被限流的请求是第:A.1001B.1201C.1501D.200115.在数据安全分级中,将“身份证号”标记为敏感级,脱敏策略应优先选择:A.掩码A.掩码B.哈希MD5C.对称加密D.令牌化16.使用Python对10GBCSV做聚合,单机内存8GB,最佳实践是:A.pandas一次性读入B.dask分块并行C.numpy矩阵运算D.pickle序列化17.在深度学习分布式训练中,参数服务器架构主要解决:A.数据并行梯度同步B.模型并行张量划分C.网络带宽优化D.显存压缩18.某金融风控模型需满足“模型可解释性”监管要求,应优先采用:A.XGBoost+SHAPB.深度神经网络C.聚类算法D.强化学习19.在数据资产目录中,给“订单表”打标签“黄金”,其依据是:A.被下游任务调用次数>100且更新延迟<5minB.表大小>1TBC.所属部门为财务部D.创建时间<30天20.下列关于DeltaLake描述错误的是:A.支持ACID事务B.基于Parquet存储C.仅支持Spark引擎D.提供time-travel查询21.在Elasticsearch集群中,防止脑裂的最佳配置是:A.discovery.zen.minimum_master_nodes=(master_eligible_nodes/2)+1B.关闭多播C.增加数据节点D.降低副本数22.某视频APP采用CDN+边缘计算做实时推荐,其延迟瓶颈最可能出现在:A.特征回填B.模型推理C.日志回传D.参数更新23.在数据质量管理平台中,规则“字段非空率>99%”属于:A.一致性B.完整性C.及时性D.唯一性24.使用Airflow调度任务时,sensor任务长时间处于“running”状态,最可能原因是:A.上游文件未到达B.队列资源不足C.DAG未上线D.时区配置错误25.在数据可视化中,用“热力地图”展示疫情分布,其视觉通道主要映射:A.位置+颜色B.长度+角度C.面积+纹理D.形状+方向26.某工业互联网平台采集100万传感器,每秒1条,存储周期5年,采用列式压缩比1:10,则理论磁盘容量约为:A.15TBB.150TBC.1.5PBD.15PB27.在联邦学习框架中,参与方梯度上传前需做:A.同态加密B.差分隐私C.模型蒸馏D.知识图谱28.下列哪项最能体现数据中台“复用”理念?A.统一埋点SDKB.统一数据湖C.统一标签服务D.统一报表平台29.在数据科学项目生命周期中,耗时占比最高的阶段通常是:A.数据采集B.特征工程C.模型调参D.上线部署30.某零售公司做销量预测,将“节假日”字段做one-hot后维度升至5000,导致稀疏性过高,改进方法是:A.增加样本B.降维PCAC.目标编码D.正则化二、多项选择题(每题2分,共20分,多选少选均不得分)31.下列属于流处理语义的有:A.At-most-onceB.At-least-onceC.Exactly-onceD.End-to-endexactly-once32.关于HDFS写入流程,正确的是:A.Client先向NameNode申请blockB.数据以pipeline方式写入DataNodeC.默认副本策略为同机架两副本+异机架一副本D.写入完成后Client关闭文件,NameNode提交editlog33.以下属于数据脱敏技术的有:A.掩码B.哈希C.加密D.数据合成34.在构建实时数仓时,Lambda架构的缺点是:A.代码冗余B.运维复杂C.时效性低D.一致性难保证35.关于KafkaPartition,说法正确的有:A.一个partition只能被一个consumergroup内的一个consumer消费B.partition越多吞吐量越高C.partition数一旦创建不可调整D.partition是物理存储单元36.下列属于图数据库典型场景的有:A.社交网络好友推荐B.知识图谱问答C.金融反欺诈D.高并发订单支付37.在机器学习模型评估中,以下指标适用于类别不平衡场景的有:A.AccuracyB.F1-scoreC.AUC-ROCD.AUC-PR38.关于数据血缘,正确的有:A.可追踪字段级依赖B.可用于影响分析C.可用于数据质量追责D.只能手工维护39.以下属于分布式一致性算法的有:A.PaxosB.RaftC.ZABD.Gossip40.在数据安全合规中,属于个人信息的有:A.IMEIB.MAC地址C.设备指纹D.匿名化后的用户ID三、判断题(每题1分,共10分,正确打“√”,错误打“×”)41.SparkSQL的Catalyst优化器只能做规则优化,不能进行代价优化。42.HBase的Cell版本号默认由时间戳决定,可自定义。43.在数据挖掘中,过拟合模型一定表现为训练集误差高、测试集误差低。44.数据湖无需数据治理即可直接产生业务价值。45.差分隐私通过添加噪声保证个体不可识别,但会降低聚合精度。46.Flink的Checkpoint屏障机制会导致数据延迟增大,因此应关闭。47.在深度学习中,BatchNormalization可以加速收敛并缓解梯度消失。48.数据资产目录的唯一目的是方便数据科学家找表。49.使用ErasureCoding代替三副本,可在同等容错下节省50%存储。50.数据可视化中的“liefactor”越接近1越好。四、计算题(共20分)51.(6分)某省卫健委需对核酸检测记录做去重,已知单日数据量3亿条,64字节/条,采用BloomFilter去重,要求误判率≤0.1%,计算所需内存。提示:BloomFilter位数公式m哈希函数最优个数k52.(6分)某电商大促期间,订单表每秒写入5万条,单条1KB,Kafka集群3节点,每节点磁盘10TB,副本因子2,消息保留3天,计算磁盘是否足够,若不足需扩容多少节点?53.(8分)某交通卡口车牌识别系统,日均过车记录1亿条,需保存图像路径(100字节)+特征向量(512维float32),采用HBase存储,RowKey设计为“卡口ID+时间戳倒序”,预分区16个Region,压缩算法SNAPPY,压缩比1:4,计算理论存储容量(含3副本),并评估单Region大小是否超过推荐值10GB。五、简答题(每题10分,共20分)54.结合“东数西算”工程背景,阐述大数据中心选址需考虑的关键因素,并给出至少两条量化评估指标。55.某银行拟构建“实时反欺诈”系统,交易峰值5万TPS,平均延迟≤50ms,请给出技术架构图(文字描述即可),并说明各组件如何满足高可用、高并发、可扩展要求。——答案与解析——一、单项选择题1.A2.B3.D4.B5.C6.C7.A8.A9.B10.B11.A12.C13.D14.B15.D16.B17.A18.A19.A20.C21.A22.A23.B24.A25.A26.C27.B28.C29.B30.C二、多项选择题31.BCD32.ABCD33.ABCD34.ABD35.ABD36.ABC37.BCD38.ABC39.ABCD40.ABC三、判断题41×Catalyst支持CBO。42√43×过拟合表现为训练误差低、测试误差高。44×数据湖需治理才能持续产生价值。45√46×屏障机制是exactly-once核心,不可关闭。47√48×目录还服务于合规、安全、运营。49√EC6+3方案冗余度50%,与三副本200%相比节省约50%。50√四、计算题51.解析:n=3×10^8,p=0.001mk≈10,内存约428MB,单机即可加载。52.解析:日增量=5×10^4×86400×1KB≈4.32TB3天双副本=4.32×3×2=25.92TB集群总磁盘=3×10=30TB,可用空间约30×0.8=24TB<25.92TB缺口≈2TB,按每节点8TB可用计,需再扩容1节点。53.解析:单条大小=100+512×4=2148字节日增量=1×10^8×2148≈214.8GB3天原始=644.4GB,压缩后≈161.1GB,三副本≈483.3GB预分区16Region,每Region≈483.3/16≈30.2GB>10GB建议把分区数提高到64,单Region≈7.5GB,符合最佳实践。五、简答题54.关键因子:1.绿电占比≥80%,PUE≤1.2;2.到骨干网节点时延≤20ms,可用带宽≥10Tbps;3.地质稳定,地震烈度<VI度;4.年均气温≤15℃,自然冷却天数≥300天;5.数据主权合规,跨境流动评估≤50ms。量化指标:a.每机架年TCO=(CAPEX+OPEX)/机架数,目标≤8万元;b.碳排放因子≤0.3tCO₂e/PB。55.架构描述:1.接入层:API网关+DNS多活,支持横向扩展至20节点,Keepalived+ECMP实现秒级故障转移;2.流处理:Flink集群(3JobManagerHA+30TaskManager),开启RocksDB增量Checkpoint,端到端exactly-once;3.特征存储:RedisCluster+自研LRU,单分片≥8万QPS,双副本,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论