2026年大数据与云计算知识考察试题及答案解析_第1页
已阅读1页,还剩15页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据与云计算知识考察试题及答案解析一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在Hadoop3.x中,默认的块大小为()A.32MB  B.64MB  C.128MB  D.256MB答案:C解析:Hadoop3.x默认块大小由2.x的64MB调整为128MB,以降低NameNode内存压力并提升顺序读写吞吐。2.下列关于AmazonS3最终一致性模型的描述,正确的是()A.覆盖写操作后,后续读一定能看到最新值B.删除对象后,该操作对所有Region立即可见C.新PUT操作后,LIST操作可能短暂返回旧列表D.S3强一致性只适用于US-East-1区域答案:C解析:S3对PUTSofnewobjects提供read-after-write一致性,但对overwritePUTS和DELETES仍保持最终一致性,因此LIST可能短暂滞后。3.在Spark3.4中,启用AdaptiveQueryExecution(AQE)后,运行时统计信息主要用于优化()A.RDDlineage重建  B.广播变量序列化  C.Shuffle分区数动态合并  D.静态内存管理答案:C解析:AQE根据运行时统计动态合并过小的shuffle分区,减少小文件与任务启动开销。4.某云厂商提供“按秒计费”的容器实例,其定价策略属于()A.长期预留实例  B.短周期资源细粒度计费  C.容量预订  D.预付费包年包月答案:B解析:按秒计费体现云原生“细粒度、弹性”特征,对应短周期资源细粒度计费模式。5.在Flink1.17的流处理中,开启Checkpointing且设置Exactly-Once语义,Barrier对齐步骤发生在()A.Source算子生成Barrier后  B.下游算子收到所有输入通道Barrier前缓存数据C.Sink端两阶段提交后  D.JobManager调度作业时答案:B解析:Barrier对齐要求下游算子缓存尚未对齐的数据,确保快照状态一致性。6.使用Parquet存储时,以下哪项技术可显著减少谓词下推的I/O()A.行组(RowGroup)统计信息  B.字典编码  C.RLE编码  D.LSM-Tree答案:A解析:Parquet在每个RowGroup头部存储min/max等统计,支持谓词下推跳过无关RowGroup。7.在Kubernetes1.28中,当Pod使用EmptyDir卷并将其medium设置为“Memory”时,数据持久化范围是()A.跨节点持久化  B.跨Pod持久化  C.同一Pod内容器共享,Pod销毁即丢失  D.写入宿主机的SSD答案:C解析:EmptyDir生命周期与Pod绑定,medium=Memory表示tmpfs,Pod删除即消失。8.在多云容灾架构中,采用“主动-主动”模式最需关注()A.冷启动延迟  B.数据一致性延迟  C.备份窗口  D.磁带库兼容性答案:B解析:双活同时承载流量,跨云数据一致性延迟直接影响业务正确性。9.某GaussDB(forMySQL)只读实例采用PolarStore,其底层分布式存储采用()A.分布式块存储+Raft  B.HDFS  C.CephFS  D.Lustre答案:A解析:PolarStore使用自研分布式块存储,通过Raft保证多副本一致性。10.在ServerlessSpark中,以下哪项指标最能反映“冷启动”耗时()A.JobExecutionTime  B.APIGatewayLatency  C.ContainerImagePull+RuntimeProvision  D.ShuffleWriteTime答案:C解析:冷启动主要耗时在镜像拉取与运行时环境准备,与ContainerImagePull直接相关。二、多项选择题(每题3分,共15分。每题有两个或以上正确答案,多选、少选、错选均不得分)11.关于DeltaLake的TimeTravel功能,下列说法正确的是()A.通过版本号或时间戳查询历史快照  B.依赖HiveMetastore存储版本信息  C.默认保留7天历史  D.支持回滚到指定版本并覆盖最新表  E.使用JSON日志存储事务答案:A、D、E解析:DeltaLake将事务日志以JSON形式存储在_delta_log目录,支持指定版本或时间戳查询(TimeTravel),并允许回滚覆盖;保留期由配置决定,默认30天;不依赖HiveMetastore。12.以下哪些措施可降低云数据仓库Snowflake的Warehouse缓存失效概率()A.增大AUTO_SUSPEND时长  B.使用MATERIALIZEDVIEW  C.开启RESULT_CACHE复用跨会话结果  D.降低集群规模至XS  E.采用MAX_CONCURRENCY_LEVEL=1答案:A、B、C解析:延长AUTO_SUSPEND减少频繁关机,物化视图与结果缓存均可复用数据,降低重新加载。13.在OpenStackNeutron中,支持以下哪些核心网络服务()A.L2虚拟交换机(OVS)  B.L3Router  C.FWaaS  D.VPNaaS  E.裸金属PXE答案:A、B、C、D解析:Neutron提供L2/L3、防火墙、VPN等服务;PXE由Ironic服务支持。14.下列关于GFS论文中Master节点的描述,正确的有()A.存储元数据与Chunk位置  B.负责全局负载均衡  C.所有数据流经过Master  D.采用心跳监测ChunkServer  E.使用日志与Checkpoint实现高可用答案:A、B、D、E解析:GFSMaster仅转发元数据,数据流直接连接ChunkServer,不经过Master。15.在Prometheus监控体系中,以下哪些组件或功能支持水平扩展()A.PrometheusServer单实例  B.ThanosQuery  C.CortexIngester  D.Alertmanager集群模式  E.Pushgateway答案:B、C、D解析:ThanosQuery与CortexIngester支持多副本横向扩展;Alertmanager可集群;单实例PrometheusServer不支持水平扩展。三、填空题(每空2分,共20分)16.在HDFS的写入管道中,数据包(Packet)的默认大小为________字节。答案:65536解析:由参数dfs.client-write-packet-size控制,默认64KB。17.若某Spark任务提交参数为--executor-memory4g--executor-cores2,则每个Executor的堆外内存默认上限约________GB(保留一位小数)。答案:0.4解析:Spark3.x默认堆外比例为0.1,即4GB×0.1=0.4GB。18.在Raft算法中,Leader向Follower发送的AppendEntriesRPC成功返回条件之一是Follower日志必须与前一日志条目的________与________匹配。答案:任期号;索引号解析:Raft一致性检查要求prevLogIndex与prevLogTerm均一致。19.某云函数采用AWSLambda1GB内存配置,其CPU分配等价于________GHz的vCPU(按AWS官方比例)。答案:1.8解析:AWSLambda每1GB内存对应1.8vCPUGHz。20.在GoogleBigQuery中,将表分区字段设为TIMESTAMP类型且分区粒度为DAY,则每个分区最大可存储________TB数据。答案:400解析:BigQuery单分区上限400TB。21.在Linuxcgroupsv2中,限制内存上限的接口文件为________。答案:memory.max解析:cgroupv2统一接口,memory.max写入字节数即可。22.某Flink作业并行度为8,Checkpoint间隔30s,端到端一次语义使用TwoPhaseCommitSink,若事务超时设为20min,则最大可容忍下游系统不可用时间为________min。答案:19.5解析:超时20min减去Checkpoint间隔0.5min,保留19.5min缓冲。23.在IPv6地址2001:db8::1/64中,若采用EUI-64生成接口标识,则需将MAC地址中间插入固定值________。答案:0xFFFE解析:EUI-64在MAC第3、4字节间插入0xFFFE。24.在Kubernetes中,Pod的QoS类别为Guaranteed的判定条件是所有容器均设置limits与requests且二者________。答案:相等解析:limits=requests且每个容器都设置,才归为Guaranteed。25.在Snowflake中,查询SELECT*FROMt1ASOFTIMESTAMP'2025-12-0108:00:00'使用了________功能。答案:TimeTravel解析:ASOFTIMESTAMP直接调用TimeTravel。四、简答题(共25分)26.(封闭型,6分)简述MapReduce1.0中“Shuffle”阶段的三步关键流程,并指出哪一步最消耗磁盘I/O。答案:(1)Map端分区(Partition):根据分区函数将每条输出<k,v>写入对应内存缓冲区;(2)溢写(Spill):当缓冲区达到阈值(默认80%)时,后台线程将数据按分区、排序后溢写到本地磁盘,生成溢写文件;(3)合并(Merge):Map任务结束前,对所有溢写文件进行多路归并,生成一个已分区且有序的最终文件,等待Reduce拉取。最消耗磁盘I/O的是第(2)步溢写,因为每次Spill都产生一次顺序写,且Map端并行度越高,磁盘竞争越激烈。27.(开放型,9分)某电商公司采用Lambda架构,实时层使用Flink,批处理层使用Spark,存储层采用HDFS+Parquet。随着订单量增长,出现“批视图”与“实时视图”结果不一致且运维复杂的问题。请提出一种改良架构,说明核心组件、数据流转及一致性保障机制,并评估其优缺点。答案:改良方案:采用Kappa架构,统一使用Flink流批一体处理,存储层改用ApacheIcebergonHDFS。核心组件:1.Kafka集群承载订单原始流;2.Flink流作业(并行度1024)消费Kafka,完成ETL、维表关联、聚合,输出到Iceberg表;3.Iceberg提供快照隔离,支持Flink批模式读取同一张表做重算或回填;4.Trino对接Iceberg,对外提供Ad-Hoc查询;5.HDFS作为Iceberg底层文件系统,开启ErasureCoding节省存储。数据流转:订单→Kafka→Flink→Iceberg(实时);异常或修正需求通过FlinkBatchOverwriteIceberg快照完成,无需维护两套代码。一致性保障:Iceberg通过乐观并发控制(OCC)与快照隔离保证多读多写一致性;Flink两阶段提交写入Iceberg,实现端到端Exactly-Once。优点:1.代码统一,降低多引擎语义差异;2.Iceberg支持行级更新、TimeTravel,修正历史数据方便;3.存储层开放,避免锁定。缺点:1.流批并发写入时可能产生冲突重试,需合理设计分区;2.Iceberg元数据随快照增加而膨胀,需定期expiresnapshots;3.对HDFS小文件合并要求较高,需配套FlinkCompactionAction。28.(封闭型,5分)写出在AWS上利用S3、Lambda、Glue、Athena构建“无服务器数据湖”时,GlueDataCatalog所存储的三类元数据,并给出每类元数据对应的AWSAPI示例(写出函数名即可)。答案:1.表结构(Schema):存储列名、类型、分区字段;API:create_table()2.分区信息(Partition):存储分区键值与对应S3前缀;API:create_partition()3.表统计信息(Statistics):行数、列最大最小值等;API:update_table_statistics()29.(开放型,5分)某金融公司计划将本地Hadoop集群(300节点)迁移至阿里云EMR,要求零停机、数据零丢失,并保留Hive8000张表权限不变。请给出迁移步骤大纲,并指出最关键的网络与安全验证环节。答案:步骤:1.网络连通:通过阿里云专线与VPN建立本地—云上高速通道,打通8443、8020、9870、9083等端口;2.双写阶段:使用阿里云DTS-for-HDFS工具,将NameNodeFSImage与增量EditLog实时同步至EMR;3.元数据迁移:利用HiveReplication或Waggle-dance将HiveMetastore同步至EMRHive,并导出RangerPolicy,通过阿里云EMRRanger插件导入;4.权限验证:在EMR建立只读验证集群,运行800条核心SQL,对比本地与云端结果,校验数据块Checksum;5.流量切换:修改DNS与LoadBalancer,将BI工具与调度系统连接串指向EMR,回写策略保留7天;6.回滚预案:保留本地集群镜像与网络路由30天,定期演练。最关键验证环节:步骤4,需对比行级Checksum、分区行数、Null比例、敏感字段加密后一致性,确保数据零丢失且权限映射正确。五、应用题(共20分)30.(计算类,10分)某Spark3.4作业读取Snappy压缩的Parquet文件共600GB(未压缩约1.8TB),集群配置如下:10个Executor,每Executor6vCore、16GB堆内存、4GB堆外内存;Spark默认内存分配比例(storage0.5、execution0.5)。若每个Parquet行组大小256MB(未压缩),Snappy压缩比约3:1,每个行组实际磁盘大小85MB。问:(1)同时可缓存的Parquet行组数量上限(假设仅使用内存存储,不启用OFF_HEAP缓存);(4分)(2)若开启Spark.sql.adaptive.coalescePartitions.enabled并合并后平均分区大小128MB(磁盘),求合并后的分区数;(3分)(3)若每个分区扫描耗时3s,合并后总扫描时间相比合并前缩短多少秒?(3分)答案:(1)可用storage内存=10×16GB×0.5=80GB;每行组磁盘85MB,加载到内存按未压缩256MB估算;可缓存行组数=80GB/256MB≈327个。(2)合并前总磁盘大小600GB,合并后目标128MB/分区,分区数=600×1024MB/128MB=4800个。(3)合并前分区数≈600GB/85MB≈7235个,扫描耗时7235×3s=21705s;合并后4800×3s=14400s;缩短7305s。31.(综合分析类,10分)某视频公司采用阿里云OSS+CDN构建全球分发,源站Bucket位于杭州,海外用户访问延迟高。日志显示:•30%回源请求返回4xx,其中22%为“HTTP40

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论