2025年云计算与大数据技术考试试题及答案_第1页
2025年云计算与大数据技术考试试题及答案_第2页
2025年云计算与大数据技术考试试题及答案_第3页
2025年云计算与大数据技术考试试题及答案_第4页
2025年云计算与大数据技术考试试题及答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年云计算与大数据技术考试试题及答案一、单项选择题(每题2分,共20分)1.在Hadoop3.x中,负责全局资源管理与任务调度的守护进程是A.NodeManager B.ResourceManager C.ApplicationMaster D.JobTracker答案:B解析:ResourceManager是YARN的核心组件,统一接管集群所有计算资源,NodeManager仅负责本机资源,ApplicationMaster负责单个应用,JobTracker已废弃。2.某公有云账号下存在10个VPC,每个VPC默认路由表上限为200条,若需突破该限制,最合理的做法是A.提交工单申请全局配额 B.为每个VPC创建自定义路由表并绑定子网 C.将VPC合并 D.使用VPCPeering答案:B解析:自定义路由表与配额解耦,可横向扩展;合并VPC会引入广播域冲突,Peering不解决本VPC内路由条目上限。3.在Spark3.4的AdaptiveQueryExecution框架中,自动分区合并发生在A.逻辑计划优化阶段 B.物理计划生成阶段 C.运行时动态调整阶段 D.DAGScheduler任务提交阶段答案:C解析:AQE在运行时收集Map端统计信息,动态合并小分区,减少Reduce端任务数,属于物理计划后的再优化。4.某企业使用AWSS3存储海量的CDN日志,每日新增1TB,保存90天后需自动沉降为低频访问层,最经济的生命周期策略为A.0天后转为Standard-IA,30天后转为Glacier B.30天后转为Standard-IA,90天后删除 C.0天后转为GlacierDeepArchive D.7天后转为Standard-IA,90天后转为Glacier答案:D解析:CDN日志7天内可能被频繁查询,7天后访问骤降,Standard-IA成本下降54%,90天后再归档可再降70%。5.在Flink1.17的流式JOIN中,若设定stateTTL为24小时,左右流数据延迟均服从N(6h,1h²),则理论上可保证的JOIN成功率约为A.68% B.95% C.99.7% D.99.99%答案:C解析:μ+3σ=9h<24h,根据正态分布3σ原则,99.7%的事件落在区间内,状态未过期前均可匹配。6.某云原生数据仓库采用列存+压缩,原始表大小2TB,压缩率8:1,每日增量1%,采用MergeonRead模式,则每日合并时需重写的数据量约为A.25GB B.2.5GB C.0.3GB D.0.03GB答案:B解析:压缩后存量250GB,增量1%即2.5GB,MoR需重写旧文件以合并更新,故重写量≈增量大小。7.在Kubernetes1.29中,当Pod使用GuaranteedQoS且requests=limits时,kubelet通过哪个内核特性实现绝对CPU隔离A.CFSBandwidthControl B.CPUSets C.memcg D.blkio答案:B解析:CPUSets将容器绑定到固定物理核,避免CFS调度抖动,实现硬隔离;CFSBandwidth仅保证时间片上限。8.某多云灾备方案要求RPO<15min,跨RegionRTT80ms,带宽1Gbps,数据变更率每日5%,库大小10TB,则最小快照间隔为A.5min B.10min C.15min D.30min答案:B解析:每日变更500GB,每秒≈5.8MB,1Gbps链路可轻松在10min内传输3.5GB增量,满足RPO。9.在ClickHouse23.5中,使用AggregatingMergeTree预聚合订单表,聚合函数为sumState(amount),查询时使用的语法为A.sumMerge(amount) B.sum(amount) C.finalizeAggregation(amount) D.sumState(amount)答案:A解析:sumMerge读取中间状态并返回最终值,sumState仅生成状态,finalizeAggregation语法不存在。10.某Serverless平台冷启动耗时800ms,函数内存1GB,若将内存提升至3GB,冷启动耗时预计A.降低至270ms B.降低至400ms C.升高至1200ms D.基本不变答案:D解析:冷启动主要耗时在镜像拉取与运行时初始化,与内存大小无线性关系,提升内存仅影响CPU配额。二、多项选择题(每题3分,共30分)11.以下哪些措施可以降低对象存储的跨域访问延迟A.启用TransferAcceleration B.配置GlobalAccelerator C.使用多区段DNS解析 D.开启S3Cross-RegionReplication答案:A、B、C解析:TransferAcceleration利用云边缘节点优化上传,GlobalAccelerator提供Anycast入口,多区段DNS就近解析;CRR仅复制数据,不降低首字节延迟。12.在Hive3.x中,ORC文件支持哪些级别的索引A.文件级 B.条带级 C.行组级 D.列级答案:A、B、C解析:ORC提供文件、条带、行组三级统计信息,列级无独立索引,但内置布隆过滤器可视为列级辅助结构。13.以下哪些属于GoogleCloudVertexAI的AutoML表格数据功能A.特征交叉自动搜索 B.模型可解释性报告 C.自动混合精度训练 D.边缘设备模型蒸馏答案:A、B、D解析:AutoMLTables内置特征工程、可解释性、蒸馏,混合精度需手动开启非AutoML场景。14.在Prometheus监控体系中,哪些指标类型适合用Histogram记录A.API响应时间 B.订单金额分布 C.当前连接数 D.错误计数答案:A、B解析:Histogram记录分桶分布,适合时延、金额;当前连接数用Gauge,错误计数用Counter。15.某流式计算任务使用Kafka+Flink,Exactly-Once需依赖A.Kafka事务API B.FlinkCheckpoint C.两阶段提交Sink D.幂等Sink答案:A、B、C解析:端到端Exactly-Once需源端事务、计算端Checkpoint、Sink端2PC;幂等Sink只能保证At-Least-Once+幂等。16.以下哪些存储格式支持向量化读取A.Parquet B.ORC C.Avro D.CSV答案:A、B解析:Parquet与ORC内置列块与编码信息,支持批量解码;Avro需行式解析,CSV无模式信息。17.在多云网络架构中,使用IPv6-onlyVPC的好处包括A.避免NAT网关费用 B.解决私网地址重叠 C.降低隧道封装开销 D.提升安全组条目上限答案:A、B、C解析:IPv6无需NAT,地址空间巨大避免冲突,无IPv4包头封装;安全组条目上限与协议无关。18.某数据湖采用DeltaLake2.4,以下哪些操作会触发CheckpointA.每10次Commit B.手动RUNCHECKPOINT C.写入数据超过1million文件 D.启动OPTIMIZE答案:A、B解析:Delta按提交次数自动Checkpoint,也可手动触发;文件数与OPTIMIZE不直接触发。19.在Linuxcgroupsv2中,以下哪些控制器可实现IO限速A.io.max B.io.weight C.memory.high D.cpu.max答案:A、B解析:io.max设定上限,io.weight设定比例;memory.high与cpu.max不控制IO。20.以下哪些属于Serverless数据库的自动扩缩容触发条件A.CPU利用率 B.活跃连接数 C.存储容量 D.缓存命中率答案:A、B、C解析:云厂商普遍监控CPU、连接、容量;缓存命中率影响性能但不直接触发扩容。三、判断题(每题1分,共10分)21.在HDFS联邦架构中,每个NameNode共享同一份BlockPool。答案:错解析:联邦引入BlockPool概念,每个NameNode管理独立的BlockPool,避免元数据竞争。22.使用Zstandard压缩的Parquet文件,其压缩比一定高于Snappy。答案:错解析:Zstd高压缩比模式通常优于Snappy,但低级别模式可能接近甚至略低,且与数据分布有关。23.在多云CDN场景下,AnycastIP可实现边缘节点故障时秒级切换。答案:对解析:Anycast通过BGP收敛,故障节点IP自动撤销,流量就近绕行,收敛时间通常<3s。24.SparkStructuredStreaming的ForeachSink保证每条记录仅被处理一次。答案:错解析:ForeachSink无事务支持,失败重试可能导致重复,需自行实现幂等。25.在AWSAurora中,ReaderEndpoint采用轮询算法,不考虑副本延迟。答案:对解析:ReaderEndpoint默认轮询,若需延迟感知需自定义代理或AuroraCustomEndpoint。26.使用IPv6双栈EKS集群时,ServiceCIDR仍可使用IPv4。答案:对解析:EKS支持双栈,Service可保留IPv4CIDR,Pod分配IPv6,兼容旧组件。27.在ClickHouse中,使用JOIN时任意列均可作为JOINKey,无需考虑数据分布。答案:错解析:ClickHouse默认HashJOIN,若JOINKey非分布键,将触发全表重分布,性能骤降。28.在GoogleBigQuery中,Clustering字段顺序对查询性能无影响。答案:错解析:聚簇按字段顺序存储,过滤前缀字段可最大化利用块剪枝,顺序不同性能差异显著。29.使用Linuxfio测试云盘时,增加iodepth一定能提升IOPS。答案:错解析:云盘自身有IOPS上限,iodepth超过队列深度后收益递减,甚至因争用下降。30.在多云成本治理中,预留实例可覆盖Spot实例被回收后的费用。答案:错解析:预留实例为折扣券,不保障容量;Spot回收需自动切换On-Demand或RI,但RI不直接抵扣Spot。四、填空题(每空2分,共20分)31.在Kubernetes中,当Pod的QoS类为Burstable时,其requests.memory与limits.memory的关系为________。答案:requests.memory<limits.memory或仅设置requests解析:Burstable需requests≠limits或仅设requests,Guaranteed需相等。32.某云函数设置最大并发500,单实例并发10,则所需暖实例数至少为________。答案:50解析:500/10=50,需保证无冷启动。33.在HBase2.5中,RegionServer的BlockCache默认实现类为________。答案:BucketCache解析:2.x默认BucketCacheoff-heap,提升GC表现。34.在PostgreSQL15中,开启透明数据加密需要插件________。答案:pgcrypto或pgcryptoTDE扩展解析:社区版需pgcrypto,云厂商提供TDE扩展。35.某数据仓库采用列存+LZ4压缩,压缩率6:1,每日扫描2TB压缩数据,网络带宽10Gbps,则理论传输耗时________秒。答案:1600解析:2TB×1024×8/10Gbps≈1638s,取整1600s。36.在FlinkSQL中,将流表转换为动态表需指定________语义。答案:Changelog解析:动态表基于INSERT、UPDATE、DELETE流,需Changelog模式。37.在AWSIAM中,允许临时凭证最长持续时间为________小时。答案:36解析:STSAssumeRole最大会话时长36小时,默认1小时。38.在Linux中,查看cgroupsv2当前挂载点的命令为________。答案:mount|grepcgroup2解析:cgroupsv2挂载统一层级,通常挂载/sys/fs/cgroup。39.在AzureDataLakeGen2中,目录级别的POSIX权限最小粒度为________。答案:ACL解析:Gen2继承HDFSPOSIXACL,支持用户、组、掩码。40.在PromQL中,计算过去5分钟HTTP请求平均增长率的表达式为________。答案:rate(http_requests_total[5m])解析:rate计算每秒增量,适合Counter类型。五、简答题(每题10分,共30分)41.某电商大促期间,订单流突增10倍,Kafka出现ISR频繁收缩,请给出根因定位步骤与优化方案。答案:1.监控指标:首先查看KafkaBroker端UnderReplicatedPartitions、ISRShrinksPerSec、RequestQueueTime、CPUiowait。2.日志排查:抓取server.log,过滤“ShrinkingISR”关键字,确认被踢出的FollowerBrokerID。3.网络层:使用iftop或云监控查看跨AZ流量,确认是否有突发带宽打满,导致Follower复制延迟>replica.lag.time.max.ms(默认30s)。4.磁盘层:大促消息体增大,若使用普通云盘,IOPS被限流,导致拉取线程阻塞;通过iostat查看await>50ms即异常。5.参数调优:a)临时提升replica.lag.time.max.ms至120s,避免网络抖动误杀;b)调大num.replica.fetchers=8,提升复制并发;c)开启erval.seconds=60,快速重选Leader降低热点;6.资源扩容:将Topic分区数翻倍,分散Leader压力;将Follower分散到新增Broker,降低单盘IOPS。7.客户端优化:Producer开启linger.ms=10、batch.size=256KB,减少小报文;Consumer增加fetch.min.bytes=1MB,降低Fetch请求频率。8.长期治理:采用分层存储,将冷数据offload到对象存储,释放本地盘;使用KafkaonKubernetes+CruiseControl,实现自动重平衡。42.描述如何在多云环境中实现跨云MySQL实时双向复制,并解决自增主键冲突。答案:1.架构:采用MySQL8.0+GTID+BinlogServer,云A与云B均部署MySQL主实例,通过自研Agent拉取对方Binlog,写入本地RelayLog,实现逻辑双向复制。2.自增冲突:a)设置auto_increment_increment=2、auto_increment_offset=1(云A),offset=2(云B),使主键交错;b)对已有表采用UUID主键或雪花算法,避免数字型;c)引入全局发号器:使用RedisCluster+Lua脚本或Leaf-Snowflake,确保全局唯一。3.数据一致性:a)开启gtid_mode=ON,复制链路基于GTID,防止循环复制;b)在Agent层过滤已执行的GTID集合,使用binlog_gtid_simple_recovery=1快速恢复;c)采用冲突检测函数:写入前用SELECTFORUPDATE对比主键+时间戳,若云B已更新则放弃或合并。4.网络高可用:a)通过云企业网CEN与云B的VPCPeering打通,使用BGP自动选路;b)在Agent侧实现断点续传,记录binlog文件名+position到ETCD,故障切换后自动续拉。5.监控:a)部署Prometheus+Granfana,采集Seconds_Behind_Master、Executed_Gtid_Set;b)当延迟>5s触发PagerDuty,同时自动切换读写流量到延迟低的一方。6.回滚:若出现数据不一致,使用pt-table-sync对比校验,生成修复SQL,人工确认后执行。43.某视频公司每日产生500GB日志,需近实时构建用户画像,要求秒级查询,请设计基于Flink+Iceberg+ClickHouse的端到端方案。答案:1.采集:使用Filebeat采集NginxJSON日志,写入KafkaTopiclog_raw,分区60,副本2,保留3天。2.清洗:Flink

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论