版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年(数据科学与大数据技术)大数据存储技术试题及答案一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在HDFS中,NameNode的主要职责是()。A.存储实际数据块B.管理文件系统元数据C.执行Map任务D.执行Reduce任务答案:B2.下列哪种存储格式最适合于列式分析型查询且原生支持嵌套数据模型()。A.RCFileB.ORCC.ParquetD.SequenceFile答案:C3.在Ceph中,负责对象与OSD映射的组件是()。A.MonitorB.MDSC.CRUSHD.RGW答案:C4.当Kafka的retention.bytes参数设置为107374182400时,其含义是()。A.每条消息最大100MBB.每个分区最多保留100GB数据C.每个broker最多存储100GB数据D.每个topic全局保留100GB数据答案:B5.使用RedisCluster时,键“user:1001”经过CRC16计算后槽位是()。A.任意节点均可存放B.由客户端随机选择C.由哈希槽016383决定D.由主节点轮询决定答案:C6.在Alluxio中,TieredStorage的默认最底层是()。A.MEMB.SSDC.HDDD.OSS答案:C7.某HBase表预分区数量为16,RowKey设计为“hash(userId)+timestamp”,若userId均匀分布,则数据热点最可能出现在()。A.中间RegionB.首尾RegionC.所有Region均匀D.随机Region答案:B8.在ClickHouse中,MergeTree表引擎的partitionby如果采用toYYYYMM(date),其分区粒度为()。A.天B.周C.月D.年答案:C9.使用Lustre文件系统时,负责元数据服务的是()。A.OSTB.MDTC.MGSD.OSS答案:B10.在数据湖Iceberg中,实现快照隔离的核心数据结构是()。A.manifestlistB.deltalogC.sequencefileD.writeaheadlog答案:A二、多项选择题(每题3分,共15分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)11.关于HDFS联邦特性,下列说法正确的有()。A.多个NameNode共享一个DataNode池B.每个NameNode维护独立的命名空间C.客户端通过ViewFS实现统一挂载D.需要ZooKeeper实现NameNodeHA答案:ABC12.下列属于对象存储S3最终一致性可能带来的问题有()。A.覆盖写后旧数据仍被读到B.删除后仍可能读到该对象C.列表操作返回过期条目D.上传后立即可读答案:ABC13.在Cassandra中,为了降低读放大,可采取的措施有()。A.提高compaction的bucket大小B.启用LeveledCompactionStrategyC.增加memtable大小D.降低gc_grace_seconds答案:BC14.关于DeltaLake的OPTIMIZE命令,下列说法正确的有()。A.将小文件合并为大文件B.自动更新统计信息C.会生成新的数据版本D.会删除历史版本以节省空间答案:ABC15.在使用ErasureCoding的HDFS集群中,RS631024k策略的含义包括()。A.6个数据块B.3个校验块C.每个块大小1024KBD.可容忍3个节点同时失效答案:ABCD三、填空题(每空2分,共20分)16.HDFS的默认块大小在Hadoop3.x中为________MB。答案:12817.在Kafka中,消费者通过________协议实现与broker的rebalance。答案:Cooperative18.若Ceph集群的副本数为3,则写入一个4MB对象时,实际产生的后端流量为________MB。答案:1219.使用ZooKeeper实现HBaseHA时,主备切换依赖的临时节点路径为________。答案:/hbase/master20.在ClickHouse中,用于实时去重的表引擎为________。答案:ReplacingMergeTree21.当Lustre的OST数量为8,文件大小为1GB且条带计数为4时,每个OST实际写入________MB。答案:25622.在Iceberg中,manifest文件采用________格式存储,便于列式读取。答案:Avro23.若Redis采用RDB持久化,save9001表示900秒内至少有________次写操作则触发快照。答案:124.在Alluxio中,通过________命令可手动将指定路径缓存到MEM层。答案:pin25.使用HDFS的ErasureCoding时,计算校验块的核心算法为________码。答案:ReedSolomon四、判断题(每题1分,共10分。正确打“√”,错误打“×”)26.HDFS的ShortCircuitRead机制可减少DataNode与客户端之间的网络拷贝。答案:√27.Kafka的topic一旦创建,其分区数不可再增加。答案:×28.Ceph的CRUSH算法具有伪随机性,因此相同输入多次计算会得到不同结果。答案:×29.在HBase中,若RowKey以时间戳开头,容易造成热点写入。答案:√30.ClickHouse的JOIN操作默认采用hashjoin且支持任意大表关联。答案:×31.对象存储的multipartupload要求每个part大小必须相等。答案:×32.DeltaLake的timetravel功能依赖版本日志,因此历史版本可永久保留。答案:√33.Lustre的MDS可以横向扩展至多台服务器以提升元数据性能。答案:√34.使用Alluxio作为Spark缓存层时,若Alluxio重启,Spark的RDD将自动失效。答案:×35.在Cassandra中,使用LEcompaction后,SSTable层级越高,数据越新。答案:×五、简答题(每题8分,共24分)36.简述HDFSNameNodeHA的ZKFC机制,并说明在发生“脑裂”时系统如何保障仅有一个Active节点。答案:ZKFC(ZKFailoverController)是运行于每个NameNode主机的独立进程,负责健康监测与ZK选举。启动时,ZKFC在ZK创建临时锁节点/hadoopha/${services}/ActiveStandbyElectorLock,成功创建者对应NameNode转为Active。脑裂场景下,原Active节点因网络隔离无法续租ZK会话,ZK删除其锁节点;另一节点ZKFC监测到锁消失后立即抢锁并将本地NameNode置为Active,同时通过RPC命令原Active节点转为Standby或fence其共享存储写入权限,确保唯一Active。37.描述KafkaProducer实现幂等性的核心流程,并指出其sequencenumber的作用范围。答案:幂等性通过enable.idempotence=true开启,底层依赖PID(ProducerID)与SequenceNumber。Producer初始化时向broker申请唯一PID,每条消息附带递增SequenceNumber,broker端为每个(topic,partition)维护(pid,seq)状态表。若收到重复seq,broker直接丢弃并返回ACK,保证exactlyonceinproducer。SequenceNumber作用范围仅限于单会话、单PID,若producer重启后PID变化,则无法保证跨会话幂等。38.说明Ceph的Scrub与DeepScrub区别,并给出在大型集群中降低DeepScrub对业务影响的两项运维策略。答案:Scrub每日进行,比较对象元数据(大小、属性、CRC32),检测轻量;DeepScrub每周进行,读取完整对象数据并计算全量校验和,可发现静默数据损坏。降低影响策略:1.调整osd_deep_scrub_interval至更大值(如604800秒),错峰业务低峰;2.通过osd_max_scrubs限制单OSD并发深度清洗数为1,并设置osd_scrub_begin_hour与osd_scrub_end_hour限定在02:0006:00窗口执行。六、计算题(每题10分,共20分)39.某电商公司使用HDFS存储订单日志,每日新增200GB未压缩文本,采用LZO压缩比为1:4,块大小128MB,副本数2,RS63策略下校验块占比0.5。计算:(1)每日实际占用HDFS物理空间;(2)若集群已使用70%警戒线,现有裸容量20TB,问多少天后需扩容?答案:(1)压缩后逻辑数据:200GB/4=50GB;副本策略下:50GB2=100GB;RS63校验占比0.5,即校验块50GB0.5=25GB;总物理空间:100GB+25GB=125GB/日。(2)剩余可用空间:20TB(10.7)=6TB=6144GB;可支撑天数:6144GB/125GB≈49.15,取整49天。40.某ClickHouse集群有4分片2副本,表使用MergeTree,单次批量导入10亿行,每行平均120Byte,写入后触发后台merge产生1个新part。计算:(1)原始数据总量;(2)若merge后压缩比为1:6,求单副本磁盘占用;(3)若每个shard两台机器,求集群总磁盘占用。答案:(1)10亿120B=120GB;(2)压缩后:120GB/6=20GB/副本;(3)4分片2副本20GB=160GB。七、综合设计题(共31分)41.某视频公司日活1亿,平均每人上传2段短视频,每段500MB,需保存90天,要求:(1)设计一套基于对象存储+数据湖的冷热分层方案,给出存储介质、触发条件、数据格式、压缩算法;(2)为保证单AZ故障不丢数据,给出跨地域复制策略及一致性校验机制;(3)计算该方案下90天总存储成本,假设:热存储0.12元/GB/月,冷存储0.04元/GB/月,压缩比1:2,冷数据占比80%,跨地域复制流量0.5元/GB。答案:(1)方案:存储介质:热层采用SSD对象池,冷层采用蓝光+机械混池;触发条件:上传7天后未访问则转为冷,访问频率>1次/天则回热;数据格式:原始MP4→转码后存入Iceberg表,格式Parquet,按天partition;压缩算法:视频保持H.264,元数据列采用ZSTDlevel3。(2)复制策略:采用双AZ多主复制,写入时同步复制至备域,RPO<5min;一致性校验:每日定时通过S3ETag+PartSize比对,差异>0.1%触发全量校验,使用SHA256treechec
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电机与电气控制技术 课件 项目5 交流电机控制电路的安装、设计与调试
- 《GBT 21374-2008知识产权文献与信息 基本词汇》专题研究报告
- 《GBT 9984-2008工业三聚磷酸钠试验方法》专题研究报告
- 2026年甘肃庆阳市高职单招语文试题含答案
- 2026年广东省广州市辅警考试真题及答案
- 迪士尼施工安全培训课件
- 返工返岗安全培训内容课件
- 食品卫生知识试题及答案
- 车险知识课件演讲
- 内科主治医师专项练习试题及答案
- 2025检验科个人年终工作总结
- 救护车急救护理查房
- 工程竣工移交单(移交甲方、物业)
- 交熟食技术协议书
- 静脉采血不良事件分析与改进
- JJF 2216-2025电磁流量计在线校准规范
- 2024-2025学年广东省深圳市福田区六年级(上)期末数学试卷
- 发改价格〔2007〕670号建设工程监理与相关服务收费标准
- 道岔滚轮作用原理讲解信号设备检修作业课件
- 小学师徒结对师傅工作总结
- 廉洁征兵培训课件
评论
0/150
提交评论