下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020云南大数据笔试常考知识点配套习题附全答案
一、单项选择题(每题2分,共20分)1.Hadoop2.x默认的块大小为A.32MBB.64MBC.128MBD.256MB2.SparkRDD的转换操作中,不会触发Job提交的是A.mapB.reduceC.collectD.count3.HDFSNameNode的edits文件主要记录A.块与DataNode映射B.命名空间修改事务C.心跳信息D.副本冗余策略4.Kafka中保证分区消息顺序的最小单元是A.BrokerB.TopicC.PartitionD.ConsumerGroup5.在Hive中,用于将查询结果保存到本地目录的关键字是A.LOCATIONB.LOCALC.DIRECTORYD.STORE6.下列算法属于聚类而非分类的是A.KNNB.NaiveBayesC.K-MeansD.SVM7.Flink的checkpoint机制基于A.分布式快照B.两阶段提交C.PaxosD.Quorum8.在HBase中,用于实现多版本并发控制的列是A.RowkeyB.ColumnFamilyC.TimestampD.Qualifier9.数据仓库星型模型中,直接关联事实表的是A.bridge表B.维度表C.临时表D.汇总表10.根据CAP理论,Zookeeper优先保证A.一致性+可用性B.一致性+分区容错C.可用性+分区容错D.最终一致性二、填空题(每题2分,共20分)11.Hadoop3.x的YARN资源调度器默认使用________调度器。12.Spark中,________算子用于将两个RDD按照Key进行内连接。13.Kafka的副本同步策略中,________副本负责与Leader保持完全同步。14.Hive元数据默认存储在________数据库。15.在Flink的时间语义中,________时间不受事件到达顺序影响。16.HBase的Region分裂触发条件之一是Region大小超过________。17.数据倾斜的常见缓解手段之一是对Key进行________加盐。18.Sqoop将MySQL数据导入HDFS时,________参数可指定Map任务数。19.在Azkaban中,工作流失败重试次数由________属性控制。20.使用Ganglia监控Hadoop集群时,核心进程指标通过________端口采集。三、判断题(每题2分,共20分,正确打“√”,错误打“×”)21.SparkSQL的DataFrameAPI可以直接修改RDD分区数。22.HDFS的SafeMode状态下,NameNode不接受写请求。23.Kafka的ConsumerOffset只能存储在Zookeeper。24.Hive的UDF必须继承org.apache.hadoop.hive.ql.exec.UDF类。25.Flink的窗口函数中,SessionWindow属于计数窗口。26.HBase中删除操作会立即物理清除数据。27.在ORCFile格式中,每个Stripe包含索引、数据与Footer。28.使用Tez引擎时,Hive会自动共享MapReduce的JAR包缓存。29.数据仓库分层理论中,DWD层通常保留原始日志不做清洗。30.布隆过滤器可以100%判断元素不存在于集合中。四、简答题(每题5分,共20分)31.简述MapReduce中Shuffle阶段的主要流程与优化点。32.说明Spark广播变量解决的问题及使用注意事项。33.列举HBaseRowkey设计的三个原则并给出理由。34.解释Flink的Exactly-Once语义实现机制。五、讨论题(每题5分,共20分)35.结合云南旅游实时统计场景,讨论KafkaPartition数如何与Flink并行度匹配,并评估背压风险。36.某电商公司日增日志500GB,存储周期90天,请讨论采用HDFSEC(ErasureCoding)与传统三副本方案的成本、性能与可靠性差异。37.针对少数民族多语言文本,讨论在Hive中建立分词索引的方案,包括Tokenizer选择、UDF扩展与性能调优。38.云南气象部门拟用SparkMLlib预测短时降水,讨论如何克服样本类别不平衡、特征高维稀疏及模型冷启动问题。答案与解析一、1.C2.A3.B4.C5.B6.C7.A8.C9.B10.B二、11.Capacity12.join13.ISR14.MySQL15.Event16.10GB(或配置文件指定值)17.随机前缀18.-m19.retries20.8649三、21×22√23×24√25×26×27√28√29×30√四、31.Shuffle包括Map端分区、排序、溢写、合并与Reduce端拉取、归并排序。优化:Combiner减少网络IO;压缩降低传输;调整内存缓冲区;合理设置Reduce数避免小文件。32.广播变量将只读小数据集缓存到各Executor,避免多次网络传输;使用时变量不可修改,大小建议<200MB,采用Kryo序列化减少内存占用,任务结束自动回收。33.(1)长度原则:不超过100字节,减少内存与磁盘占用;(2)散列原则:加盐或哈希避免热点;(3)业务原则:把经常一起查询的字段放前面,提升范围查询效率。34.Flink通过异步屏障快照(ABS)在Source插入Barrier,对齐各算子状态并写入分布式存储;失败时从最新checkpoint恢复,配合幂等Sink重放,实现端到端Exactly-Once。五、35.云南旅游实时统计需按景区+分钟级开窗,Partition数=景区数×峰值并发/单Partition吞吐;Flink并行度=Partition数×N,N为CPU核系数。背压风险:突发客流导致消费延迟,可动态扩容Partition并启用Flink反压采样,调整slot共享与checkpoint间隔。36.三副本存储成本3×500×90=135TB;EC6+3方案冗余度1.5,成本约67.5TB,节省50%。性能:EC修复带宽高,读降级延迟大;可靠性:允许同时坏3节点,与三副本相当;结论:冷数据用EC,热数据保留三副本,通过HDFSStoragePolicy自动迁移。37.采用IKTokenizer支持傣、哈尼等语言扩展词典;自定义UDFencodeLanguage标记语种,倒排索引表结构(rowkey=word+lang,column=docId);性能:启用Tez+Vectorization,设置orc.bloom.f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年患者的社区护理服务
- 企业管理-超市卫生管理制度模板
- 安徽省蚌埠市2026届初三第五次模拟数学试题含解析
- 山东省青岛市第二十一中学2026年全国大联考(江苏卷)初三第二次数学试题试卷含解析
- 山东省淄博市周村区2025-2026学年初三4月中考练习(二模)数学试题含解析
- 江苏省无锡新区达标名校2026届初三质量监测(二)数学试题试卷含解析
- 浙江省温州市文成县黄坦中学2026届下学期初三物理试题期中测试卷含解析
- 浙江温州第十二中学2025-2026学年初三下学期第三次周末达标考试化学试题含解析
- 云南省遵义市仁怀县重点中学2026年初三下学期第二次诊断性测验数学试题试卷含解析
- 辽宁省大连市甘井子区达标名校2026年初三元月月考模拟数学试题含解析
- 《房屋市政工程生产安全重大事故隐患判定标准》解读与培训
- 以结果为导向的执行力培训
- 2025年互联网信息审核员考试题库及答案
- 2025年江西工业贸易职业技术学院单招职业技能测试题库带答案
- 邮政快递安全培训课件
- 2025年江苏省高职单招《职测》高频必练考试题库400题(含答案)
- 阀门检测服务合同
- 毫米波雷达行业深度研究报告:4D毫米波雷达
- 拆除工程施工方案
- 《楚门的世界》电影赏析
- 人工智能芯片设计 课件 周巍 第1-3章-绪论、数字集成电路设计 -数字集成电路系统设计
评论
0/150
提交评论