2021年云南国企背景大数据公司笔试题及答案全解

上传人：1*** IP属地：北京上传时间：2026-04-13 格式：DOC 页数：9 大小：24.72KB 积分：7.19 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2021年云南国企背景大数据公司笔试题及答案全解

一、单项选择题（总共10题，每题2分）1.以下不属于Hadoop分布式文件系统（HDFS）核心组件的是：A.NameNodeB.DataNodeC.SecondaryNameNodeD.ResourceManager2.Spark中RDD（弹性分布式数据集）的主要特性是：A.不可变、可分区、支持惰性计算B.可变、单分区、实时计算C.不可变、单分区、批处理D.可变、可分区、内存计算3.数据清洗的主要目的是：A.增加数据量B.消除数据中的错误、冗余和不一致C.提升数据存储效率D.简化数据结构4.数据仓库（DataWarehouse）与传统数据库的主要区别是：A.数据仓库支持事务处理，数据库支持分析处理B.数据仓库面向主题，数据库面向应用C.数据仓库存储实时数据，数据库存储历史数据D.数据仓库结构灵活，数据库结构固定5.《中华人民共和国数据安全法》正式施行的时间是：A.2020年6月1日B.2021年9月1日C.2022年1月1日D.2021年6月1日6.ETL（Extract-Transform-Load）中的“T”指的是：A.抽取（Extract）B.转换（Transform）C.加载（Load）D.传输（Transfer）7.以下属于NoSQL数据库类型的是：A.MySQLB.OracleC.HBaseD.SQLServer8.Kafka作为分布式消息队列，主要应用场景是：A.实时数据管道与流处理B.关系型数据存储C.内存计算D.数据可视化9.数据湖（DataLake）的典型特征是：A.存储结构化数据为主B.支持严格的模式设计（Schema-on-Write）C.存储原始数据，支持多种数据类型（Schema-on-Read）D.仅用于离线分析10.国企背景大数据项目中，数字化转型的核心目标是：A.完全替代传统业务流程B.实现数据资产化与业务价值提升C.减少数据存储成本D.仅优化内部管理系统二、填空题（总共10题，每题2分）1.Hadoop生态中负责资源管理与任务调度的组件是__________。2.Spark的两种主要部署模式是__________和YARN。3.数据清洗中处理缺失值的常见方法包括删除记录、插补法和__________。4.数据仓库的四大特性是面向主题、集成的、稳定的和__________。5.Kafka的核心组件包括生产者、消费者、Broker和__________。6.NoSQL数据库主要分为键值存储、列族存储、文档存储和__________四大类。7.ETL流程中“加载（Load）”的目标是将处理后的数据写入__________。8.数据湖常用的存储格式有Parquet和__________（任写一种）。9.大数据的4V特性是Volume（大量）、Velocity（高速）、Variety（多样）和__________。10.国企数据治理的核心目标是实现数据资产化、保障合规性和__________。三、判断题（总共10题，每题2分）1.HDFS适合存储大量小文件（）。2.Spark仅支持批处理计算，不支持流处理（）。3.数据仓库中的数据需要实时更新以支持业务交易（）。4.NoSQL数据库严格遵循ACID特性（）。5.数据清洗是数据预处理阶段的关键步骤（）。6.Kafka可以作为实时数据流的传输管道（）。7.数据湖只能存储结构化数据（）。8.大数据的价值密度通常较高（）。9.国企数据必须全部存储在本地服务器，不能使用云存储（）。10.《数据安全法》要求企业对重要数据进行分类分级保护（）。四、简答题（总共4题，每题5分）1.简述Hadoop生态中HDFS、YARN和MapReduce的各自作用。2.数据清洗的主要步骤包括哪些？请简要说明。3.什么是SparkRDD？其核心特性有哪些？4.国企背景的大数据项目中，数据安全需要重点关注哪些措施？五、讨论题（总共4题，每题5分）1.结合云南国企实际，分析大数据技术在传统产业（如烟草、旅游）数字化转型中的应用场景。2.数据湖与数据仓库的主要区别是什么？在企业数据架构中如何协同使用？3.面对海量数据的实时处理需求（如用户行为日志），应如何选择技术方案（如SparkStreaming、Flink）？需考虑哪些因素？4.国企数据治理中，如何平衡“数据共享”与“隐私保护”的关系？请提出具体策略。答案全解一、单项选择题1.D（ResourceManager属于YARN组件）2.A（RDD不可变、可分区、支持惰性计算）3.B（数据清洗消除错误、冗余和不一致）4.B（数据仓库面向主题，数据库面向应用）5.B（《数据安全法》2021年9月1日施行）6.B（T指转换Transform）7.C（HBase是列族存储的NoSQL数据库）8.A（Kafka用于实时数据管道与流处理）9.C（数据湖支持Schema-on-Read，存储原始多类型数据）10.B（国企转型核心是数据资产化与价值提升）二、填空题1.YARN（资源管理与调度）2.Standalone（或Mesos）3.保留缺失值（或不处理）4.随时间变化（或时变性）5.主题（Topic）6.图存储（或图数据库）7.目标数据库/数据仓库8.ORC（或Avro、JSON等）9.Value（价值）10.挖掘数据价值（或驱动业务决策）三、判断题1.×（HDFS适合大文件，小文件会占用NameNode内存）2.×（Spark支持流处理，如SparkStreaming）3.×（数据仓库存储历史数据，支持分析而非实时交易）4.×（NoSQL通常弱化ACID，强调CAP）5.√（数据清洗是预处理关键步骤）6.√（Kafka是实时数据流管道）7.×（数据湖支持结构化、半结构化、非结构化数据）8.×（大数据价值密度低，需挖掘）9.×（合规前提下可使用云存储）10.√（《数据安全法》要求分类分级保护）四、简答题1.HDFS：分布式文件系统，负责海量数据存储；YARN：资源管理与任务调度，分配计算资源；MapReduce：分布式计算框架，将任务分解为Map和Reduce阶段处理数据。2.主要步骤：识别数据质量问题（如缺失、异常、重复）；处理缺失值（删除、插补）；纠正异常值（过滤、修正）；消除重复数据；统一数据格式（如时间、单位）；验证清洗后数据质量。3.RDD是Spark的核心抽象，代表不可变、可分区、容错的分布式数据集。特性：不可变性（创建后不可修改）、弹性（自动容错、分片）、惰性计算（操作延迟执行）、血统（记录依赖关系）。4.重点措施：数据分类分级（区分敏感与非敏感）；加密存储与传输（如SSL、AES）；访问控制（最小权限原则、角色管理）；合规性审计（符合《数据安全法》《个人信息保护法》）；灾备与恢复（定期备份、容灾演练）。五、讨论题1.烟草行业：通过种植数据（气候、土壤）优化种植计划；物流数据（库存、运输）提升供应链效率。旅游业：用户行为数据（搜索、消费）精准营销；景区客流数据（实时监控）优化调度，提升游客体验。2.区别：数据仓库结构化、Schema-on-Write、支持分析；数据湖存储原始多类型数据、Schema-on-Read、支持探索。协同：数据湖存储原始数据，经清洗转换后入数据仓库，支持固定分析；数据仓库结果反哺数据湖，丰富数据维度。3.技术选择：Flink适合低延迟、高吞吐的实时处理；SparkStreaming基于微批处理，适合

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2021年云南国企背景大数据公司笔试题及答案全解

文档简介

温馨提示

最新文档

评论

2021年云南国企背景大数据公司笔试题及答案全解

文档简介

温馨提示

最新文档

评论

相关文档