2025年公需科目《大数据》完整考试题库(含参考答案)_第1页
2025年公需科目《大数据》完整考试题库(含参考答案)_第2页
2025年公需科目《大数据》完整考试题库(含参考答案)_第3页
2025年公需科目《大数据》完整考试题库(含参考答案)_第4页
2025年公需科目《大数据》完整考试题库(含参考答案)_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年公需科目《大数据》完整考试题库(含参考答案)一、单项选择题(每题2分,共40分)1.大数据的4V特征中,“Variety”指的是()。A.数据量巨大B.数据类型多样C.数据增长速度快D.数据价值密度低答案:B2.以下不属于大数据采集工具的是()。A.FlumeB.KafkaC.HBaseD.Sqoop答案:C(解析:HBase是分布式列式数据库,属于存储层工具)3.分布式文件系统HDFS的默认块大小是()。A.32MBB.64MBC.128MBD.256MB答案:C4.Spark的计算模型是()。A.批处理B.流处理C.迭代计算D.以上都是答案:D(解析:Spark支持批处理(RDD)、流处理(SparkStreaming)和迭代计算(MLlib))5.数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别在于()。A.数据存储量B.数据结构化程度C.数据处理速度D.数据来源数量答案:B(解析:数据湖存储原始、多类型数据,数据仓库存储结构化、清洗后的数据)6.隐私计算中,“联邦学习”的主要目标是()。A.提高数据计算速度B.在不共享原始数据的前提下联合建模C.增强数据存储安全性D.减少数据存储空间答案:B7.以下属于非关系型数据库(NoSQL)的是()。A.MySQLB.OracleC.MongoDBD.SQLServer答案:C8.大数据分析中,“关联分析”常用于()。A.预测未来趋势B.发现数据间隐含关系C.分类数据特征D.降低数据维度答案:B(解析:典型应用如“啤酒与尿布”关联规则挖掘)9.边缘计算与大数据结合的主要优势是()。A.减少数据传输延迟B.提高云端存储能力C.降低边缘设备成本D.简化数据处理逻辑答案:A10.以下哪项不属于大数据安全的核心问题?()A.数据泄露B.数据篡改C.数据冗余D.数据越权访问答案:C11.分布式计算框架MapReduce的核心步骤是()。A.拆分与合并B.映射与归约C.存储与计算D.输入与输出答案:B(解析:Map(映射)和Reduce(归约)是核心操作)12.数据可视化工具Tableau的主要功能是()。A.数据清洗B.数据存储C.交互式图表展示D.分布式计算答案:C13.以下属于实时流处理框架的是()。A.HadoopB.SparkC.FlinkD.Hive答案:C(解析:Flink是典型的实时流处理引擎)14.大数据伦理的核心原则不包括()。A.数据隐私保护B.算法公平性C.数据免费共享D.责任可追溯答案:C15.数据脱敏技术中,“匿名化”主要用于()。A.防止数据重复B.隐藏敏感信息C.压缩数据体积D.加速数据查询答案:B16.以下哪项是大数据价值挖掘的关键步骤?()A.数据采集B.数据存储C.数据清洗D.数据建模分析答案:D17.区块链与大数据结合的典型应用是()。A.提升数据计算速度B.确保数据不可篡改C.扩大数据存储容量D.简化数据处理流程答案:B18.大数据平台的分层架构中,“计算层”主要负责()。A.数据采集与传输B.数据存储与管理C.数据处理与分析D.数据展示与应用答案:C19.以下不属于大数据应用场景的是()。A.智慧城市交通优化B.医疗影像辅助诊断C.个人手写笔记记录D.电商精准推荐答案:C20.数据生命周期管理的最后阶段是()。A.数据采集B.数据归档/删除C.数据处理D.数据分析答案:B二、多项选择题(每题3分,共30分)1.大数据的“4V”特征包括()。A.Volume(大量)B.Velocity(高速)C.Variety(多样)D.Value(低价值密度)答案:ABCD2.以下属于Hadoop生态系统组件的有()。A.HDFSB.MapReduceC.YARND.Hive答案:ABCD3.数据清洗的主要任务包括()。A.处理缺失值B.纠正错误数据C.去除重复数据D.转换数据格式答案:ABCD4.隐私计算的主要技术包括()。A.联邦学习B.多方安全计算C.同态加密D.数据脱敏答案:ABC(解析:数据脱敏属于隐私保护技术,非计算技术)5.大数据在医疗领域的应用包括()。A.疾病预测模型B.药物研发数据分析C.电子病历管理D.医院后勤调度优化答案:ABCD6.分布式存储的优势有()。A.高可靠性B.可扩展性C.低成本D.单节点故障不影响整体答案:ABD(解析:分布式存储成本通常高于集中式)7.以下属于流处理框架的是()。A.ApacheFlinkB.ApacheKafkaStreamsC.SparkStreamingD.HBase答案:ABC8.大数据伦理需关注的问题包括()。A.算法歧视B.数据垄断C.隐私侵犯D.数据主权答案:ABCD9.数据湖的特点包括()。A.存储原始数据B.支持多类型数据C.结构化程度高D.适合实时分析答案:ABD(解析:数据湖存储非结构化/半结构化数据)10.大数据分析的主要方法包括()。A.描述性分析B.预测性分析C.规范性分析D.验证性分析答案:ABC三、判断题(每题2分,共20分)1.大数据的核心是“数据量大”,只要数据足够多就能挖掘价值。()答案:×(解析:数据质量、分析方法同样关键)2.HDFS适合存储小文件,因为其块大小设计灵活。()答案:×(解析:HDFS存储小文件会导致NameNode内存压力大,不适合)3.数据仓库主要用于支持OLTP(在线事务处理)。()答案:×(解析:数据仓库支持OLAP(在线分析处理))4.流处理强调对实时产生的数据进行即时分析。()答案:√5.联邦学习可以在多个参与方不共享原始数据的情况下联合训练模型。()答案:√6.NoSQL数据库完全替代了关系型数据库。()答案:×(解析:两者适用场景不同,互补而非替代)7.数据可视化的目的仅是让数据“看起来好看”。()答案:×(解析:核心是帮助用户快速理解数据规律)8.大数据安全只需关注技术防护,无需考虑管理流程。()答案:×(解析:需技术与管理结合)9.边缘计算将数据处理移至数据源附近,减少了云端压力。()答案:√10.数据生命周期管理仅涉及数据存储阶段。()答案:×(解析:覆盖采集、存储、处理、分析、归档/删除全流程)四、简答题(每题5分,共10分)1.简述大数据技术栈的主要分层及各层的核心功能。答案:大数据技术栈通常分为五层:(1)数据采集层:通过Flume、Kafka等工具收集多源数据;(2)数据存储层:使用HDFS(分布式文件系统)、HBase(列式存储)、关系型数据库等存储数据;(3)数据处理层:通过MapReduce(批处理)、Flink(流处理)、Spark(内存计算)进行清洗、转换;(4)数据分析层:利用Hive(类SQL分析)、MLlib(机器学习)、图计算等挖掘价值;(5)数据应用层:通过Tableau、PowerBI等工具可视化,或直接输出业务决策。2.列举三种大数据隐私保护技术,并说明其核心原理。答案:(1)数据脱敏:对敏感信息(如姓名、身份证号)进行替换(如“张”)或变形(如哈希),保留数据可用性;(2)联邦学习:各参与方在本地训练模型,仅交换模型参数(非原始数据),联合优化全局模型;(3)同态加密:允许在加密数据上直接进行计算,结果解密后与明文计算一致,保护数据隐私。五、案例分析题(共20分)某电商平台计划通过大数据优化用户购物体验,具体需求包括:实时监控用户点击流数据,分析商品偏好;预测用户复购概率;防范虚假交易(如刷单)。问题:1.该平台需搭建哪些大数据组件?请说明各组件的作用。2.针对“实时监控用户点击流数据”,应选择哪种处理框架?为什么?3.预测用户复购概率可能涉及哪些分析方法?答案:1.需搭建组件及作用:(1)数据采集:使用Flume(日志采集)、Kafka(消息队列,缓存实时点击流数据);(2)数据存储:HDFS(存储历史交易数据)、HBase(存储实时用户行为数据,支持快速查询);(3)实时处理:Flink(处理实时点击流,分析用户实时行为);(4)批处理:Spark(分析历史数据,训练复购预测模型);(5)机器学习:MLlib或TensorFlow(构建复购预测模型、刷单检测模型);(6)可视化:Tableau(展示用户偏好、复购率等指标)。2.应选择Flink作为实时处理框架。原因:Flink支持毫秒级低延迟、精确一次(exactly-once)语义,适合处理高并发的用户点击流

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论