版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年新公需科目《大数据》测试题库(含答案)一、单项选择题(每题2分,共30题)1.以下哪项不属于大数据的“5V”特征?A.大量(Volume)B.高速(Velocity)C.多样(Variety)D.高价(Value)答案:D2.分布式文件系统HDFS的默认块大小是?A.32MBB.64MBC.128MBD.256MB答案:C3.以下哪种技术主要用于实时流数据处理?A.HadoopMapReduceB.SparkStreamingC.HBaseD.Hive答案:B4.大数据分析中,“关联分析”的核心目的是?A.发现数据中的隐藏关系B.预测未来趋势C.分类数据类别D.降低数据维度答案:A5.以下哪项不属于非结构化数据?A.社交媒体文本B.传感器日志C.关系型数据库表D.监控视频答案:C6.隐私计算中,“联邦学习”的主要特点是?A.集中所有数据训练模型B.仅交换模型参数而非原始数据C.完全匿名化处理数据后再分析D.依赖第三方机构协调数据答案:B7.大数据平台的“数据湖”与“数据仓库”的主要区别是?A.数据湖存储结构化数据,数据仓库存储非结构化数据B.数据湖在存储阶段不定义schema,数据仓库需提前定义C.数据湖仅用于分析,数据仓库用于事务处理D.数据湖成本更高,数据仓库更灵活答案:B8.以下哪种算法属于无监督学习?A.逻辑回归B.K-means聚类C.随机森林D.支持向量机(SVM)答案:B9.大数据安全中,“数据脱敏”的主要目的是?A.提升数据存储效率B.防止敏感信息泄露C.优化数据计算速度D.增强数据可追溯性答案:B10.智慧城市建设中,大数据的核心作用是?A.增加城市数据存储量B.实现多源数据融合与智能决策C.替代人工进行城市管理D.降低硬件设备部署成本答案:B11.以下哪项属于大数据技术栈中的“计算层”工具?A.Flume(数据采集)B.Kafka(消息队列)C.Spark(分布式计算)D.HBase(分布式存储)答案:C12.数据质量评估的“完整性”指标主要考察?A.数据是否存在重复记录B.数据字段是否有空值C.数据格式是否符合规范D.数据与实际业务的匹配程度答案:B13.以下哪种场景最适合使用实时大数据分析?A.年度销售趋势预测B.电商大促期间的库存动态调整C.用户全年消费行为画像D.企业财务年报审计答案:B14.大数据伦理中,“算法歧视”的主要风险来源是?A.算法开发者的主观偏好B.训练数据中的偏见C.计算资源分配不均D.数据存储介质的差异答案:B15.以下哪项是大数据标准化的核心目标?A.统一所有数据格式B.降低数据处理技术门槛C.促进数据共享与互操作D.减少数据存储成本答案:C16.边缘计算与大数据结合的主要优势是?A.减少数据传输延迟B.提升云端计算能力C.降低边缘设备成本D.简化数据存储结构答案:A17.以下哪种技术可实现“数据可用不可见”?A.数据加密B.区块链存证C.多方安全计算(MPC)D.数据压缩答案:C18.大数据应用中,“因果分析”与“关联分析”的本质区别是?A.因果分析需验证变量间的因果关系,关联分析仅发现相关性B.因果分析基于历史数据,关联分析基于实时数据C.因果分析复杂度更低,关联分析更依赖模型D.因果分析用于分类,关联分析用于预测答案:A19.以下哪项不属于大数据时代数据治理的关键内容?A.数据血缘追踪B.数据生命周期管理C.数据中心硬件采购D.数据责任主体明确答案:C20.机器学习模型在大数据分析中“过拟合”的主要表现是?A.模型在训练集和测试集上的表现都很差B.模型在训练集上表现好,测试集上表现差C.模型在测试集上表现好,训练集上表现差D.模型无法处理高维数据答案:B21.以下哪种数据存储方式适合海量结构化数据的快速查询?A.分布式文件系统(HDFS)B.键值存储(Redis)C.列式数据库(HBase)D.关系型数据库(MySQL)答案:C22.大数据“数据主权”争议的核心是?A.数据存储位置的归属B.数据价值的分配权C.数据采集技术的所有权D.数据使用的伦理边界答案:A23.以下哪项是大数据可视化的主要目的?A.替代数据统计分析B.直观展示数据模式与趋势C.减少数据存储量D.提升数据计算速度答案:B24.工业大数据应用中,“数字孪生”的核心是?A.实时复制物理设备的运行状态B.完全替代物理设备的操作C.降低工业设备制造成本D.简化工业数据采集流程答案:A25.以下哪种技术可实现大数据的“增量更新”处理?A.全量数据重新计算B.基于日志的变更捕获(CDC)C.数据清洗后批量导入D.定期删除旧数据答案:B26.大数据时代“数据孤岛”的主要危害是?A.数据存储成本增加B.数据价值无法跨领域融合C.数据安全风险集中D.数据处理技术重复开发答案:B27.以下哪项属于大数据“价值密度低”特征的典型表现?A.社交媒体中大量无效信息夹杂少量有效内容B.传感器每秒产生TB级数据C.视频数据包含文本、图像等多种格式D.实时数据流需秒级处理答案:A28.隐私保护“差分隐私”的核心思想是?A.对原始数据添加可控制的噪声,使个体信息不可识别B.完全删除数据中的个人标识字段C.仅允许授权用户访问数据D.通过加密技术保护数据传输过程答案:A29.以下哪种场景最需要大数据的“预测分析”能力?A.电商用户实时点击行为分析B.天气预报中的未来7天降水概率计算C.企业员工考勤记录统计D.社交平台热门话题实时追踪答案:B30.大数据标准体系中,“元数据标准”的主要作用是?A.定义数据的描述信息(如来源、格式、含义)B.规范数据存储的物理介质C.统一数据计算的算法模型D.规定数据可视化的图表类型答案:A二、多项选择题(每题3分,共10题)1.大数据的“5V”特征包括?A.大量(Volume)B.高速(Velocity)C.多样(Variety)D.低价值密度(ValueDensity)答案:ABCD2.以下属于分布式计算框架的有?A.HadoopMapReduceB.SparkC.FlinkD.HBase答案:ABC3.数据清洗的主要步骤包括?A.缺失值处理B.异常值检测与修正C.重复数据删除D.数据格式转换答案:ABCD4.大数据安全技术包括?A.数据加密(对称/非对称加密)B.访问控制(RBAC)C.脱敏技术(匿名化、泛化)D.区块链存证答案:ABCD5.以下属于非关系型数据库(NoSQL)的有?A.HBase(列式存储)B.Redis(键值存储)C.MongoDB(文档存储)D.MySQL(关系型)答案:ABC6.大数据在医疗领域的应用包括?A.疾病预测模型构建B.药物研发中的基因数据分析C.患者电子病历智能检索D.医院后勤设备管理答案:ABCD7.隐私计算的主要技术路径有?A.联邦学习B.多方安全计算(MPC)C.可信执行环境(TEE)D.差分隐私答案:ABCD8.大数据技术架构通常包括?A.数据采集层(Flume、Kafka)B.数据存储层(HDFS、HBase)C.数据处理层(MapReduce、Spark)D.数据应用层(可视化、API接口)答案:ABCD9.大数据伦理需关注的问题包括?A.算法偏见与歧视B.数据滥用(如过度收集)C.隐私侵犯与二次利用D.数据所有权与权益分配答案:ABCD10.以下哪些指标用于评估数据质量?A.准确性(数据与真实值的匹配度)B.一致性(跨系统数据的统一)C.及时性(数据更新的时效)D.可访问性(数据获取的难易)答案:ABCD三、判断题(每题1分,共20题)1.大数据的核心是“数据量大”,因此只需关注数据采集即可。(×)2.Hadoop的YARN负责资源管理和任务调度。(√)3.数据仓库主要用于支持实时事务处理(OLTP)。(×)4.机器学习中的“监督学习”需要标记好的训练数据。(√)5.数据可视化的主要目的是让数据更美观,无需关注信息传达效率。(×)6.边缘计算适合处理需要低延迟的实时数据(如自动驾驶传感器数据)。(√)7.数据脱敏后可以完全消除隐私泄露风险。(×)8.区块链技术可以实现数据的不可篡改和可追溯。(√)9.大数据分析中,“相关关系”等同于“因果关系”。(×)10.数据湖适合存储结构化、半结构化和非结构化数据。(√)11.联邦学习需要将所有参与方的数据集中到一个中心节点。(×)12.数据生命周期管理包括数据的采集、存储、处理、归档和销毁。(√)13.机器学习模型的“泛化能力”是指模型在新数据上的预测能力。(√)14.非结构化数据无法被大数据技术处理。(×)15.大数据时代,“数据主权”仅涉及国家层面,与企业无关。(×)16.数据血缘追踪可以帮助定位数据错误的来源。(√)17.实时流数据处理要求秒级或毫秒级的响应速度。(√)18.算法歧视仅由算法开发者的主观偏见导致。(×)19.数据标准化是实现数据共享的前提条件之一。(√)20.大数据应用中,“数据可用不可见”是隐私计算的核心目标。(√)四、简答题(每题5分,共5题)1.简述大数据“5V”特征的具体含义。答案:5V指大量(Volume,数据规模大,从TB级到EB级)、高速(Velocity,数据产生和处理速度快,需实时分析)、多样(Variety,数据类型多样,包括结构化、半结构化、非结构化)、低价值密度(ValueDensity,海量数据中有效信息占比低)、真实(Veracity,数据需保证质量和可靠性)。2.对比HadoopMapReduce与Spark的主要区别。答案:HadoopMapReduce基于磁盘计算,适合离线批处理,延迟较高;Spark基于内存计算,支持批处理、流处理(SparkStreaming)和交互式查询,性能更优;Spark提供RDD(弹性分布式数据集)作为核心抽象,支持数据复用,减少IO开销;MapReduce编程模型相对固定(Map和Reduce阶段),Spark支持更灵活的算子(如转换、行动操作)。3.数据清洗的主要方法有哪些?答案:缺失值处理(删除、插补(均值/中位数/众数)、预测模型填充);异常值处理(统计方法如Z-score、箱线图检测,修正或删除);重复值处理(去重);格式转换(统一日期、单位格式);不一致处理(跨系统数据术语对齐);逻辑错误修正(如年龄为负数时校验)。4.简述隐私计算的核心技术及应用场景。答案:核心技术包括联邦学习(多参与方在不共享原始数据的前提下联合训练模型)、多方安全计算(MPC,在加密数据上进行联合计算)、可信执行环境(TEE,硬件隔离的安全区域处理数据)、差分隐私(添加可控噪声保护个体信息)。应用场景如跨医院联合医疗数据建模(保护患者隐私)、银行与电商联合风控(不共享用户敏感数据)、政府部门跨机构数据协同分析。5.大数据伦理需要关注哪些主要问题?答案:算法偏见(训练数据或算法设计导致的歧视性结果);隐私侵犯(过度收集、未经同意的二次利用);数据所有权(个人、企业、国家对数据的权益界定);责任归属(数据错误或算法失误的追责主体);技术滥用(如监控滥用、信息茧房);公平性(大数据应用对不同群体的影响差异)。五、案例分析题(共1题,10分)某电商平台计划通过大数据分析优化用户留存率,需解决以下问题:(1)需要采集哪些类型的用户数据?请列举至少5类。(2)数据处理流程中,如何保障数据质量?(3)分析用户留存的关键指标有哪些
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理部培训资源整合
- 支原体感染健康教育
- 护理伦理:道德行为与后果
- 新生儿呼吸暂停护理方法
- 护理学立法的政策建议
- 建筑幕墙施工质量控制实施手册
- 产品质量检测报告模板产品标准与检测结果展示版
- 化妆品研发技术创新应用手册
- 护理领导力与职业素养
- 人工智能技术在家居领域应用指南
- 广西环保产业投资集团有限公司招聘笔试题库2026
- 2025年高级会计实务真题及答案解析
- 楼梯平台施工方案
- 高级经济师历年真题 + 押题模拟卷及答案(全专业适配)
- 蘑菇中毒突发群体事件应急预案演练脚本
- 2026年山东青岛市中考语文考试真题带答案
- 设备安装验收移交规范
- 2026年中国联通黑龙江省分公司校园招聘笔试备考题库及答案解析
- 2026年长沙民政职业技术学院单招职业倾向性测试题库含答案详解(能力提升)
- 阴道炎患者护理实践指南(2025年版)
- 博物馆陈列展览工程造价指南
评论
0/150
提交评论