版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年《大数据》测试题库(含参考答案)一、单项选择题(每题2分,共30分)1.下列哪项不属于大数据的“4V”特性?A.Volume(大量)B.Velocity(高速)C.Validity(有效性)D.Variety(多样)答案:C2.Hadoop生态中,负责分布式资源管理的组件是?A.HDFSB.MapReduceC.YARND.HBase答案:C3.关于数据仓库(DataWarehouse)的描述,错误的是?A.面向主题的B.支持实时事务处理C.数据是集成的D.数据是时变的答案:B4.Spark中RDD(弹性分布式数据集)的核心特性是?A.不可变且可分区B.实时更新C.单节点存储D.仅支持内存计算答案:A5.数据清洗中处理“噪声数据”的常用方法不包括?A.分箱法B.回归法C.聚类法D.随机删除法答案:D6.下列哪项属于NoSQL数据库?A.MySQLB.OracleC.HBaseD.SQLServer答案:C7.实时数据处理框架Flink的核心优势是?A.基于微批处理B.支持事件时间和水位线C.仅适用于离线场景D.依赖Hadoop生态答案:B8.机器学习中,“过拟合”的主要原因是?A.训练数据量过大B.模型复杂度太高C.学习率过低D.特征维度太少答案:B9.数据可视化工具Tableau的主要功能是?A.编写SQL查询B.构建机器学习模型C.将数据转化为交互式图表D.分布式数据存储答案:C10.关于Kafka的描述,正确的是?A.用于实时数据采集与流传输B.仅支持离线数据处理C.是关系型数据库D.依赖HDFS存储答案:A11.数据挖掘中,“关联规则分析”的典型应用是?A.客户分群B.预测用户购买行为C.识别异常交易D.商品推荐(如“啤酒与尿布”)答案:D12.以下不属于数据预处理步骤的是?A.数据清洗B.数据集成C.数据建模D.数据变换答案:C13.HBase的存储模型基于?A.行存储B.列存储C.键值对存储D.文档存储答案:B14.大数据场景下,“数据倾斜”指的是?A.数据分布均匀B.某些分区数据量远大于其他分区C.数据存储介质倾斜D.数据类型单一答案:B15.下列哪项属于非结构化数据?A.关系型数据库表B.日志文件C.Excel表格D.财务报表答案:B二、填空题(每题2分,共20分)1.大数据技术体系的核心层次包括数据采集层、存储层、处理层、分析层和________层。答案:应用(或可视化)2.HDFS默认的块大小是________MB。答案:1283.Spark中用于缓存RDD的方法是________。答案:persist()/cache()4.数据仓库的ETL过程指的是抽取(Extract)、转换(Transform)和________(Load)。答案:加载5.机器学习中,监督学习需要________数据,无监督学习不需要。答案:标签(或标注)6.实时流处理中,常见的窗口类型包括时间窗口、计数窗口和________窗口。答案:会话(Session)7.NoSQL数据库的四大类包括键值存储、列存储、文档存储和________存储。答案:图8.数据清洗中,处理缺失值的方法有删除记录、________和保留缺失值。答案:插补(或填充,如均值/中位数填充)9.MapReduce计算模型中,________阶段负责将输入数据拆分为键值对并发送到Reducer。答案:Map10.数据可视化的基本原则包括清晰性、________和相关性。答案:准确性(或简洁性)三、简答题(每题5分,共30分)1.简述Hadoop生态中HDFS与HBase的主要区别。答案:HDFS是分布式文件系统,适合存储大文件(如TB级),支持一次写入多次读取,不支持随机读写;HBase是基于HDFS的分布式列存储数据库,支持实时随机读写,适合存储海量结构化或半结构化数据(如行键-列族-时间戳的三维模型),常用于需要快速查询的场景(如用户行为日志)。2.数据仓库与传统数据库的核心差异有哪些?答案:(1)目标不同:数据库支持OLTP(在线事务处理),强调实时性和事务一致性;数据仓库支持OLAP(在线分析处理),强调历史数据的分析与决策支持。(2)数据结构:数据库结构规范化(如多表关联),数据仓库可能采用星型/雪花模型,冗余度高。(3)数据更新:数据库支持频繁增删改;数据仓库通常仅追加更新(ETL定期加载)。3.为什么Spark比HadoopMapReduce更适合迭代计算?答案:Spark基于内存计算(RDD可缓存到内存),迭代计算时无需多次读写磁盘;而MapReduce每个任务的中间结果需写入HDFS,导致高I/O开销。例如,机器学习中的迭代训练(如梯度下降)使用Spark可提升数倍效率。4.数据清洗的主要任务包括哪些?请举例说明。答案:(1)处理缺失值:如用户年龄字段缺失,可用中位数填充。(2)消除噪声:如订单金额出现“-100”的异常值,通过聚类或分箱法修正。(3)纠正不一致:如“北京”和“北京市”统一为“北京”。(4)去重:删除重复的用户注册记录。5.简述监督学习与无监督学习的区别,并各举一例。答案:监督学习需要带标签的训练数据(如“垃圾邮件/正常邮件”),目标是学习输入到输出的映射,典型算法有逻辑回归(分类)、线性回归(回归);无监督学习使用无标签数据,目标是发现数据内在结构,典型算法有K-means(聚类)、Apriori(关联规则)。6.实时流处理与批量处理的主要应用场景差异是什么?答案:实时流处理适用于需要秒级或毫秒级响应的场景(如实时推荐、股票交易监控),处理无界流数据(持续输入);批量处理适用于离线分析(如每日用户活跃度统计),处理有界数据(固定时间窗口内的数据集)。四、应用题(每题10分,共20分)1.某电商平台需分析“用户购买行为”,数据集包含字段:用户ID、商品ID、购买时间、支付金额、地域。请设计从数据采集到可视化的完整处理流程,并说明各阶段使用的技术工具。答案:(1)数据采集:通过Flume或Kafka采集用户行为日志(如页面点击、下单事件),通过ETL工具(如Sqoop)从关系型数据库(MySQL)抽取订单数据。(2)数据存储:原始日志存储至HDFS(海量非结构化数据),清洗后的结构化数据存储至HBase(支持快速查询用户历史购买记录)或Hive(数据仓库,支持SQL分析)。(3)数据清洗:使用SparkDataFrame处理缺失值(如删除支付金额为0的异常记录)、去重(消除重复订单)、转换时间格式(如“2025-01-0112:00”转为时间戳)。(4)数据分析:用SparkMLlib训练用户分群模型(K-means,按购买频率和支付金额划分高/中/低价值用户),用HiveSQL计算地域销量TOP10商品。(5)数据可视化:将分析结果通过Tableau或PowerBI生成图表(如用户分群饼图、地域销量热力图),支持实时更新。2.请用MapReduce伪代码实现“统计某文本文件中各单词的出现次数”,并说明Map和Reduce阶段的具体操作。答案:(1)Map阶段:输入:<偏移量,文本行>(如<0,"Hellobigdata">)处理:将文本行按空格分割为单词列表(["Hello","big","data"]),为每个单词生成键值对(<"Hello",1>,<"big",1>,<"data",1>)。输出:所有单词的(单词,1)键值对。(2)Shuffle阶段:将相同单词的键值对分组,发送至同一个Reducer(如所有<"big",1>发送至Reducer1)。(3)Reduce阶段:输入:<单词,[1,1,1...]>(如<"big",[1,1,1]>)处理:对值列表求和(1+1+1=3)。输出:<"bi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026贵州贵阳农垦品牌运营管理有限公司诚聘健康顾问24人备考题库附答案详解(b卷)
- 2026中能建绿色数字科技(庆阳)有限公司招聘备考题库含答案详解
- 2026浙江嘉兴市第五医院(嘉兴市康慈医院)招聘高层次人才2人备考题库(第二批)及1套参考答案详解
- 2026广东茂名高岭科技有限公司技术部职员2名备考题库含答案详解(培优b卷)
- 2026云南玉溪市中山医院第二批就业见习岗位招募12人备考题库附答案详解(黄金题型)
- 2026云南昆明巫家坝建设发展有限责任公司及下属子公司第一季度社会招聘2人备考题库附答案详解(研优卷)
- 2026陕西西安市未央区辛家庙社区卫生服务中心招聘4人备考题库及答案详解一套
- 2026浙江温州医科大学附属第一医院药学部临床药师招聘1人备考题库及答案详解一套
- 2026湖南第一师范学院招聘非事业编制人员3人备考题库及答案详解(真题汇编)
- 2026陕西西安交通大学电信学部计算机学院管理辅助人员招聘1人备考题库含答案详解(夺分金卷)
- 剧本杀入股协议书
- 心房起搏电极的位置选择教程文件
- 《JBT 10306-2013温室控制系统设计规范》(2026年)实施指南
- 针刀医学的四大基本理论培训课件
- 西西里岛战役课件
- 2025法考经济法真题专项(2018-20252)解析版
- 2025年新高考全国一卷政治真题及答案解析(山东、广东等)
- 地铁的员工合同协议书
- 收麦子课件教学课件
- 2025年中国邮政集团有限公司湖北省分公司招聘笔试备考试题及1套完整答案详解
- 2025年陪诊师考试考试格式试题及答案
评论
0/150
提交评论