2026年大数据分析基础知识测试卷及答案

上传人：1*** IP属地：四川上传时间：2026-05-26 格式：DOCX 页数：14 大小：25.56KB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年大数据分析基础知识测试卷及答案一、单项选择题（每题2分，共30分）1.下列哪项不属于大数据的5V特征？A.Volume（大量）B.Velocity（高速）C.Variability（多变）D.Veracity（真实）2.以下哪种技术通常用于非结构化数据的分布式存储？A.HBaseB.HDFSC.MySQLD.Redis3.数据清洗过程中，处理“同一字段存在多种格式（如日期格式‘2023/10/1’与‘2023-10-01’）”的问题属于：A.缺失值处理B.重复值处理C.一致性处理D.异常值处理4.关于MapReduce计算模型，以下描述错误的是：A.适用于离线批量数据处理B.包含Map和Reduce两个核心阶段C.数据传输通过磁盘进行，适合实时计算D.具有自动容错机制5.某电商平台需分析用户点击流数据（每秒10万条），最适合的处理框架是：A.HadoopMapReduceB.ApacheSparkC.ApacheFlinkD.ApacheHive6.数据可视化中，用于展示多个变量间相关性的常用图表是：A.柱状图B.散点图C.折线图D.饼图7.分层抽样与简单随机抽样的主要区别在于：A.分层抽样需要将总体划分为互不重叠的层B.分层抽样样本量更小C.简单随机抽样更适用于异质性高的总体D.分层抽样无法保证每个个体被选中的概率相等8.关联规则挖掘中，若某规则的支持度为0.3，置信度为0.8，意味着：A.30%的交易包含该规则的前件和后件，其中80%的前件交易包含后件B.80%的交易包含该规则的前件和后件，其中30%的前件交易包含后件C.30%的交易包含前件，80%的交易包含后件D.30%的后件交易包含前件，80%的前件交易包含后件9.以下哪项属于实时数据处理的典型应用场景？A.月度销售报表提供B.电商大促期间的库存预警C.用户年度消费行为分析D.历史订单数据归档10.数据仓库（DW）与数据库（DB）的核心区别是：A.数据仓库支持事务处理，数据库支持分析处理B.数据仓库存储当前数据，数据库存储历史数据C.数据仓库面向主题，数据库面向业务流程D.数据仓库使用关系模型，数据库使用多维模型11.评估数据质量时，“用户年龄字段中出现‘-5’或‘200’”主要影响的维度是：A.完整性B.一致性C.准确性D.及时性12.以下哪种算法属于无监督学习？A.逻辑回归B.K-means聚类C.随机森林D.支持向量机（SVM）13.关于HBase的描述，正确的是：A.基于列存储，适合实时读写B.基于行存储，适合批量处理C.支持SQL查询，兼容关系型数据库D.数据模型为键值对，不支持版本控制14.特征工程中，将“用户注册时间”转换为“注册时长（天）”属于：A.特征选择B.特征提取C.特征变换D.特征构造15.某企业需构建数据中台，其核心目标是：A.替代现有业务系统B.实现数据的统一管理与服务化输出C.存储所有历史数据D.提升单表查询速度二、判断题（每题1分，共10分。正确填“√”，错误填“×”）1.数据湖（DataLake）通常存储结构化数据，数据仓库（DataWarehouse）存储原始非结构化数据。（）2.Hadoop生态中，YARN负责资源管理，HDFS负责数据存储，MapReduce负责计算。（）3.数据清洗仅需处理缺失值和异常值，无需关注数据格式问题。（）4.Spark的RDD（弹性分布式数据集）具有不可变性，支持基于内存的迭代计算。（）5.K-means算法需要预先指定聚类数k，而DBSCAN不需要。（）6.数据可视化的主要目的是让数据“看起来美观”，而非传递关键信息。（）7.ETL过程中，“L”指的是“转换（Load）”。（）8.数据脱敏（DataMasking）是指通过加密技术保护敏感信息，脱敏后的数据无法还原。（）9.特征工程的质量直接影响模型性能，其重要性通常超过模型选择。（）10.实时数据处理的延迟通常在秒级或亚秒级，批量处理的延迟在小时级或天级。（）三、简答题（每题5分，共30分）1.简述HDFS（Hadoop分布式文件系统）的设计原则及其适用场景。2.数据清洗的主要步骤包括哪些？请举例说明常见的清洗操作。3.对比MapReduce与Spark的计算模型，说明Spark在处理迭代计算时的优势。4.解释关联规则挖掘中“支持度（Support）”和“置信度（Confidence）”的含义，并说明其在电商推荐中的应用。5.数据仓库与数据湖的核心差异体现在哪些方面？（至少列出4点）6.特征工程中，处理类别型特征（如“用户性别”“商品品类”）的常用方法有哪些？请分别说明适用场景。四、综合题（每题10分，共30分）1.某电商平台需分析“用户购买转化率”（点击商品详情页→下单的比例），现有数据包括：用户ID、点击时间、商品ID、页面停留时长、是否下单。请设计分析流程，包括数据预处理、关键指标计算、可能的影响因素挖掘步骤，并说明需使用的大数据工具（如Hive、Spark、Tableau等）。2.某物流企业的实时监控系统需处理车辆GPS定位数据（每秒5万条），要求检测“车辆偏离预设路线”的异常事件（延迟需≤2秒）。请设计技术方案，包括数据采集方式、实时处理框架选择、异常检测算法设计（需说明核心逻辑）及结果输出方式。3.某银行计划通过用户行为数据预测“信用卡逾期风险”，现有数据包含：年龄、职业、月收入、历史逾期次数、近3个月消费金额、信用卡额度。请选择合适的机器学习模型（如逻辑回归、随机森林、XGBoost），并说明特征工程步骤、模型训练流程及评估指标（需结合业务场景解释指标选择原因）。答案一、单项选择题1.C2.B3.C4.C5.C6.B7.A8.A9.B10.C11.C12.B13.A14.C15.B二、判断题1.×（数据湖存储原始多结构数据，数据仓库存储结构化的分析数据）2.√3.×（数据清洗需处理缺失值、异常值、重复值、格式不一致等问题）4.√5.√6.×（核心目的是清晰传递数据洞察）7.×（L是加载，E是抽取，T是转换）8.×（脱敏后数据可能通过特定规则还原，加密是可逆的）9.√10.√三、简答题1.HDFS设计原则：①硬件易损性（假设节点会故障，通过副本机制保证可靠性）；②流式数据访问（一次写入多次读取，优化批量处理）；③大文件支持（分块存储，块大小通常128MB）；④简单一致性模型（写一次读多次，适合批量写入）。适用场景：海量非结构化/半结构化数据的离线存储与处理（如日志、图片、文本）。2.主要步骤：①数据质量检测（统计缺失率、异常值比例等）；②缺失值处理（删除、均值填充、模型预测）；③异常值处理（Z-score检验、分位数截断）；④重复值处理（去重）；⑤格式标准化（统一日期格式、单位）；⑥一致性修复（如“北京”与“北京市”统一）。示例：用户年龄字段存在“-5”（异常值），可通过IQR方法识别并替换为中位数；“手机型号”字段存在“iPhone15”“IPHONE15”（格式不一致），统一为小写无空格格式。3.MapReduce基于磁盘传输数据，每次计算需将中间结果写入磁盘，适合离线批量处理；Spark基于RDD，支持内存计算，迭代时RDD可缓存至内存，避免重复读写磁盘，显著提升迭代计算（如机器学习、图计算）效率。例如，训练一个需要100次迭代的模型，MapReduce需100次磁盘IO，而Spark仅需1次加载数据到内存，后续迭代直接使用内存数据。4.支持度：包含前件和后件的交易占总交易的比例（反映规则的普遍性）；置信度：包含前件的交易中同时包含后件的比例（反映规则的可靠性）。电商应用：若“购买奶粉→购买尿布”的支持度为0.2（20%交易同时包含两者），置信度为0.8（80%买奶粉的用户买尿布），则可将两者关联推荐，提升交叉销售效率。5.核心差异：①数据结构：数据湖存储原始多结构（结构化、半结构化、非结构化）数据，数据仓库存储结构化的清洗后数据；②数据用途：数据湖支持探索性分析，数据仓库支持确定性报表；③元数据管理：数据湖依赖元数据标签，数据仓库需严格的模式设计；④访问方式：数据湖需用户自行处理数据，数据仓库提供预定义的分析视图；⑤适用阶段：数据湖适合数据积累期，数据仓库适合成熟分析场景。6.常用方法：①标签编码（LabelEncoding）：将类别映射为整数（如“男”→1，“女”→2），适用于有序类别（如“低/中/高”）；②独热编码（One-HotEncoding）：为每个类别提供二进制列（如“性别”提供“男”“女”两列），适用于无序类别（如“手机品牌”），但需注意维度爆炸；③目标编码（TargetEncoding）：用类别对应的目标变量均值替换（如“商品品类A”的转化率均值作为新特征），适用于高基数类别（如“用户所在城市”），需防止过拟合（如交叉验证编码）；④嵌入向量（Embedding）：通过神经网络学习类别特征的低维表示，适用于深度学习场景（如推荐系统）。四、综合题1.分析流程：（1）数据预处理：①清洗：删除点击时间缺失或下单状态异常（如“未知”）的记录；②关联：按用户ID和商品ID关联点击与下单数据，标记转化状态（1=下单，0=未下单）；③特征构造：计算页面停留时长的分箱（如0-30秒、30-60秒等）、点击时段（白天/夜晚）。（2）关键指标计算：①总体转化率=下单数/点击数；②分维度转化率（如商品品类、用户年龄层）。（3）影响因素挖掘：①相关性分析（如停留时长与转化率的Pearson相关系数）；②模型训练（逻辑回归或随机森林，输入停留时长、时段、商品品类，输出转化率预测）。工具选择：Hive用于数据存储与初步清洗，Spark用于特征工程与模型训练，Tableau用于可视化分维度转化率。2.技术方案：（1）数据采集：通过车辆GPS设备（如4G/5G模块）实时上传经纬度、时间戳、车辆ID，使用Kafka消息队列缓冲（解决流量突发问题）。（2）实时处理框架：选择ApacheFlink（支持毫秒级延迟、状态管理），设置并行度为5（匹配每秒5万条的吞吐量）。（3）异常检测算法：①预设路线为地理围栏（多边形坐标集合）；②实时计算车辆当前位置与围栏的距离（使用GeoHash或空间索引加速）；③若连续3条数据（约0.6秒）超出围栏且距离>50米，标记为异常事件。（4）结果输出：异常事件写入Redis缓存（供监控界面实时展示），同时记录到HDFS（用于后续离线分析）。3.模型与流程设计：（1）模型选择：XGBoost（支持处理结构化数据、自动处理特征重要性、抗过拟合能力强，适合金融风控场景）。（2）特征工程：①缺失值处理：职业字段缺失时用“未知”填充，月收入缺失用均值填充；②特征构造：计算“消费金额/信用卡额度”（反映用卡活跃度）、“历史逾期次数/开户时长”（反映逾期频率）；③分箱处理：年龄分箱（18-25/26-35等）、月收入分箱（低/中/高）；④独热编码：职业（如教师、医生、自由职业）。（3）模型训练流程：①划分数据集

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年大数据分析基础知识测试卷及答案

文档简介

温馨提示

最新文档

评论

2026年大数据分析基础知识测试卷及答案

文档简介

温馨提示

最新文档

评论

相关文档