版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年湖南省数字技术应用能力水平考试(大数据基础知识及应用)强化练习题及答案一、单项选择题1.关于数据仓库与数据库的区别,以下描述正确的是:A.数据仓库主要用于事务处理,数据库主要用于分析处理B.数据仓库的数据是实时更新的,数据库的数据是定期更新的C.数据仓库的数据模型通常采用星型或雪花模型,数据库通常采用实体-关系模型D.数据仓库的数据量通常小于数据库的数据量答案:C解析:数据仓库与操作型数据库在目的、数据模型、更新频率和数据量上均有不同。数据仓库主要用于支持管理决策的分析处理,其数据模型通常为便于分析的星型或雪花模型;而操作型数据库主要用于日常事务处理,数据模型通常为规范化的实体-关系模型。数据仓库的数据通常从多个操作型数据库集成而来,定期更新(如ETL过程),而非实时更新,且数据量通常非常庞大,用于历史趋势分析。2.在Hadoop生态系统中,负责资源管理和作业调度的核心组件是:A.HDFSB.MapReduceC.YARND.HBase答案:C解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.0引入的核心组件,它将资源管理和作业调度/监控功能分离,成为Hadoop集群的资源管理层。HDFS是分布式文件系统,MapReduce是分布式计算框架(在YARN上运行),HBase是分布式列式数据库。3.关于Spark与MapReduce的比较,以下说法错误的是:A.Spark基于内存计算,迭代计算效率通常高于MapReduceB.MapReduce的容错机制基于数据复制,而Spark基于RDD的血统(Lineage)机制C.SparkStreaming处理的是真正的实时流数据,而MapReduce只能处理批量数据D.Spark提供了更丰富的高级API(如DataFrame、SQL),开发效率更高答案:C解析:SparkStreaming处理的是微批次(Micro-batch)数据流,它将实时流数据切分成一系列小的批处理作业进行处理,并非像Flink或Storm那样的纯实时流处理。MapReduce是典型的批处理模型。其他选项描述均正确。二、多项选择题1.以下哪些是数据预处理中数据清洗可能涉及的任务?()A.处理缺失值B.识别并处理异常值C.数据规范化(Normalization)D.数据集成(Integration)E.数据归约(Reduction)答案:A,B解析:数据清洗主要关注提高数据质量,包括填补缺失值、光滑噪声数据、识别并处理离群点(异常值)以及纠正数据中的不一致。数据规范化(C)属于数据变换,数据集成(D)和数据归约(E)是与数据清洗并列的数据预处理步骤。2.关于NoSQL数据库,下列描述正确的有:()A.文档数据库(如MongoDB)将数据存储为类似JSON的文档结构B.列族数据库(如HBase)适合存储稀疏数据C.图数据库(如Neo4j)擅长处理具有复杂关系的数据D.键值数据库(如Redis)通常提供丰富的查询功能E.NoSQL数据库都严格遵循ACID事务特性答案:A,B,C解析:键值数据库(如Redis)通常查询功能简单,主要通过键来访问值,不支持复杂的查询操作,故D错误。NoSQL数据库为了获得可扩展性、高性能和高可用性,通常放宽了对ACID事务一致性的要求,遵循BASE原则,故E错误。A、B、C分别准确描述了文档型、列族型和图数据库的特点。三、判断题1.Hive是基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,其执行引擎默认是MapReduce。()答案:正确解析:Hive的本质是将HQL(HiveSQL)转换成MapReduce、Tez或Spark作业在Hadoop上执行。在早期版本中,MapReduce是其默认执行引擎。虽然现在可以配置为Tez或Spark,但题目描述“其执行引擎默认是MapReduce”在大多数经典版本和语境下被认为是正确的。2.主成分分析(PCA)是一种有监督的降维方法,它利用样本的类别标签信息来寻找最佳投影方向。()答案:错误解析:主成分分析(PCA)是一种无监督的线性降维方法。它的目标是找到数据方差最大的方向(主成分),从而在减少数据维度的同时保留最多的变异信息。PCA完全不使用样本的类别标签信息。利用标签信息的降维方法如线性判别分析(LDA)。四、填空题1.在大数据领域,描述数据特点的“4V”通常是指:海量性(Volume)、高速性(______)、多样性(Variety)和低价值密度性(Value)。答案:Velocity解析:“4V”是大数据公认的四个基本特征。Velocity指数据产生和处理的速度快,要求实时或准实时响应。2.在Spark中,一个应用程序由一个______进程和多个______进程组成,分别负责控制程序的运行和在集群上执行任务。答案:Driver,Executor解析:Spark应用程序运行时,Driver进程运行main函数,负责创建SparkContext、将作业转化为DAG、调度任务等。Executor进程运行在集群的工作节点上,负责执行具体的任务,并存储数据。五、简答题1.简述MapReduce计算模型的基本思想,并说明其“Map”和“Reduce”阶段的主要任务。答:MapReduce是一种用于大规模数据集并行计算的编程模型。其基本思想是“分而治之”:将一个大任务拆分成多个小任务(Map),并行执行后,再将小任务的结果合并成最终结果(Reduce)。主要任务:Map阶段:由用户自定义Map函数,输入是键值对(k1,Shuffle阶段(隐含过程):系统将Map输出的所有中间结果按照键k2进行排序和分组,将相同k2的值v2Reduce阶段:由用户自定义Reduce函数,输入是中间键及其对应的值列表(k2,2.什么是数据湖?它与传统数据仓库的主要区别是什么?答:数据湖是一个集中式的存储库,允许以原始格式(包括结构化、半结构化和非结构化数据)存储海量数据。数据湖通常构建在廉价的对象存储(如HDFS、S3)之上,支持对数据进行多种处理和分析(如SQL查询、大数据处理、实时分析、机器学习)。主要区别:存储数据:数据湖存储原始、未加工的数据(包括日志、XML、JSON、图像、视频等),模式在读取时定义(Schema-on-Read)。数据仓库存储经过清洗、转换和结构化的数据,模式在写入前定义(Schema-on-Write)。处理目的:数据湖旨在存储所有数据,支持探索性分析、机器学习和非预定义的分析。数据仓库主要用于预定义的报告和商业智能分析。用户:数据湖主要面向数据科学家和高级分析师。数据仓库主要面向业务分析师和决策者。敏捷性:数据湖更灵活,易于适应变化。数据仓库结构严谨,变更成本较高。六、计算与设计题1.假设有一个商品销售记录表`sales`,包含字段:`order_id`(订单号),`product_id`(商品ID),`category`(商品类别),`amount`(销售额),`city`(城市)。请使用SQL语句完成以下查询:(1)查询每个城市的总销售额,并按销售额从高到低排序。(2)查询销售额排名前3的商品类别及其对应的总销售额。(3)查询每个城市中,销售额最高的那个商品的`product_id`和`amount`。答:(1)```sqlSELECTcity,SUM(amount)AStotal_amountFROMsalesGROUPBYcityORDERBYtotal_amountDESC;```(2)```sqlSELECTcategory,SUM(amount)AScategory_amountFROMsalesGROUPBYcategoryORDERBYcategory_amountDESCLIMIT3;```(3)```sqlSELECTs.city,duct_id,s.amountFROMsalessINNERJOIN(SELECTcity,MAX(amount)ASmax_amountFROMsalesGROUPBYcity)ASmax_salesONs.city=max_sales.cityANDs.amount=max_sales.max_amount;```解析:第(3)问使用了子查询先找出每个城市的最高销售额,再通过内连接回原表,找到对应商品。注意,如果一个城市有多个商品销售额并列最高,此查询会全部返回。2.给定一个键值对数据集,内容为`<用户ID,访问页面URL>`。现需统计每个用户访问不同页面的次数。请用MapReduce伪代码描述实现过程(包括Map函数和Reduce函数的输入输出及处理逻辑)。答:Map阶段:输入:键为行偏移量(可忽略),值为一行文本,格式如`"user001,/home"`。处理:解析每一行,提取`user_id`和`url`。输出:以复合键`"user_id::url"`作为中间键(例如`"user001::/home"`),以数值`1`作为中间值。表示该用户访问该页面一次。Shuffle阶段:系统自动将相同`"user_id::url"`的`1`聚集到一起,形成列表。Reduce阶段:输入:键为`"user_id::url"`,值为该键对应的计数值列表`[1,1,...]`。处理:对值列表中的所有`1`进行求和,得到该用户访问该特定页面的总次数`total_count`。输出:键为`"user_id::url"`,值为`total_count`。解析:此设计将用户和页面的组合作为唯一标识。Map阶段每次遇到一个组合就输出一个计数1。Reduce阶段对相同组合的计数进行累加,最终得到每个用户对每个页面的访问次数。3.在推荐系统中,协同过滤是常用算法。假设用户-物品评分矩阵R的一部分如下表所示(“-”表示未评分):用户/物品物品A物品B物品C物品D用户甲53-1用户乙4--1用户丙11-5用户丁1--4用户戊-154现采用基于用户的协同过滤(UserCF)预测“用户甲”对“物品C”的评分。使用余弦相似度计算用户相似度,并取最相似的2个用户(邻居)进行评分预测(忽略评分标准化)。(1)计算“用户甲”与其他各用户(乙、丙、丁、戊)的余弦相似度。(2)根据相似度最高的两个邻居的评分,预测用户甲对物品C的评分。答:(1)计算余弦相似度。余弦相似度公式为:s其中,是用户u和用户v共同评分过的物品集合。用户甲与用户乙:共同评分物品:{A,D}。s用户甲与用户丙:共同评分物品:{A,B,D}。s用户甲与用户丁:共同评分物品:{A,D}。s用户甲与用户戊:共同评分物品:{B,D}。s(2)根据计算,与用户甲最相似的两个用户是:用户乙(相似度0.861)和用户丙(相似度0.423)。用户丁和戊的相似度更低。用户乙未对物品C评分,用户丙也未对物品C评分。因此,这两个邻居都无法提供对物品C的有效评分。在这种情况下,基于用户的协同过滤无法利用这两个邻居预测用户甲对物品C的评分。在实际系统中,可能需要寻找更多邻居,或采用基于物品的协同过滤等其他方法,或返回一个默认值(如全局平均分)。解析:本题展示了基于用户的协同过滤的基本计算过程,并揭示了一个实际问题:当邻居用户对目标物品没有评分时,预测无法进行。这体现了数据稀疏性对推荐算法的挑战。七、综合应用题某电商平台日志数据量每日增长约1TB,主要为用户点击、搜索、购买等JSON格式的日志。现有技术栈包括HadoopHDFS、Hive、Spark。为了支持以下业务需求,请设计一个数据处理与分析架构方案,并简要说明各组件职责和数据处理流程。业务需求:1.实时监控:实时统计每分钟的核心交易额和热门搜索词,用于大屏展示(延迟要求<1分钟)。2.离线分析:每日凌晨计算前一天的用户行为分析报表(如新增用户、留存率、商品销售Top10等)。3.即席查询:数据团队可对历史数据进行灵活的探索性SQL查询,查询时间范围可能长达一年。4.模型训练:每周基于历史用户行为数据,更新推荐系统模型。设计方案:1.数据采集与接入层:在各业务服务器上部署轻量级日志采集代理(如Flume、Filebeat),实时收集JSON日志。将日志数据同时发送到两个目的地以满足不同时效性需求:实时流:发送到分布式消息队列(如Kafka)。用于支撑实时监控需求。离线备份:同时写入HDFS的原始日志区(如`/raw_logs/dt=2026-01-01/`),按天分区存储。用于离线分析、即席查询和模型训练。2.实时计算层:使用流处理框架(如SparkStreaming或Flink)消费Kafka中的实时数据流。编写流处理作业,对数据进行解析、过滤和聚合(如按分钟窗口统计交易额、统计搜索词频)。将聚合结果(每分钟的统计指标)写入两个地方:写入在线存储(如Redis或HBase),供前端大屏应用实时查询展示。同时可写入OLAP数据库(如ClickHouse)或HDFS,用于后续核对或更细粒度的历史查询。3.离线存储与计算层:存储:HDFS作为海量原始数据和加工后数据的核心存储。建立分层数据仓库模型:`ODS层`:存放从`/raw_logs`同步过来的原始日志,可能进行简单的清洗和格式统一。`DWD层`:进行维度退化、事实表拆分等深度清洗和建模,形成明细事实表。`DWS层`:按主题(如用户、商品)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程试验资料外包合同
- 银行票据传递外包合同
- 美团人员劳务外包合同
- 外企研究生外包合同
- 空调安装劳务外包合同
- 服装厂销售部外包合同
- 同城分销系统外包合同
- 2026年轨道车司机(高级技师)职业技能鉴定考试题(附答案)
- 2026年大学生心理健康教育考试试题库及参考答案
- 2026年闸门运行工(中级)职业技能考试题库及答案
- 2026年苯丙乳液行业分析报告及未来发展趋势报告
- (四模)新疆2026年高三普通高考五月适应性文科综合试卷(含答案及解析)
- 2026年上海市虹口区中考历史二模试卷(含答案)
- 国资委安全生产十条硬措施
- 景德镇辅警考试2026真题
- 2026中国氢能源基础设施建设与政策支持分析报告
- 2025年河北省石家庄市八年级地生会考考试试题及答案
- 交叉作业审批制度
- 初中八年级英语下册 Unit 7 Natural Disasters 写作提升课:灾害事件报道与个人经历叙述教案
- TSG 31-2025工业管道安全技术规程
- 物业采购报销制度及流程
评论
0/150
提交评论