版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据技术与工程专业入学考试题及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于湖仓一体(Lakehouse)架构的核心特性?A.支持ACID事务B.同时兼容文件存储与表结构C.仅支持批处理模式D.元数据统一管理2.在分布式系统中,CAP定理中的“P”指的是?A.分区容错性(PartitionTolerance)B.性能(Performance)C.持久性(Persistence)D.可移植性(Portability)3.关于ApacheKafka的消费者组(ConsumerGroup),以下描述错误的是?A.同一消费者组内的消费者共同消费一个主题的分区B.消费者组内消费者数量超过分区数时,部分消费者将无法接收消息C.不同消费者组可以独立消费同一主题的全部分区D.消费者组通过ZooKeeper维护偏移量(Offset)4.某电商平台需对用户行为日志(日均100亿条)进行实时风控,要求延迟低于100ms,最适合的计算框架是?A.ApacheHadoopMapReduceB.ApacheSparkBatchC.ApacheFlinkD.ApacheHive5.以下哪种数据编码方式最适合高基数离散型字段的压缩存储?A.游程编码(RLE)B.字典编码(DictionaryEncoding)C.差值编码(DeltaEncoding)D.分块压缩(BlockCompression)6.在Spark中,以下操作属于宽依赖(WideDependency)的是?A.map()B.filter()C.groupByKey()D.flatMap()7.某大数据平台需存储TB级时序数据(如服务器监控指标),要求支持高频写入与高效范围查询,最优存储方案是?A.HBase(基于LSM树)B.MySQL(B+树索引)C.Redis(内存键值对)D.MongoDB(文档存储)8.数据清洗中处理“缺失值”的常用方法不包括?A.删除缺失值所在行B.用字段均值/中位数填充C.基于关联字段构建模型预测填充D.直接保留缺失值用于后续分析9.关于分布式一致性协议Paxos,以下说法正确的是?A.仅适用于主从架构B.保证强一致性但牺牲可用性C.核心是“多数派同意”机制D.要求所有节点实时同步数据10.某企业需构建用户画像系统,需整合用户基本信息、交易记录、社交行为等多源异构数据,关键技术不包括?A.数据血缘追踪(DataLineage)B.实体解析(EntityResolution)C.流批一体计算D.无监督学习降维二、填空题(每空2分,共20分)1.大数据处理中的“ETL”指的是________、转换(Transform)、加载(Load)。2.Hadoop生态中,负责资源管理与任务调度的组件是________。3.分布式文件系统HDFS的默认块(Block)大小是________MB。4.实时流处理中,事件时间(EventTime)与处理时间(ProcessingTime)的差异可能导致________问题。5.数据仓库的核心特征包括面向主题、集成性、________和时变性。6.在Spark中,RDD的持久化(Persistence)级别“MEMORY_AND_DISK_SER”表示数据先存内存,不足时存磁盘,且数据需________。7.列式存储(如Parquet、ORC)相比行式存储更适合________(填“批量读”或“单行读”)场景。8.数据湖(DataLake)通常以________格式存储原始数据(如JSON、CSV)。9.分布式系统中,通过________算法可实现不同节点时钟的同步(如NTP协议底层原理)。10.特征工程中,对连续型变量“年龄”进行分箱(Binning)处理属于________(填“离散化”或“标准化”)操作。三、简答题(每题8分,共40分)1.简述MapReduce计算模型的核心思想,并说明其在处理大规模数据时的优势与局限性。2.对比ApacheSpark与ApacheFlink在流处理上的差异,举例说明各自适用场景。3.什么是数据倾斜(DataSkew)?在分布式计算中可能导致哪些问题?如何检测与优化?4.设计一个电商用户行为日志的数据采集方案(需考虑多端(PC、APP、小程序)、高并发、数据完整性),并说明关键技术点。5.解释“元数据管理(MetadataManagement)”在大数据平台中的作用,列举3种常见的元数据类型。四、编程题(每题15分,共30分)1.用Python编写一个函数,处理以下格式的日志数据(示例如下),要求:提取每个日志条目的“用户ID”“事件类型”“时间戳”字段;过滤掉“事件类型”为“heartbeat”的条目;按“用户ID”分组,统计每个用户的事件数量;输出结果格式为字典:{用户ID:事件数}。日志示例(每行一条JSON):`{"user_id":"U123","event_type":"click","timestamp":1712345678,"page":"home"}``{"user_id":"U456","event_type":"heartbeat","timestamp":1712345679,"device":"ios"}``{"user_id":"U123","event_type":"purchase","timestamp":1712345680,"amount":99.9}`2.假设某电商平台有一张Hive表“user_behavior”,包含字段:user_id(用户ID)、behavior_type(行为类型,如“view”“cart”“buy”)、item_id(商品ID)、timestamp(时间戳)。用SparkSQL编写代码,实现以下需求:筛选最近30天(以当前时间为基准)的用户行为数据;统计每个用户的“购买(buy)”行为次数,以及购买过的不同商品数量;按购买次数降序排序,取前100名用户。五、综合分析题(20分)某新能源汽车企业计划构建车联网大数据平台,需采集车辆实时行驶数据(如车速、电池电量、GPS坐标)、用户APP操作日志(如充电预约、故障反馈)、售后维修记录(结构化表格)。请设计平台技术架构,需包含以下模块:1.数据采集层:说明多源数据的采集方式及关键技术(如协议适配、断点续传);2.存储层:设计不同类型数据的存储方案(如实时流数据、历史结构化数据、非结构化日志),并选择合适的存储引擎(如HDFS、HBase、ClickHouse);3.计算层:规划实时计算与离线计算的分工(如实时告警、用户画像分析),并选择计算框架(如Flink、Spark);4.应用层:列举2个典型应用场景(如电池健康预测、用户充电习惯分析),并说明所需的大数据技术(如机器学习、多维分析)。答案一、单项选择题1.C(湖仓一体支持批处理与流处理)2.A(分区容错性)3.D(Kafka0.9+版本通过内部主题__consumer_offsets存储偏移量)4.C(Flink支持毫秒级低延迟实时处理)5.B(字典编码适合高基数离散字段)6.C(groupByKey需shuffle,属于宽依赖)7.A(HBase基于LSM树,适合高频写入与范围查询)8.D(缺失值直接保留可能导致模型偏差)9.C(Paxos通过多数派投票达成一致)10.D(用户画像需多源数据整合,无监督降维非关键)二、填空题1.抽取(Extract)2.YARN3.1284.乱序(或“延迟数据”)5.非易失性(或“稳定性”)6.序列化(Serialized)7.批量读8.非结构化/半结构化9.时钟同步(或“时间同步”)10.离散化三、简答题1.核心思想:将任务分解为Map(映射)和Reduce(归约)两个阶段,Map阶段并行处理输入数据提供键值对,Reduce阶段对相同键的数据聚合计算。优势:易于分布式并行处理,自动容错(任务失败重试),适合离线批处理。局限性:仅支持“一次Map+一次Reduce”简单流程,复杂任务需多轮作业;基于磁盘的shuffle过程效率低,不适合实时/迭代计算。2.差异:Spark流处理基于微批(Micro-Batch),将流视为连续的小批量数据,延迟通常为秒级;Flink基于事件驱动,逐条处理数据,支持毫秒级延迟。Spark使用RDD作为核心抽象,Flink使用DataStream/DataSet,支持更细粒度的状态管理(如键控状态)。场景:Spark适合对延迟要求不高但需复杂批流统一的场景(如日活统计);Flink适合低延迟实时风控、实时推荐等场景。3.数据倾斜:分布式计算中,部分节点处理的数据量远大于其他节点,导致任务执行时间过长甚至失败。问题:节点资源不均(CPU/内存瓶颈)、任务超时、数据积压。检测:通过任务监控(如SparkUI的Stage耗时、ShuffleRead/Write量);统计各键的数据分布(如用countByKey())。优化:加盐哈希(对倾斜键添加随机前缀)、预处理过滤高频键、调整并行度、使用BroadcastJoin替代ShuffleJoin。4.方案设计:多端采集:PC端通过JavaScript埋点,APP端通过SDK(如友盟、神策),小程序通过wx.request上报;统一使用HTTP/HTTPS协议,兼容Kafka消息队列异步写入。高并发:采用分布式消息中间件(如Kafka)缓冲,分区数根据写入量动态调整;服务端使用Nginx负载均衡,结合异步非阻塞IO(如Netty)处理请求。数据完整性:实现ACK确认机制(客户端发送后等待服务端确认),本地缓存未成功上报的日志(APP/小程序端),支持离线补传(断点续传);服务端校验数据格式(如JSONSchema),记录缺失字段并告警。5.作用:元数据是数据的“数据”,用于描述数据的来源、结构、血缘、质量等信息,支撑数据发现(搜索)、血缘追踪(问题定位)、权限管理(访问控制)、数据治理(质量监控)。常见类型:技术元数据(表结构、字段类型)、业务元数据(业务含义、指标定义)、操作元数据(ETL任务调度时间、数据更新频率)。四、编程题1.Python代码示例:```pythonimportjsonfromcollectionsimportdefaultdictdefprocess_logs(log_lines):user_events=defaultdict(int)forlineinlog_lines:try:log=json.loads(line)event_type=log.get("event_type")ifevent_type=="heartbeat":continueuser_id=log.get("user_id")ifuser_id:user_events[user_id]+=1exceptjson.JSONDecodeError:continue跳过解析失败的日志returndict(user_events)测试用例test_logs=['{"user_id":"U123","event_type":"click","timestamp":1712345678,"page":"home"}','{"user_id":"U456","event_type":"heartbeat","timestamp":1712345679,"device":"ios"}','{"user_id":"U123","event_type":"purchase","timestamp":1712345680,"amount":99.9}']print(process_logs(test_logs))输出:{'U123':2}```2.SparkSQL代码示例:```pythonfrompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcurrent_timestamp,col,count,countDistinct,descspark=SparkSession.builder.appName("UserPurchaseAnalysis").getOrCreate()假设当前时间为2025-01-0100:00:00(实际需动态获取)current_time=1735698000示例时间戳(可替换为unix_timestamp())thirty_days_ago=current_time308640030天前的时间戳读取Hive表并筛选最近30天数据user_behavior_df=spark.table("user_behavior")filtered_df=user_behavior_df.filter((col("timestamp")>=thirty_days_ago)&(col("behavior_type")=="buy"))统计购买次数与不同商品数量result_df=filtered_df.groupBy("user_id")\.agg(count("").alias("purchase_count"),countDistinct("item_id").alias("distinct_item_count"))\.orderBy(desc("purchase_count"))\.limit(100)result_df.show()```五、综合分析题技术架构设计:1.数据采集层:车辆实时数据:通过车载T-BOX设备,使用MQTT协议(支持低带宽、高并发)上报至Kafka消息队列;采用TLS加密传输,设备端缓存未发送数据(如离线时存储本地,恢复后重传)。用户APP日志:APP集成埋点SDK(如友盟),通过HTTPPOST发送至Nginx负载均衡器,转发至Kafka;SDK支持本地DB缓存,网络恢复后批量上报(断点续传)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年度宁国市事业单位统一公开招聘工作人员16名参考考试题库及答案解析
- 2026年江西生物科技职业学院高职单招职业适应性测试备考试题及答案详细解析
- 2026年贵州食品工程职业学院单招综合素质考试备考试题含详细答案解析
- 2026年武汉城市职业学院单招综合素质考试参考题库含详细答案解析
- 2026年河南检察职业学院单招综合素质笔试备考题库含详细答案解析
- 2026年江苏商贸职业学院单招职业技能考试备考题库含详细答案解析
- 2026年云南现代职业技术学院单招职业技能考试模拟试题含详细答案解析
- 2026年广西自然资源职业技术学院单招职业技能考试备考试题含详细答案解析
- 2026年枣庄科技职业学院单招综合素质笔试备考题库含详细答案解析
- 2026年湖南汽车工程职业学院单招职业技能考试备考试题含详细答案解析
- 妇科医师年终总结和新年计划
- 2026海南安保控股有限责任公司招聘11人笔试模拟试题及答案解析
- 装饰装修工程施工组织设计方案(二)
- 2026上海碧海金沙投资发展有限公司社会招聘参考题库必考题
- 保险业客户服务手册(标准版)
- 检验科内控制度
- DB44-T 2771-2025 全域土地综合整治技术导则
- 智能水务管理基础知识单选题100道及答案
- 《职业院校与本科高校对口贯通分段培养协议书》
- 危岩带治理工程初步设计计算书
- 精神病学考试重点第七版
评论
0/150
提交评论