版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年联通创新人才认证(大数据)考试题库(附答案)一、单项选择题(每题2分,共40分)1.以下哪项不属于Hadoop生态系统的核心组件?A.HDFSB.YARNC.SparkD.MapReduce答案:C(Spark是独立的计算框架,虽常与Hadoop集成但非核心组件)2.关于HDFS的块大小,默认配置是?A.32MBB.64MBC.128MBD.256MB答案:C(HDFS默认块大小为128MB,设计目的是减少NameNode内存占用并优化大文件存储)3.以下哪种数据存储方式适合实时写入、随机读取的场景?A.HBaseB.HiveC.HDFSD.SparkSQL答案:A(HBase基于列存储,支持高并发随机读写,适合实时场景)4.Kafka中,消费者组(ConsumerGroup)的主要作用是?A.提高生产者发送速率B.实现消息的负载均衡与故障转移C.管理主题(Topic)的分区数D.限制消费者的消费速率答案:B(同一组内消费者通过分配不同分区实现并行消费,组内消费者故障时其他消费者自动接管)5.数据仓库(DataWarehouse)与数据库(Database)的核心区别是?A.数据仓库支持事务操作,数据库支持分析B.数据仓库面向主题,数据库面向业务C.数据仓库存储实时数据,数据库存储历史数据D.数据仓库使用关系模型,数据库使用非关系模型答案:B(数据仓库是面向主题的、集成的、非易失的、随时间变化的数据集合,用于支持管理决策;数据库面向日常业务操作)6.以下哪项是SparkRDD的特性?A.不可变、可分区、支持惰性计算B.可变、单分区、支持立即计算C.不可变、单分区、支持惰性计算D.可变、可分区、支持立即计算答案:A(RDD是弹性分布式数据集,创建后不可修改,可分区存储,转换操作(transform)是惰性的,行动操作(action)触发计算)7.在数据清洗中,处理缺失值的方法不包括?A.删除缺失值所在行B.用均值/中位数填充C.用回归模型预测填充D.直接保留缺失值用于分析答案:D(缺失值会影响分析结果准确性,需通过删除、填充或插值等方法处理)8.以下哪种算法属于监督学习?A.K-means聚类B.决策树分类C.关联规则挖掘(Apriori)D.主成分分析(PCA)答案:B(监督学习需要标签数据,决策树通过训练数据学习分类规则;其余选项为无监督学习)9.关于Flink的时间语义,事件时间(EventTime)指的是?A.数据进入Flink系统的时间B.数据在数据源生成的时间C.数据被处理完成的时间D.窗口触发计算的时间答案:B(事件时间是数据实际发生的时间,由数据中的时间戳字段定义,需结合水印(Watermark)处理延迟数据)10.Hive中,外部表(ExternalTable)与内部表(ManagedTable)的主要区别是?A.外部表数据存储在HDFS,内部表存储在本地B.删除外部表时不删除数据文件,删除内部表时会删除C.外部表支持分区,内部表不支持D.外部表使用ORC格式,内部表使用文本格式答案:B(内部表由Hive完全管理,删除表时数据和元数据均删除;外部表仅管理元数据,删除表时数据保留)11.以下哪项是数据湖(DataLake)的典型特征?A.存储结构化数据为主B.遵循严格的模式(Schema-on-Write)C.支持多类型数据(结构化、半结构化、非结构化)D.主要用于OLTP(在线事务处理)答案:C(数据湖存储原始的、多格式的数据,采用模式后验(Schema-on-Read),支持分析和机器学习)12.分布式计算中,数据本地化(DataLocality)的核心目标是?A.减少网络传输开销B.提高CPU利用率C.增加存储容量D.简化任务调度答案:A(计算移动到数据所在节点,避免大规模数据传输,提升计算效率)13.关于Kafka的分区(Partition),以下说法错误的是?A.分区数越多,消费者并行度越高B.分区数决定了主题的有序性(同一分区内消息有序)C.分区数可以动态增加或减少D.分区数过大会增加Broker的管理开销答案:C(Kafka支持动态增加分区,但减少分区会导致数据丢失,生产环境通常不建议减少)14.以下哪项是数据治理的核心目标?A.提高数据处理速度B.确保数据质量、一致性和可追溯性C.增加数据存储容量D.简化数据查询逻辑答案:B(数据治理涵盖数据质量、元数据管理、数据安全等,确保数据可靠可用)15.在用户画像分析中,“月均通话时长”属于哪种类型的标签?A.人口属性标签B.行为标签C.兴趣标签D.消费标签答案:B(行为标签反映用户具体行为数据,如通话、上网、消费频次等)16.以下哪种数据压缩格式支持切片(Splittable)?A.GzipB.Bzip2C.SnappyD.LZ4答案:B(Bzip2支持切片,可并行处理大文件;Gzip不支持切片,Snappy和LZ4虽压缩率低但通常也不支持切片)17.关于分布式数据库TiDB的特性,以下描述错误的是?A.支持ACID事务B.存储与计算分离架构C.仅支持关系型数据模型D.自动水平扩展答案:C(TiDB支持SQL接口,兼容MySQL协议,属于关系型数据库,但通过扩展可支持半结构化数据)18.在Spark中,使用join操作时,为避免Shuffle开销,可采用哪种优化方法?A.广播变量(BroadcastVariable)B.累加器(Accumulator)C.持久化(Persist)D.分区器(Partitioner)答案:A(将小表广播到所有Executor,大表直接读取,避免Shuffle)19.以下哪项是实时计算的典型应用场景?A.月度销售报表生成B.实时风控(如交易欺诈检测)C.历史用户行为分析D.年度数据归档答案:B(实时计算要求低延迟,用于需要即时响应的场景,如风控、实时推荐)20.关于HBase的RowKey设计原则,以下说法错误的是?A.RowKey应尽可能短,减少存储开销B.避免RowKey顺序写入(如时间戳递增),防止热点问题C.RowKey可以重复,HBase会自动去重D.应根据查询模式设计RowKey,优化查询效率答案:C(HBase中RowKey是唯一的,重复写入会覆盖旧数据)二、判断题(每题1分,共10分,正确填√,错误填×)1.HDFS的NameNode负责存储文件数据块的元信息,包括块位置、副本数等。(√)(解析:NameNode管理文件系统元数据,DataNode存储实际数据块)2.MapReduce的Shuffle阶段包括分区(Partition)、排序(Sort)和合并(Combine)操作。(√)(解析:Shuffle是Map到Reduce的中间阶段,涉及数据分区、排序、网络传输和合并)3.数据仓库的ETL流程中,转换(Transform)环节仅包括数据清洗,不涉及业务规则处理。(×)(解析:转换包括清洗(去重、填充缺失值)、业务规则处理(如计算KPI)、格式转换等)4.Kafka的消息一旦被消费者消费,就会从Broker中删除。(×)(解析:Kafka通过保留策略(如按时间或大小)删除消息,与是否被消费无关)5.Spark的RDD持久化(Persist)默认存储级别是MEMORY_AND_DISK。(×)(解析:默认存储级别是MEMORY_ONLY,内存不足时丢弃数据,重新计算)6.数据湖适合存储原始数据,数据仓库适合存储经过清洗、整合的结构化数据。(√)(解析:数据湖存储多格式原始数据,数据仓库存储结构化的、面向主题的整合数据)7.关联规则挖掘(如Apriori算法)的目标是发现数据中频繁出现的模式,如“买A的用户通常买B”。(√)(解析:关联规则通过支持度、置信度等指标挖掘项集间的关联关系)8.Flink的窗口(Window)只能基于时间(Time-based)划分,不能基于事件数量(Count-based)。(×)(解析:Flink支持时间窗口(如滚动窗口、滑动窗口)和计数窗口(如每100条数据触发计算))9.Hive的分区(Partition)和分桶(Bucket)都是为了优化查询效率,分区适合大范围过滤,分桶适合精确查询。(√)(解析:分区按字段值划分目录,分桶按哈希值划分文件,分桶可支持抽样和JOIN优化)10.客户流失预测模型中,准确率(Accuracy)是唯一需要关注的评估指标。(×)(解析:需综合考虑精确率(Precision)、召回率(Recall)、F1分数等,尤其在样本不平衡时)三、简答题(每题8分,共40分)1.简述HBase的存储模型(RowKey、列族、时间戳的作用)。答案:HBase是基于列族的分布式存储系统,存储模型包括:-RowKey:行的唯一标识,按字典序排序存储,决定数据分布和查询效率。-列族(ColumnFamily):数据的逻辑分组,所有列族在表创建时定义,同一列族的数据存储在一起(HFile),设计时需考虑访问模式(如将经常查询的列放在同一列族)。-时间戳(Timestamp):每个单元格(Cell)的版本标识,默认由HBase自动生成(写入时间),支持多版本数据保留(通过设置TTL或版本数)。2.说明Kafka如何保证消息的可靠传输(生产者、Broker、消费者端的机制)。答案:-生产者端:通过ACK机制(acks=0/1/all)控制确认方式。acks=all时,消息需被所有ISR(In-SyncReplicas)副本确认,确保不丢失。-Broker端:通过副本机制(Replication),主题的每个分区有多个副本(leader和followers),ISR集合中的副本保持同步,leader故障时从ISR中选举新leader。-消费者端:通过偏移量(Offset)管理,消费者提交已消费的Offset到Broker,故障恢复时从上次提交的Offset继续消费。支持手动提交(mit=false)确保精确消费。3.数据清洗的常见步骤和方法有哪些?请举例说明。答案:步骤:(1)缺失值处理:删除(如某列缺失率>80%)、填充(数值型用均值/中位数,分类型用众数;或用回归模型预测填充)。例如,用户年龄缺失时,用同职业、同地区用户的平均年龄填充。(2)异常值处理:通过箱线图(IQR)或Z-score检测,修正(如替换为上下限)或删除(如明显错误的极端值)。例如,用户月消费金额为-100元,修正为0或检查是否为输入错误。(3)重复值处理:删除完全重复的记录(如两条用户ID、姓名、手机号完全相同的记录)。(4)格式标准化:统一日期格式(如“2023/10/1”转为“2023-10-01”)、数值单位(如“500MB”转为“0.5GB”)。(5)不一致性处理:修正分类错误(如“移动用户”和“Mob用户”统一为“移动用户”)。4.对比SparkRDD和DataFrame的区别(至少4点)。答案:(1)数据抽象:RDD是通用的分布式数据集,无结构信息;DataFrame是带Schema的RDD,类似关系型数据库的表,包含列名和数据类型。(2)性能优化:DataFrame基于Catalyst优化器,可进行执行计划优化(如谓词下推、列剪枝),比RDD更高效。(3)编程接口:RDD使用函数式编程(map、filter);DataFrame支持SQL和类SQL的DSL(select、where),更易理解。(4)内存占用:DataFrame通过列式存储(如编码)减少内存占用,RDD存储对象实例,内存消耗大。(5)序列化:DataFrame使用Tungsten序列化,比RDD的Java序列化更高效。5.设计一个用户行为分析的数据处理流程(从数据采集到指标输出),需包含关键技术组件。答案:流程及技术组件:(1)数据采集:通过Flume或KafkaConnect采集用户行为日志(如点击、浏览、下单),移动端通过SDK埋点,Web端通过JavaScript脚本采集,实时写入Kafka主题(Topic)。(2)实时清洗:使用Flink或SparkStreaming消费Kafka数据,过滤无效请求(如404错误)、补充用户信息(通过广播变量关联用户表)、转换时间格式,清洗后的数据写入Kafka另一主题或HBase(实时查询)。(3)离线存储:每日将Kafka日志数据导入HDFS,通过Hive分区表存储(分区字段为dt=日期),或使用Hudi支持增量更新。(4)指标计算:-实时指标(如实时UV、每分钟订单量):Flink窗口(滑动窗口或会话窗口)计算,结果写入Redis(缓存)或ClickHouse(实时分析数据库)。-离线指标(如日活DAU、转化率):HiveSQL或SparkSQL处理HDFS/Hudi数据,计算后写入数据仓库(如MaxCompute)或MySQL(业务系统使用)。(5)可视化输出:通过Superset、Tableau或自研BI系统,从ClickHouse/MaxCompute读取指标数据,展示用户行为趋势、热点页面、转化漏斗等。四、案例分析题(每题15分,共30分)案例1:某通信运营商需构建用户流失预测模型,已知可用数据包括用户基本信息(性别、年龄、套餐类型)、行为数据(月通话时长、流量使用量、缴费记录)、历史流失标签(是/否)。问题:(1)请设计数据预处理步骤(包括特征工程)。(2)选择合适的机器学习算法并说明理由。(3)如何评估模型效果?需关注哪些指标?答案:(1)数据预处理步骤:-缺失值处理:用户年龄缺失时,用同套餐类型用户的平均年龄填充;缴费记录缺失可能为未缴费,标记为0或单独类别。-异常值处理:月通话时长为负数时修正为0;流量使用量超过套餐上限10倍时,检查是否为异常(如系统错误)并删除或修正。-特征工程:-衍生特征:计算流量使用率(月使用流量/套餐流量)、缴费稳定性(最近3个月缴费是否连续)、ARPU(平均每月收入)。-分箱处理:将年龄分为“18岁以下”“18-30”“30-50”“50岁以上”等区间;将通话时长分为“低”“中”“高”等级。-类别特征编码:套餐类型(分类变量)使用独热编码(One-HotEncoding)或目标编码(TargetEncoding,根据流失率编码)。-标准化/归一化:对数值型特征(如通话时长、流量)进行Z-score标准化,消除量纲影响。(2)算法选择:推荐使用XGBoost或LightGBM。理由:-处理结构化数据效果好,支持自动处理缺失值(通过稀疏感知分割)。-内置正则化(L1/L2)防止过拟合,适合样本量较大的场景(通信用户数据通常百万级)。-可输出特征重要性(FeatureImportance),帮助业务理解哪些因素(如流量使用率、缴费稳定性)影响流失。(3)模型评估:-划分数据集:按7:2:1分为训练集、验证集、测试集,确保标签分布一致(流失用户通常是少数,需处理样本不平衡)。-评估指标:-召回率(Recall):关注模型能识别多少真实流失用户(流失用户被正确预测的比例),因为运营商更希望减少漏判(漏判的流失用户无法挽回)。-精确率(Precision):预测为流失的用户中实际流失的比例,避免过度营销(对非流失用户误判会浪费成本)。-F1分数:综合精确率和召回率的调和平均,平衡两者。-AUC-ROC:衡量模型对正例和负例的区分能力,值越高(接近1)模型越好。-业务指标:如成本收益分析,计算模型带来的挽回用户数与营销成本的比值,评估实际效果。案例2:某联通省分公司需优化4G网络覆盖,需分析用户投诉的“信号弱”问题。已知数据包括:用户投诉日志(时间、位置、投诉类型)、基站日志(基站ID、经纬度、覆盖范围、负载率)、用户位置信令数据(用户手机定位的经纬度,每15分钟一条)。问题:(1)如何整合多源数据,定位信号弱的热点区域?(2)设计关键分析指标(至少5个)。(3)提出优化建议(基于分析结果)。答案:(1)数据整合与热点定位步骤
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit 5 课时2 Reading1(课件)英语新教材译林版八年级下册
- l劳务外包合同
- 上班签外包合同
- 中海油签外包合同
- 京东劳务外包合同
- 2026年重庆七校联盟高考数学模拟预测试卷(含答案详解)
- 人月外包合同
- 伙房服务外包合同
- 儿童餐外包合同
- 养生技术外包合同
- 煤矿安检员业务培训课件
- 2026年中路财产保险股份有限公司招聘备考题库带答案详解
- 护理质量与安全培训效果评估
- 2025年信阳淮滨县司法局招聘合同制社区矫正社会工作者12名备考考试题库及答案解析
- 手术科室医疗质量提升措施汇报
- 三氧大自血液疗法
- 智能化建筑系统调试方案
- 检验科输血培训课件
- FABE话术应用指南
- (12)普通高中技术与工程课程标准日常修订版(2017年版2025年修订)
- 浙江省A9协作体2025-2026学年高二上学期开学联考语文试卷
评论
0/150
提交评论