(2025年)专科大数据竞赛题库及答案_第1页
(2025年)专科大数据竞赛题库及答案_第2页
(2025年)专科大数据竞赛题库及答案_第3页
(2025年)专科大数据竞赛题库及答案_第4页
(2025年)专科大数据竞赛题库及答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(2025年)专科大数据竞赛题库及答案一、单项选择题(每题2分,共20分)1.以下关于HDFS默认块大小的描述,正确的是()。A.32MBB.64MBC.128MBD.256MB答案:C2.在Spark中,以下属于行动(Action)操作的是()。A.map()B.filter()C.reduce()D.flatMap()答案:C3.数据清洗中处理缺失值的方法不包括()。A.直接删除含有缺失值的记录B.用变量均值填充缺失值C.用KNN算法预测缺失值D.保留缺失值用于后续建模答案:D4.SQL语句中,用于按指定字段分组统计的关键字是()。A.ORDERBYB.GROUPBYC.HAVINGD.WHERE答案:B5.以下Python库中,专门用于数据可视化的是()。A.NumPyB.PandasC.MatplotlibD.Scikit-learn答案:C6.关于Hadoop集群节点类型的描述,错误的是()。A.NameNode负责管理文件系统元数据B.DataNode负责存储数据块C.SecondaryNameNode是NameNode的热备份D.JobTracker(旧版)负责任务调度答案:C(注:SecondaryNameNode并非热备份,而是辅助NameNode合并编辑日志)7.若需从Pandas的DataFrame中提取前5行数据,应使用()。A.df.head(5)B.df.tail(5)C.df.iloc[5]D.df.loc[5]答案:A8.以下不属于SparkRDD特性的是()。A.不可变B.可分区C.自动持久化D.惰性计算答案:C(注:RDD需手动调用persist()或cache()进行持久化)9.数据仓库的核心特点是()。A.实时性高B.面向事务处理C.面向主题D.数据易变答案:C10.用Python进行相关分析时,计算两个变量Pearson相关系数的函数是()。A.df.corr()B.df.cov()C.df.describe()D.df.plot()答案:A二、填空题(每题2分,共20分)1.Hadoop的核心组件包括HDFS和____。答案:MapReduce2.Spark中,RDD的持久化级别默认是____。答案:MEMORY_ONLY(内存存储,不序列化)3.数据可视化中,用于展示时间序列数据的常用图表是____。答案:折线图4.SQL中,用于去除重复行的关键字是____。答案:DISTINCT5.数据清洗的主要步骤包括缺失值处理、____、数据转换和数据标准化。答案:异常值处理6.Python中,读取CSV文件到PandasDataFrame的函数是____。答案:pd.read_csv()7.HDFS中,文件被分割成块存储,块的元数据由____管理。答案:NameNode8.SparkRDD的两种创建方式是____和从其他RDD转换。答案:从外部存储系统加载(或“从集合中创建”)9.若需统计DataFrame中某列“年龄”的最大值,应使用____方法。答案:df['年龄'].max()10.大数据的4V特性包括Volume(大量)、Velocity(高速)、Variety(多样)和____。答案:Value(低价值密度)三、简答题(每题8分,共40分)1.简述HadoopMapReduce的工作流程。答案:MapReduce流程主要包括以下步骤:(1)输入分片:将输入数据划分为多个分片(Split),每个分片由一个Mapper处理;(2)Map阶段:每个Mapper对分片数据进行处理,输出键值对(Key-Value);(3)洗牌(Shuffle):将Mapper输出的键值对按Key分组,传输到对应的Reducer;(4)Reduce阶段:Reducer对相同Key的Value进行聚合计算,输出最终结果;(5)输出:将Reducer结果写入存储系统(如HDFS)。2.数据清洗中,如何识别和处理异常值?答案:识别异常值的常用方法:(1)统计方法:计算均值±3倍标准差,超出范围的值为异常;(2)可视化方法:箱线图中超过上下四分位数1.5倍IQR的点为异常;(3)模型方法:如聚类算法(DBSCAN)检测离群点。处理方法:(1)删除异常值(数据量充足时);(2)用均值、中位数或插值法填充;(3)保留异常值并标注(若为真实业务场景特殊值)。3.比较HDFS与本地文件系统的主要区别。答案:(1)设计目标:HDFS面向大数据存储,支持海量数据分布式存储;本地文件系统面向单机小文件存储。(2)数据块大小:HDFS默认块大小128MB(可配置),本地文件系统通常为4KB-64KB。(3)冗余机制:HDFS默认3副本冗余,本地文件系统无自动冗余。(4)写入方式:HDFS仅支持一次写入、多次读取,不支持随机修改;本地文件系统支持任意位置读写。(5)适用场景:HDFS适合离线大数据处理;本地文件系统适合实时小文件操作。4.解释SparkRDD的容错机制。答案:RDD通过“血统(Lineage)”机制实现容错。RDD记录了其依赖的父RDD和转换操作(如map、filter),当某分区数据丢失时,Spark可根据血统重新计算该分区,而无需存储所有中间数据。相比Hadoop的复制冗余,血统机制减少了存储开销,但需要保留足够的转换链信息。5.设计一个用Pandas处理电商订单数据的流程(假设数据包含“用户ID、订单时间、订单金额、商品类别”)。答案:处理流程如下:(1)数据加载:用pd.read_csv()读取CSV文件,指定日期列解析为datetime类型;(2)缺失值处理:检查各列缺失情况,若“订单金额”缺失,用同类商品均值填充;若“商品类别”缺失且占比小,直接删除;(3)异常值检测:用箱线图分析“订单金额”,删除超过均值±3σ的异常订单;(4)特征工程:从“订单时间”提取月份、星期等维度;计算用户复购率(同一用户订单数≥2的比例);(5)数据聚合:按“商品类别”分组,统计销售额、订单量,输出TOP5类别;(6)结果输出:将处理后的数据保存为新CSV,或可视化展示分析结论。四、编程题(每题10分,共20分)1.用Python的Pandas完成以下操作(数据文件:order_data.csv,字段:用户ID(user_id)、订单时间(order_time)、订单金额(amount)):(1)读取数据,将order_time列转换为datetime类型;(2)筛选2024年1月的订单;(3)计算该月订单金额的平均值和中位数;(4)按用户ID分组,统计每个用户的订单数量,输出前10名用户。答案:```pythonimportpandasaspd(1)读取数据并转换时间类型df=pd.read_csv('order_data.csv')df['order_time']=pd.to_datetime(df['order_time'])(2)筛选2024年1月订单df_jan=df[(df['order_time'].dt.year==2024)&(df['order_time'].dt.month==1)](3)计算平均值和中位数avg_amount=df_jan['amount'].mean()median_amount=df_jan['amount'].median()print(f"1月订单金额平均值:{avg_amount:.2f},中位数:{median_amount:.2f}")(4)统计用户订单数量并输出前10user_orders=df_jan.groupby('user_id')['order_time'].count().reset_index(name='订单数量')top10_users=user_orders.sort_values('订单数量',ascending=False).head(10)print("前10名用户订单数量:")print(top10_users)```2.用SparkRDD实现文本文件词频统计(文件路径:/user/text.txt),要求:(1)排除停用词(如“the”“and”“of”);(2)按词频降序输出前20个单词。答案:```pythonfrompysparkimportSparkContextsc=SparkContext("local","WordCount")读取文件并转换为RDDtext_rdd=sc.textFile("/user/text.txt")定义停用词集合stop_words={"the","and","of","a","to","in","is","it","you","that"}词频统计流程word_counts=text_rdd\.flatMap(lambdaline:line.lower().split())\分割单词并转小写.filter(lambdaword:wordnotinstop_words)\过滤停用词.map(lambdaword:(word,1))\转换为(单词,1).reduceByKey(lambdaa,b:a+b)\按词聚合计数.map(lambdax:(x[1],

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论