版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年江苏省职业院校技能大赛中职组(大数据应用与服务)题库(适配赛制:理论测试+实操+展示;核心覆盖Hadoop/Spark/Flink、MySQL、Python、数据可视化)一、单项选择题(100题,精选核心)大数据的“3V”特征不包括()
A.Volume(海量)B.Velocity(高速)C.Variety(多样)D.Visibility(可视)
答案:DHadoop的核心组件是()
A.SparkB.HDFSC.HiveD.Kafka
答案:B以下属于NoSQL数据库的是()
A.MySQLB.OracleC.MongoDBD.SQLServer
答案:C用于实时数据流处理的工具是()
A.MapReduceB.KafkaC.HiveD.HBase
答案:BSpark默认的存储级别是()
A.MEMORY_ONLYB.MEMORY_AND_DISKC.DISK_ONLYD.REPLICATED
答案:AHadoop集群中,负责存储数据的节点是()
A.NameNodeB.DataNodeC.ResourceManagerD.NodeManager
答案:BFlink的核心是()
A.批处理B.流处理C.离线计算D.数据存储
答案:B以下工具中用于数据可视化的是()
A.TensorFlowB.TableauC.PyTorchD.Scikit-learn
答案:BHive中用于分组的关键字是()
A.GROUPBYB.ORDERBYC.SORTBYD.DISTINCT
答案:AKafka的消息存储形式是()
A.键值对B.日志文件C.数据库表D.内存缓存
答案:B(后续90题覆盖:Linux命令、MySQL优化、Python数据处理、SparkSQL、FlinkCDC、HBase、Flume、Sqoop、Docker、数据清洗/标注/建模等,答案略)二、多项选择题(50题,高频考点)Hadoop生态圈核心组件包括()
A.HDFSB.YARNC.SparkD.Kafka
答案:ABCD以下属于数据预处理步骤的有()
A.数据清洗B.数据集成C.数据转换D.数据脱敏
答案:ABCDFlink的状态管理包括()
A.KeyedStateB.OperatorStateC.CheckpointD.Savepoint
答案:ABCD以下可用于数据采集的工具是()
A.FlumeB.KafkaC.SqoopD.Hive
答案:ABCHive的存储格式支持()
A.TextFileB.SequenceFileC.ORCD.Parquet
答案:ABCD(后续35题覆盖:Spark架构、Flink窗口函数、MySQL索引、PythonPandas、数据安全、赛项实操要点等,答案略)三、判断题(30题,易错点)Hadoop只能运行在Linux系统上。()
答案:错误(支持Windows)Spark是基于内存计算的大数据框架。()
答案:正确Kafka只能处理实时数据,不能处理离线数据。()
答案:错误Hive是关系型数据库,可直接存储数据。()
答案:错误(数据仓库,依赖HDFS)数据标注是机器学习模型训练的基础。()
答案:正确(后续20题覆盖:集群运维、组件兼容性、实操规范等,答案略)四、实操题(7大题,赛项同源)实操1:大数据平台搭建(20分)任务:在Linux虚拟机部署Hadoop(HDFS+YARN)+Spark集群,完成以下操作:配置主机名与IP映射,关闭防火墙与SELinux;部署Hadoop3.3.6,启动HDFS(NameNode+DataNode)与YARN;部署Spark3.5.0,配置Spark-On-YARN,启动Spark集群;验证:HDFS创建目录/test,Spark运行Pi计算案例,截图保存结果。答案要点:配置/etc/hosts,systemctlstopfirewalld,setenforce0;Hadoop核心配置:core-site.xml(fs.defaultFS)、hdfs-site.xml(replication)、yarn-site.xml(resourcemanager);Spark配置:spark-env.sh(YARN_CONF_DIR),start-all.sh启动集群;验证命令:hdfsdfs-mkdir/test,spark-submit--classorg.apache.spark.examples.SparkPi/opt/spark/examples/jars/spark-examples*.jar10。实操2:MySQL数据库运维(15分)任务:MySQL8.0环境,完成电商订单表(orders)设计与数据操作:建库ecommerce,建表orders(字段:order_idINT(主键)、user_idINT、order_timeDATETIME、amountDECIMAL(10,2)、statusTINYINT);插入10条测试数据,查询2025年1月订单总金额;为user_id创建普通索引,导出表数据为CSV文件到/data/orders.csv。答案要点:sql
CREATEDATABASEIFNOTEXISTSecommerce;
USEecommerce;
CREATETABLEorders(
order_idINTPRIMARYKEYAUTO_INCREMENT,
user_idINT,
order_timeDATETIME,
amountDECIMAL(10,2),
statusTINYINT
);
INSERTINTOorders(user_id,order_time,amount,status)VALUES
(1,'2025-01-0510:00:00',99.9,1),
(2,'2025-01-1014:30:00',199.9,1);
SELECTSUM(amount)FROMordersWHEREDATE(order_time)BETWEEN'2025-01-01'AND'2025-01-31';
CREATEINDEXidx_user_idONorders(user_id);
SELECT*FROMordersINTOOUTFILE'/data/orders.csv'FIELDSTERMINATEDBY','ENCLOSEDBY'"';实操3:数据采集与清洗(15分)任务:用Flume采集本地日志文件/logs/access.log,清洗后存入HDFS/flume/logs:配置FlumeAgent(source:exec、channel:memory、sink:hdfs);清洗规则:过滤空行、去除特殊符号(#/@)、提取IP与访问时间;启动Flume,验证HDFS数据,用SparkSQL查询访问次数最多的IP。答案要点:Flume配置文件flume.conf:PlainText
agent1.source=r1
agent1.channel=c1
agent1.sink=k1
agent1.source.r1.type=exec
mand=tail-F/logs/access.log
agent1.channel.c1.type=memory
agent1.sink.k1.type=hdfs
agent1.sink.k1.hdfs.path=/flume/logs
agent1.sink.k1.hdfs.fileType=DataStream清洗:SparkSQL正则提取ip与time,过滤无效数据;验证:hdfsdfs-cat/flume/logs/*,SELECTip,COUNT(*)AScntFROMlogsGROUPBYipORDERBYcntDESCLIMIT1。实操4:SparkSQL数据分析(15分)任务:HDFS上用户行为数据/behavior/user_behavior.csv(字段:user_id、item_id、behavior、ts),完成:创建Hive外部表user_behavior,关联HDFS数据;统计:每日各行为(点击/收藏/加购/购买)次数、购买用户的平均购买商品数;用SparkSQL将结果写入Hive表behavior_stat。答案要点:sql
CREATEEXTERNALTABLEuser_behavior(
user_idSTRING,
item_idSTRING,
behaviorSTRING,
tsBIGINT
)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/behavior/user_behavior.csv';
--每日行为统计
SELECTFROM_UNIXTIME(ts,'yyyy-MM-dd')ASdt,behavior,COUNT(*)AScnt
FROMuser_behavior
GROUPBYdt,behavior;
--平均购买商品数
SELECTAVG(buy_cnt)FROM(
SELECTuser_id,COUNT(*)ASbuy_cnt
FROMuser_behavior
WHEREbehavior='buy'
GROUPBYuser_id
);实操5:Python数据可视化(15分)任务:用Python(Pandas+Matplotlib)分析酒店数据hotel.csv,完成:数据加载:读取CSV文件,处理缺失值(均值填充评分);统计:各城市酒店平均评分、热门酒店(评价数>100)占比;可视化:绘制横向柱状图(城市平均评分)、饼图(热门/普通酒店占比),保存图片到/visual。答案要点:python
importpandasaspd
importmatplotlib.pyplotasplt
#加载数据
df=pd.read_csv('hotel.csv')
df['score'].fillna(df['score'].mean(),inplace=True)
#统计
city_score=df.groupby('city')['score'].mean().sort_values(ascending=False)
hot_hotel=df[df['comment_num']>100].shape[0]/df.shape[0]
#可视化
plt.figure(figsize=(10,6))
city_score.plot(kind='barh',color='skyblue')
plt.title('各城市酒店平均评分')
plt.savefig('/visual/city_score.png')
plt.figure(figsize=(8,8))
plt.pie([hot_hotel,1-hot_hotel],labels=['热门','普通'],autopct='%1.1f%%')
plt.title('酒店类型占比')
plt.savefig('/visual/hotel_type.png')实操6:Flink实时计算(10分)任务:用Flink消费Kafka主题order_topic的订单数据,实时统计每分钟订单金额:配置Flink-Kafka连接,定义订单数据JSON格式;窗口计算:滚动窗口(1分钟),聚合订单金额;结果输出:打印到控制台,同时写入MySQL表real_time_order_stat。答案要点:依赖:FlinkKafkaConnector、JSONFormat、JDBCConnector;核心代码:java
DataStream<Order>orderStream=env.addSource(newKafkaSource<>())
.map(json->JSON.parseObject(json,Order.class));
orderStream.keyBy(Order::getOrderId)
.window(TumblingEventTimeWindows.of(Time.minutes(1)))
.aggregate(newOrderAmountAgg())
.addSink(newMySQLSink<>());实操7:大数据业务方案设计(10分)任务:设计“校园消费数据分析平台”方案,包含:业务目标:分析学生消费习惯,优化校园商户运营;技术架构:数据采集(校园卡系统/支付日志)、存储(MySQL/HDFS)、计算(Spark/Flink)、可视化(Tableau);核心功能:消费趋势统计、商户热度排名、学生消费画像;实施步骤:环境部署→数据对接→模型开发→可视化开发→测试上线。答案要点:按“目标-架构-功能-步骤”四部分撰写,技术选型贴合中职赛项栈,突出实用性。五、案例分析题(2题,赛项展示同源)案例1:智慧养老数据分析(2024省赛真题改编)背景:某养老平台有老人基本信息、健康监测、服务消费数据,需搭建分析平台。
问题:数据来源有哪些?如何保证数据质量?技术架构如何设计?(采集/存储/计算/可视化)可分析哪些核心指标?(健康/服务/消费)答案要点:数据来源:智能设备(手环/血压仪
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年护理课件制作价格
- 2026年劳动合同改劳务派遣合同(1篇)
- 2026年口腔镶牙合同(1篇)
- 糖尿病心理护理与情绪管理
- 炎性肠病的饮食调理与营养支持
- 洋地黄治疗过程中的剂量调整
- 2026年夜总会收银系统更新合同协议
- 精神科患者康复护理
- 2026年借款合同跟抵押合同(1篇)
- 用图象表示变量之间的关系课件2025-2026学年北师大版七年级数学下册
- 厨房劳务承揽合同范本
- 上海会展展览行业劳动合同模板
- 下基层调研工作制度
- JJG 621-2012 液压千斤顶行业标准
- T-GDWCA 0035-2018 HDMI 连接线标准规范
- 小升初语文文言文阅读历年真题50题(含答案解析)
- 头晕教学讲解课件
- 电气化铁路有关人员电气安全规则2023年新版
- GB/T 23853-2022卤水碳酸锂
- GB/T 16823.3-2010紧固件扭矩-夹紧力试验
- FZ/T 74001-2020纺织品针织运动护具
评论
0/150
提交评论