《大数据分析技术应用》课件-项目四 数据统计分析_第1页
《大数据分析技术应用》课件-项目四 数据统计分析_第2页
《大数据分析技术应用》课件-项目四 数据统计分析_第3页
《大数据分析技术应用》课件-项目四 数据统计分析_第4页
《大数据分析技术应用》课件-项目四 数据统计分析_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目背景|项目概述|学习目标|任务实施步骤新能源1.汽车登记数据统计分析【大数据分析技术】01101111011010111101010000101101010100111101背景先导项目概述项目学习目标任务实施步骤01Background02BriefIntroduction03LearningObjectives04ImplementationSteps主要内容新能源汽车(NewEnergyVehicles)随着全球气候变化问题日益严峻,减少碳排放、推动绿色发展已成为国际社会的共识。新能源汽车以其零尾气排放、低噪音等优势,成为实现环保目标的重要手段。2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021—2035年)》,要求深入实施发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展,加快建设汽车强国。新能源汽车01101111011010111101011110010010010110101010010011110100101100101110110101101001111012023年统计数据根据温州市汽车流通行业协会的统计数据,在2023年,新能源汽车上牌量达到9.42万辆,占新注册登记汽车数量的45.58%。中国新能源汽车现状项目三维目标掌握数据分析与挖掘的基本流程;

(阿里云大数据分析与应用中级1.2.1)了解数据获取的主要途径及读取方法;掌握聚合分析的基本原理和主要方法;

(阿里云大数据分析与应用中级2.1.1)掌握常见可视化图表中柱状图、散点图的画法。知识目标能力目标素质目标证证项目三维目标熟练使用Python集成开发工具,如PyCharm、Anaconda等;会使用Pandas读取CSV等不同类型的本地文件;会使用Pandas对数值数据进行描述性统计分析;

(阿里云大数据分析与应用中级2.1.1)

(《大数据应用开发(Python)职业技能等级标准》初级3.2.1)、(大数据技术工程人员国家职业标准初级5.2.1)会使用Matplotlib可视化展现数据,能对坐标轴、标题、颜色等属性进行设置。知识目标能力目标素质目标岗证011011110110101111010111100100001011010101001111101项目三维目标强化懂流程、会操作、善分析的劳动意识;在庞杂、散碎的信息中确保数据真实、可靠的重要性,强化大数据行业价值观;通过对新能源汽车数据的分析,激发学生对新能源汽车技术和环保事业的兴趣和热情;培养学生的关注环境保护、倡导绿色出行的意识。能力目标素质目标知识目标011011110110101111010111100100001011010101001111101项目总体要求唯一编码月份新能源汽车登记数年份月份120110612011622012021201223201203172012342012112201211520121210201212新能源汽车登记数据统计分析温州市数据开放平台提供的“温州市新能源汽车每月增长量信息”数据,成为洞察新能源汽车在温州市发展状况的宝贵窗口。本项目以这些数据为基础,借助Pandas数据分析工具,对新能源汽车登记数进行描述性统计分析。通过数据的清洗、整理、统计指标的计算和可视化图表的绘制,我们将探索新能源汽车在温州市的登记数量、增长速度、季节性变化等关键指标,揭示其市场现状与发展潜力。登记数据统计分析流程数据获取数据解析数据分析结果呈现明确目标揭示新能源汽车在温州市的登记数量、增长趋势等关键指标,为相关决策和优化资源配置提供精准的数据支持登记数据统计分析流程数据获取数据解析数据分析结果呈现明确目标从本地文件xny.csv中读取新能源汽车原始数据。登记数据统计分析流程数据获取数据解析数据分析结果呈现明确目标主要是对获取的登记数据进行详细解析,包括清洗和筛选等,以确保数据质量和准确性1.从数据集中剔除那些包含空值或缺失值的“脏数据”项,以确保后续分析的准确性和可靠性;2.从清洗后的数据集中,精确筛选出满足特定条件的记录,以供进一步分析使用登记数据统计分析流程数据获取数据解析数据分析结果呈现明确目标对登记数据进行描述统计分析1.统计近十年来新能源汽车的月平均登记数量,以此来观察新能源汽车市场的增长趋势和波动情况;2.按年份进行分组,统计每五年的月平均登记数登记数据统计分析流程数据获取数据解析数据分析结果呈现明确目标通过图表清晰地展示近十年来温州新能源汽车的月平均新增登记数量绘制温州新能源汽车新增登记总数的年度变化将数据按季度划分,以揭示每个季度的增长规律和特点。还在等什么?马上动手实施新能源汽车登记数据统计分析项目吧~1.新能源汽车2.汽车登记数据分析流程:小结课程负责人:陈清华任务1数据获取任务实施【大数据分析技术】课程新能源汽车登记数据统计分析主要内容任务说明引导问题任务解决方案代码解析从本地文件中获取登记数据xny.csv教学难点任务工单本任务需要导入Pandas库,并使用其read_csv()函数来加载CSV文件。这个函数能够智能地处理CSV文件中的分隔符、标题行和数据类型等问题,使得数据导入过程变得简单高效。任务概述

任务描述:从本地文件(xny.csv)中读取汽车登记原始数据。010010011001101010100100110110100101110101000100001011011101001010101101010011010010数据源xny.csv显示结果

任务要求任务概述(1)数据分析的主要数据来源有哪些?如何从本地文件中读取数据?(2)Pandas包中的read_csv()能读取什么类型的文件?如何读取?(3)read_csv()的关键参数有哪些?哪些是必选的?如何指定路径和分隔符?(4)中文字符无法读取的原因主要有哪些?如何解决?(5)拓展思考一:如何读取Excel、txt等不同类型的文件?(6)拓展思考二:当CSV文件中存在大量数据时,该如何分步读取?”

问题引导:任务概述任务解决方案

一、数据读取第1行:本文件用utf-8编码,utf-8编码支持多种文字,包括中文。第2行:导入pandas包,并给出别名pd。第3行:从xny.csv文件中读取数据,数据分隔符为逗号,encoding给出编码。#coding:utf-8importpandas

aspdxny=pd.read_csv(xny.csv',delimiter=',',encoding='gbk'

)

xny.head()第4行:打印出前面几条数据,如果在pycharm中可使用print。#coding:utf-8import…as…pd.read_csv()?任务解决方案read_cvs()任务解决方案

一、统计描述describe()小结1.如何使用Pandas中的read_csv()函数读取数据?2.

Pandas包中的read_csv()能读取什么类型的文件?3.

read_csv()的返回类型是什么?要点掌握Pandas库两大数据类型CSV文件读取课程负责人:陈清华任务2登记数据解析任务实施【大数据分析技术】课程新能源汽车登记数据统计分析主要内容任务说明引导问题任务解决方案代码解析对登记数据进行解析xny.csv教学难点任务工单对获取的登记数据进行详细解析,包括清洗和筛选等,以确保数据质量和准确性。任务概述

任务描述:基于前续任务获得的数据进行数据解析。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原数据:114条清洗后数据:113条

任务要求任务概述筛选后数据:(1)数据解析的主要步骤有哪些?如何发现脏数据?(2)Pandas包哪些函数可以用来发现空值和处理空值?读取的数据中NaN表示什么?(3)对缺失值有哪几种处理方式?(4)Pandas包中的dropna()有哪些参数?如何根据业务需求进行设置?(5)如何对DataFrame数据进行筛选?”

问题引导:任务概述任务解决方案

一、缺失值检测与处理isnull()任务解决方案

一、缺失值检测与处理dropna()任务解决方案

一、缺失值检测与处理describe()任务解决方案

二、数据筛选datetime.now()近10年的新能源汽车登记数据任务解决方案

二、数据筛选count()新能源汽车登记超过100辆的月份计数任务解决方案

二、数据筛选多条件任务解决方案

(2)统计描述小结1.如何使用Pandas中的isnull()函数检测缺失值?2.

dropna()主要用来做什么?3.

如何进行条件筛选?什么是布尔索引?要点掌握缺失值检测缺失值处理条件筛选课程负责人:陈清华任务3登记数据统计任务实施【大数据分析技术】课程新能源汽车登记数据统计分析主要内容任务说明引导问题任务解决方案代码解析对登记数据进行描述统计分析xny.csv教学难点任务工单通过对已处理的新能源汽车登记数据进行描述性统计分析,探究新能源汽车市场的增长趋势和波动情况。任务概述

任务描述:基于清洗后数据,对数据做描述统计分析。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原数据:113条描述统计分析结果:

任务要求任务概述(1)什么是描述性统计分析?具体有哪些指标?(2)描述性统计分析主要有哪些方法?(2)Pandas支持的聚合函数有哪些?主要功能分别是什么?(3)分组统计函数groupby()的主要参数有哪些?该如何设置?”

问题引导:任务概述任务解决方案

一、近十年的新能源汽车月平均登记数groupby()任务解决方案

二、按年份统计每五年的月平均数cut()小结1.如何使用Pandas中的groupby()函数进行分组统计?2.Pandas中有哪些聚合函数?3.cut()主要用来做什么?要点掌握分组函数groupby()聚合函数mean()区间统计函数cut()课程负责人:陈清华任务4数据可视化任务实施【大数据分析技术】课程新能源汽车登记数据统计分析主要内容任务说明引导问题任务解决方案代码解析对登记数据进行可视化展现xny.csv教学难点任务工单利用Matplotlib可视化温州市新能源汽车的新增登记数据,包括近十年的月平均新增数、年度总数变化,以及近三年的季度增长情况。任务概述

任务描述:利用Matplotlib工具,对温州市的新能源汽车新增登记数据进行形象化的可视化展现。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原数据:113条可视化结果:113条

任务要求任务概述(1)如果要做对比分析,用什么类型的图表?(2)如何利用matplotlib折线图揭示温州新能源汽车新增登记总数在不同年份间的变化和可能的增长模式?(3)如何依据月份获取季度信息?如何通过分组柱状图展现季节间的登记数据变化情况?(4)如何美化Matplotlib绘制的图形?该如何相应的参数?”

问题引导:任务概述任务解决方案

一、图形化显示10年的月平均登记数plot()任务解决方案

一、图形化显示10年的月平均登记数text()任务解决方案

二、图形化显示按年份登记总数变化情况scatter()任务解决方案

三、图形化显示近五年的分季度登记总数groupby()按季统计任务解决方案

三、图形化显示近五年的分季度登记总数bar()小结1.如何使用Matplotlib绘制折线图、散点图、柱状图?2.

如何修改、添加图表元素?3.

如何绘制中文?要点掌握折线图散点图柱状图数据标签总结数据获取数据解析数据分析结果呈现明确目标项目背景|项目概述|学习目标|任务实施步骤拓展实训2.观影数据分析【大数据分析技术】01101111011010111101010000101101010100111101

熟练使用read_csv()从本地CSV文件读取数据;

熟练使用Pandas对数据进行分组聚合分析;熟练使用Matplotlib工具包展现数据分析结果。技能学习目标项目总体要求原始数据一、数据获取#coding:utf-8importpandas

aspd

film=pd.read_csv('film.csv',delimiter=',',names=['date','filmname’,

'BOR'])

film.head()#coding:utf-8import…as…pd.read_csv()第1行:本文件用utf-8编码,utf-8编码支持多种文字,包括中文。第2行:导入pandas包,并给出别名pd。第3行:从film.csv文件中读取数据,数据分隔符为逗号,names给出列名。第4行:打印出前面几条数据,如果在pycharm中可使用print。二、数据清洗film=film.dropna()

print(film)film.dropna()film.fillna(0)film.drop_duplicates()第1行:从film中剔除含NaN值的数据行,什么是NaN三、数据筛选film2=film[film.film=='老男孩’]

print(film2)film[‘date’]=pd.to_datetime(film[‘date’])

film3=film[(film[‘date’]>‘2010-5-15’)&(film[‘date’]<=‘2010-5-31’)]

print(film3)第1行:数据筛选,字符串相等。第1行:类型转换,强制转换成日期类型。第2行:数据筛选,且的关系与日期比较。四、数据统计film=film.groupby([‘film’],as_index=False)[‘BOR’].sum()

print(film)第1行:数据统计,分组与聚合,对谁分组?对谁聚合?多列分组怎么办?五、结果呈现importmatplotlib.pyplotasplt

plt.bar(film['film'],film['BOR’],

color='green',width=0.4)

plt.show()film=film.sort_values

(

by='BOR',ascending=False

)五、结果呈现importmatplotlib.pyplotasplt

plt.rcParams['font.sans-serif']=['SimHei']

plt.rcParams['axes.unicode_minus']=False

plt.title(u'影片2010-5后半月总票房')

plt.xlabel(u'电影名称')

plt.ylabel(u'票房收入\万元')

plt.bar(film['film'],film['BOR'],color='green',width=0.4)

plt.show()解决中文显示问题:指定默认字体解决负号'-'显示为方块的问题u:指定为unicode编码五、结果呈现plt.title(u'影片2010年5月后半月总票房')

plt.xlabel(u'电影名称')

plt.ylabel(u'票房收入\万元’)

plt.bar(film['film'],film['BOR'],width=0.35,facecolor='lightskyblue',edgecolor='black')

##为每个条形图添加数值标签

forx,yinzip(fil

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论