《大数据分析技术应用》课件-用餐数据统计分析_第1页
《大数据分析技术应用》课件-用餐数据统计分析_第2页
《大数据分析技术应用》课件-用餐数据统计分析_第3页
《大数据分析技术应用》课件-用餐数据统计分析_第4页
《大数据分析技术应用》课件-用餐数据统计分析_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目背景|项目概述|学习目标|任务实施步骤项目用餐数据统计分析【大数据分析技术】01101111011010111101010000101101010100111101背景先导项目概述项目学习目标任务实施步骤01Background02BriefIntroduction03LearningObjectives04ImplementationSteps主要内容数据要素“数据”被誉为“新时代的黄金”,与土地、劳动力、资本和技术一同构成了五大要素市场。《党和国家机构改革方案》,方案中明确提出了组建国家数据局的构想,其主要职责将是协调推进数据基础制度的建设,统筹管理数据资源的整合共享与开发利用,全面推进数字中国、数字经济和数字社会的规划与建设。大数据时代0110111101101011110101111001001001011010101001001111010010110010111011010110100111101新质生产力数据是形成新质生产力的优质生产要素。随着数字经济快速发展,数据已成为国家基础性战略资源和关键生产要素,并由此形成数字生产力。数据要素市场项目三维目标掌握数据转换和特征构造的基本概念及主要方法;

(大数据工程技术人员国家职业技术技能标准初级5.1)掌握缺失值、重复值与异常值检测与处理的常用方法;掌握异常值检测的基本方法及不同的处理方式;掌握常用的数据分析方法,包括分组分析、分布分析、交叉分析、结构分析、相关分析等;

(阿里云大数据分析与应用中级4.2.1)

(大数据技术工程人员国家职业标准初级5.2.2)掌握常见可视化图表中柱状图、散点图的画法。知识目标能力目标素质目标岗证岗项目三维目标会使用Pandas工具对数据进行操作,如数据集成、数据抽取等;

(《大数据应用开发(Python)职业技能等级标准》初级3.1.4)会使用Pandas工具进行数据转换,并构造特征;会使用Pandas工具对数据进行清洗,包括缺失值、重复值、异常值的检测与处理等;

(全国工业化和信息化大赛“工业大数据算法”赛项考点)

(《大数据应用开发(Python)职业技能等级标准》初级3.1)会熟练使用Pandas工具实现分组分析、分布分析、交叉分析、结构分析、相关分析。知识目标能力目标素质目标赛证011011110110101111010111100100001011010101001111101证项目三维目标熟悉数据分析师岗位工作任务,培养学生逐步养成勤奋自律的自学习惯和一定的数据思维;把控大数据时代政策前沿,提升数据驱动的大数据行业价值观;提升数据处理过程中的严谨、细致的工作态度与一丝不苟的科学精神;合法、合规地使用数据,培养大局意识以及遵纪守法、遵守社会公德的意识。能力目标素质目标知识目标011011110110101111010111100100001011010101001111101项目总体要求用餐数据统计分析

本项目将聚焦于数据要素市场,针对大数据工程技术人员的技能要求,对公开的用餐数据进行深入的数据处理、特征提取和数据分析,旨在熟练掌握数据预处理和常用数据分析方法,以更好地服务于数字经济的发展需求。用餐数据统计分析流程重复值处理缺失值处理异常值处理统计分析数据集成与处理从两个文件中分别读取数据集,并对用餐数据做集成和处理,以便后续的分析与使用用餐数据统计分析流程重复值处理缺失值处理异常值处理统计分析数据集成与处理给定的用餐数据中是否存在重复记录,如果存在,则输出具体重复的记录并对记录进行适当的处理检测数据集中数值型的特征列是否存在重复,如果存在,则进行相应处理。用餐数据统计分析流程重复值处理缺失值处理异常值处理统计分析数据集成与处理检测各列是否存在缺失值,并尝试使用不同的方法对缺失值进行处理。用餐数据统计分析流程重复值处理缺失值处理异常值处理统计分析数据集成与处理对用餐数据中的小费(tip列)数据进行异常值检测,如果发现异常值,则对其进行适当的处理用餐数据统计分析流程重复值处理数据解析异常值处理统计分析数据集成与处理根据不同用餐人数和用餐时间,综合运用分组、分布、交叉、结构以及相关分析等多种分析方法,全面地理解用餐数据,并为业务决策提供有力支持还在等什么?马上动手实施用餐数据统计分析项目吧~1.数据要素市场2.项目统计分析整体流程:小结课程负责人:陈清华任务1数据集成与处理任务实施【大数据分析技术】课程用餐数据统计分析主要内容任务说明引导问题任务解决方案代码解析用餐数据集成与处理“tips1.csv”和“tips2.csv”教学难点任务工单给定用餐基本信息文件“tips1.csv”和用餐费用文件“tips2.csv”。我们需要从这两个文件中分别读取数据集,并对用餐数据做集成和处理,以便后续的分析与使用。。任务概述

任务描述:从“tips1.csv”和“tips2.csv”文件中读取数据,并集成数据。010010011001101010100100110110100101110101000100001011011101001010101101010011010010数据源“tips1.csv”和“tips2.csv”显示结果

任务要求任务概述(1)什么是数据集成?数据集成常见的操作有哪些?(2)在Pandas中用来对数据做合并、连接等操作的函数是什么?(3)Pandas中的merge()函数有哪些参数?它们分别用来指定什么?(4)在Pandas中用来构造特征的函数有哪些?它们的主要用途是什么?(5)Pandas中的数据类型转换函数有哪些?如何使用它们?”

问题引导:任务概述任务解决方案

一、数据合并:tips1.csv任务解决方案

一、数据合并:tips2.csv任务解决方案

一、数据合并merge()任务解决方案

二、数据转换:1)数据映射where()任务解决方案

二、数据转换:1)数据映射where()任务解决方案

二、数据转换:1)数据映射apply()任务解决方案

二、数据转换:2)特征构造where()任务解决方案

二、数据转换:2)特征构造任务解决方案

二、数据转换:3)数据处理map()任务解决方案

二、数据转换:3)数据处理replace()任务解决方案

二、数据转换:3)数据处理replace()小结1.如何使用Pandas中的函数实现数据集成?2.

如何使用相关工具完成数据转换?3.

如何使用相关工具完成特征构造?要点掌握merge()map()np.where()apply()replace()课程负责人:陈清华任务2重复值检测处理任务实施【大数据分析技术】课程用餐数据统计分析主要内容任务说明引导问题任务解决方案代码解析用餐数据重复值检测与处理重复值学难点任务工单为防止空值数据对数据分析与挖掘流程造成影响,本任务主要基于任务1中给定的用餐数据,使用Pandas中的工具检测数据中是否存在重复值。如果存在,则使用合适的方法对其进行处理。任务概述

任务描述:基于前续任务获得的数据,用餐数据中是否存在重复记录和重复特征。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原数据:244清洗后数据:243条

任务要求任务概述(1)如果数据中存在重复值,会造成什么样的影响?(2)在Pandas中,哪些函数可以用来检测重复值?(3)处理重复值的方法有哪些?如何选择合适的处理方法?(4)在Pandas中,哪些函数可以用来处理重复值?”

问题引导:任务概述任务解决方案

一、重复值检测:重复记录duplicated()任务解决方案

一、重复值检测:重复特征corr()任务解决方案

二、重复值处理:删除重复记录drop_duplicates()小结1.如何使用duplicated()函数检测重复记录?2.

如何使用corr()函数检测重复特征?3.

如何处理重复值?要点掌握重复记录检测重复特征检测重复值处理课程负责人:陈清华任务3缺失值检测处理任务实施【大数据分析技术】课程用餐数据统计分析主要内容任务说明引导问题任务解决方案代码解析用餐数据缺失值检测与处理为防止缺失值对数据分析与挖掘流程造成影响,本任务主要基于任务1中给定的用餐数据,使用Pandas中的工具检测数据中是否存在缺失值。如果存在缺失值,则使用合适的方法(如删除法、插补法等)对其进行处理。缺失值教学难点任务工单任务概述

任务描述:检测各列是否存在缺失值,并使用合适的方法进行处理010010011001101010100100110110100101110101000100001011011101001010101101010011010010(1)数据中存在缺失值会造成什么样的影响?(2)在Pandas中,哪些函数可以用来检测缺失值?(3)处理缺失值的方法有哪些?如何选择合适的处理方法?(4)在Pandas中,哪些函数可以用来处理缺失值?”

问题引导:任务概述任务解决方案

一、检测缺失值isna()任务解决方案

一、检测缺失值任务解决方案

二、处理缺失值:删除drop_na()fillna()任务解决方案

二、处理缺失值:填充bfill()ffill()任务解决方案

二、处理缺失值:填充mean()小结1.如何检测缺失值?2.

如何处理缺失值?要点掌握isna()fillna()bfill()ffill()课程负责人:陈清华任务4异常值检测处理任务实施【大数据分析技术】课程用餐数据统计分析主要内容任务说明引导问题任务解决方案代码解析用餐数据异常值检测与处理xny.csv教学难点任务工单主要通过对tip单变量进行异常值检测与处理来讲解异常值检测与处理的基本方法。当然,我们也可以结合其他信息变量对异常值进行检测和处理。任务概述

任务描述:对小费(tip列)数据进行异常值检测,如果发现异常值,则对其进行适当的处理。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原数据:243条异常值检测与处理:

任务要求任务概述(1)什么是异常值?异常值对数据分析与挖掘流程有什么样的影响?(2)检测异常值的方法有哪些?在使用时,有什么注意要点?(3)Pandas中提供了哪些用于异常值检测的工具?(4)如何对已发现的异常值进行处理?(5)Pandas中提供了哪些用于异常值处理的工具?”

问题引导:任务概述任务解决方案

一、检测异常值:散点图scatter()任务解决方案

一、检测异常值:简单方法(排序)sort_values()任务解决方案

一、检测异常值:3delta原则hist()任务解决方案

一、检测异常值:箱形图boxplot()任务解决方案

一、检测异常值:箱形图boxplot()任务解决方案

二、处理异常值条件筛选()①删除法②填补法③平均值修正法④不处理小结1.如何检测异常值?2.

如何处理异常值?要点掌握散点图排序3delta原则箱形图课程负责人:陈清华任务5数据统计分析任务实施【大数据分析技术】课程用餐数据统计分析主要内容任务说明引导问题任务解决方案代码解析用餐数据统计分析xny.csv教学难点任务工单运用Pandas的强大数据处理功能,我们将能够根据性别、用餐人数、用餐时间等关键变量,详细地统计并解读账单金额、小费金额,以及各变量间的相关性,从而为业务决策提供有力的数据支持。任务概述

任务描述:综合运用分组、分布、交叉、结构以及相关分析等多种分析方法,全面地理解用餐数据,并为业务决策提供有力支持。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原数据数据分析结果呈现

任务要求任务概述(1)如何使用Pandas的groupby()函数按照性别和用餐人数对数据进行分组?分组后,如何计算每个组的账单金额的平均值、中位数和标准差?(2)如何利用Pandas将用餐时间列转换为适合进行分布分析的格式?如何使用Pandas的cut()或qcut()函数将用餐时间非等距分组,并计算每个时间段的账单金额分布情况?(3)如何通过pivot_table()或crosstab()函数创建性别、用餐时间和小费金额的交叉表?如何解读这个交叉表,以理解这些变量之间的内在联系?(4)如何利Pandas用相关运算统计不同周几的消费人数,并计算占比情况?(5)如何使用Pandas的corr()函数计算小费与账单金额、用餐时间(可能需要转换为数值型)以及用餐人数之间的相关系数?如何解读这些相关系数,判断各变量之间的关联程度和方向?”

问题引导:任务概述数据分析方法应用分布分析交叉分析分组分析分组分析是指根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间的差异性的一种分析方法。分组分析常用的统计指标是计数、求和、平均值。结构分析相关分析以性别和用餐人数为分类标准,详细统计并分析各组的账单金额情况任务解决方案

一、分组分析bar()基于性别的账单平均金额分组对比分析数据分析方法应用分布分析交叉分析根据用餐时间将数据非等距分组,并考察各时间段内账单金额的分布情况结构分析相关分析根据用餐时间将数据非等距分组,并考察各时间段内账单金额的分布情况分组分析任务解决方案

二、分布分析hist()工作日与非工作日的消费情况分布分析数据分析方法应用交叉分析交叉分析通常是用于分析两个或两个以上分组变量之间的关系,以交叉表形式进行变量间关系的对比分析;从数据的不同维度,综合进行分组细分,进一步了解数据的构成、分布特征。结构分析相关分析综合考虑性别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论