教案18 处理店铺数据中的异常值和重复值问题_第1页
教案18 处理店铺数据中的异常值和重复值问题_第2页
教案18 处理店铺数据中的异常值和重复值问题_第3页
教案18 处理店铺数据中的异常值和重复值问题_第4页
教案18 处理店铺数据中的异常值和重复值问题_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门电子职业中专学校教案纸第1页学科数据分析与可视化项目三处理电商平台店铺销售数据检查授课班级授课时数2教具计算机、投影仪多媒体教学网络授课时间教学方法授课、投影仪演示及上机操作教学目的掌握异常值和重复值的处理方法能够对存在异常值和重复值的数据进行处理教学重点和难点识别异常值和重复值处理异常值和重复值复习提问简述重复值的处理步骤?教学内容、方法、过程和板书设计教学追记【复习引入】上节课我们学习了缺失值的识别和处理的方法,这节课我们将通过实际案例练习异常值和重复值的识别和处理方法。【新课教学】一、处理店铺数据中的异常值问题筛选出数值型的维度数据,并且分析其值的情况:data.select_dtypes(include='number')部分运行结果如下:教案纸附页第2页教学内容、方法、过程和板书设计教学追记使用箱线图查看数值型数据的分布情况:plt.boxplot(data[['利润','销售额','数量','折扣']],labels=['利润','销售额','数量','折扣'])#显示图形plt.show()运行结果如下:从上图可知“销售额”字段有明显偏移的数值型数据,查看"销售额"字段中的异常数据情况:#计算下四分位数和上四分位Q1=data.销售额.quantile(q=0.25)Q3=data.销售额.quantile(q=0.75)#基于1.5倍的四分位差计算上下须对应的值low=Q1-3*(Q3-Q1)high=Q3+3*(Q3-Q1)#寻找异常点data.loc[(data.销售额>high)|(data.销售额<low)]部分运行结果如下:通过图形查看"数量"、"折扣"字段中的异常数据情况:plt.boxplot(data[['数量','折扣']],labels=['数量','折扣'])#显示图形plt.show()运行结果如下:plt.boxplot(data['折扣'],labels=['折扣'])#显示图形plt.show()运行结果如下:#计算下四分位数和上四分位Q1=data.折扣.quantile(q=0.25)Q3=data.折扣.quantile(q=0.75)#基于1.5倍的四分位差计算上下须对应的值low=Q1-3*(Q3-Q1)high=Q3+3*(Q3-Q1)#寻找异常点data.loc[(data.折扣>high)|(data.折扣<low)]部分运行结果如下:此时查看折扣的所有字段:data.折扣.unique()运行结果如下:处理“折扣”字段中的异常数据data.loc[data.折扣==-0.8,'折扣']=0.8data.loc[data.折扣==-0.4,'折扣']=0.4data.drop(data.loc[data.折扣==-1.4].index,axis=0,inplace=True)data.折扣.unique()运行结果如下:二、处理店铺数据中的重复值问题查看数据集data中是否有重复数据:data.loc[data.duplicated(['记录ID','订单ID','销售额','产品名称'])].sort_values(by='销售额',ascending=False)部分运行结果如下:以"记录ID"、"订单ID"、"销售额"、"产品名称"为判断标准,删除数据集中的重复记录:data.drop_duplicates(['记录ID','订单ID','销售额','产品名称'],inplace=True)查看删除重复值后的数据集情况:data.loc[data.duplicated(['记录ID','订单ID','销售额','产品名称'])]运行结果如下:()部分运行结果如下:【教学反思】本节课我围绕教学目标展开教学,通过自主学习法、分组讨论法、实操强化法进行教学,学生整体参与度较高。在教学难点上,部分学生理解起来有些吃力,这提示我在未来教学中需要更细致地设计引导问题,或提前准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论