数据分析案例:利用pandas清洗数据_第1页
数据分析案例:利用pandas清洗数据_第2页
数据分析案例:利用pandas清洗数据_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析案例:利⽤pandas清洗数据假如你有⼀份数据,有淘宝店铺的⼀些基本数据,⽐如店铺名称、发货地址、付款⼈数、评论数、商品价格、商品名称。由于爬取的数据较乱不能直接⽤于数据分析,所以要先进⾏数据清洗。数据如下⼤概如下:(关于如何爬取可以参考前⾯博⽂)加载数据importpandasaspdpro_data=pd.read_csv("taobaoproducts.csv",header=0)pro_data数据清洗:地址列爬取的地址列是省+城市名,当然还有北京这种直辖市,这⾥我们要把城市和省份分开,分成两列,对于北京则让城市和省份都显⽰为北京。defget_province(x):iflen(x)==2:returnx+"市"else:pro_list=x.split()returnpro_list[0]+"省"defget_city(x):iflen(x)==2:returnx+"市"else:pro_list=x.split()returnpro_list[1]+"市"pro_data["省份"]=pro_data["地址"].map(get_province)pro_data["城市"]=pro_data["地址"].map(get_city)pro_data.head()#这⾥还可以将函数写成三元表达式defget_province(x):returnx.split()[0]+"省"iflen(x)>2elsex+"市"pro_data["省份"]=pro_data["地址"].map(get_province)pro_data数据清洗:付款⼈数这⾥只需要付款⼈数的数字,要把⽂字删除掉。#第⼀种⽅法⽤str接⼝和正则表达式pro_data["付款⼈数"]=pro_data["付款⼈数"].str.findall("\d+").str[0]#第⼆种直接利⽤str接⼝pro_data["付款⼈数"]=pro_data["付款⼈数"].str[:-3]数据清洗:评论数这⾥的评论数是⼩数,并且评论数会有缺失值,我们将它改为整型并填补缺失值。pro_data["评论数"]=pro_data["评论数"].fillna(0)pro_data["评论数"]=pro_data["评论数"].astype("int")pro_data最后可以做⼀些基础的数据分析,⽐如分省份计算销售量等,销售量的前五名:turn_over=pro_data.groupby("省份")["付款⼈数"].agg([("销售量","sum")])turn_over.sort_val

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论