《数据采集技术》课件-Pandas缺失值处理与统计_第1页
《数据采集技术》课件-Pandas缺失值处理与统计_第2页
《数据采集技术》课件-Pandas缺失值处理与统计_第3页
《数据采集技术》课件-Pandas缺失值处理与统计_第4页
《数据采集技术》课件-Pandas缺失值处理与统计_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目6

动态网页数据预处理使用Pandas实现新闻动态网页数据预处理目录Content1使用Pig实现浪潮云说网页数据预处理2使用ELK实现某官网日志数据预处理3项目导言零数据预处理是指将数据的缺失值、脏数据、数据格式等进行调整处理,由于数据采集过程中会因为数据的来源不统一造成数据格式的混乱,当使用这些原始数据进行数据分析时无法为决策提供有效的帮助,对数据进行预处理能够有效解决这些问题,那么如何对数据进行预处理,数据预处理使用的工具和方法有哪些呢?学习目标零知识目标了解什么是数据预处理;熟悉数据预处理的方法;掌握Pandas、Pig以及ELK进行数据预处理的方法;精通Pig以及ELK环境搭建方法;技能目标具备了解Pandas和Pig数据预处理的能力;具备熟悉Pandas和Pig数据预处理机制的能力;素养目标具备掌握Pandas和Pig数据预处理方法的能力;具备掌握ELK数据预处理方法及流程的能力;具备精通数据预处理的能力。技能目标具备团队意识;具备良好的解决问题的能力;具备较强的学习能力;使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能2.检查数据信息Pandas中提供了若干用于检查数据信息的方法,如维度、基本信息、空值、列名等相关信息。能够帮助我们快速了解数据的基本信息,主要应用在数据量较大无法快速获取有效信息的情况。属性和方法描述DataFrame.shape()查看数据的维度DataFrame.dtypes()每列数据的格式DataFrame.values()查看数据表的值DataFrame.columns()查看数据列名称DataF()查看数据表基本信息DataFrame.isnull()查看空值DataFrame.unique()查看某一列的唯一值DataFrame.head()查看前指定行数据,默认为10DataFrame.tail()查看后指定行数据,默认为10使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于将Pandas程序中的数据持久化保存到csv文件中。3.数据持久化(1)to_csv()DataFrame.to_csv(path_or_buf=None,sep=',',na_rep='',float_format=None,columns=None,header=True,index=True,index_label=None,mode='w',encoding=None)参数描述filepath_or_buffer字符串类型的文件路径对象sep输出文件的字段分隔符na_rep缺失数据填充float_format小数点保留几位,参数类型为字符串columns自定义列名,参数类型为序列或数组header写出列名,若给定字符串列表,则作为列名的别名Index写入索引,默认为trueModePython写入模式,默认为“w”w:覆盖写入a:追加写入r+:可读可写,必须存在,可在任意位置读写,读与写共用同一个指针w+:可读可写,可以不存在,必会擦掉原有内容从头写a+:可读可写,可以不存在,必不能修改原有内容,只能在结尾追加写,文件指针只对读有效(写操作会将文件指针移动到文件尾)Encoding表示输出文件中使用的编码的字符串,默认为“utf-8”使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于将DataFrame数据以Excel表格的形式保存到本地文件系统。3.数据持久化(2)to_excel()DataFrame.to_excel(excel_writer,sheet_name='Sheet1',na_rep='',float_format=None,columns=None,header=True,index=True,startrow=0,startcol=0)参数描述excel_writer保存到的文件路径sheet_name保存的sheet名na_rep缺失数据表示方式,默认为空float_format格式化浮点数的字符串,默认为Nonestartrow保存的数据在目标文件的开始行startcol保存的数据在目标文件开始的列header显示列名columns自定义列名index是否显示索引使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能在使用Pandas处理Json类型的数据时通常会将Json数据加载到程序中转换为DataFrame(可使用read_json),在处理完成后需要将处理后的数据保存回Json这时就需要用到to_json()方法。3.数据持久化(3)to_json()DataFrame.to_json(path_or_buf=None,orient=None,date_format=None,double_precision=10,force_ascii=True,date_unit='ms',default_handler=None,lines=False,compression=None,index=True)参数描述path_or_buf指定文件保存路径orient指定为将要输出的JSON格式。date_format日期转换类型double_precision对浮点值进行编码时使用的小数位数。默认为10位。force_ascii强制编码为ASCIIindex是否包含索引值使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能to_sql()是Pandas中提供的用于将DataFrame数据保存到数据库的API。3.数据持久化(4)to_sql()DataFrame.to_sql(name,

con,

schema=None,

if_exists=’fail’,

index=True,

index_label=None,

chunksize=None)参数描述name表名称con连接sql数据库的engine,可以用pymysql之类的包建立schema相应数据库的引擎,不设置则使用数据库的默认引擎,如mysql中的innodb引擎index是否将表中索引保存到数据库index_label是否使用索引名称if_exists当数据库表存在时,设置数据的保存方式chunksize批量保存数据量大小使用Pandas实现新闻动态网页数据预处理壹4汇总和描述统计Pandas提供了一组常用的汇总和描述统计方法,用于数据分析中完成汇总统计的功能。与对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的。函数描述df.sum()求和函数df.mean()求平均值df.min()df.max()求最小值和最大值,对于字符串类型的,最小值返回按字母升序,当不忽略null值时,最小值最大值都是NaNdf.var()求样本值的方差df.std()求样本值的标准差df.count()计算非null值的数量df.median()计算中位数使用Pandas实现新闻动态网页数据预处理壹5处理缺失数据缺失值是指数据中由于某些信息的缺失,造成现有数据中某个或某些属性不完整。Pandas中提供了若干对缺失值处理的行数,可分为四类,缺失值判断、缺失值统计、缺失值填充、缺失值删除。缺失值统计df.isna().sum(axis=None)缺失值填充df.fillna(value=None,method=None,axis=None,inplace=False,limit=Non

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论