版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Python财经应用:编程基础、数据分析与可视化第六章Pandas数据处理分析中国农业大学李辉Pandas数据处理分析01Pandas基本数据结构02数据分析的基本流程03数据的导入与导出04数据预处理05数据分析方法06DataFrame的合并与连接Pandas数据处理分析01Pandas基本数据结构02数据分析的基本流程03数据的导入与导出04数据预处理05数据分析方法06DataFrame的合并与连接6.3Pandas基本数据结构第六章Pandas数据处理分析数据的导入与导出——数据的导入利用Pandas进行数据分析,首先需要将外部数据源导入DataFrame数据。数据处理和数据分析的中间结果或最终结果也需要保存到文件中。数据通常可以存储在Excel、CSV、TXT、JSON、HTML等格式的文件中,或者存储在数据库中。Pandas提供了导入不同文件的方法:1.导入数据集(1)使用read_excel函数导入Excel数据文件read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None)功能:读入Excel文件中的数据并返回一个DataFrame对象。数据的导入与导出——数据的导入参数说明:io:要读取的Excel文件,可以是字符串形式的文件路径。sheet_name:要读取的工作表,可以用序号或工作表名称表示。默认sheet_name=0,表示读取第一张工作表。header:工作表的哪一行作为DataFrame对象的列名。默认header=0,表示工作表的第一行(表头行)作为列名;如果工作表没有表头行,则必须显式指定header=None。names:DataFrame对象的列名,如果工作表没有表头行,则可以使用names设置列名;如果工作表有表头行,则可以使用names替换原来的列名。index_col:使用工作表的哪一列或哪几列(列序号表示)作为DataFrame的行索引(工作表的列序号从0开始)。usecols:读取Excel工作表的哪几列,默认读取工作表中的所有列。read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None)数据的导入与导出——数据的导入1.导入数据集(2)使用read_csv函数导入CSV格式的数据文件read_csv(filepath_or_buffer,sep,header,names,index_col,usecols)功能:读入CSV格式的文件中的数据并返回一个DataFrame对象。参数说明:filepath_or_buffer:要读取的数据文件。sep:数据项之间的分隔符。默认是逗号。其他参数的含义与read_excel()函数的相同。数据的导入与导出——数据的导入
importpandasaspd#导入所有列df_order=pd.read_csv(r'./data/Online_Retail_Data.csv')print(df_order.head())#查看前5行记录#指定第一列(InvoiceNo)作为DataFrame的行索引df_order_index=pd.read_csv(r'./data/Online_Retail_Data.csv',index_col=0)print(df_order_index.tail())#查看后5行记录#导入csv文件,并指定字符编码df_order_encode=pd.read_csv(r'./data/Online_Retail_Data.csv',encoding='gbk')#指定编码print(df_order_encode.head()) #查看前5行记录【例6-13】导入Online_Retail_Data.csv文件中的数据,生成DataFrame对象。数据的导入与导出——数据的导入1.导入数据集(3)使用read_table()函数导入通用分隔符格式的数据文件通用分隔符格式的文件是指每一行的数据项之间可以使用逗号、空格、Tab键等通用分隔符分隔,如TXT格式的文件。read_table(filepath_or_buffer,sep,header,names,index_col,usecols)功能:读入通用分隔符格式的文件中的数据并返回一个DataFrame对象。参数说明:filepath_or_buffer:要读取的数据文件。sep:数据项之间的分隔符。默认是Tab键。其他参数的含义与read_csv()函数的相同。数据的导入与导出——数据的导入1.导入数据集(4)使用read_sql()函数导入数据库表将数据库中的数据导入DataFrame需要先建立与数据库的连接。Pandas提供了sqlalchemy方式与MySOL、PostgresSQL、Oracle、MSSQLServer、SQLite等主流数据库建立连接。建立连接后,即可使用read_sql()函数导入数据库中的数据。read_sql(sql,con,index_col)功能:读入SQL查询结果集或数据库表中的数据并返回一个DataFrame对象。参数说明:sql:SQL查询语句或数据库表名。con:SQLAlchemy连接对象。index_col:使用数据库表的哪一列或哪几列作为DataFrame的行索引。数据的导入与导出——数据的导入2.查看数据集导入数据集后,可以使用DataFrame对象的相关属性和方法了解数据集的基本信息、考查数据分布情况等,常用操作如表所示。方法功能方法shape查看数据框的形状shapehead(n)查看数据框中前n条记录。默认,n=5head(n)tail(n)查看数据框中最后n条记录。默认,n=5tail(n)数据的导入与导出——数据的导入2.查看数据集导入数据集后,可以使用DataFrame对象的相关属性和方法了解数据集的基本信息、考查数据分布情况等,常用操作如表所示。方法功能方法info()查看数据集的基本信息,包括记录数、字段数、字段名(列名)、字段数据类型、非空值数据的数量和内存使用情况等info()describe()查看数据集的分布情况。数值型字段的信息包括:记录数量、均值、标准差、最小值、最大值和4分位数等。文本型字段的信息包括:记录数量、不重复值的数量、出现次数最多的值和最多值的频数describe()数据的导入与导出——数据的导入Pandas中的数据类型包括数字(整型、浮点型)、字符串(文本,或文本和数字的混合)、布尔型(True或False)、日期时间型、时间差(两个日期时间的差值)、分类(有限的文本值列表)等,如表所示。不同类型的字段可以存储不同的数据及执行不同的操作。数据的导入与导出——数据的导出在数据处理和分析过程中,常常需要保存处理的中间结果或最终结果,可以将DataFrame对象导出为Excel、CSV、TXT、JSON、数据库等多种格式的文件。(1)使用to_excel()方法导出Excel文件to_excel(excel_writer,sheet_name,columns,header,index)功能:将DataFrame中的数据写入Excel文件的工作表。参数说明:excel_writer:要写入的Excel文件。sheet_name:要写入的工作表。默认是“Sheetl”工作表。columns:Excel工作表的列名。默认是DataFrame对象的列名。header:指定Excel工作表是否需要表头。默认header=True。index:指定是否将DataFrame对象的行索引写入Excel工作表。默认index=True。数据的导入与导出——数据的导出在数据处理和分析过程中,常常需要保存处理的中间结果或最终结果,可以将DataFrame对象导出为Excel、CSV、TXT、JSON、数据库等多种格式的文件。(2)使用to_csv()方法导出CSV格式的文件to_csv(path_or_buf,sep,columns,header,index)功能:将DataFrame中的数据写入CSV格式的文件。参数说明:path_or_buf:要写入的CSV格式的文件。sep:数据项之间的分隔符。其他参数的含义与to_excel()方法的相同。数据的导入与导出——数据的导出
importpandasaspddf_order=pd.read_csv(r'./data/Online_Retail_Data.csv')#导入所有列d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北省保定市莲池区2025-2026学年上学期期末八年级数学试卷(无答案)
- 北京市丰台区2025-2026学年高三上学期期末物理试卷(含答案)
- 2025-2026学年山西省太原市阳曲县龙城双语中学九年级(上)期末数学试卷(含答案)
- 五年级数学期末试卷及答案
- 初中数学介绍
- 关于万能学生检讨书合集5篇
- 兽医考试资格题库及答案
- 深圳辅警考试题目及答案
- 人力资源试题简答及答案
- 《GAT 543.25-2023公安数据元(25)》专题研究报告-新时代公安数据标准化的深度解码与实践前瞻
- 护理查房与病例讨论区别
- 土建资料管理课件
- 公司安全大讲堂活动方案
- GB/T 42186-2022医学检验生物样本冷链物流运作规范
- T/CA 105-2019手机壳套通用规范
- 重症胰腺炎的中医护理
- 部编版语文六年级上册第一单元综合素质测评B卷含答案
- 中央2025年全国妇联所属在京事业单位招聘93人笔试历年参考题库附带答案详解-1
- 2024-2025学年江苏省镇江市六年级语文上学期期末真题重组卷
- 学校空调设备维保方案
- 盘扣架施工技术交底记录
评论
0/150
提交评论