版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析pandas类库08【学习目标】
数据基础概念认知理解pandas数据类型和结构的基本概念,搭建学习的理论基础。
核心对象操作掌握掌握Series对象和DataFrame对象的基本操作方法,熟悉核心工具用法。
数据处理方法运用熟练使用pandas的相关方法,完成各类数据处理操作任务。pandas与NumPy关联pandas封装诸多NumPy模块,其对象可看作数组容器,底层为多维数组,还会扩展NumPy类型系统,支持自定义数组。本节核心学习内容主要围绕pandas的数据类型、数据结构以及数据的获取方法展开讨论学习。【学习目标】:pandas数据【学习目标】:pandas数据数据类型
数据类型转换要点pandas兼容NumPy数据类型,转pandas类型时通常能自动推断,也可显式指定dtypes参数转换类型。
数据类型查看与汇总可通过pandas对象的dtypes属性查看类型,pandas含object、int64、bool等多种数据类型。【学习目标】:pandas数据数据结构
01核心数据结构介绍pandas有Series和DataFrame两类核心数据结构,所有操作基于其对象,Series是列,DataFrame是由Series组成的表对象,对象值对应行、列索引。
02对象创建方式说明可从Python对象、NumPy数组或文件导入创建,Series类似有序字典,DataFrame可由二维数组、特定字典或Series字典转换生成。
03索引设置与修改创建时未指定index则默认0开始整数序列,DataFrame可通过index和columns参数设置行列索引,也可直接修改对象的index、columns属性。数据获取【学习目标】:pandas数据【学习目标】:pandas数据小节介绍了pandas对象的动态创建方式,在实际场景下,用来分析的数据可能是保存在其他数据源(如数据库或数据文件)中的数据,Python为这些数据源的读取提供了丰富的接口函数。本小节主要介绍如何从数据文件中读取数据,以创建pandas对象。pandas支持读取20多种格式的数据源,读取的方法以“read_*”开头命名,多数方法的参数相似。金融数据文件多为.csv、.pickle、.json、.xml等格式,对于存放在数据库中的数据,pandas也支持用SQL语句查询数据库,并将查询结果存储为DataFrame对象。本小节以read_csv()方法为例介绍读取.csv文件,并将数据存储为DataFrame对象的方法【学习目标】:pandas数据
文件读取方法说明可通过help(pd.read_csv)查看参数详情,多数参数用默认值即可,read_csv可导入.csv文件为DataFrame,还介绍了read_excel、pd.read_sql的参数与用法。
文件写入方法说明可使用df.to_csv、df.to_excel、df.to_sql分别将数据写入.csv、Excel文件或数据库表,pd.read_excel等需依赖第三方库。【学习目标】:数据处理
数据预处理概述数据预处理是数据分析前的处理环节,含检查、清洗、集成、规约、变换等,可提升数据质量,适配学习模型,提高分析质量。
Pandas预处理方法介绍利用pandas进行数据检查和选择、清洗、集成、分组变换、统计的常用操作方法。
Sklearn预处理说明sklearn也有数据变换、规约等预处理方法,其使用详见第10章相关内容。数据检查方法说明可通过head()、info()、describe()等方法了解数据列、缺失值、统计信息等,另有多种检查方法及对应说明。数据选择操作要点可通过iloc、loc等方法按位置或索引选择数据,也可按条件筛选,能得到子Series或子DataFrame对象。【学习目标】:数据处理数据检查和选择【学习目标】:数据处理数据清洗
数据质量核心作用数据质量对数据分析结果有关键影响,无高质量数据难建高质量学习模型,甚至导致模型无法工作,如回归分析模型变量不能有缺失值。
缺失值处理实操以泰坦尼克号数据集为例,先通过info()发现Age、Cabin和Embarked有缺失值,删除缺失过多的Cabin,用均值填充Age。
pandas数据清洗方法含重命名列索引、检查空值、删除行或列、去重、删除空值、填充缺失值、转换数据类型、值替换等多种方法及详细说明。【学习目标】:数据处理数据集成
数据集成概念阐释实际场景中分析数据常存于不同子集,将不同来源、格式的子集整合为一个数据集的过程即数据集成。
concat合并方法说明可合并多个Series或DataFrame对象,沿轴1合并Series得DataFrame,合并DataFrame时会按对应索引自动对齐。
merge函数使用要点pandas的merge()函数使用灵活,DataFrame也有merge()方法,默认按同名列连接,参数设置丰富。
join方法操作细节DataFrame的join()方法默认按索引等值连接,有同名列需设lsuffix和rsuffix参数,也可指定列连接。
集成方法汇总说明包含append、concat、merge、join等方法,各方法有不同的参数设置与适用场景,可实现不同需求的数据集成。【学习目标】:数据处理数据分组变换
分组统计基础内容分组统计是数据分析常用操作,代码中常用groupby表示,分组后常用操作有apply、aggregate、transform和filter。
groupby操作三阶段分为分组、按指定函数对组内成员计算、合并计算结果得到新数据集这三个阶段。
agg()方法使用要点agg()参数是每一列各组的Series对象,支持NumPy统计函数、函数名称字符串或自定义函数。apply()方法使用说明apply()灵活可返回任意类型数据,参数为函数及位置、关键字参数,但处理数据效率较低。transform()方法特性对组内数据计算后将结果赋给组内每个成员,按原索引顺序返回,形状和原数据一致。groupby常用方法汇总包含df.groupby()不同参数形式、多列分组、结合统计函数、df.apply()等多种常用方法及说明。【学习目标】:数据处理【学习目标】:数据处理数据统计
统计计算实现方式因pandas底层用NumPy,对DataFrame统计计算时,可使用NumPy统计函数,也可用对象自带统计方法。
常用统计方法说明包含describe、mean、corr等,分别实现统计汇总、均值计算、相关系数返回等功能,用法参数与NumPy一致。【学习目标】:时间索引时间索引类型及创建
01时间索引类型概述数据分析中时间是重要参数,创建时间索引很关键,pandas有DatetimeIndex、PeriodIndex和TimedeltaIndex三种时间相关索引类型。
02时间索引创建方法pandas分别对应date_range()、period_range()和timedelta_range()函数,类Pythonrange()方法,默认生成时间索引。
03时间索引示例说明示例代码用date_range()生成2023年5月18日起、间隔2小时15分钟的9个时间序列,freq取值字符串可组合。【学习目标】:时间索引工作日时间索引创建
工作日序列生成证券市场工作日交易场景可使用pandas.bdate_range函数生成默认工作日时间序列,还能通过weekmask和holidays自定义工作日与节假日。freq参数取值说明该函数freq参数有多种常用取值,涵盖工作日、日历日、周、月、季度、年及不同时间单位等各类频率,各有对应功能说明。时间索引采样转换当时间序列数据周期与分析周期不同时,可使用DataFrame.resample()和DataFrame.asfreq()函数进行采样或频率转换。时间周期偏移处理若要对数据在时间周期上进行偏移,可借助DataFrame.shift()函数来完成操作。降采样操作示例可将1min周期数据降采样到3min,以求和为聚合方式,对应有具体代码示例。升采样及缺值填充升采样获取更高频率数据会出现缺失值,可使用bfill()或ffill()方法填充,附代码及输出示例。【学习目标】:时间索引时间序列采样与偏移【学习目标】:时间索引时间索引相关方法说明
日期范围生成方法pd.date_range可设置开始、结束日期、周期数、频率等参数,返回DatetimeIndex类型数据,参数含时区、日期规范、范围包含规则等。
周期与时间差方法pd.period_range用于生成周期索引,pd.timedelta_range生成时间差索引,二者参数含开始、结束、周期数、频率等。
频率转换操作要点df.asfreq可完成时间序列频率转换,无对应时间点时可通过method或fill_value填充空缺值,否则为NaN。
重采样功能说明df.resample支持降采样与升采样,可设置重采样频率、闭合规则、标签、转换约定等多类参数,还可指定重抽样的列或索引层级。
数据平移操作规则df.shift可移动数据或时间索引,可设置移动步幅、轴、填充值,指定freq时仅移动索引,数据保持不变。【学习目标】:数据可视化pandas数据可视化概述
01数据处理与可视化pandas主打数据处理功能,内置数据可视化能力,可按数据透视表或图形格式呈现数据,助力数据理解与优化处理。
02透视表应用示例通过pivot()或pivot_table()生成透视表,在tips数据集中,能直观分析抽烟与否和用餐时间、小费金额的关系。【学习目标】:数据可视化透视表函数说明
pivot()方法说明功能为重构DataFrame,参数含index、columns、values,默认用原行索引,重复索引会触发ValueError异常。
pivot_table()方法说明用于构建透视表,参数含values、index、columns等,支持聚合、缺失值填补、添加汇总行列等操作。【学习目标】:数据可视化pl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 廊坊市香河县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 怀化市沅陵县2025-2026学年第二学期四年级语文第六单元测试卷(部编版含答案)
- 黔南布依族苗族自治州三都水族自治县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 潍坊市坊子区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 吕梁市交口县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 烘焙营销策划方案
- 深度解析(2026)《CBT 4119-2016船舶尾输油设备安装工艺要求》
- 深度解析(2026)《BBT 0029-2004包装玻璃容器 公差》
- 深度解析(2026)《AQT 3030-2010危险化学品生产单位安全生产管理人员安全生产培训大纲及考核标准》
- 20 灰雀 +公开课一等奖创新教案+素材
- 人教版 七年级英语下册 UNIT 1 单元综合测试卷(2025年春)
- 运营维管段工电结合部管理实施细则
- DB45T 2329-2021 溶洞旅游接待服务规范
- 云南省公路工程试验检测费用指导价
- 高中数学圆锥曲线结论大题总结
- 硬软管路施工-航空导管基础课件讲解
- 《我们为什么要学习》主题班会
- (高清版)WST 418-2024 受委托医学实验室选择指南
- 食品安全生熟分开
- 玻璃幕墙更换玻璃施工方案
- 清廉学校建设工作清单表格
评论
0/150
提交评论