Python财务数据分析与可视化 课件 项目3、4 学习Pandas模块、财务数据获取与清洗_第1页
Python财务数据分析与可视化 课件 项目3、4 学习Pandas模块、财务数据获取与清洗_第2页
Python财务数据分析与可视化 课件 项目3、4 学习Pandas模块、财务数据获取与清洗_第3页
Python财务数据分析与可视化 课件 项目3、4 学习Pandas模块、财务数据获取与清洗_第4页
Python财务数据分析与可视化 课件 项目3、4 学习Pandas模块、财务数据获取与清洗_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目3学习Pandas模块目录了解模块Series数据结构DataFrame数据结构Excel文件读写工具方法理论了解模块认识模块模块也称为库。每个模块都能实现某个方面特定的功能。Python模块就是一个.py文件,其中可以包含多个函数,还可以包含类、语句等。模块的作用就是实现对函数的分类管理。模块分类内置模块:Python自带的模块,可以直接导入并使用。自定义模块:用户自己编写的模块,以方便在编写其他程序时调用,也可以上传到第三方库,供他人调用第三方模块:Python的开源模块模块的安装及导入模块的安装在交互模式下安装:pipinstallpandas在JupyterNotebook中安装:!pipinstallpandas模块的导入使用import语句导入模块import模块名as别名使用from语句导入模块:from模块名import函数名from模块名import函数名as别名认识Pandas模块

Pandas模块的主要功能Pandas是Python的核心数据分析支持库数据获取数据整理Pandas模块安装及导入Anaconda中自带Pandas库,无需另行安装导入:importpandasaspdSeries数据结构了解SeriesSeries是带索引的一维数组位置索引和标签索引创建Series如何创建pd.Series(data,index=[])通过列表创建Series创建Series如何创建pd.Series(data,index=[])通过字典创建Series字典的键作为索引index,字典的值作为数据data创建Series如何创建pd.Series(data,index=[])利用range()函数创建创建Seriesrange(start,stop,step)

初值

终值

步长访问Series通过索引访问Series访问Series通过切片访问Series按位置索引切片访问Series中的多个元素时,含头不含尾,即左闭右开。例如,访问s3中索引值从0到1的元素,需要用print(s3[0:2])。按标签索引切片访问Series中的多个元素时,含头又含尾。DataFrame数据结构了解DataFrameDataFrame是带标签的、大小可变的二维数组DataFrame数据结构了解DataFrame索引可以是位置索引,也可以是标签索引,DataFrame中表现为loc(标签索引)和iloc(数字索引、位置索引)两个属性。创建DataFrame1.以列表方式创建DataFrame自动生成索引0、1、2创建DataFrame1.以列表方式创建DataFrame指定索引创建DataFrame1.以列表方式创建DataFrame创建DataFrame2.以字典方式创建DataFrame

字典的键会作为列索引,列索引无需再单独设置。如果没有设置行索引,默认为从0开始的数字序列。访问DataFrame属性功能values查看所有元素的值dtypes查看所有元素的类型index查看所有行名、重命名行名columns查看所有列名、重命名列名T行列数据转换head查看前N条数据,默认前5条tail查看后N条数据,默认后5条shape查看行数和列数,shape[0]表示行,shape[1]表示列info查看索引、数据类型和内存信息访问DataFrame1.查看元素的值、类型、行名和列名访问DataFrame2.查询行数据(1)查询单行数据访问DataFrame2.查询行数据(2)查看不连续的多行访问DataFrame2.查询行数据(3)查看连续的多行访问DataFrame3.查询列数据访问DataFrame4.查询指定数据访问DataFrame5.查询符合条件的数据(1)设置单一查询条件访问DataFrame5.查询符合条件的数据(2)设置复合查询条件访问DataFrame6.表格转置编辑DataFrame1.增加行数据增加单行数据编辑DataFrame1.增加行数据增加多行数据编辑DataFrame2.增加列数据在数据集末尾增加列编辑DataFrame2.增加列数据在指定位置插入列编辑DataFrame3.修改数据(1)利用loc属性或iloc属性修改某处数据编辑DataFrame3.修改数据(2)修改列标题编辑DataFrame4.删除数据(1)利用drop删除数据编辑DataFrame4.删除数据(2)利用del删除数据将数据文件上载到JupyterNotebookExcel文件读写Excel文件读写在数据文件所在的文件夹中打开JupyterNotebook1.打开“D:\python”文件夹2.在路径框内输入“cmd”3.在命令提示符后输入“jupyternotebook”从Excel文件中获取数据导入Excel文件方法pd.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,converters=None)导入Excel文件实战(1)读取整个Excel文件从Excel文件中获取数据导入Excel文件实战(2)读取Excel文件中指定的工作表(3)读取工作表中指定的行从Excel文件中获取数据导入Excel文件实战(4)读取工作表中指定的列Excel文件读写写入单个工作表1.写入全部数据2.写入部分数据Excel文件读写写入多个工作表

项目4财务数据获取与清洗目录认识财务大数据从文件中获取数据通过数据接口获取数据财务数据清洗工具方法理论认识财务大数据

大数据与财务数据大数据大数据(Bigdata),也称巨量数据,指的是其数据规模巨大到无法通过人工或常规工具在合理时间内完成捕获、管理和处理的数据集合。财务数据财务账簿数据及报表数据企业的各项指标分析数据认识财务大数据

财务大数据来源数据分类数据来源网站及网址宏观经济数据国家统计局中国经济信息网金融统计数据中国人民银行财政数据财政部税务政策国家税务总局证券市场交易信息上市公司相关信息证券交易所官网上海证券交易所:w深圳证券交易所:www.szse.Cn北京证券交易所:w财经网站新浪财经:网易财经:巨潮资讯:商业数据库国泰安数据库CSMRA、锐思数据库RESSET万得数据库wind上市公司官网

数据服务公司Tushare证券宝Akshare从PDF文件中获取财务数据认识PDF文件PDF解释器pdfplumerpipinstallpdfplumber导入PDF文件提取PDF文件中的表格数据从网页上获取财务数据从HTML文件中获取数据pd.read_html(io,header=0,encoding)io:文件路径,可以是URL链接。Header:指定列标题所在的行。encoding:文件的编码格式。常见的文件编码格式有UTF-8/UTF-16/UTF-32、ASCII、GBK/GB2312/GB18030。从新浪财经爬取泸州老窖(000568)2023年利润表的数据。确定目标网站编写代码提取数据统计返回结果中表格的数量为表格标上序号提取利润表数据存储数据从网页上获取财务数据从新浪财经网站上爬取泸州老窖(股票代码:000568)2023年利润表的数据。确定目标网站“/corp/go.php/vFD_ProfitStatement/stockid/000568/ctrl/part/displaytype/4.phtml”编写代码从网页上获取财务数据从新浪财经网站上爬取泸州老窖(股票代码:000568)2023年利润表的数据。提取数据统计返回结果中表格的数量为表格标上序号提取利润表数据从网页上获取财务数据通过数据接口获取数据认识数据接口数据接口指获取数据的规范和方法,它是由数据拥有者定义,目的是方便用户顺利地采集数据。常用财务数据接口序号公司网址可提供的数据1Tushare股票、基金、期货、数字货币等行情数据,公司财务、基金经理等基本面数据2证券宝证券历史行情数据、上市公司财务数据3AKsharewww.akshare.xyz基于Python的财经数据接口库,目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具,主要用于学术研究目的。通过Tushare数据接口采集财务数据安装pipinstalltushare注册tushare社区获取TokenToken可以理解为是个人在tushare社区的身份证明通过Tushare数据接口采集财务数据了解Tushare数据平台通过Tushare数据接口采集财务数据利用Tushare采集上市公司基本信息了解tushare上市公司基本信息数据接口通过Tushare数据接口采集财务数据利用Tushare采集上市公司基本信息采集上市公司基本信息通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口1.查看利润表数据接口详细说明通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口2.找到接口使用说明和数据样例通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口3.对照接口使用说明理解输入参数的含义通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口4.对照数据样例理解输出参数的含义名称类型必选描述total_revenuefloatY营业总收入oth_b_incomefloatY其他业务收入total_cogsfloatY营业总成本other_bus_costfloatY其他营业成本operate_profitfloatY营业利润non_oper_incomefloatY加:营业外收入non_oper_expfloatY减:营业外支出total_profitfloatY利润总额income_taxfloatY所得税费用n_incomefloatY净利润(含少数股东损益)n_income_attr_pfloatY净利润(不含少数股东损益)ebitfloatY息税前利润ebitdafloatY息税折旧摊销前利润distable_profitfloatY可分配利润通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口用income采集单只股票利润表数据通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口通过指定输出参数来获取利润表中指定的数据通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口获取某一期全部股票数据财务数据清洗-缺失值检测及处理

缺失值缺失值是指数据集中某些属性的值不完整。缺失值表示为NaN,意为NotaNumber。如果是时间类型数据缺失,则显示为NaT(NotaTime)。财务数据清洗-缺失值检测及处理

缺失值检测isnull()和notnull()财务数据清洗-缺失值检测及处理缺失值检测用info()函数查看数据集整体情况财务数据清洗-缺失值检测及处理缺失值处理删除有缺失值的行或列dropna()财务数据清洗-缺失值检测及处理缺失值处理填充缺失值fillna()用固定值填充全表财务数据清洗-缺失值检测及处理缺失值处理填充缺失值fillna()用固定值填充指定列财务数据清洗-缺失值检测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论