版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目4财务数据获取与清洗目录认识财务大数据从文件中获取数据通过数据接口获取数据财务数据清洗工具方法理论认识财务大数据
大数据与财务数据大数据大数据(Bigdata),也称巨量数据,指的是其数据规模巨大到无法通过人工或常规工具在合理时间内完成捕获、管理和处理的数据集合。财务数据财务账簿数据及报表数据企业的各项指标分析数据认识财务大数据
财务大数据来源数据分类数据来源网站及网址宏观经济数据国家统计局中国经济信息网金融统计数据中国人民银行财政数据财政部税务政策国家税务总局证券市场交易信息上市公司相关信息证券交易所官网上海证券交易所:w深圳证券交易所:www.szse.Cn北京证券交易所:w财经网站新浪财经:网易财经:巨潮资讯:商业数据库国泰安数据库CSMRA、锐思数据库RESSET万得数据库wind上市公司官网
数据服务公司Tushare证券宝Akshare从PDF文件中获取财务数据认识PDF文件PDF解释器pdfplumerpipinstallpdfplumber导入PDF文件提取PDF文件中的表格数据从网页上获取财务数据从HTML文件中获取数据pd.read_html(io,header=0,encoding)io:文件路径,可以是URL链接。Header:指定列标题所在的行。encoding:文件的编码格式。常见的文件编码格式有UTF-8/UTF-16/UTF-32、ASCII、GBK/GB2312/GB18030。从新浪财经爬取泸州老窖(000568)2023年利润表的数据。确定目标网站编写代码提取数据统计返回结果中表格的数量为表格标上序号提取利润表数据存储数据从网页上获取财务数据从新浪财经网站上爬取泸州老窖(股票代码:000568)2023年利润表的数据。确定目标网站“/corp/go.php/vFD_ProfitStatement/stockid/000568/ctrl/part/displaytype/4.phtml”编写代码从网页上获取财务数据从新浪财经网站上爬取泸州老窖(股票代码:000568)2023年利润表的数据。提取数据统计返回结果中表格的数量为表格标上序号提取利润表数据从网页上获取财务数据通过数据接口获取数据认识数据接口数据接口指获取数据的规范和方法,它是由数据拥有者定义,目的是方便用户顺利地采集数据。常用财务数据接口序号公司网址可提供的数据1Tushare股票、基金、期货、数字货币等行情数据,公司财务、基金经理等基本面数据2证券宝证券历史行情数据、上市公司财务数据3AKsharewww.akshare.xyz基于Python的财经数据接口库,目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具,主要用于学术研究目的。通过Tushare数据接口采集财务数据安装pipinstalltushare注册tushare社区获取TokenToken可以理解为是个人在tushare社区的身份证明通过Tushare数据接口采集财务数据了解Tushare数据平台通过Tushare数据接口采集财务数据利用Tushare采集上市公司基本信息了解tushare上市公司基本信息数据接口通过Tushare数据接口采集财务数据利用Tushare采集上市公司基本信息采集上市公司基本信息通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口1.查看利润表数据接口详细说明通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口2.找到接口使用说明和数据样例通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口3.对照接口使用说明理解输入参数的含义通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口4.对照数据样例理解输出参数的含义名称类型必选描述total_revenuefloatY营业总收入oth_b_incomefloatY其他业务收入total_cogsfloatY营业总成本other_bus_costfloatY其他营业成本operate_profitfloatY营业利润non_oper_incomefloatY加:营业外收入non_oper_expfloatY减:营业外支出total_profitfloatY利润总额income_taxfloatY所得税费用n_incomefloatY净利润(含少数股东损益)n_income_attr_pfloatY净利润(不含少数股东损益)ebitfloatY息税前利润ebitdafloatY息税折旧摊销前利润distable_profitfloatY可分配利润通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口用income采集单只股票利润表数据通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口通过指定输出参数来获取利润表中指定的数据通过Tushare数据接口采集财务数据了解Tushare财务数据采集数据接口获取某一期全部股票数据财务数据清洗-缺失值检测及处理
缺失值缺失值是指数据集中某些属性的值不完整。缺失值表示为NaN,意为NotaNumber。如果是时间类型数据缺失,则显示为NaT(NotaTime)。财务数据清洗-缺失值检测及处理
缺失值检测isnull()和notnull()财务数据清洗-缺失值检测及处理缺失值检测用info()函数查看数据集整体情况财务数据清洗-缺失值检测及处理缺失值处理删除有缺失值的行或列dropna()财务数据清洗-缺失值检测及处理缺失值处理填充缺失值fillna()用固定值填充全表财务数据清洗-缺失值检测及处理缺失值处理填充缺失值fillna()用固定值填充指定列财务数据清洗-缺失值检测及处理缺失值处理填充缺失值fillna()用临近值填充财务数据清洗-缺失值检测及处理缺失值处理填充缺失值fillna()用均值填充财务数据清洗-重复值检测及处理
重复值数据集中存在全部或部分属性值相同的情况。重复值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论