AI+Python 财务应用基础 课件 项目5、6 AI+Python数据采集与清洗、AI+Python第三方模块数据可视化分析应用_第1页
AI+Python 财务应用基础 课件 项目5、6 AI+Python数据采集与清洗、AI+Python第三方模块数据可视化分析应用_第2页
AI+Python 财务应用基础 课件 项目5、6 AI+Python数据采集与清洗、AI+Python第三方模块数据可视化分析应用_第3页
AI+Python 财务应用基础 课件 项目5、6 AI+Python数据采集与清洗、AI+Python第三方模块数据可视化分析应用_第4页
AI+Python 财务应用基础 课件 项目5、6 AI+Python数据采集与清洗、AI+Python第三方模块数据可视化分析应用_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI+Python数据采集与清洗CONTENTS目录01

课程学习目标02

数据采集概述03

通过数据接口采集数据04

通过网络爬虫采集数据05

数据清洗概述CONTENTS目录06

缺失值处理07

重复值处理08

异常值处理09

AI+Python财务应用拓展课程学习目标01知识目标数据接口获取数据方法

掌握利用数据接口获取数据的操作方法,包括了解接口规则、使用示范代码及通过循环获取不同维度数据,如证券宝query_growth_data()接口获取上市公司季频成长能力数据。网络爬虫概念与操作

了解网络爬虫概念,即按规则自动抓取网络数据的程序或脚本,掌握其爬取数据的操作方法,包括基本原理、工作流程及静态页面爬取,如利用pd.read_html()函数爬取IMF数据。AI+Python业务逻辑理解

理解AI+Python进行数据采集和清洗的业务逻辑,包括人机协同开发模式(AI生成代码模板、可视化工具检查结果),以及数据采集质量要求(真实性、准确性等)和合规要点。能力目标

外部数据采集能力能够根据业务需求,通过“AI助手+Python编程”模式,利用数据接口(如证券宝、AKShare)、网络爬虫等实现完整的外部数据采集,例如分步骤采集农业企业或深圳证券交易所数据并以DataFrame格式输出。

数据清洗加工能力能够根据业务需求,通过“AI助手+Python编程”模式,对缺失值(删除或填充)、重复值(检测与删除)、异常值(箱线图法等识别与处理)进行清洗和初步加工,提升数据质量。素养目标数字素养与隐私保护提升数字素养,注重在数据采集与处理过程中保护数据隐私,严格遵守《中华人民共和国数据安全法》等法律法规,尊重知识产权,避免侵犯他人合法权益,培养社会公德和职业道德。创新与批判性思维通过修改和迭代数据采集与清洗程序,培养创新思维和批判性思维,能够对AI生成的代码及清洗结果进行合理性检查,应对AI幻觉等问题。合规审查与算法偏见防范建立AI数据采集的合规审查意识,规范数据处理活动,履行数据安全保护义务,同时防范算法偏见导致的数据失真,确保数据应用的公正性和可靠性。人机协同辩证思维培养人机协同的辩证思维,平衡自动化采集与人工验证的关系,认识到AI技术提升效率的同时,需结合人工判断保障数据质量与合规性,承担社会责任。数据采集概述02数据采集的重要性数据生命周期的起点数据采集是数据生命周期的首要环节,为后续的数据分析、机器学习等提供基础数据支撑,直接影响数据应用的质量和效果。驱动多领域决策与发展在商业决策中,高质量数据助力企业精准把握市场动态;科学研究依赖数据推动创新发现;社会治理通过数据提升管理效率,数字经济时代对数据采集的需求日益迫切。数据质量的关键保障采集过程需关注数据的真实性、准确性、完整性和时效性,同时严格遵守法律法规,尊重知识产权,避免侵犯他人合法权益,确保数据合规可用。数据采集的途径

数据库通过数据库获取数据需具备访问权限,基于数据安全考量,一般人员较难获取权限,受限较多。

数据接口数据接口提供规范、完整的数据,能减少后期处理工作。如证券宝提供季频盈利能力、营运能力等多种接口,可通过调整参数获取不同上市公司不同时期数据。

网络爬虫当无数据库访问权限和合适第三方接口时,网络爬虫是可行方式。它按规则自动抓取网页内容,如投资者爬取财经网站数据用于分析,高校就业办爬取招聘数据指导就业。

本课程重点因数据库访问权限受限,本课程重点讲解数据接口和网络爬虫两种数据采集方法。通过数据接口采集数据03数据接口规则了解

证券宝核心数据接口功能证券宝提供季频盈利能力(query_profit_data())、营运能力(query_operation_data())、成长能力(query_growth_data())等接口,可查询企业财务数据,如净资产同比增长率、净利润同比增长率等关键指标。

接口说明与示范代码获取通过证券宝官网对应接口链接(如“季频成长能力”),可查看接口参数描述、算法说明及示范代码。以query_growth_data()为例,参数包括股票代码(code)、统计年份(year)、季度(quarter)等,算法明确各指标计算公式。示范代码运行与分析代码结构与登录系统代码需先安装baostock模块(pipinstallbaostock),通过bs.login()登录系统,返回error_code和error_msg验证登录状态(示例输出“loginsuccess!”)。数据获取与结果展示调用query_growth_data(code='sh.600519',year=2024,quarter=4)获取贵州茅台2024年Q4成长数据,通过循环append()存储结果,用pandas.DataFrame格式化输出,包含pubDate(发布日期)、YOYNI(净利润同比增长率)等字段。结果参数解析输出结果中英文索引可,如“YOYEquity”表示净资产同比增长率,计算公式为(本期净资产-上年同期净资产)/上年同期净资产绝对值×100%。利用循环获取多维度数据

01可变参数调整方法核心参数包括股票代码(sh/sz+6位数字,如sh.601398)、年份(默认当年)、季度(1-4,默认当前季度),通过修改参数可定向采集目标数据。

02嵌套循环实现批量采集使用for循环嵌套遍历年份和季度,示例代码获取sh.600519在2022-2024年各季度成长数据,通过result_growth输出多维度时间序列数据,提升采集效率。

03多接口扩展应用更换接口方法(如query_operation_data())可采集营运能力数据,保持代码框架不变,仅需调整函数名及对应参数,实现财务数据的全方位获取。AI工具辅助数据接口采集

AI提示词设计要点提示词需明确数据源(如AKShare)、目标(农业企业数据采集)、背景(乡村振兴)、输出格式(DataFrame)及展示要求(代码注释+结果),示例:“利用AKShare接口,分步骤采集北大荒(600598)2025.7.1-9.30日线数据,以DataFrame输出并注释”。

腾讯云AI代码助手输出示例AI生成代码包含模块导入(importakshareasak)、数据采集(ak.stock_zh_a_hist())、结果处理(daily_()),融入乡村振兴背景描述,并输出数据基本信息及DataFrame格式结果,减少人工编码工作量。AI工具辅助数据接口采集AI提升采集效率的优势AI可快速生成标准化代码模板,自动处理接口调用逻辑(如参数校验、数据格式化),用户仅需微调参数即可适配不同场景,实现“自然语言指令→代码→数据”的高效转化。通过网络爬虫采集数据04网络爬虫基本原理与工作流程网络爬虫的定义与本质网络爬虫是按照一定规则自动抓取网络数据的程序或脚本,其本质是自动化技术,可根据指定URL获取网页中的图像、文字、视频、音频等信息,并保存到本地或数据库。客户端与服务器交互原理客户端向服务器发送访问请求,服务器验证请求有效性后发送响应内容,客户端接收并展示内容,此为网络爬虫数据获取的底层交互逻辑。网络爬虫的一般工作流程网络爬虫工作流程广泛应用于财经数据爬取、招聘信息采集等场景,其流程主要包括发起请求、接收响应、解析内容、提取数据、存储数据等环节。静态网页数据爬取实例查看数据所在网页登录国际货币基金组织官网,进入世界经济数据库详情页面,确定目标数据所在位置及网页类型。分析网页结构与数据格式通过浏览器右键查看网页源代码,判断该页面为静态页面,数据呈表格样式,适合使用read_html()函数进行爬取。编写代码获取特定数据利用pd.read_html()函数读取网页表格数据,通过筛选年份列(如['SubjectDescriptor','2024']),可获取马来西亚2024年国内生产总值、一般政府收入和一般政府总支出等数据。多维度数据爬取方法

获取连续年份数据构建年份列表(如['SubjectDescriptor']+[str(year)foryearinrange(2020,2025)]),从爬取的表格数据中筛选出2020-2024年的连续数据。

获取不连续年份数据指定所需不连续年份(如['SubjectDescriptor','2010','2015','2020']),直接从表格数据中提取对应年份列,实现非连续年份数据的精准获取。

获取多个国家数据修改URL中国家参数(如'c=548,112'代表马来西亚和英国),结合年份筛选(如2020-2024年),可同时获取多个国家在指定年份的目标数据。AI工具辅助网络爬虫采集

01AI提示词设计向腾讯云AI代码助手输入提示词:“利用网络爬虫技术,分步骤完成深圳证券交易所数据的采集,以DataFrame格式输出数据采集结果,并对代码注释和输出结果进行详细展示。”

02AI生成代码解析AI输出代码包含导入requests、pandas等库,设置请求URL、参数(如日期范围)及headers,发送请求、解析JSON数据、处理异常等步骤,并对“今日融资买入额”“今日融券余额”等列进行重命名。

03数据采集结果展示运行AI生成的代码,可获取深圳证券交易所融资融券数据,最终以DataFrame格式输出,包含“今日融资买入额”“今日融资融券余额”等关键指标,便于后续分析使用。数据清洗概述05数据清洗的意义

原始数据常见问题通过网络爬虫等方式采集到的数据,常存在缺失值(如NaN表示的不完整属性值)、重复值(多由系统错误或重复录入导致)、异常值(偏离数据正常范围的值)等问题,影响数据质量。

数据清洗的核心价值数据清洗是将“脏数据”转化为“干净数据”的关键步骤,能有效提升数据的真实性、准确性、完整性和一致性,为后续数据分析、机器学习等工作提供可靠的数据基础,保证分析结果的准确性和可信度。数据基本信息了解工具

数据预览工具:head()与tail()head()函数可查看数据的前几行(默认前5行),tail()函数可查看数据的后几行(默认后5行),帮助快速了解数据的整体结构、列名及数据格式。

数据量统计工具:count()count()函数用于统计每列非缺失值的数量,通过对比不同列的count值,可初步判断数据是否存在缺失值,为缺失值处理提供依据。

数据分布描述工具:describe()describe()函数可生成数据的基本统计量,包括计数、均值、标准差、最小值、最大值及四分位数等,帮助了解数据的集中趋势、离散程度和分布范围,为异常值检测提供参考。缺失值处理06缺失值查找方法01基础判断函数:isnull()与notnull()isnull()函数用于检测数据是否为缺失值(NaN),返回布尔值(True表示缺失);notnull()函数则判断是否为非缺失值(False表示缺失),二者为互补关系。02统计每列缺失值数量通过df.isnull().sum()可快速计算各列缺失值总数,直观呈现数据缺失分布。例如某利润表数据中,"净利润"列缺失值数量为1,其他列无缺失。03全局缺失值判断使用df.isnull().any().any()可判断数据集中是否存在缺失值,返回True则表示存在至少一个缺失值,便于快速筛查数据质量。04缺失值位置定位通过df.isnull()生成布尔矩阵,True对应位置即为缺失值所在行和列,结合iloc[]可精确定位具体缺失数据,辅助分析缺失原因。缺失值处理方式-删除

适用场景1:缺失值极少当缺失值占比极低(如数万行数据中仅1行缺失),对整体分析影响可忽略时,直接删除所在行。

适用场景2:缺失量过大若某特征列缺失值占比超90%(如"行业分类"列95%为空),该列已无分析价值,可删除整列以简化数据集,避免无效计算。

适用场景3:无法填充的缺失值对于不可随意推断的属性(如人口普查中"性别"列缺失),因填充可能引入偏差,需删除对应行以保证数据真实性。

删除操作实现:dropna()方法默认df.dropna(axis=0)删除含缺失值的行,df.dropna(axis=1)删除含缺失值的列。例如df_cleaned=df.dropna()可删除缺失数据。缺失值处理方式-填充

手动填充:指定值替换根据业务规则直接填充固定值,如用0填充"补贴收入"列的缺失值(df.fillna(0)),适用于明确缺失原因为"无该项数据"的场景。

临近填充:前向与后向填充前向填充(df.fillna(method='ffill'))用相邻前一个非缺失值填充,后向填充(df.fillna(method='bfill'))用相邻后一个非缺失值填充,适用于时间序列数据(如月度销售额)的零散缺失。

统计量填充:均值/中位数填充对数值型数据,可用列平均值(df.mean())或中位数(df.median())填充,避免数据分布偏移。重复值处理07重复值检测方法完全重复行检测完全重复行指所有列数据均相同的记录,可通过df.duplicated()函数直接检测,返回布尔值表示是否重复,sum()可统计重复行数。指定字段重复检测:以发票号为例针对关键标识字段(如发票号),使用df.duplicated(subset=['发票号'],keep=False)检测重复,keep=False标记所有重复项。业务特征组合重复检测结合业务场景,通过多字段组合(如日期+交易类型+部门)检测潜在重复,使用df.duplicated(subset=['日期','交易类型','部门'],keep=False)实现。重复值处理方法删除完全重复行使用df.drop_duplicates()直接删除所有完全重复的行,默认保留第一条记录,适用于无业务意义的完全重复数据。按关键字段保留指定记录针对指定字段(如发票号),通过subset参数控制保留规则:keep='first'保留第一条记录,keep='last'保留最后一条。重复记录标记与人工核验使用df[df.duplicated(subset=['发票号'],keep=False)]筛选并标记所有重复记录,便于人工核查区分合理重复(如同业务多批次)与错误重复,需要业务人员进一步校验处理。异常值处理08异常值识别方法

异常值的概念与影响异常值指偏离数据正常范围的值,非错误值但出现概率低,会显著扭曲数据分析结果,尤其对数值型数据预测分析产生误导。

箱线图法识别步骤1.计算四分位数:下四分位数(Q1)、上四分位数(Q3);2.计算四分位距(IQR=Q3-Q1);3.确定上下界:下界=Q1-1.5*IQR,上界=Q3+1.5*IQR;4.超出上下界的数据即为异常值。异常值处理策略

删除异常值适用于异常值极少(如数万条中个别)、缺失量过大无分析价值或无法填充场景(如人口普查性别缺失),使用pandas的dropna()方法删除所在行或列,需评估对数据集影响。

填充异常值包括手动填充(指定值或0填充)、临近填充(前向ffill或后向bfill填充零散缺失)、统计量填充(用平均值等填充数值型数据),需谨慎使用避免影响分析结果。

处理注意事项处理前需明确分析目标和数据结构,区分异常值是人为失误还是合理存在(如同业绩记录),避免误删;结合业务需求选择合适方法,确保数据清洗质量以保障分析准确性。AI+Python财务应用拓展09财务数据采集与分析案例

案例背景与目标上市公司财务分析师需通过证券宝数据接口获取季频盈利能力数据,处理缺失值、重复值和异常值,利用AI模型分析历史数据并预测未来净利润,为管理层战略决策提供数据支持。

数据采集与清洗实现使用baostock库登录证券宝,调用query_profit_data()接口采集季频数据;通过前值填充缺失值、删除重复值、过滤负净利润异常值完成数据预处理,确保数据质量。

AI模型预测与可视化以时间为自变量、净利润为因变量,构建线性回归模型,经训练后预测未来4个季度净利润,MSE评估模型误差;绘制历史与预测净利润趋势图,直观展示财务趋势,辅助决策判断。THEEND谢谢AI+Python第三方模块数据可视化分析CONTENTS目录01

项目概述与学习目标02

AI+matplotlib可视化分析03

AI+pyecharts可视化分析04

AI在数据可视化中的应用实践05

总结与展望项目概述与学习目标01项目背景

AI在财务数据可视化中的角色升级AI技术正从单纯的“绘图工具”转变为“分析伙伴”,在财务数据可视化实践中,能自动识别数据结构、推荐最优图表类型,如检测到多指标对比需求时建议使用pyecharts绘制并行柱形图,通过自然语言交互自动生成Python代码,降低编程门槛。

AI+Python第三方模块的价值结合AI与Python第三方模块(如matplotlib、pyecharts),可实现数据可视化效率和深度的提升,帮助财务人员将复杂财务数据转化为直观图表,为企业决策提供有力支持,本项目旨在让读者掌握相关实现逻辑与方法。知识目标matplotlib模块掌握内容掌握利用matplotlib模块绘制柱形图、散点图、折线图、饼图等图形的一般方法及样式设置,同时掌握组合图的绘制方式,其pyplot子模块是核心模块之一,可绘制几乎所有样式的2D图形。pyecharts模块掌握内容掌握利用pyecharts模块绘制柱形图、条形图、折线图、饼图等图形的一般方法及样式设置,以及层叠图、并行图的绘制方式,该模块能生成动态交互的可视化效果,支持列表、元组等Python原生数据类型。AI辅助图表优化方法理解AI+第三方模块进行数据可视化分析的业务逻辑,掌握生成式AI辅助图表样式优化的基础方法,AI可辅助进行数据识别、代码生成及图表优化建议。能力目标解决财务数据可视化问题的能力

能够根据业务需求和数据结构,运用“AI助手+Python编程”模式,解决财务数据可视化问题,例如处理季度营收数据、国民总收入变化等财务场景的数据展示。优化和改进可视化图形的能力

能够根据业务场景,运用“AI助手+Python编程”模式,对可视化图形进行优化和改进,如设置折线图颜色、柱形图宽度、饼图标签格式等,提升图形实用性和可读性。生成方案建议与实现联动分析的能力

能够运用AI工具自动解析财务数据特征,生成可视化方案建议;能够通过对话式AI快速实现多维度数据钻取分析的可视化联动,如将华北区销售趋势线与竞品数据叠加显示。素养目标

确保数据真实性与评估结果局限性遵循科学原则,确保数据的真实性和准确性,在使用可视化结果时,能够批判性地对其进行评估,理解可视化结果可能存在的局限性。

保证图形实用性与可读性秉承工匠精神,在绘制可视化图形过程中,注重细节设置,确保图形具有良好的实用性和可读性,以便清晰呈现数据内在规律。

建立人机协同责任意识建立人机协同的责任意识,辩证评价AI生成的可视化方案,识别算法可能存在的表达偏差,合理利用AI技术辅助财务数据可视化工作。AI+matplotlib可视化分析02matplotlib模块基础

matplotlib模块概述matplotlib是Python的第三方模块,能绘制各式各样的2D图形,其pyplot子模块是核心模块之一,几乎所有样式的2D图形都可通过该子模块绘制。

pyplot子模块常用函数pyplot子模块提供多种绘图函数,如.plot()绘制折线图、.scatter()绘制散点图、.hist()绘制直方图、.pie()绘制饼图、.bar()绘制柱形图、.boxplot()绘制箱形图、.barh()绘制条形图等。matplotlib绘图步骤

创建画布使用plt.figure()函数创建画布,可通过figsize参数设置画布大小,如plt.figure(figsize=(10,6))。

创建坐标系系统默认会在画布上创建一个坐标系,若要绘制多个图形,需自行创建多个坐标系,可通过plt.subplot()或plt.subplots()等函数实现。

选择图表类型并绘制图形根据数据特点和分析需求选择合适的图表类型,调用对应的绘图函数(如折线图用plot()、柱形图用bar()等)传入数据完成绘制,最后用plt.show()显示图表。常见图形绘制-折线图

01折线图绘制函数及语法在matplotlib中使用pyplot子模块的plot()函数绘制折线图,语法格式为pyplot.plot(x,y),其中x、y分别表示x轴、y轴数据。

022020—2024年国民总收入折线图绘制示例准备2020-2024年年份数据[2020,2021,2022,2023,2024]和对应国民总收入数据[1026751.9,1165816.8,1223706.8,1284773.9,1339814.6],设置中文字体,创建画布后调用plt.plot(years,gnis)绘制,添加标题、坐标轴标签及刻度后显示图表。常见图形绘制-柱形图

柱形图绘制函数及语法柱形图通过柱形条高度展示数据差异,使用pyplot子模块的bar()函数绘制,语法格式为pyplot.bar(x,y),x、y分别为x轴、y轴数据。

与折线图绘制的差异绘制柱形图只需将折线图的plot()函数修改为bar()函数即可,其他设置(如中文字体、画布大小、标题、坐标轴标签等)与折线图类似。

2020—2024年国民总收入柱形图绘制示例使用与折线图相同的年份和国民总收入数据,将plt.plot(years,gnis)替换为plt.bar(years,gnis),即可绘制出展示2020-2024年国民总收入变化的柱形图。常见图形绘制-散点图

散点图绘制函数及作用散点图通过点的分布揭示两个变量之间的关系,可识别数据中的线性关系、趋势及相关性,使用pyplot子模块的scatter()函数绘制,语法格式为pyplot.scatter(x,y)。

多系列数据散点图绘制示例以2020-2024年国民总收入与国内生产总值对比为例,准备年份数据[2020,2021,2022,2023,2024]、国民总收入数据[1026751.9,1165816.8,1223706.8,1284773.9,1339814.6]和国内生产总值数据[1034867.6,1173823.0,1234029.4,1294271.7,1349083.5],分别调用scatter()函数并设置不同颜色和标记。常见图形绘制-饼图

饼图绘制函数及作用饼图用于展示各个类别数据占总体数据的比例,反映部分和整体之间的关系,使用pyplot子模块的pie()函数绘制,语法格式为pyplot.pie(x),x表示数据。

2024年三大产业增加值饼图绘制步骤首先整理2024年第一产业、第二产业、第三产业(增加值数据,设置标签和颜色,创建画布后调用plt.pie()函数,通过autopct参数设置百分比显示格式(如'%1.2f%%'保留两位小数),添加标题后显示图表。组合图绘制

组合图概念组合图是在同一个坐标系中绘制多个图形,用于呈现关联数据之间的联系,要求组合的图形使用同一个横坐标轴。

国民总收入与国内生产总值组合图示例以2020-2024年数据为例,创建画布后,用ax1.bar()绘制国民总收入柱形图,通过ax1.twinx()创建次坐标轴ax2,再用ax2.plot()绘制国内生产总值折线图,设置标题、坐标轴标签,合并图例后显示图表,直观展示两者变化趋势。子图绘制子图概念子图是将多个图形分别绘制在同一个画布的多个坐标系中,可根据需求设置子图位置和布局。pyplot.subplot()函数绘制子图语法格式为pyplot.subplot(nrows,ncols,index,…),如pyplot.subplot(2,2,1)表示创建2×2的网格,并取第一个网格作为子图位置。pyplot.subplots()函数绘制子图语法格式为pyplot.subplots(nrows,ncols,figsize,sharex,sharey,…),可通过元组接收子图对象,如fig,(ax1,ax2)=plt.subplots(1,2,figsize=(12,5))创建1行2列的子图布局,分别在ax1和ax2上绘制不同图形。AI+pyecharts可视化分析03pyecharts模块基础

pyecharts与matplotlib对比特点pyecharts是Python第三方可视化模块,与matplotlib相比,其核心优势在于支持动态交互效果,鼠标悬停即可显示数据详情;但不支持numpy、pandas数组类型,仅兼容列表、元组等Python原生数据类型。

pyecharts部分图表类型提供30+图表类型,涵盖基础与高级可视化需求,如Bar(柱形图/条形图)、Line(折线图/面积图)、Pie(饼图)、Scatter(散点图)、HeatMap(热力图)、Map(地图)、Gauge(仪表盘)、Bar3D(3D柱形图)等。pyecharts绘图步骤

导入相关模块首先需导入charts子模块中的作图类(如Line、Bar、Pie)和options模块(用于样式配置),例如:frompyecharts.chartsimportLine;frompyechartsimportoptionsasopts。

添加图表基础数据通过add_xaxis()和add_yaxis()方法分别添加x轴和y轴数据,数据格式需为列表或元组,如:line.add_xaxis(['2020','2021']);line.add_yaxis("销售额",[100,200])。pyecharts绘图步骤进行样式设置及渲染图表使用set_global_opts()配置标题、坐标轴、图例等全局样式,set_series_opts()设置系列样式;最后通过render_notebook()(Jupyter环境)或render()(生成HTML文件)渲染图表。常见图形绘制-折线图与柱形图

折线图绘制示例以2020-2024年就业人数数据(万人:75064、74652、73351、74041、73439)为例,通过Line类创建对象,添加x轴年份和y轴就业人数数据,设置标题为“2020—2024年就业人数”,调用render_notebook()生成动态折线图。

柱形图绘制示例使用Bar类绘制上述就业人数数据,通过label_opts=opts.LabelOpts(position='top')将数值标签显示在柱形顶部,配置tooltip_opts=opts.TooltipOpts(trigger='axis')启用坐标轴触发提示框,y轴添加网格线增强可读性。常见图形绘制-条形图与饼图

条形图转换方法在柱形图基础上调用reversal_axis()函数转置坐标轴,即可将垂直柱形图转换为水平条形图,适用于类别名称较长或需突出数值对比的场景,如2020-2024年就业人数横向对比。

饼图绘制与配置以2023年三大产业就业人数(第一产业16882万、第二产业21520万、第三产业35639万)为例,通过Pie类添加数据对,设置radius=['30%','70%']控制环形大小,label_opts格式化标签为“{b}:{c}万人({d}%)”,实现占比可视化。并行图绘制Grid作图类功能并行图指同一画布中分布多个独立图表(类似matplotlib子图),通过Grid类实现。需先实例化Grid对象,再使用add()方法依次添加已创建的图表,并通过GridOpts配置pos_top、pos_bottom等参数调整位置。柱形图与折线图并行示例语法示例:grid=Grid();grid.add(bar_chart,grid_opts=opts.GridOpts(pos_bottom='50%'));grid.add(line_chart,grid_opts=opts.GridOpts(pos_top='50%')),实现上下分布的双图表布局,避免标题与图例重叠。层叠图绘制

层叠图概念层叠图是将多个图表叠加显示在同一坐标系中,如柱形图与折线图叠加、折线图与散点图叠加,用于展示多维度数据关联关系。

overlap()函数实现方法先分别创建需叠加的图表对象(如bar和line),再调用bar.overlap(line)将折线图叠加到柱形图上,实现数据对比可视化。例如:在销售额柱形图上叠加增长率折线图,直观展示销量与增速关系。AI在数据可视化中的应用04AI自动识别数据与推荐图表

01数据结构智能解析AI能自动识别财务数据结构,如在处理季度营收数据时,可快速判断数据维度、指标类型及关系,为后续可视化奠定基础。

02最优图表类型推荐基于数据特征与分析需求推荐图表,例如检测到多指标对比需求时,会建议使用pyecharts绘制并行柱形图,直观呈现数据差异。

03财务场景应用实例在财务数据可视化实践中,AI从“绘图工具”升级为“分析伙伴”,通过对数据的深度理解,提供契合业务场景的图表方案,提升分析效率。自然语言交互生成代码自然语言指令转化用户通过自然语言描述可视化需求,如“将华北区销售趋势线设为红色加粗,并与竞品数据叠加显示”,AI可准确理解并转化为操作逻辑。Python代码自动生成根据自然语言指令,AI自动生成对应的Python代码,无需用户手动编写复杂代码,有效降低编程门槛,让非专业人员也能快速实现可视化。交互效率提升价值自然语言交互方式简化了操作流程,用户可实时调整图表样式与数据展示方式,大幅缩短从需求提出到图表生成的时间,提升工作效率。AI辅助多维度数据钻取分析01数据特征自动解析与方案建议AI工具能够自动解析财务数据特征,如数据分布、异常值、趋势变化等,并基于此生成可视化方案建议,为分析提供方向。02对话式多维度数据钻取通过对话式AI,用户可进行多维度数据钻取分析,实现可视化联动,如从整体销售数据下钻到区域、产品等细分维度,深入挖掘数据价值。03人机协同分析模式建立人机协同的分析模式,AI辅助处理数据与生成初步方案,用户结合专业知识进行判断与调整,辩证评价AI方案,识别可能存在的表达偏差,提升分析准确性。AI驱动的行业案例分析电商销售数据分析某电商平台基于Python+AI构建智能分析平台,业务部门通过自然语言提问自动生成可视化报告,分析月度销售额趋势、商品类别占比及客户地域分布,提升数据驱动决策效率。制造企业智能报表系统大型制造企业集成FineBI与Python实现AI可视化方案,月度报表自动生成节省70%分析时间,管理者通过自然语言查询"本月产线异

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论