版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
工程项目投资智能化决策第九章主要内容第一节财务数据采集第二节财务数据处理第三节数据挖掘及在工程项目投资决策中的应用第四节数据可视化第一节财务数据采集数据采集的概念与分类大数据采集的概念和方式财务大数据采集
财务数据采集数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是反映客观事物属性的记录,是信息的具体表现形式。
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口,数据采集本质上是对世界认知的过程。数据采集的概念与分类财务数据采集数据采集分为多种,如:把纸质的或非结构化数据(文本信息、图像信息、视频信息、声音信息等)整理成可以存入数据库的结构化数据,将已有的某数据库中数据导出到另一个数据库中,通过观察记录获知某些环境指标(人口统计、天气数据、用户搜索数据、关联数据、位置数据等)变化的过程都可以称为数据采集。数据采集的概念与分类财务数据采集大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的资讯。维克托·迈尔-舍恩伯格及肯尼斯·库克耶
《大数据时代》
大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据采集的概念和方式财务数据采集特点(IBM提出5V):
Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)大数据采集的概念和方式大数据采集方法:数据库采集系统日志采集网络数据采集感知设备数据采集财务数据采集大数据存储方式:分布式系统NoSQL数据库云数据库大数据采集的概念和方式大数据存储技术路线:MPP架构的新型数据库集群基于Hadoop的技术扩展大数据一体机财务数据采集大数据存储方式:分布式系统NoSQL数据库云数据库大数据采集的概念和方式大数据存储技术路线:MPP架构的新型数据库集群基于Hadoop的技术扩展大数据一体机企业财务大数据采集的来源包括企业外部和内部数据,前者属于交易系统数据采集,后者是事项数据采集。第二节财务数据处理财务数据分析财务数据预处理
财务数据处理数据质量分析:缺失值分析异常值分析数据一致性分析重复数据分析特殊符号分析财务数据分析数据统计特征分析:分布分析对比分析统计量分析周期性分析贡献度分析相关性分析财务数据处理Numpy函数功能np.sin对每个元素求正弦np.cos对每个元素求余弦np.arange(num1,num2)创建一个从num1到num2的数组array.reshape(行,列)改变array的形状array1*array2两个array对应元素相乘np.dot(array1,array2)两个array进行矩阵乘法array1.dot(array2)矩阵乘法np.min()最小值np.max()最大值np.mean()均值np.median中位数np.sort()逐行排序array.T转置array[:,]取第1列np.vstack((array1,array2))将两个数组上下合并np.hstack((array1,array2,array3))将多个array左右合并Numpy常用函数Numpy库的主要特点是引入数组的概念,数组其实是和列表有点类似财务数据处理Pandas常用函数Pandas函数功能pd.Series(list1,index=list2)将list1转变为dataframe,索引为list2df.describe()df的一些描述df.dtypes查看df的类型df.index所有行名df.columns所有列名df.values所有值df.T转置df.sort_index(axis=0/1,ascending=True/False)按行或列排序,倒序还是顺序df['A']df.A选择数据df.head(num)只打印前num行data.rolling(K).mean()表示每K项进行一次均值,滚动计算rolling().var()计算滚动方差rolling().std()计算滚动标准差rolling().corr()计算滚动相关系数rolling().cov()计算滚动协方差矩阵rolling().skew()计算滚动偏度(三阶矩)rolling().kurt计算滚动峰度(四阶矩)Pandas库是基于Numpy库的一个开源Python库,被广泛用于完成数据快速分析及数据清洗和准备等工作,其名字来源于“paneldata”。Pandas库提供非常直观的数据结构及强大的数据管理和数据处理功能,某种程度上可以把Pandas库看成Python版的Excel。相较于Numpy库来说,Pandas库更善于处理二维数据。财务数据处理数据清理(清洗)
去掉数据中的噪声,纠正不一致,如缺失值处理、离群和噪声值处理、异常范围及类型值处理。数据集成
将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。数据变换(转换)
将一种格式的数据转换为另一格式的数据,如特征二值化、特征归一化、连续特征变化,定性特征哑编码等。数据归约(消减)通过聚集、删除冗余属性或聚类等方法来压缩数据,如小波变换等。财务数据预处理第三节数据挖掘及在工程项目投资决策中的应用数据挖掘的概念数据挖掘的方法在工程项目投资决策与融资决策中的应用敏感性分析
数据挖掘及在工程项目投资决策中的应用数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的有效方法。数据挖掘的概念数据挖掘及在工程项目投资决策中的应用数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的有效方法。数据挖掘的概念数据挖掘及在工程项目投资决策中的应用数据挖掘方法利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、线性规划、神经网络等,它们分别从不同的角度对数据进行挖掘。常见数据挖掘方法如书中表9-3所示。数据挖掘及在工程项目投资决策中的应用工程建设项目投资决策的基本程序和主要内容,包括费用与效益估算、资金来源与使用计划、财务分析等,借助数据挖掘对工程项目投融资决策进行财务分析是趋势也是必要。示例:单位产品生产成本估算的Python实现importpandasaspdimportnumpyasnpdf_output=pd.DataFrame(np.zeros((16,6)))df_output.iloc[0,0:6]=['序号','项目','单位','消耗金额','单价','金额']height,width=df_output.shapedf_output.iloc[1:16,0]=[1,'','','','','',2,'','','','',3,4,5,6]df_output.iloc[1:16,1]=['原材料、化工料及辅料','A','B','C','D','小计','燃料及动力','水','电','煤','小计','工资及福利费','制造费用','','单位生产成本(1+2+3+4+5)']df_output.iloc[1:16,2]=['','件','件','件','件','','','吨','度','吨','','','','','']df_output.iloc[2:6,3]=[1,1,0.8,0.1]df_output.iloc[8:11,3]=[150,100,0.05]df_output.iloc[2:6,4]=[450,160,20,240]df_output.iloc[8:11,4]=[0.4,0.2,200]df_output.iloc[12,5]=40df_output.iloc[13,5]=60foriinrange(2,6):#计算1原材料、化工料及辅料A、B、C、D单项金额
df_output.iloc[i,5]=df_output.iloc[i,3]*df_output.iloc[i,4]#计算计算1原材料、化工料及辅料总金额df_output.iloc[6,5]=sum(df_output.iloc[2:6,5])foriinrange(8,11):#计算2水、电、煤单项金额
df_output.iloc[i,5]=df_output.iloc[i,3]*df_output.iloc[i,4]#计算2燃料及动力总金额df_output.iloc[11,5]=sum(df_output.iloc[8:11,5])#计算6单位生成成本(1+2+3+4+5)df_output.iloc[15,5]=df_output.iloc[6,5]+df_output.iloc[11,5]+sum(df_output.iloc[12:15,5])df_output.replace(0,np.NaN,inplace=True)df_output.to_excel('Table-1-3.xlsx',index=False,header=None)数据挖掘及在工程项目投资决策中的应用敏感性分析是通过分析项目不确定性因素发生增减变化时,对财务或经济评价指标的影响,并计算敏感性指数和临界点,找出敏感因素,并采取措施限制敏感因素的变动范围达到降低风险目的的分析方法。敏感性分析的计算结果应采用敏感性分析表和敏感性分析图表示,既可以用Python实现,亦可借助excel中的敏感性分析功能实现。敏感性分析双因素函数分析图第四节数据可视化数据可视化的概念数据可视化的作用数据可视化的方法数据可视化的工具数据可视化通过图表形式展现数据,帮助用户快速、准确理解信息。准确、快速是可视化的关键。借助于图形化手段,清晰有效地传达与沟通信息同时对数据进行交互分析。数据可视化概念为什么需要?由于人类大脑在记忆能力的限制,所以我们利用视觉获取的信息量多于感官,在大数据与互联网时代,各机构从传统的流程式管理方式过渡到基于数据的管理方式将会成为必然的趋势,数据可视化能够帮助分析的人对数据有更全面的认识。
数据可视化数据可视化的作用化繁为简,实现可视化更快发现新趋势、新机遇有效增强数据交互性数据可视化数据可视化的方法图数据可视化多维数据可视化时空数据可视化文本数据可视化数据可视化的工具Excel可视化工具信息图表工具Python图形绘制与可视化数据可视化frompyecharts.chartsimp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 残疾人日常生活护理技巧
- 护士非语言沟通对患者心理健康的积极作用
- 新生儿护理基础
- 护理神经护理培训计划
- 安全生产规定审议流程
- 2026年农发行政策性业务考核试题及答案
- 角磨机安全操作规程
- 2026年儿科护理规范考核题库及答案
- 公司行政接待管理制度
- 船舶修造高处坠落应急演练脚本
- 2025年下半年浙江杭州市萧山区国有企业招聘人员笔试历年参考题库附带答案详解
- 2026年70周岁以上驾驶人三力测试模拟题
- 2026年4月23日四川省宜宾市五方面人员选拔笔试真题及答案深度解析
- 2025年四川省从“五方面人员”中选拔乡镇领导班子成员考试历年参考题库含答案详解
- GB/T 17498.6-2026室内固定式健身器材第6部分:跑步机附加的特殊安全要求和试验方法
- Costco开市客数据应用研究
- 贵州医科大学考博英语真题
- 大学图书馆施工组织设计(标准的毕业设计范文)
- 上海市建设工程责任终身制承诺书
- 浙江省教师资格认定体检标准
- 《材料分析测试技术》全套教学课件
评论
0/150
提交评论