大数据财务决策 课件_第1页
大数据财务决策 课件_第2页
大数据财务决策 课件_第3页
大数据财务决策 课件_第4页
大数据财务决策 课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据财务决策常用方法“大数据财务决策第三章01聚类分析聚类分析是关于分组或划分数据的方法,目的是发现隐藏在数据中的潜在结构。聚类分析作为从数据中获取知识的重要途径,是数据挖掘和机器学习的一个重要研究领域。定义及算法种类基于划分的聚类方法⑴K-均值(K-means)聚类算法实施步骤(2)尽means++聚类算法实施步骤(3)K-中心点(K-medoids)聚类实施步骤主要实施步骤基于层次的聚类方法基于层次的聚类方法的实施步骤如下:首先,将数据集中的每个样本作为一个簇;其次,根据不同簇中最近样本间的距离找到最近的两个簇,合并这两个簇,生成新的簇的集合;最后,合并的过程反复进行,直至不能再合并或者达到终止条件为止。终止条件为:①设定一个最小距离阈值d,如果最相近的两个簇间的距离已经超过d,则无须合并,即聚类终止;②限定簇的个数*,如果得到的簇的个数巳经达到妇则聚类终止。主要实施步骤基于密度的聚类方法的实施步骤如下:①通过检查数据集中各个点的,-邻域来搜索簇,如果点p的A邻域包含的点多于设定值,则创建一个以戸为核心对象的簇;而将在核心点邻域内的噪声点则标记为边界点;②迭代地聚集从这些核心对象直接密度可达的对象,并对所有的密度可达簇进行合并;③重复①和②,直到没有新的点添加到任何簇时,该过程结束。基于密度的聚类方法主要实施步骤基于划分的聚类方法⑴K-均值(K-means)聚类算法实施步骤(2)尽means++聚类算法实施步骤(3)K-中心点(K-medoids)聚类实施步骤主要财务应用领域02分类方法1.决策树的基本原理决策是根据信息和评价准则,用科学方法寻找或选取最优处理方案的过程或技术,对于每个事件或决策,都可能引出两个或多个事件,导致不同的结果或结论。把这种分支用一棵搜索树表示,即叫做决策树。2.决策树分类的主要实施步骤:(1)决策树的构建(2)决策树的修剪基于决策树的数据分类1.支持向量机的工作原理SVM是一个二分类或多分类的分类模型。SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(对特定训练样本的学习精度,Accuracy)和学习能力(无错误地识别任意样本的能力)之间寻求最佳折中,以期获得最好的推广能力(或称泛化能力)。基于支持向量机的数据分类2.支持向量机算法步骤第一步:识别训练样本中的正负样本,统计样本总数m、特征向量维数〃,建立训练样本的向量矩阵T;第二步:将样本的特征向量写入向量矩阵,如正样本』,读取&中的特征项,假设第z•个特征项为0.123,则7I0][z]=0.123o第三步:引入核函数,高斯核函数的公式为第四步:根据最优决策面公式可得第五步:SVM分类器一次训练过程完毕基于支持向量机的数据分类1.二元logistic回归模型的原理①选择能够代表待分类对象特征的自变量,同时对每个自变量选择合适的量化方法。②定义自变量的线性组合V,即针对自变量的线性回归结果。③将线性回归结果y映射到logistic回归函数,生成一个0〜1范围取值的函数概率值。④根据概率值,定义阈值(通常为0.5),判定分类结果的正负。⑤重复以上步骤①〜④,直到得出满意的分类结果。2.二元logistic回归模型的主要实施步骤基于逻辑回归的分类方法1.成本分析利用分类分析方法能帮助管理者确定成本动因,更加准确计算成本。同时,也可以通过分析成本与价值之间的关系,确定采用其最佳策略的成本,持续改进和优化企业价值链。管理者可以利用数据分类工具来评价企业的财务风险,建立企业财务危机预警模型,进行破产预测。破产预测或称财务危机预警模型能够帮助管理者及时了解企业的财务风险,提前采取风险防范措施,避免破产。2.财务风险分析主要财务应用领域03回归分析1.求解大数据逻辑回归分析的正则化问题描述2.求解大数据正则化逻辑回归问题的方法在大规模问题下,分布式计算是一种提升计算效率的重要方法,随机坐标下降法对分布式数据有种天然优势,同时随机坐标下降法也适用于稳定数据,在迭代过程中,坐标下降法无法收敛,而随机坐标下降法通过其随机性跳出循环的迭代值,达到收敛。基于大数据的回归分析方法1.贷款违约预测(1)样本和指标的选择和数据的预处理(2)预测结杲与分析基于大数据的回归分析的财务应用领域2.上市公司财务预警(1)样本和指标的选择和数据的预处理(2)预警结果与分析基于大数据的回归分析的财务应用领域04关联规则分析关联规则是数据挖掘知识模式中比较重要的一种。关联规则模式属于描述型模式,挖掘关联规则的算法属于无监督学习范畴。关联规则的概念是AgrawakImielinski、Swami提出,隐含于数据中的一种简单而实用的知识模式,是对一个事物和其他事物相互关联的一种描述。针对数据而言是发现数据中项集之间潜在的关联或依赖联系。关联规则分析010203①关联规则:反映一个事物与其他事物之间的相互依存性和关联性。如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物发生就能够预测与它相关联的其他事物的发生。②关联规则分析:用于发现隐藏在大型数据集中令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。关联规则挖掘问题:给定事务的集合"关联规则发现是指找出支持度大于或等于minsup并且置信度大于或等于minconf的所有规则,minsup和minconf是对应的支持度和置信度阈值。定义及算法Apriori算法Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法。该算法的先验原理是:如果一个项集是频繁的,则它的所有子集一定也是频繁的;相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。该算法的核心思想是通过对候选集的产生和对情节的向下封闭检测这两个过程来挖掘频繁项集。与最小支持度相比较的情况下,大于或等于的集合为频繁项集,其中的支持度用于表示给定数据集的频繁程度。定义及算法FP-Growth算法FP-Growth算法是釆用树结构对事务进行压缩的同时,保留事务当中属性之间的关系。该方法并不会产生候选项集,而是通过加大频繁集方法进行数据的挖掘。定义及算法CARMA算法CARMA算法的提出是为了在交易集合。中找出数据项频集的集合。CARMA算法的过程是将整个交易集合进行遍历两次,所以算法可以分为两个步骤,分别为第一次PhaseI遍历、第二次PhaseII遍历。在第一次的遍历中会产生一个超集,也就是数据项频集的集合,称之为数据项频集的潜在的集合(PotentiallyLargeItemsets)0在第二次的遍历过程中会把第一次遍历所产生的集合进行删减,从而得到最终的结果。定义及算法基于距离的量化关联算法最初关联规则的挖掘都是针对交易数据库进行的,即布尔型关联规则的挖掘,使用的都是经典的Apriori算法。但实际生活中关系型数据库应用广泛,并且大部分包含量化属性,如工资、年龄。由于量化属性的有序性和多值性,区间划分成为量化关联规则挖掘的预处理方法,即把量化属性离散化,转化成布尔型数据,再使用经典的Apriori算法进行挖掘。定义及算法①生成候选集:找出候选集,即有可能成为频繁集的项集。②生成频繁集:通过数据库扫描筛选出满足条件的候选集组成频繁集。③生成关联规则:用得到的频繁集生成关联规则。•对于每个频繁项集£,产生匕的所有非空子集。•对于£的每个非空子集s和它的补集a-s),如果条件概率大于最小置信度阈值,则输出规则“ST(L-s)”。1.Apriori算法步骤(1)对原始FP树的创建①对事务集合所进行扫描,将符合支持度计数条件的项找出来,把这些得到的项合并1-频繁项集合K,按照支持度计数把K降序排列从而得到K_nullo对原始FP树的构造,同时将“Null”设置为根节点。。2.FP-Growth算法步骤主要实施步骤③项头表的构建。在项头表中一个频繁项用每一行来表示,并且用相应的指针向FP树中的节点,这样可以使得遍历原始FP树变得更加方便。④对事务集合甲进行扫描,将根据K_null对所中的所有事务项的顺序进行整理。对每个整理后的事务建立一个事务分支。(2)通过递归的方法在FP树上找出全部的最大频繁项集①通过递归的方法在FP树上搜索频繁项集,要是单独一个分支在FP树上,那么在这个分支上的所有节点的结合就是一个前缀模式。②釆用同样的方法在条件FP树上寻找频繁项集。③将所有的最大频繁项集都进行取子集的操作,当中的每个子集作为一个频繁项集。①第一次PhaseI遍历:在第一次的遍历中会产生一个超集,也就是数据项频集的集合,称之为数据项频集的潜在的集合(PotentiallyLargeItemsets)。②第二次PhaseII遍历:在第二次的遍历过程中会把第一次遍历所产生的集合进行删减,从而得到最终的结果。3.CARMA算法步骤主要实施步骤①对某量化属性进行聚类,形成满足要求的簇。为了能把属性间的关系考虑进来,用聚类算法对数据的所有属性整体进行聚类,找岀满足稠密度和频繁度阈值的簇,然后这些簇投影到用户所关心的各个数值型属性上。这样就可以得到簇在各属性上的投影区间。②将簇组合得到基于距离的关联规则。将上步产生的区间内的数据作为在各属性上的簇,再将簇组合,根据基于距离的关联规则的定义,找出满足条件的簇组合,最后形成规则。4.基于距离的量化关联算法步骤主要实施步骤公司在经营发展过程中对于客户信息的管理非常重要,在公司数据库中及时地录入各种客户信息,通过对这些客户的数据进行充分的挖掘,较为全面地抽象出每一个用户的信息全貌。然后分析这些用户的行为,最终为每个用户打上标签,以及该标签的权重,这样能够快速了解客户情况并且方便计算机进行处理。对公司客户的流失、忠诚度以及价值贡献等信息进行关联分析,充分保证每个客户的行为规律都能够被充分地掌握。同时还可以追踪重要客户,确保公司为重要客户提供信息的全面性以及针对性。1.客户画像分析主要财务应用领域关联规则在现实中的应用主要体现在销售系统当中,即确定产品与产品之间的关联性,考虑产品之间的共同趋势。2.产品销售预测主要财务应用领域运用数据挖掘技术进行数据分析可以在一定程度上降低企业未来可能面临的风险。例如,可以在网易财经、任意券商平台上搜集所有ST公司四大主要财务指标数据,并剔除掉含有异常或残缺数据的公司。然后,把选取的财务指标输入SAS软件,使用Apriori算法进行数据关联挖掘,通过设置不同的置信度值和支持阈值,在财务指标之间寻找关联规则数目,从而找出企业发生危机时哪些指标会频繁出现。对于这些频繁出现的风险性财务指标,企业可以密切关注并提前采取措施进行预防。。3.风险预测主要财务应用领域05离群点分析Hawkins在1980年给出了离群数据的最初定义:“离群数据是数据集中一些特殊的数据对象,这些对象同数据集中其他对象明显不同,从而使人怀疑这些特殊的数据对象不属于随机误差或方差,可能由另一种截然不同的机制产生。”离群点检测和聚类分析是两个高度相关的任务。聚类分析发现数据集中的相似模式并将其组织成聚簇,而离群数据挖掘同聚类分析正好相反,它旨在发现不相似对象,试图捕捉那些偏离多数模式的例外情况。离群点检测和聚类分析有着不同的用途。离群数据挖掘与数据演化中的新颖性检测有关。内涵及特征1.基于距离的离群挖掘方法该类算法的核心步骤是需要反复计算对象与对象之间的距离,因此,具有较高的时间复杂度。一种特殊的基于距离的离群挖掘是提出密度的概念,釆用密度来判断离群,主要应用在局部离群数据检测。2.基于近邻的离群挖掘方法该类方法可以看成是基于距离或基于密度方法的扩展,能适用于海量高维的数据特征,可用于天体光谱、物联网、医学等应用领域。主要方法及实施步骤3.基于子空间的离群挖掘方法基于子空间的离群挖掘方法是通过搜索子空间来检测异常值。多数传统算法是从数据集的全维空间中来检测离群数据,但随着海量、高维数据的涌现,从部分属性上检测离群数据具有更高价值。通常情况下,高维空间中的数据对象是稀疏的,因而源于部分维度而不是源于整个空间的离群数据是更加精确、有意义的。主要方法及实施步骤1.内部审计中的大数据孤立点分析在金融内部审计里,使用大数据孤立点分析能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论